fogrimmi

Transcription

fogrimmi
Présentation des projets financés au titre de l’édition 2006 du
programme "Masse de Données Connaissance Ambiante"
ADDISA - Assimilation de Données Distribuées et Images Satellite
2
AVEIR - Automatic annotation and Visual concept Extraction for Image Retrieval
6
DALIA - Data trAnsfert for Large Interactive Applications
9
DNA - Détails Naturels : modélisation, simulation et visualisation de scènes naturelles
complexes et réalistes, embarquant de nombreux détails
11
DOCFLOW - analysis, monitoring and optimization of Web documents and services
13
EPAC - Exploration de masse de documents audio pour l'extraction et le traitement de la
parole conversationnelle
16
FLAMENCO - Modélisation de scène spatio-temporelle
18
FOGRIMMI - FOuille de GRandes IMages Microscopiques
20
GWENDIA - Grid Workflow Efficient Enactement for Data Intensive Applications Grid
Workflow Efficient Enactement for Data Intensive Applications
23
ICOS-HD - Indexation et compression scalables et conjointes pour la gestion de contenus
vidéo de Haute Définition
25
INFILE - Information, Filtrage , Evaluation
26
NAVIDOMASS - NAVigation In DOcument MASSes
29
PASSAGE - Producing Large Scale Syntactic Analysis to move forward
33
PlasmoExplore - Fouille des données génomiques et post-génomiques de Plasmodium
falciparum, qui est l'agent principal de la malaria, pour prédire la fonction des gènes
orphelins et identifier de nouvelles cibles thérapeutiques
36
VORTISS - Reconstruction d'organes pour l'interaction temps réel en simulation
chirurgicale
39
Certains résumés de projets ont été rédigés en langue anglaise par les coordonnateurs
de projets
1
Titre du projet
ADDISA
Assimilation de Données Distribuées et Images Satellite
Résumé 1. Contexte et motivation du projet
La mauvaise prévision des événements extrêmes en météorologie et
en océanographie a des conséquences dramatiques. Les spécialistes
ont l'obligation morale et institutionnelle de réaliser une prévision
précoce de ces événements afin d'alerter les autorités aussi tôt que
possible et d'éviter les dommages importants aux biens et aux
personnes. Les événements pour lesquelles ces prévisions sont
fondamentales concernent par exemple : les tempêtes, le brouillard,
les événements de neige ou de gel, les raz de marée, etc. Des
précurseurs de ces phénomènes sont pourtant visibles sur les
images satellitaires, mais ils ne sont généralement pas utilisés pour
la prévision. Par ailleurs, dans certains domaines géophysiques, telle
que l'océanographie, le réseau d'observation n'est pas suffisamment
dense pour obtenir une prévision de grande qualité. Les données
d'observation de la terre, qui représentent un volume gigantesque
de données complémentaires, sont toutefois largement sousutilisées. Ces données deviennent donc fondamentales pour
améliorer autant que faire se peut la qualité de la prévision. La
prévision numérique se heurte à de nombreuses difficultés :
-
-
La non-linéarité des écoulements géophysiques induit des
interactions entre les différentes échelles d'espace et de temps
ainsi qu'entre les différentes composantes de l'environnement
physique (océan, atmosphère),
La connaissance que l'on a de ces phénomènes est fortement
hétérogène :
- Information de type mathématique, obtenue en écrivant les
lois de conservation. On obtient généralement un ensemble
complexe d'Equations aux Dérivées Partielles non linéaires.
- Information de type physique, issue de mesures in situ et à
distance.
- Information de type statistique, obtenue par des données
historiques.
- Information fournie par les images, en particulier issues de
l'observation spatiale.
La mise en œuvre de la prévision numérique dans le contexte des
écoulements géophysiques requiert la reconstitution de l'état du
fluide, à un instant initial, en utilisant toutes les sources
d'information potentiellement disponibles. C'est la problématique de
l'Assimilation de Données. Les méthodes d'assimilation, fondées
sur les méthodes de contrôle optimal ou sur celles de l'estimation
statistique optimale, ont été proposées dès les années 1980,
notamment par certains participants de ce projet (INRIA), puis mises
en œuvre dans un cadre opérationnel (en particulier par
MétéoFrance et le LEGI). Ces méthodes sont maintenant utilisées
dans les plus grands centres météorologiques et océanographiques
dans le monde.
2
A
l'heure
actuelle,
les
outils
d'assimilation
permettent
essentiellement d'utiliser les trois premiers types d'information,
énumérés ci-dessus. Toutefois, en dépit de leur important potentiel
informatif et de la possibilité d'y visualiser les précurseurs des
événements extrêmes, les images et leur dynamique temporelle ne
sont pas utilisées de façon systématique pour la prévision, et ceci
faute d'un cadre méthodologique approprié.
La présente proposition a donc pour objet l'extension de
l'assimilation de données aux images, notamment celles acquises par
des capteurs embarqués sur satellite. Les problèmes de données
massives apparaissent alors : une année d'acquisitions satellite
METEOSAT seconde génération représente environ 35000 images,
pour un volume de données de 52To. Par ailleurs, intégrer
l'information image dans le processus d'assimilation de données ne
fait que renforcer le caractère hautement hétérogène (différentes
données in situ, différents modèles, différentes images représentant
des informations physiques de nature variée,...) et naturellement
distribué (les modèles, les données, les images ne sont pas stockées
sur les mêmes sites) du processus. Ce constat de sous utilisation des
images existe dans d'autres disciplines connexes, telles que
l'hydrologie (l'observation spatiale du lit majeur d'un fleuve lors
d'une crue n'est utilisée de façon optimale dans les modèles), la
glaciologie (exploration par radar des glaces polaires), la
climatologie, ... On se restreindra néanmoins dans cette proposition
à l'étude des fluides géophysiques, en météorologie et en
océanographie. Nombre d'exemples et d'arguments justificatifs
présentés dans le texte concernent la météorologie, en raison de
l'impact médiatique des événements tels que les tempêtes et les
cyclones. Mais il ne faut pas oublier le caractère illustratif de ces
exemples
:
l'important
est
que
l'argumentation
reste
systématiquement valide pour un ensemble de domaines. Par
ailleurs, la participation à ce projet d'un partenaire officiellement en
charge de la prévision, tel que Météo France, garantit que des
solutions opérationnelles seront apportées à cette nouvelle
problématique de gestion des données massives distribuées et
hétérogènes pour l'amélioration effective des prévisions.
2. Retombées scientifiques et techniques attendues
2.1.Retombées Scientifiques
Le projet ADDISA a pour but de construire et tester des méthodes
pour assimiler, dans les modèles de simulation géophysique,
l'information spatiale et dynamique contenue dans les images
satellite, afin d'améliorer la prévision. L'approche développée est une
extension au cas des images d'une méthode variationnelle, fondée
sur la théorie du contrôle optimal, initiée par un partenaire du projet
et utilisée quotidiennement par les plus grands centres opérationnels
en météorologie. L'utilisation, par les partenaires spécialistes en
météorologie et en océanographie, des méthodes développées
3
permettra l'amélioration de la prévision des événements extrêmes en
météorologie et en océanographie, et de suppléer aux manque de
données pour la prévision de la circulation océanique.
Les méthodologies, qui vont être définies dans ce projet, seront pour
une large part génériques (c'est une des motivations du travail) et
pourront être ultérieurement appliquées à différents systèmes
physiques nécessitant une prévision de grande qualité. Par exemple
on peut citer dans le domaine géophysique : l'alerte aux tsumamis, la
prévision de crue et de sécheresse, la qualité de l'air (la prévision des
événements correspondant à des concentrations élevées en ozone),
le suivi de nuage de fumées pour les pollutions industrielles, les
incendies et les volcans, le suivi des nappes de pétrole ou autres
polluants. Dans le domaine médical, on peut par exemple citer la
prévision précoce d'alertes cardiaques.
2.2Conséquences sur le Rôle Français en Assimilation de
Données en Météorologie.
La France a une position forte en assimilation de données et en
modélisation d'événements météorologiques. Mais actuellement la
communauté française, comme européenne ou même mondiale,
utilise
généralement
les
données
des
capteurs
satellite
météorologiques dans le processus d'assimilation sous la forme
d'une donnée ponctuelle. Il est particulièrement perturbant de
constater que les spécialistes chargés de la prévision utilisent les
toutes nouvelles images satellite pour « critiquer » la valeur de leurs
prévision, mais pas pour les produire. Définir des méthodes
permettant
l'assimilation
des
images
dans
les
modèles
météorologiques, devrait permettre de renforcer la position française
sur ce sujet, voire même lui donner une position de leader.
3. Retombée économiques et sociales escomptées
Cette étude, en représentant un investissement budgétaire limité
(quelques hommes/an) devrait permettre d'aboutir à une
amélioration significative de la capacité des centres de prévision
météorologiques et océanographiques à fournir des alertes précoces
sur :
-
-
Le suivi et l'intensité de tempêtes extrêmes, telles que celle ayant
eu lieu en Décembre 1999 sur l'Europe de l'Ouest.
Le suivi et l'intensité de cyclones tropicaux, tels que l'ouragan de
2005 en Louisiane,
La formation de brouillard et de gel, avec leurs conséquences
visibles sur le trafic routier et aérien,
Les systèmes convectifs violents, telles que les précipitations
intenses dans la région méditerranéenne ou les orages violents
et très locaux qui engendrent des crues éclairs et l'interruption
du trafic, en particulier aérien.
Les raz de marée liés par exemple aux phénomènes de tempêtes
et
de
cyclones.
4
L'amélioration de telles prévisions, diffusées par les autorités civiles
et les media, permettra à la société (le grand public, les compagnies,
les administrations, etc.) de prendre les mesures appropriées afin
de :
-
réduire l'impact négatif de ces phénomènes en protégeant les
biens et les personnes,
de réagir plus rapidement aux événements en apportant l'aide
immédiate nécessaire aux communautés touchées.
Le bénéfice économique (obtenu en réduisant les dégâts causés par
les événements extrêmes) est de plusieurs ordres de grandeur plus
important que le coût estimé de ce type d'étude. Les bénéfices
économiques et sociaux seront encore plus importants pour les
populations des pays en voie de développement et celles du tiersmonde, car ces régions sont encore plus vulnérables aux événements
tels que les typhons, les moussons, les crues
Partenaires INRIA / INRIA Rhône Alpes (partenaire coordinateur)
Météo-France / GAME
Université Joseph Fourier / LEGI
CNRS / MIP
INRIA / INRIA Rocquencourt
Coordinateur François-Xavier LE DIMET
Aide de l'ANR 357 762 €
Début et durée Janvier 2007 – 36 mois
Référence ANR-06-MDCA-001
5
Titre du projet AVEIR
Automatic annotation and Visual concept Extraction for Image Retrieval
xte et motivation
Résumé Contexte et motivation
Retrieving images in very large databases has been an active field for
several years now. Image retrieval systems roughly fall into two
categories: content based image retrieval (CBIR) and retrieval using
manual keyword annotation. For CBIR, queries are images, image parts
or sometimes mixture of drawing and image characteristics. This
approach never succeeded to close the semantic gap between user
information need and the expressiveness limit of query by sample
techniques in the image domain. Web search engines (e.g. Google,
Yahoo) have developed image retrieval techniques relying on keyword
annotations of images which are limited to simple keyword queries. Both
approaches have up to now failed to reduce the well known semantic
gap between user expectations and image expressive power. CBIR is
mostly limited to (sometimes complex) comparisons based on low image
features. Retrieval by text is limited, due to its weak recall: only images
that were indexed with high confidence can be accessed while others are
ignored. Besides, such search engines completely fail whenever the user
is interested in the visual aspects of the image itself.
A new emerging and maybe more challenging field in this domain is the
automatic concept recognition from visual features. It relies on two key
issues: "feature detection and rich image representation and indexing"
and robust and accurate "image annotation". The project targets these
two specific problems and proposes new and original solutions.
The overall goal of the project is to enrich image retrieval systems with
semantic indexation and annotation and with symbolic relational
description, all being automatically extracted and built from the textual
and image content of documents and web pages. This semantic and
symbolic information will be used in order to reduce the visual ambiguity
in images and to enhance the retrieval of images from large databases.
As for the target application, we will consider in this project multi
thematic general families of images such as those found on web pages,
documents and professional collections like the classical Corel database.
The project will develop 3 research axes.
The first axis is focused on image analysis, feature extraction and visual
feature representations. Most annotation systems divide images into
blobs and annotate the collection of blobs. The originality of our proposal
is to bypass this baseline approach and to develop rich image
representations. First, state of the art image segmentation algorithms
focusing on robustness of the segmentation will be used for identifying
salient components of the image and on spatial relations between them
(geometry, topology, adjacency) will be extracted, both imbedded in a
high level attributed graph representation. Second, the representation
will rely on multiple views (facets) of the image.
The second axis is concerned with the automatic labeling of image
6
components or objects with textual concepts. Labeling is formulated
here as a classification problem where the labels are noisy and defined in
an imprecise way. Labels are often defined at the global image level (not
at the targeted component level) and with uncertainty. We propose to
explore different formal statistical settings developed in the machine
learning (ML) community and to adapt some ML paradigms for the
annotation problem in order to make this labeling task fully automatic.
The techniques we propose to use heavily rely on state of the state of
the art and new machine learning methods.
The third axis considers image retrieval and evaluation of the proposed
algorithms. Retrieval will offer the possibility to use the rich image
representations developed in the first axis, allowing the user to use high
level semantic queries. Fusion of visual and semantic queries will be
studied in this axis. Tests will be performed on classical benchmarks and
annotated collections will be developed in the project and released as
project deliverables. Tests will then be performed on different
multimedia document collections and specific annotated corpora will be
developed for the project and made available to the community. Four
academic teams cooperate for the project. They have complementary
skills as indicated below :
ENST: image analysis, image representation and modeling, data
fusion
- CLIPS: multimedia information retrieval
- LIP6: machine learning
- LSIS: retrieval and integration of heterogeneous information, image
annotation
techniques attendues
-
Retombées scientifiques et techniques attendues
The main results expected at the end of the AVEIR project are:
-
-
definition of a model that represent different facets (views) of the
images
definition of probabilistic approaches for the automatic annotation of
usages according to the image content and text describing the
images,
definition of a set of test collections for the evaluation of image
annotation and retrieval
prototype of image retrieval system based on the different advances
of AVEIR.
Multi-facets descriptions allow reducing image ambiguity and open
promising perspectives for querying large image databases. The
semantic labeling of complex image descriptions is however an open
problem. For now, simple blob like representations have been used for
automatic annotation. Adapting complex representations for general
families of image databases is also challenging.
We believe that the proposed approach has the potential to meet these
challenges so as to bypass the limitations of the current approaches.
7
The project handles both very practical problems (design of efficient and
expressive
image search
engines)
and
open
theoretical
problems
in
the
domains
of visual
concept representation,
semantic concept extraction and machine learning problems.
Retombées industrielles attendues
Developing robust and accurate solution for the automatic semantic
annotation of images has important consequences for many applications
in the multimedia domain. The project will provide principled methods
for this problem which could be developed for large scale application by
future industrial collaboration. This project may have a strong impact for
the development of national and European R&D projects.
1.
Partenaires Université Pierre et Marie Curie / LIP6 (partenaire coordinateur)
CNRS / LTCI-GET/ENST Paris
Université Joseph Fourier / CLIPS
Université Paul Cézanne / LSIS
Coordinateur Patrick GALLINARI
[email protected]
Aide de l'ANR 372 917 €
Début et durée Janvier 2007 – 36 mois
Référence ANR-06-MDCA-002
8
Titre du projet DALIA
Data trAnsfert for Large Interactive Applications
Résumé Contexte et motivation
Le projet Dalia a pour objet la visualisation, l'interaction et la
collaboration dans les environnements distribués hétérogènes (thème 4
de l'appel à proposition). L'objectif est d'étudier les applications
collaboratives/interactives 3D traitant de grandes masses de données.
Les données sont de deux natures :
-
-
statiques : ce sont les modèles numériques des environnements
virtuels dans lesquels s'exécutent les applications (MNT, villes,
usines, véhicules ...)
dynamiques : ce sont des données issues de capteurs (position GPS,
température, pression ...) ou de calculs (simulations numériques par
exemple).
Ce type d'application agrège des ressources distribuées d'acquisition,
stockage, calcul et visualisation, formant ainsi une infrastructure de "
grille interactive". Pour ne pas restreindre les applications à un type
d'équipement particulier, nous envisageons de prendre en compte des
matériels très différents, depuis le grand écran projeté jusqu'au terminal
mobile en passant par la station de travail standard. Cette hétérogénéité
enrichit de façon importante les scénarios envisageables mais rajoute
une complexité supplémentaire à la problématique générale.
Ce type de grille soulève des problèmes spécifiques liés à l'interactivité.
L'application doit être capable de s'adapter dynamiquement au contexte
d'exécution (bande passante réseau, capacité mémoire, puissance de
rendu, etc.) pour optimiser la latence, la taux de rafraîchissement, la
qualité du rendu et de l'interaction. Nous proposons d'étudier ces
problèmes encore peu abordés dans le contexte des grilles au travers de
3 axes: le transfert de données, la télé présence (représentation
virtuelle des utilisateurs dans l'espace virtuel partagé), et les techniques
d'interaction.
L'une des tâches de Dalia sera de mettre en place une "grille interactive"
expérimentale à partir des plateformes existantes d'Orléans (grappe de
PC et mur d'images), Bordeaux (grappe de PC, environnement multiprojecteurs reconfigurable) et Grenoble (grappe de PC, mur d'images et
portique multi-caméras). A notre connaissance ce sera la première
infrastructure de ce type en France.
La mise en place de cette plateforme ainsi que le savoir-faire acquis sont
des retombées importantes du projet. L'expérimentation à grande
échelle nous conduira probablement à identifier de nouvelles
problématiques. La visibilité d'une telle plateforme nous permettra aussi
de se positionner comme des acteurs majeurs de cette thématique sur la
scène européenne et internationale. En particulier, Dalia s'articule
naturellement avec le "pilier" "Simulation, visualisation, interaction and
mixed realities" du FP7.
9
Partenaires INRIA / INRIA Rhône-Alpes (partenaire coordinateur)
Université d'Orléans / LIFO
INRIA / INRIA Futurs
Coordinateur Bruno RAFFIN
Aide de l'ANR 414 608 €
Début et durée Janvier 2007 – 36 mois
Référence ANR-06-MDCA-003
10
Titre du projet DNA
Détails Naturels : modélisation, simulation et visualisation de scènes
naturelles complexes et réalistes, embarquant de nombreux détails
exte et motivation du projet
Résumé Contexte et motivation
La modélisation, la simulation et le rendu de scènes naturelles
complexes représente un défi fondamental pouvant avoir des
implications non seulement dans l'industrie du loisir mais aussi dans
d'autres domaines comme l'aménagement de terrains, la prévention
des risques et la préservation du patrimoine historique. Un certain
nombre de techniques très spécifiques ont déjà été proposées dans le
cadre de l'aménagement de terrains, permettant de simuler les
écosystèmes résultants et certaines catégories de végétaux.
Malheureusement, ces modèles sont si différents qu'ils n'ont pas, à ce
jour, été regroupés dans un environnement de travail cohérent. Le
problème principal réside dans la complexité et la diversité des objets en
présence, de leurs interactions mutuelles ainsi que de leurs interactions
avec leur environnement. Des images impressionnantes de réalisme ont
été déjà produites par les chercheurs en synthèse d'images et artistes
de l'industrie du film. Cependant, ces rendus sont souvent trop "lisses",
les objets trop propres et parfaitement neufs, trahissant ainsi leur
nature synthétique. Des détails comme les feuilles mortes tombant en
automne, la présence de mousses et de lichen, les fissures et fractures,
la présence de coquillages dans le sable ou encore la rouille et l'érosion
des objets naturels ou manufacturés sont totalement incontournables
dans la nature. Pour prendre en compte ces phénomènes, le
développement d'un environnement complet est nécessaire. Celui-ci
doit être capable de prendre en compte et de gérer de très grandes
masses de données caractérisant tous ces "petits" détails qui jouent un
rôle déterminant dans le réalisme des images de scènes naturelles.
Dans ce projet, nous proposons de mettre au point un tel
environnement, dont l'objectif est de coupler modélisation et simulation
de ces détails et de leur évolution sur des objets complexes et
hétérogènes. Nous proposons de prendre en compte les matériaux
organiques (végétaux) ainsi que les matériaux minéraux (sable,
métaux, pierres).
Retombées scientifiques et techniques attendues
Ce projet innovant contribuera aux recherches fondamentales menées
actuellement dans la conception de mondes virtuels complexes. Le
groupe de partenaires réunis est porteur d'expertises complémentaires
couvrant l'ensemble des compétences requises par le projet, couvrant
une grande diversité d'approches scientifiques : modélisation (LIRIS),
rendu (XLIM - LSIIT) et réalité virtuelle (LSIIT). Les partenaires du
projet DNA poursuivent tous un même objectif: la simulation et la
visualisation d'une très grande masse de détails dans les scènes
naturelles complexes.
Le projet DNA devrait ouvrir de nombreuses pistes de recherches, dans
des domaines variés et souvent très distincts. D'une part, les résultats
pourraient avoir un impacte dans le domaine du rendu temps-réel en
11
permettant d'accroître d'avantage le réalisme de ce type de rendu par
une adaptation des modèles et interfaces. D'autre part, le
développement de notre environnement pourrait être utilise et étudié
dans le cadre de la visualisation scientifique en tentant d'éviter au
maximum les simplifications que nous serons obligés d'appliquer aux
modèles physiques. De plus, le projet DNA pourrait être utilise dans des
champs d'applications non directement lies à l'Informatique. Parmi ceuxci, il est facile d'identifier le nettoyage industriel (extrêmement important
dans le cadre de la protection du patrimoine par exemple) et
l'architecture. L'objectif serait de propose rune aide au design, tentant de
détecter les zones à protéger ou nettoyer en priorité.
Partenaires CNRS / XLIM (partenaire coordinateur)
CNRS / LIRIS
Université Louis Pasteur / LSIIT
Coordinateur Stéphane MERILLOU
Aide de l'ANR 340 400 €
Début et durée Janvier 2007 – 36 mois
Référence ANR-06-MDCA-004
12
Titre du projet DOCFLOW
analysis, monitoring and optimization of Web documents and services
Context and motivation
Résumé Since the 60's, the database community has developed the necessary
science and technology to manage data in central repositories. From the
early days, many efforts have been devoted to extending these
techniques to the management of distributed data as well, and in
particular to its integration. However, the Web revolution is setting up
new standards, primarily because of:
- the high heterogeneity and autonomy of data sources,
- the increasing complexity and richness of data, and
- the scale of the Web and the diversity of interaction among its users.
On the other hand, the increasingly global economy calls for tighter
integration of global enterprises and OEM-supplier chains. At the same
time, global enterprises and OEM-supplier chains are becoming more
and more widely distributed and OEMs get constantly seeking for best
suppliers. Such distributed workflow activities must rely on a light
weight infrastructure, yet capable of providing predictable, safe, and
secure workflow execution. Recently, standard languages for service
workflow have even been proposed such as IBM's Web Services Flow
Language or Microsoft's XLang, which converged to the BPEL4WS
proposal and subsequently WSCDL proposal for choreographies. A recent
overview of existing work can be found in. The implementation of
orchestration and choreography description languages raises a number
of difficulties related to efficiency and clean semantics and
reproducibility of executions that are impairing their industrial
acceptance.
A serious shortcoming of approaches to Web Service orchestration and
choreography is that they mostly abstract data away. Symmetrically,
current approaches to Web data management typically based on XML
and XQuery rely on too simplistic forms of control.
We believe that time has come for a convergence of sophistication in
terms of control and richness in data, for workflow and data management over the Web. We believe that active Peer-to-Peer XML-based
documents provide the basis for an adequate infrastructure for this.
The overall objective of this project is thus to propose such an
infrastructure and study its mathematical foundations.
Novelty, high objectives and key expected results
- Ensuring convergence of data and workflow management with a
focus on Web information management.
- Defining an infrastructure of active Peer-to-Peer documents able to
perform stateful distributed activities.
- Providing Web compliant alternatives to existing distributed database
technology, making use of no locking mechanism.
- Developing a technology for Web services orchestrations and
choreographies, based on the central notion of document.
- Developing models and approaches to handle performance,
monitoring, and other Quality of Service aspects, for our
13
-
infrastructure of active Peer-to-Peer documents.
Developing novel techniques to strengthen some recognizedly weak
aspects of Web Services technology regarding security.
Establishing all the above on a formally sound basis.
Related work
The DocFlow project relates to several different research areas and uses
background from various communities. We briefly review these.
Distributed systems, P2P and distributed query optimization
In the context of distributed data management, distributed query
processing has been studied since the early days of databases, and in
particular in the context of mediator systems and P2P environments.
Peer-to-peer
This term refers to a class of systems and applications performing a
function using distributed resources, with no centralized control and a
dynamically evolving set of peers. Together, peers may produce
computing power as in, e.g., setiQhome, or storage space as in, e.g.,
Napster or KaZaA. Distributed hash tables are an example of popular P2P
technique. Peer computing is gaining momentum as a large-scale
resource sharing paradigm by promoting direct exchange between equal
peers. In this project, we propose a system where interactions between
peers are at the core of the data model, through the use of service calls.
XML documents with embedded Web services calls
Service calls in semi-structured data have been considered in the
context of Lore and Lorel. Other systems recently proposed languages
based on XML or other documents with embedded calls to Web services.
AXML is more powerful as it provides means of controlling and enriching
the use of Web service calls for data and workflow management
purposes, in a distributed setting. Also, AXML is a continuation of the
work on ActiveViews. The main differences with ActiveViews are that
AXML promotes peer-to-peer relationships vs. interactions via a central
repository. The activation of service calls is also closely related to the
use of triggers in relational databases, or rules in active databases.
Active rules were recently adapted to the XML/XQuery context. A recent
work considered firing Web service calls. AXML goes beyond those by
promoting the exchange of AXML data.
Data integration systems
These typically consist of data sources, which provide information, and
of mediators or warehouses, which integrate it with respect to an
integration schema. AXML takes a hybrid path between mediator
systems (the integration is virtual) and warehouses (all data is
materialized). Mappings between data sources are captured in AXML by
service calls embedded in the data.
Service composition and workflow
The integration and composition of Web services has recently been an
active field of research. Standard languages for service workflow have
been proposed such as BPEL, and the WSCDL proposal for
choreographies. A recent overview of existing work about service
composition can be found in; therein, services are communicating Mealy
14
machines together with input/output signatures on messages (given by
XML Schema types).
Mobile code
Mobile codes are programs that use mobility as a mechanism to adapt to
resource changes, cf. the Join-Calculus and the Sumatra language. In
our case, peer to peer architectures and asynchronous communication
are used; also active documents are exchanged, but our active
documents are more restricted than general code.
Distributed monitoring of networked systems
Attention has been paid to dealing with large distributed systems that
cannot be monitored as a whole, for reasons of size. Some work deviates from the above by explicitly handling available concurrency in large
distributed systems; unfolding and similar techniques are used in combination with modular algorithms, resulting in a supervision architecture
that is itself distributed.
Partenaires Université Bordeaux 1 / LABRI (partenaire coordinateur)
INRIA / IRISA
INRIA / INRIA-Futurs
Coordinateur Anca MUSCHOLL
Aide de l'ANR 489 122 €
Début et durée Janvier 2007 – 36 mois
Référence ANR-06-MDCA-005
15
Titre du projet EPAC
Exploration de masse de documents audio pour l'extraction et le
traitement de la parole conversationnelle
1 Contexte et motivation
Résumé 1. Contexte et motivation
Le projet EPAC concerne le traitement de données audio non
structurées. Il met en scène quatre laboratoires académiques : IRIT
(Toulouse), LI (Tours), LIA (Avignon), LIUM (Le Mans). Le projet EPAC a
pour but de proposer des méthodes d'extraction d'information et de
structuration de documents spécifiques aux données audio, prenant en
compte l'ensemble des canaux d'information : segmentation du signal
(parole/musique/jingle/...),
identification
et
suivi
du
locuteur,
transcription de parole, détection et suivi de thème, détection d'émotion,
analyse du discours, interactions conversationnelles, etc. Ces tâches de
traitement du signal et de la parole sont en grande partie maîtrisées par
les différents partenaires du projet dont la plupart ont participé à la
campagne d'évaluation TECHNOLANGUE/EVALDA/ESTER. Dans ce cadre
de cette campagne et grâce à la participation de l'IRIT au projet RAIVES
(Automatic Retrieval of Audio & Speech Informations, projet CNRS,
2002-2003) nous disposons d'une base d'environ 2000 heures
d'émissions radiophoniques francophones (1800 heures provenant
d'ESTER, dont l00h manuellement annotées, et 130h venant de RAIVES,
dont une grosse dizaine d'heures manuellement annotées, soit 1930
heures en tout, dont 100h manuellement annotés). En particulier, le
projet EPAC mettra l'accent sur le traitement de la parole
conversationnelle. Parmi les émissions d'information radiophoniques ou
télévisuelles, la parole conversationnelle est souvent marginale : des
techniques de détection et d'extraction de la parole conversationnelle
seront proposées et développées. Le projet mettra en place des
méthodes de traitement de ce type de parole en proposant des
descripteurs pertinents et en développant les outils nécessaires à leur
exploitation. Cette partie sera l'objet d'une collaboration entre
chercheurs en linguistique (LI, LIUM) et chercheurs en traitement
automatique de la parole (IRIT, LIA, LIUM). Enfin, un cadre d'évaluation
commun aux différents acteurs du projet sera mis en place pour
chacune des tâches étudiées. Cette évaluation portera sur une partie
des 2000 heures d'émissions radiophoniques disponibles, contribuant
ainsi à la valorisation de ces données.
2. Retombées scientifiques et techniques attendues
2.1Résultats attendus
Les résultats du projet seront validés de trois façons différentes :
-
-
Evaluation interne de chaque sous-projet en suivant les règles des
campagnes d'évaluation ESTER ou NIST.
Evaluation au travers de la participation à des campagnes
d'évaluations nationales et internationales du domaine, de type
ESTER ou NIST.
Articles scientifiques, publications scientifiques et rapports
techniques relatifs aux sujets étudiés dans le projet.
16
De plus, les résultats partiels des évaluations annuelles internes seront
publiés sur le site web du projet EPAC.
2.2Conséquences attendues
Les conséquences attendues sont diverses:
-
-
-
Disponibilité sous licence libre des outils développés durant le projet,
spécialisés dans le traitement de la parole conversationnelle.
Fourniture d'un nouveau corpus de transcriptions annotées
manuellement de 100 heures d'émissions radiophoniques,
principalement sur des enregistrements de parole conversationnelle.
Fourniture d'un corpus de transcriptions annotées automatiquement
de plus de 1700 heures d'émissions radiophoniques. Ce corpus
contiendra plusieurs sorties de systèmes de transcription
automatique (le système SPEERAL du LIA et le système du LIUM).
De plus, chaque mot reconnu sera associé à une mesure de
confiance.
Impulsion dans la communauté 'Parole' francophone par la mise à
disposition de nouvelles données et de nouveaux outils.
Développement d'interactions entre la communauté de recherche en
linguistique et la communauté 'traitement automatique de la parole'.
Partenaires Université
Université
Université
Université
du Maine / LIUM (partenaire coordinateur)
de Toulouse / IRIT
François Rabelais de Tours / LI
d'Avignon et des Pays de Vaucluse / LIA
Coordinateur Yannick ESTEVE
Aide de l'ANR 358 494 €
Début et durée Janvier 2007 – 36 mois
Référence ANR-06-CMDCA-006
17
Titre du projet FLAMENCO
Modélisation de scène spatio-temporelle
Contexte et motivation du projet
Résumé Contexte et motivation du projet
La généralisation des caméras numériques, aussi bien dans l'espace public
que pour les usages privés, crée de nouvelles possibilités et de nouveaux
besoins de visualisation et de communication. Notamment, la création de
modèles tridimensionnels dynamiques de notre environnement à partir de
ces capteurs, omniprésents et d'un coût désormais dérisoire, est appelée
à se généraliser dans la décennie à venir. Ces techniques seront un outil
privilégié pour la fabrication de mondes virtuels multi-modaux en réalité
augmentée.
Cette proposition relève les défis associés au problème de la
reconstruction spatio-temporelle d'une scène à partir de plusieurs
séquences vidéo, c'est à dire à partir d'images prises depuis différents
points de vue et à différents instants. Ce problème majeur de la
recherche en vision par ordinateur bute aujourd'hui sur trois obstacles
importants :
- le temps de calcul / la faible résolution des modèles :
l'acquisition de séquences vidéos à partir de plusieurs caméras
engendre un volume de données très important, qui rend crucial le
développement d'algorithmes efficaces. Le temps de calcul important
des méthodes existantes limite la précision spatiale de la reconstruction
et permet de traiter des séquences vidéo de quelques secondes à
peine, ce qui est prohibitif pour les applications réelles.
- l'absence de cohérence spatio-temporelle : à notre connaissance,
aucune des méthodes existantes n'est en mesure de produire des
modèles qui soient cohérents sur le plan spatiotemporel : la plupart
construisent des modèles géométriques tridimensionnels à chaque
instant sans tirer profit de la continuité du mouvement et de la
cohérence du modèle dans le temps. Ce problème requiert
l'élaboration de nouveaux outils mathématiques, algorithmiques et
informatiques dédiés à des représentations quadri-dimensionnelles
(trois dimensions d'espace plus la dimension temporelle).
- la pauvreté des modèles : l'information disponible dans les
séquences vidéo d'une scène est bien plus riche que la seule
information de géométrie et de mouvement. La plupart des méthodes
de reconstruction spatio-temporelle n'exploitent pas cette information
supplémentaire, notamment l'illumination de la scène, et les
propriétés de réflectance, de matière ou de texture des objets. Notre
objectif est de bâtir des modèles plus complets, en estimant ces
paramètres automatiquement en même temps que la géométrie et le
mouvement de la scène. Notamment, les propriétés de réflectance des
objets permettent de générer des nouvelles vues photo-réalistes dans
les applications de réalité augmentée.
Nous proposons de faire collaborer étroitement deux équipes expertes
dans le domaine de la modélisation 3D, le laboratoire CERTIS de l'École
Nationale des Ponts et Chaussées et l'équipe PERCEPTION de l'INRIA
Rhône-Alpes. Ces deux équipes ont d'ores et déjà démontré leur
18
excellence dans le domaine de la modélisation de scènes
tridimensionnelles, bien qu'en l'abordant avec des optiques assez
différentes par le passé. Ainsi, alors que PERCEPTION s'est principalement
concentré sur des techniques temps réel de reconstruction approchée, le
CERTIS a développé des techniques de reconstruction haute résolution,
nécessitant un temps de calcul important.
Le projet FLAMENCO bénéficiera de la complémentarité de ces expertises.
Nous prendrons le meilleur de ces deux optiques, afin de développer de
nouveaux algorithmes avec un compromis minimal entre précision et
performance. Enfin, les moyens et les compétences matérielles autour
de ce projet nous permettront de valider nos résultats sur des bases de
données de référence que nous distribuerons.
1 Retombées scientifiques et techniques attendues
Retombées scientifiques et techniques attendues
La collaboration entre le CERTIS et PERCEPTION dans le cadre du projet
FLAMENCO permettra de faire progresser l'état de l'art en reconstruction
tridimensionnelle de scènes dynamiques selon trois directions : vers des
représentations spatio-temporelles plus cohérentes, vers des temps de
calcul acceptables, et vers une intégration des informations de radiosité
et d'apparence.
De manière concrète, nous espérons 5 à 10 publications dans les
conférences majeures de vision par ordinateur et de graphisme (ICCV,
CVPR, ECCV, 3DPVT, SIGGRAPH, SGP). Les données expérimentales
collectées sur la plateforme GRIMAGE seront distribuées dans le but d'encourager d'autres groupes de recherche à avancer et progresser dans le
domaine de la modélisation dynamique 3D. Enfin, nous distribuerons
certaines parties de nos programmes sous des licences libres.
Partenaires INRIA / INRIA Rhône-Alpes (partenaire coordinateur)
Ecole Nationale des Ponts et Chaussées / CERTIS
Coordinateur Emmanuel PRADOS
[email protected]
Aide de l'ANR 338 723 €
Début et durée Janvier 2007 – 36 mois
Référence ANR-06-MDCA-007
19
Titre du projet FOGRIMMI
FOuille de GRandes IMages Microscopiques
1. Contexte et motivation
1.1 Résumé
Contexte et motivation
Les pathologistes utilisent leur outil de travail, le microscope, depuis le
I7eme siècle et la plus grande partie de leur analyse est visuelle. C'est
pourquoi l'imagerie pathologique est devenue un environnement
d'imagerie médicale d'importance grandissante qui présente de
nombreux défis. La toute dernière génération de stations d'imagerie
pathologique permet de disposer d'interfaces pour la microscopie
virtuelle par l'Imagerie d'une Lame Entière (ILE). L'ILE produit
cependant des images énormes pour une unique lame (environ 30 Go)
et la gestion de telles masses de données représente un réel défi de
cette nouvelle ère de la microscopie numérique. Les images d'ILE sont
représentées par un seul fichier contenant l'image à pleine résolution et
par une séquence d'images codant différentes résolutions de l'image de
base. Ce type d'images a donc la particularité de faire apparaître
différentes structures à différentes résolutions. Ces images mêlent de
façon intrinsèque une représentation multi-résolution et multi-échelle.
Ce projet de recherche est consacré à la conception et à la validation
d'un modèle permettant de coder les différentes structures contenues
dans de telles images à leur résolution intrinsèque. Le modèle sera
validé à l'aide de deux applications (en histologie et en cytologie) sur
des images d'ILE en collaboration avec le centre anti-cancéreux François
Baclesse. Ce projet présente donc deux volets innovants : l'un
fondamental sur la structuration et la segmentation hiérarchique
d'images et l'autre applicatif en imagerie pathologique par le traitement
d'images d'ILE.
2. Retombées scientifiques et techniques attendues
Retombées techniques et scientifiques attendues
Les retombées scientifiques et techniques du projet concernent les
domaines du traitement et de l'analyse d'images ainsi que de la
pathologie.
Au niveau traitement et analyse d'images, plusieurs retombées sont
attendues. Premièrement, l'élaboration de modèles géométriques et
topologiques représentant des hiérarchies de partitions d'images définies
à différentes résolutions. Les méthodes hiérarchiques classiques sont
soit définies dans le cadre d'une représentation multi-résolution de
l'image (pyramides régulières) soit dans un cadre multi-échelle mais à
résolution constante (pyramides irrégulières). Nous comptons, dans ce
projet, intégrer de façon homogène ces deux approches en définissant
une hiérarchie de partitions où chaque région correspond à une
structure définie à une échelle donnée. Notons de plus, que les
structures usuellement utilisées dans le cadre des pyramides irrégulières
correspondent généralement à des graphes simples ou des graphes
duaux. De telles structures ne permettent pas de représenter facilement
les informations géométriques et ne permettent pas de coder toutes les
relations topologiques entre les régions (adjacences multiples,
inclusions). De plus ces structures se prêtent mal à une analyse
descendante de l'image indispensable pour les images de lames
virtuelles. Les pyramides irrégulières basées sur ces structures sont
20
donc définies de manière ascendante. Inversement, les cartes
combinatoires 2D permettent d'accéder de façon naturelle à toutes les
informations géométriques et topologiques d'une partition et peuvent
indifféremment être utilisées dans une analyse ascendante ou
descendante. Nous comptons donc définir notre modèle hiérarchique et
multi-résolution à l'aide de cartes combinatoires 2D, construites par une
analyse descendante à différentes résolutions. Les liens effectués entre
les différentes opérations de focalisation d'attention permettent
d'associer une structure multi-échelle à I' ensemble des partitions ainsi
produites. Deuxièmement, les images histologiques d'ILE présentent des
structures très particulières à différentes échelles. On dispose donc de
connaissances a priori sur le contenu des images vues à différentes
échelles. Nous comptons utiliser ces connaissances en définissant des
méthodes de segmentation basées sur des méthodes d'apprentissage
semi-supervisé par régularisation de graphe et des méthodes de
minimisation d'énergie. Ces deux approches ont en commun de pouvoir
diriger des opérations de découpes et de fusion à l'aide de modèles à
appliquer aux données. Nous comptons définir des banques de modèles
multi-résolution définissant les connaissances a priori sur les structures
présentes aux différentes résolutions. Les méthodes semi-supervisées
par régularisation de graphe seront utilisées pour les opérations de
découpe alors que les méthodes basées sur une minimisation d'énergie
seront utilisées pour corriger d'éventuels défauts de l'opération de
découpe en se basant sur des informations spatiales, géométriques ou
colorimétriques (qui peuvent être des informations a priori).
Au niveau pathologique, il s'agit de proposer aux pathologistes des
outils de traitement et d'analyse de grandes images, ces outils seront
utiles dans le cadre de la segmentation d'objets cellulaires. En effet les
stations d'ILE sont pour l'instant dédiées à une observation purement
visuelle dans un but didactique ou bien de confrontation diagnostique.
Elles ouvrent cependant des perspectives extraordinaires d'exploration
rapide des lésions pré néoplasiques et des tumeurs solides, à la
recherche d'alarmes diagnostiques et de nouveaux marqueurs
d'évaluation pronostique et thérapeutique. Ces énormes images
numériques doivent faire la preuve de telles aptitudes à se prêter à une
analyse cytométrique, ce qui constituera une retombée scientifique
majeure du projet. Les images d'ILE fournissent en effet deux avantages
essentiels autant pour l'histologie que la cytologie :
-
-
L'extraction de données à partir de vues microscopiques d'une partie
de lame pose le problème de la représentativité de ces données en
terme statistique. En effet, des données différentes pourraient
certainement être obtenues en prenant une vue d'une autre partie
de la lame. Les images d'ILE permettent de s'affranchir de ce
problème en faisant une analyse globale de la lame.
L'extraction d'une partie de lame pour obtenir une image de taille
usuelle, implique souvent de couper artificiellement des cellules ou
des structures apparaissant au bord des images. Cet effet de
coupure peut introduire un biais sur les mesures effectuées sur
l'image si le nombre d'objets d'intérêt présent dans celle ci est faible.
Cet inconvénient est considérablement réduit en utilisant des images
d'ILE, puisque le nombre d'objets (cellules ou structures) présents
dans de telles images est considérablement supérieur au nombre
21
d'objets coupés par le bord de la lame. En effet, le ratio entre le
périmètre et la surface d'une image est divisé par 2 à chaque fois
que l'on double sa largeur et sa hauteur.
Les images produites par des systèmes d'ILE posent des difficultés qui
sont de plusieurs ordres. Il faudra d'une part gérer l'extrême complexité
des images et l'abondance d'informations et d'autre part être en mesure
de traiter des données de plusieurs Giga bytes de manière efficace. Les
modèles fondamentaux d'analyse hiérarchique d'images seront donc
primordiaux. Il ne s'agira pas de concevoir un logiciel de traitement
d'images d'ILE, mais de montrer les possibilités techniques et
diagnostiques des stations d'ILE.
elles et économiques escomptées
Retombées industrielles et économiques escomptées
Les stations d'imagerie industrielles d'ILE n'ont pour vocation actuelle
que la microscopie virtuelle et non le traitement d'images de microscopie
virtuelle. De plus II n'existe à l'heure actuelle qu'une seule équipe de
recherche au monde (Biomédical Informatics Dpt, Ohio State University,
USA) qui travaille sur ce genre de problématique de traitement de
grandes images de microscopie. Une retombée industrielle possible du
projet est l'intégration des outils conçus lors du projet dans une station
d'ILE. Les sociétés ADCIS, ELDIM et TRIBVN collaborent notamment
avec le GRECAN, le LUSAC et le GREYC sur la mise en place de
stratégies et d'outils d'acquisition et d'analyse d'images d'imagerie
pathologique conventionnelle (également avec les laboratoires
d'anatomie pathologique de Cherbourg et Caen). La production de telles
stratégies pour des grandes images microscopiques de stations d'ILE
présente donc un enjeu majeur pour ces industriels et ils ont d'ores et
déjà manifesté leur très fort intérêt pour le projet.
Partenaires Université de Caen Basse Normandie / LUSAC (partenaire coordinateur)
ENSI Caen / GREYC
Université Bordeaux 1 / LaBRI
Université de Caen Basse-Normandie / GRECAN
Université de Poitiers / SIC
Coordinateur Olivier LEZORAY
Aide de l'ANR 286 000 €
Début et durée Janvier 2007 – 36 mois
Référence ANR-06-MDCA-008
22
Titre du projet GWENDIA
Grid Workflow Efficient Enactement for Data Intensive Applications
Contexte et motivation
Résumé Contexte et motivation
La gestion de flots est un domaine de recherche très actif qui a reçu une
attention particulière par la communauté des systèmes distribués ces
dernières années. Dans plusieurs domaines scientifiques tels que les
domaines applicatifs considérés dans ce projet, des procédures
complexes de traitement sont nécessaires pour analyser des quantités
considérables de données acquises. GWENDIA cherche à développer des
systèmes de gestion de flots efficaces pour traiter de grands volumes de
données scientifiques sur des infrastructures telles que des grilles. C'est
un projet multi-disciplinaire qui rassemble des chercheurs de la
communauté informatique (systèmes distribués, ordonnancement) et
des chercheurs de la communauté des sciences du vivant (analyse
d'images médicales, découverte de médicaments). Les objectifs du projet
sont doubles. En informatique, GWENDIA cherche à exploiter de manière
efficace les infrastructures distribuées pour traiter des quantités de
données scientifiques énormes, et toujours croissantes, acquises dans
les centres de radiologie et de biologie. En particulier, nous nous
intéressons à la représentation et à la gestion des flots de données en
un temps raisonnable pour les utilisateurs grâce à l'exploitation de
ressources distribuées. Dans la communauté des sciences de la vie,
GWENDIA cherche à gérer les données scientifiques par nature
distribuées, hétérogènes, et évolutives, à représenter des procédures de
traitement médicales et biologiques complexes, et à exploiter les outils
informatiques pour déployer à moindres frais des expériences
scientifiques avec un impact potentiel important pour la communauté.
Cette étude s'appuiera sur deux infrastructures de grille de très grande
taille : l'infrastructure nationale Grid'5000 et l'infrastructure Européenne
de production EGEE.
ntifiques et techniques attendues
Retombées scientifiques et techniques attendues
GWENDIA définira un outil de description de flots qui inclura des
opérateurs de composition de données utiles pour décrire les flots de
données des applications de manière compacte. Le projet comprend la
conception d'algorithmes d'ordonnancement optimisés pour la
distribution de la charge de calcul sur une infrastructure de grille tout en
prenant en considération les contraintes liées aux données. Les
stratégies d'ordonnancement seront implantées en s'appuyant sur des
composants logiciels existants tels que l'intergiciel DIET ou le
gestionnaire de flots MOTEUR. Cette recherche sera guidée par les
besoins de deux domaines applicatifs des sciences de la vie : l'analyse
d'images médicales et la recherche in silico de nouveaux médicaments.
Des cas d'utilisation concrets seront mis en œuvre et déployés sur des
infrastructures de grille dans les deux cas. GWENDIA a pour objectif de
permettre la production scientifique dans les deux domaines en
fournissant un accès transparent et efficace aux ressources de la grille
pour le calcul des ces applications dominées par les données.
1. Retombées industrielles et économiques escomptées
Retombées industrielles et économiques escomptées
Ce projet de recherche amont n'implique pas directement de partenaires
23
industriels. Cependant, la gestion de flots de calcul a été un domaine
dans lequel l'industrie s'est montrée très active ces dernières années.
Considérant l'adoption des technologies de grille par le monde industriel,
il y aura probablement un intérêt industriel croissant pour les
gestionnaires de flots sur grille. En particulier, INRIA/GRAAL collabore
avec IBM qui est l'un des principaux investigateurs dans la définition du
langage BPEL. Les deux domaines applicatifs considérés ont également
des retombées sociales et économiques potentielles importantes.
L'analyse automatique d'images médicales est de plus en plus
nécessaire pour la pratique clinique et la recherche de nouveaux
médicaments in silico soulève un intérêt très grand de l'industrie
pharmaceutique étant donné les enjeux économiques considérables
sous-jacents.
Partenaires Université de Nice-Sophia Antipolis / I3S (partenaire coordinateur)
INRIA / INRIA Rhône Alpes / LIP
CNRS / LPC
CNRS / CREATIS
Coordinateur Johan MONTAGNAT
[email protected]
Aide de l'ANR 393 984 €
Début et durée Janvier 2007 – 36 mois
Référence ANR-06-MDCA-009
24
Titre du projet ICOS-HD
Indexation et compression scalables et conjointes pour la gestion de
contenus vidéo de Haute Définition
Résumé Le but du projet est de proposer de nouvelles solutions de description
scalable des contenus vidéo Haute Définition (HD) facilitant leur édition,
diffusion et accès dans des infrastructures (réseaux, terminaux)
hétérogènes. L'introduction de la Télévision HD nécessite en effet des
adaptations aux différents niveaux de la chaîne de production et de
diffusion des contenus. L'accès aux contenus, que ce soit pour des
fonctions d'édition ou de diffusion, nécessite d'associer au contenu des
descripteurs spatio-temporels locaux ou globaux. Ces derniers doivent
permettre de collecter des informations liées aux actions, événements ou
activités représentés par le document vidéo, lesquels peuvent intervenir à
différentes échelles spatiales et temporelles.
Les objectifs de ce projet seront ainsi de développer des méthodes
d'extraction de descripteurs spatiaux et spatio-temporels dans le flux
comprimé généré par les architectures d'encodage scalables considérées
pour les applications de type cinéma numérique. Il s'agira également
d'étudier de nouvelles transformations, permettant de générer des
représentations hiérarchiques ou multi-résolution des séquences, adaptées
à la fois à l'objectif de compression scalable et efficace du signal et à
l'extraction de caractéristiques et de descripteurs robustes à différentes
échelles, aussi bien spatiales que temporelles, et permettant ainsi l'accès à
ces contenus dans des environnements hétérogènes. Les descripteurs spatiotemporels sont naturellement liés aux mouvements perçus dans une
séquence d'images. Des méthodes d'extraction de descripteurs scalables du
mouvement à l'aide d'approches statistiques et/ou variationnelles seront
développées. Ces méthodes porteront aussi bien sur des descripteurs
globaux des signaux HD que locaux (objets d'intérêt). Enfin, des scénarios
applicatifs tirant partie de ces approches de description scalable seront
définis et la pertinence des solutions développées pour de tels scénarios sera
évaluée.
Partenaires INRIA / IRISA (partenaire coordinateur)
Université de Nice Sophia Antipolis / I3S
Université Bordeaux 1 / LABRI
Coordinateur Christine GUILLEMOT
[email protected]
Aide de l'ANR 389 500 €
Début et durée Janvier 2007 – 36 mois
Référence ANR-06-MDCA-010
25
Titre du projet INFILE
Information, Filtrage , Evaluation
1. Contexte et vation
Résumé Contexte et motivation
Depuis une quinzaine d'années, à l'initiative du NIST aux États-Unis ont
été menées des campagnes de tests comparatifs concernant la
recherche d'information (TREC, TRT, MUC). En Europe de telles
campagnes ont été mises en place (AMARYLLIS, CLEF) mais toujours en
respectant les protocoles mis en place par le NIST.
Ces protocoles sont orientés évaluation quantitative de la technologie
mais les conditions sont assez éloignées d'un usage réel des systèmes.
C'est la raison pour laquelle un certain nombre de critiques ont été
apportées sur les conditions d'évaluation.
Ces critiques portent sur le caractère artificiel des conditions de test
(plusieurs mois pour étudier la base de données, au moins un mois pour
traiter les requêtes) cela amène une distorsion dans la comparaison des
technologies par le fait que le manpower mis en œuvre joue un rôle
essentiel dans la qualité des résultats. Cela favorise aussi certaines
approches basées sur des apprentissages statistiques qui s'avèrent
impraticables d'un point de vue économique dans le cas général pour
une exploitation réelle. Les critères de coût informatique ne sont pas
pris en compte, des temps de traitement prohibitifs ou l'usage de
matériels surdimensionnés peuvent amener à des résultats de qualité
mais qui ne pourront être exploités par la grande masse des utilisateurs
qu'après de nombreuses années d'évolution des matériels.
L'autre ensemble de critiques que l'on peut faire porte sur l'absence de
l'utilisateur dans le processus de recherche. La qualité de l'interface
utilisateur peut amener de grandes différences dans le temps d'accès à
une information pertinente. Il est donc nécessaire de mettre en place
des évaluations qui tiennent compte du fait que les systèmes dans leur
usage réel sont en général pilotés par des utilisateurs motivés par leur
recherche.
Cette réflexion nous amène à proposer à la communauté de la recherche
et des industriels producteurs d'outils de nouveaux modes d'évaluation
qui tiennent compte des conditions réelles d'usage des systèmes.
Bien entendu ces campagnes ne peuvent se faire sans le consensus des
auteurs de systèmes à évaluer. C'est la raison pour laquelle la première
partie de ce projet consiste à établir en accord avec la communauté, les
nouvelles règles d'évaluation.
On portera une attention particulière à la fonctionnalité de filtrage
d'information qui est très mal prise en compte par les évaluations TREC.
Cette fonctionnalité est particulièrement importante pour toutes les
actions de veille qu'elle soit stratégique, commerciale ou scientifique et
technique.
La procédure de TREC consiste à faire entraîner les systèmes sur une
base avec des profils dont on connaît les réponses. L'épreuve consiste à
26
utiliser les mêmes profils sur une autre base homogène avec la
première.
Si on veut se rapprocher de la réalité de l'usage, on peut envoyer les
profils aux participants et leur demander de mettre leur système en
ligne. L'organisateur peut envoyer un à un les documents à filtrer et
obtenir immédiatement une réponse positive ou négative pour chaque
filtre. Il sera possible alors en examinant les réponses par tranches de
voir si le système améliore sa performance au cours du temps (en
fonction d'un feed back automatique ou manuel).
D'autre part, les campagnes doivent prendre en compte les besoins réels
en particulier concernant l'information multilingue. Les campagnes
organisées par les Américains sont bien entendu orientées par leur
besoin et en particulier les besoins des financeurs (DARPA).
L'impossibilité même en Europe à cause de l'opposition des Américains
de faire des évaluations sur certains couples de langues (par exemple
arabe-francais, ou arabe-allemand ou chinois-français, ...) nous amène
à prendre l'initiative en France de faire des évaluations qui sont
économiquement importantes pour nos industriels.
2. Retombées scientifiques et techniques attendues
Retombées scientifiques et techniques attendues
Ce projet va permettre de développer de nouveaux modes d'évaluation
des systèmes de filtrage et de recherche d'information orientés usage.
Une campagne d’évaluation sera mise en place en fonction
des
résultats des discussions entre les organisateurs et la communauté des
chercheurs et éditeurs de logiciels.. Les données de test à blanc
nécessaires pour mettre au point les systèmes pour la campagne
d'évaluation seront réalisés.
Un corpus sera réalisé avec les requêtes et les vérités terrain permettant
à la campagne de se dérouler. Les résultats seront calculés et
communiqués aux participants pour discussion.
Les résultats de la campagne et les nouvelles méthodes d'évaluation
seront présentés par un colloque et par une publication.
A la fin un kit d'évaluation sera disponible diffusé par ELDA pour
permettre à de nouvelles équipes de se comparer aux résultats obtenus.
De telles campagnes ne doivent pas être uniques. Il est souhaitable que
les campagnes d'évaluation de ce type soient poursuivies de manière
continue comme c'est le cas aux États-Unis.
27
Partenaires CEA - LIST (partenaire coordinateur)
Université Lille 3 / GERIICO
ELDA
Coordinateur Halima DAHMANI
[email protected]
Aide de l'ANR 327495 €
Début et durée Janvier 2007 – 24 mois
Référence ANR-06-MDCA-011
28
Titre du projet NAVIDOMASS
NAVigation In DOcument MASSes
1. Contexte et motivation
Résumé Contexte et motivation
There is an increasing interest to digitally preserve and provide access
to historical document collections residing in libraries, museums and
archives. Such archives of old documents are a unique public asset,
forming the collective and evolving memory of our societies. Indeed,
ancient documents have a historical value not only for their physical
appearance but also for their contents. Examples are unique
manuscripts written by well known scientists, artists or writers; letters,
trade forms or official documents that help to reconstruct historical
sequences in a given place or time; artwork elements like stamps,
illustrations, covers, etc. On the other hand, there is also a need of the
preservation of the technical heritage belonging to companies or public
institutions. Examples of that are old engineering drawings or cadastral
maps. The challenge that is currently widespread in Europe is the
conversion of such heritage to digital libraries that allow to preserve it
but also to make it available worldwide using web-based portals.
Citizens of the future should be able, through the medium of better
designed digital libraries to gain access to a myriad of forms of
knowledge from anywhere and at any time and in an efficient and userfriendly fashion. A number of initiatives exists focusing on the creation
of large digital libraries worldwide reachable. Google is now running a
project to create a global virtual library. A number of European libraries
have
started
a
joint
similar
project
(http://www.dwworld.de/dw/article/0,1564,1566717,00.html). DELOS is an European
Network of Excellence on digital libraries (http://www.delos.info/). The
construction of such libraries has an additional and important challenge,
the analysis of documents and the extraction of knowledge. Such goal
requires efforts in designing and developing semantic-based systems to
acquire, organize, share and use the knowledge embedded in
documents. The field of Data Mining, combined with Document Analysis
offers a robust methodological basis to perform tasks such as descriptive
modeling (clustering and segmentation), classification, discovering
patterns and rules or retrieval by content applied to document sources
and databases. Old documents can be originals (paper, parchment etc.)
or in image form (already scanned, possibly using now outdated
technology). The key requirement is to be able to process these unique
manuscripts, whether they are presented as free flowing text (treatises,
novels, ...) or structured at different levels of physical-logical structure
correspondence (letters, census lists, trade forms, ...). Degradation may
be caused by a lifetime of use, and access must also be preserved to
user annotations and corrections, stamps and unique artwork. Each
class of document requires a different approach throughout the
conversion process and lends itself to different levels of information
extraction and description. In summary, the analysis of historical
document knowledge to build metadata that is used to access to digital
libraries. In the knowledge society, the interest is beyond the
digitization of documents but to create semantically enriched digital
libraries of such digitized documents. Enriched documents mean to add
semantical annotations to digital images of the scanned documents.
29
Such metadata is intended to describe, classify and index documents by
their content. It would allow anywhere anytime natural access to such a
cultural and scientific heritage.
Thus, the main research goal of this project is to work in a collaborative
framework on the Analysis of Old Documents. This goal consists in
developing Pattern Recognition and Image Analysis techniques that
allow extracting knowledge from documents and converting them to
Digital Libraries containing the scanned pages enriched with semantical
information.
The partners groups of this project, Laboratoire Informatique, Image,
Interaction - L3i (Université La Rochelle, France), QGar Team of the
LORIA (Nancy), Laboratoire d'informatique de Tours (Université de
Tours), Laboratoire CRIP5 (Université de Paris 5) Laboratoire LITIS (exPSI, Université de Rouen) and IRISA-IMADOC have large and
complementary experience in Document Image Analysis (DIA), attested
by many publications in this domain since the two last decades, and by
a relevant presence in all the international DIA events. Indeed, on the
ten four last years, the total number of journal publications reaches 25
contributions in 2005 while it reaches 57 papers in international
conferences/workshops. These teams are currently working on different
R+D projects on cultural heritage preservation in relation with their own
geographic environment, with local partners. In this "Action de
Recherche Amont" dedicated to the Mass of data, we plan to share
insights from the experience in the corresponding projects, and work
together in some topics related to the field of DIA applied to old
documents.
2. Retombées scientifiques et techniques attendues
Retombées scientifiques et techniques attendues
The main innovative issue of our joint research is the creation of
metadata associated to old document images, instead of just digitizing
documents. A number of projects exist in the field of the preservation of
cultural heritage. Those having some relation to old documents focus
mainly in the early stages of digitization or on the creation of digital
libraries of document images. However, the task of automatically extract
knowledge from documents is rarely included in such projects. Thus our
challenge is to investigate on pattern recognition, artificial intelligence
and multimodal interfaces domains to build components of an
Interactive framework to digitize and annotate old documents, and as a
consequence, improve the document retrieval process. In this domain,
some previous research projects allowed to tackle specific questions for
which mature tools are now available. However some technological bolts
still exist and require fundamental research to improve the quality of
automatically produced annotations.
Precisely, the focus of the project deals with the following points that
can be grouped into four research topics:
−
Document Layout analysis and structure based indexing: this part
aims at automatically extracting the different layers of the
documents (text, graphic, tables, captions ...) , and detecting
fundamental structure elements (title, sub-title, page number) that
are very important for the indexing and the navigation process.
30
−
Information spotting: after having characterized the different layers
of information, this part aims at characterizing each class of
information with relevant features, allowing performing information
spotting in a same layer or between different layers. This point
requires the development of innovative signatures, the signatures
classically used in recognition process being to costly to be used in
such a process. The signatures that have to be determined for this
point deal with very different layers : text (word spotting), graphic
(drawing spotting), ...
− Structuration of the feature space in order to build efficient
information retrieval system: this point is referred to the difficulty to
build an efficient search system in the context of high dimensional
vector space. This research which is a difficult point in many
domains has never been really tackled till now in the domain of
document analysis. The idea is to consider relevant techniques
allowing to build relevant clusters in the feature spaces, and to
develop rapid access system to the researched information.
− Interactive extraction and relevance feedback: in the context of
ancient documents, our relative experiences highlight the diversity of
usages and the difficulty to provide an answer to the contradictory
aspects relative to build generic and personalized systems at a same
time. This difficult research point aims at providing the user with
some interfaces allowing him to build interactive scenario for the
extraction of the information that he wants to structure. This
research considers two specific points. The first one deals with the
implementation of naïve user interfaces allowing integrating
interactively specific knowledge for the document information
structuration. The second point deals with the implementation of
user interfaces for the retrieval part, allowing the user to interact
with the information retrieved by the system and inferring on the
feature space and on the feature selection principle, in order to build
a personalized system
et économiques escompté
Retombées industrielles et économiques escomptées
The main issue of our joint research deals with some important
improvements concerning very knowledge access. Indeed, the
services that will be provided by this research will contribute to
increase considerably the indexing rate of ancient digitized
documents, and as a consequence contribute the make easier the
access to cultural contents. Considering the economic aspects, the
developed softwares could be transferred in companies, what will
allow contributing to richness creation
31
Partenaires Université de la Rochelle / L3i (partenaire coordinateur)
Université Francois Rabelais / LI
INRIA / LORIA
CNRS / CESR
Université René Descartes / CRIP5
Université de Rouen / LITIS
Insa de Rennes
Coordinateur Jean-Marc OGIER
[email protected]
Aide de l'ANR 553 571€
Début et durée Janvier 2007 – 36 mois
Référence ANR-06-MDCA-012
32
Titre du projet PASSAGE
Producing Large Scale Syntactic Analysis to move forward
Résumé Contexte et motivations
Les motivations principales de la proposition PASSAGE sont doubles:
-
-
améliorer la précision et la robustesse des analyseurs
syntaxiques existants pour le Français, en les utilisant sur de gros
corpus (plusieurs million de mots) et
exploiter les annotations syntaxiques résultantes pour créer des
ressources linguistiques plus riches et plus extensives.
La méthodologie adoptée consiste en une boucle de rétroaction
(feedback) entre analyse syntaxique et création de ressources, comme
suit :
-
l'analyse syntaxique est utilisée pour créer des annotations
syntaxiques
les annotations sont utilisées pour créer ou enrichir des ressources
linguistiques comme des lexiques, grammaires ou corpus annotés
les ressources créées ou enrichies sur la base des annotations sont
ensuite intégrées dans les systèmes d'analyse.
les analyseurs enrichis sont utilisés pour créer des ressources encore
plus riches (par exemple syntactico-sémantiques)
etc…
Plus généralement, le projet PASSAGE devrait aussi aider à faire émerger
des chaînes de traitement linguistique exploitant des informations lexicales
plus riches, en particulier sémantiques.
PASSAGE s'appuie sur les résultats de la campagne d'évaluation des
analyseurs syntaxiques menée dans le cadre de l'action EASy/EVALDA
(programme Technolangue). Cette campagne a montré que plusieurs
systèmes d'analyse existent désormais pour le Français. Néanmoins, bien
que les résultats furent meilleurs que prévus, cette campagne a confirmé
que la robustesse et la précision peuvent encore être largement
améliorées, en particulier pour les données orales.
De plus, bien que le plan initial de EASy était de combiner les résultats
produits par chaque participant pour construire une treebank du Français
(un corpus annoté syntaxiquement), cette phase reste à venir, et le
résultat, malgré son intérêt certain, restera relativement limité (environ
40K phrases avec un sous-ensemble de 4K phrases manuellement
validées), au regard des standards internationaux qui émergent (10M à
100M mots, i.e. 0.5M à 5M phrases).
PASSAGE vise à poursuivre et à étendre la ligne de recherche initiée
par la campagne EASy. En particulier, PASSAGE cherche à :
-
organiser des nouvelles campagnes d'évaluation pour évaluer et
améliorer les systèmes d'analyse syntaxiques du Français sur de gros
corpus (millions de mots)
33
-
-
finaliser une méthodologie pour comparer et fusionner les résultats
fournis par plusieurs analyseurs
utiliser les résultats fusionnés des meilleurs analyseurs pour
construire une treebank du Français
valider cette treebank soit manuellement soit automatiquement
utiliser à la fois cette treebank et la partie non-validée du gros
corpus annoté syntaxiquement pour extraire des informations
linguistiques
intégrer les ressources ainsi acquises dans les analyseurs
développer les méthodologies pour évaluer la qualité des
ressources ainsi acquises
La participation d'une dizaine systèmes d'analyse syntaxique dans
un effort collectif tourné vers l'acquisition de ressources
linguistiques est une occasion plutôt unique. Nous pensons que la
combinaison d'autant de sources d'information sur une période
d'adaptation relativement longue renforce les chances de succès
de cette proposition.
1. Retombées scientifiques et techniques attendues
Retombées scientifiques et techniques attendues
Les retombées attendues du projet PASSAGE incluent :
l'émergence de chaînes de traitement linguistique pour le Français qui
soient plus robustes, efficaces, et précises, avec de plus une meilleure
évaluation de leur niveau de performance.
- l'identification de méthodologies et de protocoles pour effectuer des
tâches
d'acquisition
de
connaissances
linguistiques.
Ces
méthodologies devraient être adaptables pour d'autres langues que le
Français, en particulier pour traiter des langues pauvrement dotées,
aidant ainsi à surmonter le fameux problème du goulet d'étranglement
en Traitement Automatique des Langues (TAL)
- une banque d'annotations syntaxiques (en dépendances) pour le
Français, utiles pour améliorer le traitement syntaxique
- l'enrichissement de ressources linguistiques pour le Français (lexiques
et grammaires)
- l'acquisition de connaissances linguistiques aidant au développement
d'applications mieux adaptées aux utilisateurs.
- la consolidation d'une forte communauté française en analyse
syntaxique, familière avec l'utilisation systématique de procédure
d'évaluation à grande échelle.
mbées industrielles et économiques escomptées
Retombées industrielles et économiques escomptées
L'analyse syntaxique est une phase importante de traitement linguistique
qui n'est pas actuellement largement déployée dans le cadre
d'applications industrielles, en partie à cause de sa complexité et des
besoins en termes de ressources. PASSAGE pourrait altérer cette
situation grâce à :
-
-
-
l'émergence de chaîne de traitement linguistique pour le Français,
plus robustes, efficaces et précises. Ces systèmes sont des candidats
de choix pour des transferts industriels et leur exploitation dans des
applications industrielles;
l'accès à plus de ressources linguistiques pour le Français (lexiques,
grammaires);
34
-
-
l'évaluation des annotations syntaxiques, et en particulier sous forme
de dépendances, comme une source émergent de données pour des
applications d'extraction d'information (comme c'est déjà le cas pour
d'autres langues, en particulier l'anglais);
la validation d'une méthode pour améliorer les technologies de
traitement du langage, au travers l'évaluation et la réunion de
systèmes d'analyse syntaxique.
Partenaires INRIA / INRIA Rocquencourt (partenaire coordinateur)
CNRS / LIMSI
CNRS / LORIA
CEA / LIST
Coordinateur Eric de la CLERGERIE
Aide de l'ANR 428 480 €
Début et durée Janvier 2007 – 36 mois
Référence ANR-06-MDCA-013
35
Titre du projet PlasmoExplore
Fouille des données génomiques et post-génomiques de Plasmodium
falciparum, qui est l'agent principal de la malaria, pour prédire la
fonction des gènes orphelins et identifier de nouvelles cibles
thérapeutiques
Résumé Contexte et motivation
La malaria (ou paludisme) touche selon le dernier rapport de l'OMSUnicef de l'ordre de 500 millions d'êtres humains dans le monde, et tue
environ 3 millions de personnes par an, essentiellement des enfants, et
surtout en Afrique. Cette maladie infectieuse est causée par un
organisme unicellulaire, Plasmodium falciparum, transmis par des
moustiques du genre Anopheles. La lutte contre cet agent infectieux se
heurte à de nombreux problèmes, dont les trois majeurs sont :
(1) l'apparition de résistances aux quelques traitements existant
aujourd'hui (chloroquine et dérivés, sulfadoxine pyriméthamine,
méfloquine et artémisinine) ;
(2) le faible nombre de nouvelles cibles thérapeutiques, lié au fait que le
génome de P. falciparum est très mal connu,
(3) l'échec de toutes les tentatives de vaccin.
Le projet PlasmoExplore a pour objectif de contribuer au décryptage du
génome de P. falciparum, et de répondre par là au point (2) ci-dessus en
mettant à jour la fonction de gènes orphelins (inconnus), qui
constitueront autant de nouvelles cibles thérapeutiques potentielles.
Cette tâche, difficile en général, est particulièrement ardue dans le cas
de P. falciparum. Il s'agit d'un organisme complexe, comportant une
face végétale résultant d'une endosymbiose ancienne avec une algue
rouge. Son cycle parasitaire est également complexe, puisqu'il séjourne
successivement dans les cellules de l'endothélium digestif de l'Anophèle,
le foie humain, puis les globules rouges (érythrocytes) humains, et subit
de nombreuses transformations au sein de chacun de ces sites
successifs. Son génome (publié en 2002) est tout à fait atypique car
comportant une très forte proportion de A et T (80%), alors que la
moyenne est aux alentours de 50%. Ses protéines elles mêmes sont
atypiques, car leur composition en acides aminés est fortement biaisée
par la richesse en AT, et parce qu'elles sont en moyenne 20% plus
longues que les protéines homologues connues dans les autres
organismes. Toutes ces difficultés accumulées font que des
caractéristiques fonctionnelles (pour la plupart non encore vérifiées
expérimentalement) n'ont pu être proposées que pour 40% des gènes de
P. falciparum et ceci, grâce à l'identification de gènes homologues (dans
des organismes voisins) dont la fonction était déjà connue. Il reste donc
60% de gènes orphelins, dont la fonction est totalement inconnue. Leur
nombre est de ~3000, suivant la base PlasmoDB qui répertorie une
grande partie des connaissances génomiques disponibles sur P.
falciparum.
L'objectif de PlasmoExplore est de prédire la fonction de ces 3000 gènes
inconnus (orphelins). Nous nous appuierons sur :
36
les données génomiques, de P. falciparum lui-même, mais aussi des
espèces proches dont un grand nombre sont en cours de séquençage
et devraient être disponibles prochainement ;
- les données post-génomiques, essentiellement le transcriptome issu
des puces à ADN et indiquant le niveau d'expression des gènes dans
diverses conditions ou à divers stades parasitaires, mais aussi
l'interactome et le protéome. Ces données sont hétérogènes, elles
sont de qualités fort différentes (par exemple, le transcriptome est
très bruité, alors que les données de séquençage sont généralement
fiables), et surtout elles apportent des informations très différentes.
Egalement, ces données sont en évolution et augmentation
constante, du fait des grands programmes internationaux sur la
thématique.
Retombées scientifiques et techniques attendues
Retombées scientifiques et techniques attendues
La méthode générale d'exploitation de ces données combinera :
-
-
-
-
-
les ontologies du consortium Gene Ontology (GO), qui définissent la
fonction des gènes suivant trois points de vue : la fonction cellulaire,
la fonction biochimique, et la localisation ;
les méthodes d'alignement (y compris le développement de matrices
de score dédiés à P. falciparum et prenant en compte les biais de
composition en nucléotides ou acides aminés) pour exploiter les
données génomiques et établir de nouvelles homologies, à l'échelle
du gène mais aussi de chromosomes ou de génomes entiers ;
l'apprentissage statistique, qui sera utilisé pour exploiter les données
post-génomiques et construire des prédicteurs associés à chacune
des classes GO ;
les méthodes de combinaison de classifieurs pour faire la synthèse
entre les informations extraites de chaque source de données ; enfin
un ensemble de techniques de visualisation et d'interaction
adaptées, permettant une exploration multi-échelle des prédictions
réalisées. Finalement, cette approche sera flexible pour prendre en
compte facilement l'arrivée de nouvelles données.
Chacun de ces points nécessite des recherches méthodologiques, dont la
portée dépasse l'application traitée ici. Ainsi, les méthodes
d'apprentissage supervisé sont des approches naturelles pour assigner
des objets à des classes constituant une partition de l'espace des
possibles, mais elles ne traitent pas, ou imparfaitement, les cas où les
classes sont non-exclusives et organisées dans une structure
hiérarchique. Une grande part de la classification supervisée (basée sur
la règle de Bayes) doit être repensée dans ce nouveau contexte. Et il est
clair que de telles approches trouveront des applications dans d'autres
domaines, où on dispose d'ontologies structurant l'univers des objets.
De même, l'alignement de séquences présentant des compositions en
caractères et des longueurs différentes nécessite de reconsidérer les
algorithmes rapides (de type BLAST) ou basés sur la programmation
dynamique (de type Smith et Waterman). La combinaison de classifieurs
dans ce contexte (impliquant notamment des ontologies) est également
un champ d'investigation prometteur, avec des applications multiples.
Enfin, la visualisation de prédictions complexes, au sein d'ontologies et
dans le but d'indiquer à l'utilisateur les données et processus ayant
conduit aux résultats exprimés, présente clairement un large intérêt.
37
Outre ces recherches méthodologiques, le projet développera une base
de données accessible librement par le Web. Cette base donnera accès
aux meilleures prédictions disponibles pour chacun des gènes inconnus
de P. falciparum. Elle sera interfacée avec PlasmoDB et permettra des
requêtes multiples, par exemple pour extraire les gènes fortement
prédits dans un ensemble de fonctions donné. Le retour de la
communauté internationale sur ces prédictions sera extrêmement
précieux pour affiner la démarche et les résultats.
Les partenaires biologistes du projet ont tous comme objectif ultime la
mise en évidence de nouvelles cibles thérapeutiques et le design de
nouveaux traitements. Les prédictions les plus pertinentes faites dans le
cadre du projet seront testées à la paillasse et donneront un retour sur
ces prédictions. Ces approches expérimentales coûteuses ne seront pas
supportées par le présent projet et feront l'objet de demandes
ultérieures, à l'ANR ou ailleurs. Elles donneront néanmoins une solide
assise au projet PlasmoExplore et contribueront à sa visibilité.
lles et économiques escomptées
Retombées industrielles et économiques escomptées
Un des objectifs du projet PlasmoExplore est de progresser dans
l'inventaire des cibles possibles pour des traitements thérapeutiques. La
découverte d'un nouveau traitement antipaludéen serait un événement
majeur avec des retombées industrielles considérables. Prétendre que
nous atteindrons cet objectif serait présomptueux, mais nous entendons
jouer un rôle fort, sur le versant informatique, dans cette quête qui est
si importante au niveau mondial.
Partenaires CNRS / LIRMM (partenaire coordinateur)
CEA / PCV
Muséum National d'Histoire Naturelle / BFP
Coordinateur Olivier GASCUEL
[email protected]
Aide de l'ANR 447 271 €
Début et durée Janvier 2007 – 36 mois
Référence ANR-06-MDCA-014
38
Titre du projet VORTISS
Reconstruction d'organes pour l'interaction temps réel en simulation
chirurgicale
Résumé Contexte et objectifs
Ce projet vise à concevoir un modèle robuste et unifié permettant une
restitution fidèle de la forme et du comportement des organes dans un
simulateur chirurgical. Ce modèle repose sur un couplage entre divers
composants : un modèle géométrique précis et visuellement réaliste de
l'organe créé par reconstruction à partir d'images médicales ; un
modèle topologique rigoureux autorisant des incisions, découpes,
déchirements et destruction de façon cohérente ; un modèle mécanique
hybride ; un modèle d'interaction adapté aux corps déformables à
topologie variable et permettant le pilotage de périphériques haptiques.
Pour gérer le compromis précision/rapidité de calcul, les quatre
constituants du modèle sont nécessairement multi-résolution. La
résolution de travail de chacun des modèles est gérée indépendamment
même si la gestion du modèle reste fortement connectée aux autres
composants.
Retombées scientifiques et techniques attendues
Retombées scientifiques et techniques attendues
Proposer un modèle capable de gérer, en temps interactif, tout d'abord
la déformation d'un organe hétérogène reconstruit depuis des données
réelles, ensuite capable de gérer des opérations de modification
topologiques comme la découpe, et pour finir pouvant trouver sa place
au sein de la cavité thoracique humaine, et de notre point de vue un
objectif à la fois ambitieux et très novateur. L'impact dans le domaine
de la simulation médicale serait très certainement important, dans la
mesure où à l'heure actuelle aucune simulation ne peut fournir une vue
globale, dans un contexte de simulation interactive, d'un ensemble aussi
complexe que la cavité abdominale humaine.
Partenaires Université de Lille 1 / LIFL (partenaire coordinateur)
Université Louis Pasteur / LSIIT
Université de Poitiers / SIC
IRCAD
Coordinateur Laurent GRISONI
Aide de l'ANR 431 359 €
Début et durée Janvier 2007 – 36 mois
Référence ANR-06-MDCA-015
39