fogrimmi
Transcription
fogrimmi
Présentation des projets financés au titre de l’édition 2006 du programme "Masse de Données Connaissance Ambiante" ADDISA - Assimilation de Données Distribuées et Images Satellite 2 AVEIR - Automatic annotation and Visual concept Extraction for Image Retrieval 6 DALIA - Data trAnsfert for Large Interactive Applications 9 DNA - Détails Naturels : modélisation, simulation et visualisation de scènes naturelles complexes et réalistes, embarquant de nombreux détails 11 DOCFLOW - analysis, monitoring and optimization of Web documents and services 13 EPAC - Exploration de masse de documents audio pour l'extraction et le traitement de la parole conversationnelle 16 FLAMENCO - Modélisation de scène spatio-temporelle 18 FOGRIMMI - FOuille de GRandes IMages Microscopiques 20 GWENDIA - Grid Workflow Efficient Enactement for Data Intensive Applications Grid Workflow Efficient Enactement for Data Intensive Applications 23 ICOS-HD - Indexation et compression scalables et conjointes pour la gestion de contenus vidéo de Haute Définition 25 INFILE - Information, Filtrage , Evaluation 26 NAVIDOMASS - NAVigation In DOcument MASSes 29 PASSAGE - Producing Large Scale Syntactic Analysis to move forward 33 PlasmoExplore - Fouille des données génomiques et post-génomiques de Plasmodium falciparum, qui est l'agent principal de la malaria, pour prédire la fonction des gènes orphelins et identifier de nouvelles cibles thérapeutiques 36 VORTISS - Reconstruction d'organes pour l'interaction temps réel en simulation chirurgicale 39 Certains résumés de projets ont été rédigés en langue anglaise par les coordonnateurs de projets 1 Titre du projet ADDISA Assimilation de Données Distribuées et Images Satellite Résumé 1. Contexte et motivation du projet La mauvaise prévision des événements extrêmes en météorologie et en océanographie a des conséquences dramatiques. Les spécialistes ont l'obligation morale et institutionnelle de réaliser une prévision précoce de ces événements afin d'alerter les autorités aussi tôt que possible et d'éviter les dommages importants aux biens et aux personnes. Les événements pour lesquelles ces prévisions sont fondamentales concernent par exemple : les tempêtes, le brouillard, les événements de neige ou de gel, les raz de marée, etc. Des précurseurs de ces phénomènes sont pourtant visibles sur les images satellitaires, mais ils ne sont généralement pas utilisés pour la prévision. Par ailleurs, dans certains domaines géophysiques, telle que l'océanographie, le réseau d'observation n'est pas suffisamment dense pour obtenir une prévision de grande qualité. Les données d'observation de la terre, qui représentent un volume gigantesque de données complémentaires, sont toutefois largement sousutilisées. Ces données deviennent donc fondamentales pour améliorer autant que faire se peut la qualité de la prévision. La prévision numérique se heurte à de nombreuses difficultés : - - La non-linéarité des écoulements géophysiques induit des interactions entre les différentes échelles d'espace et de temps ainsi qu'entre les différentes composantes de l'environnement physique (océan, atmosphère), La connaissance que l'on a de ces phénomènes est fortement hétérogène : - Information de type mathématique, obtenue en écrivant les lois de conservation. On obtient généralement un ensemble complexe d'Equations aux Dérivées Partielles non linéaires. - Information de type physique, issue de mesures in situ et à distance. - Information de type statistique, obtenue par des données historiques. - Information fournie par les images, en particulier issues de l'observation spatiale. La mise en œuvre de la prévision numérique dans le contexte des écoulements géophysiques requiert la reconstitution de l'état du fluide, à un instant initial, en utilisant toutes les sources d'information potentiellement disponibles. C'est la problématique de l'Assimilation de Données. Les méthodes d'assimilation, fondées sur les méthodes de contrôle optimal ou sur celles de l'estimation statistique optimale, ont été proposées dès les années 1980, notamment par certains participants de ce projet (INRIA), puis mises en œuvre dans un cadre opérationnel (en particulier par MétéoFrance et le LEGI). Ces méthodes sont maintenant utilisées dans les plus grands centres météorologiques et océanographiques dans le monde. 2 A l'heure actuelle, les outils d'assimilation permettent essentiellement d'utiliser les trois premiers types d'information, énumérés ci-dessus. Toutefois, en dépit de leur important potentiel informatif et de la possibilité d'y visualiser les précurseurs des événements extrêmes, les images et leur dynamique temporelle ne sont pas utilisées de façon systématique pour la prévision, et ceci faute d'un cadre méthodologique approprié. La présente proposition a donc pour objet l'extension de l'assimilation de données aux images, notamment celles acquises par des capteurs embarqués sur satellite. Les problèmes de données massives apparaissent alors : une année d'acquisitions satellite METEOSAT seconde génération représente environ 35000 images, pour un volume de données de 52To. Par ailleurs, intégrer l'information image dans le processus d'assimilation de données ne fait que renforcer le caractère hautement hétérogène (différentes données in situ, différents modèles, différentes images représentant des informations physiques de nature variée,...) et naturellement distribué (les modèles, les données, les images ne sont pas stockées sur les mêmes sites) du processus. Ce constat de sous utilisation des images existe dans d'autres disciplines connexes, telles que l'hydrologie (l'observation spatiale du lit majeur d'un fleuve lors d'une crue n'est utilisée de façon optimale dans les modèles), la glaciologie (exploration par radar des glaces polaires), la climatologie, ... On se restreindra néanmoins dans cette proposition à l'étude des fluides géophysiques, en météorologie et en océanographie. Nombre d'exemples et d'arguments justificatifs présentés dans le texte concernent la météorologie, en raison de l'impact médiatique des événements tels que les tempêtes et les cyclones. Mais il ne faut pas oublier le caractère illustratif de ces exemples : l'important est que l'argumentation reste systématiquement valide pour un ensemble de domaines. Par ailleurs, la participation à ce projet d'un partenaire officiellement en charge de la prévision, tel que Météo France, garantit que des solutions opérationnelles seront apportées à cette nouvelle problématique de gestion des données massives distribuées et hétérogènes pour l'amélioration effective des prévisions. 2. Retombées scientifiques et techniques attendues 2.1.Retombées Scientifiques Le projet ADDISA a pour but de construire et tester des méthodes pour assimiler, dans les modèles de simulation géophysique, l'information spatiale et dynamique contenue dans les images satellite, afin d'améliorer la prévision. L'approche développée est une extension au cas des images d'une méthode variationnelle, fondée sur la théorie du contrôle optimal, initiée par un partenaire du projet et utilisée quotidiennement par les plus grands centres opérationnels en météorologie. L'utilisation, par les partenaires spécialistes en météorologie et en océanographie, des méthodes développées 3 permettra l'amélioration de la prévision des événements extrêmes en météorologie et en océanographie, et de suppléer aux manque de données pour la prévision de la circulation océanique. Les méthodologies, qui vont être définies dans ce projet, seront pour une large part génériques (c'est une des motivations du travail) et pourront être ultérieurement appliquées à différents systèmes physiques nécessitant une prévision de grande qualité. Par exemple on peut citer dans le domaine géophysique : l'alerte aux tsumamis, la prévision de crue et de sécheresse, la qualité de l'air (la prévision des événements correspondant à des concentrations élevées en ozone), le suivi de nuage de fumées pour les pollutions industrielles, les incendies et les volcans, le suivi des nappes de pétrole ou autres polluants. Dans le domaine médical, on peut par exemple citer la prévision précoce d'alertes cardiaques. 2.2Conséquences sur le Rôle Français en Assimilation de Données en Météorologie. La France a une position forte en assimilation de données et en modélisation d'événements météorologiques. Mais actuellement la communauté française, comme européenne ou même mondiale, utilise généralement les données des capteurs satellite météorologiques dans le processus d'assimilation sous la forme d'une donnée ponctuelle. Il est particulièrement perturbant de constater que les spécialistes chargés de la prévision utilisent les toutes nouvelles images satellite pour « critiquer » la valeur de leurs prévision, mais pas pour les produire. Définir des méthodes permettant l'assimilation des images dans les modèles météorologiques, devrait permettre de renforcer la position française sur ce sujet, voire même lui donner une position de leader. 3. Retombée économiques et sociales escomptées Cette étude, en représentant un investissement budgétaire limité (quelques hommes/an) devrait permettre d'aboutir à une amélioration significative de la capacité des centres de prévision météorologiques et océanographiques à fournir des alertes précoces sur : - - Le suivi et l'intensité de tempêtes extrêmes, telles que celle ayant eu lieu en Décembre 1999 sur l'Europe de l'Ouest. Le suivi et l'intensité de cyclones tropicaux, tels que l'ouragan de 2005 en Louisiane, La formation de brouillard et de gel, avec leurs conséquences visibles sur le trafic routier et aérien, Les systèmes convectifs violents, telles que les précipitations intenses dans la région méditerranéenne ou les orages violents et très locaux qui engendrent des crues éclairs et l'interruption du trafic, en particulier aérien. Les raz de marée liés par exemple aux phénomènes de tempêtes et de cyclones. 4 L'amélioration de telles prévisions, diffusées par les autorités civiles et les media, permettra à la société (le grand public, les compagnies, les administrations, etc.) de prendre les mesures appropriées afin de : - réduire l'impact négatif de ces phénomènes en protégeant les biens et les personnes, de réagir plus rapidement aux événements en apportant l'aide immédiate nécessaire aux communautés touchées. Le bénéfice économique (obtenu en réduisant les dégâts causés par les événements extrêmes) est de plusieurs ordres de grandeur plus important que le coût estimé de ce type d'étude. Les bénéfices économiques et sociaux seront encore plus importants pour les populations des pays en voie de développement et celles du tiersmonde, car ces régions sont encore plus vulnérables aux événements tels que les typhons, les moussons, les crues Partenaires INRIA / INRIA Rhône Alpes (partenaire coordinateur) Météo-France / GAME Université Joseph Fourier / LEGI CNRS / MIP INRIA / INRIA Rocquencourt Coordinateur François-Xavier LE DIMET Aide de l'ANR 357 762 € Début et durée Janvier 2007 – 36 mois Référence ANR-06-MDCA-001 5 Titre du projet AVEIR Automatic annotation and Visual concept Extraction for Image Retrieval xte et motivation Résumé Contexte et motivation Retrieving images in very large databases has been an active field for several years now. Image retrieval systems roughly fall into two categories: content based image retrieval (CBIR) and retrieval using manual keyword annotation. For CBIR, queries are images, image parts or sometimes mixture of drawing and image characteristics. This approach never succeeded to close the semantic gap between user information need and the expressiveness limit of query by sample techniques in the image domain. Web search engines (e.g. Google, Yahoo) have developed image retrieval techniques relying on keyword annotations of images which are limited to simple keyword queries. Both approaches have up to now failed to reduce the well known semantic gap between user expectations and image expressive power. CBIR is mostly limited to (sometimes complex) comparisons based on low image features. Retrieval by text is limited, due to its weak recall: only images that were indexed with high confidence can be accessed while others are ignored. Besides, such search engines completely fail whenever the user is interested in the visual aspects of the image itself. A new emerging and maybe more challenging field in this domain is the automatic concept recognition from visual features. It relies on two key issues: "feature detection and rich image representation and indexing" and robust and accurate "image annotation". The project targets these two specific problems and proposes new and original solutions. The overall goal of the project is to enrich image retrieval systems with semantic indexation and annotation and with symbolic relational description, all being automatically extracted and built from the textual and image content of documents and web pages. This semantic and symbolic information will be used in order to reduce the visual ambiguity in images and to enhance the retrieval of images from large databases. As for the target application, we will consider in this project multi thematic general families of images such as those found on web pages, documents and professional collections like the classical Corel database. The project will develop 3 research axes. The first axis is focused on image analysis, feature extraction and visual feature representations. Most annotation systems divide images into blobs and annotate the collection of blobs. The originality of our proposal is to bypass this baseline approach and to develop rich image representations. First, state of the art image segmentation algorithms focusing on robustness of the segmentation will be used for identifying salient components of the image and on spatial relations between them (geometry, topology, adjacency) will be extracted, both imbedded in a high level attributed graph representation. Second, the representation will rely on multiple views (facets) of the image. The second axis is concerned with the automatic labeling of image 6 components or objects with textual concepts. Labeling is formulated here as a classification problem where the labels are noisy and defined in an imprecise way. Labels are often defined at the global image level (not at the targeted component level) and with uncertainty. We propose to explore different formal statistical settings developed in the machine learning (ML) community and to adapt some ML paradigms for the annotation problem in order to make this labeling task fully automatic. The techniques we propose to use heavily rely on state of the state of the art and new machine learning methods. The third axis considers image retrieval and evaluation of the proposed algorithms. Retrieval will offer the possibility to use the rich image representations developed in the first axis, allowing the user to use high level semantic queries. Fusion of visual and semantic queries will be studied in this axis. Tests will be performed on classical benchmarks and annotated collections will be developed in the project and released as project deliverables. Tests will then be performed on different multimedia document collections and specific annotated corpora will be developed for the project and made available to the community. Four academic teams cooperate for the project. They have complementary skills as indicated below : ENST: image analysis, image representation and modeling, data fusion - CLIPS: multimedia information retrieval - LIP6: machine learning - LSIS: retrieval and integration of heterogeneous information, image annotation techniques attendues - Retombées scientifiques et techniques attendues The main results expected at the end of the AVEIR project are: - - definition of a model that represent different facets (views) of the images definition of probabilistic approaches for the automatic annotation of usages according to the image content and text describing the images, definition of a set of test collections for the evaluation of image annotation and retrieval prototype of image retrieval system based on the different advances of AVEIR. Multi-facets descriptions allow reducing image ambiguity and open promising perspectives for querying large image databases. The semantic labeling of complex image descriptions is however an open problem. For now, simple blob like representations have been used for automatic annotation. Adapting complex representations for general families of image databases is also challenging. We believe that the proposed approach has the potential to meet these challenges so as to bypass the limitations of the current approaches. 7 The project handles both very practical problems (design of efficient and expressive image search engines) and open theoretical problems in the domains of visual concept representation, semantic concept extraction and machine learning problems. Retombées industrielles attendues Developing robust and accurate solution for the automatic semantic annotation of images has important consequences for many applications in the multimedia domain. The project will provide principled methods for this problem which could be developed for large scale application by future industrial collaboration. This project may have a strong impact for the development of national and European R&D projects. 1. Partenaires Université Pierre et Marie Curie / LIP6 (partenaire coordinateur) CNRS / LTCI-GET/ENST Paris Université Joseph Fourier / CLIPS Université Paul Cézanne / LSIS Coordinateur Patrick GALLINARI [email protected] Aide de l'ANR 372 917 € Début et durée Janvier 2007 – 36 mois Référence ANR-06-MDCA-002 8 Titre du projet DALIA Data trAnsfert for Large Interactive Applications Résumé Contexte et motivation Le projet Dalia a pour objet la visualisation, l'interaction et la collaboration dans les environnements distribués hétérogènes (thème 4 de l'appel à proposition). L'objectif est d'étudier les applications collaboratives/interactives 3D traitant de grandes masses de données. Les données sont de deux natures : - - statiques : ce sont les modèles numériques des environnements virtuels dans lesquels s'exécutent les applications (MNT, villes, usines, véhicules ...) dynamiques : ce sont des données issues de capteurs (position GPS, température, pression ...) ou de calculs (simulations numériques par exemple). Ce type d'application agrège des ressources distribuées d'acquisition, stockage, calcul et visualisation, formant ainsi une infrastructure de " grille interactive". Pour ne pas restreindre les applications à un type d'équipement particulier, nous envisageons de prendre en compte des matériels très différents, depuis le grand écran projeté jusqu'au terminal mobile en passant par la station de travail standard. Cette hétérogénéité enrichit de façon importante les scénarios envisageables mais rajoute une complexité supplémentaire à la problématique générale. Ce type de grille soulève des problèmes spécifiques liés à l'interactivité. L'application doit être capable de s'adapter dynamiquement au contexte d'exécution (bande passante réseau, capacité mémoire, puissance de rendu, etc.) pour optimiser la latence, la taux de rafraîchissement, la qualité du rendu et de l'interaction. Nous proposons d'étudier ces problèmes encore peu abordés dans le contexte des grilles au travers de 3 axes: le transfert de données, la télé présence (représentation virtuelle des utilisateurs dans l'espace virtuel partagé), et les techniques d'interaction. L'une des tâches de Dalia sera de mettre en place une "grille interactive" expérimentale à partir des plateformes existantes d'Orléans (grappe de PC et mur d'images), Bordeaux (grappe de PC, environnement multiprojecteurs reconfigurable) et Grenoble (grappe de PC, mur d'images et portique multi-caméras). A notre connaissance ce sera la première infrastructure de ce type en France. La mise en place de cette plateforme ainsi que le savoir-faire acquis sont des retombées importantes du projet. L'expérimentation à grande échelle nous conduira probablement à identifier de nouvelles problématiques. La visibilité d'une telle plateforme nous permettra aussi de se positionner comme des acteurs majeurs de cette thématique sur la scène européenne et internationale. En particulier, Dalia s'articule naturellement avec le "pilier" "Simulation, visualisation, interaction and mixed realities" du FP7. 9 Partenaires INRIA / INRIA Rhône-Alpes (partenaire coordinateur) Université d'Orléans / LIFO INRIA / INRIA Futurs Coordinateur Bruno RAFFIN Aide de l'ANR 414 608 € Début et durée Janvier 2007 – 36 mois Référence ANR-06-MDCA-003 10 Titre du projet DNA Détails Naturels : modélisation, simulation et visualisation de scènes naturelles complexes et réalistes, embarquant de nombreux détails exte et motivation du projet Résumé Contexte et motivation La modélisation, la simulation et le rendu de scènes naturelles complexes représente un défi fondamental pouvant avoir des implications non seulement dans l'industrie du loisir mais aussi dans d'autres domaines comme l'aménagement de terrains, la prévention des risques et la préservation du patrimoine historique. Un certain nombre de techniques très spécifiques ont déjà été proposées dans le cadre de l'aménagement de terrains, permettant de simuler les écosystèmes résultants et certaines catégories de végétaux. Malheureusement, ces modèles sont si différents qu'ils n'ont pas, à ce jour, été regroupés dans un environnement de travail cohérent. Le problème principal réside dans la complexité et la diversité des objets en présence, de leurs interactions mutuelles ainsi que de leurs interactions avec leur environnement. Des images impressionnantes de réalisme ont été déjà produites par les chercheurs en synthèse d'images et artistes de l'industrie du film. Cependant, ces rendus sont souvent trop "lisses", les objets trop propres et parfaitement neufs, trahissant ainsi leur nature synthétique. Des détails comme les feuilles mortes tombant en automne, la présence de mousses et de lichen, les fissures et fractures, la présence de coquillages dans le sable ou encore la rouille et l'érosion des objets naturels ou manufacturés sont totalement incontournables dans la nature. Pour prendre en compte ces phénomènes, le développement d'un environnement complet est nécessaire. Celui-ci doit être capable de prendre en compte et de gérer de très grandes masses de données caractérisant tous ces "petits" détails qui jouent un rôle déterminant dans le réalisme des images de scènes naturelles. Dans ce projet, nous proposons de mettre au point un tel environnement, dont l'objectif est de coupler modélisation et simulation de ces détails et de leur évolution sur des objets complexes et hétérogènes. Nous proposons de prendre en compte les matériaux organiques (végétaux) ainsi que les matériaux minéraux (sable, métaux, pierres). Retombées scientifiques et techniques attendues Ce projet innovant contribuera aux recherches fondamentales menées actuellement dans la conception de mondes virtuels complexes. Le groupe de partenaires réunis est porteur d'expertises complémentaires couvrant l'ensemble des compétences requises par le projet, couvrant une grande diversité d'approches scientifiques : modélisation (LIRIS), rendu (XLIM - LSIIT) et réalité virtuelle (LSIIT). Les partenaires du projet DNA poursuivent tous un même objectif: la simulation et la visualisation d'une très grande masse de détails dans les scènes naturelles complexes. Le projet DNA devrait ouvrir de nombreuses pistes de recherches, dans des domaines variés et souvent très distincts. D'une part, les résultats pourraient avoir un impacte dans le domaine du rendu temps-réel en 11 permettant d'accroître d'avantage le réalisme de ce type de rendu par une adaptation des modèles et interfaces. D'autre part, le développement de notre environnement pourrait être utilise et étudié dans le cadre de la visualisation scientifique en tentant d'éviter au maximum les simplifications que nous serons obligés d'appliquer aux modèles physiques. De plus, le projet DNA pourrait être utilise dans des champs d'applications non directement lies à l'Informatique. Parmi ceuxci, il est facile d'identifier le nettoyage industriel (extrêmement important dans le cadre de la protection du patrimoine par exemple) et l'architecture. L'objectif serait de propose rune aide au design, tentant de détecter les zones à protéger ou nettoyer en priorité. Partenaires CNRS / XLIM (partenaire coordinateur) CNRS / LIRIS Université Louis Pasteur / LSIIT Coordinateur Stéphane MERILLOU Aide de l'ANR 340 400 € Début et durée Janvier 2007 – 36 mois Référence ANR-06-MDCA-004 12 Titre du projet DOCFLOW analysis, monitoring and optimization of Web documents and services Context and motivation Résumé Since the 60's, the database community has developed the necessary science and technology to manage data in central repositories. From the early days, many efforts have been devoted to extending these techniques to the management of distributed data as well, and in particular to its integration. However, the Web revolution is setting up new standards, primarily because of: - the high heterogeneity and autonomy of data sources, - the increasing complexity and richness of data, and - the scale of the Web and the diversity of interaction among its users. On the other hand, the increasingly global economy calls for tighter integration of global enterprises and OEM-supplier chains. At the same time, global enterprises and OEM-supplier chains are becoming more and more widely distributed and OEMs get constantly seeking for best suppliers. Such distributed workflow activities must rely on a light weight infrastructure, yet capable of providing predictable, safe, and secure workflow execution. Recently, standard languages for service workflow have even been proposed such as IBM's Web Services Flow Language or Microsoft's XLang, which converged to the BPEL4WS proposal and subsequently WSCDL proposal for choreographies. A recent overview of existing work can be found in. The implementation of orchestration and choreography description languages raises a number of difficulties related to efficiency and clean semantics and reproducibility of executions that are impairing their industrial acceptance. A serious shortcoming of approaches to Web Service orchestration and choreography is that they mostly abstract data away. Symmetrically, current approaches to Web data management typically based on XML and XQuery rely on too simplistic forms of control. We believe that time has come for a convergence of sophistication in terms of control and richness in data, for workflow and data management over the Web. We believe that active Peer-to-Peer XML-based documents provide the basis for an adequate infrastructure for this. The overall objective of this project is thus to propose such an infrastructure and study its mathematical foundations. Novelty, high objectives and key expected results - Ensuring convergence of data and workflow management with a focus on Web information management. - Defining an infrastructure of active Peer-to-Peer documents able to perform stateful distributed activities. - Providing Web compliant alternatives to existing distributed database technology, making use of no locking mechanism. - Developing a technology for Web services orchestrations and choreographies, based on the central notion of document. - Developing models and approaches to handle performance, monitoring, and other Quality of Service aspects, for our 13 - infrastructure of active Peer-to-Peer documents. Developing novel techniques to strengthen some recognizedly weak aspects of Web Services technology regarding security. Establishing all the above on a formally sound basis. Related work The DocFlow project relates to several different research areas and uses background from various communities. We briefly review these. Distributed systems, P2P and distributed query optimization In the context of distributed data management, distributed query processing has been studied since the early days of databases, and in particular in the context of mediator systems and P2P environments. Peer-to-peer This term refers to a class of systems and applications performing a function using distributed resources, with no centralized control and a dynamically evolving set of peers. Together, peers may produce computing power as in, e.g., setiQhome, or storage space as in, e.g., Napster or KaZaA. Distributed hash tables are an example of popular P2P technique. Peer computing is gaining momentum as a large-scale resource sharing paradigm by promoting direct exchange between equal peers. In this project, we propose a system where interactions between peers are at the core of the data model, through the use of service calls. XML documents with embedded Web services calls Service calls in semi-structured data have been considered in the context of Lore and Lorel. Other systems recently proposed languages based on XML or other documents with embedded calls to Web services. AXML is more powerful as it provides means of controlling and enriching the use of Web service calls for data and workflow management purposes, in a distributed setting. Also, AXML is a continuation of the work on ActiveViews. The main differences with ActiveViews are that AXML promotes peer-to-peer relationships vs. interactions via a central repository. The activation of service calls is also closely related to the use of triggers in relational databases, or rules in active databases. Active rules were recently adapted to the XML/XQuery context. A recent work considered firing Web service calls. AXML goes beyond those by promoting the exchange of AXML data. Data integration systems These typically consist of data sources, which provide information, and of mediators or warehouses, which integrate it with respect to an integration schema. AXML takes a hybrid path between mediator systems (the integration is virtual) and warehouses (all data is materialized). Mappings between data sources are captured in AXML by service calls embedded in the data. Service composition and workflow The integration and composition of Web services has recently been an active field of research. Standard languages for service workflow have been proposed such as BPEL, and the WSCDL proposal for choreographies. A recent overview of existing work about service composition can be found in; therein, services are communicating Mealy 14 machines together with input/output signatures on messages (given by XML Schema types). Mobile code Mobile codes are programs that use mobility as a mechanism to adapt to resource changes, cf. the Join-Calculus and the Sumatra language. In our case, peer to peer architectures and asynchronous communication are used; also active documents are exchanged, but our active documents are more restricted than general code. Distributed monitoring of networked systems Attention has been paid to dealing with large distributed systems that cannot be monitored as a whole, for reasons of size. Some work deviates from the above by explicitly handling available concurrency in large distributed systems; unfolding and similar techniques are used in combination with modular algorithms, resulting in a supervision architecture that is itself distributed. Partenaires Université Bordeaux 1 / LABRI (partenaire coordinateur) INRIA / IRISA INRIA / INRIA-Futurs Coordinateur Anca MUSCHOLL Aide de l'ANR 489 122 € Début et durée Janvier 2007 – 36 mois Référence ANR-06-MDCA-005 15 Titre du projet EPAC Exploration de masse de documents audio pour l'extraction et le traitement de la parole conversationnelle 1 Contexte et motivation Résumé 1. Contexte et motivation Le projet EPAC concerne le traitement de données audio non structurées. Il met en scène quatre laboratoires académiques : IRIT (Toulouse), LI (Tours), LIA (Avignon), LIUM (Le Mans). Le projet EPAC a pour but de proposer des méthodes d'extraction d'information et de structuration de documents spécifiques aux données audio, prenant en compte l'ensemble des canaux d'information : segmentation du signal (parole/musique/jingle/...), identification et suivi du locuteur, transcription de parole, détection et suivi de thème, détection d'émotion, analyse du discours, interactions conversationnelles, etc. Ces tâches de traitement du signal et de la parole sont en grande partie maîtrisées par les différents partenaires du projet dont la plupart ont participé à la campagne d'évaluation TECHNOLANGUE/EVALDA/ESTER. Dans ce cadre de cette campagne et grâce à la participation de l'IRIT au projet RAIVES (Automatic Retrieval of Audio & Speech Informations, projet CNRS, 2002-2003) nous disposons d'une base d'environ 2000 heures d'émissions radiophoniques francophones (1800 heures provenant d'ESTER, dont l00h manuellement annotées, et 130h venant de RAIVES, dont une grosse dizaine d'heures manuellement annotées, soit 1930 heures en tout, dont 100h manuellement annotés). En particulier, le projet EPAC mettra l'accent sur le traitement de la parole conversationnelle. Parmi les émissions d'information radiophoniques ou télévisuelles, la parole conversationnelle est souvent marginale : des techniques de détection et d'extraction de la parole conversationnelle seront proposées et développées. Le projet mettra en place des méthodes de traitement de ce type de parole en proposant des descripteurs pertinents et en développant les outils nécessaires à leur exploitation. Cette partie sera l'objet d'une collaboration entre chercheurs en linguistique (LI, LIUM) et chercheurs en traitement automatique de la parole (IRIT, LIA, LIUM). Enfin, un cadre d'évaluation commun aux différents acteurs du projet sera mis en place pour chacune des tâches étudiées. Cette évaluation portera sur une partie des 2000 heures d'émissions radiophoniques disponibles, contribuant ainsi à la valorisation de ces données. 2. Retombées scientifiques et techniques attendues 2.1Résultats attendus Les résultats du projet seront validés de trois façons différentes : - - Evaluation interne de chaque sous-projet en suivant les règles des campagnes d'évaluation ESTER ou NIST. Evaluation au travers de la participation à des campagnes d'évaluations nationales et internationales du domaine, de type ESTER ou NIST. Articles scientifiques, publications scientifiques et rapports techniques relatifs aux sujets étudiés dans le projet. 16 De plus, les résultats partiels des évaluations annuelles internes seront publiés sur le site web du projet EPAC. 2.2Conséquences attendues Les conséquences attendues sont diverses: - - - Disponibilité sous licence libre des outils développés durant le projet, spécialisés dans le traitement de la parole conversationnelle. Fourniture d'un nouveau corpus de transcriptions annotées manuellement de 100 heures d'émissions radiophoniques, principalement sur des enregistrements de parole conversationnelle. Fourniture d'un corpus de transcriptions annotées automatiquement de plus de 1700 heures d'émissions radiophoniques. Ce corpus contiendra plusieurs sorties de systèmes de transcription automatique (le système SPEERAL du LIA et le système du LIUM). De plus, chaque mot reconnu sera associé à une mesure de confiance. Impulsion dans la communauté 'Parole' francophone par la mise à disposition de nouvelles données et de nouveaux outils. Développement d'interactions entre la communauté de recherche en linguistique et la communauté 'traitement automatique de la parole'. Partenaires Université Université Université Université du Maine / LIUM (partenaire coordinateur) de Toulouse / IRIT François Rabelais de Tours / LI d'Avignon et des Pays de Vaucluse / LIA Coordinateur Yannick ESTEVE Aide de l'ANR 358 494 € Début et durée Janvier 2007 – 36 mois Référence ANR-06-CMDCA-006 17 Titre du projet FLAMENCO Modélisation de scène spatio-temporelle Contexte et motivation du projet Résumé Contexte et motivation du projet La généralisation des caméras numériques, aussi bien dans l'espace public que pour les usages privés, crée de nouvelles possibilités et de nouveaux besoins de visualisation et de communication. Notamment, la création de modèles tridimensionnels dynamiques de notre environnement à partir de ces capteurs, omniprésents et d'un coût désormais dérisoire, est appelée à se généraliser dans la décennie à venir. Ces techniques seront un outil privilégié pour la fabrication de mondes virtuels multi-modaux en réalité augmentée. Cette proposition relève les défis associés au problème de la reconstruction spatio-temporelle d'une scène à partir de plusieurs séquences vidéo, c'est à dire à partir d'images prises depuis différents points de vue et à différents instants. Ce problème majeur de la recherche en vision par ordinateur bute aujourd'hui sur trois obstacles importants : - le temps de calcul / la faible résolution des modèles : l'acquisition de séquences vidéos à partir de plusieurs caméras engendre un volume de données très important, qui rend crucial le développement d'algorithmes efficaces. Le temps de calcul important des méthodes existantes limite la précision spatiale de la reconstruction et permet de traiter des séquences vidéo de quelques secondes à peine, ce qui est prohibitif pour les applications réelles. - l'absence de cohérence spatio-temporelle : à notre connaissance, aucune des méthodes existantes n'est en mesure de produire des modèles qui soient cohérents sur le plan spatiotemporel : la plupart construisent des modèles géométriques tridimensionnels à chaque instant sans tirer profit de la continuité du mouvement et de la cohérence du modèle dans le temps. Ce problème requiert l'élaboration de nouveaux outils mathématiques, algorithmiques et informatiques dédiés à des représentations quadri-dimensionnelles (trois dimensions d'espace plus la dimension temporelle). - la pauvreté des modèles : l'information disponible dans les séquences vidéo d'une scène est bien plus riche que la seule information de géométrie et de mouvement. La plupart des méthodes de reconstruction spatio-temporelle n'exploitent pas cette information supplémentaire, notamment l'illumination de la scène, et les propriétés de réflectance, de matière ou de texture des objets. Notre objectif est de bâtir des modèles plus complets, en estimant ces paramètres automatiquement en même temps que la géométrie et le mouvement de la scène. Notamment, les propriétés de réflectance des objets permettent de générer des nouvelles vues photo-réalistes dans les applications de réalité augmentée. Nous proposons de faire collaborer étroitement deux équipes expertes dans le domaine de la modélisation 3D, le laboratoire CERTIS de l'École Nationale des Ponts et Chaussées et l'équipe PERCEPTION de l'INRIA Rhône-Alpes. Ces deux équipes ont d'ores et déjà démontré leur 18 excellence dans le domaine de la modélisation de scènes tridimensionnelles, bien qu'en l'abordant avec des optiques assez différentes par le passé. Ainsi, alors que PERCEPTION s'est principalement concentré sur des techniques temps réel de reconstruction approchée, le CERTIS a développé des techniques de reconstruction haute résolution, nécessitant un temps de calcul important. Le projet FLAMENCO bénéficiera de la complémentarité de ces expertises. Nous prendrons le meilleur de ces deux optiques, afin de développer de nouveaux algorithmes avec un compromis minimal entre précision et performance. Enfin, les moyens et les compétences matérielles autour de ce projet nous permettront de valider nos résultats sur des bases de données de référence que nous distribuerons. 1 Retombées scientifiques et techniques attendues Retombées scientifiques et techniques attendues La collaboration entre le CERTIS et PERCEPTION dans le cadre du projet FLAMENCO permettra de faire progresser l'état de l'art en reconstruction tridimensionnelle de scènes dynamiques selon trois directions : vers des représentations spatio-temporelles plus cohérentes, vers des temps de calcul acceptables, et vers une intégration des informations de radiosité et d'apparence. De manière concrète, nous espérons 5 à 10 publications dans les conférences majeures de vision par ordinateur et de graphisme (ICCV, CVPR, ECCV, 3DPVT, SIGGRAPH, SGP). Les données expérimentales collectées sur la plateforme GRIMAGE seront distribuées dans le but d'encourager d'autres groupes de recherche à avancer et progresser dans le domaine de la modélisation dynamique 3D. Enfin, nous distribuerons certaines parties de nos programmes sous des licences libres. Partenaires INRIA / INRIA Rhône-Alpes (partenaire coordinateur) Ecole Nationale des Ponts et Chaussées / CERTIS Coordinateur Emmanuel PRADOS [email protected] Aide de l'ANR 338 723 € Début et durée Janvier 2007 – 36 mois Référence ANR-06-MDCA-007 19 Titre du projet FOGRIMMI FOuille de GRandes IMages Microscopiques 1. Contexte et motivation 1.1 Résumé Contexte et motivation Les pathologistes utilisent leur outil de travail, le microscope, depuis le I7eme siècle et la plus grande partie de leur analyse est visuelle. C'est pourquoi l'imagerie pathologique est devenue un environnement d'imagerie médicale d'importance grandissante qui présente de nombreux défis. La toute dernière génération de stations d'imagerie pathologique permet de disposer d'interfaces pour la microscopie virtuelle par l'Imagerie d'une Lame Entière (ILE). L'ILE produit cependant des images énormes pour une unique lame (environ 30 Go) et la gestion de telles masses de données représente un réel défi de cette nouvelle ère de la microscopie numérique. Les images d'ILE sont représentées par un seul fichier contenant l'image à pleine résolution et par une séquence d'images codant différentes résolutions de l'image de base. Ce type d'images a donc la particularité de faire apparaître différentes structures à différentes résolutions. Ces images mêlent de façon intrinsèque une représentation multi-résolution et multi-échelle. Ce projet de recherche est consacré à la conception et à la validation d'un modèle permettant de coder les différentes structures contenues dans de telles images à leur résolution intrinsèque. Le modèle sera validé à l'aide de deux applications (en histologie et en cytologie) sur des images d'ILE en collaboration avec le centre anti-cancéreux François Baclesse. Ce projet présente donc deux volets innovants : l'un fondamental sur la structuration et la segmentation hiérarchique d'images et l'autre applicatif en imagerie pathologique par le traitement d'images d'ILE. 2. Retombées scientifiques et techniques attendues Retombées techniques et scientifiques attendues Les retombées scientifiques et techniques du projet concernent les domaines du traitement et de l'analyse d'images ainsi que de la pathologie. Au niveau traitement et analyse d'images, plusieurs retombées sont attendues. Premièrement, l'élaboration de modèles géométriques et topologiques représentant des hiérarchies de partitions d'images définies à différentes résolutions. Les méthodes hiérarchiques classiques sont soit définies dans le cadre d'une représentation multi-résolution de l'image (pyramides régulières) soit dans un cadre multi-échelle mais à résolution constante (pyramides irrégulières). Nous comptons, dans ce projet, intégrer de façon homogène ces deux approches en définissant une hiérarchie de partitions où chaque région correspond à une structure définie à une échelle donnée. Notons de plus, que les structures usuellement utilisées dans le cadre des pyramides irrégulières correspondent généralement à des graphes simples ou des graphes duaux. De telles structures ne permettent pas de représenter facilement les informations géométriques et ne permettent pas de coder toutes les relations topologiques entre les régions (adjacences multiples, inclusions). De plus ces structures se prêtent mal à une analyse descendante de l'image indispensable pour les images de lames virtuelles. Les pyramides irrégulières basées sur ces structures sont 20 donc définies de manière ascendante. Inversement, les cartes combinatoires 2D permettent d'accéder de façon naturelle à toutes les informations géométriques et topologiques d'une partition et peuvent indifféremment être utilisées dans une analyse ascendante ou descendante. Nous comptons donc définir notre modèle hiérarchique et multi-résolution à l'aide de cartes combinatoires 2D, construites par une analyse descendante à différentes résolutions. Les liens effectués entre les différentes opérations de focalisation d'attention permettent d'associer une structure multi-échelle à I' ensemble des partitions ainsi produites. Deuxièmement, les images histologiques d'ILE présentent des structures très particulières à différentes échelles. On dispose donc de connaissances a priori sur le contenu des images vues à différentes échelles. Nous comptons utiliser ces connaissances en définissant des méthodes de segmentation basées sur des méthodes d'apprentissage semi-supervisé par régularisation de graphe et des méthodes de minimisation d'énergie. Ces deux approches ont en commun de pouvoir diriger des opérations de découpes et de fusion à l'aide de modèles à appliquer aux données. Nous comptons définir des banques de modèles multi-résolution définissant les connaissances a priori sur les structures présentes aux différentes résolutions. Les méthodes semi-supervisées par régularisation de graphe seront utilisées pour les opérations de découpe alors que les méthodes basées sur une minimisation d'énergie seront utilisées pour corriger d'éventuels défauts de l'opération de découpe en se basant sur des informations spatiales, géométriques ou colorimétriques (qui peuvent être des informations a priori). Au niveau pathologique, il s'agit de proposer aux pathologistes des outils de traitement et d'analyse de grandes images, ces outils seront utiles dans le cadre de la segmentation d'objets cellulaires. En effet les stations d'ILE sont pour l'instant dédiées à une observation purement visuelle dans un but didactique ou bien de confrontation diagnostique. Elles ouvrent cependant des perspectives extraordinaires d'exploration rapide des lésions pré néoplasiques et des tumeurs solides, à la recherche d'alarmes diagnostiques et de nouveaux marqueurs d'évaluation pronostique et thérapeutique. Ces énormes images numériques doivent faire la preuve de telles aptitudes à se prêter à une analyse cytométrique, ce qui constituera une retombée scientifique majeure du projet. Les images d'ILE fournissent en effet deux avantages essentiels autant pour l'histologie que la cytologie : - - L'extraction de données à partir de vues microscopiques d'une partie de lame pose le problème de la représentativité de ces données en terme statistique. En effet, des données différentes pourraient certainement être obtenues en prenant une vue d'une autre partie de la lame. Les images d'ILE permettent de s'affranchir de ce problème en faisant une analyse globale de la lame. L'extraction d'une partie de lame pour obtenir une image de taille usuelle, implique souvent de couper artificiellement des cellules ou des structures apparaissant au bord des images. Cet effet de coupure peut introduire un biais sur les mesures effectuées sur l'image si le nombre d'objets d'intérêt présent dans celle ci est faible. Cet inconvénient est considérablement réduit en utilisant des images d'ILE, puisque le nombre d'objets (cellules ou structures) présents dans de telles images est considérablement supérieur au nombre 21 d'objets coupés par le bord de la lame. En effet, le ratio entre le périmètre et la surface d'une image est divisé par 2 à chaque fois que l'on double sa largeur et sa hauteur. Les images produites par des systèmes d'ILE posent des difficultés qui sont de plusieurs ordres. Il faudra d'une part gérer l'extrême complexité des images et l'abondance d'informations et d'autre part être en mesure de traiter des données de plusieurs Giga bytes de manière efficace. Les modèles fondamentaux d'analyse hiérarchique d'images seront donc primordiaux. Il ne s'agira pas de concevoir un logiciel de traitement d'images d'ILE, mais de montrer les possibilités techniques et diagnostiques des stations d'ILE. elles et économiques escomptées Retombées industrielles et économiques escomptées Les stations d'imagerie industrielles d'ILE n'ont pour vocation actuelle que la microscopie virtuelle et non le traitement d'images de microscopie virtuelle. De plus II n'existe à l'heure actuelle qu'une seule équipe de recherche au monde (Biomédical Informatics Dpt, Ohio State University, USA) qui travaille sur ce genre de problématique de traitement de grandes images de microscopie. Une retombée industrielle possible du projet est l'intégration des outils conçus lors du projet dans une station d'ILE. Les sociétés ADCIS, ELDIM et TRIBVN collaborent notamment avec le GRECAN, le LUSAC et le GREYC sur la mise en place de stratégies et d'outils d'acquisition et d'analyse d'images d'imagerie pathologique conventionnelle (également avec les laboratoires d'anatomie pathologique de Cherbourg et Caen). La production de telles stratégies pour des grandes images microscopiques de stations d'ILE présente donc un enjeu majeur pour ces industriels et ils ont d'ores et déjà manifesté leur très fort intérêt pour le projet. Partenaires Université de Caen Basse Normandie / LUSAC (partenaire coordinateur) ENSI Caen / GREYC Université Bordeaux 1 / LaBRI Université de Caen Basse-Normandie / GRECAN Université de Poitiers / SIC Coordinateur Olivier LEZORAY Aide de l'ANR 286 000 € Début et durée Janvier 2007 – 36 mois Référence ANR-06-MDCA-008 22 Titre du projet GWENDIA Grid Workflow Efficient Enactement for Data Intensive Applications Contexte et motivation Résumé Contexte et motivation La gestion de flots est un domaine de recherche très actif qui a reçu une attention particulière par la communauté des systèmes distribués ces dernières années. Dans plusieurs domaines scientifiques tels que les domaines applicatifs considérés dans ce projet, des procédures complexes de traitement sont nécessaires pour analyser des quantités considérables de données acquises. GWENDIA cherche à développer des systèmes de gestion de flots efficaces pour traiter de grands volumes de données scientifiques sur des infrastructures telles que des grilles. C'est un projet multi-disciplinaire qui rassemble des chercheurs de la communauté informatique (systèmes distribués, ordonnancement) et des chercheurs de la communauté des sciences du vivant (analyse d'images médicales, découverte de médicaments). Les objectifs du projet sont doubles. En informatique, GWENDIA cherche à exploiter de manière efficace les infrastructures distribuées pour traiter des quantités de données scientifiques énormes, et toujours croissantes, acquises dans les centres de radiologie et de biologie. En particulier, nous nous intéressons à la représentation et à la gestion des flots de données en un temps raisonnable pour les utilisateurs grâce à l'exploitation de ressources distribuées. Dans la communauté des sciences de la vie, GWENDIA cherche à gérer les données scientifiques par nature distribuées, hétérogènes, et évolutives, à représenter des procédures de traitement médicales et biologiques complexes, et à exploiter les outils informatiques pour déployer à moindres frais des expériences scientifiques avec un impact potentiel important pour la communauté. Cette étude s'appuiera sur deux infrastructures de grille de très grande taille : l'infrastructure nationale Grid'5000 et l'infrastructure Européenne de production EGEE. ntifiques et techniques attendues Retombées scientifiques et techniques attendues GWENDIA définira un outil de description de flots qui inclura des opérateurs de composition de données utiles pour décrire les flots de données des applications de manière compacte. Le projet comprend la conception d'algorithmes d'ordonnancement optimisés pour la distribution de la charge de calcul sur une infrastructure de grille tout en prenant en considération les contraintes liées aux données. Les stratégies d'ordonnancement seront implantées en s'appuyant sur des composants logiciels existants tels que l'intergiciel DIET ou le gestionnaire de flots MOTEUR. Cette recherche sera guidée par les besoins de deux domaines applicatifs des sciences de la vie : l'analyse d'images médicales et la recherche in silico de nouveaux médicaments. Des cas d'utilisation concrets seront mis en œuvre et déployés sur des infrastructures de grille dans les deux cas. GWENDIA a pour objectif de permettre la production scientifique dans les deux domaines en fournissant un accès transparent et efficace aux ressources de la grille pour le calcul des ces applications dominées par les données. 1. Retombées industrielles et économiques escomptées Retombées industrielles et économiques escomptées Ce projet de recherche amont n'implique pas directement de partenaires 23 industriels. Cependant, la gestion de flots de calcul a été un domaine dans lequel l'industrie s'est montrée très active ces dernières années. Considérant l'adoption des technologies de grille par le monde industriel, il y aura probablement un intérêt industriel croissant pour les gestionnaires de flots sur grille. En particulier, INRIA/GRAAL collabore avec IBM qui est l'un des principaux investigateurs dans la définition du langage BPEL. Les deux domaines applicatifs considérés ont également des retombées sociales et économiques potentielles importantes. L'analyse automatique d'images médicales est de plus en plus nécessaire pour la pratique clinique et la recherche de nouveaux médicaments in silico soulève un intérêt très grand de l'industrie pharmaceutique étant donné les enjeux économiques considérables sous-jacents. Partenaires Université de Nice-Sophia Antipolis / I3S (partenaire coordinateur) INRIA / INRIA Rhône Alpes / LIP CNRS / LPC CNRS / CREATIS Coordinateur Johan MONTAGNAT [email protected] Aide de l'ANR 393 984 € Début et durée Janvier 2007 – 36 mois Référence ANR-06-MDCA-009 24 Titre du projet ICOS-HD Indexation et compression scalables et conjointes pour la gestion de contenus vidéo de Haute Définition Résumé Le but du projet est de proposer de nouvelles solutions de description scalable des contenus vidéo Haute Définition (HD) facilitant leur édition, diffusion et accès dans des infrastructures (réseaux, terminaux) hétérogènes. L'introduction de la Télévision HD nécessite en effet des adaptations aux différents niveaux de la chaîne de production et de diffusion des contenus. L'accès aux contenus, que ce soit pour des fonctions d'édition ou de diffusion, nécessite d'associer au contenu des descripteurs spatio-temporels locaux ou globaux. Ces derniers doivent permettre de collecter des informations liées aux actions, événements ou activités représentés par le document vidéo, lesquels peuvent intervenir à différentes échelles spatiales et temporelles. Les objectifs de ce projet seront ainsi de développer des méthodes d'extraction de descripteurs spatiaux et spatio-temporels dans le flux comprimé généré par les architectures d'encodage scalables considérées pour les applications de type cinéma numérique. Il s'agira également d'étudier de nouvelles transformations, permettant de générer des représentations hiérarchiques ou multi-résolution des séquences, adaptées à la fois à l'objectif de compression scalable et efficace du signal et à l'extraction de caractéristiques et de descripteurs robustes à différentes échelles, aussi bien spatiales que temporelles, et permettant ainsi l'accès à ces contenus dans des environnements hétérogènes. Les descripteurs spatiotemporels sont naturellement liés aux mouvements perçus dans une séquence d'images. Des méthodes d'extraction de descripteurs scalables du mouvement à l'aide d'approches statistiques et/ou variationnelles seront développées. Ces méthodes porteront aussi bien sur des descripteurs globaux des signaux HD que locaux (objets d'intérêt). Enfin, des scénarios applicatifs tirant partie de ces approches de description scalable seront définis et la pertinence des solutions développées pour de tels scénarios sera évaluée. Partenaires INRIA / IRISA (partenaire coordinateur) Université de Nice Sophia Antipolis / I3S Université Bordeaux 1 / LABRI Coordinateur Christine GUILLEMOT [email protected] Aide de l'ANR 389 500 € Début et durée Janvier 2007 – 36 mois Référence ANR-06-MDCA-010 25 Titre du projet INFILE Information, Filtrage , Evaluation 1. Contexte et vation Résumé Contexte et motivation Depuis une quinzaine d'années, à l'initiative du NIST aux États-Unis ont été menées des campagnes de tests comparatifs concernant la recherche d'information (TREC, TRT, MUC). En Europe de telles campagnes ont été mises en place (AMARYLLIS, CLEF) mais toujours en respectant les protocoles mis en place par le NIST. Ces protocoles sont orientés évaluation quantitative de la technologie mais les conditions sont assez éloignées d'un usage réel des systèmes. C'est la raison pour laquelle un certain nombre de critiques ont été apportées sur les conditions d'évaluation. Ces critiques portent sur le caractère artificiel des conditions de test (plusieurs mois pour étudier la base de données, au moins un mois pour traiter les requêtes) cela amène une distorsion dans la comparaison des technologies par le fait que le manpower mis en œuvre joue un rôle essentiel dans la qualité des résultats. Cela favorise aussi certaines approches basées sur des apprentissages statistiques qui s'avèrent impraticables d'un point de vue économique dans le cas général pour une exploitation réelle. Les critères de coût informatique ne sont pas pris en compte, des temps de traitement prohibitifs ou l'usage de matériels surdimensionnés peuvent amener à des résultats de qualité mais qui ne pourront être exploités par la grande masse des utilisateurs qu'après de nombreuses années d'évolution des matériels. L'autre ensemble de critiques que l'on peut faire porte sur l'absence de l'utilisateur dans le processus de recherche. La qualité de l'interface utilisateur peut amener de grandes différences dans le temps d'accès à une information pertinente. Il est donc nécessaire de mettre en place des évaluations qui tiennent compte du fait que les systèmes dans leur usage réel sont en général pilotés par des utilisateurs motivés par leur recherche. Cette réflexion nous amène à proposer à la communauté de la recherche et des industriels producteurs d'outils de nouveaux modes d'évaluation qui tiennent compte des conditions réelles d'usage des systèmes. Bien entendu ces campagnes ne peuvent se faire sans le consensus des auteurs de systèmes à évaluer. C'est la raison pour laquelle la première partie de ce projet consiste à établir en accord avec la communauté, les nouvelles règles d'évaluation. On portera une attention particulière à la fonctionnalité de filtrage d'information qui est très mal prise en compte par les évaluations TREC. Cette fonctionnalité est particulièrement importante pour toutes les actions de veille qu'elle soit stratégique, commerciale ou scientifique et technique. La procédure de TREC consiste à faire entraîner les systèmes sur une base avec des profils dont on connaît les réponses. L'épreuve consiste à 26 utiliser les mêmes profils sur une autre base homogène avec la première. Si on veut se rapprocher de la réalité de l'usage, on peut envoyer les profils aux participants et leur demander de mettre leur système en ligne. L'organisateur peut envoyer un à un les documents à filtrer et obtenir immédiatement une réponse positive ou négative pour chaque filtre. Il sera possible alors en examinant les réponses par tranches de voir si le système améliore sa performance au cours du temps (en fonction d'un feed back automatique ou manuel). D'autre part, les campagnes doivent prendre en compte les besoins réels en particulier concernant l'information multilingue. Les campagnes organisées par les Américains sont bien entendu orientées par leur besoin et en particulier les besoins des financeurs (DARPA). L'impossibilité même en Europe à cause de l'opposition des Américains de faire des évaluations sur certains couples de langues (par exemple arabe-francais, ou arabe-allemand ou chinois-français, ...) nous amène à prendre l'initiative en France de faire des évaluations qui sont économiquement importantes pour nos industriels. 2. Retombées scientifiques et techniques attendues Retombées scientifiques et techniques attendues Ce projet va permettre de développer de nouveaux modes d'évaluation des systèmes de filtrage et de recherche d'information orientés usage. Une campagne d’évaluation sera mise en place en fonction des résultats des discussions entre les organisateurs et la communauté des chercheurs et éditeurs de logiciels.. Les données de test à blanc nécessaires pour mettre au point les systèmes pour la campagne d'évaluation seront réalisés. Un corpus sera réalisé avec les requêtes et les vérités terrain permettant à la campagne de se dérouler. Les résultats seront calculés et communiqués aux participants pour discussion. Les résultats de la campagne et les nouvelles méthodes d'évaluation seront présentés par un colloque et par une publication. A la fin un kit d'évaluation sera disponible diffusé par ELDA pour permettre à de nouvelles équipes de se comparer aux résultats obtenus. De telles campagnes ne doivent pas être uniques. Il est souhaitable que les campagnes d'évaluation de ce type soient poursuivies de manière continue comme c'est le cas aux États-Unis. 27 Partenaires CEA - LIST (partenaire coordinateur) Université Lille 3 / GERIICO ELDA Coordinateur Halima DAHMANI [email protected] Aide de l'ANR 327495 € Début et durée Janvier 2007 – 24 mois Référence ANR-06-MDCA-011 28 Titre du projet NAVIDOMASS NAVigation In DOcument MASSes 1. Contexte et motivation Résumé Contexte et motivation There is an increasing interest to digitally preserve and provide access to historical document collections residing in libraries, museums and archives. Such archives of old documents are a unique public asset, forming the collective and evolving memory of our societies. Indeed, ancient documents have a historical value not only for their physical appearance but also for their contents. Examples are unique manuscripts written by well known scientists, artists or writers; letters, trade forms or official documents that help to reconstruct historical sequences in a given place or time; artwork elements like stamps, illustrations, covers, etc. On the other hand, there is also a need of the preservation of the technical heritage belonging to companies or public institutions. Examples of that are old engineering drawings or cadastral maps. The challenge that is currently widespread in Europe is the conversion of such heritage to digital libraries that allow to preserve it but also to make it available worldwide using web-based portals. Citizens of the future should be able, through the medium of better designed digital libraries to gain access to a myriad of forms of knowledge from anywhere and at any time and in an efficient and userfriendly fashion. A number of initiatives exists focusing on the creation of large digital libraries worldwide reachable. Google is now running a project to create a global virtual library. A number of European libraries have started a joint similar project (http://www.dwworld.de/dw/article/0,1564,1566717,00.html). DELOS is an European Network of Excellence on digital libraries (http://www.delos.info/). The construction of such libraries has an additional and important challenge, the analysis of documents and the extraction of knowledge. Such goal requires efforts in designing and developing semantic-based systems to acquire, organize, share and use the knowledge embedded in documents. The field of Data Mining, combined with Document Analysis offers a robust methodological basis to perform tasks such as descriptive modeling (clustering and segmentation), classification, discovering patterns and rules or retrieval by content applied to document sources and databases. Old documents can be originals (paper, parchment etc.) or in image form (already scanned, possibly using now outdated technology). The key requirement is to be able to process these unique manuscripts, whether they are presented as free flowing text (treatises, novels, ...) or structured at different levels of physical-logical structure correspondence (letters, census lists, trade forms, ...). Degradation may be caused by a lifetime of use, and access must also be preserved to user annotations and corrections, stamps and unique artwork. Each class of document requires a different approach throughout the conversion process and lends itself to different levels of information extraction and description. In summary, the analysis of historical document knowledge to build metadata that is used to access to digital libraries. In the knowledge society, the interest is beyond the digitization of documents but to create semantically enriched digital libraries of such digitized documents. Enriched documents mean to add semantical annotations to digital images of the scanned documents. 29 Such metadata is intended to describe, classify and index documents by their content. It would allow anywhere anytime natural access to such a cultural and scientific heritage. Thus, the main research goal of this project is to work in a collaborative framework on the Analysis of Old Documents. This goal consists in developing Pattern Recognition and Image Analysis techniques that allow extracting knowledge from documents and converting them to Digital Libraries containing the scanned pages enriched with semantical information. The partners groups of this project, Laboratoire Informatique, Image, Interaction - L3i (Université La Rochelle, France), QGar Team of the LORIA (Nancy), Laboratoire d'informatique de Tours (Université de Tours), Laboratoire CRIP5 (Université de Paris 5) Laboratoire LITIS (exPSI, Université de Rouen) and IRISA-IMADOC have large and complementary experience in Document Image Analysis (DIA), attested by many publications in this domain since the two last decades, and by a relevant presence in all the international DIA events. Indeed, on the ten four last years, the total number of journal publications reaches 25 contributions in 2005 while it reaches 57 papers in international conferences/workshops. These teams are currently working on different R+D projects on cultural heritage preservation in relation with their own geographic environment, with local partners. In this "Action de Recherche Amont" dedicated to the Mass of data, we plan to share insights from the experience in the corresponding projects, and work together in some topics related to the field of DIA applied to old documents. 2. Retombées scientifiques et techniques attendues Retombées scientifiques et techniques attendues The main innovative issue of our joint research is the creation of metadata associated to old document images, instead of just digitizing documents. A number of projects exist in the field of the preservation of cultural heritage. Those having some relation to old documents focus mainly in the early stages of digitization or on the creation of digital libraries of document images. However, the task of automatically extract knowledge from documents is rarely included in such projects. Thus our challenge is to investigate on pattern recognition, artificial intelligence and multimodal interfaces domains to build components of an Interactive framework to digitize and annotate old documents, and as a consequence, improve the document retrieval process. In this domain, some previous research projects allowed to tackle specific questions for which mature tools are now available. However some technological bolts still exist and require fundamental research to improve the quality of automatically produced annotations. Precisely, the focus of the project deals with the following points that can be grouped into four research topics: − Document Layout analysis and structure based indexing: this part aims at automatically extracting the different layers of the documents (text, graphic, tables, captions ...) , and detecting fundamental structure elements (title, sub-title, page number) that are very important for the indexing and the navigation process. 30 − Information spotting: after having characterized the different layers of information, this part aims at characterizing each class of information with relevant features, allowing performing information spotting in a same layer or between different layers. This point requires the development of innovative signatures, the signatures classically used in recognition process being to costly to be used in such a process. The signatures that have to be determined for this point deal with very different layers : text (word spotting), graphic (drawing spotting), ... − Structuration of the feature space in order to build efficient information retrieval system: this point is referred to the difficulty to build an efficient search system in the context of high dimensional vector space. This research which is a difficult point in many domains has never been really tackled till now in the domain of document analysis. The idea is to consider relevant techniques allowing to build relevant clusters in the feature spaces, and to develop rapid access system to the researched information. − Interactive extraction and relevance feedback: in the context of ancient documents, our relative experiences highlight the diversity of usages and the difficulty to provide an answer to the contradictory aspects relative to build generic and personalized systems at a same time. This difficult research point aims at providing the user with some interfaces allowing him to build interactive scenario for the extraction of the information that he wants to structure. This research considers two specific points. The first one deals with the implementation of naïve user interfaces allowing integrating interactively specific knowledge for the document information structuration. The second point deals with the implementation of user interfaces for the retrieval part, allowing the user to interact with the information retrieved by the system and inferring on the feature space and on the feature selection principle, in order to build a personalized system et économiques escompté Retombées industrielles et économiques escomptées The main issue of our joint research deals with some important improvements concerning very knowledge access. Indeed, the services that will be provided by this research will contribute to increase considerably the indexing rate of ancient digitized documents, and as a consequence contribute the make easier the access to cultural contents. Considering the economic aspects, the developed softwares could be transferred in companies, what will allow contributing to richness creation 31 Partenaires Université de la Rochelle / L3i (partenaire coordinateur) Université Francois Rabelais / LI INRIA / LORIA CNRS / CESR Université René Descartes / CRIP5 Université de Rouen / LITIS Insa de Rennes Coordinateur Jean-Marc OGIER [email protected] Aide de l'ANR 553 571€ Début et durée Janvier 2007 – 36 mois Référence ANR-06-MDCA-012 32 Titre du projet PASSAGE Producing Large Scale Syntactic Analysis to move forward Résumé Contexte et motivations Les motivations principales de la proposition PASSAGE sont doubles: - - améliorer la précision et la robustesse des analyseurs syntaxiques existants pour le Français, en les utilisant sur de gros corpus (plusieurs million de mots) et exploiter les annotations syntaxiques résultantes pour créer des ressources linguistiques plus riches et plus extensives. La méthodologie adoptée consiste en une boucle de rétroaction (feedback) entre analyse syntaxique et création de ressources, comme suit : - l'analyse syntaxique est utilisée pour créer des annotations syntaxiques les annotations sont utilisées pour créer ou enrichir des ressources linguistiques comme des lexiques, grammaires ou corpus annotés les ressources créées ou enrichies sur la base des annotations sont ensuite intégrées dans les systèmes d'analyse. les analyseurs enrichis sont utilisés pour créer des ressources encore plus riches (par exemple syntactico-sémantiques) etc… Plus généralement, le projet PASSAGE devrait aussi aider à faire émerger des chaînes de traitement linguistique exploitant des informations lexicales plus riches, en particulier sémantiques. PASSAGE s'appuie sur les résultats de la campagne d'évaluation des analyseurs syntaxiques menée dans le cadre de l'action EASy/EVALDA (programme Technolangue). Cette campagne a montré que plusieurs systèmes d'analyse existent désormais pour le Français. Néanmoins, bien que les résultats furent meilleurs que prévus, cette campagne a confirmé que la robustesse et la précision peuvent encore être largement améliorées, en particulier pour les données orales. De plus, bien que le plan initial de EASy était de combiner les résultats produits par chaque participant pour construire une treebank du Français (un corpus annoté syntaxiquement), cette phase reste à venir, et le résultat, malgré son intérêt certain, restera relativement limité (environ 40K phrases avec un sous-ensemble de 4K phrases manuellement validées), au regard des standards internationaux qui émergent (10M à 100M mots, i.e. 0.5M à 5M phrases). PASSAGE vise à poursuivre et à étendre la ligne de recherche initiée par la campagne EASy. En particulier, PASSAGE cherche à : - organiser des nouvelles campagnes d'évaluation pour évaluer et améliorer les systèmes d'analyse syntaxiques du Français sur de gros corpus (millions de mots) 33 - - finaliser une méthodologie pour comparer et fusionner les résultats fournis par plusieurs analyseurs utiliser les résultats fusionnés des meilleurs analyseurs pour construire une treebank du Français valider cette treebank soit manuellement soit automatiquement utiliser à la fois cette treebank et la partie non-validée du gros corpus annoté syntaxiquement pour extraire des informations linguistiques intégrer les ressources ainsi acquises dans les analyseurs développer les méthodologies pour évaluer la qualité des ressources ainsi acquises La participation d'une dizaine systèmes d'analyse syntaxique dans un effort collectif tourné vers l'acquisition de ressources linguistiques est une occasion plutôt unique. Nous pensons que la combinaison d'autant de sources d'information sur une période d'adaptation relativement longue renforce les chances de succès de cette proposition. 1. Retombées scientifiques et techniques attendues Retombées scientifiques et techniques attendues Les retombées attendues du projet PASSAGE incluent : l'émergence de chaînes de traitement linguistique pour le Français qui soient plus robustes, efficaces, et précises, avec de plus une meilleure évaluation de leur niveau de performance. - l'identification de méthodologies et de protocoles pour effectuer des tâches d'acquisition de connaissances linguistiques. Ces méthodologies devraient être adaptables pour d'autres langues que le Français, en particulier pour traiter des langues pauvrement dotées, aidant ainsi à surmonter le fameux problème du goulet d'étranglement en Traitement Automatique des Langues (TAL) - une banque d'annotations syntaxiques (en dépendances) pour le Français, utiles pour améliorer le traitement syntaxique - l'enrichissement de ressources linguistiques pour le Français (lexiques et grammaires) - l'acquisition de connaissances linguistiques aidant au développement d'applications mieux adaptées aux utilisateurs. - la consolidation d'une forte communauté française en analyse syntaxique, familière avec l'utilisation systématique de procédure d'évaluation à grande échelle. mbées industrielles et économiques escomptées Retombées industrielles et économiques escomptées L'analyse syntaxique est une phase importante de traitement linguistique qui n'est pas actuellement largement déployée dans le cadre d'applications industrielles, en partie à cause de sa complexité et des besoins en termes de ressources. PASSAGE pourrait altérer cette situation grâce à : - - - l'émergence de chaîne de traitement linguistique pour le Français, plus robustes, efficaces et précises. Ces systèmes sont des candidats de choix pour des transferts industriels et leur exploitation dans des applications industrielles; l'accès à plus de ressources linguistiques pour le Français (lexiques, grammaires); 34 - - l'évaluation des annotations syntaxiques, et en particulier sous forme de dépendances, comme une source émergent de données pour des applications d'extraction d'information (comme c'est déjà le cas pour d'autres langues, en particulier l'anglais); la validation d'une méthode pour améliorer les technologies de traitement du langage, au travers l'évaluation et la réunion de systèmes d'analyse syntaxique. Partenaires INRIA / INRIA Rocquencourt (partenaire coordinateur) CNRS / LIMSI CNRS / LORIA CEA / LIST Coordinateur Eric de la CLERGERIE Aide de l'ANR 428 480 € Début et durée Janvier 2007 – 36 mois Référence ANR-06-MDCA-013 35 Titre du projet PlasmoExplore Fouille des données génomiques et post-génomiques de Plasmodium falciparum, qui est l'agent principal de la malaria, pour prédire la fonction des gènes orphelins et identifier de nouvelles cibles thérapeutiques Résumé Contexte et motivation La malaria (ou paludisme) touche selon le dernier rapport de l'OMSUnicef de l'ordre de 500 millions d'êtres humains dans le monde, et tue environ 3 millions de personnes par an, essentiellement des enfants, et surtout en Afrique. Cette maladie infectieuse est causée par un organisme unicellulaire, Plasmodium falciparum, transmis par des moustiques du genre Anopheles. La lutte contre cet agent infectieux se heurte à de nombreux problèmes, dont les trois majeurs sont : (1) l'apparition de résistances aux quelques traitements existant aujourd'hui (chloroquine et dérivés, sulfadoxine pyriméthamine, méfloquine et artémisinine) ; (2) le faible nombre de nouvelles cibles thérapeutiques, lié au fait que le génome de P. falciparum est très mal connu, (3) l'échec de toutes les tentatives de vaccin. Le projet PlasmoExplore a pour objectif de contribuer au décryptage du génome de P. falciparum, et de répondre par là au point (2) ci-dessus en mettant à jour la fonction de gènes orphelins (inconnus), qui constitueront autant de nouvelles cibles thérapeutiques potentielles. Cette tâche, difficile en général, est particulièrement ardue dans le cas de P. falciparum. Il s'agit d'un organisme complexe, comportant une face végétale résultant d'une endosymbiose ancienne avec une algue rouge. Son cycle parasitaire est également complexe, puisqu'il séjourne successivement dans les cellules de l'endothélium digestif de l'Anophèle, le foie humain, puis les globules rouges (érythrocytes) humains, et subit de nombreuses transformations au sein de chacun de ces sites successifs. Son génome (publié en 2002) est tout à fait atypique car comportant une très forte proportion de A et T (80%), alors que la moyenne est aux alentours de 50%. Ses protéines elles mêmes sont atypiques, car leur composition en acides aminés est fortement biaisée par la richesse en AT, et parce qu'elles sont en moyenne 20% plus longues que les protéines homologues connues dans les autres organismes. Toutes ces difficultés accumulées font que des caractéristiques fonctionnelles (pour la plupart non encore vérifiées expérimentalement) n'ont pu être proposées que pour 40% des gènes de P. falciparum et ceci, grâce à l'identification de gènes homologues (dans des organismes voisins) dont la fonction était déjà connue. Il reste donc 60% de gènes orphelins, dont la fonction est totalement inconnue. Leur nombre est de ~3000, suivant la base PlasmoDB qui répertorie une grande partie des connaissances génomiques disponibles sur P. falciparum. L'objectif de PlasmoExplore est de prédire la fonction de ces 3000 gènes inconnus (orphelins). Nous nous appuierons sur : 36 les données génomiques, de P. falciparum lui-même, mais aussi des espèces proches dont un grand nombre sont en cours de séquençage et devraient être disponibles prochainement ; - les données post-génomiques, essentiellement le transcriptome issu des puces à ADN et indiquant le niveau d'expression des gènes dans diverses conditions ou à divers stades parasitaires, mais aussi l'interactome et le protéome. Ces données sont hétérogènes, elles sont de qualités fort différentes (par exemple, le transcriptome est très bruité, alors que les données de séquençage sont généralement fiables), et surtout elles apportent des informations très différentes. Egalement, ces données sont en évolution et augmentation constante, du fait des grands programmes internationaux sur la thématique. Retombées scientifiques et techniques attendues Retombées scientifiques et techniques attendues La méthode générale d'exploitation de ces données combinera : - - - - - les ontologies du consortium Gene Ontology (GO), qui définissent la fonction des gènes suivant trois points de vue : la fonction cellulaire, la fonction biochimique, et la localisation ; les méthodes d'alignement (y compris le développement de matrices de score dédiés à P. falciparum et prenant en compte les biais de composition en nucléotides ou acides aminés) pour exploiter les données génomiques et établir de nouvelles homologies, à l'échelle du gène mais aussi de chromosomes ou de génomes entiers ; l'apprentissage statistique, qui sera utilisé pour exploiter les données post-génomiques et construire des prédicteurs associés à chacune des classes GO ; les méthodes de combinaison de classifieurs pour faire la synthèse entre les informations extraites de chaque source de données ; enfin un ensemble de techniques de visualisation et d'interaction adaptées, permettant une exploration multi-échelle des prédictions réalisées. Finalement, cette approche sera flexible pour prendre en compte facilement l'arrivée de nouvelles données. Chacun de ces points nécessite des recherches méthodologiques, dont la portée dépasse l'application traitée ici. Ainsi, les méthodes d'apprentissage supervisé sont des approches naturelles pour assigner des objets à des classes constituant une partition de l'espace des possibles, mais elles ne traitent pas, ou imparfaitement, les cas où les classes sont non-exclusives et organisées dans une structure hiérarchique. Une grande part de la classification supervisée (basée sur la règle de Bayes) doit être repensée dans ce nouveau contexte. Et il est clair que de telles approches trouveront des applications dans d'autres domaines, où on dispose d'ontologies structurant l'univers des objets. De même, l'alignement de séquences présentant des compositions en caractères et des longueurs différentes nécessite de reconsidérer les algorithmes rapides (de type BLAST) ou basés sur la programmation dynamique (de type Smith et Waterman). La combinaison de classifieurs dans ce contexte (impliquant notamment des ontologies) est également un champ d'investigation prometteur, avec des applications multiples. Enfin, la visualisation de prédictions complexes, au sein d'ontologies et dans le but d'indiquer à l'utilisateur les données et processus ayant conduit aux résultats exprimés, présente clairement un large intérêt. 37 Outre ces recherches méthodologiques, le projet développera une base de données accessible librement par le Web. Cette base donnera accès aux meilleures prédictions disponibles pour chacun des gènes inconnus de P. falciparum. Elle sera interfacée avec PlasmoDB et permettra des requêtes multiples, par exemple pour extraire les gènes fortement prédits dans un ensemble de fonctions donné. Le retour de la communauté internationale sur ces prédictions sera extrêmement précieux pour affiner la démarche et les résultats. Les partenaires biologistes du projet ont tous comme objectif ultime la mise en évidence de nouvelles cibles thérapeutiques et le design de nouveaux traitements. Les prédictions les plus pertinentes faites dans le cadre du projet seront testées à la paillasse et donneront un retour sur ces prédictions. Ces approches expérimentales coûteuses ne seront pas supportées par le présent projet et feront l'objet de demandes ultérieures, à l'ANR ou ailleurs. Elles donneront néanmoins une solide assise au projet PlasmoExplore et contribueront à sa visibilité. lles et économiques escomptées Retombées industrielles et économiques escomptées Un des objectifs du projet PlasmoExplore est de progresser dans l'inventaire des cibles possibles pour des traitements thérapeutiques. La découverte d'un nouveau traitement antipaludéen serait un événement majeur avec des retombées industrielles considérables. Prétendre que nous atteindrons cet objectif serait présomptueux, mais nous entendons jouer un rôle fort, sur le versant informatique, dans cette quête qui est si importante au niveau mondial. Partenaires CNRS / LIRMM (partenaire coordinateur) CEA / PCV Muséum National d'Histoire Naturelle / BFP Coordinateur Olivier GASCUEL [email protected] Aide de l'ANR 447 271 € Début et durée Janvier 2007 – 36 mois Référence ANR-06-MDCA-014 38 Titre du projet VORTISS Reconstruction d'organes pour l'interaction temps réel en simulation chirurgicale Résumé Contexte et objectifs Ce projet vise à concevoir un modèle robuste et unifié permettant une restitution fidèle de la forme et du comportement des organes dans un simulateur chirurgical. Ce modèle repose sur un couplage entre divers composants : un modèle géométrique précis et visuellement réaliste de l'organe créé par reconstruction à partir d'images médicales ; un modèle topologique rigoureux autorisant des incisions, découpes, déchirements et destruction de façon cohérente ; un modèle mécanique hybride ; un modèle d'interaction adapté aux corps déformables à topologie variable et permettant le pilotage de périphériques haptiques. Pour gérer le compromis précision/rapidité de calcul, les quatre constituants du modèle sont nécessairement multi-résolution. La résolution de travail de chacun des modèles est gérée indépendamment même si la gestion du modèle reste fortement connectée aux autres composants. Retombées scientifiques et techniques attendues Retombées scientifiques et techniques attendues Proposer un modèle capable de gérer, en temps interactif, tout d'abord la déformation d'un organe hétérogène reconstruit depuis des données réelles, ensuite capable de gérer des opérations de modification topologiques comme la découpe, et pour finir pouvant trouver sa place au sein de la cavité thoracique humaine, et de notre point de vue un objectif à la fois ambitieux et très novateur. L'impact dans le domaine de la simulation médicale serait très certainement important, dans la mesure où à l'heure actuelle aucune simulation ne peut fournir une vue globale, dans un contexte de simulation interactive, d'un ensemble aussi complexe que la cavité abdominale humaine. Partenaires Université de Lille 1 / LIFL (partenaire coordinateur) Université Louis Pasteur / LSIIT Université de Poitiers / SIC IRCAD Coordinateur Laurent GRISONI Aide de l'ANR 431 359 € Début et durée Janvier 2007 – 36 mois Référence ANR-06-MDCA-015 39