Projet 2012-2017
Transcription
Projet 2012-2017
Laboratoire d’Informatique Fondamentale de Marseille UMR CNRS - Université de la Méditerranée - Université de Provence Projet scientifique pour la période 2012-2015 10 septembre 2010 Table des matières 1 2 3 4 Le Laboratoire d’Informatique Fondamentale de Marseille 1.1 Auto-évaluation du laboratoire . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1.1.1 La qualité scientifique et la production . . . . . . . . . . . . . . . . . . . . . . . 1.1.2 Le rayonnement, l’attractivité et l’intégration du laboratoire dans son environnement . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1.1.3 Stratégie et gouvernance de l’unité . . . . . . . . . . . . . . . . . . . . . . . . . . 1.1.4 Synthèse . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1.2 Projet scientifique du laboratoire . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1.2.1 Contexte . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1.2.2 Orientations scientifiques du laboratoire . . . . . . . . . . . . . . . . . . . . . . 1.2.3 Collaborations et actions fédératives . . . . . . . . . . . . . . . . . . . . . . . . . 1.2.4 Politique du laboratoire . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1.3 Fonctionnement et vie du laboratoire . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1.3.1 Gouvernance . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1.3.2 Animation scientifique . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1.3.3 Communication - système d’information . . . . . . . . . . . . . . . . . . . . . . 1.3.4 Moyens financiers du laboratoire . . . . . . . . . . . . . . . . . . . . . . . . . . . 1.3.5 Services administratif et informatique . . . . . . . . . . . . . . . . . . . . . . . . 1.3.6 Locaux . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1.3.7 Formations . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5 5 5 7 8 9 10 11 13 15 17 20 20 21 22 22 23 24 24 ÉQuipe AppRentissage et MultimédiA 2.1 Présentation . . . . . . . . . . . . . 2.1.1 Membres . . . . . . . . . . . 2.1.2 Structuration . . . . . . . . 2.2 Projet de Recherche . . . . . . . . . 2.3 Fonctionnement de l’équipe . . . . 2.4 Collaborations, projets . . . . . . . 2.5 Auto-évaluation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27 27 27 27 28 30 31 33 Bases de Données Avancées 3.1 Membres . . . . . . . . . . . . . . . 3.2 Projet de Recherche . . . . . . . . . 3.2.1 Entrepôts de données . . . 3.2.2 Fouille de bases de données 3.3 Auto-évaluation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35 35 35 35 37 39 Algorithmique, Combinatoire et Recherche Opérationnelle 4.1 Présentation . . . . . . . . . . . . . . . . . . . . . . . . . 4.1.1 Membres . . . . . . . . . . . . . . . . . . . . . . . 4.1.2 Structuration de l’équipe . . . . . . . . . . . . . 4.2 Projet de Recherche . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 43 43 43 44 44 4 TABLE DES MATIÈRES 4.3 5 6 Auto-évaluation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Modélisation et Vérification 5.1 Présentation . . . . . . . . . . . . . . . . . . 5.1.1 Membres Permanents . . . . . . . . 5.1.2 Structuration de l’équipe . . . . . . 5.2 Projet de Recherche . . . . . . . . . . . . . . 5.2.1 Vérification . . . . . . . . . . . . . . 5.2.2 Algorithmique distribuée . . . . . . 5.2.3 Logique, automates et combinatoire 5.3 Animation de l’équipe . . . . . . . . . . . . 5.4 Auto-évaluation . . . . . . . . . . . . . . . . 48 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51 51 51 51 52 52 54 55 56 57 Traitement Automatique du Langage Écrit et Parlé 6.1 Présentation . . . . . . . . . . . . . . . . . . . . 6.2 Projet de recherche . . . . . . . . . . . . . . . . 6.2.1 Méthodes symboliques . . . . . . . . . 6.2.2 Méthodes Numériques . . . . . . . . . . 6.3 Auto évaluation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 59 59 60 60 62 63 . . . . . . . . . Chapitre 1 Le Laboratoire d’Informatique Fondamentale de Marseille Ce document décrit le projet du Laboratoire d’Informatique Fondamentale de Marseille (UMR 6166 – CNRS - Université de la Méditerranée- Université de Provence) pour le quadriennal 20122015. Ce projet a été conçu lors d’un processus de large consultation : le directeur du laboratoire et le porteur de projet ont rencontré une à une les équipes de recherche participant à ce projet 1 ainsi que les personnels des services administratif et informatique afin de recueillir l’avis de chacun sur la situation actuelle et sur les évolutions souhaitées. Les orientations scientifiques pour le quadriennal futur ont ensuite été discutées lors de réunions du conseil de direction, pour certaines ouvertes à des membres «cadres» de chacune des équipes. De plus, ces orientations ont été présentées et débattues lors de deux conseils de laboratoire ouverts à l’ensemble des membres du laboratoire (en date du 18 mars et du 29 avril 2010). Elles ont par ailleurs été présentées aux membres du conseil scientifique du LIF (à l’exception de András S EBÖ qui n’a malheureusement pas pu se libérer), à Hubert C OMON le 8 juin et à Laurence D ANLOS et Patrick G ALLINARI les 17 et 18 juin lors des journées scientifiques annuelles du LIF. Finalement, ces orientations ont été validées lors de l’assemblée générale qui a conclu ces mêmes journées. 1.1 1.1.1 Auto-évaluation du laboratoire La qualité scientifique et la production Les thèmes scientifiques présents au LIF sont au coeur de la recherche en informatique contemporaine. Les chercheurs et enseignants chercheurs du LIF publient une proportion significative de leurs contributions dans des revues ou conférences d’excellent niveau. Citons par exemple Revues : ACM Transactions Computational Logics, Algorithmica, Annals of Information Systems, Combinatorica, Discrete and Computational Geometry, European Journal of Combinatorics, European Journal of Operational Research, Information and Computation, Information System, International Journal of Business Intelligence and Data Mining, International Journal of Data Warehousing and Mining, Internationl Journal on Information Fusion, International Journal of Speech Technology, Journal of Algorithms, Journal of Combinatorial Theory B , Journal of Computer and System Sciences, Journal of Symbolic Logic, Langages, Langue française, Linguisticae Investigationes, Machine Learning, Mathematical Programming, Networks, Operations Research, Pattern Recognition, Pure and Applied Logic, Review of Symbolic Logic, SIAM J. Computing, SIAM J. Discrete Mathematics, Theoretical Computer Science, Traitement Automatique des Langues ; 1 L’équipe Escape ne sera plus une équipe du laboratoire au 1er janvier 2012, la plupart de ses membres choisissant de quitter l’aire marseillaise à court ou moyen terme par voie de mutation ou de promotion. Les raisons de cette situation font l’objet d’un document annexe. 6 CHAPITRE 1. LE LABORATOIRE D’INFORMATIQUE FONDAMENTALE DE MARSEILLE Conférences : ACL, APPROX-RANDOM, COLING (Computational Linguistics), COLT, Concur, CSL, DCGI, ECML, ICALP, ICML, IPCO, NAACL, SAT, SoCG, SODA, STACS, STOC. La moyenne du nombre de publications par membre publiant du laboratoire est supérieure à 8,5 sur la période 2006-2009, toute catégorie confondue, dont une bonne partie dans des revues de premier plan ou des conférences très sélectives. Les membres du LIF font clairement le choix de la qualité sur la quantité, choix qui est encouragé par les responsables d’équipes et qui constitue une marque du laboratoire. Néanmoins, il peut être conseillé à certaines équipes de publier davantage dans des revues. L’interdisciplinarité est présente au LIF au travers de la linguistique, au sein de l’équipe TALEP, et des mathématiques, présentes dans de nombreux programmes de recherche. Les collaborations avec les biologistes sont très limitées : cela fait partie de nos projets de les développer. Plus précisément, – les projets info-maths sont encouragés par la politique scientifique du laboratoire et vont prendre encore plus d’ampleur avec le projet de laboratoire d’excellence élaboré avec les laboratoires de mathématiques (LATP, IML) et le CIRM dans le cadre du Grand Emprunt National et la perspective de créer d’une structure fédérative forte avec l’IML et le LATP au sein d’Aix-Marseille Université au cours du prochain quadriennal ; – l’équipe TALEP est structurellement pluridisciplinaire - la section qui lui est lui est consacrée décrit précisément la nature des recherches qui y sont menées. Il faut noter qu’un projet de master co-adossé au LIF et au LPL (Laboratoire Parole et Langage, UMR 6057) sera déposé pour le prochain quadriennal, renforçant encore l’interdisciplinarité présente dans cette équipe ; – la bio-informatique fait partie des thèmes que nous souhaiterions ouvrir au LIF. L’année dernière, nous avons ouvert le profil d’un de nos postes de professeur à la bio-informatique, en mentionnant qu’un professeur recruté sur cette thématique bénéficierait d’un soutien fort du laboratoire pour qu’il puisse constituer une équipe rapidement, en lien avec les groupes existant à l’IML (Alain Guénoche, DR CNRS) et au LATP (Pierre Pontarotti, DR CNRS). Nous n’avons malheureusement pas pu recruter de candidat pouvant assurer cette mission lors du dernier concours. Mais nous maintenons une veille sur les candidats potentiels à même de réaliser ce projet. Le nombre de doctorants au LIF est encore trop réduit, même s’il a progressé de 17% depuis le dernier quadriennal, passant de 23 à 27. Parmi les actions qui ont été effectuées afin de remédier à ce problème, on peut citer : – la diversification des sources de financement : nous avons augmenté le nombre d’allocations CIFRE, nous avons obtenu pour la première fois l’année dernière des allocations Entreprises/Région, nous avons obtenu plusieurs financements sur des projets ANR ; – l’ouverture vers les écoles d’ingénieurs : paradoxalement difficile avec les 2 écoles d’ingénieurs universitaires marseillaises, nous avons eu plus d’opportunité pour développer nos collaborations avec l’Ecole Centrale de Marseille, avec le recrutement d’un professeur rattaché au LIF et, dès cette année, la cohabilitation par l’ECM du master d’informatique adossé au LIF ; – l’affichage des sujets vers l’extérieur : cela nous a permis en particulier de recruter plusieurs doctorants étrangers. Ces efforts seront poursuivis. Le nombre de membres du LIF qui soutiennent leur habilitation est encore trop faible (3 sur les quatre dernières années, soit un peu plus de 10% du nombre de maîtres de conférences non habilités ; mais au moins 3 collègues soutiendront leur HDR à l’automne 2010 : Pierre B ONAMI, Amaury H ABRARD et Peter N IEBERT). Les relations contractuelles sont en forte augmentation : – le nombre de projets ANR acceptés est important (26 ACI ou ANR actives entre 2006 et 2009) et en forte croissance (8 ANR acceptés en 2009) ; cela permet un financement très confortable de certaines équipes, manne dont tout le laboratoire profite étant données nos règles de fonctionnement. Cependant, ce type de financement de la recherche a également des effets pervers 1.1. AUTO-ÉVALUATION DU LABORATOIRE 7 en accentuant les effets d’accordéons (des années de vaches maigres peuvent succéder à des années d’opulence), en faisant trop reposer la recherche sur des projets ponctuels au détriment de la recherche à long terme ; – le laboratoire est membre du réseau européen d’excellence Pascal2. C’est le seul programme européen actif au LIF actuellement. Parmi les raisons expliquant le peu d’implication dans des programmes européens, on peut citer la lourdeur du montage de tels projets et la relative facilité à obtenir des financements raisonnables via des programmes nationaux ; – les relations industrielles étaient l’une des principales faiblesses du LIF : les choses s’améliorent, grâce entre autres à la création d’une cellule interne consacrée aux relations industrielles et à la valorisation. Plusieurs contrats industriels ont été signés, le plus souvent dans le cadre d’allocations co-financées (région ou CIFRE). Le LIF est maintenant partenaire de trois pôles de compétitivité : SCS (Solutions Communicantes Sécurisées), Pegase et CAP-DIGITAL (aucun au quadriennal précédent). Il faut bien entendu continuer les efforts dans cette voie ; – en revanche, peu de logiciels produits par le LIF font l’objet d’une valorisation. La cellule Valorisation et relations industrielles contribue à sensibiliser les collègues à cette problématique mais il est indispensable que le laboratoire puisse disposer de ressources en ingénieurs de développement pour aller plus loin dans cette direction. Il est également nécessaire qu’il puisse s’appuyer sur des services de valorisation au fait des spécificités des développements logiciels - ce qui n’est pas le cas actuellement. La création d’un service mutualisé dans le cadre de la fédération mathématiques-informatique devrait permettre de progresser dans cette voie. Certains de nos collègues ne peuvent plus être considérés comme publiants selon les critères de l’AERES, soit qu’ils traversent des difficultés passagères, soit qu’ils aient fait le choix à un certain moment de s’investir dans certaines responsabilités pédagogiques ou administratives lourdes qui les empêchent de maintenir une activité de recherche à un niveau qui leur permettrait de publier. Il n’est pas rare que des enseignants-chercheurs connaissent dans leur carrière une baisse ou un trou de publications de plusieurs années et reviennent par la suite au meilleur niveau. Lorsque ces collègues continuent à suivre les activités de leur équipe, groupes de travail ou séminaires, ont une activité de publication minimale et manifestent le souhait, clairement exprimé, de reprendre toute leur place au sein du laboratoire, nous souhaitons qu’ils restent membre à part entière du laboratoire ; la direction et les responsables des équipes concernées les aideront à reprendre pied, en leur fournissant par exemple les moyens de se déplacer dans des écoles thématiques ou conférences eventuellement sans article accepté, en mettant sur pied des programmes de recherche plus appliqués ou ayant une forte composante de développements logiciels, etc. Quatre ou cinq collègues sont dans ce cas.D’autres collègues contribuent de manière indirecte au bon fonctionnement du laboratoire, par les responsabilités pédagogiques qu’ils exercent, ou plus simplement par leur participation aux filières adossées au laboratoire. Il nous semble souhaitable que ces collègues soient considérés comme associés au laboratoire. Dix collègues seront déclarés comme associé, leur statut pouvant être revu en début de quadriennal. 1.1.2 Le rayonnement, l’attractivité et l’intégration du laboratoire dans son environnement Le rayonnement du laboratoire peut être mesuré par : des Prix Gérard Cornuéjols (prix Dantzig 2009), Laurent Bienvenu (prix Gilles Kahn 2008), Guillaume Stempfel (meilleur article jeune chercheur CAP 2008), Morgan Seston (prix ERS IASC Young Researchers Award à la conférence COMPSTAT 2008), Bertrand Estellon, Frédéric Gardi, et Karim Nouioua : 2ème Prix Senior (ex-aequo) du Challenge ROADEF 2007 pour le meilleur logiciel de planification d’interventions et de techniciens ; des invitations de chercheurs étrangers Une trentaine pour le laboratoire (cf liste partielle annexe 1.7.5 du rapport) ; des invitations dans des conférences et séminaires Plusieurs dizaines : voir les comptes-rendus de chaque équipe ; 8 CHAPITRE 1. LE LABORATOIRE D’INFORMATIQUE FONDAMENTALE DE MARSEILLE des organisations de conférences, colloques et écoles Une vingtaine dont : STACS 2006 (120 part.), TABLEAUX 2007 (60 part.), EPIT 2008 (84 part.), Workshop on Modal Fixpoints Logics 2008 (40 part.), JAC 2008 (50 part.), ALGOTEL 2009 (85 part.), CoAlex 07 08 09, etc. ; des collaborations nationales et internationales : nous avons recensé 38 laboratoires ou équipes partenaires dans le cadres des projets ANR ; la liste des chercheurs étrangers invités donne une indication partielle sur le nombre de collaborations internationales de membres du laboratoire ; la participation à des réseaux d’excellence Pascal2 (Pattern analysis, Statistical Modelling and Computational Learning). Les rapports des équipes font état des participations des membres du LIF dans les comités de programmes des principales conférences de leur domaine ainsi que dans de nombreux comités éditoriaux de revues. Les membres du LIF ont participé à une cinquantaine de jurys de thèse et une quinzaine de jurys d’HDR. Signalons également la visite des élèves de l’ENS Cachan en décembre 2009, organisée sur une journée, au cours de laquelle les équipes du LIF ont présenté leurs activités et échangés avec les étudiants. Une visite analogue avait déjà été organisée en 2006. A l’issue de la dernière visite, trois étudiants cachanais ont choisi d’effectuer leur stage de recherche de L3 au LIF. L’attractivité du laboratoire. Dans un contexte de concurrence difficile dû au nombre important de postes de MC ouverts au concours en informatique, et au nombre de chercheurs recrutés chaque année au CNRS en section 07 et à l’INRIA, le LIF arrive à recruter d’excellents candidats maîtres de conférences (dont 70% d’extérieurs) et professeurs (dont 4/7 extérieurs), le plus souvent choisissant le LIF entre plusieurs autres possibilités. Le laboratoire a également pu recruter 4 chargés de recherche en 4 ans dont un en mutation. Le laboratoire encourage vivement le recrutement de candidats MC extérieurs, c’est-à-dire ayant soutenu leur thèse en dehors de l’établissement, ou ayant effectué un séjour post-doctoral significatif hors de l’établissement après l’obtention du doctorat cette politique est systématiquement appliquée par les commissions et comités de l’université de Provence, qui n’ont pas recruté un seul candidat local sur un poste de maître de conférences depuis la création du laboratoire (janvier 2002). Cette recommandation a été moins systématiquement suivie par les commissions et comités de l’université de la Méditerranée. Nous souhaitons que la fusion des universités marseillaises permette de s’engager à ne pas recruter plus de 20% de candidats locaux sur les concours de maîtres de conférences (et pas plus de 50% sur les concours de professeurs). 1.1.3 Stratégie et gouvernance de l’unité Suivant les recommandations du comité d’évaluation du LIF en 2007, a été constitué un conseil de direction composé du directeur, du directeur-adjoint, de la responsable administrative et des responsables des équipes du LIF. Consulté régulièrement par mail et réuni environ 1 à 2 fois par mois - avec la contrainte qu’au moins 3 responsables ou représentants des équipes soient présents -, ce conseil constitue une excellent outil de gouvernance. Le conseil de direction conseille le directeur, émet des avis, et se prononce sur certaines décisions comme la sélection de projets financés par le LIF, les classements qui doivent être proposés à l’école doctorale, les classements sur les demandes de délégation, etc. Il offre un niveau intermédiaire entre la cellule de direction, composée du directeur, du directeur adjoint et dela responsable administrative, dont les membres se consultent au quotidien, et le conseil de laboratoire, qui se réunit en moyenne une fois par trimestre. Le seul bémol à signaler : l’éloignement des deux sites du laboratoire empêche que ce conseil se réunisse physiquement plus souvent. Une fréquence d’une réunion par semaine, à date bloquée, serait souhaitable. Nous avons constitué un conseil scientifique du laboratoire, composé de Patrick G ALLINARI (PU à l’université Paris VI, directeur du LIP6), András S EBÖ (DR CNRS, INPG), Hubert C OMON (PU à l’ENS Cachan, médaille d’argent du CNRS), Laurence D ANLOS (PU à l’université Paris VII, IUF Senior). Les activités du laboratoire, ses perspectives et sa politique scientifique ont été présentés à Hubert C OMON le 8 juin 2010, à Patrick G ALLINARI et Laurence D ANLOS lors des journées scientifiques du LIF les 17 et 18 juin 2010 (malheureusement, András S EBÖ n’était pas disponible ces jours 1.1. AUTO-ÉVALUATION DU LABORATOIRE 9 là). Nous avons demandé à nos collègues de formuler une appréciation sur les activités du laboratoire et sur sa politique scientifique ainsi que des recommandations. Ce conseil est une nouveauté au laboratoire. Il serait sans doute souhaitable que ce conseil puisse être réuni et consulté 2 fois par quadriennal. La stratégie mise en oeuvre lors de l’actuel quadriennal a été essentiellement consacrée à : – une organisation plus cohérente du laboratoire au sein du paysage universitaire d’Aix-Marseille ; – la restructuration de l’informatique marseillaise ; – la création d’une structure fédérative forte avec les deux laboratoires de mathématiques voisins, l’IML et le LATP ; – le rapprochement avec les écoles d’ingénieurs : l’Ecole Centrale de Marseille, Polytech et l’ESIL ; – le développement des relations industrielles et de la valorisation. Ces points – qui décrivent tous des questions complexes qui ne peuvent être traitées que sur le long terme – ont fait l’objet de développement dans le corps du rapport. Un point important n’a sans doute pas fait l’objet d’une attention suffisante : le renouvellement et l’enrichissement des thématiques traitées au laboratoire et la création de nouvelles équipes. Il y a bien eu des ouvertures vers de nouveaux thèmes dans plusieurs équipes (fouille de données multimedia dans l’équipe BDAA, approches statistiques en TAL, l’algorithmique distribuée dans l’équipe MoVe), le plus souvent liées à des recrutements mais la croissance du laboratoire rend nécessaire l’ouverture de thèmes réellement neufs. Pour arriver à cet objectif, nous souhaitons maintenir une veille sur des candidats potentiels (PR ou DR) capable de créer une nouvelle équipe - avec un engagement du laboratoire à assurer en priorité son développement via des fléchages de postes. La possibilité de recruter au fil de l’eau et l’existence de chaires d’excellence internes à l’université constitue un contexte favorable pour cette stratégie. L’animation scientifique au laboratoire. Le LIF organise depuis 2008 – il y en avait pas eu auparavant – une journée scientifique annuelle qui se tient en juin-juillet. Elle est consacrée à des exposés de membres permanents et doctorants de toutes les équipes. Elle est souvent complétée d’un débat sur telle ou telle question d’actualité. Les deux premières journées se sont tenues sur le campus de Luminy. Cette année, nous avons décidé de consacrer deux jours à l’évènement, de le localiser à l’extérieur de Marseille (Agay) et de le centrer sur la présentation de notre laboratoire au conseil scientifique du LIF, ainsi qu’à la préparation de notre projet scientifique. Signalons également la création d’un dispositif interne de financement de projets scientifiques (voir rapport) et la préparation de l’événement Marseille 2013 - Capitale européenne de la culture en collaboration avec des collègues mathématiciens au sein de la FRUMAM (deux projets du LIF seront proposés). Nous avons renoncé à maintenir un séminaire du laboratoire étant donné l’éloignement de ses deux sites principaux. En revanche, certains séminaires d’équipes, les plus généralistes d’entre eux, sont annoncés sur le site du laboratoire et ouverts à tous. Il y en a eu 58 en 2008 et 73 en 2009. 1.1.4 Synthèse Points forts – – – – la qualité de la production scientifique ; le rayonnement sur nos thèmes de recherche et l’attractivité du laboratoire ; un volume important de contrats ; un laboratoire homogéne : les membres du laboratoire partagent une même manière de concevoir et pratiquer la recherche. Points à améliorer – les relations industrielles et la valorisation ; – le nombres d’allocations de thèses et le nombre d’HDR ; 10 CHAPITRE 1. LE LABORATOIRE D’INFORMATIQUE FONDAMENTALE DE MARSEILLE – la stratégie d’ouverture de nouvelles thématiques et de création de nouvelles équipes ; – l’interdisciplinarité avec la biologie ; – une meilleure structuration de l’informatique marseillaise. Opportunités – les équipes du LIF sont complémentaires et les collaborations interéquipes sont potentiellement très enrichissantes ; – les collaboration avec les laboratoires de mathématiques, l’IML et le LATP, très naturelles sur de nombreux thèmes du LIF, au sein d’une fédération mathématiques-informatique ; – profiter de la présence d’excellents laboratoire de biologie pour développer des collaborations en bio-info-mathématiques ; – les écoles d’ingénieurs universitaires : projet d’adossement de filières de formation au LIF ; – devenir laboratoire partenaire de l’Ecole Centrale de Marseille. Risques – la multiplication et l’éloignement des sites principaux du laboratoire constitue le principal facteur de risque pour le laboratoire ; – la structuration de l’informatique marseillaise peut être améliorée, mais un regroupement artificiel et imposé des laboratoires relevant de l’INS2I empècherait une bonne gouvernance et un bon pilotage scientifique et ruinerait l’attractivité du laboratoire ; – la chute des effectifs dans les filières scientifiques universitaires constitue un risque majeur - à compenser par l’ouverture vers les écoles d’ingénieurs ; – la surcharge administrative des enseignants-chercheurs atteint une cote d’alerte et contribue à déprécier le métier d’universitaire. 1.2 Projet scientifique du laboratoire Le LIF est un laboratoire jeune puisque créé en 2002. Sa croissance a été importante au cours du dernier quadriennal. Nous espérons que sur la période qui commence le LIF continuera à se développer, notamment en veillant à l’enrichissement de ses thématiques de recherche, pour devenir, à pleine maturité en 2015, le laboratoire d’informatique d’Aix-Marseille Université. Nous centrons notre projet sur les souhaits d’évolution de notre laboratoire en ce qui concerne les développements de nouvelles thématiques, d’interactions fructueuses entre les équipes et de collaborations avec les autres laboratoires de l’aire d’Aix-Marseille. Bien que nous ne décrivions pas notre projet en terme de grandes orientations scientifiques ou de défis, celui-ci s’inscrit pleinement en réponse aux grands challenges de la recherche en STIC (comme identifiés par les groupes programmatiques d’Allistene « modélisation, simulation et contrôle de systèmes complexes », « architectures, algorithmique, programmation, sécurité et sûreté des systèmes » ou « interaction homme-systèmes, contenus et usages » notamment) ; de plus, nous mettrons en place pour le futur quadriennal des outils permettant à des groupes de recherche actuels ou futurs de se positionner face à ces défis, créant une synergie autour de thèmes transversaux aux équipes. Pour ce nouveau quadriennal, les grandes thématiques de recherche du LIF (apprentissage, bases de données, combinatoire et graphes, recherche opérationnelle et optimisation, traitement automatique du langage, vérification) restent toujours présentes mais elles sont, pour certaines, abordées dans une optique nouvelle : une évolution scientifique notable dans nombre de ces thématiques est ainsi l’enrichissement des traditionnelles approches discrètes et/ou symboliques par des aspects quantitatifs et/ou continus. Cette caractéristique se retrouve aussi bien dans des modèles probabilistes pour le traitement automatique des langues (TAL), dans les problématiques de l’apprentissage (via l’apprentissage statistique ou l’apprentissage de langages stochastiques), dans les modèles des systèmes informatiques (automates temporisés, modèles de concurrence avec perturbations quantifiables). De plus, des thèmes de recherche, pour certains transverses aux équipes comme le multi- 1.2. PROJET SCIENTIFIQUE DU LABORATOIRE 11 média, sont apparus et certaines équipes ont mis l’accent, notamment par des recrutements, sur des recherches plus appliquées. Un enrichissement du LIF en terme de thématiques de recherche a donc été initié mais il doit encore être amplifié ; cela sera un des principaux objectifs du laboratoire pour le quadriennal futur avec toutefois une attention particulière aux interactions potentielles entre les anciennes et les nouvelles thématiques. Une réflexion a été engagée concernant la structuration du LIF lors de la rédaction de ce projet ; il est apparu qu’une structuration en équipe thématique (définie par des problématiques, des connaissances et des outils communs et comptatible, autant que faire se peut, avec la localisation géographique de ses membres) correspondait au souhait des membres du laboratoire. Les exemples récents de collaborations inter-équipes montrent que cette structuration n’est pas cloisonnante, ces collaborations étant plutôt rendues compliquées par la multiplicité des sites du laboratoire. De plus au regard des structures fédératives dans lesquelles le laboratoire souhaite s’inscrire, structures qui créeront des équipes trans-laboratoires certainement orientées «projet» et donc non pérennes, les équipes du LIF offriront une forme de stabilité pour leurs membres. Le LIF sera donc constitué au 1er janvier 2012 de 5 équipes de recherche 2 comprenant chacune entre 6 et 13 membres permanents : – QARMA : Equipe apprentissage et multimédia (Liva R ALAIVOLA , Stéphane AYACHE, Cécile C APPONI, François D ENIS, Rémi E YRAUD, Amaury H ABRARD) – BDA : Bases de données avancées (Rosine C ICCHETTI , Alain C ASALI, Andreea D RAGUT, Lotfi L AKHAL, Noël N OVELLI, Viet Phan L UONG) – ACRO : Algorithmique, Combinatoire et recherche opérationnelle (Victor C HEPOI , Pierre B O NAMI , François B RUCKER , Nadia C REIGNOU , Bertrand E STELLON , Karim N OUIOUA , Pascal P RÉA, Edouard T HIEL, Yann VAXÈS) – MoVe : Modélisation et vérification (Denis L UGIEZ , Nicolas B AUDRU, Clara B ERTOLISSI, Jérémie C HALOPIN, Solange C OUPET-G RIMAL, Séverine F RATANI, Emmanuel G ODARD, Rémi M ORIN, Peter N IEBERT, Frédéric O LIVE, Pierre-Alain R EYNIER, Luigi S ANTOCANALE, JeanMarc TALBOT) – TALEP : Traitement automatique du langage écrit et parlé (Alexis N ASR , Frédéric B ÉCHET, Laure B RIEUSSEL, José D EULOFEU, Benoît FAVRE, Nuria G ALA, Elisabeth G ODBERT, Line J AKUBIEC J AMET, Monique R OLBERT, Paul S ABATIER, Marie-Hélène S TÉFANINI, André VALLI, Michael Z OCK) Le quadriennal devrait voir d’autres équipes se créer à la fois par restructuration des équipes présentes et par arrivée de nouvelles thématiques. 1.2.1 Contexte Le projet du LIF se dessine dans des contextes national et local en pleine évolution. Au CNRS, les départements se sont transformés en instituts, plus autonomes mais plus recentrés sur leurs disciplines, la scission du département ST2I donnant naissance à l’institut INS2I (et à l’INSIS). Pour notre discipline dispersée dans différents organismes de recherche, l’alliance ALLISTENE («alliance des sciences et technologies du numérique») a été créée pour regrouper les grands acteurs nationaux dans le domaine de la recherche en STIC (CNRS, INRIA, CEA, Institut Telecom, Universités et grandes écoles). Par ailleurs, on constate l’augmentation du poids des universités dans la stratégie nationale de la recherche, la loi LRU leur donnant une plus grande indépendance pour définir leur propre stratégie pour la recherche. A cela, s’ajoute au niveau local, la création de la plus grande université française, Aix-Marseille Université (AMU), issue de la fusion des universités de Provence (U1), de la Méditerranée (U2) et Paul Cézanne (U3) au 1er janvier 2012. Face à ces changements, le LIF souhaite être l’acteur principal du développement de l’informatique sur Aix-Marseille au sein de l’université unique avec l’appui de ses instituts de rattachement du CNRS, l’INS2I et INSHS. La structuration de la recherche au sein de l’université unique d’Aix-Marseille se dessine sous la forme de grands pôles thématiques dans lesquels s’inscriront les laboratoires de recherche. De plus, 2 Comme nous déjà l’avons évoqué, l’équipe Escape ne sera plus une équipe du laboratoire au 1er janvier 2012 ; par ailleurs, le groupe de recherche LOMI ne sera pas reconduit, les deux membres de ce groupe partant à la retraite en début de quadriennal. Ils seront pour cette brève période rattachés à l’équipe MoVe. 12 CHAPITRE 1. LE LABORATOIRE D’INFORMATIQUE FONDAMENTALE DE MARSEILLE les universités doivent actuellement se positionner pour sélectionner les projets qu’elles défendront dans le cadre du Grand Emprunt National pour les laboratoires d’excellence, les initiatives d’excellence et les instituts de recherche technologique (IRT). Il appartient donc au LIF de développer un projet ambitieux prenant en compte cette nouvelle donne de la recherche tant au niveau local qu’au niveau national. Aix-Marseille possède, outre le LIF, un second laboratoire rattaché principalement à l’INS2I, le Laboratoire des Sciences de l’Information et des Systèmes (LSIS - UMR 6166, U3, U1, U2) qui regroupe des activités de recherche en automatique, image et informatique. Les relations LIF/LSIS ont été particulièrement tendues avant 2007, puisque les deux laboratoires regroupaient des personnes en conflit lors de la dissolution du Laboratoire d’informatique de Marseille (LIM - FRE 2246) en 2001. Depuis 2007, ces relations se sont normalisées. Les universités tutelles communes des deux laboratoires ont par ailleurs adopté des politiques d’affectation des postes d’enseignants-chercheurs permettant d’éviter tout conflit à ce sujet3 . Les contours des deux laboratoires n’ont cependant pas évolué depuis leur création : après que le département STIC du CNRS ait incité à la création de ces deux laboratoires en 2002, le département ST2I a mandaté en 2007 François Denis et Norbert Giambiasi pour proposer une structuration séparant clairement les disciplines informatique et automatique4 . L’INS2I semble maintenant privilégier à l’échelon national une politique pour le rapprochement des laboratoires dont elle est tutelle principale sur un même site universitaire. Les universités d’Aix-Marseille possèdent deux laboratoires de mathématiques, le Laboratoire d’Analyse, Topologie, Probabilités (LATP - UMR 6632 U1, U3) et l’Institut de Mathématiques de Luminy (IML - UMR 6206 U2). L’IML possède un grand nombre d’équipes travaillant en mathématiques discrètes et pour certaines, dans des thématiques proches de certaines présentes au LIF, telles les systèmes dynamiques discrets et la logique ; ces thématiques relevant de l’informatique, l’IML est secondairement rattaché à l’INS2I. Le LATP regroupe un grand nombre de thématiques de recherche des mathématiques et notamment, en statistique et traitement du signal. Une structure fédérative, la FRUMAM («Fédération de Recherche des Unités de Mathématiques de Marseille - FR 2291») regroupe ces deux laboratoires de mathématiques ainsi que le Centre de Physique Théorique (CPT UMR 6207 U2). Le LIF possède des relations étroites avec ces laboratoires de mathématique à la fois en terme de partage de structure universitaire ou de formation (école doctorale ED 184 regroupant mathématique, informatique et automatique, adossement des laboratoires LATP, IML, LIF, LSIS – UFR «mathématiques, informatique et mécanique» à l’université de Provence – Master «Génie Statistique et Informatique») mais également en terme de thématique et de collaboration de recherche (existence d’un groupe de recherche «traitement du signal et apprentissage», collaboration sur les structures discrètes et aléatoire, organisation du semestre thématique «math-info 2010»). Outre les universités, l’École Centrale de Marseille (ECM), école d’ingénieurs généraliste du réseau des écoles centrales est un acteur important de l’enseignement supérieur à Marseille. Comme beaucoup de grandes écoles, l’ECM souhaite développer son adossement à la recherche en partenariat avec les laboratoires universitaires à la fois en s’assurant que ses enseignants-chercheurs sont actifs en recherche et intégrés dans un laboratoire mais également en formant ses élèves ingénieurs à la recherche et en mettant en place des mesures pour augmenter le nombre d’ingénieurs poursuivant en doctorat. Deux enseignants-chercheurs, dont un professeur coordonnant la discipline dans cette école, sont membres du LIF. Enfin, sur le plan régional, la région PACA regroupe 8 pôles de compétitivité. Parmi ces pôles, les activités de deux d’entre eux rencontrent les problématiques scientifiques du LIF, le pôle mondial «SCS – solutions communicantes sécurisées» et le pôle régional «PEGASE – aéronautique et spatial». Par ailleurs, un autre pôle à vocation mondiale «MER – mer, sécurité, sûreté» possède un grand spectre d’objectifs dans lesquels certaines activités du LIF pourraient sans doute s’inscrire. Les orientations scientifiques du laboratoire pour le quadriennal 2012-2015 s’inscrivent dans la continuité de l’action menée par l’équipe de direction lors du quadriennal 2008-2011 en s’appuyant sur le contexte national et local qui vient d’être décrit. Des points importants de cette action sont à 3 Cette politique a conduit le LIF à se développer dans les facultés scientifiques tandis que le LSIS est fortement présent dans les écoles d’ingénieurs universitaires. 4 Cette clarification, bien que souhaitée par les membres du LIF, mais non soutenue par les universités n’a malheureusement pas pu être mise en œuvre. 1.2. PROJET SCIENTIFIQUE DU LABORATOIRE 13 noter : – Le LIF au cours du quadriennal s’est rapproché des pôles de compétitivité en se rapprochant des pôles SCS et Pégase ; il a vu aussi son association avec l’ECM se développer, cette école cohabilitant le Master recherche «Informatique Fondamentale» et demandant à devenir tutelle du LIF, demande non encore satisfaite mais reformulée récemment. – Si l’initiative de restructuration de l’informatique et de l’automatique sur Aix-Marseille proposée par le CNRS n’a pas été validée par les universités, elle a permis la mise en place d’un groupe de discussion entre le LIF et le LSIS ; ce groupe a pu lancer des actions menant à diverses collaborations ponctuelles (encadrement conjoint d’un doctorant, journées scientifiques sur la logique). – Enfin, le LIF participera avec les mathématiciens à la construction d’une structure fédérative «mathématiques et informatique» de plus grande envergure. 1.2.2 Orientations scientifiques du laboratoire Le LIF est un laboratoire dont les activités de recherche relèvent du cœur de la section 27 du CNU. Le LIF et ses membres défendent une vue de l’informatique comme étant une discipline scientifique à part entière et non comme étant un simple ensemble de techniques au service d’autres disciplines. Ce point de vue est d’ailleurs l’élément fédérateur du laboratoire, laboratoire qui réunit pourtant des équipes travaillant dans des domaines de recherche très différents : l’objectif de chacun au LIF est de produire du savoir en adoptant une démarche scientifique. Le LIF est un laboratoire d’informatique fondamentale dans le sens où les recherches qui y sont menées se fondent sur l’étude et le développement d’outils et de modèles formels, ces modèles pouvant être discrets, continus, en lien avec le traitement de la langue, les programmes ou des modèles biologiques. C’est toujours sur le développement et la compréhension d’outils et de méthodes fondamentaux que se basent les avancées technologiques. Le LIF est d’ailleurs attentif à l’application de ses recherches ainsi qu’aux problématiques «industrielles» : notre philosophie est ainsi de valoriser le fruit d’une recherche fondamentale vers un domaine d’application et non pas simplement de transférer des techniques éprouvées. De plus, si certaines activités de recherche menées dans le laboratoire trouvent leur origine dans des problématiques «industrielles», l’approche qu’en ont les chercheurs du LIF ne sont pas de l’ordre de l’ingénierie, mais bien dans une démarche scientifique de compréhension intrinsèque du problème et de sa résolution. Ainsi, des actions ont été conduites par des membres du LIF pour une mise en application de leurs recherches sous la forme de prototype logiciel et pour la valorisation de leurs travaux avec des entreprises partenaires. Enfin, bien que centrées sur l’informatique, les équipes du LIF collaborent avec des équipes ou des chercheurs d’autres laboratoires au niveau local, national et international, à l’interface de l’informatique sur des thèmes comme la linguistique ou les mathématiques. Ce positionnement scientifique fait la force du LIF, notamment parce que cette exigence quant à la qualité de la recherche et de la valorisation est appuyée par des recrutements de chercheurs et d’enseignants-chercheurs de très bon niveau et par la qualité de la production scientifique des membres du laboratoire. Cependant, ce positionnement peut entraîner des difficultés, par exemple pour trouver des doctorants dans des domaines jugés ardus ou pour nouer des contacts avec le monde socio-économique dont les problématiques peuvent sembler éloignées de celles du LIF. Néanmoins, c’est ce positionnement qui fait l’identité du laboratoire et dans lequel les membres du LIF se reconnaissent. Il paraît important que quelque soient les évolutions du laboratoire à court ou moyen terme le point de vue sur la recherche en informatique partagé au sein du LIF soit préservé. Nous pensons que la politique d’exigence menée au LIF est la meilleure pour assurer le développement au sein d’Aix-Marseille Université de la discipline «informatique» et en accroitre la visibilité au niveau national et international. C’est donc sur notre identité en cultivant nos points forts, en tentant d’améliorer nos points faibles et en saisissant l’opportunité de la création d’Aix-Marseille Université, en partenariat avec les laboratoires de mathématiques (LATP, IML) et le LSIS, que se décline notre projet. Le LIF est un laboratoire en expansion qui a plus que doublé en taille depuis sa création et qui a vu ces effectifs chercheurs et enseignants-chercheurs augmenter de 25% sur ces 4 dernières années. 14 CHAPITRE 1. LE LABORATOIRE D’INFORMATIQUE FONDAMENTALE DE MARSEILLE Malgré ce fort accroissement de taille, le LIF n’a pas connu de renouvellement thématique notable. Chacune des équipes a bien sûr fait évoluer ses thématiques de recherche mais les contours de ces équipes n’ont que peu varié. Le LIF doit avoir pour vocation d’être le laboratoire de recherche en informatique d’Aix-Marseille Université dans lequel se concentre l’essentiel des activités de recherche relevant de la 27ième section du CNU5 . Sans compromettre la recherche dans les équipes existantes et sans nuire à leur développement, il est crucial de tenter de diversifier les recherches menées au LIF. Ceci passe nécessairement par le développement de nouvelles thématiques de recherche au sein du laboratoire. Il est à noter que le spectre thématique de la recherche en informatique sur l’aire d’Aix-Marseille est relativement étroit, compte tenu des recherches en informatique menées au LIF, à l’IML et au LSIS. Il existe donc dans le paysage local et plus particulièrement au LIF une place certaine pour des thématiques telles que la bio-informatique, la programmation massivement parallèle ou distribuée (cloud computing, grilles de calcul, architecture multi-cœurs) ou les réseaux. Parallèlement au souhait de développer de nouvelles thématiques, nous voulons voir renforcer les collaborations inter-équipes qu’elles soient ponctuelles ou à moyen terme (comme dans le cadre d’un projet ANR). De telles collaborations existent à l’heure actuelle, notamment entre les équipes MoVe et ACRO autour de problèmes d’algorithmique distribuée, entre les équipes QARMA et TALEP autour de l’apprentissage pour le TAL et du traitement de données multimédia ; d’autres collaborations devraient de plus voir le jour prochainement entre les équipes QARMA et ACRO sur la problématique de l’optimisation dans le cadre de l’apprentissage statistique et entre les équipes MoVe et ACRO à propos de travaux sur les treillis. Cependant, ce type de collaboration entre équipes de thématiques différentes nécessite la plupart du temps des rencontres régulières et fréquentes pour partager des points de vues venant de domaines différents. Elles sont donc handicapées lorsque qu’elle concerne une équipe du site Nord et une du site Sud par la distance importante séparant les deux sites principaux du laboratoires (près d’une heure et demi en transport en commun)6 . Jusqu’à présent la réflexion et le positionnement relatifs aux priorités scientifiques dans le domaine des STIC se faisaient au niveau de chaque équipe. Cette réflexion n’était pas menée au niveau du laboratoire. Afin de pallier celà, le LIF se dotera pour le prochain quadriennal d’un conseil d’orientation et de prospective scientifique. Ce conseil sera l’organe de réflexion du laboratoire où les thématiques à développer ou à faire émerger, la stratégie concernant la recherche et la structure du laboratoire seront discutées à la fois dans une optique interne mais également dans la relation avec nos laboratoires partenaires. Au cours de ce quadriennal, le LIF a amélioré son ancrage régional : les activités de recherche récentes du LIF ont permis de créer un lien entre le laboratoire et deux pôles de compétitivité de la région PACA (le pôle mondial «Solutions communicantes sécurisées – SCS» et le pôle régional Pégase). Récemment, le LIF est également devenu partenaire du pôle CAP-DIGITAL de la région Ile-de-France. L’un des objectifs de ce quadriennal sera de développer et de formaliser ces relations pour faire du LIF un acteur reconnu de la recherche et de l’innovation dans la région. Le recrutement d’enseignants-chercheurs ayant une expérience de recherche à orientation technologique et la nomination d’un chargé de mission, la constitution d’une cellule «valorisation et relations industrielles» ont beaucoup contribué à ce résultat certes encore modeste mais encourageant pour tous les membres du laboratoire. L’extension des liens avec les pôles SCS et Pégase, une démarche vers les intervenants du pôle MER sont les objectifs du LIF sur ce point lors du prochain quadriennal. Le développement d’actions plus soutenues (assurer une représentation du LIF dans les réunions des pôles de compétitivité, les salons de rencontres avec les entreprises, démarcher les entreprises pour valoriser nos recherches ou s’ouvrir à de nouveaux champs d’application) nécessiterait à l’heure actuelle un investissement humain supplémentaire difficilement compatible avec le métier d’enseignant-chercheur. 5 Bien entendu, cela n’exclut pas que des recherches dans ce domaine puissent être faites dans d’autres laboratoires comme l’IML ou le LSIS, notamment des recherches plus à l’interface avec des disciplines propres à ces laboratoires. 6 Il convient de noter par exemple, qu’il est plus rapide d’aller en transport en commun du LIAFA (Paris 7, situé à Chevaleret) au LRI (sur le campus d’Orsay) que d’aller du CMI sur le technopôle de Château-Gombert (site Nord du LIF) au campus de Luminy (Site Sud du LIF). 1.2. PROJET SCIENTIFIQUE DU LABORATOIRE 1.2.3 15 Collaborations et actions fédératives Notre politique de développement s’inscrit localement au moment où se construit l’université unique d’Aix-Marseille, où celle-ci doit choisir ses structures, identifier les disciplines ou thématiques scientifiques qu’elle voudra porter et développer, définir les moyens et les outils pour supporter sa politique de recherche. Conscient de son environnement, le LIF doit se positionner pour faire de l’informatique une des disciplines d’excellence d’AMU. L’informatique est depuis toujours en interaction avec de nombreuses autres disciplines. C’est donc de cette caractéristique et de la richesse de l’environnement que créera Aix-Marseille Université que le LIF devra tirer parti pour assurer le développement de l’informatique sur l’aire d’AixMarseille. Le LIF a d’ores et déjà développé des relations avec certains laboratoires d’Aix-Marseille : son positionnement scientifique et son approche de la recherche, l’existence de locaux et de structures universitaires partagées (UFR, école doctorale, formation de Master) mais également le partage de problématiques de recherche ont conduit le LIF a un rapprochement avec les laboratoires de mathématiques d’Aix-Marseille, le LATP et l’IML. Par ailleurs, l’existence de relations ponctuelles avec le LSIS autour de thématiques partagées relevant de l’informatique fondamentale nous amène à considérer une structure formalisant ces échanges. Enfin, le LIF possède une activité de recherche soutenue en traitement automatique des langues (TAL), historiquement héritée du LIM. L’équipe TALEP en évolution dans ces thématiques bénéficie de la proximité de deux autres laboratoires affichant des compétences complémentaires : le Laboratoire Parole et Langage (LPL - UMR 6057 – Université de Provence) en sciences du langage (et tout particulièrement en phonétique) et le Laboratoire Informatique d’Avignon (LIA - EA 4128 Université d’Avignon) dans le domaine de la compréhension orale. Nous décrivons comment ces interactions vont se structurer dans le futur en espérant que de nouvelles avec d’autres disciplines comme, par exemple, la cognition et les neurosciences, verront le jour. Interactions avec les laboratoires de mathématiques La brique importante du projet scientifique du LIF au niveau local est la création d’un institut mathématiques et informatique au sein d’AixMarseille Université. L’informatique et les mathématiques partagent cette caractéristique de posséder à la fois une forte composante disciplinaire mais également une part très importante d’interaction avec d’autres disciplines telles que la physique, l’ingénierie, la biologie, l’économie ou les sciences du langage. Sur Aix-Marseille, ces deux disciplines sont proches dans l’organisation des structures universitaires et sont liés par des collaborations scientifiques. Sur ce constat, nous projettons de créer un institut réunissant mathématique et informatique. L’objectif est de créer un pôle d’excellence de visibilité mondiale à Aix-Marseille dans le domaine de l’informatique et des mathématiques. S’appuyant sur deux laboratoires de mathématiques (le LATP et l’IML), un laboratoire d’informatique (le LIF) et un laboratoire pluri-disciplinaire (le CPT), laboratoires renommés pour leurs travaux 7 , cet institut regroupera plus de 250 chercheurs et enseignants-chercheurs permanents et près de 150 non-permanents. Notre souhait est donc de créer une structure fédérative identifiant un pôle fort dans le domaine des mathématiques et de l’informatique. Cette structure visera à : – supporter le développement des disciplines mathématiques et informatique au sein de l’université unique d’Aix-Marseille – créer les conditions pour renforcer les échanges et les collaborations entre les mathématiques et l’informatique et encourager les projets à l’interface ou pluri-disciplinaires impliquant ces deux thématiques 7 Le LSIS qui regroupe un certain nombre d’activités de recherche en informatique a été invité à plusieurs reprises à rejoindre le projet. Jusqu’à récemment, il a toujours décliné cette invitation. Pourtant, cela aurait fait sens au regard des interactions entre automatique et mathématiques, à l’image de la fédération de recherche Charles-Hermite (FR 3198) regroupe l’automatique (CRAN), l’informatique (LORIA) et les mathématiques (Elie-Cartan, LMAM) dans le cadre des universités de Lorraine. Il semble que la position du LSIS ait depuis peu évolué et qu’il envisage dorénavant sa participation à ce projet. Cependant, les modalités de celle-ci restent à l’heure actuelle à confirmer et à définir. 16 CHAPITRE 1. LE LABORATOIRE D’INFORMATIQUE FONDAMENTALE DE MARSEILLE – faire naître un pôle de visibilité international pour la recherche (attractivité de brillants chercheurs étrangers pour les concours de chercheurs ou de professeurs et des séjours «invités» longs, support de chercheurs en résidence, post-doctorants) et pour l’enseignement (Master Erasmus Mundus sur le thème mathématiques-informatique en partenariat avec l’ECM) – servir de vitrine au deux disciplines sur l’aire d’Aix-Marseille et d’interface vers les mondes politique et socio-économique – mutualiser et développer des ressources communes (services administratif et informatique, communication, valorisation,. . . ) Cet institut concentrera le cœur de la recherche en informatique au sein d’Aix-Marseille Université et en sera le principal outil de développement. Il s’appuiera sur des laboratoires qui continueront à avoir leur identité propre et développeront leurs thématiques de recherche disciplinaires en appliquant leur propre politique scientifique. Cet institut visera à dégager deux sites bi-disciplinaires, l’un principal en centre ville de Marseille, l’autre secondaire sur le campus de Luminy et concentrera sur ces deux sites les laboratoires de recherche et les formations de type Master (les enseignements de type Licence continueront d’être dupliqués sur d’autres sites comme par exemple à Aix mais la position centrale du site principal simplifiera les déplacements des enseignants-chercheurs). Ce projet de fédération se double d’un projet candidat au titre de «laboratoire d’excellence» 8 . dans le cadre du Grand Emprunt National dans le domaine des mathématiques et de l’informatique. Ce laboratoire d’excellence regroupera sous la forme d’un consortium, les laboratoires, le LIF, l’IML, le LATP, et le CPT ainsi que le Centre International de Rencontres Mathématiques (CIRM UMS 822 - CNRS - SMF). Le CIRM est un outil important de la communauté mathématique française, connu mondialement pour l’organisation de congrès en mathématiques (et en informatique). Chaque année, plus de 3000 chercheurs de toutes nationalités sont accueillis au CIRM. Ce projet de candidature «laboratoire d’excellence» est soutenu par l’INSMI du CNRS et par les universités tutelles du LIF. Il a également reçu l’appui de l’ECM. Interactions avec le LSIS A l’initiative de l’INS2I qui souhaite dans certaines universités un rapprochement des unités dont il est tutelle principale, nous proposons la création d’une fédération regroupant le LIF et le LSIS. Ce projet de création est issu des réunions régulières entre membres des deux laboratoires depuis maintenant plus de deux ans. Bien que ces réunions aient permis aux membres du LIF de constater que les orientations du LSIS se sont clairement tournées vers l’ingénierie et par cela, éloignées de celles du LIF, nous pensons qu’une telle fédération serait utile pour notamment maintenir un contact autour de la discipline «informatique” présente au LSIS. Cette fédération intitulée FRIIAM (Fédération de Recherche en Informatique et Interactions d’AixMarseille) a pour objectif de donner un cadre aux collaborations entre chercheurs du LIF et du LSIS, d’en initier de nouvelles en assurant une animation scientifique sous la forme de journées thématiques ou de séminaires. Par ailleurs, cette fédération sera le berceau d’initiatives communes aux deux laboratoires comme l’organisation de conférences, d’encadrements de thèses ou de projets transverses. Interactions autour du langage Le LIF possède de fortes compétences dans le domaine du traitement automatique de la langue et de la production de ressources linguistiques. Ces thématiques de recherche sont également très présentes au niveau régional dans d’autres laboratoires tels que le LPL à l’université de Provence et le LIA à l’université d’Avignon, deux laboratoires avec lesquels l’équipe TALEP du LIF collabore déjà. Par ailleurs, Aix-Marseille Université sera un pôle de recherche sur les langues et le langage, remarquable au niveau national comme au niveau européen par la richesse des langues qui y sont étudiées mais également des recherches qui y sont menées à l’interface du langage, de la psychologie et des neurosciences. Un projet de laboratoire d’excellence «langues et langage» est d’ailleurs actuellement à l’étude, projet structuré en trois axes, reflétant la diversité des acteurs autour de ce thème ; le LIF et le LPL seront les acteurs principaux de l’axe «corpus, données, 8 Ce projet est en cours d’élaboration, le calendrier des appels du Grand Emprunt National ne nous permet pas de produire un document unique pour l’ensemble des unités participantes 1.2. PROJET SCIENTIFIQUE DU LABORATOIRE 17 ressources», renforçant ainsi les interactions entre les deux laboratoires. Il paraît, de toute façon, judicieux au regard des compétences en étude et traitement de la langue dans la région d’envisager la création d’une structure fédérative sur ces thèmes, sous la forme d’un pôle de recherche régional incluant le LPL et le LIA. La forme précise et optimale de cette coopération (structure fédérative d’un futur PRES incluant l’université d’Avignon, fédération de laboratoires, . . . ) reste à définir. Autres interactions En marge des actions structurantes que nous avons citées, le LIF est également partenaire de deux initiatives liées au Grand Emprunt National. – Le LIF est partenaire dans une réponse à l’appel à projet «équipement d’excellence» ; le projet PICIDA*M (Plateforme Interdisciplinaire de Calcul Intensif et Distribué d’Aix-Marseille) vise à regrouper et à augmenter les moyens de calcul et de stockage informatique de l’ensemble de l’aire marseillaise sous la forme d’une grille de calcul incluant plusieurs calculateurs hauteperformance. Le LIF sera dans un premier temps utilisateur de cette grille pour mener des expérimentations sur des données de grande taille autour du traitement de la langue (corpus, données audio), modèles de systèmes informatiques, bases et entrepôts de données et fouille de données multi-média. La participation du LIF pourrait dans un second temps évoluer si les thématiques du calcul sur grille se développaient au sein du laboratoire, la grille devenant l’objet d’étude. – via la fédération FRIIAM, le LIF sera partie prenante à une réponse à l’appel à projet «institut de recherche technologique (IRT)». Cette participation s’inscrit dans la volonté du laboratoire de développer un volet technologique de ses recherches et est cohérente avec le développement de ses relations avec les écoles d’ingénieurs. La place du LIF dans la réponse à cet appel reste cependant à préciser. 1.2.4 Politique du laboratoire La politique du laboratoire sera de supporter les orientations scientifiques proposées et de faire que collectivement et individuellement chaque membre du laboratoire s’y sente impliqué. Le laboratoire devra veiller à respecter un équilibre entre les équipes en ce qui concerne les ressources communes (allocations ministérielles, recrutements d’enseignant-chercheur, part de la dotation donnée aux équipes) tout en étant attentif aux initiatives qui permettront, par exemple, l’émergence de thèmes ou d’équipes nouvelles. Le laboratoire devra fournir de bonnes conditions à ses membres : en particulier, son action devra contribuer, alors que le laboratoire est constitué essentiellement d’enseignants-chercheurs et de surcroît relativement jeunes, à dégager le maximum de temps pour que chacun puisse mener pleinement une activité de recherche. Le laboratoire, associé aux équipes de recherche, devra également soutenir les chercheurs les plus fragiles quant à leur production scientifique. Support des orientations scientifiques Dans les 4 années qui viennent le LIF va connaître de nombreux départs notamment dus à la retraite de 4 professeurs ainsi qu’au départ annoncé de certains membres de l’équipe Escape. Les universités, désormais maîtresses de leur politique d’emploi, utilisent en particulier la redistribution des postes d’enseignants-chercheurs pour soutenir leur politique scientifique. Cependant il est naturel de penser que ces postes reviendront au LIF car le passé récent a montré que l’informatique et le LIF ont été fortement soutenus par nos deux tutelles universitaires ; par ailleurs, l’informatique reste fortement déficitaire en ce qui concerne l’enseignement. Notre projet affichant un programme ambitieux de développement de la discipline au sein d’AMU devrait favoriser ce soutien universitaire. Ces nouveaux recrutements à la fois de professeurs et de maîtres de conférences devraient pouvoir supporter notre politique de diversification des thématiques du laboratoire aussi bien en soutenant l’émergence d’équipes nouvelles créées par des membres du laboratoire qu’en attirant des personnes susceptibles de développer de nouvelles thématiques. Sur le plan des recrutements des enseignants-chercheurs, le LIF pratique une politique qui conduit à un taux important de recrutement extérieurs, et, malgré sa taille moyenne notre laboratoire réussit 18 CHAPITRE 1. LE LABORATOIRE D’INFORMATIQUE FONDAMENTALE DE MARSEILLE à attirer de très bons candidats au niveau national dans un contexte très concurrentiel. Cependant, la présence de deux tutelles universitaires contribuant de manière égale en postes d’enseignantschercheurs compliquait la mise en place d’une politique globale : tout d’abord, maintenir la géographie des équipes impliquait une relation entre sites, universités et équipes du laboratoire. Par ailleurs, ces deux tutelles n’avaient pas les mêmes exigences quant au fléchage des postes (fléché thématiquement ou ouvert sur la majorité des thématiques du laboratoire). Les fléchages de profil large s’ils ont l’avantage d’attirer les meilleurs candidats, ont l’inconvénient de produire des classements et des résultats non nécessairement en adéquation avec les nécessités qu’affichent ou que devraient afficher les équipes au moment présent. En revanche, un fléchage thématiquement plus précis s’il assure une bonne adéquation au profil recherché réduit nécessairement le vivier des candidats. Nous visons à continuer à attirer des candidats de grande qualité, aidé en cela par rigueur reconnue qu’applique le LIF dans ces recrutements et la visibilité offerte par l’institut mathématiques et informatique. De plus, dans l’optique de recruter des personnes susceptibles de développer de nouvelles thématiques au sein du LIF, nous espérons pouvoir bénéficier des chaîres d’excellence 9 afin d’attirer les meilleurs, par exemple en mutation. Dans le cadre d’une veille sur les candidats potentiels qui pourraient développer de nouvelles thématiques au LIF, la possibilité de recruter des enseignants-chercheurs au fil de l’eau10 est également un bon outil pour attirer des candidats, notamment étrangers, au plus vite. Nous continuerons à indiquer dans certains profils de postes qu’une expérience technologique (post-doc dans une entreprise, travail sur des études de cas, expérience dans le secteur privé) sera souhaitée. La création d’une université unique permettra d’avoir une politique plus globale pour les recrutements et le fléchage des postes d’enseignant-chercheur. Dans le cadre fixé par AMU, le LIF adaptera si nécessaire sa politique de recrutement en essayant de combiner des fléchages thématiques précis pour soutenir des équipes ou des groupes de recherche en développement, en particulier dans le cadre de domaines de recherche nouveaux, et des profils larges pour s’assurer une ouverture vers les meilleurs candidats quelle que soit leur thématique de recherche. Dans ce contexte, il appartiendra désormais aux équipes d’identifier plus encore les thématiques qu’elles voudront développer et d’y mettre les moyens en terme de recrutement d’enseignants-chercheurs. Les collaborations inter-équipes au sein du LIF doivent être maintenues et développées malgré le handicap que constitue la distance entre les sites Nord et Sud du laboratoire. Le laboratoire soutiendra les initiatives de collaboration scientifiques avec les mathématiques, dans le cadre de l’institut mathématiques et informatique, avec le LSIS dans le cadre la fédération FRIIAM ainsi que des collaborations sur les thématiques du traitement de la langue avec, par exemple, le LPL. Ces initiatives qu’elles soient internes au LIF ou non se feront dans une démarche «projet» avec un type de soutien qui dépendra de leur nature et de leur évolution, le laboratoire et les porteurs de ces initiatives devant régulièrement échanger sur les objectifs atteints et les perspectives. Ainsi : – Nous soutiendrons des projets de chercheurs, appartenant à des équipes ou des laboratoires différents et souhaitant collaborer autour d’une thématique. Priorité sera donnée aux jeunes chercheurs, qui seront alors accompagnés tout au long de leur projet par un ou plusieurs chercheurs seniors ; – Pour des objectifs à plus long terme, le laboratoire pourrait s’engager à soutenir financièrement sur une périodes de quelques années des projets de création d’équipe dans l’attente que ceux-ci puissent s’auto-financer dans le cadre d’un projet ANR par exemple. – Le laboratoire continuera à encourager vivement les jeunes maîtres de conférences à encadrer des stages de Master recherche et des thèses de doctorat, sous la responsabilité d’un HDR qui veillera au bon déroulement du stage ou de la thèse. – Les co-encadrements sur des thématiques fondamentales ou sur un champ d’application de recherche à l’interface de deux équipes de recherche ou laboratoires seront favorisés. 9 Mises en place actuellement à l’université de la Méditerranée, ces chaîres associent à un poste de professeur une dotation financière, un poste de maître de conférences fléché et une allocation de recherche. 10 Cette procédure est actuellement proposée à l’université de la Méditerranée mais pas à l’université de Provence. 1.2. PROJET SCIENTIFIQUE DU LABORATOIRE 19 Notamment afin de gérer ces initiatives, il sera créé au sein du laboratoire un conseil d’orientation et de prospective scientifique, ce conseil aura ici pour mission de sélectionner et d’évaluer annuellement ces projets de collaboration ainsi que d’approuver la création de nouvelles équipes et leur support intégral par le laboratoire. Des équipes-projets pourront également voir le jour dans le cadre de l’institut de mathématiques et d’informatique, pilotées et financées par l’institut. Nos relations avec les écoles d’ingénieurs d’Aix-Marseille, assez diverses, devraient évoluer au cours de ce quadriennal. Un changement important pour ces écoles sera la fusion de l’ESIL et de Polytech. Cette fusion devra sans aucun doute s’accompagner d’une restructuration des enseignements en informatique puisqu’il existe un chevauchement important entre la filière «Génie Informatique et Industrielle». de Polytech (filière adossée au LSIS) et la filière «Informatique» de l’ESIL. Le LIF souhaite fortement être associé à cette restructuration. Notre action visera également un renforcement de notre partenariat avec l’École Centrale de Marseille autant sur le volet recherche, en faisant du LIF le laboratoire d’informatique adossé à cette école, que sur le volet enseignement, en poursuivant la co-habilitation du Master recherche «Informatique Fondamentale» et la construction d’une vraie filière d’ingénieur en informatique au sein de cette école. Le souhait de l’ECM de devenir tutelle du laboratoire et notre souhait de nous impliquer dans la formation des ingénieurs de cette école forment le début d’un partenariat fructueux. Ces liens devraient encore se renforcer dans le futur puisque l’ECM souhaite être partenaire de l’institut mathématiques et informatique. Support aux chercheurs et aux enseignants-chercheurs L’informatique souffre au niveau national d’un ratio professeurs-maîtres de conférences très défavorables entraînant une implication trop importante des maîtres de conférences dans les tâches administratives (à l’UFR MIM de U1, pour la section 27 du CNU, on compte 6 professeurs pour 24 maîtres de conférences). La situation est encore plus flagrante à Aix-Marseille puisque la multiplication des structures implique la multiplication des charges administratives et pédagogiques. Les informaticiens sont également très présents dans les conseils d’UFR et centraux des universités marseillaises assurant une bonne représentation de la discipline au niveau des instances ; bien que très important, cela s’ajoute aux autres tâches. L’université unique entraînera la suppression des doublons dans les responsabilités universitaires et si elle s’accompagne d’une rationalisation des sites d’enseignement, des suppressions au moins partielles dans les responsabilités pédagogiques. Il faudra cependant veiller en ce qui concerne les conseils centraux et d’UFR à ce que la discipline informatique soit toujours représentée. Au niveau du laboratoire, le LIF étant principalement composé d’enseignants-chercheurs, ces derniers y assument l’essentiel des responsabilités. A l’Université de Provence, les nouveaux recrutés maîtres de conférences sont déchargés d’un tiers de leur service statutaire lors de leur première année d’exercice. Cette mesure nous paraît importante car elle permet à nos jeunes collègues de maintenir une plus grande activité de recherche (c’est au cours de cette première année que certains jeunes recrutés perdent pied) et renforce l’attractivité du laboratoire. Nous essayerons de faire en sorte que cette mesure s’applique au sein d’AixMarseille Université11 . Alors qu’un référentiel national décliné par les universités prévoit de nombreux cas de décharge pour des responsabilités administratives ou d’enseignement, il ne semble pas que les universités d’Aix-Marseille aient intégré de manière satisfaisante les cas de décharge pour des missions liées au support à la recherche dans les laboratoires. Un effort coordonné des directeurs d’unité dans ce sens devrait sans doute faire évoluer la situation au sein de l’université unique. Le laboratoire propose à certains enseignants-chercheurs un statut de membre associé. Les membres associés assurent parfois des charges administratives ou électives lourdes dans leur composante ou université. Les membres associés peuvent également être des personnes accomplissant des tâches pédagogiques dans des filières adossées au laboratoire. Dans les deux cas, ces collègues ne peuvent pas toujours maintenir une activité de recherche soutenue et ont ainsi une production scientifique faible. Cependant le laboratoire bénéficie indirectement de leur activité universitaire. Les membres associés peuvent bénéficier de ressources du laboraoire et afficher leur association au LIF. 11 Il existe maintenant la possibilité pour des membres de projets ANR de payer une décharge de service ; cependant, ce dispositif échappant à la gestion des universités, celles-ci sont à l’heure actuelle réticentes à le mettre en place. 20 CHAPITRE 1. LE LABORATOIRE D’INFORMATIQUE FONDAMENTALE DE MARSEILLE Nous avons également identifié certains collègues, membres du laboratoire, dont on peut juger la production scientifique fragile. Les personnes, membres ou associées à une équipe, auront pour tâche de reprendre une activité de recherche raisonnable, aidées en cela par leur responsable d’équipe avec le soutien du laboratoire. Leurs activités de recherche et leur position vis-à-vis du laboratoire seront reconsidérées lors du début du quadriennal. Support à la recherche Comme de très nombreux laboratoires de recherche en informatique au niveau national, le LIF a des difficultés pour attirer un nombre suffisant de doctorants de qualité. Alors que de plus en plus d’étudiants scientifiques désertent les premiers cycles universitaires et que les places en école d’ingénieurs augmentent, on ne peut qu’être inquiet quant au nombre des étudiants souhaitant poursuivre en thèse de doctorat. Il nous paraît cependant important que tout étudiant de niveau Bac+5 ait eu au cours de son cursus une initiation à la recherche. La spécialité recherche «Informatique Fondamentale» adossée au LIF sera profondément modifiée lors du prochain quadriennal à la fois en prenant plus largement en compte les divers thèmes du laboratoire mais également en simplifiant les parcours étudiants possibles. Mais nous pensons également que nous devons renforcer l’attractivité du Master recherche, notamment en regroupant ces enseignements sur un même site et en assurant une plus grande publicité aux niveaux national et européen. La co-habilitation de ce Master avec l’École Centrale de Marseille et le développement de la filière «informatique» au sein de cette école devrait attirer vers la recherche des élèves ingénieurs. Nous espérons que certains d’entre eux poursuivront en thèse après ce Master recherche. Un autre objectif est d’attirer plus d’étudiants extérieurs au bassin régional ou venant de l’étranger pour faire une thèse au LIF. Là encore flécher des allocations de recherche spécifiquement pour accueillir de tels candidats nous paraît être la bonne solution. Nous espérons de plus que l’ECM qui dispose de filières d’échanges internationaux pourra nous faire bénéficier de son dispositif dans le cadre du Master recherche co-habilité. Bien évidemment à terme, nous pourrons également compter sur l’attractivité de l’institut mathématiques et informatique. La diversification des financements de thèse devra être maintenue afin que tout étudiant de qualité souhaitant poursuivre en thèse de doctorat puisse avoir un financement. Les équipes seront toutes incitées à obtenir ou à augmenter leurs ressources propres sous la forme notamment de projet ANR, permettant le financement d’allocation de recherche. Il est à noter qu’en ce qui concerne les allocations ministérielles, l’école doctorale «mathématique – informatique» ne semble pas particulièrement bien dotée (en 2010, cette école s’est vue attribuer 9 allocations de recherche pour les 4 laboratoires qu’elle comprend, LATP, IML, LIF, LSIS). Comme pour les postes d’enseignants-chercheurs, notre politique sera de privilégier les meilleurs candidats pour l’obtention de ces allocations ministérielles. Cependant, dans le but de soutenir l’émergence de nouveaux groupes de recherche ou de nouvelles thématiques au sein du laboratoire ou de garantir une certaine équité dans la distribution de cette ressource partagée, il se pourra que certaines allocations soient fléchées thématiquement ; il sera souhaitable alors que ces allocations fassent l’objet d’une publication au niveau national. 1.3 1.3.1 Fonctionnement et vie du laboratoire Gouvernance Lors du premier quadriennal (2002-2005) du LIF, la gouvernance était réduite au directeur et au conseil de laboratoire. Lors du quadriennal 2008-2011 qui va s’achever, le LIF a enrichi celle-ci puisqu’il possède désormais un directeur-adjoint et un conseil de direction composé des responsables des différentes équipes. Il s’est de plus doté d’un conseil scientifique composé de personnalités scientifiques extérieures au laboratoire. Ceci est complété par un certain nombre de chargés de mission (Propriété intellectuelle, relations industrielles et valorisation – Animation de la recherche et communication scientifique – Formations universitaires et PRES). Ces différents organes de gouvernance ont permis un bon fonctionnement du LIF mais la taille du laboratoire et la croissance qui devrait être la sienne (même s’il se peut qu’elle soit moins rapide que celle de ces dernières années), nous incitent à enrichir cette gouvernance. Nous proposons les fonctions et structures suivantes : 1.3. FONCTIONNEMENT ET VIE DU LABORATOIRE 21 – Direction : composée d’un directeur, d’un directeur-adjoint et de la responsable administrative. – Conseil de direction : il réunit la direction, les différents responsables des équipes du laboratoire. Son rôle est de l’ordre de la décision concernant la vie quotidienne du laboratoire et de ces équipes. Il sert de lieu d’échange entre la direction et les équipes. Il est consulté par la direction fréquemment par courriel, réunion téléphonique ou vidéo-conférence. Il se réunit physiquement au moins une fois par mois. – Conseil de laboratoire (conformément au texte réglementaire du 28 octobre 1992). – Conseil d’orientation et de prospective scientifique : ce conseil inclut le conseil de direction et est constitué de plus de personnels chercheurs et enseignants-chercheurs du laboratoire (leur nombre exact reste à déterminer). Ces personnes sont nommées par le directeur après avis du conseil de laboratoire. Son rôle est de définir les orientations scientifiques du laboratoire, d’anticiper les grandes orientations thématiques de la recherche dans les contextes local, national et international. Il valide et aide à mettre en œuvre la politique scientifique du laboratoire. Il est consulté pour la création ou la restructuration profonde d’équipe du laboratoire et aide à la mise en place d’axes de recherche transversaux aux équipes. – Comité d’experts : anciennement nommé conseil scientifique, il s’agit de personnalités extérieures au laboratoire qui ont pour tâche d’apporter un œil extérieur sur le bilan du laboratoire et sur la politique scientifique de celui-ci. Il est constitué de personnes nommées par le directeur sur proposition des responsables d’équipe en début de quadriennal et se réunit deux fois sur cette période. De plus, un ensemble de missions seront définies et affectées à des chargés de mission. Cependant, les missions seront plus cadrées qu’actuellement et placées sous la responsabilités du conseil de laboratoire : le conseil sera à l’initiative de la création, de la fin ou du renouvellement des missions et des missionnés. Ces chargés de mission devront ainsi rendre compte au conseil chaque année de leur action, leurs missions pouvant être modifiées à cette occasion. 1.3.2 Animation scientifique Depuis maintenant 3 ans, le laboratoire organise des journées scientifiques qui donnent l’occasion à tous les membres du LIF de se rencontrer et de présenter leurs travaux de recherche. Alors que ces journées étaient organisées initialement sur une journée sur le campus de Luminy, elles se sont déroulées en 2010 à Agay pendant deux jours. Elles ont été l’occasion d’accueillir une partie du conseil scientifique du laboratoire et de travailler sur le projet de notre laboratoire. Les participants plus nombreux encore que lorsque les journées se déroulaient à Marseille, ont apprécié de se retrouver dans un cadre différent de celui de leur quotidien. Ce format est donc celui qui sera mis en place pour les journées de notre laboratoire. Si les groupes de travail existant dans la plupart des équipes permettent d’assurer une bonne animation scientifique à ce niveau, l’absence de séminaire de laboratoire nuit à la cohésion du LIF. Ce séminaire existait il y a quelques années mais a été supprimé faute d’un lieu favorable à sa réalisation dû à l’éloignement des deux sites principaux. Cependant, l’expérience convaincante du colloquium de la FRUMAM réunissant les deux laboratoires de mathématiques (qui partagent les mêmes sites marseillais que le LIF) sur le site de Saint-Charles et accueillant chaque mois un invité font qu’un colloquium «informatique» sur ce site pourrait être viable (l’utilisation des locaux de la FRUMAM serait facilité par le rapprochement structurel planifié entre mathématique et informatique). Ceci donnerait une occasion régulière pour les membres des différents sites du laboratoire de se réunir et serait l’occasion de présentations de travaux destinés à une large audience et de l’ouverture des membres du LIF à d’autres thématiques de recherche. Ce colloquium pourrait par ailleurs être une initiative de la fédération FRIIAM. Enfin, en 2010, le laboratoire participera pour la première fois à la fête de la science dans le cadre des journées portes-ouvertes de l’ECM. 22 1.3.3 CHAPITRE 1. LE LABORATOIRE D’INFORMATIQUE FONDAMENTALE DE MARSEILLE Communication - système d’information La mission de communication telle que définie actuellement ne comprend que des actions intralaboratoires (annonce de séminaires, dépôts des publications sur HAL), la partie tournée vers l’extérieur du laboratoire, en particulier la production du matériel de communication, étant assurée par le chargé de mission «valorisation». Il nous paraît important de coordonner les missions de communication et de valorisation et de redéfinir précisément le rôle de chacun. En particulier, un groupe de travail coordonné par le chargé de mission «communication» aura pour objectif une remise à plat du site web du laboratoire afin de prendre en compte, notamment, la communication vers le monde socio-économique. Enfin, étudier la mise en place d’un système d’information qui pourrait automatiser certains tâches (diffusion des appels d’offres, des annonces de séminaires d’équipes, utilisation systématique de HAL, pré-établissement des ordres de mission) nous paraît fortement souhaitable. Les actions de valorisation mises en place par le laboratoire sous la responsabilité d’un chargé de mission ne peuvent se développer pleinement sous cette forme. Cette tâche mêlant connaissance des recherches à valoriser, compétences juridiques en droit du logiciel et propriété industrielle, connaissance des outils et des structures de valorisation (ProtisValor, CNRS, INRIA, ValorPACA) nécessite un personnel pour lequel ce doit être la fonction principale. Une tel poste pourrait être créé au niveau de l’institut mathématiques et informatique. 1.3.4 Moyens financiers du laboratoire Le laboratoire dispose de ressources propres en constante augmentation liées principalement à des financements sur projets ANR. Ces financements sont néanmoins assez variables selon les équipes et de plus, comme toute réponse à un appel sélectif, assez aléatoire au fil du temps. Cela laisse parfois des équipes sans ressource propre. Seule la dotation du laboratoire peut alors servir de support à de telles équipes durant une période de vaches maigres. Cette dotation est actuellement utilisée pour les 2/3 en crédits affectés directement à la recherche. Ces crédits ne sont pas redistribués automatiquement aux équipes ou aux chercheurs mais attribués sur demande ou projet et visent à soutenir plus particulièrement les équipes temporairement sans ressource propre. Cette distribution, bien que faite d’actions ponctuelles, se trouve être équitable entre les équipes sur le long terme. Alors que les universités d’Aix-Marseille pratiquaient les reports des crédits alloués non dépensés d’une année sur l’autre notamment pour leur dotation (et parfois pour des ressources propres), cette pratique est dorénavant révolue. Une partie de la dotation universitaire ainsi reprise par l’université peut néanmoins être réattribuée au laboratoire sur projet mais l’abandon de la pratique des reports enlève bien évidemment de la souplesse dans l’utilisation de cette dotation. Le laboratoire ne collecte à l’heure actuelle aucun impôt sur les ressources propres des équipes. La question devra sans doute être abordée dans le prochain quadriennal puisqu’en se privant de cette source financière possible le laboratoire ne peut mener une politique de soutien thématique d’envergure satisfaisante. Une autre piste à considérer est la mutualisation des reliquats potentiels : il est courant que des ressources propres obtenues sur contrat du type ANR ne soient pas totalement épuisées à la fin du dit contrat. Il serait alors envisageable qu’à 6 mois du terme de celui-ci, le responsable estime une somme non dépensée qui pourrait alors être mise en commun et que le laboratoire pourrait redistribuer dans le cadre d’un appel à projets interne au laboratoire. Tout ceci devra bien entendu être fait dans le cadre des règles de gestion que fixe l’ANR et de la future mise en place probable d’audit financier des projets. Notons pour terminer qu’à l’Université de Provence, une délégation de signature a été mise en place en direction des responsables de projet ANR en lieu et place du directeur de laboratoire. Cette pratique tend à marginaliser le laboratoire au profit des équipes concernant les ressources propres. La politique de gestion de la dotation en support à la recherche est très satisfaisante et doit être maintenue. Parallèlement, les équipes doivent être incitées à répondre aux appels des projets ANR. De plus, même si cela est difficile et contraignant, il est nécessaire que certaines équipes puissent répondre à des appels d’offre de projets européens afin d’augmenter la visibilité du laboratoire. 1.3. FONCTIONNEMENT ET VIE DU LABORATOIRE 1.3.5 23 Services administratif et informatique L’équipe administrative s’est fortement étoffée depuis 2006, accompagnant l’augmentation des personnels chercheurs et enseignants-chercheurs. Cet accroissement du personnel administratif et le recrutement de deux nouvelles personnes (création d’un poste à l’université de Provence et remplacement d’une mutation à l’université de la Méditerranée) en septembre 2010 aura donné l’occasion d’une restructuration de ce service en particulier avec une reconsidération des missions de chacun. Même si les sites du laboratoire marquent un déséquilibre en terme de personnel administratif (2,8 IT/BIATOSS au Nord et 1 BIATOSS au Sud), ceci n’a aucun impact sur le fonctionnement du service. On pourrait simplement ajuster le mode de fonctionnement permettant au site Sud de bénéficier de la présence plus importante de la responsable administrative de manière hebdomadaire (conjointement à celle du directeur, par exemple). Depuis le quadriennal 2008-2011, les ressources propres du LIF, comme celle d’autres UMR ayant l’université de Méditerranée pour tutelle principale, sont gérées par les universités. Alors que le CNRS souhaite mettre en place pour certains laboratoires la délégation générale de gestion (DGG), le service administratif du LIF n’est pas hostile à cette délégation. Bien que pouvant nécessiter une adaptation pour approfondir les mécanismes de gestion de l’université, différents de ceux du CNRS (et dans le cas de l’AMU, se familiariser avec ceux qui seront adoptés), ceci, couplé à la gestion des ressources propres pourrait permettre une simplification des tâches, les personnels gestionnaires n’étant plus obligés de jongler avec des modes de travail et des outils informatiques différents. Cependant une vraie crainte est exprimée par les personnels administratifs CNRS concernant leur statut et leur devenir. La production logicielle du LIF reste modeste. Des efforts devront être faits dans cette direction. Si des financements «mois-ingénieurs» peuvent facilement être obtenus dans le cadre de projets ANR, ces emplois de type CDD sont souvent liés au développement de prototypes, délivrables pour de tels projets. Ces développements sont alors souvent réalisés sur des périodes plus ou moins longues par des étudiants de Master ou de jeunes diplomés. Le contexte de ces développements font que ces derniers sont rarement robustes, bien documentés et donc difficilement distribuables et pérennisables. La création d’un poste d’ingénieur de développement permettrait de superviser ces CDD, d’avoir une personne en poste dédiée au suivi de ces développements, à leur pérennisation et à leur mise à disposition pour la communauté. Ceci fait partie d’une demande récurrente du LIF depuis 2007 d’un poste d’ingénieur de recherche, coordonnateur des développements informatiques, et d’un poste d’ingénieur d’études. L’articulation entre l’équipe systèmes-réseaux et un éventuel ingénieur de développement informatique reste à définir. La réflexion sur la création d’un service informatique, incluant un groupe dédié à la production logicielle et mutualisé dans le cadre de l’institut mathématiques et informatique, devra être menée. Les membres des services administratifs et informatique ont exprimé des avis très positifs concernant le projet d’institut mathématiques et informatique, projet impliquant des mutualisations qui pourront modifier leurs activités professionnelles. En particulier, il faudra prendre garde au fait que cette mutualisation ne s’accompagne pas d’une trop grande spécialisation, réduisant trop fortement la diversité des tâches que peuvent accomplir les personnels. Mais ils sont conscients que cette mutualisation devrait aussi permettre à nombre de ces personnels de participer à des projets plus ambitieux et à une plus grande échelle et ainsi, faciliter l’évolution de leur carrière. La cellule créée par le chargé de mission «valorisation» du laboratoire a pleinement joué son rôle lors de ce quadriennal comme en témoigne l’accroissement des liens LIF- entreprises. L’objectif du laboratoire ne saurait être de multiplier ad libitum les partenariats avec les entreprises car les recherches menées au LIF ne permettent pas en général une valorisation rapide des résultats vers le monde socio-économique. Cependant, il est important que le LIF reste à l’écoute de ces partenaires et puisse en trouver de nouveaux afin d’être alimenté en problématiques nouvelles. Cette tâche de veille très exigente et nécessitant une activité soutenue ne peut être menée par un enseignantchercheur ou un chercheur et serait naturellement dévolue à un ingénieur de recherche, la charge de travail étant estimé à un demi-ETP ; là, encore on peut imaginer qu’une telle fonction relève des actions mutualisées au sein de l’institut mathématiques et informatique. 24 1.3.6 CHAPITRE 1. LE LABORATOIRE D’INFORMATIQUE FONDAMENTALE DE MARSEILLE Locaux Les deux pôles principaux du laboratoire, à savoir Sud (Luminy) et Nord (Château-Gombert), ont vu leur locaux évoluer sur le quadriennal en cours : le site Sud a vu son nombre de bureaux augmenter de 5 unités (pour une surface de 140 m2 ) proche des bureaux actuels (à l’étage inférieur). Le site Nord déménagera dans les mois qui viennent de quelques centaines de mètres dans un bâtiment acquis par l’Université de Provence, bâtiment «recherche» dédié au LIF, les enseignants-chercheurs gardant des bureaux partagés au CMI pour leur activités d’enseignement. Ce déménagement entraînera pour le site Nord un doublement de sa surface utile. Par ailleurs, afin de faciliter les réunions entre les membres des deux sites principaux du laboratoire, deux salles de vidéo-conférences, l’une sur le site Nord et l’autre sur le site Sud, seront prochainement installées. L’objectif du laboratoire reste de regrouper la majorité de ses membres en un lieu unique. Si l’université unique devrait permettre de réaliser cela à long terme, il semble que la solution consistant à rapprocher les sites de Marseille Sud et Nord devrait être l’objectif prioritaire concernant la localisation des sites du laboratoire pour le quadriennal 2012-15 car nous pensons que cette séparation nuit à la vie du laboratoire, à sa cohésion et freine les collaborations possibles entre les différentes équipes. Un déplacement du site Nord en centre ville de Marseille serait compatible avec le projet de localisation de l’institut mathématiques et informatique, ce déplacement mettant les deux sites du laboratoire à 30 minutes l’un de l’autre, ce qui pourrait dans un premier temps être jugé satisfaisant. Par ailleurs, on pourra envisager la mise en place d’un espace de recherche commun au LIF et au LSIS à Aix-en-Provence, par exemple dans le cadre de la fédération FRIIAM, du fait de la proximité du site Forbin, des 2 sites Schuman (LSH et Droit) et du site Gaston-Berger (sites relevant actuellement de 3 universités différentes). Ces lieux étant des sites d’enseignement, la constitution d’un lieu «recherche» pourrait aider ces collègues à organiser favorablement leur temps de travail enseignement et recherche et pourrait de plus créer un lieu de discussion entre les chercheurs des deux laboratoires. 1.3.7 Formations La fusion des universités a été l’occasion de remettre à plat les formations de Licence et de Master. Les formations de Master dans le domaine de l’informatique ont été restructurées dans une optique de clarification : lors du quadriennal 2008-2011, il existait au sein des universités d’Aix-Marseille un Master informatique adossé au LIF regroupant une spécialité à finalité professionnelle et une spécialité à finalité recherche et d’un Master «SIS - Sciences de l’Information et des Systèmes» adossé au LSIS et comprenant, pour l’informatique, 2 spécialités à finalité professionnelle et une spécialité à finalité recherche12 . Sous l’impulsion du LIF, dans le cadre de la fusion des universités, le Master SIS a été scindé, les spécialités «informatique» rejoignant le Master d’informatique, les autres spécialités donnant un Master «Images et Systèmes». Au sein d’Aix-Marseille Université, le Master informatique comptera 4 spécialités adossées au LIF impliquant chacune une ou plusieurs équipes du laboratoire 13 : – «Informatique fondamentale» à finalité recherche, impliquant toutes les équipes du LIF – «Fouille de données multimédia» à finalité professionnelle, impliquant les équipes QARMA et TALEP – «Informatique décisionnelle» à finalité professionnelle, impliquant les équipes ACRO et BDA – «Fiabilité, sécurité et intégration logicielle » à finalité professionnelle, impliquant l’équipe MoVe La spécialité à finalité recherche adossée au LIF se composera pour un quart d’un tronc commun dont le rôle est de fournir les bases en algorithmique, complexité, logique, théorie des langages, probabilité et statistique, bases nécessaires quelque soit le choix du thème de recherche de l’étudiant. Le second quart de la formation sera formé d’UEs à choix qui permettent à l’étudiant de se tourner vers un domaine de recherche plus spécifique. Enfin, la dernière moitié de la formation sera un stage de recherche en laboratoire. 12 Ce master comprenait de plus deux spécialités professionnelles, liées l’une à l’imagerie numérique et l’autre à l’automatique et au génie électrique. 13 Trois autres spécialités seront adossées au LSIS, une à finalité recherche et deux à finalité professionnelle. 1.3. FONCTIONNEMENT ET VIE DU LABORATOIRE 25 Sans doute moins que d’autres disciplines, l’informatique souffre néanmoins de la désaffection des étudiants pour les sciences. Si cela se voit peu dans les filières professionnelles, c’est flagrant en ce qui concerne les spécialités à finalité recherche. La mutualisation d’enseignements entre la spécialité à finalité recherche et celles à finalité professionnelle à la fois dans l’optique de rapprochement de ces deux types de formation et dans un souci de réduction des coûts entraîne le fait que les étudiants changent plusieurs fois de sites d’enseignement au cours de la semaine, ce qui nuit à l’attractivité de la formation. Nous souhaitons donc que cette rationalisation de l’offre de formation s’accompagne d’une rationalisation des sites d’enseignement mais ce point délicat pour de nombreuses formations de Licence ou de Master n’a à ce jour fait l’objet d’aucun arbitrage. Concernant le grade de Licence, il sera créé un parcours renforcé au sein de la Licence mention informatique. Ce parcours à connotation plus théorique permettra de faire découvrir plus tôt aux meilleurs étudiants de Licence le monde de la recherche. Nous espérons que cela renforcera à moyen terme notre Master à finalité recherche. Toujours dans ce même objectif, ce sont des membres du LIF qui contribuent au développement d’une filière «informatique» au sein de l’École Centrale de Marseille, filière qui permettra de diriger des élèves-ingénieurs vers ce même Master et pour certains d’entre eux vers la recherche. Le LIF sera également laboratoire porteur de la spécialité «Traitement automatique des langues» du Master «Sciences du Langage». Cette spécialité fera intervenir plus spécifiquement des membres de l’équipe TALEP du LIF ainsi que des membres du LPL. Le LIF est aussi laboratoire d’adossement du Master de mathématiques et s’investit tout particulièrement dans la spécialité «Mathématiques informatique statistiques et sciences de la santé (MI3S)». Enfin, l’institut mathématiques et informatique comportera également un volet «formation». L’objectif sera d’adosser à cet institut un Master Erasmus Mundus bidisciplinaire, à l’interface des mathématiques et de l’informatique, en partenariat avec l’ECM. 26 CHAPITRE 1. LE LABORATOIRE D’INFORMATIQUE FONDAMENTALE DE MARSEILLE Chapitre 2 ÉQuipe AppRentissage et MultimédiA 2.1 2.1.1 Présentation Membres Responsable Liva R ALAIVOLA MdC-HDR, Université de Provence Stéphane AYACHE Cécile C APPONI François D ENIS Rémi E YRAUD Amaury H ABRARD MdC, Université de la Méditerranée (1/09/08 MdC, Université de Provence Pr, Université de Provence MdC, Université de Provence (1/09/07 ) MdC, Université de Provence Guillaume S TEMPFEL ATER, Université de Provence Raphaël B AILLY Pierre M ACHART Université de Provence Université de Provence Permanents ) Postdoctorants Doctorants 2.1.2 Structuration Génèse. L’équipe Q ARMA (éQuipe AppRentissage et MultimédiA) est née de la séparation de l’équipe B DAA (Base de Données et Apprentissage Automatique) suivant ses deux thèmes de recherche, l’apprentissage automatique et les bases de données. Les activités de recherche de l’équipe Q ARMA se développeront autour de deux axes : l’apprentissage automatique et la fouille de données multimédia. Dans le premier axe, les travaux porteront sur des questions de nature fondamentale relevant notamment de l’apprentissage statistique, et sur d’autres questions liées à l’inférence grammaticale (pour des classes de langage particulières, ou encore des modèles de représentation spécifiques). Le second, l’axe multimédia, revêt une dimension plus applicative ; il nourrira le premier axe de problématiques issues de questions réelles et sera également le domaine d’application privilégié pour éprouver les nouvelles méthodes et approches d’apprentissage développées. La réussite de ce projet de recherche s’appuie sur les compétences de l’équipe en apprentissage automatique – attestées par des publications dans les journaux et conférences de renom –, et l’expertise en recherche d’information multimédia qui est récemment venue enrichir notre groupe de recherche. Cécile C AP PONI a notamment créé en 2008 un groupe de recherche en fouille de données multimédia ayant 28 CHAPITRE 2. ÉQUIPE APPRENTISSAGE ET MULTIMÉDIA pour vocation d’être un lieu d’échange privilégié pour qui travaille au développement de méthodes d’apprentissage automatique pour la fouille de données multimédia. Stéphane AYACHE est quant à lui un spécialiste de ces problématiques, puisqu’elles sont le cœur de son activité de recherche depuis son doctorat. Géographie. L’ensemble de l’équipe est situé sur le site de Chateau-Gombert, à l’exception de Stéphane AYACHE, qui est localisé sur le campus de Luminy, à l’école d’ingénieurs universitaire de l’Université de la Méditerranée, l’ESIL. Par ailleurs, l’équipe Q ARMA est basée depuis la rentrée 2009 à l’Institut Méditérranéen de Technologie (IMT) distant de quelques centaines de mètres du Centre de Mathématiques et Informatique (CMI) où se trouve le reste du L IF Nord. L’équipe y partage des locaux avec le groupe de traitement du signal de l’équipe Probabilités et Statistiques du LATP. Cette proximité avec nos collègues mathématiciens donne lieu à des échanges scientifiques réguliers et à des collaborations qui s’inscrivent parfaitement dans l’optique de l’institut fédératif Mathématiques Informatique qui structure le projet du L IF. 2.2 Projet de Recherche Nous décrivons ici le projet de recherche de l’équipe en prenant soin d’illustrer comment les problématiques théoriques qui nous intéressent sont pertinentes pour des applications multimédia, voire, éventuellement, comment ces dernières les suscitent. Cela nous permet notamment de montrer comment notre investissement dans des applications multimédia se distingue de l’ingénierie de recherche et du transfert technologique. Afin de situer le cadre des travaux de recherche de l’équipe, nous rappelons brièvement une formalisation générique de l’apprentissage supervisé en apprentissage statistique. À partir d’un échantillon d’apprentissage S = {(Xi , Yi )}ni=1 constitué de n variables aléatoires (Xi , Yi ) identiquement et indépendamment distribuées (IID) suivant une loi fixe et inconnue D sur un espace Z = X × Y, la problématique essentielle de l’apprentissage est d’inférer un modèle f ∈ F, avec F ⊆ T X , qui a une erreur de généralisation ou risque R` (f ) faible. Ici, ` : T × Y → R est une fonction de perte et le risque R` (f ) de f associé à ` est l’espérance de `(f (X), Y ) suivant D (par exemple, dans le cas de la classification binaire, une perte ` à considérer est `(t, y) = Iyt≤0 ). Inférence grammaticale probabiliste L’inférence grammaticale (probabiliste) s’attache à caractériser/modéliser/apprendre des grammaires et des langages à partir d’échantillons de mots. La richesse des modèles étudiés dans ce domaine de recherche en fait naturellement un cadre de choix pour la modélisation de structures, ou, en d’autres termes, pour l’apprentissage de langages d’objets structurés. C’est donc un thème de recherche prioritaire de l’équipe, dont les applications peuvent être la modélisation de séquences vidéo, audio, d’arbres XML, ou encore la prédiction structurée (pour l’annotation automatique d’arbres, par exemples) – une partie des problématiques de l’ANR LAMPADA se structure sur ces questions. Un axe particulier de recherche qui sera développé est celui des automates pondérés. L’utilisation d’automates pondérés pour représenter des langages stochastiques offre en effet le double avantage de modéliser une classe de distributions très large et de pouvoir formuler l’apprentissage de ces langages comme un problème d’optimisation. Ces résultats nous permettent d’envisager de travailler sur des méthodes permettant d’intégrer des notions très utilisées en apprentissage statistique mais pour l’instant peu utilisées en inférence grammaticale probabiliste. En particulier, nous nous proposons d’étudier comment introduire des approches de parcimonie ou d’intégration de non linéarité via l’utilisation de noyaux spécifiques. Notons par ailleurs que le très bon accueil par la communauté des travaux réalisés en collaboration avec Alexander Clark nous motive à continuer les travaux sur l’apprentissage de langages hors-contexte via des représentations dédiées. 2.2. PROJET DE RECHERCHE 29 Apprentissage semi-supervisé et adaptation de domaine Une part importante des activités de Q ARMA sera consacrée à l’apprentissage semi-supervisé. Cette problématique d’apprentissage, qui se distingue du cadre classique d’apprentissage supervisé où l’on dispose d’annotations complètes pour l’ensemble des données d’apprentissage, se rencontre très naturellement lorsque l’on travaille avec des données riches et/ou volumineuses, comme c’est le cas en fouille de données multimédia et en traitement automatique du langage naturel. Dans cette situation, le coût de l’annotation de documents, souvent manuelle, est élevé, alors que la collecte elle-même d’une quantité importante de documents est un processus très peu onéreux. Dès lors, il se pose la question de l’apprentissage semi-supervisé, où les échantillons d’apprentissage à considérer sont constitués de données partiellement annotées. Bien que l’inférence semi-supervisée de modèles ayant de bonnes capacités de généralisation soit une question identifiée comme de toute première importance en apprentissage, elle continue d’offrir un vaste champ de recherche où des cadres théoriques pertinents accompagnés d’algorithmes d’apprentissage appropriés restent à définir. Une problématique qui sera abordée prioritairement est celle de l’adaptation de domaine où les distributions des échantillons d’apprentissage et de test ne sont pas nécessairement identiques. Dans le cadre de la classification binaire, ce problème d’apprentissage semi-supervisé se formalise de la s de vamanière suivante. Les entrées à considérer sont un échantillon étiqueté S s = {(Xis , Yis )}ni=1 riables aléatoires (Xis , Yis ) IID suivant une distribution Ds dite « source » sur X × Y et un échantillon c c c non étiqueté Sunl = {Xic }ni=1 de variables aléatoires IID suivant la loi DX marginale sur X de la disc c c c c c c tribution D (X , Y ) = DX (X )D(Y |X ) dite « cible ». Le problème posé lors de l’apprentissage est c pour produire un classifieur performant de tirer parti à la fois de l’information fournie par S s et SX c s selon D dans le cas où les distributions source D et cible Dc sont éventuellement différentes. Nous chercherons à la fois à fournir des approches algorithmiques pour résoudre ce type de problème et réfléchirons à caractériser précisément les situations limites concernant les différences entre Ds et Dc qui laissent l’apprentissage possible. Optimisation de pertes complexes La plupart des mesures de performances utilisées en fouille de données multimédia sont reliées à des notions d’ordonnancement. Par exemple, si l’on considère le problème de repérer dans une large base d’images celles qui contiennent un concept particulier, l’intérêt est d’avoir à disposition des modèles attribuant avec une grande probabilité des scores importants aux images effectivement pertinentes : dans une liste d’images triées selon ces scores, il est important qu’apparaissent en tête de liste les documents qui sont vraiment pertinents. La notion d’ordonnancement est donc primordiale et des mesures de performances telles que l’aire sous la courbe ROC (AUC), la précision moyenne, les courbes rappel/précision, sont précisément des outils destinés à mesurer la qualité de l’ordre inféré sur une liste d’objets. Bien que ces critères de performance constituent le cœur des mesures de qualité de système de recherche d’information multimédia (c’est également le cas en traitement automatique du langage), il existe peu d’approches qui prennent directement en compte des pertes qui leur sont directement associées. La raison principale en est que ces pertes induisent nécessairement de considérer des pertes complexes de la forme ` : (T × Y)p → R avec p > 1. Travailler avec ce genre de perte et des estimateurs de E` qui en découlent requiert la construction de méthodes théoriquement fondées pour traiter des statistiques complexes, telles que les U-statistiques ou les statistiques de rang. Des problèmes algorithmiques non triviaux sont notamment associés à l’usage de ce type de statistiques. Nous nous intéresserons précisément à apporter des réponses à des questions liées à l’utilisation de pertes complexes pour l’ordonnancement, en nous concentrant notamment sur le critère AUC et la précision moyenne, critères fréquemment utilisés en pratique. Les voies de recherche privilégiées par l’équipe sont notamment celles de l’apprentissage en-ligne et de l’optimisation stochastique convexe. Apprentissage multi-modal En apprentissage multimodal, l’objectif est de considérer les données à traiter selon plusieurs vues ou modalités et à tirer au mieux parti des informations apportées par chacune de ces vues. Par exemple, chaque vue peut être un descripteur correspondant à un espace de Hilbert particulier : dans le cas de documents vidéos par exemple, l’un de ces espaces peut être lié au son et un autre un espace lié à l’image. Le défi posé par l’apprentissage multimodal est de 30 CHAPITRE 2. ÉQUIPE APPRENTISSAGE ET MULTIMÉDIA faire « collaborer » les vues pour créer des modèles de prédiction performants. A l’heure actuelle, les principales études en apprentissage multimodal sont des approches par fusion (précoce, tardive, mixte). Il s’agit toutefois d’approches empiriques, et aucun cadre formel n’a encore été défini pour garantir les performances des algorithmes existants. Si quelques résultats théoriques en apprentissage multimodal semi-supervisé (cotraining, co-régularisation et lissage dans des variétés) existent néanmoins, il subsiste de nombreux problèmes ouverts, dont la prise en compte de l’inégalité « informationnelle » des vues et leur capacité propre à permettre l’apprentissage de modèles performants. Notre premier objectif est de définir un cadre théorique de l’apprentissage multimodal, en exhibant notamment des mesures qualitatives permettant de mesurer la capacités de modalités à donner lieu à des classifieurs performants ; le concept de complémentarité des modalités sera également étudié. Ensuite, nous chercherons à élaborer des algorithmes d’apprentissage multimodal tirant effectivement parti de la complémentarité de ces modalités en gardant par ailleurs à l’esprit que la mise en œuvre de ces algorithmes devra supporter le traitement de corpus de données volumineux. Positionnement de l’équipe La singularité de notre équipe de recherche provient de la double compétence apprentissage automatique/fouille de données multimédia, avec un cœur de métier originellement plus centré sur les méthodes d’apprentissage et la théorie. L’approche que nous souhaitons mettre en œuvre pour la fouille de données multimédia se distingue donc par le soin que nous projetons d’apporter au développement de théories, d’algorithmes et d’outils (par exemple, des inégalités de concentration) dont l’usage pourra bénéficier très largement à la communauté d’apprentissage automatique – et pas seulement à celle de la fouille de donnée multimédia. Nous prônons donc une appréhension de la fouille de données multimédia assez éloignée de l’ingénierie de recherche, tâche qui sera largement dévolue aux étudiants de Licence 3 et Master 1 que nous souhaitons faire participer à la vie de l’équipe (voir ci-dessous). 2.3 Fonctionnement de l’équipe Réunions hebdomadaires L’équipe Q ARMA se réunit chaque semaine lors d’un groupe de travail où chacun présente ses travaux : le format est libre mais généralement, l’un des membres de l’équipe présente de manière plus détaillée que les autres ses recherches en cours. Ces réunions hebdomadaires sont également le lieu où des invités viennent donner des séminaires. Tous les deux mois environ, une réunion commune avec le groupe de Traitement du signal est organisée : y sont discutés de nouveaux points éventuels de collaboration entre nos deux équipes ; c’est également l’occasion pour ceux d’entre nous qui portent des projets inter-équipe de présenter l’avancée de leurs travaux. Ces réunions avec nos collègues matheux prennent naturellement la suite des groupes de travail communs que nous avons mis en place depuis 3 ans1 . Challenges Outre la soumission de travaux à des revues et congrès scientifiques de renom, notre équipe s’investira tout particulièrement dans la participation à divers « challenges » touchant à la fouille de données multimédia. C’est une activité qui sera fédératrice qui touchera aux deux axes de travail de l’équipe : elle sera l’occasion d’éprouver sur des problèmes pratiques les algorithmes et méthodes développés au sein de l’équipe. Nous participerons de manière régulière – comme c’est déjà le cas – à la compétition TrecVid (Video Retrieval Evaluation). L’équipe s’investira également dans la compétition VOC (Visual Object Classes) organisée par le réseau d’excellence européen PASCAL 2. Intégration d’étudiants Par ailleurs, un de nos objectifs est d’impliquer des étudiants de Licence et de Master dans la vie de l’équipe. Deux raisons essentielles motivent cet objectif. D’une part, l’apprentissage automatique est une discipline relativement récente, à l’intersection de plusieurs champs d’étude (l’informatique, l’optimisation, la statistique mathématique) et il en résulte que peu de formations universitaires, notamment à Marseille, sont adaptées pour sensibiliser les étudiants aux enjeux de notre discipline. Ce qui induit notamment, sauf années exceptionnelles (cf. ci-dessous), la 1 Groupe de travail SigMa : http://www.lif.univ-mrs.fr/~liva/sigma/doku.php 2.4. COLLABORATIONS, PROJETS 31 difficulté à attirer de brillants étudiants pour qu’ils s’engagent dans des thèses d’apprentissage automatique. Nous pensons qu’inciter des étudiants à se mêler à notre équipe de recherche est un moyen de pallier ce défaut de formation. D’autre part, il y a tout lieu de penser que des étudiants de Licence et Master peuvent effectivement contribuer de manière positive aux activités de recherche : outre des tâches nécessaires de collecte/nettoyage de données multimédia et de développement qu’ils pourront prendre en charge, ils seront assurément des aides précieux pour les compétitions évoquées ci-dessus, en assurant une partie du « transfert technologique » de nos méthodes aux problèmes considérés. Animation de la communauté Enfin, un des points-clés du fonctionnement de l’équipe est l’animation de la communauté d’apprentissage automatique aussi bien au niveau national qu’international. Au cours des dernières années, Q ARMA a notamment organisé une école de printemps en apprentissage automatique (EPIT 08) à Porquerolles, un workshop de la conférence internationale ECML/PKDD sur l’apprentissage à partir de données non-IID (LNIID 09) à Bled et l’école d’été PASCAL Bootcamp 2010 à Marseille. 2.4 Collaborations, projets L’équipe Q ARMA nourrit de nombreuses collaborations, dont la plupart sont structurées par des projets ANR, l’équipe étant actuellement impliquée dans 7 de ces projets, dont les intersections ne sont évidemment pas vides. Elles se traduisent également par des co-encadrements de thèses qui débuteront en septembre 2010. Q ARMA et TALEP Des collaborations particulièrement fortes existent avec l’équipe TALEP du LIF, avec qui Q ARMA partage 4 projets ANR ; ces interactions participent de la dynamique inter-équipe encouragée par le laboratoire. Ces projets s’articulent autour de l’utilisation et le développement de méthodes d’apprentissage automatique pour des questions d’analyse syntaxique (projet SEQUOIA), de fusion de modalités audio et textuelles (projet DECODA), de traitement de mots hors-lexique (projet EDYLEX) et de reconnaissance de personnes dans des contenus audiovisuels (projet PERCOL). Un co-encadrement de thèse entre Q ARMA et TALEP débutera en septembre 2010 sur la thématique de la multi-modalité pour le traitement automatique de la parole et des problèmes directement liés à ceux étudiés dans l’ANR DECODA (financement : allocation ministérielle). Ancrage national L’équipe se réjouit également de pouvoir collaborer avec de nombreuses équipes d’apprentissage automatique de France. C’est notamment le cas via le projet ANR LAMPADA, dont le thème est la modélisation et les représentations parcimonieuses de données structurées : Q ARMA y travaille de concert avec l’équipe d’apprentissage du LIP6 à Paris, les équipes-projet MOSTRARE et SEQUEL de l’INRIA Lille-Nord Europe, l’équipe d’apprentissage du LHC à Saint Etienne et l’équipe TALN du LINA à Nantes. Un projet sur l’apprentissage de réseaux de neurones par architecture profonde (projet ANR ASAP), réunit l’équipe d’apprentissage du LITIS à Rouen, celle du LIP6 à Paris, celle du LRI à Orsay et celle du GREYC à Caen. Q ARMA a ainsi des interactions privilégiées avec la plupart des équipes d’apprentissage automatique en France. Q ARMA s’implique également activement dans le fonctionnement de la conférence nationale en apprentissage automatique, CAP. Elle participe notamment au comité de programme, prend le soin d’y diffuser ses travaux – par ailleurs publiés dans des conférences internationales de premier plan – et en a organisé l’édition 2005. Elle a également participé à l’organisation de l’édition 2008 à Porquerolles, qui s’est tenue à la suite de l’EPIT 08 (voir précédemment). Apprentissage et Multimédia Le projet ANR VideoSense, sur la reconnaissance multimodale de concepts dans les vidéos multilingues, vient directement en regard des axes thématiques de l’équipe. 32 CHAPITRE 2. ÉQUIPE APPRENTISSAGE ET MULTIMÉDIA Ce projet pose précisément des questions sur l’apprentissage automatique et l’application de méthodes qui en relèvent pour le multimédia. Il rassemble des équipes du LIRIS à Lyon, de l’institut Eurecom à Nice, du LIG à Grenoble ainsi qu’un partenaire industriel, la société Ghanni. Une thèse de doctorat encadrée par des membres de l’équipe Q ARMA débutera en septembre 2010 dans le cadre de ce projet (financement : ANR VideoSense). Q ARMA et le groupe Traitement du Signal du LATP Comme souligné plus haut, l’équipe partage ses locaux avec le groupe de traitement du signal du LATP depuis septembre 2009 et les deux équipes ont mis en place depuis 2007 des groupes de travail commun. C’est très naturellement que ces interactions se sont concrétisées par la rédaction d’un projet « jeunes chercheurs » (projet BISOU, BIStochastic Optimization and mUltiple kernel learning), qui a reçu un financement d’un an du GDR ISIS. Ce projet s’appuie sur des membres de Q ARMA, du groupe de traitement du signal du LATP, du laboratoire IBISC à Evry et du laboratoire L2S à Orsay. Il se propose d’étendre les travaux sur l’optimisation convexe non différentiable qui avait fait l’objet de la rédaction d’un article en commun. Nous espérons pouvoir déposer une demande de projet « jeunes chercheurs » à l’ANR à l’issue de ce projet. Notons également qu’un co-encadrement de thèse entre le groupe de traitement du signal et l’équipe Q ARMA débutera en septembre 2010 (financement : allocation ministérielle). Cette thèse portera sur l’étude de l’apprentissage en ligne pour des problèmes d’ordonnancement : elle recouvrira des aspects statistiques (inégalités de concentration), algorithmiques (optimisation convexe stochastique) et pratiques (ordonnancement de signaux – EEG, audio – ou d’images). Les deux groupes de recherche développent également des intérêts communs du point de vue des formations de Master. Dans la maquette des enseignements du prochain quadriennal, le Master Mathématiques fait maintenant figurer un sous-parcours « signal, image et apprentissage » dont les enseignements ont été définis par nos deux équipes. Cet engagement du point de vue de l’enseignement participe de notre souhait de pallier le défaut de cursus, au moins à Marseille, proprement adaptés à la formation d’étudiants en apprentissage et traitement du signal. Un projet plus ambitieux actuellement à l’étude est celui d’un programme Erasmus-Mundus sur les thèmes de nos équipes. Réseau européen PASCAL 2 L’équipe Q ARMA est membre du réseau d’excellence européen PASCAL 2 (Pattern Analysis, Statistical Modelling and Computational Learning). Dans ce cadre, l’équipe a noué des collaborations avec plusieurs équipes du réseau. En particulier, des liens privilégiés ont été tissés avec l’Université d’Alicante, Espagne et Royal Holloway University of London, Angleterre qui se sont concrétisés par des visites de longue durée et/ou des publications. Apprentissage multi-modal Une thèse de doctorat sur l’apprentissage multi-modal a débuté en septembre 2009. Pierre M ACHART, qui travaille sur cette thèse, est co-encadré par Cécile C APPONI et Hervé G LOTIN, du LSIS. Cette thèse s’intéresse à la modélisation et la formalisation de méthodes d’apprentissage pour le traitement de données décrites selon plusieurs modalités (comme par exemple, dans le cas de vidéos : le son, l’image, du texte), avec comme question cruciale celle de la meilleure manière de tirer parti et combiner l’information provenant des différentes modalités. Brain-Reading Un projet qui a récemment débuté dans l’équipe concerne le développement de méthodes d’apprentissage automatique pour l’interprétation d’images d’IRM fonctionnelles. Ce projet, soutenu par un financement obtenu en réponse de l’appel d’offres 2010 « Neuroinformatique et neurosciences computationnelles » du CNRS est mené en collaboration avec l’INCM à Marseille et l’équipe-projet PARIETAL de l’INRIA Saclay. La spécificité de ce projet est d’exploiter une modélisation sous forme de graphes d’images fonctionnelles. 2.5. AUTO-ÉVALUATION 2.5 33 Auto-évaluation Points forts L’équipe Q ARMA a une très bonne notoriété tant sur le plan national qu’international. Ses travaux scientifiques sont reconnus et l’originalité et la qualité des recherches sont attestées par des publications dans des revues et des conférences de premier plan. La création d’un axe de recherche sur la fouille de données multimédia témoigne du souci de l’équipe de développer à la fois les aspects fondamentaux et théoriques de la recherche menée et les aspects applicatifs. L’équipe est impliquée dans plusieurs projets nationaux et fait partie du réseau d’excellence européen PASCAL 2 ; cela rend compte de la reconnaissance dont bénéficie l’équipe sur la qualité de la recherche qu’elle produit. Son implication dans l’animation de la recherche par l’organisation d’écoles d’envergure nationale ou internationale participe également de ses points forts. D’autre part, la nature même des activités de l’équipe la place dans un domaine de recherche à l’intersection de l’informatique théorique, la statistique mathématique, la recherche d’information et le traitement du signal, et favorise ainsi la création de nouvelles collaborations comme celles avec l’équipe TALEP du LIF et le groupe de traitement du signal du LATP. Points à améliorer Un point particulièrement important à souligner est celui de l’absence de chercheur à temps plein (CR ou DR) dans l’équipe. Q ARMA est la seule équipe du LIF dans cette situation, qui est par ailleurs combinée avec le fait que François D ENIS est le seul professeur de l’équipe. L’équipe a pris le parti de mettre en avant comme axe structurant celui de la fouille de données multimédia, ce qui soulève la question de l’articulation entre une recherche très fondamentale et des aspects beaucoup plus appliqués. Pour le succès de cette entreprise, il serait bienvenu que Q ARMA et/ou le laboratoire s’adjoignent les services d’un ingénieur de recherche. Opportunités L’équipe partage des locaux avec le groupe de traitement du signal du LATP. Ces deux groupes ont donc des échanges quotidiens et des séminaires communs, qui s’inscrivent directement dans la continuité des groupes de travail mis en place depuis 2007. Le projet « jeunes chercheurs » soutenu par le GDR ISIS centré sur l’optimisation stochastique convexe est actuellement un des points d’articulation concret des interactions entre le groupe de traitement du signal et l’équipe Q ARMA. D’autres sujets, comme l’apprentissage de dictionnaires ou encore l’établissement d’inégalités de concentration empiriques font actuellement l’objet de travaux communs. Une thèse de doctorat co-encadrée par les deux groupes débutera en septembre 2010. Nous réfléchissons également au développement d’une formation internationale de type Erasmus Mundus sur le thème apprentissage-traitement du signal, qui pourrait se faire en partenariat avec l’école Centrale de Marseille. Ces nombreux projets communs trouvent pleinement leur place dans le projet de la création d’un institut mathématiques-informatique soutenu par le LIF et le LATP. Comme évoqué à plusieurs reprises, nous nous intéressons à des problèmes d’optimisation convexe stochastique. Ce thème de recherche peut être l’occasion de travaux communs avec l’équipe Algorithmique, Combinatoire et Recherche Opérationnelle. Ces collaborations peuvent plus généralement se développer autour des différents problèmes d’optimisation (de grande taille) que nous sommes amenés à résoudre en apprentissage statistique. Par ailleurs, notons qu’en plus des projets ANR que nous partageons avec TALEP, nos deux équipes ont proposé pour le prochain quadriennal une filière de Master 2 professionnel sur les thèmes de recherche communs des deux équipes. Enfin, nous avons la chance de voir Q ARMA s’enrichir de 3 doctorants (2 financés par des allocations ministérielles et 1 par un projet ANR) à la rentrée de septembre 2010, portant le nombre de doctorants de l’équipe à 5. Risques Les membres de l’équipe Q ARMA assurent de nombreuses charges administratives et sont très impliqués dans le fonctionnement de l’université (conseils d’UFR, commission d’enseignement, commission recherche, responsabilités de filières, mission valorisation du LIF, etc.). A terme, la multiplication de ces tâches pourrait nuire à la production scientifique de l’équipe. 34 CHAPITRE 2. ÉQUIPE APPRENTISSAGE ET MULTIMÉDIA Par ailleurs, plusieurs habilitations à diriger des recherches vont être soutenues dans les deux années à venir. Par conséquent, il est possible que le noyau actuel de l’équipe change considérablement à moyen terme. Cela constitue un risque important pour une jeune équipe dont le développement bénécifierait d’une stabilité structurelle forte. Il est donc important que l’équipe puisse s’étoffer à court ou moyen terme afin d’assurer la pérennité de ses activités. Chapitre 3 Bases de Données Avancées 3.1 Membres Responsable Rosine C ICCHETTI Pr, Université de la Méditerranée Alain C ASALI Andreea D RAGUT Lotfi L AKHAL Noël N OVELLI Viet Phan L UONG Sébastien N EDJAR MdC, Université de la Méditerranée MdC, Université de la Méditerranée Pr, Université de la Méditerranée MdC, Université de la Méditerranée MdC, Université de Provence MdC, Université de la Méditerranée Fabien P ESCI Université de la Méditerranée Permanents Doctorants 3.2 Projet de Recherche Issus de la communauté Bases de Données, les membres de l’équipe B DA travaillent sur des problèmes de fouille et d’entrepôts de données (ou bases de données multidimensionnelles ou O LAP) depuis plusieurs années. Le point fort des recherches menées est d’allier problématiques innovantes et formalisme rigoureux, fondé sur les treillis et systèmes de fermeture. Des concepts originaux, des représentations solides et des algorithmes efficaces permettant leur calcul et intégrables au sein des SGBD ont déjà été proposés (motifs clefs et fermés, treillis cube, Cube Fermé, Cube Émergent, Cube partition ...). Le projet de recherche que nous souhaitons développer porte sur les deux axes que sont la fouille de bases de données et les entrepôts de données avec comme dénominateur commun les treillis et systèmes de fermeture. 3.2.1 Entrepôts de données Les travaux menés au cours du précédent plan quadriennal se sont focalisés sur l’analyse du renversement de tendances dans les bases de données multidimensionnelles autour du concept original de Cube Émergent. Ces travaux se sont inscrits dans le contexte du treillis cube : un espace de recherche dédié aux problèmes de fouille d’entrepôts « plats » (sans dimension hiérarchique). À partir de ce savoir faire, nous voulons mener les actions suivantes : (i) le développement d’une plateforme algorithmique I DEA intégrable dans les S GBD relationnels (ROLAP cubing) et dédiée au calcul du Cube Émergent et de ses représentations ; 36 CHAPITRE 3. BASES DE DONNÉES AVANCÉES (ii) la caractérisation de structures pour les entrepôts de données complexes (avec dimensions hiérarchiques) ; (iii) l’analyse multidimensionnelle et multi-critère d’objets dominants mettant en œuvre le calcul de S KYCUBES ; (iv) la proposition de méthodes OLAP d’exploration et visualisation des cubes de données et des S KYCUBES. Plateforme algorithmique I DEA Nous avons proposé différentes représentations du Cube Émergent ainsi qu’un algorithme E I DEA (Emergent cube Integrable DatabasE Algorithm) dédié au calcul du Cube Émergent qui exploite la double contrainte d’émergence pour élaguer l’espace de recherche. Cet algorithme possède des propriétés intéressantes comme l’efficacité et l’intégrabilité au sein des S GBD. En se basant sur E I DEA , nous voulons développer une plateforme logicielle cohérente dédiée au Cube Émergent et à ses représentations. Le Cube Émergent peut être vu comme une instance d’un Cube Contraint [16] mais c’est l’instance la plus “complexe” dans la mesure où une double contrainte est exprimée mais sur deux relations différentes. Il en résulte que toutes les propositions que nous avons faites peuvent être directement données pour tout Cube Contraint. Il est, par exemple, immédiat de proposer des représentations réduites pour les Cubes Iceberg ou intervallaire, à travers les bordures, les variantes du Cube Fermé Émergent ou encore le Cube Quotient Émergent. Ainsi, étendue aux Cubes Contraints la plateforme I DEA pourra être une solution logicielle originale, générique et extensible pour différents problèmes de fouille O LAP. Caractérisation de structures pour les entrepôts avec dimensions hiérarchiques Dans un contexte O LAP, les dimensions peuvent être des hiérarchies. Dès lors, ces dimensions ne sont plus de simples attributs (e.g. V ILLE) mais un ensemble d’attributs « niveaux » associés par des liens particuliers : des dépendances fonctionnelles (e.g. V ILLE → D ÉPARTEMENT → R ÉGION → PAYS ). Néanmoins, cet aspect n’a pas été pris en compte par les approches de représentation et de calcul des cubes de données. Les problèmes associés au cube, exponentiels dans le nombre d’attributs dimensions, sont complexes (coût de calcul, coût de stockage) et l’introduction de hiérarchies, qui démultiplie le nombre d’attributs, exacerbe d’autant plus fortement les difficultés. La caractérisation formelle d’un espace de recherche et de structures adaptées au cube avec dimensions hiérarchiques n’a jamais, à notre connaissance, été explorée pourtant elle constitue un fondement important aussi bien pour la modélisation des entrepôts (e.g. modèles S TAR ou flocon) que pour les algorithmes de calcul de cubes ou encore la fouille O LAP. Nous nous proposons d’étudier cette caractérisation sous un double angle : orienté attribut et orienté valeur en nous appuyant sur les ensembles ordonnés et les treillis. Du point de vue attribut et dans le contexte des cubes « plats », l’ensemble des cuboïdes muni de l’inclusion forme un treillis : le treillis des parties de l’ensemble des dimensions. Dans le contexte de dimensions hiérarchiques, l’ordre d’inclusion n’est plus satisfaisant car il ne permet pas d’exploiter les liens existant au sein des dimensions hiérarchiques. Du point de vue valeur, le treillis cube est le seul espace de recherche existant et il convient de le généraliser afin d’intégrer les dimensions hiérarchiques. L’objectif de cette généralisation est de formaliser de nouvelles structures comme les bordures, les Cubes Contraints généralisés, les Cubes fermés généralisés... La plateforme algorithmique I DEA sera également étendue pour calculer ces nouvelles structures. Analyse multidimensionnelle et multi-critère d’objets dominants avec une approche O LAP L’opérateur Skyline a été proposée pour extraire les objets dominants dans un contexte base de données [5]. Ces objets sont les tuples optimisant un ensemble de critères de recherche. Cet ensemble de critères étant fixé a priori, certains résultats pertinents peuvent être masqués à cause d’objets très dominants parfois sur un travail fondamental sur le S KYCUBE porte sur sa représentation sous forme d’un treillis de classes d’équivalences. Néanmoins, ce nombre de classes explose car ce nombre 3.2. PROJET DE RECHERCHE 37 n’est pas connu a priori. Notre objectif est de représenter le S KYCUBE sous forme de treillis des concepts garantissant que la hauteur du treillis reste borné par le nombre de dimensions. Nous nous proposons également de concevoir des algorithmes de calcul de cette représentation : un algorithme orienté Analyse de Concepts Formels à la NextClosure et un algorithme orienté Bases de données à la I DEA. Visualisation et navigation O LAP Les techniques de visualisation de données sont très souvent basées sur le dépendances entre données (en utilisant des graphes par exemple [3]). Il est donc essentiel d’exploiter au mieux toutes les dépendances et si possible pendant la construction de la représentation [2]. La visualisation et la navigation dans les cubes de données est un challenge car la taille des données manipulées est extrêmement grande. Les calculs de bordures permettent d’en réduire drastiquement la taille mais aucun travail de visualisation de bordures n’existe actuellement. Nous nous proposons d’explorer cette voie. Guidé par les besoins de notre entreprise partenaire CA2I, nous avons identifié un fort besoin de navigation dans les S KYCUBES et de visualisation. Il s’agit d’aider le décideur à choisir progressivement la combinaison de critères la plus pertinente. Un outil de navigation sera développé de manière à doter le S KYCUBE des mêmes fonctionnalités que celles existant pour l’O LAP (R OLL -U P/D RILL D OWN) 3.2.2 Fouille de bases de données En fouille de bases de données, nous nous sommes intéressés à l’extraction de différents types de connaissances : règles d’association pour la classification, règles de corrélation et dépendances fonctionnelles (DF) exactes ou approximatives. Les recherches menées vont se poursuivre dans ces directions avec des travaux portant sur la définition de concepts, la proposition d’algorithmes et le développement d’outils. Autour des règles de corrélation décisionnelles Les règles de corrélation décisionnelles (RCD) [6] sont un outil de fouille de données permettant d’extraire des règles de corrélation (règles liées au calcul du χ2 ) comprenant une valeur d’un des attributs cibles. Appliquées à une chaîne de fabrication en micro-électronique, les RCD permettent de savoir si les valeurs d’un ensemble de paramètres sont corrélées avec certaines valeurs de l’attribut cible, la plupart du temps le gain. Le logiciel MineCor1 est un logiciel de fouille de données dédié au calcul de ces règles. Durant l’étape de pré-traitement, tous les attributs sont discrétisés de la même manière en utilisant diverses techniques (méthode de Jenks, intervalle contenant le même nombre de valeurs, intervalle de distance égale, ...). Cependant, les méthodes de discrétisation utilisées ne prennent pas en compte la problématique à résoudre : chaque attribut servant de critère de décision est discrétisé indépendamment de l’attribut cible. De plus, les expérimentations montrent que, en fonction des jeux d’essais utilisés, aucune méthode ne se démarque des autres. Nous souhaitons améliorer la qualité des données sortant de l’étape de discrétisation afin (i) d’augmenter la qualité des RCD obtenues, (ii) de diminuer leur nombre, (iii) tout en minimisant le temps passé dans l’étape de fouille. Nous proposons deux solutions : 1) accroître les dimensions des intervalles obtenus après une exécution de MineCor [6] ou 2) utiliser de nouvelles techniques de clustering, afin de discrétiser n’importe quel attribut décisionnel en fonction des attributs cibles. De plus, en combinant de nouveaux attributs à cette nouvelle méthode de discrétisation, nous souhaitons calculer les RCD. Le but est de rassembler en une unique étape les étapes de pré-traitement, discrétisation et de calcul du χ2 développées dans MineCor. Afin de proposer un nouvel outil de métrologie virtuelle basé sur des techniques de fouille de données, nous devons avoir connaissance des effets indésirables sur une chaîne de production. L’analyse actuelle nous permet de savoir « pourquoi ça marche », mais ne nous 1 http://infodoc.iut.univ-aix.fr/~casali/MineCor/MineCor.html 38 CHAPITRE 3. BASES DE DONNÉES AVANCÉES donne aucune connaissance quant au « pourquoi ça ne marche pas ». L’intégration de motifs littéraux (motifs admettant une négation) [23] doit nous permettre d’extraire une telle connaissance. Clustering utilisant la structure de treillis de l’espace des attributs Dans les bases de données images, on s’intéresse à l’intégration des techniques de clustering avec la structure sous-jacente des images. Les descripteurs de requêtes sont utilisés pour diriger un processus navigationnel qui explore la structure d’arbre jusqu’à ce qu’il atteigne les feuilles appropriées, où des descripteurs potentiellement similaires peuvent être trouvés. Récemment, néanmoins, des approches basées sur des treillis ont été utilisées pour calculer algébriquement quelles sont les feuilles où des descripteurs potentiellement similaires peuvent être trouvés. Au lieu d’utiliser une représentation vectorielle traditionnelle d’une image déterminée à l’aide d’un processus de navigation, [13] utilisent VLAD : un vecteur de descripteurs localement aggrégés, qui est une représentation vectorielle d’une image qui aggrège les descripteurs en se basant sur un critère de localité dans l’espace d’attributs, qui peut être réduit à un sous-ensemble de treillis ayant peu de dimensions. Les algorithmes des treillis ont été étudiés intensément du point de vue algébrique. Ceci a permis le développement d’algorithmes hautement sophistiqués qui ont de bonnes propriétés concernant le comportement à diverses échelles, au fur et à mesure que les dimensions spatiales augmentent ou que le treillis est soumis à une plus forte distorsion ([1]). Néanmoins, ces algorithmes sophistiqués doivent travailler avec des treillis entiers, ce qui peut les amener à avoir une très grande complexité. De même, ils ne sont pas toujours optimaux pour beaucoup d’applications qui sont orientées davantage vers le traitement d’images ou la physique, où les distorsions des treillis sont typiquement limitées à une échelle qui a un sens physique. Notre but est de développer des techniques adaptées aux données structurées, afin de permettre leur stockage et recherche dans une base de données. Les problèmes concrets à traiter sont la simplification de la détection du treillis le plus proche, la détermination du treillis candidat pour représenter un cluster de treillis, ainsi que l’évaluation de l’intra-similarité des clusters de treillis. Les applications principales sont le contrôle et la protection du droit de reproduction des images, qui utilisent beaucoup de descripteurs à dimensionalité moyenne, ainsi que des applications de recherche textuelle d’information. Classification associative dans les flots de données Les flux de données complexes comme les données de météo, de réseaux de distribution (d’énergies, commerciale, boursière) peuvent être représentés par un flux de tuples ou d’objets ; chaque objet est représenté par un ensemble de valeurs attribuées. Dans le changement de données, on peut observer l’interaction entre les objets dans le flux afin de prendre la décision d’intervention ou de prévention. Les objets sont complexes et les changements peuvent porter sur plusieurs facteurs dont certains sont plus déterminants que d’autres. Les règles d’association sont un modèle simple et intuitif et peuvent révéler les interactions entre les facteurs déterminants des objets. Les méthodes de recherche des règles d’association dans les données classiques sont bien étudiées. Cependant, pour les données complexes, ces méthodes peuvent ne plus s’appliquer et il devient nécessaire de proposer des approches adéquates. Dans les flux de données, les données changent régulièrement et peuvent varier de manière considérable. Ces changements peuvent avoir des impacts important sur la classification : – la classification par règles d’association demande en général la spécification les seuils minsup et minconf. Les seuils fixes peuvent ne pas s’adapter dans le contexte de flux de données. L’idée est de chercher une approche pour définir les seuils de manière auto-adaptative, selon les données ; – le modèle de classification (ensemble d’apprentissage) fixe n’est en général pas adapté pour les flux de données ; il peut devenir obsolète au cours des changements. Notre objectif est de proposer une approche pour définir un modèle de classification adapté aux changements réguliers de données. 3.3. AUTO-ÉVALUATION 39 Extraction de dépendances fonctionnelles conditionnelles Cette action de recherche s’inscrit naturellement dans la continuité des travaux menés sur le calcul de dépendances entre les données (Dépendances Fonctionnelles Exactes et Approximatives [12, 11, 14, 19, 20] et plus récemment les Dépendances Fonctionnelles Conditionnelles [4, 10, 9, 15, 8]). L’objectif est d’uniformiser les approches d’extraction de dépendances (DF, DFA et DFC) dans un même cadre formel permettant une implémentation facile, efficace et réutilisable. Avec un tel cadre, il sera possible d’optimiser les calculs coûteux comme le calcul de cubes de données en réduisant le nombre de dimensions en détectant par exemple les hiérarchies existantes (dépendances entre les données) afin de réduire la complexité du calcul de cubes. De plus, l’intégration de calcul de dépendances pourra aussi être intégrée dans les calculs de bordures [7, 17, 18] afin de réduire le coût d’exécution. Ces perspectives s’intègrent dans un projet plus vaste de collaboration entre le LIF et le LAM pour la fouille et la visualisation de données issues de campagne d’observation astrophysique.[22, 21, 2]). 3.3 Auto-évaluation Points forts L’équipe BDA a une très bonne notoriété tant sur le plan national qu’au niveau international. Ses travaux scientifiques sont reconnus. L’originalité et la qualité des recherches sont attestées par des publications dans des revues et des conférences de premier plan. Nous avons en particulier exploré un domaine novateur, celui de la fouille de bases de données multidimensionnelles, avec des résultats de qualité. La nature même des activités de l’équipe la place dans un domaine de recherche à l’intersection de l’informatique théorique, les bases de données, les treillis et ordres et favorise ainsi la création de nouvelles collaborations. Malgré un petit nombre d’encadrement de thèses (Cf. paragraphe suivant), nous avons encouragé les jeunes Maîtres de conférences à effectuer de tels encadrements ou co-encadrements. Points à améliorer Au cours des quatre années écoulées, seule 1 thèse a été soutenue au sein de l’équipe. Rapporté au nombre de permanents (6), ce nombre de thèses est faible. La principale raison est le très petit nombre de bourses accordées à l’École doctorale qui doivent, de plus, être réparties entre quatre laboratoires. Une autre raison invoquée par les membres de l’équipe localisés à l’IUT d’Aix-en-Provence est le fait qu’ils n’interviennent pas dans les enseignements de licence et Master 1 (leur participation se limitant au Master 2 recherche et professionnel). Face à cette pénurie de bourses, nous avons essayé de diversifier nos sources de financement. Une bourse co-financée par le Conseil régional et une SS2I a été attribuée et une thèse a débuté à la rentrée 2009. Opportunités Les travaux menés jusqu’à présent sur les entrepôts de données ont atteint une certaine maturité nous permettant d’envisager leur valorisation. Par exemple, à travers le développement de la plateforme I DEA et les premiers résultats obtenus extrêmement encourageants, nous recherchons de nouveaux partenariats industriels et des applications réelles à mettre en œuvre. Disposant de solides compétences à la fois dans les entrepôts de données et les treillis, l’équipe BDA se trouve à la croisée des chemins entre ces deux communautés. Cette position unique nous permet d’envisager des collaborations universitaires et le montage d’un projet ANR. La perspective de recherche concernant l’intégration des hiérarchies nous semble particulièrement prometteuse et déjà entamé des discussions avec des équipes intéressées par cette problématique (Lyon II, Montpellier II, Clermont-Ferrand II, Versailles). 40 BIBLIOGRAPHIE Risques Les membres de l’équipe BDA assurent de nombreuses charges administratives et sont très impliqués dans le fonctionnement de l’université (conseils d’UFR, commission d’enseignement/recherche, responsabilités de filières, etc.). La multiplication de ces tâches pourrait nuire à la production scientifique de l’équipe et son attractivité. Bibliographie [1] Erik Agrell, Thomas Eriksson, Alexander Vardy, and Kenneth Zeger. Closest point search in lattices. IEEE Transactions on Information Theory, 48(8) :2201–2214, 2002. [2] D. Auber, N. Novelli, and G. Melançon. Visually mining the datacube using a pixel-oriented technique. In IV 2007 – Information Visualisation, IEEE Computer Society, pages 3–10, 2007. [3] David Auber, Yves Chiricota, Fabien Jourdan, and Guy Melançon. Multiscale visualization of small world networks. In 9th IEEE Symposium on Information Visualization (InfoVis 2003). IEEE Computer Society, 2003. [4] Philip Bohannon, Wenfei Fan, Floris Geerts, Xibei Jia, and Anastasios Kementsietsidis. Conditional functional dependencies for data cleaning. In Proceedings of ICDE’07, April 15-20, Istanbul, Turkey, pages 746–755, 2007. [5] Stephan Börzsönyi, Donald Kossmann, and Konrad Stocker. The skyline operator. In Proceedings of the 17th International Conference on Data Engineering (ICDE), pages 421–430. IEEE Computer Society, 2001. [6] Alain Casali and Christian Ernst. Extracting decision correlation rules. In Sourav S. Bhowmick, Josef Küng, and Roland Wagner, editors, DEXA 2009 – 20th International Conference on Database and Expert Systems Applications, volume 5690 of Lecture Notes in Computer Science, pages 689–703. Springer-Verlag, 2009. [7] Alain Casali, Sébastien Nedjar, Rosine Cicchetti, and Lotfi Lakhal. Convex cube : Towards a unified structure for multidimensional databases. In Roland Wagner, Norman Revell, and Günther Pernul, editors, DEXA 2007 – 18th International Conference on Database and Expert Systems Applications, volume 4653 of Lecture Notes in Computer Science, pages 572–581. Springer-Verlag, 2007. [8] T. Diallo and N. Novelli. Découverte des dépendances fonctionnelles conditionnelles fréquentes. In 10ièmes Conférence Internationale Francophone sur l’Extraction et la Gestion des Connaissances (EGC’10), RNTI E-19, pages 315–326, 2010. [9] Wenfei Fan, Floris Geerts, Xibei Jia, and Anastasios Kementsietsidis. Conditional functional dependencies for capturing data inconsistencies. ACM Trans. Database Syst., 33(2), 2008. [10] Wenfei Fan, Floris Geerts, Laks V. S. Lakshmanan, and Ming Xiong. Discovering conditional functional dependencies. In Proceedings of the 25th International Conference on Data Engineering, ICDE 2009, March 29 2009 - April 2 2009, Shanghai, China, pages 1231–1234, 2009. [11] Y. Huhtala, J. Karkkainen, P. Porkka, and H. Toivonen. TANE : An Efficient Algorithm for Discovering Functional and Approximate Dependencies. The Computer Journal, 42(2) :100–111, 1999. [12] Y. Huhtala, JCasaliCL03b. Karkkainen, P. Porkka, and H. Toivonen. Efficient Discovery of Functional and Appproximate Dependencies. In Proceedings of the 14th International Conference on Data Engineering (ICDE’98), IEEE Computer Society, pages 392–401, Orlando, US, February 1998. [13] Herve Jegou, Cordelia Schmid, Hedi Harzallah, and Jakob J. Verbeek. Accurate image search using the contextual dissimilarity measure. IEEE Trans. Pattern Anal. Mach. Intell., 32(1) :2–11, 2010. [14] S. Lopes, J.M. Petit, and L. Lakhal. Efficient Discovery of Functional Dependencies and Armstrong Relations. In Proceedings of the International Conference on Extended Database and Technology (EDBT’00), pages 350–364, 2000. BIBLIOGRAPHIE 41 [15] Raoul Medina and Lhouari Nourine. A unified hierarchy for functional dependencies, conditional functional dependencies and association rules. In ICFCA, Lecture Notes in Computer Science, pages 235–248. Springer, 2009. [16] Sébastien Nedjar, Alain Casali, Rosine Cicchetti, and Lotfi Lakhal. Emerging cubes for trends analysis in olap databases. In Il Yeal Song, Johann Eder, and Tho Manh Nguyen, editors, DaWak 2007 – 9th International Conference on Data Warehousing and Knowledge Discovery, volume 4654 of Lecture Notes in Computer Science, pages 135–144. Springer-Verlag, 2007. [17] Sébastien Nedjar, Alain Casali, Rosine Cicchetti, and Lotfi Lakhal. Upper borders for emerging cubes. In Il-Yeol Song, Johann Eder, and Tho Manh Nguyen, editors, DaWak 2008 – 10th International Conference on Data Warehousing and Knowledge Discovery, volume 5182 of Lecture Notes in Computer Science, pages 45–54. Springer-Verlag, 2008. [18] Sébastien Nedjar, Alain Casali, Rosine Cicchetti, and Lotfi Lakhal. Emerging cubes : Borders, size estimations and lossless reductions. Information Systems, 34(6) :536–550, 2009. [19] N. Novelli and R. Cicchetti. Fun : An efficient algorithm for mining functional and embeddeddependencies. In Proceedings of the 8th International Conference on DatabaseTheory (ICDT’01), volume 1973 of Lecture Notes in Comput. Sci., pages 189–203, 2001. [20] N. Novelli and R. Cicchetti. Functional and embedded dependency inference : a data mining pointof view. Information Systems (IS), 26 :477–506, 2001. [21] Chris Stolte, Diane Tang, and Pat Hanrahan. Multiscale visualization using data cubes "infovis 2002 best paper". In 2002 IEEE Symposium on Information Visualization (InfoVis 2002), pages 7–14. IEEE Computer Society, 2002. [22] Chris Stolte, Diane Tang, and Pat Hanrahan. Polaris : A system for query, analysis, and visualization of multidimensional relational databases. IEEE Trans. Vis. Comput. Graph., 8(1) :52–65, 2002. [23] Xindong Wu, Chengqi Zhang, and Shichao Zhang. Efficient mining of both positive and negative association rules. ACM Trans. Inf. Syst., 22(3) :381–405, 2004. 42 BIBLIOGRAPHIE Chapitre 4 Algorithmique, Combinatoire et Recherche Opérationnelle 4.1 4.1.1 Présentation Membres Responsable Victor C HEPOI PU, Université de la Méditerranée Pierre B ONAMI François B RUCKER Nadia C REIGNOU Bertrand E STELLON Karim N OUIOUA Pascal P RÉA Edouard T HIEL Yann VAXÈS CR, CNRS PU, Ecole Centrale de Marseille PU, Université de la Méditerranée MC, Université de la Méditerranée MC, Université de la Méditerranée MC, Ecole Centrale de Marseille PU, Université de la Méditerranée PU, Université de la Méditerranée Régis B ARBANCHON Ian G AMBINI Henri G ARRETA Jean-Luc M ASSAT Michel VAN C ANEGHEM MC, Université de la Méditerranée MC, Université de la Méditerranée MC, Université de la Méditerranée MC, Université de la Méditerranée PU, Université de la Méditerranée Permanents Membres associés Doctorants Nicolas C ATUSSE Hassan H IJAZI Thanh Hai N GUYEN Daniela M AFTULEAC Fabien R EBATEL Johannes S CHMIDT Sébastien I MBROSCIANO 44 4.1.2 CHAPITRE 4. ALGORITHMIQUE, COMBINATOIRE ET RECHERCHE OPÉRATIONNELLE Structuration de l’équipe L’objectif scientifique de l’équipe Algorithmique, Combinatoire et Recherche Opérationnelle (ACRO) est l’étude des propriétés structurelles, de la combinatoire, de la complexité et de l’algorithmique d’objets discrets (graphes, distances, polyèdres, contraintes), ainsi que l’étude de problèmes d’optimisation (continus, combinatoires et en nombres entiers). Notre recherche s’articule autour de quatre thèmes : • Algorithmique ; • Graphes, espaces métriques discrets, géométrie discrète ; • Complexité et aléas discrets ; • Optimisation combinatoire et programmation en nombres entiers. Ces thèmes sont fortement imbriqués, comme l’attestent les collaborations et les nombreuses publications communes des membres de l’équipe. L’objectif principal du thème “Algorithmique” est la conception d’algorithmes efficaces et d’algorithmes à performance garantie pour des problèmes d’optimisation combinatoire, d’algorithmique des graphes, de géométrie algorithmique et de classification. Dans le thème “Graphes, espaces métriques discrets, géométrie discrète” nous souhaitons contribuer à la création de la théorie métrique des graphes, à la théorie et à l’algorithmique des espaces métriques discrets, et enfin, établir des liens entre des structures combinatoires, des complexes simpliciaux ou cubiques et des classes de graphes. L’objectif principal du thème “Complexité et aléas discrets” est l’étude de la complexité (P versus NP) et de la nature des transitions de phase pour différents problèmes de satisfaction de contraintes. Dans le thème “Optimisation combinatoire et programmation en nombres entiers” nous souhaitons concevoir de nouvelles méthodes de génération de coupes et des méthodes locales pour améliorer l’efficacité des solveurs de programmation en nombres entiers et de recherche locale. 4.2 Projet de Recherche Structure des graphes, espaces métriques, et combinatoire : Nous souhaitons continuer notre collaboration avec J. Chalopin (équipe MoVe) et N. Nisse (MASCOTTE, INRIA Sophia) sur la caractérisation par ordre d’élimination de graphes gagnants pour le policier dans différentes versions du jeu "cop ands robber". En particulier, nous souhaitons résoudre les deux questions principales laissées ouvertes dans notre travail récent : (i) Est-ce que les graphes "cop-win" où le voleur a une vitesse supérieure à la vitesse du policier sont hyperboliques et (ii) comment caractériser les graphes "copwin" où le voleur est visible une fois sur k ≥ 2 ? Un autre but (plus ambitieux) sera de√s’attaquer à la conjecture de Meyniel affirmant que, dans un graphe arbitraire avec n sommets, O( n) policiers suffisent toujours pour capturer un voleur. Nous souhaitons continuer nos travaux sur le lien entre les graphes et les complexes cubiques et simpliciaux ayant des propriétés de courbure non-positive combinatoire. Les complexes et les graphes pontés que nous étudions depuis plusieurs années ont été redécouverts récemment par T. Januszkiewicz, J. Swiatkowski, et F. Haglund dans le contexte de la théorie géométrique des groupes sous le nom des complexes systoliques. Avec D. Osajda (U. de Wroclaw) nous avons étudié une généralisation des complexes systoliques. Nous avons donné différentes caractérisations structurelles, graphiques et métriques de ces complexes. Nous avons démontré que ces complexes sont topologiquement contractibles et qu’ils possèdent la propriété du "simplexe fixe". Pour cela, nous avons établi que leurs graphes sous-jacents sont démantelables en utilisant la méthode algorithmique LexBFS. Récemment, cette idée a été reprise par Przytycki et Schultens pour établir une conjecture datant de 1992 affirmant que le complexe de Kakimizu d’un nœud est contractible. Il sera intéressant d’étudier la démantelabilité d’autres objets combinatoires issus de structures mathématiques. Nous souhaitons généraliser nos résultats avec D. Osajda pour avoir une structure combinatoire qui généralise à la fois les propriétés des complexes systoliques et celles des complexes de Helly. Un autre travail, cette fois en collaboration avec B. Brešar et M. Kovše de U. de Maribor (projet PROTEUS 2010-2011), consistera à donner une caractérisation locale de tous les graphes obtenus à partir des graphes des complexes systoliques en utilisant les opérations de produit Cartésien et d’amalgame. 4.2. PROJET DE RECHERCHE 45 Un autre objectif important (qui fait partie du projet ANR TEOMATRO) sera d’étendre notre caractérisation des graphes des bases de matroïdes et de ∆-matroïdes aux graphes des bases de matroïdes de Coxeter. Nous envisageons aussi d’effectuer une étude fine des propriétés des graphes des bases de matroïdes classiques et de leur généralisation. En particulier, nous souhaitons déterminer si pour chaque paire de bases il existe une paire de plus courts chemins opposés l’un à l’autre dans le graphe des bases. Dans un travail récent en collaboration avec H.-J. Bandelt (U. de Hambourg) et D. Eppstein (U. de Californie) nous avons caractérisé de façon combinatoire les graphes et les complexes rectangulaires qui sont isométriquement plongeables dans le produit Cartésien de deux dendrons ; nous avons montré que ceux-ci sont des complexes et des graphes médians particuliers. Dans la suite de ce travail, nous envisageons d’étendre cette caractérisation à tout espace métrique convexe. Nous souhaitons aussi étudier l’hyperconvexité de ces espaces. Une autre perspective intéressante de ce travail consisterait à établir qu’il existe une fonction f telle que chaque graphe médian (ou chaque graphe médian sans cube) de degré maximum ∆ peut être plongé isométriquement dans le produit Cartésien d’au plus f (∆) arbres. Cette question a été formulée de façon indépendante par plusieurs chercheurs travaillant dans différents domaines. Algorithmes d’approximation : Une des approches algorithmiques pour résoudre des problèmes NP-difficiles d’optimisation combinatoire consiste à concevoir et à analyser des algorithmes d’approximation. Dans le cadre de ce thème, nous proposons de concevoir des algorithmes d’approximation avec un facteur constant c (on va parler dans ce cas de c-approximabilité) pour plusieurs problèmes de construction de réseaux géométriques et d’approximation de distances qui se posent dans différents domaines tels que la conception de réseaux, les systèmes distribués, la fouille et l’analyse de données, la recherche opérationnelle et l’optimisation combinatoire. En utilisant nos compétences dans ce domaine, nous envisageons de concevoir un algorithme d’approximation avec un facteur 1.5 pour le problème du réseau de Manhattan minimum dans le plan rectilinéaire ainsi qu’un algorithme d’approximation avec un facteur 2 pour le problème du réseau de Manhattan minimum dans le plan avec une norme polygonale quelconque (très récemment nous avons réussi à décrire un algorithme avec un facteur 2.5). Un autre objectif important sera la conception d’un algorithme d’approximation avec un facteur constant pour le problème de Manhattan F -restreint ainsi que pour le problème de réseaux de Manhattan dans l’espace rectilinéaire 3-dimensionnel. Un but ambitieux serait de découvrir un algorithme d’approximation avec un facteur constant pour le problème de "minimum stabbing box" introduit récemment par Demaine et al. (SODA 2009) en lien avec la "splay trees conjecture" et qui à première vue a des points communs avec le problème des réseaux de Manhattan. Un autre problème NP-difficile sur lequel nous souhaitons travailler est celui de la couverture optimale d’un graphe par un nombre minimum de boules. Ce problème est équivalent au problème de couverture d’ensemble, il n’est donc pas c-approximable dans le cas général. Nous envisageons de concevoir des algorithmes d’approximation avec un facteur constant pour ce problème dans le cas de graphes géométriques, comme les graphes planaires ou les graphes de visibilité de terrains 1.5dimensionnels. Un de nos challenges serait d’établir que, dans le cas de ces graphes géométriques, le rapport entre la cardinalité d’une couverture et celle d’un packing est borné par une constante. Nous envisageons d’obtenir des résultats algorithmiques de même nature pour le problème de couverture par des boules et leurs différences symétriques (cette formulation apparaît dans le problème des codes identifiants) dans des classes de graphes comme les arbres et les graphes δ-hyperboliques. Finalement, dans le cadre du projet ANR GGAA, nous souhaitons continuer nos travaux de recherche sur l’approximation de la distorsion additive ou multiplicative du plongement d’un métrique donnée dans une classe de métriques spécifiques. Ces dernières années, nous avons obtenu un algorithme d’approximation avec un facteur constant pour le calcul de la distorsion additive d’une métrique quelconque dans une métrique Robinsonienne et nous avons réussi à améliorer de façon substantielle le facteur d’approximation pour la distorsion multiplicative d’une métrique de graphe dans une distance d’arbre. Une des questions prometteuses (que nous envisageons de traiter en collaboration avec F. Dragan (U. de Kent), I. Newman, et Y. Rabinovich (U. de Haifa)) est d’étendre ce dernier résultat aux métriques sans mineurs interdits comme K2,3 , K2,r , ou K4 (et de façon plus 46 CHAPITRE 4. ALGORITHMIQUE, COMBINATOIRE ET RECHERCHE OPÉRATIONNELLE ambitieuse K3,3 ). Un autre but ambitieux serait de trouver des algorithmes d’approximation avec un facteur constant ou logarithmique pour le problème de l’approximation de la distorsion multiplicative du plongement d’une métrique quelconque dans une métrique d’arbre ou une métrique Robinsonienne. Géométrie algorithmique et discrète : Plusieurs problèmes algorithmiques liés aux distances sont de nature géométrique et peuvent être traités avec des outils et des méthodes issus de la géométrie algorithmique. Très récemment, nous avons décrit un algorithme géométrique optimal pour reconnaitre si un espace métrique sur n point est isométriquement plongeable dans le plan rectilinéaire. Nous souhaitons étendre ce résultat à tout plan normé avec une boule polygonale et établir également dans ce cas, un théorème de compacité de type Menger. Nous souhaitons aussi étendre nos résultats structurels et algorithmiques sur les enveloppes de Pareto en norme l1 et l∞ aux espaces discrets et aux graphes. Une autre question, sur laquelle nous envisageons de continuer à travailler, consiste à trouver des spanners de faibles coûts pour construire une approximation des réseaux de communication sans-fil par des réseaux planaires ayant de bonnes propriétés de distances. En particulier, nous souhaitons construire des spanners planaires pour les Unit Disc Graphs, les utiliser pour le routage et étendre ces constructions au cadre dynamique. Une autre problématique prometteuse où les méthodes de la géométrie algorithmique sont indispensables est l’algorithmique des espaces métriques CAT(0) (des espaces à courbure globale nonpositive), et, en particulier, des complexes polygonaux et polyédraux CAT(0). Ces espaces métriques possèdent un éventail très riche de propriétés et d’applications. Ils représentent une généralisation de grande envergure à la fois des espaces Euclidiens et des espaces hyperboliques. Une des propriétés caractéristiques de ces espaces, qui les rend intéressant du point de vue algorithmique, est l’unicité du plus court chemin entre deux points. Nous avons l’intention de concevoir des algorithmes efficaces pour plusieurs problèmes algorithmiques dans des complexes polygonaux (en particulièr, des complexes polygonaux planaires) et polyédraux CAT(0) : le calcul de plus court chemin entre deux points, le calcul de l’enveloppe convexe et du diagramme de Voronoï d’un ensemble de points, le centre, le diamètre, le barycentre, et le médian. Dans le domaine de la géométrie discrète, nous souhaitons mener une étude des propriétés métriques, géométriques et arithmétiques des distances de chanfrein pour créer une "géométrie des distances de chanfrein" comparable à la géométrie Euclidienne dans l’espace continu. Nous souhaitons étudier les propriétés et les algorithmes de calcul des bases métriques des formes discrètes munies d’une distance de chanfrein. Nous proposons aussi d’étudier les propriétés des bissecteurs pour les distances de chanfrein et de les utiliser pour donner un nouvel algorithme de calcul de transformée de distance. Coté logiciel, nous souhaitons intégrer dans notre librairie de manipulation d’images bitmap en dimension 2 à 6 Npic des fonctionnalités nouvelles, en particulier sur les algorithmes séparables en dimension, et prendre en compte le format d’image bio-médicales NIfTI pour de futures collaborations. Complexité et aléas discrets : En étudiant la complexité des problèmes de satisfaction de contraintes booléennes nous nous sommes familiarisés avec deux cadres d’étude importants pour les formules propositionnelles : celui de Post et celui de Schaefer. Dans le premier on considère des formules dont on limite les connecteurs logiques possibles à un ensemble fixé, dans le second des formules sous forme normale généralisée. Les deux cadres permettent de paramétrer des problèmes mettant en jeu des formules propositionnelles. Dans ce contexte nous souhaitons étudier la complexité de divers problèmes issus de la logique non-monotone, tels l’abduction, la logique auto-épistémique, l’argumentation. Ces problèmes sont en général très difficiles (au deuxième niveau de la hiérarchie polynomiale). Il est alors naturel et intéressant d’une part d’identifier des fragments plus faciles et d’autre part de mieux comprendre les sources de difficulté. C’est ce que devrait permettre une étude systématique de la complexité de ces problèmes dans les deux cadres mentionnés ci-dessus. Ce travail soulève des questions naturelles liées à l’énumération et fournira une continuation naturelle à la réflexion entamée avec Frédéric Olive (équipe Move) dans le cadre de l’ANR ENUM. Nous avons réalisé en collaboration avec Hervé Daudé du LATP une étude des transitions de phase pour les problèmes de satisfaction de contraintes booléennes. Deux extensions naturelles se présentent : considérer des formules quantifiées, examiner des problèmes de satisfaction de contraintes 4.2. PROJET DE RECHERCHE 47 sur des domaines finis non booléens. Ces deux axes posent de nouveaux défis combinatoires que nous souhaitons tenter de relever dans la cadre de l’ANR BOOLE. Flots à délai borné : Les problèmes d’optimisation liés aux calculs de routages dans des réseaux de communications sont généralement modélisés grâce à la notion classique de flot ou de multiflot dans un graphe. Cependant, ces notions ne permettent pas de prendre en compte le délai d’acheminement des messages à travers le réseau. Le problème consistant à calculer un flot (fractionnaire) maximum respectant la contrainte de délai est déjà NP-difficile lorsque le délai de chaque arête est constant (mais non uniforme). Cependant, dans ce cas, les algorithmes d’approximation développées dans les années 90 pour le problème de multiflot et de packing fractionnaire permettent de calculer efficacement une solution dont la qualité est garantie. Au contraire, lorsque le délai pour traverser une liaison dépend du taux de congestion de celle-ci, le problème devient beaucoup plus difficile à résoudre ou à approximer. Nous souhaitons concevoir des heuristiques efficaces capables de calculer en un temps raisonnable de bonnes solutions pour des instances de tailles réelles. Nous pensons aussi étudier des variantes avec délais d’autres problèmes classiques d’optimisation de réseaux comme le dimensionnement. Ce projet est mené en collaboration avec nos partenaires d’Orange Labs à Issy-les-Moulineaux et Sophia-Antipolis. Optimisation combinatoire et programmation en nombres entiers : Nous voulons continuer à développer nos travaux dans deux axes principaux : les approches polyédrales pour les programmes linéaires en nombres entiers et les approches exactes pour les programmes non-linéaires en nombres entiers. Dans le premier axe, nos travaux se placent dans la continuité des avancées réalisées au cours des 15 dernières années dans l’utilisation des coupes suite aux travaux pionniers de Balas, Ceria et Cornuéjols sur les coupes de lift-and-project et de Gomory. L’état de l’art (tel qu’implémenté dans les solveurs actuels) est d’utiliser des coupes de Gomory chacune directement calculée à partir d’une ligne du tableau du simplexe optimal de la relaxation continue. Différentes pistes pour améliorer cet état ont été étudiées au cours des dernières années. En particulier, nous nous intéressons à trois approches, pivoter vers d’autres bases de la relaxation continue pour obtenir de meilleures coupes (algorithmes de "lift-and-project" de Balas et Perregaard), utiliser simultanément plusieurs lignes du tableau, calculer les fermetures élémentaires. Dans les années qui viennent, nous nous proposons de continuer à développer ces trois approches pour essayer de contribuer à répondre aux questions suivantes : peut on approximer efficacement la fermeture des splits ? Peut on améliorer la fermeture du lift-and-project ou des splits de manière substantielle en utilisant des coupes de rang supérieur ou calculées à partir de plusieurs lignes du tableau ? Dans le second axe, nous avons activement participé au travers de diverses collaborations (Carnegie Mellon, IBM, U. de Bologne) à la mise au point du solveur open-source Bonmin. Nous souhaitons, en prolongeant ces collaborations, développer des méthodes d’inégalités valides pour le cas non-linéaire. Un cas que nous souhaitons étudier en particulier est celui où les solutions réalisables sont les points entiers contenus dans une région convexe. A ce jour, si des possibilités théoriques et des cas particuliers ont été étudiés, aucune méthode n’est réellement praticable pour le cas général. Nous comptons nous appuyer sur notre expertise du cas linéaire pour développer des méthodes qui pourront être testées au travers du solveur Bonmin. Enfin nous souhaitons continuer à nous intéresser à diverses applications : flots à délais borné (collaboration avec Orange Labs voir ci-dessus), conception de réseaux en anneaux (collaboration avec le LIP6), problèmes de contrôle optimal avec contraintes entières (collaboration avec U. Rey Juan Carlos, Madrid). Algorithmes et combinatoire pour la classification : Jusqu’à récemment, les méthodes de classification visaient à séparer parfaitement (en partitionnant, voire en hiérarchisant) les données. Cependant des domaines comme la phylogénie, la sériation ou la fouille de données visent moins à discriminer qu’à établir les relations qui lient les objets entre eux et nécessitent par là de nouveaux modèles ainsi que des algorithmes efficaces pour les produire à partir de données réelles. Notre projet s’articule en trois points : Modèles. Nous pensons étendre les modèles relationnels classiques que sont les arbres et les hyperarbres à des types variés de données (dissimilarités, relations n-aires, treillis, . . .) et étudier leurs structures. 48 CHAPITRE 4. ALGORITHMIQUE, COMBINATOIRE ET RECHERCHE OPÉRATIONNELLE Méthodes. Les théorèmes de bijection de la partie précédente permettent de transformer le problème initial de classification en un problème d’optimisation. Nous étudierons la complexité de ces problèmes et essayerons de proposer des algorithmes optimaux ou heuristiques pour les résoudre. Applications. Ce projet étant motivé par des besoins en analyse des données, nous proposerons un logiciel implémentant ces différents algorithmes ainsi qu’une représentation graphique des classes obtenues pour permettre une utilisation pratique aisée de ces modèles. Pour cela, nous utiliserons des travaux antérieurs sur des modèles plus contraints (hypergraphes d’intervalles et dissimilarités de Robinson), plus généraux (treillis faiblement hiérarchique ou dissimilarités binaires) ou liés à des applications particulières (génération de langage naturel, recherche d’éléments centraux en sociologie). Recherche locale : Les techniques de recherche locale permettent d’aborder des problèmes NPdifficiles d’optimisation combinatoire. Elles consistent à appliquer de façon itérative des transformations locales à une solution dans le but de l’améliorer. Il est constaté en pratique que ces techniques fournissent des solutions de qualité dans des temps d’exécution de l’ordre de la minute. Toutefois, la conception et l’implémentation d’algorithmes de recherche locale performants n’est pas facile. En effet, nous avons pu constater lors de nos précédentes participations au challenge ROADEF qu’il est indispensable de mettre en place des structures de données complexes afin d’évaluer efficacement et de façon incrémentale les conséquences des transformations. Plusieurs logiciels d’optimisation basés sur la recherche locale ont vu le jour ces dernières années. Toutefois, la plupart de ces logiciels ne proposent pas de fonctionnalités facilitant l’évaluation des transformations, qui reste à la charge de l’utilisateur. Nous avons commencé, il y a deux ans, une collaboration avec nos partenaires F. Gardi et T. Benoist du Bouygues e-lab. Nous souhaitons définir un formalisme déclaratif simple et générique pour modéliser un problème et le résoudre automatiquement par recherche locale. Nous avons sorti récemment une première version de notre solveur LocalSolver qui permet de traiter une classe restreinte, mais néanmoins importante, des problèmes d’optimisation combinatoire : les problèmes de partitioning, packing, covering. Ce logiciel, disponible sous licence BSD, peut être téléchargé gratuitement sur le site du LIF ou du Bouygues e-lab. Il est utilisé pour résoudre des problèmes opérationnels d’optimisation combinatoire dans le Groupe Bouygues et dans l’enseignement de recherche opérationnelle au Département d’Informatique de Luminy. Nous travaillons actuellement sur l’intégration dans LocalSolver de fonctionnalités nouvelles, comme la gestion des ensembles et des tableaux, afin d’aborder les problèmes d’ordonnancements. Logiciels : Nous pensons poursuivre le développement et la diffusion des trois logiciels Bonmin, LocalSolver, Npic mentionnés ci-dessus et initier un nouveau projet intitulé Distancia qui consistera à développer des implémentations efficaces des principaux algorithmes du domaine de la géométrie et de l’algorithmique des distances (réduction de dimension, plongement isométrique ou à faible distortion, algorithmes de reconnaissance, spanner, ...) A notre connaissance, il n’existe aucune bibliothèque regroupant de tels algorithmes alors que les applications potentielles sont multiples. 4.3 Auto-évaluation Points forts : La pertinence, l’originalité des recherches et la qualité des résultats obtenus par les membres de notre équipe sont attestées par le nombre d’articles publiés dans des revues et actes de conférences internationales de tout premier plan. La plupart de ces publications sont le résultat de collaborations entre plusieurs membres de l’équipe ACRO ou avec des chercheurs d’autres grands centres universitaires à l’étranger et en France. Ces collaborations ainsi que notre participation à des projets nationaux et internationaux témoignent de la très bonne visibilité dont bénéficie notre équipe. Un autre point fort de nos activités est le caractère pluridisciplinaire de notre recherche qui se situe à l’intersection entre l’informatique théorique, les mathématiques discrètes, la classification, la géométrie discrète et la recherche opérationnelle. 4.3. AUTO-ÉVALUATION 49 Points à améliorer : Le nombre de doctorants de l’équipe est un point auquel nous sommes particulièrement attentifs. Dans la période 2006-2010, un nombre raisonnable de doctorants (12) ont soutenu ou commencé leur thèse. Nous espérons pouvoir augmenter ce nombre dans les années qui viennent. Par ailleurs, nous avons observé à quel point l’arrivée d’un chargé de recherche CNRS a été bénéfique pour le thème optimisation combinatoire. Nous allons faire tout notre possible pour que d’autres thématiques puissent bénéficier d’une telle opportunité. Nous espérons aussi pouvoir favoriser la reprise d’activités de recherche d’enseignants chercheurs "non-publiants" de l’équipe. Un des moyens que nous envisageons pour atteindre ce but consiste à développer une recherche plus expérimentale dans le domaine de la recherche opérationnelle. Opportunités : Plusieurs collaborations sont en cours avec des membres de l’équipe MoVe autour de problèmes algorithmiques et combinatoires liés aux systèmes distribués. Ces collaborations sont déjà concrétisées par plusieurs articles communs. Ce rapprochement fructueux nous semble particulièrement prometteur et nous pensons mettre à profit les échanges de compétences entre nos deux équipes pour développer ce thème dans les années à venir. Cette thématique est aussi une spécialité du projet Mascotte de l’INRIA avec lequel nous avons aussi des collaborations que nous pensons développer. La diversité des thèmes présents au sein de notre équipe nous donne l’opportunité de développer de nouveaux axes de recherche dans les années à venir. Par exemple, certains projets de la thématique "Complexité et aléas discrets" la rapproche du domaine de l’Intelligence Artificielle. Nos travaux en programmation non-linéaire en nombres entiers nous ouvrent vers de nouveaux champs d’applications pour la recherche opérationnelle par exemple en chimie, en finances, en contrôle. De la même façon, la nature métrique et combinatoire des problèmes rencontrées dans le domaine de l’algorithmique distribuée nous ouvre également de belles perspectives de développement dans cette direction ... Actuellement nous avons des collaborations attestées par des publications avec des mathématiciens de différentes universités en France et à l’étranger. En effet, comme nous l’avons déjà noté, nos recherches se situent à l’interface entre les mathématiques et l’informatique. En particulier, nos recherches axées sur l’algorithmique, la complexité, l’optimisation, les espaces métriques, les graphes (et plus généralement les structures combinatoires) trouveront naturellement leur place au sein d’un institut math-info. Certains de ces axes traversent plusieurs équipes de notre laboratoire et pourront constituer le point de départ de nouvelles collaborations avec d’autres équipes du LIF. Finallement, l’intelligence artificielle et la recherche opérationnelle pourront servir de points de rapprochement avec l’équipe INCA du LSIS. Risques : L’équipe ACRO est constituée presque exclusivement d’enseignant-chercheurs qui en plus de leur charge d’enseignement assurent de nombreuses charges administratives et qui sont très impliqués dans le fonctionnement de l’université et l’organisation des enseignements d’informatique en particulier. A terme, la multiplication de ces charges combinée à la faiblesse du nombre de chercheurs permanents pourrait nuire à la production scientifique de l’équipe. 50 CHAPITRE 4. ALGORITHMIQUE, COMBINATOIRE ET RECHERCHE OPÉRATIONNELLE Chapitre 5 Modélisation et Vérification 5.1 5.1.1 Présentation Membres Permanents Responsable Denis L UGIEZ Permanents Nicolas B AUDRU Clara B ERTOLISSI Jérémie C HALOPIN Solange C OUPET-G RIMAL Séverine F RATANI Emmanuel G ODARD Rémi M ORIN Peter N IEBERT Frédéric O LIVE Pierre-Alain R EYNIER Luigi S ANTOCANALE Karl S CHLECHTA Camilla S CHWIND Jean-Marc TALBOT Postdoctorants Shantanu D AS Stéphane M ARTIN Doctorants Florent Avellaneda Julien F ERTÉ Rémy J AUBERT Janusz M ALINOWSKI PU, Université de Provence MdC, Université de la Méditerranée MdC, Université de Provence CR, CNRS MdC, Université de Provence MdC, Université de Provence MdC, Université de Provence PU, Université de la Méditerranée MdC, Université de Provence MdC, Université de Provence MdC, Université de Provence PU, Université de Provence PU, Université de Provence CR, CNRS PU, Université de Provence Postdoctorant Université de Provence (jan. 2010 -) ATER Université de la Méditerranée Université de Provence Université de Provence Université de Provence Les départs à la retraite de Karl S CHLECHTA et Camilla S CHWIND sont prévus en 2012-2013 et ces deux chercheurs sont hébergés par l’équipe MoVe pendant les quelques mois précédant leur départ, compte tenu de l’émergence d’un sous-thème logique dans cette équipe. 5.1.2 Structuration de l’équipe L’informatique a vécu une évolution profonde ces dernières années : elle est devenue décentralisée et ubiquitaire. Le concept de système distribué est donc fondamental tant pour les applications 52 CHAPITRE 5. MODÉLISATION ET VÉRIFICATION pratiques que pour les fondements théoriques de la discipline. La conception d’applications correctes et sûres dans ce cadre est particulièrement difficile. La recherche de l’équipe MoVe est motivée par ce problème et elle a accumulé une grande expertise dans la modélisation de ces systèmes, l’élaboration d’algorithmes adaptés à ce contexte, et les outils de vérification correspondants. L’objectif est de faire progresser les concepts fondamentaux mais également de développer des outils logiciels permettant de tester nos approches. Les applications pratiques permettent de susciter de nouveaux problèmes et de vérifier la validité de nos méthodes. Pour mieux identifier la recherche de l’équipe, trois axes ont été définis avec un responsable scientifique pour animer chaque axe. Certains de ces axes pourront être les précurseurs d’équipes à part entière, selon la politique du laboratoire et les opportunités de recrutement qui se présenteront. Thème Vérification. Participants : Florent Avellaneda, Nicolas B AUDRU , Clara B ERTOLISSI , Solange C OUPET-G RIMAL , Julien F ERTÉ, Rémy J AUBERT, Denis L UGIEZ, Janusz M ALINOWSKI, Rémi M ORIN (responsable), Peter N IEBERT, Pierre-Alain R EYNIER, Jean-Marc TALBOT. La vérification automatique ou semi-automatique d’applications est le thème historique de l’équipe et il possède une large reconnaissance aux niveaux national et international. Au cours du prochain quadriennal, nos intérêts vont évoluer vers les défis actuels qui concernent des formalismes adaptés aux nouvelles utilisations de l’informatique. De plus, le développement logiciel original sur les ordres partiels vient d’atteindre un stade diffusable, et les retours d’usagers devraient susciter de nouvelles recherches. Enfin, plusieurs collaborations industrielles ont récemment démarré, et un accent sera donné dans ce sens. Naturellement, de nombreux travaux réalisés en vérification susciteront des interactions avec les deux autres sous-thèmes. Thème Algorithmique distribuée. Participants : Jérémie C HALOPIN (responsable), Shantanu D AS , Emmanuel G ODARD . Cet axe sera renforcé par le recrutement d’un MCF à l’Université de Provence en octobre 2010. L’algorithmique distribuée est devenue un axe de recherche important de l’équipe qui s’intéresse aux problèmes classiques (élection, terminaison, rendez-vous, . . . ) mais en considérant des modèles liés à des usages nouveaux des systèmes distribués. Cette thématique est déjà reconnue nationalement et internationalement (collaborations très actives, invitations de chercheurs, participations et organisations de conférences). Elle sera d’autant plus encouragée qu’elle permet des collaborations entre équipes du laboratoires. Thème Logique. Participants : Séverine F RATANI , Frédéric O LIVE , Luigi S ANTOCANALE (responsable), Karl S CHLECH TA , Camilla S CHWIND . La logique est un outil fondamental en vérification pour exprimer des propriétés des systèmes étudiés. De nombreux travaux de l’équipe concernent des propriétés des logiques utilisées dans le domaine en lien avec des questions précises de vérification. Cela a conduit à s’intéresser à la logique pour elle-même (complexité, expressivité, sémantique,. . . ). La mise en place d’un axe de recherche autour de ce thème permettra de fédérer ces travaux et de les rendre plus visibles. Cela devrait permettre aussi de favoriser les collaborations avec le LSIS et l’IML et d’identifier Marseille comme un centre de logique international de tout premier plan en particulier via le projet de fédération Mathématiques et Informatique. 5.2 5.2.1 Projet de Recherche Vérification La vérification est le thème le plus représenté au sein de l’équipe. Au cours du prochain quadriennal, nous souhaitons développer prioritairement les thèmes décrits ci-dessous qui sont sus- 5.2. PROJET DE RECHERCHE 53 cités par des problématiques de systèmes embarqués, de mobilité, et de sécurité, nourries par les nouveaux usages de l’informatique. Dans ce contexte, nous allons développer les fondements théoriques nécessaires à la vérification de ces nouvelles applications. Nos travaux seront valorisés par des développements logiciels au sein de l’équipe et validés par des partenariats industriels. Extension de formalismes pour la modélisation et l’analyse de perturbations. Le model checking pour les modèles à états finis est bien connu et les défis actuels concernent son extension à des modèles plus proches des systèmes réels. Dans ce contexte, nous étudierons la prise en compte de perturbations (perte de messages, erreurs numériques, composants défaillants) et d’aspects quantitatifs. Ce thème de recherche s’inscrit dans le projet ANR ECSPER. Nos travaux s’appuieront sur notre expertise en matière de langages d’ordres partiels et de systèmes temporisés. Systèmes distribués mobiles. Nous souhaitons ajouter de la mobilité aux modèles distribués existants pour aborder les problématiques de sécurité et sûreté soulevées par l’émergence d’une utilisation de plus en plus nomade des systèmes informatiques. Ces modèles plus complexes suscitent de plus en plus d’intérêts dans les communautés scientifiques et industrielles. Cette recherche s’effectuera en partenariat avec le groupe de recherche eRISCS (Université de la Méditerranée). Partenariats industriels : travaux menés au sein du projet NODEFECT, labellisé par le pôle SCS. Robustesse des automates temporisés. La sémantique idéalisée des automates temporisés est incompatible avec la nature numérique et imprécise des plateformes d’implémentation. Des travaux récents étudient une sémantique alternative permettant de garantir l’implémentabilité et possédant d’excellentes propriétés théoriques. Nous souhaitons étendre cette sémantique au cadre du contrôle et développer des méthodes algorithmiques permettant de quantifier la robustesse du système. Synthèse de contrôleurs modulaires pour les systèmes hybrides. L’objectif est d’utiliser des techniques d’abstraction pour effectuer la synthèse de contrôleurs. L’originalité de notre travail réside dans la prise en compte d’équations différentielles quelconques et dans une structure en cascade du contrôleur. Dans ce contexte, les dynamiques réelles du système (capteurs bruités, phénomènes physiques non modélisés) ne pouvant être évaluées de manière exacte, on utilise des sur-approximations non déterministes qui permettent en outre de rendre l’analyse accessible. Partenariats industriels : coopération avec Novadem dans le cadre du pôle de compétitivité PEGASE. Synthèse de systèmes à partir de spécifications MSCs. Les Message Sequence Charts (MSC, norme Z.120 de l’ITU) constituent un formalisme standardisé proche des diagrammes de message UML, largement utilisé pour la spécification de protocoles de télécommunications. La vérification de spécifications basées sur les MSCs permet de détecter rapidement les erreurs de conceptions. Un cas particulier consiste à caractériser quelles spécifications régulières basées sur des MSCs sont effectivement implémentables, préférablement sans blocage, puis à les synthétiser. Nous avons déjà obtenu plusieurs résultats intéressants dans ce contexte et souhaitons compléter nos travaux au problème de la synthèse de systèmes non-ambigus sûrs, et étendre nos résultats à des spécifications non régulières avec divergence de canaux. Algorithmique et réalisations logicielles. Algorithmique. Nous poursuivrons nos travaux pour rendre les algorithmes de model checking et de synthèse de contrôleur plus efficaces. L’explosion combinatoire reste l’obstacle principal des algorithmes génériques, or selon le domaine d’application, on peut obtenir des réductions importantes par des réductions structurelles (en analogie avec des réductions d’ordres partiels), des approches modulaires (qu’on explorera notamment pour la synthèse) et par la parallélisation. Futur de l’outil POEM (Partial Order Environment of Marseille). La base du code de POEM sera développée pour intégrer ces nouveaux algorithmes. La modularité de POEM permet la publication d’une partie de l’outil en open source et nous inciterons d’autres équipes à utiliser cette plate forme pour leurs propres développements. Il est également prévu d’intégrer tout algorithme conçu dans l’équipe MoVe et compatible avec la sémantique de base dans POEM, notamment les algorithmes pour les formalismes avec perturbations. Enfin, le GUI va connaître des améliorations pour donner un accès convivial aux nouvelles fonctionnalités. 54 CHAPITRE 5. MODÉLISATION ET VÉRIFICATION MSCs. Basé sur le code du prototype AMSC, un analyseur de Message Sequence Charts (MSC) sera intégré dans POEM, dévéloppement favorisé par la présence des notions d’ordres partiels dans le noyau actuel. Les analyses proposées concerneront notamment la divergence des canaux, c’est-àdire la possibilité d’un accroissement illimité du nombre de messages en transit. Etude de modèles structurés. Transformations XML. XML est devenu un standard dans l’échange de données sur le Web et une des tâches fondamentales est la transformation de documents XML. Pour certaines bases de données, la taille très importante des documents rend impossible le stockage du document et nécessite un traitement en “streaming”. Nous souhaitons étudier et caractériser les transformations effectivement réalisables en streaming. Pour cela, nous voulons d’une part travailler sur le modèle des visibly pushdown transducers, et nous intéresser au problème de la séquentialité. D’autre part, nous voulons définir un langage de spécification de transformations sous la forme d’une logique, et nous intéresser au problème de la synthèse. Modélisation et vérification de contrôle d’accès. Actuellement, nous travaillons sur la définition algébrique d’un meta-modèle pour les politiques de contrôle d’accès (telles que RBAC, MAC, DAC, DEBAC, etc). L’objectif est d’identifier un cadre uniforme basé sur des caractéristiques globales communes à ces politiques, par exemple la catégorisation des ressources et des groupes d’utilisateurs, et l’attribution de permissions à ces groupes. Nous souhaitons ensuite étendre notre meta-modèle à un cadre distribué en incorporant la notion de site et en étudiant des méthodes d’évaluation distribuées pour les requêtes d’accès. Nous souhaitons également implémenter des instances du meta-modèle pour tester son efficacité. 5.2.2 Algorithmique distribuée Dans ce thème, nous souhaitons étudier la puissance de calcul de différents modèles distribués. On souhaite non seulement déterminer ce qui est calculable de manière distribuée dans un modèle donné, mais également étudier la complexité des problèmes considérés, i.e., on cherche à obtenir des algorithmes distribués efficaces (que l’on considère leur temps d’exécution, ou la quantité d’information échangée entre les processus). Pour cela, l’étude de problèmes classiques permet généralement de développer les outils combinatoires et algorithmiques qu’on peut ensuite utiliser pour déterminer ce qui est calculable dans un modèle donné (cette démarche s’est avérée fructueuse par le passé dans l’étude des systèmes anonymes où les processus communiquent par échanges de messages). Au cours du prochain quadriennal, nous souhaitons étudier prioritairement les thèmes décrits ci-dessous qui sont liés à la mobilité et à la sécurité. Ces problématiques devraient soulever des questions liées à la théorie des graphes, à la théorie des jeux et aux problèmes de synthèse de systèmes distribués. Pour traiter ces questions, nous souhaitons continuer nos collaborations (locales, nationales et internationales) avec des experts de ces domaines. Systèmes à agents mobiles. Dans un système à agents mobiles, des agents sont dispersés sur un réseau et sont en charge de réaliser une tâche distribuée comme par exemple, explorer le réseau, collecter des informations disséminées dans le réseau, ou cartographier le réseau. On considère des modèles où les agents ont une vue locale du système et les moyens de communication mis à leur disposition sont limités. De tels systèmes offrent un nouveau point de vue sur les systèmes distribués et ont été l’objet de nombreux travaux récents. On cherche à étudier les puissances de calcul respectives de ces différents modèles et à établir une hiérarchie entre eux. De nombreux paramètres peuvent varier d’un modèle à l’autre : le système peut être synchrone ou asynchrone, les agents peuvent avoir des identifiants ou non, la mémoire des agents peut être bornée ou non, etc. Pour étudier la puissance de calcul de ces modèles, on se concentre sur quelques problèmes classiques qui permettent de mesurer les différences entre les modèles : l’exploration, le rendez-vous, la cartographie . . . Dans de nombreux modèles, on suppose que le réseau est modélisé par un graphe quelconque. Nous souhaitons également étudier ces modèles lorsque l’environnement dans lequel les agents évo- 5.2. PROJET DE RECHERCHE 55 luent provient d’un espace géométrique : on peut par exemple supposer que les robots évoluent dans le plan euclidien, ou bien dans un polygone. Ces approches sont motivés par le développement de robots pour explorer ou nettoyer des espaces dangereux et/ou inaccesibles pour des êtres humains. L’étude de tels systèmes nécessite non-seulement une expertise en algorithmique distribuée, mais aussi une bonne compréhension des propriétés combinatoires et géométriques des espaces sousjacents. Sur ces questions, nous envisageons de collaborer avec l’équipe CRO dont certains membres sont experts en géométrie algorithmique et dans l’étude des espaces métriques. D’autres problématiques liées aux systèmes à agents mobiles concernent la sécurité. En particulier, on souhaite déterminer ce qu’on peut calculer dans des systèmes où certains noeuds sont défaillants (trous noirs). On souhaite également étudier les problèmes de la capture d’agent malicieux et du nettoyage de réseaux contaminés ; ces problématiques sont proches des jeux de gendarmes et de voleurs qu’on étudie déjà avec des membres de l’équipe CRO. Modélisation des Réseaux Dynamiques. Après avoir contribué à l’étude des réseaux dont la topologie peut varier de manière transitoire, nous souhaitons étudier les réseaux dont la topologie sous-jacente peut évoluer au cours du temps, par exemple de manière périodique. Il s’agit d’un tout nouveau champ de recherche en algorithmique distribuée. Il n’existe pas encore de description unanimement acceptée de tels systèmes. Dans un premier temps, nous souhaitons étudier l’expressivité d’outils classiques utilisés pour décrire l’évolution temporelle de certains systèmes (comme les automates temporisés) dans un tel cadre. Cette étude s’appuiera sur les compétences des membres d’autres thématiques de l’équipe concernant ces outils. Nous aborderons ensuite la recherche d’algorithmes pour des problèmes classiques de diffusion d’information, ainsi que pour des systèmes à agents mobiles. 5.2.3 Logique, automates et combinatoire Cet axe de recherche a comme ambition de fédérer des thématiques attenantes à la logique, traitées dans l’équipe de manière trop éparse pour être visibles de l’extérieur. Cette proposition s’accompagne d’une démarche de valorisation des recherches logiques qui se font au LIF et d’une redéfinition du rôle de la logique dans le laboratoire. Les perspectives de développements scientifiques à Marseille (unification des trois universités, création d’un institut Mathématiques-Informatique) rendent cette démarche d’autant plus opportune. Parmi les thèmes que nous souhaitons aborder, ceux décrits ci-dessous tirent leur origine des recherches sur la vérification des systèmes informatiques et sont représentatifs de nos intérêts. Nous souhaitons nous focaliser sur ces questions en se concentrant sur les problèmes fondamentaux d’expressivité et sémantique plus que sur les aspects algorithmiques plus classiques. Complexité descriptive. Cette intitulé recouvre une diversité de problématiques. Il renvoie d’abord à l’étude des caractérisations logiques de classes de complexité. Comme l’illustre le résultat fondateur de Fagin, qui identifie les problèmes NP aux ensembles de modèles de formules du second-ordre existentiel, il s’agit de décrire des classes de complexité en termes de formalismes logiques. De telles descriptions garantissent la robustesse des classes considérées, facilitent la formulation de problèmes complets pour ces classes, permettent d’échanger des résultats et des techniques entre le domaine de la complexité et celui de la logique. La notion de complexité descriptive s’étend par ailleurs à l’étude du pouvoir d’expression de formalismes logiques. Nous considérons en particulier les logiques de points fixes, ou µ-calculs, qui jouent un rôle central en vérification. Les méthodes à l’œuvre dans ces deux approches sont variées (théorie des modèles finis, théorie des graphes, jeux. . .) mais reposent sur une même proximité entre logique et combinatoire. Par exemple, l’étude du pouvoir d’expression d’une logique se ramène parfois à la recherche de stratégies gagnantes dans des jeux combinatoires. 56 CHAPITRE 5. MODÉLISATION ET VÉRIFICATION Automates et points fixes. La théorie des points fixes se développe principalement autour des logiques pour la vérification des systèmes informatiques. Cette théorie a évolué en profondeur ces dernières années, en même temps que se clarifiait la connection entre deux notions : – les automates à pile d’ordre supérieur et les graphes qu’ils définissent d’une part, – les systèmes d’équations d’ordre supérieur et leurs solutions d’autre part. Ces notions apparaissent aujourd’hui comme deux aspects du même problème, l’un combinatoire et dynamique, l’autre algébrique et logique. Les systèmes d’équations d’ordre supérieur étant étroitement liés au λ-calcul et au système T de Gœdel, cette thématique a récemment rapproché les recherches qui se font dans deux communautés différentes, vérification et sémantique, mettant à jour une foison de problèmes ouverts. Projets. Le projet Trecolococo http://www.lif.univ-mrs.fr/~lsantoca/TRECOLOCOCO/ est appuyé par une aide de type PEPS, et il se développera vers un projet ANR. 5.3 Animation de l’équipe L’évolution scientifique de chaque thème de recherche est menée par son responsable sous la responsabilité du chef d’équipe. La structuration en thèmes permet de recentrer l’activité de recherche et devrait éviter que certains membres ne se retrouvent isolés. Les collaborations entre thèmes sont naturelles car les intérêts de plusieurs membres de l’équipe sont multiples et certains sujets demandent des compétences transversales. Interactions. Ces sujets transversaux sont des questions fondamentales et difficiles que nous envisageons d’attaquer pour leur importance scientifiques et les conséquences qui découleront de leur étude. Nous voulons étudier la question du bon étiquetage des structures d’événements et la conjecture de Thiagarajan. Ces problèmes sont issus de la théorie de la concurrence mais sont liées directement à des questions difficiles de combinatoire. La difficulté rencontrée par les chercheurs pour les résoudre suggère que des outils fondamentaux liés à la théorie de la concurrence restent à inventer. La décision des propriétés arborescentes de graphes est un problème similaire. Il est bien connu que plusieurs problèmes de model checking peuvent se résoudre efficacement si on se restreint à des modèles ou à des classes de formules d’arborescence donnée. Dans ce cadre, la détermination de l’entrelacement d’une formule du µ-calcul requiert à la fois des compétences spécifiques sur les jeux de type Voleur-Policier, et des compétences sur la théorie des points fixes ; ces compétences correspondent à deux thèmes précédemment décrits. L’ANR jeunes chercheurs ECSPER, qui a débuté fin 2009, fait collaborer des membres des trois sous-thèmes. Ainsi, la possibilité d’implémenter des algorithmes distribués classiques (élection, consensus, diffusion, . . . ) est vue comme un critère pour évaluer les modèles distribués avec perturbations utilisés en vérification. Le groupe de travail permet aux membres de l’équipe d’exposer leur travaux. Nous y invitons par ailleurs fréquemment des chercheurs à présenter des sujets plus ou moins proches de nos thématiques. Collaborations. L’équipe a comme objectif de consolider ses collaborations avec d’autres laboratoires (Verimag, LaBRI, LSV, LIAFA, LORIA), notamment via des projets communs (propositions d’ANR) et des invitations réciproques. Cela conduira de manière naturelle à des recrutements croisés. Nous envisageons d’ouvrir nos collaborations à des laboratoires qui développent des recherches à l’intersection de la sémantique, des langages de programmation et de la vérification. On peut citer PPS (Paris 7), le LIP (ENS Lyon), l’équipe Parsifal de l’INRIA Saclay, ou l’Institut Gaspard-Monge (Marne-la-Vallée). Les liens avec les équipes locales de logique (Logique de la Programmation à l’IML, INCA au LSIS) seront aussi renforcés via les fédérations Mathématiques et Informatique et avec le LSIS. L’évolution de notre recherche conduit naturellement à renforcer les interactions avec 5.4. AUTO-ÉVALUATION 57 l’équipe CRO du LIF sur les sujets de combinatoire et de graphes. Les collaborations internationales sont aussi importantes pour l’équipe : celles existantes – R. Cockett (Calgary), M. Fernández (Londres), D. Paulusma (Durham), J.F. Raskin (Bruxelles), N. Santoro (Ottawa), Y. Venema (Amsterdam), P. Widmayer (Zurich) – seront développées et d’autres collaborations possiblement s’ajouteront : Z. Esik (Szeged), J.B. Nation (Honolulu) . . . Événements prévus. L’équipe prévoit d’organiser plusieurs rencontres ou conférences scientifique, ce qui permettra d’augmenter la visibilité de la recherche qu’elle effectue. Le workshop FICS 2010 aura lieu à Brno en République Tchèque dans le contexte des conférences CSL et MFCS. Il est organisé cette année par MoVe qui propose le thème « automates et points fixes » avec pour invité Arnaud Carayol. L’école de printemps du projet européen Games sera organisée au CIRM en 2011. La conférence TACL 2011 aura lieu à Marseille en 2011 ; elle sera organisée conjointement avec d’autres logiciens de Marseille, issus de l’IML et du LSIS. Nous organiserons les Journées Graphes et Algorithmes en Novembre 2010 avec l’équipe CRO. Nous demandons à accueillir à Marseille en 2012 la prochaine édition de l’école jeunes chercheurs MOVEP, sur la modélisation et la vérification de processus parallèles. 5.4 Auto-évaluation Points Forts L’équipe MoVe est une équipe majoritairement composée de membres jeunes, actifs en recherche, qui ont tous effectué une mobilité. Plusieurs membres de l’équipe ont une visibilité internationale particulièrement forte. Les liens avec les équipes reconnues dans le domaine sont forts et le niveau des publications est très satisfaisant. Les ANR obtenues permet de juger de la bonne reconnaissance de l’équipe au niveau national et la visibilité internationale de plusieurs chercheurs de l’équipe est un facteur d’attractivité. Nos thématiques, variées et centrées autour de méthodes et modèles partagés par l’équipe, permettent un groupe de travail très vivant. Points à améliorer Quelques-uns des membres publient peu et certains des thèmes très classiques doivent veiller à explorer de nouvelles voies de recherche prometteuses. Peu de prototypes de logiciel ont été développés et diffusés. À ce titre, le devenir du logiciel POEM sera particulièrement significatif. La diversité des thèmes peut devenir un handicap en nuisant à la cohésion de l’équipe et en empêchant d’avoir une masse critique sur les sujets de recherche. Cela peut mettre en danger certains des enseignants-chercheurs recrutés récemment. La nouvelle organisation de l’équipe en sous-thèmes permettra d’améliorer ce point. Le nombre de participations à des comités de programme est insuffisant mais peut s’expliquer en partie par la jeunesse de l’équipe. Opportunités La fusion des universités et la rationalisation de l’offre de formation pourrait permettre de diminuer la pression des charges administratives et d’enseignement. Le rapprochement des sites d’enseignement et de recherche favorisera des contacts entre chercheurs sur certaines thématiques. Les encadrements de thèses autour de sujets proposés par des industriels permettent de renouveller les thèmes plus théoriques. Le recrutement d’un Chargé de Recherches CNRS a permis de renforcer le thème algorithmique distribuée et les collaborations avec l’équipe CRO, un recrutement sur cette thématique est prévu et permettra de pérenniser cet axe. Une ANR (ECSPER) et un post-doc financé par l’université donnent des possibilités de collaborations nouvelles entre les jeunes chercheurs recrutés récemment et de renforcer le thème d’algorithmique distribuée. La constitution de la fédération Mathématiques et Informatique, alliée à un rapprochement géographique, serait une chance de lancer des collaborations plus poussées avec l’équipe de logique de l’IML. Cette fédération devrait être un point de départ pour proposer des projets avec l’INRIA sur au moins un des axes identifiés. 58 CHAPITRE 5. MODÉLISATION ET VÉRIFICATION La création d’un master international dans ce cadre avec l’École Centrale de Marseille permettrait de récupérer de bons étudiants en master et en thèse. Risques L’équipe a vécu un profond renouvellement ces dernières années avec les départs de chercheurs reconnus (R. Amadio, S. Dal Zilio), affaiblissant le thème de la sécurité et du typage. Définir une politique de recrutement trop ciblée scientifiquement est difficile car l’équipe est en concurrence directe avec des centres qui ont des avantages marqués : présence de l’INRIA (LORIA, LaBRI, . . . ), enseignement à des publics de haut niveau (LIAFA, LSV, . . . ). Nous devons faire face à la situation chaotique des sciences sur Marseille : concurrence entre établissements, sites dispersés, peu d’attractivité pour les étudiants de haut niveau, etc. De plus, les rangs A de l’équipe sont contraints de s’engager fortement dans les tâches administratives, du fait du faible nombre de professeurs à l’Univ. de Provence. Cela nuit à leur rôle d’animateurs scientifiques. La surcharge de tâches administratives et pédagogiques imposées aux enseignants-chercheurs, y compris les rangs B, risque de nuire à l’activité de recherche et à l’attractivité de l’équipe. Un manque d’implication dans le master 2 est potentiellement dangereux pour le renouvellement des doctorants. La dispersion géographique de l’équipe, non choisie, menace sa cohésion, comme celle du laboratoire dans son ensemble. Chapitre 6 Traitement Automatique du Langage Écrit et Parlé Responsable Alexis N ASR PU, Univ. de la Méditerranée Frédéric B ÉCHET Laure B RIEUSSEL José D EULOFEU Benoît FAVRE Nuria G ALA Elisabeth G ODBERT Paul S ABATIER Marie-Hélène S TÉFANINI André VALLI Michael Z OCK Permanents associés Line J AKUBIEC -J AMET Monique R OLBERT Jean V ÉRONIS1 PU, Univ. de la Méditerranée IE, Univ. de Provence PU, Univ. de Provence MC, Univ. de Provence MC, Univ. de Provence MC, Univ. de la Méditerranée DR, CNRS MC, Univ. de la Méditerranée PU, Univ. de Provence DR, CNRS Permanents 6.1 MC, Univ. de la Méditerranée MC, Univ. Paul Cézanne PU, Univ. de Provence Présentation TALEP est l’acronyme de Traitement Automatique du Langage Ecrit et Parlé et désigne l’équipe créée au sein du LIF le 1er janvier. 2008. L’équipe TALEP résulte de la fusion de l’équipe C ALN (Compréhension automatique du langage naturel, dirigée par Paul S ABATIER) du LIF, et d’une partie de l’équipe D ELIC (Description Linguistique Informatisée sur Corpus, dirigée par Jean V ÉRONIS), ancienne équipe d’accueil (EA 3779) de l’Université de Provence. L’équipe TALEP s’est enrichie ces dernières années de l’arrivée de Alexis N ASR (sept. 2006), Frédéric B ÉCHET (sept. 2009) et Benoît FAVRE (sept. 2010) qui ont apporté à l’équipe de nouvelles compétences en modèles numériques pour le TAL, reposant sur des méthodes d’apprentissage automatique. Dans le cadre d’approches symboliques et numériques, l’équipe TALEP développe et enrichit des ressources linguistiques concernant aussi bien la langue écrite que parlée, conçoit et développe 1 Jean V ÉRONIS est actuellement en détachement dans l’industrie. Son statut sera réévalué à mi-quadriennal. Son retour au sein de l’équipe permettra d’enrichir cette dernière d’une compétence en linguistique de corpus, précieuse pour l’axe “méthodes numériques” décrit ci-après. 60 CHAPITRE 6. TRAITEMENT AUTOMATIQUE DU LANGAGE ÉCRIT ET PARLÉ des algorithmes, des logiciels et des applications illustrant les résultats de ses travaux. Les travaux sont menés dans le cadre de différents projets ANR et de projets internes. 6.2 Projet de recherche Le projet de recherche de l’équipe s’articule selon deux axes, un axe autour des méthodes symboliques et un autre autour des méthodes numériques. Dans le premier cas, on s’intéresse à une description fine et profonde de certains phénomènes linguistiques circonscrits tandis que dans le second, on privilégie la couverture et la robustesse des traitements et des modèles. 6.2.1 Méthodes symboliques Au moyen de modèles symboliques de nature linguistique (lexique, morphologie, syntaxe, sémantique lexicale et conceptuelle) et logique (sémantique formelle), nous continuerons à développer et à enrichir des ressources que nous exploiterons dans différentes applications. Ces deux aspects, ressources et applications, se déclinent en différents projets, détaillés ci-dessous. Constitution et enrichissement de ressources linguistiques FondamenTAL Paul Sabatier, Laure Brieussel, Marie-Hélène Stéfanini. Coll. avec le laboratoire MoDyCo, Univ. Paris X À partir de trois ressources linguistiques pour le français conçues par Jean Dubois et Françoise Dubois-Charlier Les verbes français (26.510 entrées) [27], Locutions en français (7.500 entrées) [28], Les mots français (138.000 entrées), le projet FondamenTAL a pour objectif (1) d’expliciter les ressources initiales, (2) de les enrichir par de nouvelles propriétés syntaxiques et sémantiques, (3) de produire de nouveaux outils pour valider l’intérêt de ces ressources, en particulier dans le domaine de l’apprentissage du français. LEXVALF : Lexique électronique des valences verbales du français Laure Brieussel, Paul Sabatier, André Valli Dans le cadre de LEXVALF, Il s’agira de compléter la base de données existante qui a été développée dans l’équipe et qui décrit la complémentation verbale du français, base qui réunira à terme les 975 entrées des verbes les plus fréquents avec leurs différents emplois[39, 40]. GNF : Grammaire noyau du français Paul Sabatier, Monique Rolbert, Marie-Hélène Stéfanini Initialement développée par Robert Pasero et Paul Sabatier, GNF vise à recenser et modéliser les constructions fondamentales du français. GNF sera étendue, en particulier pour en faire le modèle linguistique pratique de l’application du projet TRANSGEN (Génération automatique de transformations de phrases) décrit plus bas. Lexique Interlangues Nuria Gala Coll. avec les laboratoires : CLLE-ERSS Toulouse, CLLE-ERSS Bordeaux, SHADYC-EHESS Marseille, ISSCO Génève, UB Barcelona, UPF Barcelona Comparer la morphologie entre les langues est beaucoup plus complexe qu’il n’y paraît et soulève de nombreuses questions, particulièrement d’un point de vue méthodologique [35]. Ceci étant, la notion de similarité des unités lexicales a déjà été exploitée en traitement automatique du langage naturel, mais la similarité de familles et de séries morphologiques n’a pas été étudiée ni évaluée globalement au niveau de lexiques entiers. De même, il n’existe pas à l’heure actuelle une ressource lexicale axée sur la morphologie des langues romanes. L’objectif de cette thématique est d’explorer le lexique des langues à partir de la notion de famille et de série de mots. Nous nous proposons d’aborder les aspects suivants : (1) étudier la morphologie lexicale des langues romanes, tout en validant la pertinence du concept de familles et séries de mots. Sur la base de travaux existants [29, 30] et 6.2. PROJET DE RECHERCHE 61 [33, 34] nous nous proposons de comparer l’organisation et la structure des unités lexicales dans des langues ayant une origine commune. (2) doter les langues romanes d’une base de données morphologique. Il s’agira d’un réseau décrivant l’ensemble des relations qui s’établissent entre un mot et les membres des différents paradigmes morphologiques auxquels il participe, notamment ses familles et ses séries dérivationnelles (morphologiques, lexicales, diachroniques, etc.). Applications TRANSGEN : Génération automatique de transformations de phrases Paul Sabatier, Monique Rolbert, Marie-Hélène Stéfanini Dans le cadre de l’apprentissage d’une langue donnée et de l’évaluation des compétences de l’apprenant, nous avons tous pratiqué ces exercices qui consistent à produire une phrase par transformation d’une phrase initiale. Nous décrirons formellement un certain nombre de transformations en essayant d’exprimer de façon minimale les conditions dans lesquelles elles peuvent s’appliquer. Au moyen du logiciel ILLICO [38, 37], nous développerons un ensemble d’exercices linguistiques dédiés à l’apprentissage du français. Opérant sur les ressources LEXVALF, Fondamental et GNF, des phrases simples pourront être analysées et générées automatiquement à partir de contraintes formulables de façon déclarative par l’utilisateur aux niveaux lexical (choix de mots, mots interdits, ...) et/ou syntaxique (spécification de tout ou partie de la structure de la phrase). Des transformations de phrases pourront être formulées et produites automatiquement. Par exemple, pour la phrase Max donne un morceau de chocolat à Luc, il s’agira par exemple de produire automatiquement toutes les transformations de type proforme, comme Il donne un morceau de chocolat à Luc. Il lui donne un morceau de chocolat. (...) Il lui en donne un morceau. Il lui en donne un. Il le lui donne. Il fait cela. Il le fait. Intégration d’informations sémantiques dans des analyses en dépendances, et extraction d’information Elisabeth Godbert, Line Jakubiec Dans le but d’améliorer le résultat d’une analyse syntaxique en dépendances, nous proposons d’intégrer des critères sémantiques, d’une part pour aider à la désambiguïsation de l’analyse, d’autre part pour enrichir les sorties par des rôles thématiques tels qu’ils sont par exemple définis dans VerbNet[41]. Nous envisagerons des applications dans les domaines de l’extraction d’information, du résumé automatique ou de l’indexation. Ce travail s’inscrit dans la continuité du système PredXtract [32, 31] qui a été développé ces dernières années dans l’équipe et qui s’intéresse à l’identification des structures prédicatives dans des analyses en dépendances. Nous définirons un modèle avec lequel le contenu sémantique de chaque structure prédicative sera représenté. Les alternations qui véhiculent la même information sémantique seront traduites dans ce modèle par le même objet structuré. Nous utiliserons dans un premier temps un formalisme proche des langages définis par le W3C pour le Web sémantique. Cela facilitera l’établissement d’un lien entre nos résultats et d’autres outils, bases de connaissances ou ontologies existantes. Cela nous permettra aussi de définir d’autres traitements en aval. Nous étudierons aussi dans quelle mesure nous pourrons utiliser une logique de description pour représenter les informations extraites par notre système, dans le but de faire des inférences, en connectant là aussi, éventuellement, notre système et nos résultats à d’autres bases de connaissances. Création d’un livre de phrases multilingue pour apprendre des langues Michael Zock, Nuria Gala, Line Jakubiec L’objectif de ce projet[42, 43] est de construire un programme assistant des apprenants (adultes) à acquérir les automatismes nécessaires pour produire les structures fondamentales d’une langue. Le point de départ est une méthode de langue ou un livre de phrases destiné à des touristes contenant les expressions de bases pour survivre dans des situations courantes : faire des courses, demander un renseignement, etc. Ce genre d’ouvrage contient typiquement les structures fondamentales d’une langue et un lexique de base. Nous proposons d’étendre le champ d’application de ces structures en les généralisant. Désormais, l’utilisateur disposera d’un outil permettant d’exprimer sa pensée à partir d’un besoin (intention, but), pour la préciser ensuite, en instanciant la structure associée avec les mots lui convenant. Notre livre de phrase possède plusieurs caractéristiques : (1) il est générique. 62 CHAPITRE 6. TRAITEMENT AUTOMATIQUE DU LANGAGE ÉCRIT ET PARLÉ Bien que nous ayons commencé par le Japonais et l’Anglais, il peut être étendu à d’autres langues de types très différents. (2) il est ouvert. L’utilisateur peut le façonner à sa guise, que ce soit pour les données (vocabulaire à apprendre) ou le fonctionnement (nombre de répétitions, vitesse, interface, etc.). (3) à terme il est capable d’apprendre. Ce dernier point est capital pour créer ou étendre la base de phrases. Autrement dit, le système pourra s’auto-alimenter en piochant dans un corpus adapté des nouvelles phrases, illustrant le schéma qu’on est en train d’apprendre. Aide à la communication pour enfants autistes Laure Brieussel, Paul Sabatier. Coll. avec l’Institut des Sciences Cognitives, Bron et l’ISATIS, CHS St Jean de Dieu, Lyon Conception et développement sur tablettes tactiles d’un logiciel dédié à des enfants autistes (aide à la communication iconique et linguistique) et au personnel hospitalier chargé de leur suivi thérapeutique. Démarré mi 2010, ce projet nous permettra de renforcer nos collaborations dans le domaine des Cognisciences et de la Santé, de nous intéresser aux aspects déficits cognitifs et langagiers en proposant des solutions pratiques issues de nos travaux sur l’aide à la conception et à la composition de messages. D’autres applications pourront être développées pour pallier certains handicaps ou déficits (IMC, Alzheimer, etc.) 6.2.2 Méthodes Numériques Comme mentionné dans l’introduction, l’équipe s’est récemment enrichie de trois membres : Alexis Nasr, Frédéric Béchet et Benoît Favre qui ont apporté à l’équipe des compétences en TAL numérique. Les travaux de cet axe s’organiseront autour de trois thèmes : Enrichissement (semi-)automatique de données Les méthodes reposant sur l’apprentissage automatique sont de grandes consommatrices de données. Dans le cas du TAL, ces dernières prennent la forme de données (écrites ou orales) enrichies manuellement par des annotations variées (syntaxe, sémantique, discours, prosodie . . . ). Ce processus d’enrichissement est coûteux et de telles données sont par conséquent rares. D’autre part, les données non annotées sont disponibles en grande quantité, à travers les enregistrements de médias audio(visuels) et l’Internet. La possibilité d’exploiter de telles données pour améliorer les performances des outils de TAL est devenue un des enjeux majeurs du TAL numérique. Nous envisageons d’explorer plusieurs voies pour limiter l’effort d’annotation grâce à l’exploitation de données non annotées. Certaines sont automatiques (auto-apprentissage, co-apprentissage, échantillonnage de Gibbs) et d’autres font appel de manière limitée à un jugement humain (apprentissage actif, interface semi-automatique d’annotation). L’équipe a déjà acquis une certaine expérience dans ce domaine, et collabore sur ces thèmes avec l’équipe Apprentissage Automatique du LIF, notamment dans les ANR SEQUOIA dans le domaine de l’analyse syntaxique, dans l’acquisition de lexique à travers l’ANR EDYLEX, et dans le traitement automatique d’enregistrements de parole conversationnelle dans le cadre de l’ANR DECODA. Développement Logiciel Le développement logiciel est un aspect important du TAL et il constitue une partie importante de l’activité des membres de l’équipe. Ce développement vise un triple objectif. D’une part, confronter aux données les modèles que nous concevons dans le but de les évaluer et de les faire évoluer. D’autre part, disposer d’outils performants pour les applications développées au sein de l’équipe et, finalement, offrir à la communauté des outils libres de droits. Plusieurs logiciels ont déjà été développés, parmi lesquels la chaîne de traitement MACAON [36], l’analyseur syntaxique probabiliste pour le français SEQUOIA, développé dans le cadre de l’ANR homonyme et l’analyseur syntaxique probabiliste pour l’anglais MICA [24], développé en collaboration avec l’université Columbia et les laboratoires de recherche ATT. L’arrivée de Benoît FAVRE donnera l’opportunité d’intégrer ses outils aux traitements existants, notamment l’apprentissage discriminant MIRA [26] dans MACAON. 6.3. AUTO ÉVALUATION 63 Nous comptons continuer à accorder une grande importance au développement logiciel, en maintenant les logiciels existants et en en développant de nouveaux. Nous chercherons aussi à créer des communautés de développement autour des logiciels existants afin d’assurer leur pérennité. Passage à l’échelle : traitement automatique de corpus collectés Les sites WEB d’information, les centres d’appels enregistrant toutes les conversations entre clients et agents, les données audiovisuelles diffusées notamment sur Internet, les agences de presse, etc. sont autant de sources quasiment illimitées de contenu multimédia (texte, son et image). Les modèles et les logiciels développés au sein de l’équipe sont régulièrement utilisés pour effectuer des traitements linguistiques sur ces masses de données. Parmi les applications déjà en cours on peut citer : la fouille de données dans des corpus de parole conversationnelle à travers l’ANR DECODA qui vise à caractériser et résumer des conversations entre agent et client dans le cadre d’un centre d’appel téléphonique [25] ; l’indexation vidéo à travers l’ANR PERCOL ayant pour but d’identifier des personnes dans des documents vidéos ; la détection et la caractérisation de mots nouveaux dans l’ANR EDYLEX en partenariat avec l’Agence France Presse ; le résumé automatique de documents multisources, notamment dans le cadre des campagnes d’évaluation internationales TAC. 6.3 Auto évaluation Points forts Comme le montre sa composition et l’illustrent ses publications dans des revues et des conférences d’informatique (Traitement automatique des langues) et de linguistique, l’équipe TALEP est fortement pluridisciplinaire. Certains de ses membres publient dans les deux domaines. Cette pluridisciplinarité est le moteur de plusieurs projets. Un autre point fort réside dans le fait que les travaux de l’équipe portent à la fois sur des questions fondamentales (concernant et l’écrit et l’oral) et sur le développement de logiciels et d’applications illustrant les résultats des premiers travaux. Un autre point fort de l’équipe est celui de la diversité des modèles utilisés, d’une part des modèles symboliques issus de la linguistique formelle et de la logique, et d’autre part des modèles probabilistes issus de l’apprentissage automatique. On peut ajouter que la réunion des membres de l’équipe CALN du LIF et des membres de l’équipe DELIC pour former depuis janvier 2008 l’équipe TALEP porte ses fruits, comme le montrent les publications et projets réalisés ensemble. Points à améliorer Nous devons encadrer davantage de thèses. Les sujets de recherche ne manquent pas mais nous avons du mal à recruter des thésards dans notre Master d’informatique. Il faudrait pouvoir attirer les meilleurs étudiants français et étrangers, désireux de se former en TAL, dans notre master ou directement en thèse. Ce n’est pas encore le cas, mais nous y travaillons. Pour diverses raisons, une partie des membres de l’équipe a un niveau de publication faible. Nous devons créer les conditions pour ramener ces membres à une activité de recherche et de publication plus soutenue. Nous pourrions valoriser davantage nos compétences et notre savoir-faire dans le monde industriel. Les idées d’applications de nos travaux ne manquent pas. Certains membres de l’équipe ont séjourné dans le passé dans l’industrie ; dans le cadre d’un détachement, l’un d’entre nous s’y trouve aujourd’hui. Le monde industriel ne nous est donc pas étranger. Pour mieux valoriser nos travaux, il faudrait pouvoir créer au sein de l’équipe un groupe de personnes dédié au transfert technologique. Opportunités Notre équipe a collaboré et collabore sur plusieurs projets avec différentes équipes nationales (Univ. Paris 7, 10, Nancy, Besançon, Lyon, Montpellier, Toulouse) et internationales (Allemagne, 64 BIBLIOGRAPHIE Suisse, Etats-Unis, Canada, Japon, Thaïlande). Au cours de ces quatre dernières années, sur des projets précis, nous avons aussi collaboré au niveau local avec des collègues biologistes et mathématiciens. La fusion des universités d’Aix-Marseille devrait renforcer la mise en oeuvre de projets de recherche avec la communauté des sciences humaines et sociales dans les domaines du langage, de la cognition et de l’éducation. Nous travaillons aussi à un projet de Master qui s’adressera aux étudiants en sciences humaines (sciences du langage) et qui associera l’équipe TALEP du LIF et le laboratoire Parole et Langage (UMR 6057, CNRS, Univ. de Provence). Finalement, deux autres laboratoires dans la région s’intéressent au Traitement Automatique de la Langue, il s’agit du Laboratoire Parole et Langage, cité ci-dessus, et du Laboratoire d’Informatique d’Avignon. Nous entretenons de nombreuses relations avec ces deux laboratoires et la question se pose de l’institutionalisation de ces dernières. Celle-ci pourrait prendre la forme d’un projet de laboratoire d’excellence autour des langues et de certains aspects de leur traitement automatique, actuellement à l’étude. Risques Trois membres de l’équipe (José D EULOFEU, André VALLI et Michael Z OCK) partiront à la retraite au cours du quadriennal. Il est important que ces postes soient reconduits dans l’équipe si l’on tient à ce que notre objectif de développer un pôle d’excellence dans le domaine du traitement automatique des langues soit poursuivi. Bibliographie [24] Srinivas Bangalore, Pierre Boullier, Alexis Nasr, Owen Rambow, and Benoît Sagot. Mica : A probabilistic dependency parser based on tree insertion grammars. In North American Chapter of the Association for Computational Linguistics - Human Language Technologies (NAACL HLT), pages 185–188, Boulder, Colorado, 2009. [25] Frédéric Béchet and Alexis Nasr. Robust dependency parsing for spoken language understanding of spontaneous speech. In Interspeech, Brighton, United Kingdom, 2009. [26] K. Crammer, O. Dekel, J. Keshet, S. Shalev-Shwartz, and Y. Singer. Online passive-aggressive algorithms. The Journal of Machine Learning Research, 7 :585, 2006. [27] Jean Dubois and François Dubois-Charlier. Les verbes français. Larousse-Bordas, 1997. [28] Jean Dubois and François Dubois-Charlier. Locutions en français. chez les auteurs, Aix-enProvence, 2004. [29] N. Gala and V. Rey. Polymots : une base de données de constructions dérivationnelles en français à partir de radicaux phonologiques. In Traitement Automatique des Langues Naturelles, Avignon, France, 2008. [30] N. Gala and V. Rey. Acquiring semantics from structured corpora to enrich an existing lexicon. In eLEXICOGRAPHY in the 21st century : new challenges, new applications., Louvain-la-Neuve, Belgium, 2009. [31] Elisabeth Godbert and Jean Royauté. Exploring predicate-arguments structures in texts to relate biological entities. In "Relations sémantiques" Workshop 8th International Conference on Terminology and Artificial Intelligence (TIA 2009), Toulouse, 2009. [32] Elisabeth Godbert and Jean Royauté. Predxtract, a generic platform to extract in texts predicate argument structures (pas). In "Semantic Relations, Theory and Applications" Workshop held in conjunction with the The seventh international conference on Language Resources and Evaluation (LREC 2010), Malte, 2010. [33] N. Hathout. Acquistion of the morphological structure of the lexicon based on lexical similarity and formal analogy. In Proceedings of the COLING workshop Textgraphs-3, Manchester, UK, 2008. BIBLIOGRAPHIE 65 [34] N. Hathout. Contribution à la description de la structure morphologique du lexique et à l’approche extensive en morphologie, 2009. Habilitation à diriger des recherches, Université de Toulouse. [35] M. A. Lefer and B. Cartoni. Prefixes in contrast : towards meaning-based contrastive methodology for lexical morphology. Languages in contrast., to appear(to appear), 2011. [36] Alexis Nasr, Frédéric Béchet, and Jean-François Rey. Macaon : Une chaîne linguistique pour le traitement de graphes de mots. In Traitement Automatique des Langues Naturelles, Montréal, 2010. [37] Robert Pasero and Paul Sabatier. Illico : Guide d’utilisation. Technical report, Laboratoire d’Informatique Fondamentale, (http ://pageperso.lif.univ-mrs.fr/˜paul.sabatier/ILLICO/ILLICOGuide-Utilisation.pdf, 2007. [38] Robert Pasero and Paul Sabatier. Illico : Principes, connaissances et formalismes. Technical report, Laboratoire d’Informatique Fondamentale, http ://pageperso.lif.univmrs.fr/˜paul.sabatier/ILLICO/ILLICO-Formalismes.pdf, 2007. [39] Maurice Salkoff and André Valli. A dictionary of french verbal complementation. In Language and Technology Conference, 2005. [40] Maurice Salkoff and André Valli. La constitution d’un lexique de la complémentation verbale du français. In Colloque international sur le lexique et la grammaire, 2006. [41] K.K. Schuler. VerbNet : A broad-coverage, comprehensive verb lexicon. Dissertations available from ProQuest, 2005. [42] Michael Zock and Stergos Afantenos. Affective, Interactive and cognitive methods for e-learning design, chapter Using e-learning to achieve fluency in foreign languages, pages 187–206. IGI Global, Hershey, Pennsylvania, 2009. [43] Michael Zock and Guy Lapalme. A generic tool for creating and using multilingual phrasebooks. In International Workshop on Natural Language Processing and Cognitive Science, 2010.