Projet 2012-2017

Transcription

Projet 2012-2017

Laboratoire d’Informatique Fondamentale
de Marseille
UMR CNRS - Université de la Méditerranée - Université de Provence
Projet scientifique pour la période 2012-2015
10 septembre 2010
Table des matières
1
2
3
4
Le Laboratoire d’Informatique Fondamentale de Marseille
1.1 Auto-évaluation du laboratoire . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
1.1.1 La qualité scientifique et la production . . . . . . . . . . . . . . . . . . . . . . .
1.1.2 Le rayonnement, l’attractivité et l’intégration du laboratoire dans son environnement . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
1.1.3 Stratégie et gouvernance de l’unité . . . . . . . . . . . . . . . . . . . . . . . . . .
1.1.4 Synthèse . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
1.2 Projet scientifique du laboratoire . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
1.2.1 Contexte . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
1.2.2 Orientations scientifiques du laboratoire . . . . . . . . . . . . . . . . . . . . . .
1.2.3 Collaborations et actions fédératives . . . . . . . . . . . . . . . . . . . . . . . . .
1.2.4 Politique du laboratoire . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
1.3 Fonctionnement et vie du laboratoire . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
1.3.1 Gouvernance . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
1.3.2 Animation scientifique . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
1.3.3 Communication - système d’information . . . . . . . . . . . . . . . . . . . . . .
1.3.4 Moyens financiers du laboratoire . . . . . . . . . . . . . . . . . . . . . . . . . . .
1.3.5 Services administratif et informatique . . . . . . . . . . . . . . . . . . . . . . . .
1.3.6 Locaux . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
1.3.7 Formations . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
5
5
5
7
8
9
10
11
13
15
17
20
20
21
22
22
23
24
24
ÉQuipe AppRentissage et MultimédiA
2.1 Présentation . . . . . . . . . . . . .
2.1.1 Membres . . . . . . . . . . .
2.1.2 Structuration . . . . . . . .
2.2 Projet de Recherche . . . . . . . . .
2.3 Fonctionnement de l’équipe . . . .
2.4 Collaborations, projets . . . . . . .
2.5 Auto-évaluation . . . . . . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
27
27
27
27
28
30
31
33
Bases de Données Avancées
3.1 Membres . . . . . . . . . . . . . . .
3.2 Projet de Recherche . . . . . . . . .
3.2.1 Entrepôts de données . . .
3.2.2 Fouille de bases de données
3.3 Auto-évaluation . . . . . . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
35
35
35
35
37
39
Algorithmique, Combinatoire et Recherche Opérationnelle
4.1 Présentation . . . . . . . . . . . . . . . . . . . . . . . . .
4.1.1 Membres . . . . . . . . . . . . . . . . . . . . . . .
4.1.2 Structuration de l’équipe . . . . . . . . . . . . .
4.2 Projet de Recherche . . . . . . . . . . . . . . . . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
43
43
43
44
44
4
TABLE DES MATIÈRES
4.3
5
6
Auto-évaluation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Modélisation et Vérification
5.1 Présentation . . . . . . . . . . . . . . . . . .
5.1.1 Membres Permanents . . . . . . . .
5.1.2 Structuration de l’équipe . . . . . .
5.2 Projet de Recherche . . . . . . . . . . . . . .
5.2.1 Vérification . . . . . . . . . . . . . .
5.2.2 Algorithmique distribuée . . . . . .
5.2.3 Logique, automates et combinatoire
5.3 Animation de l’équipe . . . . . . . . . . . .
5.4 Auto-évaluation . . . . . . . . . . . . . . . .
48
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
51
51
51
51
52
52
54
55
56
57
Traitement Automatique du Langage Écrit et Parlé
6.1 Présentation . . . . . . . . . . . . . . . . . . . .
6.2 Projet de recherche . . . . . . . . . . . . . . . .
6.2.1 Méthodes symboliques . . . . . . . . .
6.2.2 Méthodes Numériques . . . . . . . . . .
6.3 Auto évaluation . . . . . . . . . . . . . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
59
59
60
60
62
63
.
.
.
.
.
.
.
.
.
Chapitre 1
Le Laboratoire d’Informatique
Fondamentale de Marseille
Ce document décrit le projet du Laboratoire d’Informatique Fondamentale de Marseille (UMR
6166 – CNRS - Université de la Méditerranée- Université de Provence) pour le quadriennal 20122015. Ce projet a été conçu lors d’un processus de large consultation : le directeur du laboratoire et
le porteur de projet ont rencontré une à une les équipes de recherche participant à ce projet 1 ainsi
que les personnels des services administratif et informatique afin de recueillir l’avis de chacun sur la
situation actuelle et sur les évolutions souhaitées. Les orientations scientifiques pour le quadriennal
futur ont ensuite été discutées lors de réunions du conseil de direction, pour certaines ouvertes à des
membres «cadres» de chacune des équipes. De plus, ces orientations ont été présentées et débattues
lors de deux conseils de laboratoire ouverts à l’ensemble des membres du laboratoire (en date du 18
mars et du 29 avril 2010). Elles ont par ailleurs été présentées aux membres du conseil scientifique
du LIF (à l’exception de András S EBÖ qui n’a malheureusement pas pu se libérer), à Hubert C OMON
le 8 juin et à Laurence D ANLOS et Patrick G ALLINARI les 17 et 18 juin lors des journées scientifiques
annuelles du LIF. Finalement, ces orientations ont été validées lors de l’assemblée générale qui a
conclu ces mêmes journées.
1.1
1.1.1
Auto-évaluation du laboratoire
La qualité scientifique et la production
Les thèmes scientifiques présents au LIF sont au coeur de la recherche en informatique contemporaine. Les chercheurs et enseignants chercheurs du LIF publient une proportion significative de
leurs contributions dans des revues ou conférences d’excellent niveau. Citons par exemple
Revues : ACM Transactions Computational Logics, Algorithmica, Annals of Information Systems,
Combinatorica, Discrete and Computational Geometry, European Journal of Combinatorics,
European Journal of Operational Research, Information and Computation, Information System, International Journal of Business Intelligence and Data Mining, International Journal of
Data Warehousing and Mining, Internationl Journal on Information Fusion, International Journal of Speech Technology, Journal of Algorithms, Journal of Combinatorial Theory B , Journal
of Computer and System Sciences, Journal of Symbolic Logic, Langages, Langue française,
Linguisticae Investigationes, Machine Learning, Mathematical Programming, Networks, Operations Research, Pattern Recognition, Pure and Applied Logic, Review of Symbolic Logic,
SIAM J. Computing, SIAM J. Discrete Mathematics, Theoretical Computer Science, Traitement
Automatique des Langues ;
1 L’équipe
Escape ne sera plus une équipe du laboratoire au 1er janvier 2012, la plupart de ses membres choisissant de
quitter l’aire marseillaise à court ou moyen terme par voie de mutation ou de promotion. Les raisons de cette situation font
l’objet d’un document annexe.
6
CHAPITRE 1. LE LABORATOIRE D’INFORMATIQUE FONDAMENTALE DE MARSEILLE
Conférences : ACL, APPROX-RANDOM, COLING (Computational Linguistics), COLT, Concur,
CSL, DCGI, ECML, ICALP, ICML, IPCO, NAACL, SAT, SoCG, SODA, STACS, STOC.
La moyenne du nombre de publications par membre publiant du laboratoire est supérieure à
8,5 sur la période 2006-2009, toute catégorie confondue, dont une bonne partie dans des revues de
premier plan ou des conférences très sélectives. Les membres du LIF font clairement le choix de la
qualité sur la quantité, choix qui est encouragé par les responsables d’équipes et qui constitue une
marque du laboratoire. Néanmoins, il peut être conseillé à certaines équipes de publier davantage
dans des revues.
L’interdisciplinarité est présente au LIF au travers de la linguistique, au sein de l’équipe TALEP,
et des mathématiques, présentes dans de nombreux programmes de recherche. Les collaborations avec
les biologistes sont très limitées : cela fait partie de nos projets de les développer.
Plus précisément,
– les projets info-maths sont encouragés par la politique scientifique du laboratoire et vont prendre
encore plus d’ampleur avec le projet de laboratoire d’excellence élaboré avec les laboratoires de
mathématiques (LATP, IML) et le CIRM dans le cadre du Grand Emprunt National et la perspective de créer d’une structure fédérative forte avec l’IML et le LATP au sein d’Aix-Marseille
Université au cours du prochain quadriennal ;
– l’équipe TALEP est structurellement pluridisciplinaire - la section qui lui est lui est consacrée décrit précisément la nature des recherches qui y sont menées. Il faut noter qu’un projet
de master co-adossé au LIF et au LPL (Laboratoire Parole et Langage, UMR 6057) sera déposé pour le prochain quadriennal, renforçant encore l’interdisciplinarité présente dans cette
équipe ;
– la bio-informatique fait partie des thèmes que nous souhaiterions ouvrir au LIF. L’année dernière, nous avons ouvert le profil d’un de nos postes de professeur à la bio-informatique, en
mentionnant qu’un professeur recruté sur cette thématique bénéficierait d’un soutien fort du
laboratoire pour qu’il puisse constituer une équipe rapidement, en lien avec les groupes existant à l’IML (Alain Guénoche, DR CNRS) et au LATP (Pierre Pontarotti, DR CNRS). Nous
n’avons malheureusement pas pu recruter de candidat pouvant assurer cette mission lors du
dernier concours. Mais nous maintenons une veille sur les candidats potentiels à même de
réaliser ce projet.
Le nombre de doctorants au LIF est encore trop réduit, même s’il a progressé de 17% depuis le
dernier quadriennal, passant de 23 à 27. Parmi les actions qui ont été effectuées afin de remédier à
ce problème, on peut citer :
– la diversification des sources de financement : nous avons augmenté le nombre d’allocations
CIFRE, nous avons obtenu pour la première fois l’année dernière des allocations Entreprises/Région,
nous avons obtenu plusieurs financements sur des projets ANR ;
– l’ouverture vers les écoles d’ingénieurs : paradoxalement difficile avec les 2 écoles d’ingénieurs
universitaires marseillaises, nous avons eu plus d’opportunité pour développer nos collaborations avec l’Ecole Centrale de Marseille, avec le recrutement d’un professeur rattaché au LIF
et, dès cette année, la cohabilitation par l’ECM du master d’informatique adossé au LIF ;
– l’affichage des sujets vers l’extérieur : cela nous a permis en particulier de recruter plusieurs
doctorants étrangers.
Ces efforts seront poursuivis.
Le nombre de membres du LIF qui soutiennent leur habilitation est encore trop faible (3 sur
les quatre dernières années, soit un peu plus de 10% du nombre de maîtres de conférences non
habilités ; mais au moins 3 collègues soutiendront leur HDR à l’automne 2010 : Pierre B ONAMI,
Amaury H ABRARD et Peter N IEBERT).
Les relations contractuelles sont en forte augmentation :
– le nombre de projets ANR acceptés est important (26 ACI ou ANR actives entre 2006 et 2009)
et en forte croissance (8 ANR acceptés en 2009) ; cela permet un financement très confortable
de certaines équipes, manne dont tout le laboratoire profite étant données nos règles de fonctionnement. Cependant, ce type de financement de la recherche a également des effets pervers
1.1. AUTO-ÉVALUATION DU LABORATOIRE
7
en accentuant les effets d’accordéons (des années de vaches maigres peuvent succéder à des
années d’opulence), en faisant trop reposer la recherche sur des projets ponctuels au détriment
de la recherche à long terme ;
– le laboratoire est membre du réseau européen d’excellence Pascal2. C’est le seul programme européen actif au LIF actuellement. Parmi les raisons expliquant le peu d’implication dans des
programmes européens, on peut citer la lourdeur du montage de tels projets et la relative facilité à obtenir des financements raisonnables via des programmes nationaux ;
– les relations industrielles étaient l’une des principales faiblesses du LIF : les choses s’améliorent,
grâce entre autres à la création d’une cellule interne consacrée aux relations industrielles et
à la valorisation. Plusieurs contrats industriels ont été signés, le plus souvent dans le cadre
d’allocations co-financées (région ou CIFRE). Le LIF est maintenant partenaire de trois pôles
de compétitivité : SCS (Solutions Communicantes Sécurisées), Pegase et CAP-DIGITAL (aucun
au quadriennal précédent). Il faut bien entendu continuer les efforts dans cette voie ;
– en revanche, peu de logiciels produits par le LIF font l’objet d’une valorisation. La cellule
Valorisation et relations industrielles contribue à sensibiliser les collègues à cette problématique
mais il est indispensable que le laboratoire puisse disposer de ressources en ingénieurs de
développement pour aller plus loin dans cette direction. Il est également nécessaire qu’il puisse
s’appuyer sur des services de valorisation au fait des spécificités des développements logiciels
- ce qui n’est pas le cas actuellement. La création d’un service mutualisé dans le cadre de la
fédération mathématiques-informatique devrait permettre de progresser dans cette voie.
Certains de nos collègues ne peuvent plus être considérés comme publiants selon les critères de
l’AERES, soit qu’ils traversent des difficultés passagères, soit qu’ils aient fait le choix à un certain
moment de s’investir dans certaines responsabilités pédagogiques ou administratives lourdes qui
les empêchent de maintenir une activité de recherche à un niveau qui leur permettrait de publier. Il
n’est pas rare que des enseignants-chercheurs connaissent dans leur carrière une baisse ou un trou
de publications de plusieurs années et reviennent par la suite au meilleur niveau. Lorsque ces collègues continuent à suivre les activités de leur équipe, groupes de travail ou séminaires, ont une
activité de publication minimale et manifestent le souhait, clairement exprimé, de reprendre toute
leur place au sein du laboratoire, nous souhaitons qu’ils restent membre à part entière du laboratoire ; la direction et les responsables des équipes concernées les aideront à reprendre pied, en leur
fournissant par exemple les moyens de se déplacer dans des écoles thématiques ou conférences eventuellement sans article accepté, en mettant sur pied des programmes de recherche plus appliqués ou ayant une forte composante de développements logiciels, etc. Quatre ou cinq collègues sont
dans ce cas.D’autres collègues contribuent de manière indirecte au bon fonctionnement du laboratoire, par les responsabilités pédagogiques qu’ils exercent, ou plus simplement par leur participation
aux filières adossées au laboratoire. Il nous semble souhaitable que ces collègues soient considérés
comme associés au laboratoire. Dix collègues seront déclarés comme associé, leur statut pouvant être
revu en début de quadriennal.
1.1.2
Le rayonnement, l’attractivité et l’intégration du laboratoire dans son environnement
Le rayonnement du laboratoire peut être mesuré par :
des Prix Gérard Cornuéjols (prix Dantzig 2009), Laurent Bienvenu (prix Gilles Kahn 2008), Guillaume
Stempfel (meilleur article jeune chercheur CAP 2008), Morgan Seston (prix ERS IASC Young
Researchers Award à la conférence COMPSTAT 2008), Bertrand Estellon, Frédéric Gardi, et
Karim Nouioua : 2ème Prix Senior (ex-aequo) du Challenge ROADEF 2007 pour le meilleur
logiciel de planification d’interventions et de techniciens ;
des invitations de chercheurs étrangers Une trentaine pour le laboratoire (cf liste partielle annexe
1.7.5 du rapport) ;
des invitations dans des conférences et séminaires Plusieurs dizaines : voir les comptes-rendus de
chaque équipe ;
8
des organisations de conférences, colloques et écoles Une vingtaine dont : STACS 2006 (120 part.),
TABLEAUX 2007 (60 part.), EPIT 2008 (84 part.), Workshop on Modal Fixpoints Logics 2008
(40 part.), JAC 2008 (50 part.), ALGOTEL 2009 (85 part.), CoAlex 07 08 09, etc. ;
des collaborations nationales et internationales : nous avons recensé 38 laboratoires ou équipes
partenaires dans le cadres des projets ANR ; la liste des chercheurs étrangers invités donne
une indication partielle sur le nombre de collaborations internationales de membres du laboratoire ;
la participation à des réseaux d’excellence Pascal2 (Pattern analysis, Statistical Modelling and Computational Learning).
Les rapports des équipes font état des participations des membres du LIF dans les comités de
programmes des principales conférences de leur domaine ainsi que dans de nombreux comités éditoriaux de revues. Les membres du LIF ont participé à une cinquantaine de jurys de thèse et une
quinzaine de jurys d’HDR.
Signalons également la visite des élèves de l’ENS Cachan en décembre 2009, organisée sur une
journée, au cours de laquelle les équipes du LIF ont présenté leurs activités et échangés avec les
étudiants. Une visite analogue avait déjà été organisée en 2006. A l’issue de la dernière visite, trois
étudiants cachanais ont choisi d’effectuer leur stage de recherche de L3 au LIF.
L’attractivité du laboratoire. Dans un contexte de concurrence difficile dû au nombre important
de postes de MC ouverts au concours en informatique, et au nombre de chercheurs recrutés chaque
année au CNRS en section 07 et à l’INRIA, le LIF arrive à recruter d’excellents candidats maîtres
de conférences (dont 70% d’extérieurs) et professeurs (dont 4/7 extérieurs), le plus souvent choisissant le LIF entre plusieurs autres possibilités. Le laboratoire a également pu recruter 4 chargés de
recherche en 4 ans dont un en mutation. Le laboratoire encourage vivement le recrutement de candidats MC extérieurs, c’est-à-dire ayant soutenu leur thèse en dehors de l’établissement, ou ayant
effectué un séjour post-doctoral significatif hors de l’établissement après l’obtention du doctorat cette politique est systématiquement appliquée par les commissions et comités de l’université de
Provence, qui n’ont pas recruté un seul candidat local sur un poste de maître de conférences depuis
la création du laboratoire (janvier 2002). Cette recommandation a été moins systématiquement suivie
par les commissions et comités de l’université de la Méditerranée. Nous souhaitons que la fusion des
universités marseillaises permette de s’engager à ne pas recruter plus de 20% de candidats locaux
sur les concours de maîtres de conférences (et pas plus de 50% sur les concours de professeurs).
1.1.3
Stratégie et gouvernance de l’unité
Suivant les recommandations du comité d’évaluation du LIF en 2007, a été constitué un conseil de
direction composé du directeur, du directeur-adjoint, de la responsable administrative et des responsables des équipes du LIF. Consulté régulièrement par mail et réuni environ 1 à 2 fois par mois - avec
la contrainte qu’au moins 3 responsables ou représentants des équipes soient présents -, ce conseil
constitue une excellent outil de gouvernance. Le conseil de direction conseille le directeur, émet des
avis, et se prononce sur certaines décisions comme la sélection de projets financés par le LIF, les
classements qui doivent être proposés à l’école doctorale, les classements sur les demandes de délégation, etc. Il offre un niveau intermédiaire entre la cellule de direction, composée du directeur, du
directeur adjoint et dela responsable administrative, dont les membres se consultent au quotidien, et
le conseil de laboratoire, qui se réunit en moyenne une fois par trimestre. Le seul bémol à signaler :
l’éloignement des deux sites du laboratoire empêche que ce conseil se réunisse physiquement plus
souvent. Une fréquence d’une réunion par semaine, à date bloquée, serait souhaitable.
Nous avons constitué un conseil scientifique du laboratoire, composé de Patrick G ALLINARI (PU
à l’université Paris VI, directeur du LIP6), András S EBÖ (DR CNRS, INPG), Hubert C OMON (PU
à l’ENS Cachan, médaille d’argent du CNRS), Laurence D ANLOS (PU à l’université Paris VII, IUF
Senior). Les activités du laboratoire, ses perspectives et sa politique scientifique ont été présentés à
Hubert C OMON le 8 juin 2010, à Patrick G ALLINARI et Laurence D ANLOS lors des journées scientifiques du LIF les 17 et 18 juin 2010 (malheureusement, András S EBÖ n’était pas disponible ces jours
1.1. AUTO-ÉVALUATION DU LABORATOIRE
9
là). Nous avons demandé à nos collègues de formuler une appréciation sur les activités du laboratoire et sur sa politique scientifique ainsi que des recommandations. Ce conseil est une nouveauté
au laboratoire. Il serait sans doute souhaitable que ce conseil puisse être réuni et consulté 2 fois par
quadriennal.
La stratégie mise en oeuvre lors de l’actuel quadriennal a été essentiellement consacrée à :
– une organisation plus cohérente du laboratoire au sein du paysage universitaire d’Aix-Marseille ;
– la restructuration de l’informatique marseillaise ;
– la création d’une structure fédérative forte avec les deux laboratoires de mathématiques voisins, l’IML et le LATP ;
– le rapprochement avec les écoles d’ingénieurs : l’Ecole Centrale de Marseille, Polytech et l’ESIL ;
– le développement des relations industrielles et de la valorisation.
Ces points – qui décrivent tous des questions complexes qui ne peuvent être traitées que sur le
long terme – ont fait l’objet de développement dans le corps du rapport.
Un point important n’a sans doute pas fait l’objet d’une attention suffisante : le renouvellement
et l’enrichissement des thématiques traitées au laboratoire et la création de nouvelles équipes. Il y a bien
eu des ouvertures vers de nouveaux thèmes dans plusieurs équipes (fouille de données multimedia dans l’équipe BDAA, approches statistiques en TAL, l’algorithmique distribuée dans l’équipe
MoVe), le plus souvent liées à des recrutements mais la croissance du laboratoire rend nécessaire
l’ouverture de thèmes réellement neufs. Pour arriver à cet objectif, nous souhaitons maintenir une
veille sur des candidats potentiels (PR ou DR) capable de créer une nouvelle équipe - avec un engagement du laboratoire à assurer en priorité son développement via des fléchages de postes. La
possibilité de recruter au fil de l’eau et l’existence de chaires d’excellence internes à l’université
constitue un contexte favorable pour cette stratégie.
L’animation scientifique au laboratoire. Le LIF organise depuis 2008 – il y en avait pas eu auparavant – une journée scientifique annuelle qui se tient en juin-juillet. Elle est consacrée à des exposés
de membres permanents et doctorants de toutes les équipes. Elle est souvent complétée d’un débat sur telle ou telle question d’actualité. Les deux premières journées se sont tenues sur le campus
de Luminy. Cette année, nous avons décidé de consacrer deux jours à l’évènement, de le localiser
à l’extérieur de Marseille (Agay) et de le centrer sur la présentation de notre laboratoire au conseil
scientifique du LIF, ainsi qu’à la préparation de notre projet scientifique.
Signalons également la création d’un dispositif interne de financement de projets scientifiques (voir
rapport) et la préparation de l’événement Marseille 2013 - Capitale européenne de la culture en collaboration avec des collègues mathématiciens au sein de la FRUMAM (deux projets du LIF seront
proposés).
Nous avons renoncé à maintenir un séminaire du laboratoire étant donné l’éloignement de ses
deux sites principaux. En revanche, certains séminaires d’équipes, les plus généralistes d’entre eux,
sont annoncés sur le site du laboratoire et ouverts à tous. Il y en a eu 58 en 2008 et 73 en 2009.
1.1.4
Synthèse
Points forts
–
–
–
–
la qualité de la production scientifique ;
le rayonnement sur nos thèmes de recherche et l’attractivité du laboratoire ;
un volume important de contrats ;
un laboratoire homogéne : les membres du laboratoire partagent une même manière de concevoir et pratiquer la recherche.
Points à améliorer
– les relations industrielles et la valorisation ;
– le nombres d’allocations de thèses et le nombre d’HDR ;
10
– la stratégie d’ouverture de nouvelles thématiques et de création de nouvelles équipes ;
– l’interdisciplinarité avec la biologie ;
– une meilleure structuration de l’informatique marseillaise.
Opportunités
– les équipes du LIF sont complémentaires et les collaborations interéquipes sont potentiellement très enrichissantes ;
– les collaboration avec les laboratoires de mathématiques, l’IML et le LATP, très naturelles sur
de nombreux thèmes du LIF, au sein d’une fédération mathématiques-informatique ;
– profiter de la présence d’excellents laboratoire de biologie pour développer des collaborations
en bio-info-mathématiques ;
– les écoles d’ingénieurs universitaires : projet d’adossement de filières de formation au LIF ;
– devenir laboratoire partenaire de l’Ecole Centrale de Marseille.
Risques
– la multiplication et l’éloignement des sites principaux du laboratoire constitue le principal
facteur de risque pour le laboratoire ;
– la structuration de l’informatique marseillaise peut être améliorée, mais un regroupement artificiel et imposé des laboratoires relevant de l’INS2I empècherait une bonne gouvernance et un
bon pilotage scientifique et ruinerait l’attractivité du laboratoire ;
– la chute des effectifs dans les filières scientifiques universitaires constitue un risque majeur - à
compenser par l’ouverture vers les écoles d’ingénieurs ;
– la surcharge administrative des enseignants-chercheurs atteint une cote d’alerte et contribue à
déprécier le métier d’universitaire.
1.2
Projet scientifique du laboratoire
Le LIF est un laboratoire jeune puisque créé en 2002. Sa croissance a été importante au cours
du dernier quadriennal. Nous espérons que sur la période qui commence le LIF continuera à se
développer, notamment en veillant à l’enrichissement de ses thématiques de recherche, pour devenir,
à pleine maturité en 2015, le laboratoire d’informatique d’Aix-Marseille Université.
Nous centrons notre projet sur les souhaits d’évolution de notre laboratoire en ce qui concerne les
développements de nouvelles thématiques, d’interactions fructueuses entre les équipes et de collaborations avec les autres laboratoires de l’aire d’Aix-Marseille. Bien que nous ne décrivions pas notre
projet en terme de grandes orientations scientifiques ou de défis, celui-ci s’inscrit pleinement en réponse aux grands challenges de la recherche en STIC (comme identifiés par les groupes programmatiques d’Allistene « modélisation, simulation et contrôle de systèmes complexes », « architectures,
algorithmique, programmation, sécurité et sûreté des systèmes » ou « interaction homme-systèmes,
contenus et usages » notamment) ; de plus, nous mettrons en place pour le futur quadriennal des
outils permettant à des groupes de recherche actuels ou futurs de se positionner face à ces défis,
créant une synergie autour de thèmes transversaux aux équipes.
Pour ce nouveau quadriennal, les grandes thématiques de recherche du LIF (apprentissage, bases
de données, combinatoire et graphes, recherche opérationnelle et optimisation, traitement automatique du langage, vérification) restent toujours présentes mais elles sont, pour certaines, abordées
dans une optique nouvelle : une évolution scientifique notable dans nombre de ces thématiques
est ainsi l’enrichissement des traditionnelles approches discrètes et/ou symboliques par des aspects
quantitatifs et/ou continus. Cette caractéristique se retrouve aussi bien dans des modèles probabilistes pour le traitement automatique des langues (TAL), dans les problématiques de l’apprentissage
(via l’apprentissage statistique ou l’apprentissage de langages stochastiques), dans les modèles des
systèmes informatiques (automates temporisés, modèles de concurrence avec perturbations quantifiables). De plus, des thèmes de recherche, pour certains transverses aux équipes comme le multi-
1.2. PROJET SCIENTIFIQUE DU LABORATOIRE
11
média, sont apparus et certaines équipes ont mis l’accent, notamment par des recrutements, sur des
recherches plus appliquées. Un enrichissement du LIF en terme de thématiques de recherche a donc
été initié mais il doit encore être amplifié ; cela sera un des principaux objectifs du laboratoire pour
le quadriennal futur avec toutefois une attention particulière aux interactions potentielles entre les
anciennes et les nouvelles thématiques.
Une réflexion a été engagée concernant la structuration du LIF lors de la rédaction de ce projet ; il est apparu qu’une structuration en équipe thématique (définie par des problématiques, des
connaissances et des outils communs et comptatible, autant que faire se peut, avec la localisation
géographique de ses membres) correspondait au souhait des membres du laboratoire. Les exemples
récents de collaborations inter-équipes montrent que cette structuration n’est pas cloisonnante, ces
collaborations étant plutôt rendues compliquées par la multiplicité des sites du laboratoire. De plus
au regard des structures fédératives dans lesquelles le laboratoire souhaite s’inscrire, structures qui
créeront des équipes trans-laboratoires certainement orientées «projet» et donc non pérennes, les
équipes du LIF offriront une forme de stabilité pour leurs membres. Le LIF sera donc constitué au
1er janvier 2012 de 5 équipes de recherche 2 comprenant chacune entre 6 et 13 membres permanents :
– QARMA : Equipe apprentissage et multimédia (Liva R ALAIVOLA , Stéphane AYACHE, Cécile
C APPONI, François D ENIS, Rémi E YRAUD, Amaury H ABRARD)
– BDA : Bases de données avancées (Rosine C ICCHETTI , Alain C ASALI, Andreea D RAGUT, Lotfi
L AKHAL, Noël N OVELLI, Viet Phan L UONG)
– ACRO : Algorithmique, Combinatoire et recherche opérationnelle (Victor C HEPOI , Pierre B O NAMI , François B RUCKER , Nadia C REIGNOU , Bertrand E STELLON , Karim N OUIOUA , Pascal
P RÉA, Edouard T HIEL, Yann VAXÈS)
– MoVe : Modélisation et vérification (Denis L UGIEZ , Nicolas B AUDRU, Clara B ERTOLISSI, Jérémie C HALOPIN, Solange C OUPET-G RIMAL, Séverine F RATANI, Emmanuel G ODARD, Rémi
M ORIN, Peter N IEBERT, Frédéric O LIVE, Pierre-Alain R EYNIER, Luigi S ANTOCANALE, JeanMarc TALBOT)
– TALEP : Traitement automatique du langage écrit et parlé (Alexis N ASR , Frédéric B ÉCHET,
Laure B RIEUSSEL, José D EULOFEU, Benoît FAVRE, Nuria G ALA, Elisabeth G ODBERT, Line J AKUBIEC J AMET, Monique R OLBERT, Paul S ABATIER, Marie-Hélène S TÉFANINI, André VALLI, Michael
Z OCK)
Le quadriennal devrait voir d’autres équipes se créer à la fois par restructuration des équipes
présentes et par arrivée de nouvelles thématiques.
1.2.1
Contexte
Le projet du LIF se dessine dans des contextes national et local en pleine évolution. Au CNRS,
les départements se sont transformés en instituts, plus autonomes mais plus recentrés sur leurs disciplines, la scission du département ST2I donnant naissance à l’institut INS2I (et à l’INSIS). Pour
notre discipline dispersée dans différents organismes de recherche, l’alliance ALLISTENE («alliance
des sciences et technologies du numérique») a été créée pour regrouper les grands acteurs nationaux dans le domaine de la recherche en STIC (CNRS, INRIA, CEA, Institut Telecom, Universités
et grandes écoles). Par ailleurs, on constate l’augmentation du poids des universités dans la stratégie nationale de la recherche, la loi LRU leur donnant une plus grande indépendance pour définir
leur propre stratégie pour la recherche. A cela, s’ajoute au niveau local, la création de la plus grande
université française, Aix-Marseille Université (AMU), issue de la fusion des universités de Provence
(U1), de la Méditerranée (U2) et Paul Cézanne (U3) au 1er janvier 2012.
Face à ces changements, le LIF souhaite être l’acteur principal du développement de l’informatique sur Aix-Marseille au sein de l’université unique avec l’appui de ses instituts de rattachement
du CNRS, l’INS2I et INSHS.
La structuration de la recherche au sein de l’université unique d’Aix-Marseille se dessine sous la
forme de grands pôles thématiques dans lesquels s’inscriront les laboratoires de recherche. De plus,
2 Comme nous déjà l’avons évoqué, l’équipe Escape ne sera plus une équipe du laboratoire au 1er
janvier 2012 ; par ailleurs,
le groupe de recherche LOMI ne sera pas reconduit, les deux membres de ce groupe partant à la retraite en début de quadriennal. Ils seront pour cette brève période rattachés à l’équipe MoVe.
12
les universités doivent actuellement se positionner pour sélectionner les projets qu’elles défendront
dans le cadre du Grand Emprunt National pour les laboratoires d’excellence, les initiatives d’excellence et les instituts de recherche technologique (IRT). Il appartient donc au LIF de développer un
projet ambitieux prenant en compte cette nouvelle donne de la recherche tant au niveau local qu’au
niveau national.
Aix-Marseille possède, outre le LIF, un second laboratoire rattaché principalement à l’INS2I, le
Laboratoire des Sciences de l’Information et des Systèmes (LSIS - UMR 6166, U3, U1, U2) qui regroupe des activités de recherche en automatique, image et informatique. Les relations LIF/LSIS ont
été particulièrement tendues avant 2007, puisque les deux laboratoires regroupaient des personnes
en conflit lors de la dissolution du Laboratoire d’informatique de Marseille (LIM - FRE 2246) en 2001.
Depuis 2007, ces relations se sont normalisées. Les universités tutelles communes des deux laboratoires ont par ailleurs adopté des politiques d’affectation des postes d’enseignants-chercheurs permettant d’éviter tout conflit à ce sujet3 . Les contours des deux laboratoires n’ont cependant pas évolué depuis leur création : après que le département STIC du CNRS ait incité à la création de ces deux
laboratoires en 2002, le département ST2I a mandaté en 2007 François Denis et Norbert Giambiasi
pour proposer une structuration séparant clairement les disciplines informatique et automatique4 .
L’INS2I semble maintenant privilégier à l’échelon national une politique pour le rapprochement des
laboratoires dont elle est tutelle principale sur un même site universitaire.
Les universités d’Aix-Marseille possèdent deux laboratoires de mathématiques, le Laboratoire
d’Analyse, Topologie, Probabilités (LATP - UMR 6632 U1, U3) et l’Institut de Mathématiques de
Luminy (IML - UMR 6206 U2). L’IML possède un grand nombre d’équipes travaillant en mathématiques discrètes et pour certaines, dans des thématiques proches de certaines présentes au LIF, telles
les systèmes dynamiques discrets et la logique ; ces thématiques relevant de l’informatique, l’IML est
secondairement rattaché à l’INS2I. Le LATP regroupe un grand nombre de thématiques de recherche
des mathématiques et notamment, en statistique et traitement du signal. Une structure fédérative,
la FRUMAM («Fédération de Recherche des Unités de Mathématiques de Marseille - FR 2291») regroupe ces deux laboratoires de mathématiques ainsi que le Centre de Physique Théorique (CPT UMR 6207 U2). Le LIF possède des relations étroites avec ces laboratoires de mathématique à la fois
en terme de partage de structure universitaire ou de formation (école doctorale ED 184 regroupant
mathématique, informatique et automatique, adossement des laboratoires LATP, IML, LIF, LSIS –
UFR «mathématiques, informatique et mécanique» à l’université de Provence – Master «Génie Statistique et Informatique») mais également en terme de thématique et de collaboration de recherche
(existence d’un groupe de recherche «traitement du signal et apprentissage», collaboration sur les
structures discrètes et aléatoire, organisation du semestre thématique «math-info 2010»).
Outre les universités, l’École Centrale de Marseille (ECM), école d’ingénieurs généraliste du réseau des écoles centrales est un acteur important de l’enseignement supérieur à Marseille. Comme
beaucoup de grandes écoles, l’ECM souhaite développer son adossement à la recherche en partenariat avec les laboratoires universitaires à la fois en s’assurant que ses enseignants-chercheurs sont
actifs en recherche et intégrés dans un laboratoire mais également en formant ses élèves ingénieurs
à la recherche et en mettant en place des mesures pour augmenter le nombre d’ingénieurs poursuivant en doctorat. Deux enseignants-chercheurs, dont un professeur coordonnant la discipline dans
cette école, sont membres du LIF.
Enfin, sur le plan régional, la région PACA regroupe 8 pôles de compétitivité. Parmi ces pôles, les
activités de deux d’entre eux rencontrent les problématiques scientifiques du LIF, le pôle mondial
«SCS – solutions communicantes sécurisées» et le pôle régional «PEGASE – aéronautique et spatial».
Par ailleurs, un autre pôle à vocation mondiale «MER – mer, sécurité, sûreté» possède un grand
spectre d’objectifs dans lesquels certaines activités du LIF pourraient sans doute s’inscrire.
Les orientations scientifiques du laboratoire pour le quadriennal 2012-2015 s’inscrivent dans la
continuité de l’action menée par l’équipe de direction lors du quadriennal 2008-2011 en s’appuyant
sur le contexte national et local qui vient d’être décrit. Des points importants de cette action sont à
3 Cette politique a conduit le LIF à se développer dans les facultés scientifiques tandis que le LSIS est fortement présent
dans les écoles d’ingénieurs universitaires.
4 Cette clarification, bien que souhaitée par les membres du LIF, mais non soutenue par les universités n’a malheureusement pas pu être mise en œuvre.
13
noter :
– Le LIF au cours du quadriennal s’est rapproché des pôles de compétitivité en se rapprochant
des pôles SCS et Pégase ; il a vu aussi son association avec l’ECM se développer, cette école cohabilitant le Master recherche «Informatique Fondamentale» et demandant à devenir tutelle
du LIF, demande non encore satisfaite mais reformulée récemment.
– Si l’initiative de restructuration de l’informatique et de l’automatique sur Aix-Marseille proposée par le CNRS n’a pas été validée par les universités, elle a permis la mise en place d’un
groupe de discussion entre le LIF et le LSIS ; ce groupe a pu lancer des actions menant à diverses collaborations ponctuelles (encadrement conjoint d’un doctorant, journées scientifiques
sur la logique).
– Enfin, le LIF participera avec les mathématiciens à la construction d’une structure fédérative
«mathématiques et informatique» de plus grande envergure.
1.2.2
Orientations scientifiques du laboratoire
Le LIF est un laboratoire dont les activités de recherche relèvent du cœur de la section 27 du CNU.
Le LIF et ses membres défendent une vue de l’informatique comme étant une discipline scientifique
à part entière et non comme étant un simple ensemble de techniques au service d’autres disciplines.
Ce point de vue est d’ailleurs l’élément fédérateur du laboratoire, laboratoire qui réunit pourtant des
équipes travaillant dans des domaines de recherche très différents : l’objectif de chacun au LIF est de
produire du savoir en adoptant une démarche scientifique. Le LIF est un laboratoire d’informatique
fondamentale dans le sens où les recherches qui y sont menées se fondent sur l’étude et le développement d’outils et de modèles formels, ces modèles pouvant être discrets, continus, en lien avec
le traitement de la langue, les programmes ou des modèles biologiques. C’est toujours sur le développement et la compréhension d’outils et de méthodes fondamentaux que se basent les avancées
technologiques. Le LIF est d’ailleurs attentif à l’application de ses recherches ainsi qu’aux problématiques «industrielles» : notre philosophie est ainsi de valoriser le fruit d’une recherche fondamentale
vers un domaine d’application et non pas simplement de transférer des techniques éprouvées. De
plus, si certaines activités de recherche menées dans le laboratoire trouvent leur origine dans des
problématiques «industrielles», l’approche qu’en ont les chercheurs du LIF ne sont pas de l’ordre de
l’ingénierie, mais bien dans une démarche scientifique de compréhension intrinsèque du problème
et de sa résolution. Ainsi, des actions ont été conduites par des membres du LIF pour une mise en
application de leurs recherches sous la forme de prototype logiciel et pour la valorisation de leurs
travaux avec des entreprises partenaires. Enfin, bien que centrées sur l’informatique, les équipes du
LIF collaborent avec des équipes ou des chercheurs d’autres laboratoires au niveau local, national et
international, à l’interface de l’informatique sur des thèmes comme la linguistique ou les mathématiques.
Ce positionnement scientifique fait la force du LIF, notamment parce que cette exigence quant
à la qualité de la recherche et de la valorisation est appuyée par des recrutements de chercheurs
et d’enseignants-chercheurs de très bon niveau et par la qualité de la production scientifique des
membres du laboratoire. Cependant, ce positionnement peut entraîner des difficultés, par exemple
pour trouver des doctorants dans des domaines jugés ardus ou pour nouer des contacts avec le
monde socio-économique dont les problématiques peuvent sembler éloignées de celles du LIF. Néanmoins, c’est ce positionnement qui fait l’identité du laboratoire et dans lequel les membres du LIF se
reconnaissent. Il paraît important que quelque soient les évolutions du laboratoire à court ou moyen
terme le point de vue sur la recherche en informatique partagé au sein du LIF soit préservé.
Nous pensons que la politique d’exigence menée au LIF est la meilleure pour assurer le développement au sein d’Aix-Marseille Université de la discipline «informatique» et en accroitre la visibilité
au niveau national et international. C’est donc sur notre identité en cultivant nos points forts, en
tentant d’améliorer nos points faibles et en saisissant l’opportunité de la création d’Aix-Marseille
Université, en partenariat avec les laboratoires de mathématiques (LATP, IML) et le LSIS, que se
décline notre projet.
Le LIF est un laboratoire en expansion qui a plus que doublé en taille depuis sa création et qui a
vu ces effectifs chercheurs et enseignants-chercheurs augmenter de 25% sur ces 4 dernières années.
14
Malgré ce fort accroissement de taille, le LIF n’a pas connu de renouvellement thématique notable.
Chacune des équipes a bien sûr fait évoluer ses thématiques de recherche mais les contours de ces
équipes n’ont que peu varié. Le LIF doit avoir pour vocation d’être le laboratoire de recherche en informatique d’Aix-Marseille Université dans lequel se concentre l’essentiel des activités de recherche
relevant de la 27ième section du CNU5 . Sans compromettre la recherche dans les équipes existantes
et sans nuire à leur développement, il est crucial de tenter de diversifier les recherches menées au
LIF. Ceci passe nécessairement par le développement de nouvelles thématiques de recherche au
sein du laboratoire. Il est à noter que le spectre thématique de la recherche en informatique sur l’aire
d’Aix-Marseille est relativement étroit, compte tenu des recherches en informatique menées au LIF,
à l’IML et au LSIS. Il existe donc dans le paysage local et plus particulièrement au LIF une place certaine pour des thématiques telles que la bio-informatique, la programmation massivement parallèle
ou distribuée (cloud computing, grilles de calcul, architecture multi-cœurs) ou les réseaux.
Parallèlement au souhait de développer de nouvelles thématiques, nous voulons voir renforcer
les collaborations inter-équipes qu’elles soient ponctuelles ou à moyen terme (comme dans le cadre
d’un projet ANR). De telles collaborations existent à l’heure actuelle, notamment entre les équipes
MoVe et ACRO autour de problèmes d’algorithmique distribuée, entre les équipes QARMA et TALEP autour de l’apprentissage pour le TAL et du traitement de données multimédia ; d’autres collaborations devraient de plus voir le jour prochainement entre les équipes QARMA et ACRO sur
la problématique de l’optimisation dans le cadre de l’apprentissage statistique et entre les équipes
MoVe et ACRO à propos de travaux sur les treillis. Cependant, ce type de collaboration entre équipes
de thématiques différentes nécessite la plupart du temps des rencontres régulières et fréquentes pour
partager des points de vues venant de domaines différents. Elles sont donc handicapées lorsque
qu’elle concerne une équipe du site Nord et une du site Sud par la distance importante séparant les
deux sites principaux du laboratoires (près d’une heure et demi en transport en commun)6 .
Jusqu’à présent la réflexion et le positionnement relatifs aux priorités scientifiques dans le domaine des STIC se faisaient au niveau de chaque équipe. Cette réflexion n’était pas menée au niveau du laboratoire. Afin de pallier celà, le LIF se dotera pour le prochain quadriennal d’un conseil
d’orientation et de prospective scientifique. Ce conseil sera l’organe de réflexion du laboratoire où
les thématiques à développer ou à faire émerger, la stratégie concernant la recherche et la structure
du laboratoire seront discutées à la fois dans une optique interne mais également dans la relation
avec nos laboratoires partenaires.
Au cours de ce quadriennal, le LIF a amélioré son ancrage régional : les activités de recherche
récentes du LIF ont permis de créer un lien entre le laboratoire et deux pôles de compétitivité de
la région PACA (le pôle mondial «Solutions communicantes sécurisées – SCS» et le pôle régional
Pégase). Récemment, le LIF est également devenu partenaire du pôle CAP-DIGITAL de la région
Ile-de-France. L’un des objectifs de ce quadriennal sera de développer et de formaliser ces relations pour faire du LIF un acteur reconnu de la recherche et de l’innovation dans la région. Le
recrutement d’enseignants-chercheurs ayant une expérience de recherche à orientation technologique et la nomination d’un chargé de mission, la constitution d’une cellule «valorisation et relations industrielles» ont beaucoup contribué à ce résultat certes encore modeste mais encourageant
pour tous les membres du laboratoire. L’extension des liens avec les pôles SCS et Pégase, une démarche vers les intervenants du pôle MER sont les objectifs du LIF sur ce point lors du prochain
quadriennal. Le développement d’actions plus soutenues (assurer une représentation du LIF dans
les réunions des pôles de compétitivité, les salons de rencontres avec les entreprises, démarcher les
entreprises pour valoriser nos recherches ou s’ouvrir à de nouveaux champs d’application) nécessiterait à l’heure actuelle un investissement humain supplémentaire difficilement compatible avec le
métier d’enseignant-chercheur.
5 Bien entendu, cela n’exclut pas que des recherches dans ce domaine puissent être faites dans d’autres laboratoires comme
l’IML ou le LSIS, notamment des recherches plus à l’interface avec des disciplines propres à ces laboratoires.
6 Il convient de noter par exemple, qu’il est plus rapide d’aller en transport en commun du LIAFA (Paris 7, situé à Chevaleret) au LRI (sur le campus d’Orsay) que d’aller du CMI sur le technopôle de Château-Gombert (site Nord du LIF) au campus
de Luminy (Site Sud du LIF).
1.2.3
15
Collaborations et actions fédératives
Notre politique de développement s’inscrit localement au moment où se construit l’université
unique d’Aix-Marseille, où celle-ci doit choisir ses structures, identifier les disciplines ou thématiques scientifiques qu’elle voudra porter et développer, définir les moyens et les outils pour supporter sa politique de recherche. Conscient de son environnement, le LIF doit se positionner pour
faire de l’informatique une des disciplines d’excellence d’AMU.
L’informatique est depuis toujours en interaction avec de nombreuses autres disciplines. C’est
donc de cette caractéristique et de la richesse de l’environnement que créera Aix-Marseille Université que le LIF devra tirer parti pour assurer le développement de l’informatique sur l’aire d’AixMarseille. Le LIF a d’ores et déjà développé des relations avec certains laboratoires d’Aix-Marseille :
son positionnement scientifique et son approche de la recherche, l’existence de locaux et de structures universitaires partagées (UFR, école doctorale, formation de Master) mais également le partage
de problématiques de recherche ont conduit le LIF a un rapprochement avec les laboratoires de mathématiques d’Aix-Marseille, le LATP et l’IML. Par ailleurs, l’existence de relations ponctuelles avec
le LSIS autour de thématiques partagées relevant de l’informatique fondamentale nous amène à
considérer une structure formalisant ces échanges. Enfin, le LIF possède une activité de recherche
soutenue en traitement automatique des langues (TAL), historiquement héritée du LIM. L’équipe
TALEP en évolution dans ces thématiques bénéficie de la proximité de deux autres laboratoires affichant des compétences complémentaires : le Laboratoire Parole et Langage (LPL - UMR 6057 –
Université de Provence) en sciences du langage (et tout particulièrement en phonétique) et le Laboratoire Informatique d’Avignon (LIA - EA 4128 Université d’Avignon) dans le domaine de la compréhension orale.
Nous décrivons comment ces interactions vont se structurer dans le futur en espérant que de
nouvelles avec d’autres disciplines comme, par exemple, la cognition et les neurosciences, verront le
jour.
Interactions avec les laboratoires de mathématiques La brique importante du projet scientifique
du LIF au niveau local est la création d’un institut mathématiques et informatique au sein d’AixMarseille Université. L’informatique et les mathématiques partagent cette caractéristique de posséder à la fois une forte composante disciplinaire mais également une part très importante d’interaction avec d’autres disciplines telles que la physique, l’ingénierie, la biologie, l’économie ou les
sciences du langage. Sur Aix-Marseille, ces deux disciplines sont proches dans l’organisation des
structures universitaires et sont liés par des collaborations scientifiques. Sur ce constat, nous projettons de créer un institut réunissant mathématique et informatique. L’objectif est de créer un pôle
d’excellence de visibilité mondiale à Aix-Marseille dans le domaine de l’informatique et des mathématiques. S’appuyant sur deux laboratoires de mathématiques (le LATP et l’IML), un laboratoire
d’informatique (le LIF) et un laboratoire pluri-disciplinaire (le CPT), laboratoires renommés pour
leurs travaux 7 , cet institut regroupera plus de 250 chercheurs et enseignants-chercheurs permanents
et près de 150 non-permanents.
Notre souhait est donc de créer une structure fédérative identifiant un pôle fort dans le domaine
des mathématiques et de l’informatique. Cette structure visera à :
– supporter le développement des disciplines mathématiques et informatique au sein de l’université unique d’Aix-Marseille
– créer les conditions pour renforcer les échanges et les collaborations entre les mathématiques
et l’informatique et encourager les projets à l’interface ou pluri-disciplinaires impliquant ces
deux thématiques
7 Le LSIS qui regroupe un certain nombre d’activités de recherche en informatique a été invité à plusieurs reprises à rejoindre le projet. Jusqu’à récemment, il a toujours décliné cette invitation. Pourtant, cela aurait fait sens au regard des interactions entre automatique et mathématiques, à l’image de la fédération de recherche Charles-Hermite (FR 3198) regroupe
l’automatique (CRAN), l’informatique (LORIA) et les mathématiques (Elie-Cartan, LMAM) dans le cadre des universités de
Lorraine. Il semble que la position du LSIS ait depuis peu évolué et qu’il envisage dorénavant sa participation à ce projet.
Cependant, les modalités de celle-ci restent à l’heure actuelle à confirmer et à définir.
16
– faire naître un pôle de visibilité international pour la recherche (attractivité de brillants chercheurs étrangers pour les concours de chercheurs ou de professeurs et des séjours «invités»
longs, support de chercheurs en résidence, post-doctorants) et pour l’enseignement (Master
Erasmus Mundus sur le thème mathématiques-informatique en partenariat avec l’ECM)
– servir de vitrine au deux disciplines sur l’aire d’Aix-Marseille et d’interface vers les mondes
politique et socio-économique
– mutualiser et développer des ressources communes (services administratif et informatique,
communication, valorisation,. . . )
Cet institut concentrera le cœur de la recherche en informatique au sein d’Aix-Marseille Université et en sera le principal outil de développement. Il s’appuiera sur des laboratoires qui continueront
à avoir leur identité propre et développeront leurs thématiques de recherche disciplinaires en appliquant leur propre politique scientifique. Cet institut visera à dégager deux sites bi-disciplinaires,
l’un principal en centre ville de Marseille, l’autre secondaire sur le campus de Luminy et concentrera
sur ces deux sites les laboratoires de recherche et les formations de type Master (les enseignements
de type Licence continueront d’être dupliqués sur d’autres sites comme par exemple à Aix mais la
position centrale du site principal simplifiera les déplacements des enseignants-chercheurs).
Ce projet de fédération se double d’un projet candidat au titre de «laboratoire d’excellence» 8 .
dans le cadre du Grand Emprunt National dans le domaine des mathématiques et de l’informatique. Ce laboratoire d’excellence regroupera sous la forme d’un consortium, les laboratoires, le LIF,
l’IML, le LATP, et le CPT ainsi que le Centre International de Rencontres Mathématiques (CIRM UMS 822 - CNRS - SMF). Le CIRM est un outil important de la communauté mathématique française, connu mondialement pour l’organisation de congrès en mathématiques (et en informatique).
Chaque année, plus de 3000 chercheurs de toutes nationalités sont accueillis au CIRM. Ce projet
de candidature «laboratoire d’excellence» est soutenu par l’INSMI du CNRS et par les universités
tutelles du LIF. Il a également reçu l’appui de l’ECM.
Interactions avec le LSIS A l’initiative de l’INS2I qui souhaite dans certaines universités un rapprochement des unités dont il est tutelle principale, nous proposons la création d’une fédération
regroupant le LIF et le LSIS. Ce projet de création est issu des réunions régulières entre membres
des deux laboratoires depuis maintenant plus de deux ans. Bien que ces réunions aient permis aux
membres du LIF de constater que les orientations du LSIS se sont clairement tournées vers l’ingénierie et par cela, éloignées de celles du LIF, nous pensons qu’une telle fédération serait utile pour
notamment maintenir un contact autour de la discipline «informatique” présente au LSIS.
Cette fédération intitulée FRIIAM (Fédération de Recherche en Informatique et Interactions d’AixMarseille) a pour objectif de donner un cadre aux collaborations entre chercheurs du LIF et du
LSIS, d’en initier de nouvelles en assurant une animation scientifique sous la forme de journées
thématiques ou de séminaires. Par ailleurs, cette fédération sera le berceau d’initiatives communes
aux deux laboratoires comme l’organisation de conférences, d’encadrements de thèses ou de projets
transverses.
Interactions autour du langage Le LIF possède de fortes compétences dans le domaine du traitement automatique de la langue et de la production de ressources linguistiques. Ces thématiques de
recherche sont également très présentes au niveau régional dans d’autres laboratoires tels que le LPL
à l’université de Provence et le LIA à l’université d’Avignon, deux laboratoires avec lesquels l’équipe
TALEP du LIF collabore déjà. Par ailleurs, Aix-Marseille Université sera un pôle de recherche sur les
langues et le langage, remarquable au niveau national comme au niveau européen par la richesse
des langues qui y sont étudiées mais également des recherches qui y sont menées à l’interface du
langage, de la psychologie et des neurosciences. Un projet de laboratoire d’excellence «langues et
langage» est d’ailleurs actuellement à l’étude, projet structuré en trois axes, reflétant la diversité des
acteurs autour de ce thème ; le LIF et le LPL seront les acteurs principaux de l’axe «corpus, données,
8 Ce projet est en cours d’élaboration, le calendrier des appels du Grand Emprunt National ne nous permet pas de produire
un document unique pour l’ensemble des unités participantes
17
ressources», renforçant ainsi les interactions entre les deux laboratoires. Il paraît, de toute façon, judicieux au regard des compétences en étude et traitement de la langue dans la région d’envisager
la création d’une structure fédérative sur ces thèmes, sous la forme d’un pôle de recherche régional
incluant le LPL et le LIA. La forme précise et optimale de cette coopération (structure fédérative d’un
futur PRES incluant l’université d’Avignon, fédération de laboratoires, . . . ) reste à définir.
Autres interactions En marge des actions structurantes que nous avons citées, le LIF est également
partenaire de deux initiatives liées au Grand Emprunt National.
– Le LIF est partenaire dans une réponse à l’appel à projet «équipement d’excellence» ; le projet
PICIDA*M (Plateforme Interdisciplinaire de Calcul Intensif et Distribué d’Aix-Marseille) vise
à regrouper et à augmenter les moyens de calcul et de stockage informatique de l’ensemble
de l’aire marseillaise sous la forme d’une grille de calcul incluant plusieurs calculateurs hauteperformance. Le LIF sera dans un premier temps utilisateur de cette grille pour mener des
expérimentations sur des données de grande taille autour du traitement de la langue (corpus,
données audio), modèles de systèmes informatiques, bases et entrepôts de données et fouille
de données multi-média. La participation du LIF pourrait dans un second temps évoluer si
les thématiques du calcul sur grille se développaient au sein du laboratoire, la grille devenant
l’objet d’étude.
– via la fédération FRIIAM, le LIF sera partie prenante à une réponse à l’appel à projet «institut
de recherche technologique (IRT)». Cette participation s’inscrit dans la volonté du laboratoire
de développer un volet technologique de ses recherches et est cohérente avec le développement
de ses relations avec les écoles d’ingénieurs. La place du LIF dans la réponse à cet appel reste
cependant à préciser.
1.2.4
Politique du laboratoire
La politique du laboratoire sera de supporter les orientations scientifiques proposées et de faire
que collectivement et individuellement chaque membre du laboratoire s’y sente impliqué. Le laboratoire devra veiller à respecter un équilibre entre les équipes en ce qui concerne les ressources
communes (allocations ministérielles, recrutements d’enseignant-chercheur, part de la dotation donnée aux équipes) tout en étant attentif aux initiatives qui permettront, par exemple, l’émergence de
thèmes ou d’équipes nouvelles. Le laboratoire devra fournir de bonnes conditions à ses membres :
en particulier, son action devra contribuer, alors que le laboratoire est constitué essentiellement
d’enseignants-chercheurs et de surcroît relativement jeunes, à dégager le maximum de temps pour
que chacun puisse mener pleinement une activité de recherche. Le laboratoire, associé aux équipes
de recherche, devra également soutenir les chercheurs les plus fragiles quant à leur production scientifique.
Support des orientations scientifiques Dans les 4 années qui viennent le LIF va connaître de nombreux départs notamment dus à la retraite de 4 professeurs ainsi qu’au départ annoncé de certains
membres de l’équipe Escape. Les universités, désormais maîtresses de leur politique d’emploi, utilisent en particulier la redistribution des postes d’enseignants-chercheurs pour soutenir leur politique scientifique. Cependant il est naturel de penser que ces postes reviendront au LIF car le passé
récent a montré que l’informatique et le LIF ont été fortement soutenus par nos deux tutelles universitaires ; par ailleurs, l’informatique reste fortement déficitaire en ce qui concerne l’enseignement.
Notre projet affichant un programme ambitieux de développement de la discipline au sein d’AMU
devrait favoriser ce soutien universitaire. Ces nouveaux recrutements à la fois de professeurs et
de maîtres de conférences devraient pouvoir supporter notre politique de diversification des thématiques du laboratoire aussi bien en soutenant l’émergence d’équipes nouvelles créées par des
membres du laboratoire qu’en attirant des personnes susceptibles de développer de nouvelles thématiques.
Sur le plan des recrutements des enseignants-chercheurs, le LIF pratique une politique qui conduit
à un taux important de recrutement extérieurs, et, malgré sa taille moyenne notre laboratoire réussit
18
à attirer de très bons candidats au niveau national dans un contexte très concurrentiel. Cependant,
la présence de deux tutelles universitaires contribuant de manière égale en postes d’enseignantschercheurs compliquait la mise en place d’une politique globale : tout d’abord, maintenir la géographie des équipes impliquait une relation entre sites, universités et équipes du laboratoire. Par
ailleurs, ces deux tutelles n’avaient pas les mêmes exigences quant au fléchage des postes (fléché
thématiquement ou ouvert sur la majorité des thématiques du laboratoire). Les fléchages de profil
large s’ils ont l’avantage d’attirer les meilleurs candidats, ont l’inconvénient de produire des classements et des résultats non nécessairement en adéquation avec les nécessités qu’affichent ou que
devraient afficher les équipes au moment présent. En revanche, un fléchage thématiquement plus
précis s’il assure une bonne adéquation au profil recherché réduit nécessairement le vivier des candidats.
Nous visons à continuer à attirer des candidats de grande qualité, aidé en cela par rigueur reconnue qu’applique le LIF dans ces recrutements et la visibilité offerte par l’institut mathématiques
et informatique. De plus, dans l’optique de recruter des personnes susceptibles de développer de
nouvelles thématiques au sein du LIF, nous espérons pouvoir bénéficier des chaîres d’excellence 9
afin d’attirer les meilleurs, par exemple en mutation. Dans le cadre d’une veille sur les candidats
potentiels qui pourraient développer de nouvelles thématiques au LIF, la possibilité de recruter des
enseignants-chercheurs au fil de l’eau10 est également un bon outil pour attirer des candidats, notamment étrangers, au plus vite. Nous continuerons à indiquer dans certains profils de postes qu’une
expérience technologique (post-doc dans une entreprise, travail sur des études de cas, expérience
dans le secteur privé) sera souhaitée.
La création d’une université unique permettra d’avoir une politique plus globale pour les recrutements et le fléchage des postes d’enseignant-chercheur. Dans le cadre fixé par AMU, le LIF adaptera
si nécessaire sa politique de recrutement en essayant de combiner des fléchages thématiques précis
pour soutenir des équipes ou des groupes de recherche en développement, en particulier dans le
cadre de domaines de recherche nouveaux, et des profils larges pour s’assurer une ouverture vers
les meilleurs candidats quelle que soit leur thématique de recherche. Dans ce contexte, il appartiendra désormais aux équipes d’identifier plus encore les thématiques qu’elles voudront développer et
d’y mettre les moyens en terme de recrutement d’enseignants-chercheurs.
Les collaborations inter-équipes au sein du LIF doivent être maintenues et développées malgré le
handicap que constitue la distance entre les sites Nord et Sud du laboratoire. Le laboratoire soutiendra les initiatives de collaboration scientifiques avec les mathématiques, dans le cadre de l’institut
mathématiques et informatique, avec le LSIS dans le cadre la fédération FRIIAM ainsi que des collaborations sur les thématiques du traitement de la langue avec, par exemple, le LPL.
Ces initiatives qu’elles soient internes au LIF ou non se feront dans une démarche «projet» avec
un type de soutien qui dépendra de leur nature et de leur évolution, le laboratoire et les porteurs de
ces initiatives devant régulièrement échanger sur les objectifs atteints et les perspectives. Ainsi :
– Nous soutiendrons des projets de chercheurs, appartenant à des équipes ou des laboratoires
différents et souhaitant collaborer autour d’une thématique. Priorité sera donnée aux jeunes
chercheurs, qui seront alors accompagnés tout au long de leur projet par un ou plusieurs chercheurs seniors ;
– Pour des objectifs à plus long terme, le laboratoire pourrait s’engager à soutenir financièrement
sur une périodes de quelques années des projets de création d’équipe dans l’attente que ceux-ci
puissent s’auto-financer dans le cadre d’un projet ANR par exemple.
– Le laboratoire continuera à encourager vivement les jeunes maîtres de conférences à encadrer
des stages de Master recherche et des thèses de doctorat, sous la responsabilité d’un HDR qui
veillera au bon déroulement du stage ou de la thèse.
– Les co-encadrements sur des thématiques fondamentales ou sur un champ d’application de
recherche à l’interface de deux équipes de recherche ou laboratoires seront favorisés.
9 Mises en place actuellement à l’université de la Méditerranée, ces chaîres associent à un poste de professeur une dotation
financière, un poste de maître de conférences fléché et une allocation de recherche.
10 Cette procédure est actuellement proposée à l’université de la Méditerranée mais pas à l’université de Provence.
19
Notamment afin de gérer ces initiatives, il sera créé au sein du laboratoire un conseil d’orientation et de prospective scientifique, ce conseil aura ici pour mission de sélectionner et d’évaluer
annuellement ces projets de collaboration ainsi que d’approuver la création de nouvelles équipes et
leur support intégral par le laboratoire. Des équipes-projets pourront également voir le jour dans le
cadre de l’institut de mathématiques et d’informatique, pilotées et financées par l’institut.
Nos relations avec les écoles d’ingénieurs d’Aix-Marseille, assez diverses, devraient évoluer au
cours de ce quadriennal. Un changement important pour ces écoles sera la fusion de l’ESIL et de Polytech. Cette fusion devra sans aucun doute s’accompagner d’une restructuration des enseignements
en informatique puisqu’il existe un chevauchement important entre la filière «Génie Informatique et
Industrielle». de Polytech (filière adossée au LSIS) et la filière «Informatique» de l’ESIL. Le LIF souhaite fortement être associé à cette restructuration. Notre action visera également un renforcement
de notre partenariat avec l’École Centrale de Marseille autant sur le volet recherche, en faisant du
LIF le laboratoire d’informatique adossé à cette école, que sur le volet enseignement, en poursuivant
la co-habilitation du Master recherche «Informatique Fondamentale» et la construction d’une vraie
filière d’ingénieur en informatique au sein de cette école. Le souhait de l’ECM de devenir tutelle
du laboratoire et notre souhait de nous impliquer dans la formation des ingénieurs de cette école
forment le début d’un partenariat fructueux. Ces liens devraient encore se renforcer dans le futur
puisque l’ECM souhaite être partenaire de l’institut mathématiques et informatique.
Support aux chercheurs et aux enseignants-chercheurs L’informatique souffre au niveau national
d’un ratio professeurs-maîtres de conférences très défavorables entraînant une implication trop importante des maîtres de conférences dans les tâches administratives (à l’UFR MIM de U1, pour la
section 27 du CNU, on compte 6 professeurs pour 24 maîtres de conférences). La situation est encore
plus flagrante à Aix-Marseille puisque la multiplication des structures implique la multiplication
des charges administratives et pédagogiques. Les informaticiens sont également très présents dans
les conseils d’UFR et centraux des universités marseillaises assurant une bonne représentation de la
discipline au niveau des instances ; bien que très important, cela s’ajoute aux autres tâches. L’université unique entraînera la suppression des doublons dans les responsabilités universitaires et si elle
s’accompagne d’une rationalisation des sites d’enseignement, des suppressions au moins partielles
dans les responsabilités pédagogiques. Il faudra cependant veiller en ce qui concerne les conseils
centraux et d’UFR à ce que la discipline informatique soit toujours représentée. Au niveau du laboratoire, le LIF étant principalement composé d’enseignants-chercheurs, ces derniers y assument
l’essentiel des responsabilités.
A l’Université de Provence, les nouveaux recrutés maîtres de conférences sont déchargés d’un
tiers de leur service statutaire lors de leur première année d’exercice. Cette mesure nous paraît importante car elle permet à nos jeunes collègues de maintenir une plus grande activité de recherche
(c’est au cours de cette première année que certains jeunes recrutés perdent pied) et renforce l’attractivité du laboratoire. Nous essayerons de faire en sorte que cette mesure s’applique au sein d’AixMarseille Université11 . Alors qu’un référentiel national décliné par les universités prévoit de nombreux cas de décharge pour des responsabilités administratives ou d’enseignement, il ne semble pas
que les universités d’Aix-Marseille aient intégré de manière satisfaisante les cas de décharge pour
des missions liées au support à la recherche dans les laboratoires. Un effort coordonné des directeurs
d’unité dans ce sens devrait sans doute faire évoluer la situation au sein de l’université unique.
Le laboratoire propose à certains enseignants-chercheurs un statut de membre associé. Les membres
associés assurent parfois des charges administratives ou électives lourdes dans leur composante ou
université. Les membres associés peuvent également être des personnes accomplissant des tâches
pédagogiques dans des filières adossées au laboratoire. Dans les deux cas, ces collègues ne peuvent
pas toujours maintenir une activité de recherche soutenue et ont ainsi une production scientifique
faible. Cependant le laboratoire bénéficie indirectement de leur activité universitaire. Les membres
associés peuvent bénéficier de ressources du laboraoire et afficher leur association au LIF.
11 Il existe maintenant la possibilité pour des membres de projets ANR de payer une décharge de service ; cependant, ce
dispositif échappant à la gestion des universités, celles-ci sont à l’heure actuelle réticentes à le mettre en place.
20
Nous avons également identifié certains collègues, membres du laboratoire, dont on peut juger la production scientifique fragile. Les personnes, membres ou associées à une équipe, auront
pour tâche de reprendre une activité de recherche raisonnable, aidées en cela par leur responsable
d’équipe avec le soutien du laboratoire. Leurs activités de recherche et leur position vis-à-vis du
laboratoire seront reconsidérées lors du début du quadriennal.
Support à la recherche Comme de très nombreux laboratoires de recherche en informatique au
niveau national, le LIF a des difficultés pour attirer un nombre suffisant de doctorants de qualité.
Alors que de plus en plus d’étudiants scientifiques désertent les premiers cycles universitaires et
que les places en école d’ingénieurs augmentent, on ne peut qu’être inquiet quant au nombre des
étudiants souhaitant poursuivre en thèse de doctorat. Il nous paraît cependant important que tout
étudiant de niveau Bac+5 ait eu au cours de son cursus une initiation à la recherche.
La spécialité recherche «Informatique Fondamentale» adossée au LIF sera profondément modifiée lors du prochain quadriennal à la fois en prenant plus largement en compte les divers thèmes
du laboratoire mais également en simplifiant les parcours étudiants possibles. Mais nous pensons
également que nous devons renforcer l’attractivité du Master recherche, notamment en regroupant
ces enseignements sur un même site et en assurant une plus grande publicité aux niveaux national et
européen. La co-habilitation de ce Master avec l’École Centrale de Marseille et le développement de
la filière «informatique» au sein de cette école devrait attirer vers la recherche des élèves ingénieurs.
Nous espérons que certains d’entre eux poursuivront en thèse après ce Master recherche.
Un autre objectif est d’attirer plus d’étudiants extérieurs au bassin régional ou venant de l’étranger pour faire une thèse au LIF. Là encore flécher des allocations de recherche spécifiquement pour
accueillir de tels candidats nous paraît être la bonne solution. Nous espérons de plus que l’ECM qui
dispose de filières d’échanges internationaux pourra nous faire bénéficier de son dispositif dans le
cadre du Master recherche co-habilité. Bien évidemment à terme, nous pourrons également compter sur l’attractivité de l’institut mathématiques et informatique. La diversification des financements
de thèse devra être maintenue afin que tout étudiant de qualité souhaitant poursuivre en thèse de
doctorat puisse avoir un financement. Les équipes seront toutes incitées à obtenir ou à augmenter leurs ressources propres sous la forme notamment de projet ANR, permettant le financement
d’allocation de recherche. Il est à noter qu’en ce qui concerne les allocations ministérielles, l’école
doctorale «mathématique – informatique» ne semble pas particulièrement bien dotée (en 2010, cette
école s’est vue attribuer 9 allocations de recherche pour les 4 laboratoires qu’elle comprend, LATP,
IML, LIF, LSIS). Comme pour les postes d’enseignants-chercheurs, notre politique sera de privilégier les meilleurs candidats pour l’obtention de ces allocations ministérielles. Cependant, dans le but
de soutenir l’émergence de nouveaux groupes de recherche ou de nouvelles thématiques au sein du
laboratoire ou de garantir une certaine équité dans la distribution de cette ressource partagée, il se
pourra que certaines allocations soient fléchées thématiquement ; il sera souhaitable alors que ces
allocations fassent l’objet d’une publication au niveau national.
1.3
1.3.1
Fonctionnement et vie du laboratoire
Gouvernance
Lors du premier quadriennal (2002-2005) du LIF, la gouvernance était réduite au directeur et
au conseil de laboratoire. Lors du quadriennal 2008-2011 qui va s’achever, le LIF a enrichi celle-ci
puisqu’il possède désormais un directeur-adjoint et un conseil de direction composé des responsables des différentes équipes. Il s’est de plus doté d’un conseil scientifique composé de personnalités scientifiques extérieures au laboratoire. Ceci est complété par un certain nombre de chargés de
mission (Propriété intellectuelle, relations industrielles et valorisation – Animation de la recherche
et communication scientifique – Formations universitaires et PRES). Ces différents organes de gouvernance ont permis un bon fonctionnement du LIF mais la taille du laboratoire et la croissance qui
devrait être la sienne (même s’il se peut qu’elle soit moins rapide que celle de ces dernières années),
nous incitent à enrichir cette gouvernance. Nous proposons les fonctions et structures suivantes :
1.3. FONCTIONNEMENT ET VIE DU LABORATOIRE
21
– Direction : composée d’un directeur, d’un directeur-adjoint et de la responsable administrative.
– Conseil de direction : il réunit la direction, les différents responsables des équipes du laboratoire. Son rôle est de l’ordre de la décision concernant la vie quotidienne du laboratoire et
de ces équipes. Il sert de lieu d’échange entre la direction et les équipes. Il est consulté par
la direction fréquemment par courriel, réunion téléphonique ou vidéo-conférence. Il se réunit
physiquement au moins une fois par mois.
– Conseil de laboratoire (conformément au texte réglementaire du 28 octobre 1992).
– Conseil d’orientation et de prospective scientifique : ce conseil inclut le conseil de direction et
est constitué de plus de personnels chercheurs et enseignants-chercheurs du laboratoire (leur
nombre exact reste à déterminer). Ces personnes sont nommées par le directeur après avis du
conseil de laboratoire. Son rôle est de définir les orientations scientifiques du laboratoire, d’anticiper les grandes orientations thématiques de la recherche dans les contextes local, national
et international. Il valide et aide à mettre en œuvre la politique scientifique du laboratoire. Il
est consulté pour la création ou la restructuration profonde d’équipe du laboratoire et aide à la
mise en place d’axes de recherche transversaux aux équipes.
– Comité d’experts : anciennement nommé conseil scientifique, il s’agit de personnalités extérieures au laboratoire qui ont pour tâche d’apporter un œil extérieur sur le bilan du laboratoire
et sur la politique scientifique de celui-ci. Il est constitué de personnes nommées par le directeur sur proposition des responsables d’équipe en début de quadriennal et se réunit deux fois
sur cette période.
De plus, un ensemble de missions seront définies et affectées à des chargés de mission. Cependant, les missions seront plus cadrées qu’actuellement et placées sous la responsabilités du conseil
de laboratoire : le conseil sera à l’initiative de la création, de la fin ou du renouvellement des missions
et des missionnés. Ces chargés de mission devront ainsi rendre compte au conseil chaque année de
leur action, leurs missions pouvant être modifiées à cette occasion.
1.3.2
Animation scientifique
Depuis maintenant 3 ans, le laboratoire organise des journées scientifiques qui donnent l’occasion à tous les membres du LIF de se rencontrer et de présenter leurs travaux de recherche. Alors
que ces journées étaient organisées initialement sur une journée sur le campus de Luminy, elles se
sont déroulées en 2010 à Agay pendant deux jours. Elles ont été l’occasion d’accueillir une partie du
conseil scientifique du laboratoire et de travailler sur le projet de notre laboratoire. Les participants
plus nombreux encore que lorsque les journées se déroulaient à Marseille, ont apprécié de se retrouver dans un cadre différent de celui de leur quotidien. Ce format est donc celui qui sera mis en place
pour les journées de notre laboratoire.
Si les groupes de travail existant dans la plupart des équipes permettent d’assurer une bonne
animation scientifique à ce niveau, l’absence de séminaire de laboratoire nuit à la cohésion du LIF. Ce
séminaire existait il y a quelques années mais a été supprimé faute d’un lieu favorable à sa réalisation
dû à l’éloignement des deux sites principaux. Cependant, l’expérience convaincante du colloquium
de la FRUMAM réunissant les deux laboratoires de mathématiques (qui partagent les mêmes sites
marseillais que le LIF) sur le site de Saint-Charles et accueillant chaque mois un invité font qu’un
colloquium «informatique» sur ce site pourrait être viable (l’utilisation des locaux de la FRUMAM
serait facilité par le rapprochement structurel planifié entre mathématique et informatique). Ceci
donnerait une occasion régulière pour les membres des différents sites du laboratoire de se réunir
et serait l’occasion de présentations de travaux destinés à une large audience et de l’ouverture des
membres du LIF à d’autres thématiques de recherche. Ce colloquium pourrait par ailleurs être une
initiative de la fédération FRIIAM.
Enfin, en 2010, le laboratoire participera pour la première fois à la fête de la science dans le cadre
des journées portes-ouvertes de l’ECM.
22
1.3.3
Communication - système d’information
La mission de communication telle que définie actuellement ne comprend que des actions intralaboratoires (annonce de séminaires, dépôts des publications sur HAL), la partie tournée vers l’extérieur du laboratoire, en particulier la production du matériel de communication, étant assurée par
le chargé de mission «valorisation». Il nous paraît important de coordonner les missions de communication et de valorisation et de redéfinir précisément le rôle de chacun. En particulier, un groupe de
travail coordonné par le chargé de mission «communication» aura pour objectif une remise à plat
du site web du laboratoire afin de prendre en compte, notamment, la communication vers le monde
socio-économique. Enfin, étudier la mise en place d’un système d’information qui pourrait automatiser certains tâches (diffusion des appels d’offres, des annonces de séminaires d’équipes, utilisation
systématique de HAL, pré-établissement des ordres de mission) nous paraît fortement souhaitable.
Les actions de valorisation mises en place par le laboratoire sous la responsabilité d’un chargé de
mission ne peuvent se développer pleinement sous cette forme. Cette tâche mêlant connaissance des
recherches à valoriser, compétences juridiques en droit du logiciel et propriété industrielle, connaissance des outils et des structures de valorisation (ProtisValor, CNRS, INRIA, ValorPACA) nécessite
un personnel pour lequel ce doit être la fonction principale. Une tel poste pourrait être créé au niveau
de l’institut mathématiques et informatique.
1.3.4
Moyens financiers du laboratoire
Le laboratoire dispose de ressources propres en constante augmentation liées principalement
à des financements sur projets ANR. Ces financements sont néanmoins assez variables selon les
équipes et de plus, comme toute réponse à un appel sélectif, assez aléatoire au fil du temps. Cela
laisse parfois des équipes sans ressource propre. Seule la dotation du laboratoire peut alors servir de
support à de telles équipes durant une période de vaches maigres.
Cette dotation est actuellement utilisée pour les 2/3 en crédits affectés directement à la recherche.
Ces crédits ne sont pas redistribués automatiquement aux équipes ou aux chercheurs mais attribués
sur demande ou projet et visent à soutenir plus particulièrement les équipes temporairement sans
ressource propre. Cette distribution, bien que faite d’actions ponctuelles, se trouve être équitable
entre les équipes sur le long terme. Alors que les universités d’Aix-Marseille pratiquaient les reports
des crédits alloués non dépensés d’une année sur l’autre notamment pour leur dotation (et parfois
pour des ressources propres), cette pratique est dorénavant révolue. Une partie de la dotation universitaire ainsi reprise par l’université peut néanmoins être réattribuée au laboratoire sur projet mais
l’abandon de la pratique des reports enlève bien évidemment de la souplesse dans l’utilisation de
cette dotation.
Le laboratoire ne collecte à l’heure actuelle aucun impôt sur les ressources propres des équipes.
La question devra sans doute être abordée dans le prochain quadriennal puisqu’en se privant de
cette source financière possible le laboratoire ne peut mener une politique de soutien thématique
d’envergure satisfaisante. Une autre piste à considérer est la mutualisation des reliquats potentiels :
il est courant que des ressources propres obtenues sur contrat du type ANR ne soient pas totalement épuisées à la fin du dit contrat. Il serait alors envisageable qu’à 6 mois du terme de celui-ci,
le responsable estime une somme non dépensée qui pourrait alors être mise en commun et que le
laboratoire pourrait redistribuer dans le cadre d’un appel à projets interne au laboratoire. Tout ceci
devra bien entendu être fait dans le cadre des règles de gestion que fixe l’ANR et de la future mise
en place probable d’audit financier des projets. Notons pour terminer qu’à l’Université de Provence,
une délégation de signature a été mise en place en direction des responsables de projet ANR en lieu
et place du directeur de laboratoire. Cette pratique tend à marginaliser le laboratoire au profit des
équipes concernant les ressources propres.
La politique de gestion de la dotation en support à la recherche est très satisfaisante et doit être
maintenue. Parallèlement, les équipes doivent être incitées à répondre aux appels des projets ANR.
De plus, même si cela est difficile et contraignant, il est nécessaire que certaines équipes puissent
répondre à des appels d’offre de projets européens afin d’augmenter la visibilité du laboratoire.
1.3.5
23
Services administratif et informatique
L’équipe administrative s’est fortement étoffée depuis 2006, accompagnant l’augmentation des
personnels chercheurs et enseignants-chercheurs. Cet accroissement du personnel administratif et le
recrutement de deux nouvelles personnes (création d’un poste à l’université de Provence et remplacement d’une mutation à l’université de la Méditerranée) en septembre 2010 aura donné l’occasion
d’une restructuration de ce service en particulier avec une reconsidération des missions de chacun.
Même si les sites du laboratoire marquent un déséquilibre en terme de personnel administratif (2,8
IT/BIATOSS au Nord et 1 BIATOSS au Sud), ceci n’a aucun impact sur le fonctionnement du service.
On pourrait simplement ajuster le mode de fonctionnement permettant au site Sud de bénéficier de
la présence plus importante de la responsable administrative de manière hebdomadaire (conjointement à celle du directeur, par exemple).
Depuis le quadriennal 2008-2011, les ressources propres du LIF, comme celle d’autres UMR ayant
l’université de Méditerranée pour tutelle principale, sont gérées par les universités. Alors que le
CNRS souhaite mettre en place pour certains laboratoires la délégation générale de gestion (DGG),
le service administratif du LIF n’est pas hostile à cette délégation. Bien que pouvant nécessiter une
adaptation pour approfondir les mécanismes de gestion de l’université, différents de ceux du CNRS
(et dans le cas de l’AMU, se familiariser avec ceux qui seront adoptés), ceci, couplé à la gestion des
ressources propres pourrait permettre une simplification des tâches, les personnels gestionnaires
n’étant plus obligés de jongler avec des modes de travail et des outils informatiques différents. Cependant une vraie crainte est exprimée par les personnels administratifs CNRS concernant leur statut et leur devenir.
La production logicielle du LIF reste modeste. Des efforts devront être faits dans cette direction. Si
des financements «mois-ingénieurs» peuvent facilement être obtenus dans le cadre de projets ANR,
ces emplois de type CDD sont souvent liés au développement de prototypes, délivrables pour de
tels projets. Ces développements sont alors souvent réalisés sur des périodes plus ou moins longues
par des étudiants de Master ou de jeunes diplomés. Le contexte de ces développements font que
ces derniers sont rarement robustes, bien documentés et donc difficilement distribuables et pérennisables. La création d’un poste d’ingénieur de développement permettrait de superviser ces CDD,
d’avoir une personne en poste dédiée au suivi de ces développements, à leur pérennisation et à
leur mise à disposition pour la communauté. Ceci fait partie d’une demande récurrente du LIF depuis 2007 d’un poste d’ingénieur de recherche, coordonnateur des développements informatiques,
et d’un poste d’ingénieur d’études.
L’articulation entre l’équipe systèmes-réseaux et un éventuel ingénieur de développement informatique reste à définir. La réflexion sur la création d’un service informatique, incluant un groupe
dédié à la production logicielle et mutualisé dans le cadre de l’institut mathématiques et informatique, devra être menée.
Les membres des services administratifs et informatique ont exprimé des avis très positifs concernant le projet d’institut mathématiques et informatique, projet impliquant des mutualisations qui
pourront modifier leurs activités professionnelles. En particulier, il faudra prendre garde au fait
que cette mutualisation ne s’accompagne pas d’une trop grande spécialisation, réduisant trop fortement la diversité des tâches que peuvent accomplir les personnels. Mais ils sont conscients que cette
mutualisation devrait aussi permettre à nombre de ces personnels de participer à des projets plus
ambitieux et à une plus grande échelle et ainsi, faciliter l’évolution de leur carrière.
La cellule créée par le chargé de mission «valorisation» du laboratoire a pleinement joué son rôle
lors de ce quadriennal comme en témoigne l’accroissement des liens LIF- entreprises. L’objectif du
laboratoire ne saurait être de multiplier ad libitum les partenariats avec les entreprises car les recherches menées au LIF ne permettent pas en général une valorisation rapide des résultats vers le
monde socio-économique. Cependant, il est important que le LIF reste à l’écoute de ces partenaires
et puisse en trouver de nouveaux afin d’être alimenté en problématiques nouvelles. Cette tâche
de veille très exigente et nécessitant une activité soutenue ne peut être menée par un enseignantchercheur ou un chercheur et serait naturellement dévolue à un ingénieur de recherche, la charge
de travail étant estimé à un demi-ETP ; là, encore on peut imaginer qu’une telle fonction relève des
actions mutualisées au sein de l’institut mathématiques et informatique.
24
1.3.6
Locaux
Les deux pôles principaux du laboratoire, à savoir Sud (Luminy) et Nord (Château-Gombert),
ont vu leur locaux évoluer sur le quadriennal en cours : le site Sud a vu son nombre de bureaux augmenter de 5 unités (pour une surface de 140 m2 ) proche des bureaux actuels (à l’étage inférieur). Le
site Nord déménagera dans les mois qui viennent de quelques centaines de mètres dans un bâtiment
acquis par l’Université de Provence, bâtiment «recherche» dédié au LIF, les enseignants-chercheurs
gardant des bureaux partagés au CMI pour leur activités d’enseignement. Ce déménagement entraînera pour le site Nord un doublement de sa surface utile. Par ailleurs, afin de faciliter les réunions
entre les membres des deux sites principaux du laboratoire, deux salles de vidéo-conférences, l’une
sur le site Nord et l’autre sur le site Sud, seront prochainement installées.
L’objectif du laboratoire reste de regrouper la majorité de ses membres en un lieu unique. Si l’université unique devrait permettre de réaliser cela à long terme, il semble que la solution consistant
à rapprocher les sites de Marseille Sud et Nord devrait être l’objectif prioritaire concernant la localisation des sites du laboratoire pour le quadriennal 2012-15 car nous pensons que cette séparation
nuit à la vie du laboratoire, à sa cohésion et freine les collaborations possibles entre les différentes
équipes. Un déplacement du site Nord en centre ville de Marseille serait compatible avec le projet de
localisation de l’institut mathématiques et informatique, ce déplacement mettant les deux sites du
laboratoire à 30 minutes l’un de l’autre, ce qui pourrait dans un premier temps être jugé satisfaisant.
Par ailleurs, on pourra envisager la mise en place d’un espace de recherche commun au LIF
et au LSIS à Aix-en-Provence, par exemple dans le cadre de la fédération FRIIAM, du fait de la
proximité du site Forbin, des 2 sites Schuman (LSH et Droit) et du site Gaston-Berger (sites relevant
actuellement de 3 universités différentes). Ces lieux étant des sites d’enseignement, la constitution
d’un lieu «recherche» pourrait aider ces collègues à organiser favorablement leur temps de travail
enseignement et recherche et pourrait de plus créer un lieu de discussion entre les chercheurs des
deux laboratoires.
1.3.7
Formations
La fusion des universités a été l’occasion de remettre à plat les formations de Licence et de Master.
Les formations de Master dans le domaine de l’informatique ont été restructurées dans une optique
de clarification : lors du quadriennal 2008-2011, il existait au sein des universités d’Aix-Marseille un
Master informatique adossé au LIF regroupant une spécialité à finalité professionnelle et une spécialité à finalité recherche et d’un Master «SIS - Sciences de l’Information et des Systèmes» adossé
au LSIS et comprenant, pour l’informatique, 2 spécialités à finalité professionnelle et une spécialité
à finalité recherche12 . Sous l’impulsion du LIF, dans le cadre de la fusion des universités, le Master SIS a été scindé, les spécialités «informatique» rejoignant le Master d’informatique, les autres
spécialités donnant un Master «Images et Systèmes». Au sein d’Aix-Marseille Université, le Master
informatique comptera 4 spécialités adossées au LIF impliquant chacune une ou plusieurs équipes
du laboratoire 13 :
– «Informatique fondamentale» à finalité recherche, impliquant toutes les équipes du LIF
– «Fouille de données multimédia» à finalité professionnelle, impliquant les équipes QARMA et
TALEP
– «Informatique décisionnelle» à finalité professionnelle, impliquant les équipes ACRO et BDA
– «Fiabilité, sécurité et intégration logicielle » à finalité professionnelle, impliquant l’équipe MoVe
La spécialité à finalité recherche adossée au LIF se composera pour un quart d’un tronc commun
dont le rôle est de fournir les bases en algorithmique, complexité, logique, théorie des langages,
probabilité et statistique, bases nécessaires quelque soit le choix du thème de recherche de l’étudiant.
Le second quart de la formation sera formé d’UEs à choix qui permettent à l’étudiant de se tourner
vers un domaine de recherche plus spécifique. Enfin, la dernière moitié de la formation sera un stage
de recherche en laboratoire.
12 Ce master comprenait de plus deux spécialités professionnelles, liées l’une à l’imagerie numérique et l’autre à l’automatique et au génie électrique.
13 Trois autres spécialités seront adossées au LSIS, une à finalité recherche et deux à finalité professionnelle.
25
Sans doute moins que d’autres disciplines, l’informatique souffre néanmoins de la désaffection
des étudiants pour les sciences. Si cela se voit peu dans les filières professionnelles, c’est flagrant en
ce qui concerne les spécialités à finalité recherche. La mutualisation d’enseignements entre la spécialité à finalité recherche et celles à finalité professionnelle à la fois dans l’optique de rapprochement de
ces deux types de formation et dans un souci de réduction des coûts entraîne le fait que les étudiants
changent plusieurs fois de sites d’enseignement au cours de la semaine, ce qui nuit à l’attractivité de
la formation. Nous souhaitons donc que cette rationalisation de l’offre de formation s’accompagne
d’une rationalisation des sites d’enseignement mais ce point délicat pour de nombreuses formations
de Licence ou de Master n’a à ce jour fait l’objet d’aucun arbitrage.
Concernant le grade de Licence, il sera créé un parcours renforcé au sein de la Licence mention
informatique. Ce parcours à connotation plus théorique permettra de faire découvrir plus tôt aux
meilleurs étudiants de Licence le monde de la recherche. Nous espérons que cela renforcera à moyen
terme notre Master à finalité recherche.
Toujours dans ce même objectif, ce sont des membres du LIF qui contribuent au développement
d’une filière «informatique» au sein de l’École Centrale de Marseille, filière qui permettra de diriger des élèves-ingénieurs vers ce même Master et pour certains d’entre eux vers la recherche. Le
LIF sera également laboratoire porteur de la spécialité «Traitement automatique des langues» du
Master «Sciences du Langage». Cette spécialité fera intervenir plus spécifiquement des membres de
l’équipe TALEP du LIF ainsi que des membres du LPL. Le LIF est aussi laboratoire d’adossement
du Master de mathématiques et s’investit tout particulièrement dans la spécialité «Mathématiques
informatique statistiques et sciences de la santé (MI3S)». Enfin, l’institut mathématiques et informatique comportera également un volet «formation». L’objectif sera d’adosser à cet institut un Master
Erasmus Mundus bidisciplinaire, à l’interface des mathématiques et de l’informatique, en partenariat avec l’ECM.
26
Chapitre 2
ÉQuipe AppRentissage et
MultimédiA
2.1
2.1.1
Présentation
Membres
Responsable
Liva R ALAIVOLA
MdC-HDR, Université de Provence
Stéphane AYACHE
Cécile C APPONI
François D ENIS
Rémi E YRAUD
Amaury H ABRARD
MdC, Université de la Méditerranée (1/09/08
MdC, Université de Provence
Pr, Université de Provence
MdC, Université de Provence (1/09/07 )
Guillaume S TEMPFEL
ATER, Université de Provence
Raphaël B AILLY
Pierre M ACHART
Université de Provence
Permanents
)
Postdoctorants
Doctorants
2.1.2
Structuration
Génèse. L’équipe Q ARMA (éQuipe AppRentissage et MultimédiA) est née de la séparation de
l’équipe B DAA (Base de Données et Apprentissage Automatique) suivant ses deux thèmes de recherche, l’apprentissage automatique et les bases de données. Les activités de recherche de l’équipe
Q ARMA se développeront autour de deux axes : l’apprentissage automatique et la fouille de données
multimédia. Dans le premier axe, les travaux porteront sur des questions de nature fondamentale
relevant notamment de l’apprentissage statistique, et sur d’autres questions liées à l’inférence grammaticale (pour des classes de langage particulières, ou encore des modèles de représentation spécifiques). Le second, l’axe multimédia, revêt une dimension plus applicative ; il nourrira le premier axe
de problématiques issues de questions réelles et sera également le domaine d’application privilégié
pour éprouver les nouvelles méthodes et approches d’apprentissage développées. La réussite de ce
projet de recherche s’appuie sur les compétences de l’équipe en apprentissage automatique – attestées par des publications dans les journaux et conférences de renom –, et l’expertise en recherche
d’information multimédia qui est récemment venue enrichir notre groupe de recherche. Cécile C AP PONI a notamment créé en 2008 un groupe de recherche en fouille de données multimédia ayant
28
CHAPITRE 2. ÉQUIPE APPRENTISSAGE ET MULTIMÉDIA
pour vocation d’être un lieu d’échange privilégié pour qui travaille au développement de méthodes
d’apprentissage automatique pour la fouille de données multimédia. Stéphane AYACHE est quant
à lui un spécialiste de ces problématiques, puisqu’elles sont le cœur de son activité de recherche
depuis son doctorat.
Géographie. L’ensemble de l’équipe est situé sur le site de Chateau-Gombert, à l’exception de
Stéphane AYACHE, qui est localisé sur le campus de Luminy, à l’école d’ingénieurs universitaire de
l’Université de la Méditerranée, l’ESIL. Par ailleurs, l’équipe Q ARMA est basée depuis la rentrée 2009
à l’Institut Méditérranéen de Technologie (IMT) distant de quelques centaines de mètres du Centre
de Mathématiques et Informatique (CMI) où se trouve le reste du L IF Nord. L’équipe y partage des
locaux avec le groupe de traitement du signal de l’équipe Probabilités et Statistiques du LATP. Cette
proximité avec nos collègues mathématiciens donne lieu à des échanges scientifiques réguliers et à
des collaborations qui s’inscrivent parfaitement dans l’optique de l’institut fédératif Mathématiques
Informatique qui structure le projet du L IF.
2.2
Projet de Recherche
Nous décrivons ici le projet de recherche de l’équipe en prenant soin d’illustrer comment les
problématiques théoriques qui nous intéressent sont pertinentes pour des applications multimédia,
voire, éventuellement, comment ces dernières les suscitent. Cela nous permet notamment de montrer comment notre investissement dans des applications multimédia se distingue de l’ingénierie de
recherche et du transfert technologique.
Afin de situer le cadre des travaux de recherche de l’équipe, nous rappelons brièvement une formalisation générique de l’apprentissage supervisé en apprentissage statistique. À partir d’un échantillon d’apprentissage S = {(Xi , Yi )}ni=1 constitué de n variables aléatoires (Xi , Yi ) identiquement et
indépendamment distribuées (IID) suivant une loi fixe et inconnue D sur un espace Z = X × Y, la
problématique essentielle de l’apprentissage est d’inférer un modèle f ∈ F, avec F ⊆ T X , qui a
une erreur de généralisation ou risque R` (f ) faible. Ici, ` : T × Y → R est une fonction de perte et le
risque R` (f ) de f associé à ` est l’espérance de `(f (X), Y ) suivant D (par exemple, dans le cas de la
classification binaire, une perte ` à considérer est `(t, y) = Iyt≤0 ).
Inférence grammaticale probabiliste L’inférence grammaticale (probabiliste) s’attache à caractériser/modéliser/apprendre des grammaires et des langages à partir d’échantillons de mots. La richesse des modèles étudiés dans ce domaine de recherche en fait naturellement un cadre de choix
pour la modélisation de structures, ou, en d’autres termes, pour l’apprentissage de langages d’objets
structurés. C’est donc un thème de recherche prioritaire de l’équipe, dont les applications peuvent
être la modélisation de séquences vidéo, audio, d’arbres XML, ou encore la prédiction structurée
(pour l’annotation automatique d’arbres, par exemples) – une partie des problématiques de l’ANR
LAMPADA se structure sur ces questions. Un axe particulier de recherche qui sera développé est
celui des automates pondérés.
L’utilisation d’automates pondérés pour représenter des langages stochastiques offre en effet le
double avantage de modéliser une classe de distributions très large et de pouvoir formuler l’apprentissage de ces langages comme un problème d’optimisation. Ces résultats nous permettent d’envisager de travailler sur des méthodes permettant d’intégrer des notions très utilisées en apprentissage
statistique mais pour l’instant peu utilisées en inférence grammaticale probabiliste. En particulier,
nous nous proposons d’étudier comment introduire des approches de parcimonie ou d’intégration
de non linéarité via l’utilisation de noyaux spécifiques.
Notons par ailleurs que le très bon accueil par la communauté des travaux réalisés en collaboration avec Alexander Clark nous motive à continuer les travaux sur l’apprentissage de langages
hors-contexte via des représentations dédiées.
2.2. PROJET DE RECHERCHE
29
Apprentissage semi-supervisé et adaptation de domaine Une part importante des activités de
Q ARMA sera consacrée à l’apprentissage semi-supervisé. Cette problématique d’apprentissage, qui
se distingue du cadre classique d’apprentissage supervisé où l’on dispose d’annotations complètes
pour l’ensemble des données d’apprentissage, se rencontre très naturellement lorsque l’on travaille
avec des données riches et/ou volumineuses, comme c’est le cas en fouille de données multimédia
et en traitement automatique du langage naturel. Dans cette situation, le coût de l’annotation de
documents, souvent manuelle, est élevé, alors que la collecte elle-même d’une quantité importante
de documents est un processus très peu onéreux. Dès lors, il se pose la question de l’apprentissage
semi-supervisé, où les échantillons d’apprentissage à considérer sont constitués de données partiellement annotées. Bien que l’inférence semi-supervisée de modèles ayant de bonnes capacités de
généralisation soit une question identifiée comme de toute première importance en apprentissage,
elle continue d’offrir un vaste champ de recherche où des cadres théoriques pertinents accompagnés
d’algorithmes d’apprentissage appropriés restent à définir.
Une problématique qui sera abordée prioritairement est celle de l’adaptation de domaine où les
distributions des échantillons d’apprentissage et de test ne sont pas nécessairement identiques. Dans
le cadre de la classification binaire, ce problème d’apprentissage semi-supervisé se formalise de la
s
de vamanière suivante. Les entrées à considérer sont un échantillon étiqueté S s = {(Xis , Yis )}ni=1
riables aléatoires (Xis , Yis ) IID suivant une distribution Ds dite « source » sur X × Y et un échantillon
c
c
c
non étiqueté Sunl
= {Xic }ni=1
de variables aléatoires IID suivant la loi DX
marginale sur X de la disc
c
c
c
c
c
c
tribution D (X , Y ) = DX (X )D(Y |X ) dite « cible ». Le problème posé lors de l’apprentissage est
c
pour produire un classifieur performant
de tirer parti à la fois de l’information fournie par S s et SX
c
s
selon D dans le cas où les distributions source D et cible Dc sont éventuellement différentes. Nous
chercherons à la fois à fournir des approches algorithmiques pour résoudre ce type de problème et
réfléchirons à caractériser précisément les situations limites concernant les différences entre Ds et
Dc qui laissent l’apprentissage possible.
Optimisation de pertes complexes La plupart des mesures de performances utilisées en fouille
de données multimédia sont reliées à des notions d’ordonnancement. Par exemple, si l’on considère
le problème de repérer dans une large base d’images celles qui contiennent un concept particulier,
l’intérêt est d’avoir à disposition des modèles attribuant avec une grande probabilité des scores
importants aux images effectivement pertinentes : dans une liste d’images triées selon ces scores, il
est important qu’apparaissent en tête de liste les documents qui sont vraiment pertinents. La notion
d’ordonnancement est donc primordiale et des mesures de performances telles que l’aire sous la
courbe ROC (AUC), la précision moyenne, les courbes rappel/précision, sont précisément des outils
destinés à mesurer la qualité de l’ordre inféré sur une liste d’objets.
Bien que ces critères de performance constituent le cœur des mesures de qualité de système de
recherche d’information multimédia (c’est également le cas en traitement automatique du langage),
il existe peu d’approches qui prennent directement en compte des pertes qui leur sont directement
associées. La raison principale en est que ces pertes induisent nécessairement de considérer des
pertes complexes de la forme ` : (T × Y)p → R avec p > 1. Travailler avec ce genre de perte et
des estimateurs de E` qui en découlent requiert la construction de méthodes théoriquement fondées
pour traiter des statistiques complexes, telles que les U-statistiques ou les statistiques de rang. Des
problèmes algorithmiques non triviaux sont notamment associés à l’usage de ce type de statistiques.
Nous nous intéresserons précisément à apporter des réponses à des questions liées à l’utilisation de
pertes complexes pour l’ordonnancement, en nous concentrant notamment sur le critère AUC et la
précision moyenne, critères fréquemment utilisés en pratique. Les voies de recherche privilégiées par
l’équipe sont notamment celles de l’apprentissage en-ligne et de l’optimisation stochastique convexe.
Apprentissage multi-modal En apprentissage multimodal, l’objectif est de considérer les données
à traiter selon plusieurs vues ou modalités et à tirer au mieux parti des informations apportées par
chacune de ces vues. Par exemple, chaque vue peut être un descripteur correspondant à un espace
de Hilbert particulier : dans le cas de documents vidéos par exemple, l’un de ces espaces peut être
lié au son et un autre un espace lié à l’image. Le défi posé par l’apprentissage multimodal est de
30
faire « collaborer » les vues pour créer des modèles de prédiction performants. A l’heure actuelle,
les principales études en apprentissage multimodal sont des approches par fusion (précoce, tardive,
mixte). Il s’agit toutefois d’approches empiriques, et aucun cadre formel n’a encore été défini pour
garantir les performances des algorithmes existants. Si quelques résultats théoriques en apprentissage multimodal semi-supervisé (cotraining, co-régularisation et lissage dans des variétés) existent
néanmoins, il subsiste de nombreux problèmes ouverts, dont la prise en compte de l’inégalité « informationnelle » des vues et leur capacité propre à permettre l’apprentissage de modèles performants.
Notre premier objectif est de définir un cadre théorique de l’apprentissage multimodal, en exhibant notamment des mesures qualitatives permettant de mesurer la capacités de modalités à donner
lieu à des classifieurs performants ; le concept de complémentarité des modalités sera également
étudié. Ensuite, nous chercherons à élaborer des algorithmes d’apprentissage multimodal tirant effectivement parti de la complémentarité de ces modalités en gardant par ailleurs à l’esprit que la
mise en œuvre de ces algorithmes devra supporter le traitement de corpus de données volumineux.
Positionnement de l’équipe La singularité de notre équipe de recherche provient de la double
compétence apprentissage automatique/fouille de données multimédia, avec un cœur de métier
originellement plus centré sur les méthodes d’apprentissage et la théorie. L’approche que nous souhaitons mettre en œuvre pour la fouille de données multimédia se distingue donc par le soin que
nous projetons d’apporter au développement de théories, d’algorithmes et d’outils (par exemple,
des inégalités de concentration) dont l’usage pourra bénéficier très largement à la communauté
d’apprentissage automatique – et pas seulement à celle de la fouille de donnée multimédia. Nous
prônons donc une appréhension de la fouille de données multimédia assez éloignée de l’ingénierie
de recherche, tâche qui sera largement dévolue aux étudiants de Licence 3 et Master 1 que nous
souhaitons faire participer à la vie de l’équipe (voir ci-dessous).
2.3
Fonctionnement de l’équipe
Réunions hebdomadaires L’équipe Q ARMA se réunit chaque semaine lors d’un groupe de travail
où chacun présente ses travaux : le format est libre mais généralement, l’un des membres de l’équipe
présente de manière plus détaillée que les autres ses recherches en cours. Ces réunions hebdomadaires sont également le lieu où des invités viennent donner des séminaires. Tous les deux mois
environ, une réunion commune avec le groupe de Traitement du signal est organisée : y sont discutés de nouveaux points éventuels de collaboration entre nos deux équipes ; c’est également l’occasion
pour ceux d’entre nous qui portent des projets inter-équipe de présenter l’avancée de leurs travaux.
Ces réunions avec nos collègues matheux prennent naturellement la suite des groupes de travail
communs que nous avons mis en place depuis 3 ans1 .
Challenges Outre la soumission de travaux à des revues et congrès scientifiques de renom, notre
équipe s’investira tout particulièrement dans la participation à divers « challenges » touchant à la
fouille de données multimédia. C’est une activité qui sera fédératrice qui touchera aux deux axes de
travail de l’équipe : elle sera l’occasion d’éprouver sur des problèmes pratiques les algorithmes et
méthodes développés au sein de l’équipe. Nous participerons de manière régulière – comme c’est
déjà le cas – à la compétition TrecVid (Video Retrieval Evaluation). L’équipe s’investira également dans
la compétition VOC (Visual Object Classes) organisée par le réseau d’excellence européen PASCAL 2.
Intégration d’étudiants Par ailleurs, un de nos objectifs est d’impliquer des étudiants de Licence
et de Master dans la vie de l’équipe. Deux raisons essentielles motivent cet objectif. D’une part, l’apprentissage automatique est une discipline relativement récente, à l’intersection de plusieurs champs
d’étude (l’informatique, l’optimisation, la statistique mathématique) et il en résulte que peu de formations universitaires, notamment à Marseille, sont adaptées pour sensibiliser les étudiants aux
enjeux de notre discipline. Ce qui induit notamment, sauf années exceptionnelles (cf. ci-dessous), la
1 Groupe
de travail SigMa : http://www.lif.univ-mrs.fr/~liva/sigma/doku.php
2.4. COLLABORATIONS, PROJETS
31
difficulté à attirer de brillants étudiants pour qu’ils s’engagent dans des thèses d’apprentissage automatique. Nous pensons qu’inciter des étudiants à se mêler à notre équipe de recherche est un moyen
de pallier ce défaut de formation. D’autre part, il y a tout lieu de penser que des étudiants de Licence
et Master peuvent effectivement contribuer de manière positive aux activités de recherche : outre des
tâches nécessaires de collecte/nettoyage de données multimédia et de développement qu’ils pourront prendre en charge, ils seront assurément des aides précieux pour les compétitions évoquées
ci-dessus, en assurant une partie du « transfert technologique » de nos méthodes aux problèmes
considérés.
Animation de la communauté Enfin, un des points-clés du fonctionnement de l’équipe est l’animation de la communauté d’apprentissage automatique aussi bien au niveau national qu’international. Au cours des dernières années, Q ARMA a notamment organisé une école de printemps en
apprentissage automatique (EPIT 08) à Porquerolles, un workshop de la conférence internationale
ECML/PKDD sur l’apprentissage à partir de données non-IID (LNIID 09) à Bled et l’école d’été
PASCAL Bootcamp 2010 à Marseille.
2.4
Collaborations, projets
L’équipe Q ARMA nourrit de nombreuses collaborations, dont la plupart sont structurées par des
projets ANR, l’équipe étant actuellement impliquée dans 7 de ces projets, dont les intersections ne
sont évidemment pas vides. Elles se traduisent également par des co-encadrements de thèses qui
débuteront en septembre 2010.
Q ARMA et TALEP Des collaborations particulièrement fortes existent avec l’équipe TALEP du LIF,
avec qui Q ARMA partage 4 projets ANR ; ces interactions participent de la dynamique inter-équipe
encouragée par le laboratoire. Ces projets s’articulent autour de l’utilisation et le développement de
méthodes d’apprentissage automatique pour des questions d’analyse syntaxique (projet SEQUOIA),
de fusion de modalités audio et textuelles (projet DECODA), de traitement de mots hors-lexique
(projet EDYLEX) et de reconnaissance de personnes dans des contenus audiovisuels (projet PERCOL).
Un co-encadrement de thèse entre Q ARMA et TALEP débutera en septembre 2010 sur la thématique de la multi-modalité pour le traitement automatique de la parole et des problèmes directement
liés à ceux étudiés dans l’ANR DECODA (financement : allocation ministérielle).
Ancrage national L’équipe se réjouit également de pouvoir collaborer avec de nombreuses équipes
d’apprentissage automatique de France. C’est notamment le cas via le projet ANR LAMPADA, dont
le thème est la modélisation et les représentations parcimonieuses de données structurées : Q ARMA y
travaille de concert avec l’équipe d’apprentissage du LIP6 à Paris, les équipes-projet MOSTRARE et
SEQUEL de l’INRIA Lille-Nord Europe, l’équipe d’apprentissage du LHC à Saint Etienne et l’équipe
TALN du LINA à Nantes. Un projet sur l’apprentissage de réseaux de neurones par architecture
profonde (projet ANR ASAP), réunit l’équipe d’apprentissage du LITIS à Rouen, celle du LIP6 à
Paris, celle du LRI à Orsay et celle du GREYC à Caen. Q ARMA a ainsi des interactions privilégiées
avec la plupart des équipes d’apprentissage automatique en France.
Q ARMA s’implique également activement dans le fonctionnement de la conférence nationale en
apprentissage automatique, CAP. Elle participe notamment au comité de programme, prend le soin
d’y diffuser ses travaux – par ailleurs publiés dans des conférences internationales de premier plan
– et en a organisé l’édition 2005. Elle a également participé à l’organisation de l’édition 2008 à Porquerolles, qui s’est tenue à la suite de l’EPIT 08 (voir précédemment).
Apprentissage et Multimédia Le projet ANR VideoSense, sur la reconnaissance multimodale de
concepts dans les vidéos multilingues, vient directement en regard des axes thématiques de l’équipe.
32
Ce projet pose précisément des questions sur l’apprentissage automatique et l’application de méthodes qui en relèvent pour le multimédia. Il rassemble des équipes du LIRIS à Lyon, de l’institut
Eurecom à Nice, du LIG à Grenoble ainsi qu’un partenaire industriel, la société Ghanni.
Une thèse de doctorat encadrée par des membres de l’équipe Q ARMA débutera en septembre
2010 dans le cadre de ce projet (financement : ANR VideoSense).
Q ARMA et le groupe Traitement du Signal du LATP Comme souligné plus haut, l’équipe partage ses locaux avec le groupe de traitement du signal du LATP depuis septembre 2009 et les deux
équipes ont mis en place depuis 2007 des groupes de travail commun. C’est très naturellement que
ces interactions se sont concrétisées par la rédaction d’un projet « jeunes chercheurs » (projet BISOU,
BIStochastic Optimization and mUltiple kernel learning), qui a reçu un financement d’un an du GDR
ISIS. Ce projet s’appuie sur des membres de Q ARMA, du groupe de traitement du signal du LATP,
du laboratoire IBISC à Evry et du laboratoire L2S à Orsay. Il se propose d’étendre les travaux sur
l’optimisation convexe non différentiable qui avait fait l’objet de la rédaction d’un article en commun. Nous espérons pouvoir déposer une demande de projet « jeunes chercheurs » à l’ANR à l’issue
de ce projet.
Notons également qu’un co-encadrement de thèse entre le groupe de traitement du signal et
l’équipe Q ARMA débutera en septembre 2010 (financement : allocation ministérielle). Cette thèse
portera sur l’étude de l’apprentissage en ligne pour des problèmes d’ordonnancement : elle recouvrira des aspects statistiques (inégalités de concentration), algorithmiques (optimisation convexe
stochastique) et pratiques (ordonnancement de signaux – EEG, audio – ou d’images).
Les deux groupes de recherche développent également des intérêts communs du point de vue
des formations de Master. Dans la maquette des enseignements du prochain quadriennal, le Master
Mathématiques fait maintenant figurer un sous-parcours « signal, image et apprentissage » dont les
enseignements ont été définis par nos deux équipes. Cet engagement du point de vue de l’enseignement participe de notre souhait de pallier le défaut de cursus, au moins à Marseille, proprement
adaptés à la formation d’étudiants en apprentissage et traitement du signal. Un projet plus ambitieux
actuellement à l’étude est celui d’un programme Erasmus-Mundus sur les thèmes de nos équipes.
Réseau européen PASCAL 2 L’équipe Q ARMA est membre du réseau d’excellence européen PASCAL 2 (Pattern Analysis, Statistical Modelling and Computational Learning). Dans ce cadre, l’équipe a
noué des collaborations avec plusieurs équipes du réseau. En particulier, des liens privilégiés ont
été tissés avec l’Université d’Alicante, Espagne et Royal Holloway University of London, Angleterre
qui se sont concrétisés par des visites de longue durée et/ou des publications.
Apprentissage multi-modal Une thèse de doctorat sur l’apprentissage multi-modal a débuté en
septembre 2009. Pierre M ACHART, qui travaille sur cette thèse, est co-encadré par Cécile C APPONI
et Hervé G LOTIN, du LSIS. Cette thèse s’intéresse à la modélisation et la formalisation de méthodes d’apprentissage pour le traitement de données décrites selon plusieurs modalités (comme
par exemple, dans le cas de vidéos : le son, l’image, du texte), avec comme question cruciale celle de
la meilleure manière de tirer parti et combiner l’information provenant des différentes modalités.
Brain-Reading Un projet qui a récemment débuté dans l’équipe concerne le développement de
méthodes d’apprentissage automatique pour l’interprétation d’images d’IRM fonctionnelles. Ce projet, soutenu par un financement obtenu en réponse de l’appel d’offres 2010 « Neuroinformatique et
neurosciences computationnelles » du CNRS est mené en collaboration avec l’INCM à Marseille et
l’équipe-projet PARIETAL de l’INRIA Saclay. La spécificité de ce projet est d’exploiter une modélisation sous forme de graphes d’images fonctionnelles.
2.5. AUTO-ÉVALUATION
2.5
33
Auto-évaluation
Points forts L’équipe Q ARMA a une très bonne notoriété tant sur le plan national qu’international.
Ses travaux scientifiques sont reconnus et l’originalité et la qualité des recherches sont attestées par
des publications dans des revues et des conférences de premier plan.
La création d’un axe de recherche sur la fouille de données multimédia témoigne du souci de
l’équipe de développer à la fois les aspects fondamentaux et théoriques de la recherche menée et les
aspects applicatifs.
L’équipe est impliquée dans plusieurs projets nationaux et fait partie du réseau d’excellence européen PASCAL 2 ; cela rend compte de la reconnaissance dont bénéficie l’équipe sur la qualité de
la recherche qu’elle produit. Son implication dans l’animation de la recherche par l’organisation
d’écoles d’envergure nationale ou internationale participe également de ses points forts.
D’autre part, la nature même des activités de l’équipe la place dans un domaine de recherche à
l’intersection de l’informatique théorique, la statistique mathématique, la recherche d’information et
le traitement du signal, et favorise ainsi la création de nouvelles collaborations comme celles avec
l’équipe TALEP du LIF et le groupe de traitement du signal du LATP.
Points à améliorer Un point particulièrement important à souligner est celui de l’absence de chercheur à temps plein (CR ou DR) dans l’équipe. Q ARMA est la seule équipe du LIF dans cette situation,
qui est par ailleurs combinée avec le fait que François D ENIS est le seul professeur de l’équipe.
L’équipe a pris le parti de mettre en avant comme axe structurant celui de la fouille de données
multimédia, ce qui soulève la question de l’articulation entre une recherche très fondamentale et des
aspects beaucoup plus appliqués. Pour le succès de cette entreprise, il serait bienvenu que Q ARMA
et/ou le laboratoire s’adjoignent les services d’un ingénieur de recherche.
Opportunités L’équipe partage des locaux avec le groupe de traitement du signal du LATP. Ces
deux groupes ont donc des échanges quotidiens et des séminaires communs, qui s’inscrivent directement dans la continuité des groupes de travail mis en place depuis 2007. Le projet « jeunes
chercheurs » soutenu par le GDR ISIS centré sur l’optimisation stochastique convexe est actuellement un des points d’articulation concret des interactions entre le groupe de traitement du signal et
l’équipe Q ARMA. D’autres sujets, comme l’apprentissage de dictionnaires ou encore l’établissement
d’inégalités de concentration empiriques font actuellement l’objet de travaux communs. Une thèse
de doctorat co-encadrée par les deux groupes débutera en septembre 2010. Nous réfléchissons également au développement d’une formation internationale de type Erasmus Mundus sur le thème
apprentissage-traitement du signal, qui pourrait se faire en partenariat avec l’école Centrale de Marseille. Ces nombreux projets communs trouvent pleinement leur place dans le projet de la création
d’un institut mathématiques-informatique soutenu par le LIF et le LATP.
Comme évoqué à plusieurs reprises, nous nous intéressons à des problèmes d’optimisation convexe
stochastique. Ce thème de recherche peut être l’occasion de travaux communs avec l’équipe Algorithmique, Combinatoire et Recherche Opérationnelle. Ces collaborations peuvent plus généralement se développer autour des différents problèmes d’optimisation (de grande taille) que nous
sommes amenés à résoudre en apprentissage statistique.
Par ailleurs, notons qu’en plus des projets ANR que nous partageons avec TALEP, nos deux
équipes ont proposé pour le prochain quadriennal une filière de Master 2 professionnel sur les
thèmes de recherche communs des deux équipes.
Enfin, nous avons la chance de voir Q ARMA s’enrichir de 3 doctorants (2 financés par des allocations ministérielles et 1 par un projet ANR) à la rentrée de septembre 2010, portant le nombre de
doctorants de l’équipe à 5.
Risques Les membres de l’équipe Q ARMA assurent de nombreuses charges administratives et sont
très impliqués dans le fonctionnement de l’université (conseils d’UFR, commission d’enseignement,
commission recherche, responsabilités de filières, mission valorisation du LIF, etc.). A terme, la multiplication de ces tâches pourrait nuire à la production scientifique de l’équipe.
34
Par ailleurs, plusieurs habilitations à diriger des recherches vont être soutenues dans les deux années à venir. Par conséquent, il est possible que le noyau actuel de l’équipe change considérablement
à moyen terme. Cela constitue un risque important pour une jeune équipe dont le développement
bénécifierait d’une stabilité structurelle forte. Il est donc important que l’équipe puisse s’étoffer à
court ou moyen terme afin d’assurer la pérennité de ses activités.
Chapitre 3
Bases de Données Avancées
3.1
Membres
Responsable
Rosine C ICCHETTI
Pr, Université de la Méditerranée
Alain C ASALI
Andreea D RAGUT
Lotfi L AKHAL
Noël N OVELLI
Viet Phan L UONG
Sébastien N EDJAR
MdC, Université de la Méditerranée
Pr, Université de la Méditerranée
Fabien P ESCI
Université de la Méditerranée
Permanents
Doctorants
3.2
Projet de Recherche
Issus de la communauté Bases de Données, les membres de l’équipe B DA travaillent sur des problèmes de fouille et d’entrepôts de données (ou bases de données multidimensionnelles ou O LAP)
depuis plusieurs années. Le point fort des recherches menées est d’allier problématiques innovantes
et formalisme rigoureux, fondé sur les treillis et systèmes de fermeture. Des concepts originaux, des
représentations solides et des algorithmes efficaces permettant leur calcul et intégrables au sein des
SGBD ont déjà été proposés (motifs clefs et fermés, treillis cube, Cube Fermé, Cube Émergent, Cube
partition ...). Le projet de recherche que nous souhaitons développer porte sur les deux axes que sont
la fouille de bases de données et les entrepôts de données avec comme dénominateur commun les
treillis et systèmes de fermeture.
3.2.1
Entrepôts de données
Les travaux menés au cours du précédent plan quadriennal se sont focalisés sur l’analyse du
renversement de tendances dans les bases de données multidimensionnelles autour du concept original de Cube Émergent. Ces travaux se sont inscrits dans le contexte du treillis cube : un espace
de recherche dédié aux problèmes de fouille d’entrepôts « plats » (sans dimension hiérarchique). À
partir de ce savoir faire, nous voulons mener les actions suivantes :
(i) le développement d’une plateforme algorithmique I DEA intégrable dans les S GBD relationnels
(ROLAP cubing) et dédiée au calcul du Cube Émergent et de ses représentations ;
36
CHAPITRE 3. BASES DE DONNÉES AVANCÉES
(ii) la caractérisation de structures pour les entrepôts de données complexes (avec dimensions
hiérarchiques) ;
(iii) l’analyse multidimensionnelle et multi-critère d’objets dominants mettant en œuvre le calcul
de S KYCUBES ;
(iv) la proposition de méthodes OLAP d’exploration et visualisation des cubes de données et
des S KYCUBES.
Plateforme algorithmique I DEA
Nous avons proposé différentes représentations du Cube Émergent ainsi qu’un algorithme E I DEA (Emergent cube Integrable DatabasE Algorithm) dédié au calcul du Cube Émergent qui exploite
la double contrainte d’émergence pour élaguer l’espace de recherche. Cet algorithme possède des
propriétés intéressantes comme l’efficacité et l’intégrabilité au sein des S GBD. En se basant sur E I DEA , nous voulons développer une plateforme logicielle cohérente dédiée au Cube Émergent et à
ses représentations.
Le Cube Émergent peut être vu comme une instance d’un Cube Contraint [16] mais c’est l’instance la plus “complexe” dans la mesure où une double contrainte est exprimée mais sur deux relations différentes. Il en résulte que toutes les propositions que nous avons faites peuvent être directement données pour tout Cube Contraint. Il est, par exemple, immédiat de proposer des représentations réduites pour les Cubes Iceberg ou intervallaire, à travers les bordures, les variantes du Cube
Fermé Émergent ou encore le Cube Quotient Émergent. Ainsi, étendue aux Cubes Contraints la plateforme I DEA pourra être une solution logicielle originale, générique et extensible pour différents
problèmes de fouille O LAP.
Caractérisation de structures pour les entrepôts avec dimensions hiérarchiques
Dans un contexte O LAP, les dimensions peuvent être des hiérarchies. Dès lors, ces dimensions ne
sont plus de simples attributs (e.g. V ILLE) mais un ensemble d’attributs « niveaux » associés par des
liens particuliers : des dépendances fonctionnelles (e.g. V ILLE → D ÉPARTEMENT → R ÉGION → PAYS
). Néanmoins, cet aspect n’a pas été pris en compte par les approches de représentation et de calcul
des cubes de données. Les problèmes associés au cube, exponentiels dans le nombre d’attributs
dimensions, sont complexes (coût de calcul, coût de stockage) et l’introduction de hiérarchies, qui
démultiplie le nombre d’attributs, exacerbe d’autant plus fortement les difficultés. La caractérisation
formelle d’un espace de recherche et de structures adaptées au cube avec dimensions hiérarchiques
n’a jamais, à notre connaissance, été explorée pourtant elle constitue un fondement important aussi
bien pour la modélisation des entrepôts (e.g. modèles S TAR ou flocon) que pour les algorithmes de
calcul de cubes ou encore la fouille O LAP. Nous nous proposons d’étudier cette caractérisation sous
un double angle : orienté attribut et orienté valeur en nous appuyant sur les ensembles ordonnés et
les treillis. Du point de vue attribut et dans le contexte des cubes « plats », l’ensemble des cuboïdes
muni de l’inclusion forme un treillis : le treillis des parties de l’ensemble des dimensions. Dans
le contexte de dimensions hiérarchiques, l’ordre d’inclusion n’est plus satisfaisant car il ne permet
pas d’exploiter les liens existant au sein des dimensions hiérarchiques. Du point de vue valeur, le
treillis cube est le seul espace de recherche existant et il convient de le généraliser afin d’intégrer les
dimensions hiérarchiques. L’objectif de cette généralisation est de formaliser de nouvelles structures
comme les bordures, les Cubes Contraints généralisés, les Cubes fermés généralisés... La plateforme
algorithmique I DEA sera également étendue pour calculer ces nouvelles structures.
Analyse multidimensionnelle et multi-critère d’objets dominants avec une approche O LAP
L’opérateur Skyline a été proposée pour extraire les objets dominants dans un contexte base de
données [5]. Ces objets sont les tuples optimisant un ensemble de critères de recherche. Cet ensemble
de critères étant fixé a priori, certains résultats pertinents peuvent être masqués à cause d’objets
très dominants parfois sur un travail fondamental sur le S KYCUBE porte sur sa représentation sous
forme d’un treillis de classes d’équivalences. Néanmoins, ce nombre de classes explose car ce nombre
37
n’est pas connu a priori. Notre objectif est de représenter le S KYCUBE sous forme de treillis des
concepts garantissant que la hauteur du treillis reste borné par le nombre de dimensions. Nous nous
proposons également de concevoir des algorithmes de calcul de cette représentation : un algorithme
orienté Analyse de Concepts Formels à la NextClosure et un algorithme orienté Bases de données à
la I DEA.
Visualisation et navigation O LAP
Les techniques de visualisation de données sont très souvent basées sur le dépendances entre
données (en utilisant des graphes par exemple [3]). Il est donc essentiel d’exploiter au mieux toutes
les dépendances et si possible pendant la construction de la représentation [2]. La visualisation et
la navigation dans les cubes de données est un challenge car la taille des données manipulées est
extrêmement grande. Les calculs de bordures permettent d’en réduire drastiquement la taille mais
aucun travail de visualisation de bordures n’existe actuellement. Nous nous proposons d’explorer
cette voie.
Guidé par les besoins de notre entreprise partenaire CA2I, nous avons identifié un fort besoin de
navigation dans les S KYCUBES et de visualisation. Il s’agit d’aider le décideur à choisir progressivement la combinaison de critères la plus pertinente. Un outil de navigation sera développé de manière
à doter le S KYCUBE des mêmes fonctionnalités que celles existant pour l’O LAP (R OLL -U P/D RILL D OWN)
3.2.2
Fouille de bases de données
En fouille de bases de données, nous nous sommes intéressés à l’extraction de différents types
de connaissances : règles d’association pour la classification, règles de corrélation et dépendances
fonctionnelles (DF) exactes ou approximatives. Les recherches menées vont se poursuivre dans ces
directions avec des travaux portant sur la définition de concepts, la proposition d’algorithmes et le
développement d’outils.
Autour des règles de corrélation décisionnelles
Les règles de corrélation décisionnelles (RCD) [6] sont un outil de fouille de données permettant
d’extraire des règles de corrélation (règles liées au calcul du χ2 ) comprenant une valeur d’un des attributs cibles. Appliquées à une chaîne de fabrication en micro-électronique, les RCD permettent de
savoir si les valeurs d’un ensemble de paramètres sont corrélées avec certaines valeurs de l’attribut
cible, la plupart du temps le gain. Le logiciel MineCor1 est un logiciel de fouille de données dédié au
calcul de ces règles. Durant l’étape de pré-traitement, tous les attributs sont discrétisés de la même
manière en utilisant diverses techniques (méthode de Jenks, intervalle contenant le même nombre
de valeurs, intervalle de distance égale, ...). Cependant, les méthodes de discrétisation utilisées ne
prennent pas en compte la problématique à résoudre : chaque attribut servant de critère de décision est discrétisé indépendamment de l’attribut cible. De plus, les expérimentations montrent que,
en fonction des jeux d’essais utilisés, aucune méthode ne se démarque des autres. Nous souhaitons
améliorer la qualité des données sortant de l’étape de discrétisation afin (i) d’augmenter la qualité
des RCD obtenues, (ii) de diminuer leur nombre, (iii) tout en minimisant le temps passé dans l’étape
de fouille. Nous proposons deux solutions : 1) accroître les dimensions des intervalles obtenus après
une exécution de MineCor [6] ou 2) utiliser de nouvelles techniques de clustering, afin de discrétiser
n’importe quel attribut décisionnel en fonction des attributs cibles. De plus, en combinant de nouveaux attributs à cette nouvelle méthode de discrétisation, nous souhaitons calculer les RCD. Le but
est de rassembler en une unique étape les étapes de pré-traitement, discrétisation et de calcul du χ2
développées dans MineCor. Afin de proposer un nouvel outil de métrologie virtuelle basé sur des
techniques de fouille de données, nous devons avoir connaissance des effets indésirables sur une
chaîne de production. L’analyse actuelle nous permet de savoir « pourquoi ça marche », mais ne nous
1 http://infodoc.iut.univ-aix.fr/~casali/MineCor/MineCor.html
38
CHAPITRE 3. BASES DE DONNÉES AVANCÉES
donne aucune connaissance quant au « pourquoi ça ne marche pas ». L’intégration de motifs littéraux
(motifs admettant une négation) [23] doit nous permettre d’extraire une telle connaissance.
Clustering utilisant la structure de treillis de l’espace des attributs
Dans les bases de données images, on s’intéresse à l’intégration des techniques de clustering
avec la structure sous-jacente des images. Les descripteurs de requêtes sont utilisés pour diriger un
processus navigationnel qui explore la structure d’arbre jusqu’à ce qu’il atteigne les feuilles appropriées, où des descripteurs potentiellement similaires peuvent être trouvés. Récemment, néanmoins,
des approches basées sur des treillis ont été utilisées pour calculer algébriquement quelles sont les
feuilles où des descripteurs potentiellement similaires peuvent être trouvés. Au lieu d’utiliser une
représentation vectorielle traditionnelle d’une image déterminée à l’aide d’un processus de navigation, [13] utilisent VLAD : un vecteur de descripteurs localement aggrégés, qui est une représentation
vectorielle d’une image qui aggrège les descripteurs en se basant sur un critère de localité dans l’espace d’attributs, qui peut être réduit à un sous-ensemble de treillis ayant peu de dimensions. Les
algorithmes des treillis ont été étudiés intensément du point de vue algébrique. Ceci a permis le
développement d’algorithmes hautement sophistiqués qui ont de bonnes propriétés concernant le
comportement à diverses échelles, au fur et à mesure que les dimensions spatiales augmentent ou
que le treillis est soumis à une plus forte distorsion ([1]). Néanmoins, ces algorithmes sophistiqués
doivent travailler avec des treillis entiers, ce qui peut les amener à avoir une très grande complexité.
De même, ils ne sont pas toujours optimaux pour beaucoup d’applications qui sont orientées davantage vers le traitement d’images ou la physique, où les distorsions des treillis sont typiquement
limitées à une échelle qui a un sens physique. Notre but est de développer des techniques adaptées
aux données structurées, afin de permettre leur stockage et recherche dans une base de données.
Les problèmes concrets à traiter sont la simplification de la détection du treillis le plus proche, la
détermination du treillis candidat pour représenter un cluster de treillis, ainsi que l’évaluation de
l’intra-similarité des clusters de treillis. Les applications principales sont le contrôle et la protection du droit de reproduction des images, qui utilisent beaucoup de descripteurs à dimensionalité
moyenne, ainsi que des applications de recherche textuelle d’information.
Classification associative dans les flots de données
Les flux de données complexes comme les données de météo, de réseaux de distribution (d’énergies, commerciale, boursière) peuvent être représentés par un flux de tuples ou d’objets ; chaque
objet est représenté par un ensemble de valeurs attribuées. Dans le changement de données, on peut
observer l’interaction entre les objets dans le flux afin de prendre la décision d’intervention ou de
prévention. Les objets sont complexes et les changements peuvent porter sur plusieurs facteurs dont
certains sont plus déterminants que d’autres. Les règles d’association sont un modèle simple et intuitif et peuvent révéler les interactions entre les facteurs déterminants des objets. Les méthodes de
recherche des règles d’association dans les données classiques sont bien étudiées. Cependant, pour
les données complexes, ces méthodes peuvent ne plus s’appliquer et il devient nécessaire de proposer des approches adéquates. Dans les flux de données, les données changent régulièrement et
peuvent varier de manière considérable. Ces changements peuvent avoir des impacts important sur
la classification :
– la classification par règles d’association demande en général la spécification les seuils minsup
et minconf. Les seuils fixes peuvent ne pas s’adapter dans le contexte de flux de données.
L’idée est de chercher une approche pour définir les seuils de manière auto-adaptative, selon
les données ;
– le modèle de classification (ensemble d’apprentissage) fixe n’est en général pas adapté pour
les flux de données ; il peut devenir obsolète au cours des changements. Notre objectif est
de proposer une approche pour définir un modèle de classification adapté aux changements
réguliers de données.
39
Extraction de dépendances fonctionnelles conditionnelles
Cette action de recherche s’inscrit naturellement dans la continuité des travaux menés sur le
calcul de dépendances entre les données (Dépendances Fonctionnelles Exactes et Approximatives
[12, 11, 14, 19, 20] et plus récemment les Dépendances Fonctionnelles Conditionnelles [4, 10, 9, 15, 8]).
L’objectif est d’uniformiser les approches d’extraction de dépendances (DF, DFA et DFC) dans un
même cadre formel permettant une implémentation facile, efficace et réutilisable. Avec un tel cadre,
il sera possible d’optimiser les calculs coûteux comme le calcul de cubes de données en réduisant
le nombre de dimensions en détectant par exemple les hiérarchies existantes (dépendances entre
les données) afin de réduire la complexité du calcul de cubes. De plus, l’intégration de calcul de
dépendances pourra aussi être intégrée dans les calculs de bordures [7, 17, 18] afin de réduire le coût
d’exécution.
Ces perspectives s’intègrent dans un projet plus vaste de collaboration entre le LIF et le LAM pour
la fouille et la visualisation de données issues de campagne d’observation astrophysique.[22, 21, 2]).
3.3
Auto-évaluation
Points forts
L’équipe BDA a une très bonne notoriété tant sur le plan national qu’au niveau international. Ses
travaux scientifiques sont reconnus. L’originalité et la qualité des recherches sont attestées par des
publications dans des revues et des conférences de premier plan.
Nous avons en particulier exploré un domaine novateur, celui de la fouille de bases de données
multidimensionnelles, avec des résultats de qualité.
La nature même des activités de l’équipe la place dans un domaine de recherche à l’intersection
de l’informatique théorique, les bases de données, les treillis et ordres et favorise ainsi la création de
nouvelles collaborations.
Malgré un petit nombre d’encadrement de thèses (Cf. paragraphe suivant), nous avons encouragé les jeunes Maîtres de conférences à effectuer de tels encadrements ou co-encadrements.
Au cours des quatre années écoulées, seule 1 thèse a été soutenue au sein de l’équipe. Rapporté au
nombre de permanents (6), ce nombre de thèses est faible. La principale raison est le très petit nombre
de bourses accordées à l’École doctorale qui doivent, de plus, être réparties entre quatre laboratoires.
Une autre raison invoquée par les membres de l’équipe localisés à l’IUT d’Aix-en-Provence est le
fait qu’ils n’interviennent pas dans les enseignements de licence et Master 1 (leur participation se
limitant au Master 2 recherche et professionnel). Face à cette pénurie de bourses, nous avons essayé
de diversifier nos sources de financement. Une bourse co-financée par le Conseil régional et une SS2I
a été attribuée et une thèse a débuté à la rentrée 2009.
Opportunités
Les travaux menés jusqu’à présent sur les entrepôts de données ont atteint une certaine maturité nous permettant d’envisager leur valorisation. Par exemple, à travers le développement de la
plateforme I DEA et les premiers résultats obtenus extrêmement encourageants, nous recherchons de
nouveaux partenariats industriels et des applications réelles à mettre en œuvre. Disposant de solides
compétences à la fois dans les entrepôts de données et les treillis, l’équipe BDA se trouve à la croisée
des chemins entre ces deux communautés. Cette position unique nous permet d’envisager des collaborations universitaires et le montage d’un projet ANR. La perspective de recherche concernant l’intégration des hiérarchies nous semble particulièrement prometteuse et déjà entamé des discussions
avec des équipes intéressées par cette problématique (Lyon II, Montpellier II, Clermont-Ferrand II,
Versailles).
40
BIBLIOGRAPHIE
Risques
Les membres de l’équipe BDA assurent de nombreuses charges administratives et sont très impliqués dans le fonctionnement de l’université (conseils d’UFR, commission d’enseignement/recherche,
responsabilités de filières, etc.). La multiplication de ces tâches pourrait nuire à la production scientifique de l’équipe et son attractivité.
Bibliographie
[1] Erik Agrell, Thomas Eriksson, Alexander Vardy, and Kenneth Zeger. Closest point search in
lattices. IEEE Transactions on Information Theory, 48(8) :2201–2214, 2002.
[2] D. Auber, N. Novelli, and G. Melançon. Visually mining the datacube using a pixel-oriented
technique. In IV 2007 – Information Visualisation, IEEE Computer Society, pages 3–10, 2007.
[3] David Auber, Yves Chiricota, Fabien Jourdan, and Guy Melançon. Multiscale visualization of
small world networks. In 9th IEEE Symposium on Information Visualization (InfoVis 2003). IEEE
Computer Society, 2003.
[4] Philip Bohannon, Wenfei Fan, Floris Geerts, Xibei Jia, and Anastasios Kementsietsidis. Conditional functional dependencies for data cleaning. In Proceedings of ICDE’07, April 15-20, Istanbul,
Turkey, pages 746–755, 2007.
[5] Stephan Börzsönyi, Donald Kossmann, and Konrad Stocker. The skyline operator. In Proceedings of the 17th International Conference on Data Engineering (ICDE), pages 421–430. IEEE Computer Society, 2001.
[6] Alain Casali and Christian Ernst. Extracting decision correlation rules. In Sourav S. Bhowmick,
Josef Küng, and Roland Wagner, editors, DEXA 2009 – 20th International Conference on Database
and Expert Systems Applications, volume 5690 of Lecture Notes in Computer Science, pages 689–703.
Springer-Verlag, 2009.
[7] Alain Casali, Sébastien Nedjar, Rosine Cicchetti, and Lotfi Lakhal. Convex cube : Towards a unified structure for multidimensional databases. In Roland Wagner, Norman Revell, and Günther
Pernul, editors, DEXA 2007 – 18th International Conference on Database and Expert Systems Applications, volume 4653 of Lecture Notes in Computer Science, pages 572–581. Springer-Verlag, 2007.
[8] T. Diallo and N. Novelli. Découverte des dépendances fonctionnelles conditionnelles fréquentes. In 10ièmes Conférence Internationale Francophone sur l’Extraction et la Gestion des Connaissances (EGC’10), RNTI E-19, pages 315–326, 2010.
[9] Wenfei Fan, Floris Geerts, Xibei Jia, and Anastasios Kementsietsidis. Conditional functional
dependencies for capturing data inconsistencies. ACM Trans. Database Syst., 33(2), 2008.
[10] Wenfei Fan, Floris Geerts, Laks V. S. Lakshmanan, and Ming Xiong. Discovering conditional
functional dependencies. In Proceedings of the 25th International Conference on Data Engineering,
ICDE 2009, March 29 2009 - April 2 2009, Shanghai, China, pages 1231–1234, 2009.
[11] Y. Huhtala, J. Karkkainen, P. Porkka, and H. Toivonen. TANE : An Efficient Algorithm for
Discovering Functional and Approximate Dependencies. The Computer Journal, 42(2) :100–111,
1999.
[12] Y. Huhtala, JCasaliCL03b. Karkkainen, P. Porkka, and H. Toivonen. Efficient Discovery of
Functional and Appproximate Dependencies. In Proceedings of the 14th International Conference
on Data Engineering (ICDE’98), IEEE Computer Society, pages 392–401, Orlando, US, February
1998.
[13] Herve Jegou, Cordelia Schmid, Hedi Harzallah, and Jakob J. Verbeek. Accurate image search
using the contextual dissimilarity measure. IEEE Trans. Pattern Anal. Mach. Intell., 32(1) :2–11,
2010.
[14] S. Lopes, J.M. Petit, and L. Lakhal. Efficient Discovery of Functional Dependencies and Armstrong Relations. In Proceedings of the International Conference on Extended Database and Technology
(EDBT’00), pages 350–364, 2000.
BIBLIOGRAPHIE
41
[15] Raoul Medina and Lhouari Nourine. A unified hierarchy for functional dependencies, conditional functional dependencies and association rules. In ICFCA, Lecture Notes in Computer
Science, pages 235–248. Springer, 2009.
[16] Sébastien Nedjar, Alain Casali, Rosine Cicchetti, and Lotfi Lakhal. Emerging cubes for trends
analysis in olap databases. In Il Yeal Song, Johann Eder, and Tho Manh Nguyen, editors, DaWak
2007 – 9th International Conference on Data Warehousing and Knowledge Discovery, volume 4654 of
Lecture Notes in Computer Science, pages 135–144. Springer-Verlag, 2007.
[17] Sébastien Nedjar, Alain Casali, Rosine Cicchetti, and Lotfi Lakhal. Upper borders for emerging
cubes. In Il-Yeol Song, Johann Eder, and Tho Manh Nguyen, editors, DaWak 2008 – 10th International Conference on Data Warehousing and Knowledge Discovery, volume 5182 of Lecture Notes in
Computer Science, pages 45–54. Springer-Verlag, 2008.
[18] Sébastien Nedjar, Alain Casali, Rosine Cicchetti, and Lotfi Lakhal. Emerging cubes : Borders,
size estimations and lossless reductions. Information Systems, 34(6) :536–550, 2009.
[19] N. Novelli and R. Cicchetti. Fun : An efficient algorithm for mining functional and embeddeddependencies. In Proceedings of the 8th International Conference on DatabaseTheory (ICDT’01),
volume 1973 of Lecture Notes in Comput. Sci., pages 189–203, 2001.
[20] N. Novelli and R. Cicchetti. Functional and embedded dependency inference : a data mining
pointof view. Information Systems (IS), 26 :477–506, 2001.
[21] Chris Stolte, Diane Tang, and Pat Hanrahan. Multiscale visualization using data cubes "infovis
2002 best paper". In 2002 IEEE Symposium on Information Visualization (InfoVis 2002), pages 7–14.
IEEE Computer Society, 2002.
[22] Chris Stolte, Diane Tang, and Pat Hanrahan. Polaris : A system for query, analysis, and visualization of multidimensional relational databases. IEEE Trans. Vis. Comput. Graph., 8(1) :52–65,
2002.
[23] Xindong Wu, Chengqi Zhang, and Shichao Zhang. Efficient mining of both positive and negative association rules. ACM Trans. Inf. Syst., 22(3) :381–405, 2004.
42
BIBLIOGRAPHIE
Chapitre 4
Algorithmique, Combinatoire et
Recherche Opérationnelle
4.1
4.1.1
Présentation
Membres
Responsable
Victor C HEPOI
PU, Université de la Méditerranée
Pierre B ONAMI
François B RUCKER
Nadia C REIGNOU
Bertrand E STELLON
Karim N OUIOUA
Pascal P RÉA
Edouard T HIEL
Yann VAXÈS
CR, CNRS
PU, Ecole Centrale de Marseille
MC, Université de la Méditerranée
MC, Ecole Centrale de Marseille
Régis B ARBANCHON
Ian G AMBINI
Henri G ARRETA
Jean-Luc M ASSAT
Michel VAN C ANEGHEM
Permanents
Membres associés
Doctorants
Nicolas C ATUSSE
Hassan H IJAZI
Thanh Hai N GUYEN
Daniela M AFTULEAC
Fabien R EBATEL
Johannes S CHMIDT
Sébastien I MBROSCIANO
44
4.1.2
CHAPITRE 4. ALGORITHMIQUE, COMBINATOIRE ET RECHERCHE OPÉRATIONNELLE
Structuration de l’équipe
L’objectif scientifique de l’équipe Algorithmique, Combinatoire et Recherche Opérationnelle (ACRO)
est l’étude des propriétés structurelles, de la combinatoire, de la complexité et de l’algorithmique
d’objets discrets (graphes, distances, polyèdres, contraintes), ainsi que l’étude de problèmes d’optimisation (continus, combinatoires et en nombres entiers). Notre recherche s’articule autour de quatre
thèmes :
• Algorithmique ;
• Graphes, espaces métriques discrets, géométrie discrète ;
• Complexité et aléas discrets ;
• Optimisation combinatoire et programmation en nombres entiers.
Ces thèmes sont fortement imbriqués, comme l’attestent les collaborations et les nombreuses publications communes des membres de l’équipe. L’objectif principal du thème “Algorithmique” est
la conception d’algorithmes efficaces et d’algorithmes à performance garantie pour des problèmes
d’optimisation combinatoire, d’algorithmique des graphes, de géométrie algorithmique et de classification. Dans le thème “Graphes, espaces métriques discrets, géométrie discrète” nous souhaitons
contribuer à la création de la théorie métrique des graphes, à la théorie et à l’algorithmique des
espaces métriques discrets, et enfin, établir des liens entre des structures combinatoires, des complexes simpliciaux ou cubiques et des classes de graphes. L’objectif principal du thème “Complexité
et aléas discrets” est l’étude de la complexité (P versus NP) et de la nature des transitions de phase
pour différents problèmes de satisfaction de contraintes. Dans le thème “Optimisation combinatoire
et programmation en nombres entiers” nous souhaitons concevoir de nouvelles méthodes de génération de coupes et des méthodes locales pour améliorer l’efficacité des solveurs de programmation
en nombres entiers et de recherche locale.
4.2
Projet de Recherche
Structure des graphes, espaces métriques, et combinatoire : Nous souhaitons continuer notre collaboration avec J. Chalopin (équipe MoVe) et N. Nisse (MASCOTTE, INRIA Sophia) sur la caractérisation par ordre d’élimination de graphes gagnants pour le policier dans différentes versions du jeu
"cop ands robber". En particulier, nous souhaitons résoudre les deux questions principales laissées
ouvertes dans notre travail récent : (i) Est-ce que les graphes "cop-win" où le voleur a une vitesse
supérieure à la vitesse du policier sont hyperboliques et (ii) comment caractériser les graphes "copwin" où le voleur est visible une fois sur k ≥ 2 ? Un autre but (plus ambitieux) sera de√s’attaquer à
la conjecture de Meyniel affirmant que, dans un graphe arbitraire avec n sommets, O( n) policiers
suffisent toujours pour capturer un voleur.
Nous souhaitons continuer nos travaux sur le lien entre les graphes et les complexes cubiques
et simpliciaux ayant des propriétés de courbure non-positive combinatoire. Les complexes et les
graphes pontés que nous étudions depuis plusieurs années ont été redécouverts récemment par T.
Januszkiewicz, J. Swiatkowski, et F. Haglund dans le contexte de la théorie géométrique des groupes
sous le nom des complexes systoliques. Avec D. Osajda (U. de Wroclaw) nous avons étudié une généralisation des complexes systoliques. Nous avons donné différentes caractérisations structurelles,
graphiques et métriques de ces complexes. Nous avons démontré que ces complexes sont topologiquement contractibles et qu’ils possèdent la propriété du "simplexe fixe". Pour cela, nous avons établi que leurs graphes sous-jacents sont démantelables en utilisant la méthode algorithmique LexBFS.
Récemment, cette idée a été reprise par Przytycki et Schultens pour établir une conjecture datant de
1992 affirmant que le complexe de Kakimizu d’un nœud est contractible. Il sera intéressant d’étudier
la démantelabilité d’autres objets combinatoires issus de structures mathématiques. Nous souhaitons généraliser nos résultats avec D. Osajda pour avoir une structure combinatoire qui généralise
à la fois les propriétés des complexes systoliques et celles des complexes de Helly. Un autre travail,
cette fois en collaboration avec B. Brešar et M. Kovše de U. de Maribor (projet PROTEUS 2010-2011),
consistera à donner une caractérisation locale de tous les graphes obtenus à partir des graphes des
complexes systoliques en utilisant les opérations de produit Cartésien et d’amalgame.
45
Un autre objectif important (qui fait partie du projet ANR TEOMATRO) sera d’étendre notre
caractérisation des graphes des bases de matroïdes et de ∆-matroïdes aux graphes des bases de matroïdes de Coxeter. Nous envisageons aussi d’effectuer une étude fine des propriétés des graphes des
bases de matroïdes classiques et de leur généralisation. En particulier, nous souhaitons déterminer
si pour chaque paire de bases il existe une paire de plus courts chemins opposés l’un à l’autre dans
le graphe des bases.
Dans un travail récent en collaboration avec H.-J. Bandelt (U. de Hambourg) et D. Eppstein (U.
de Californie) nous avons caractérisé de façon combinatoire les graphes et les complexes rectangulaires qui sont isométriquement plongeables dans le produit Cartésien de deux dendrons ; nous
avons montré que ceux-ci sont des complexes et des graphes médians particuliers. Dans la suite de
ce travail, nous envisageons d’étendre cette caractérisation à tout espace métrique convexe. Nous
souhaitons aussi étudier l’hyperconvexité de ces espaces. Une autre perspective intéressante de ce
travail consisterait à établir qu’il existe une fonction f telle que chaque graphe médian (ou chaque
graphe médian sans cube) de degré maximum ∆ peut être plongé isométriquement dans le produit
Cartésien d’au plus f (∆) arbres. Cette question a été formulée de façon indépendante par plusieurs
chercheurs travaillant dans différents domaines.
Algorithmes d’approximation : Une des approches algorithmiques pour résoudre des problèmes
NP-difficiles d’optimisation combinatoire consiste à concevoir et à analyser des algorithmes d’approximation. Dans le cadre de ce thème, nous proposons de concevoir des algorithmes d’approximation avec un facteur constant c (on va parler dans ce cas de c-approximabilité) pour plusieurs problèmes de construction de réseaux géométriques et d’approximation de distances qui se posent dans
différents domaines tels que la conception de réseaux, les systèmes distribués, la fouille et l’analyse
de données, la recherche opérationnelle et l’optimisation combinatoire. En utilisant nos compétences
dans ce domaine, nous envisageons de concevoir un algorithme d’approximation avec un facteur
1.5 pour le problème du réseau de Manhattan minimum dans le plan rectilinéaire ainsi qu’un algorithme d’approximation avec un facteur 2 pour le problème du réseau de Manhattan minimum
dans le plan avec une norme polygonale quelconque (très récemment nous avons réussi à décrire
un algorithme avec un facteur 2.5). Un autre objectif important sera la conception d’un algorithme
d’approximation avec un facteur constant pour le problème de Manhattan F -restreint ainsi que pour
le problème de réseaux de Manhattan dans l’espace rectilinéaire 3-dimensionnel. Un but ambitieux
serait de découvrir un algorithme d’approximation avec un facteur constant pour le problème de
"minimum stabbing box" introduit récemment par Demaine et al. (SODA 2009) en lien avec la "splay
trees conjecture" et qui à première vue a des points communs avec le problème des réseaux de Manhattan.
Un autre problème NP-difficile sur lequel nous souhaitons travailler est celui de la couverture
optimale d’un graphe par un nombre minimum de boules. Ce problème est équivalent au problème
de couverture d’ensemble, il n’est donc pas c-approximable dans le cas général. Nous envisageons
de concevoir des algorithmes d’approximation avec un facteur constant pour ce problème dans le cas
de graphes géométriques, comme les graphes planaires ou les graphes de visibilité de terrains 1.5dimensionnels. Un de nos challenges serait d’établir que, dans le cas de ces graphes géométriques, le
rapport entre la cardinalité d’une couverture et celle d’un packing est borné par une constante. Nous
envisageons d’obtenir des résultats algorithmiques de même nature pour le problème de couverture
par des boules et leurs différences symétriques (cette formulation apparaît dans le problème des
codes identifiants) dans des classes de graphes comme les arbres et les graphes δ-hyperboliques.
Finalement, dans le cadre du projet ANR GGAA, nous souhaitons continuer nos travaux de recherche sur l’approximation de la distorsion additive ou multiplicative du plongement d’un métrique donnée dans une classe de métriques spécifiques. Ces dernières années, nous avons obtenu
un algorithme d’approximation avec un facteur constant pour le calcul de la distorsion additive
d’une métrique quelconque dans une métrique Robinsonienne et nous avons réussi à améliorer de
façon substantielle le facteur d’approximation pour la distorsion multiplicative d’une métrique de
graphe dans une distance d’arbre. Une des questions prometteuses (que nous envisageons de traiter
en collaboration avec F. Dragan (U. de Kent), I. Newman, et Y. Rabinovich (U. de Haifa)) est d’étendre
ce dernier résultat aux métriques sans mineurs interdits comme K2,3 , K2,r , ou K4 (et de façon plus
46
ambitieuse K3,3 ). Un autre but ambitieux serait de trouver des algorithmes d’approximation avec
un facteur constant ou logarithmique pour le problème de l’approximation de la distorsion multiplicative du plongement d’une métrique quelconque dans une métrique d’arbre ou une métrique
Robinsonienne.
Géométrie algorithmique et discrète : Plusieurs problèmes algorithmiques liés aux distances sont
de nature géométrique et peuvent être traités avec des outils et des méthodes issus de la géométrie
algorithmique. Très récemment, nous avons décrit un algorithme géométrique optimal pour reconnaitre si un espace métrique sur n point est isométriquement plongeable dans le plan rectilinéaire.
Nous souhaitons étendre ce résultat à tout plan normé avec une boule polygonale et établir également dans ce cas, un théorème de compacité de type Menger. Nous souhaitons aussi étendre nos
résultats structurels et algorithmiques sur les enveloppes de Pareto en norme l1 et l∞ aux espaces
discrets et aux graphes. Une autre question, sur laquelle nous envisageons de continuer à travailler,
consiste à trouver des spanners de faibles coûts pour construire une approximation des réseaux de
communication sans-fil par des réseaux planaires ayant de bonnes propriétés de distances. En particulier, nous souhaitons construire des spanners planaires pour les Unit Disc Graphs, les utiliser pour
le routage et étendre ces constructions au cadre dynamique.
Une autre problématique prometteuse où les méthodes de la géométrie algorithmique sont indispensables est l’algorithmique des espaces métriques CAT(0) (des espaces à courbure globale nonpositive), et, en particulier, des complexes polygonaux et polyédraux CAT(0). Ces espaces métriques
possèdent un éventail très riche de propriétés et d’applications. Ils représentent une généralisation
de grande envergure à la fois des espaces Euclidiens et des espaces hyperboliques. Une des propriétés caractéristiques de ces espaces, qui les rend intéressant du point de vue algorithmique, est l’unicité du plus court chemin entre deux points. Nous avons l’intention de concevoir des algorithmes
efficaces pour plusieurs problèmes algorithmiques dans des complexes polygonaux (en particulièr,
des complexes polygonaux planaires) et polyédraux CAT(0) : le calcul de plus court chemin entre
deux points, le calcul de l’enveloppe convexe et du diagramme de Voronoï d’un ensemble de points,
le centre, le diamètre, le barycentre, et le médian.
Dans le domaine de la géométrie discrète, nous souhaitons mener une étude des propriétés métriques, géométriques et arithmétiques des distances de chanfrein pour créer une "géométrie des
distances de chanfrein" comparable à la géométrie Euclidienne dans l’espace continu. Nous souhaitons étudier les propriétés et les algorithmes de calcul des bases métriques des formes discrètes
munies d’une distance de chanfrein. Nous proposons aussi d’étudier les propriétés des bissecteurs
pour les distances de chanfrein et de les utiliser pour donner un nouvel algorithme de calcul de
transformée de distance. Coté logiciel, nous souhaitons intégrer dans notre librairie de manipulation d’images bitmap en dimension 2 à 6 Npic des fonctionnalités nouvelles, en particulier sur les
algorithmes séparables en dimension, et prendre en compte le format d’image bio-médicales NIfTI
pour de futures collaborations.
Complexité et aléas discrets : En étudiant la complexité des problèmes de satisfaction de contraintes
booléennes nous nous sommes familiarisés avec deux cadres d’étude importants pour les formules
propositionnelles : celui de Post et celui de Schaefer. Dans le premier on considère des formules
dont on limite les connecteurs logiques possibles à un ensemble fixé, dans le second des formules
sous forme normale généralisée. Les deux cadres permettent de paramétrer des problèmes mettant
en jeu des formules propositionnelles. Dans ce contexte nous souhaitons étudier la complexité de
divers problèmes issus de la logique non-monotone, tels l’abduction, la logique auto-épistémique,
l’argumentation. Ces problèmes sont en général très difficiles (au deuxième niveau de la hiérarchie
polynomiale). Il est alors naturel et intéressant d’une part d’identifier des fragments plus faciles
et d’autre part de mieux comprendre les sources de difficulté. C’est ce que devrait permettre une
étude systématique de la complexité de ces problèmes dans les deux cadres mentionnés ci-dessus. Ce
travail soulève des questions naturelles liées à l’énumération et fournira une continuation naturelle
à la réflexion entamée avec Frédéric Olive (équipe Move) dans le cadre de l’ANR ENUM.
Nous avons réalisé en collaboration avec Hervé Daudé du LATP une étude des transitions de
phase pour les problèmes de satisfaction de contraintes booléennes. Deux extensions naturelles se
présentent : considérer des formules quantifiées, examiner des problèmes de satisfaction de contraintes
47
sur des domaines finis non booléens. Ces deux axes posent de nouveaux défis combinatoires que
nous souhaitons tenter de relever dans la cadre de l’ANR BOOLE.
Flots à délai borné : Les problèmes d’optimisation liés aux calculs de routages dans des réseaux de
communications sont généralement modélisés grâce à la notion classique de flot ou de multiflot dans
un graphe. Cependant, ces notions ne permettent pas de prendre en compte le délai d’acheminement
des messages à travers le réseau. Le problème consistant à calculer un flot (fractionnaire) maximum
respectant la contrainte de délai est déjà NP-difficile lorsque le délai de chaque arête est constant
(mais non uniforme). Cependant, dans ce cas, les algorithmes d’approximation développées dans
les années 90 pour le problème de multiflot et de packing fractionnaire permettent de calculer efficacement une solution dont la qualité est garantie. Au contraire, lorsque le délai pour traverser
une liaison dépend du taux de congestion de celle-ci, le problème devient beaucoup plus difficile
à résoudre ou à approximer. Nous souhaitons concevoir des heuristiques efficaces capables de calculer en un temps raisonnable de bonnes solutions pour des instances de tailles réelles. Nous pensons aussi étudier des variantes avec délais d’autres problèmes classiques d’optimisation de réseaux
comme le dimensionnement. Ce projet est mené en collaboration avec nos partenaires d’Orange Labs
à Issy-les-Moulineaux et Sophia-Antipolis.
Optimisation combinatoire et programmation en nombres entiers : Nous voulons continuer à développer nos travaux dans deux axes principaux : les approches polyédrales pour les programmes
linéaires en nombres entiers et les approches exactes pour les programmes non-linéaires en nombres
entiers.
Dans le premier axe, nos travaux se placent dans la continuité des avancées réalisées au cours
des 15 dernières années dans l’utilisation des coupes suite aux travaux pionniers de Balas, Ceria et
Cornuéjols sur les coupes de lift-and-project et de Gomory. L’état de l’art (tel qu’implémenté dans les
solveurs actuels) est d’utiliser des coupes de Gomory chacune directement calculée à partir d’une
ligne du tableau du simplexe optimal de la relaxation continue. Différentes pistes pour améliorer
cet état ont été étudiées au cours des dernières années. En particulier, nous nous intéressons à trois
approches, pivoter vers d’autres bases de la relaxation continue pour obtenir de meilleures coupes
(algorithmes de "lift-and-project" de Balas et Perregaard), utiliser simultanément plusieurs lignes du
tableau, calculer les fermetures élémentaires. Dans les années qui viennent, nous nous proposons
de continuer à développer ces trois approches pour essayer de contribuer à répondre aux questions
suivantes : peut on approximer efficacement la fermeture des splits ? Peut on améliorer la fermeture
du lift-and-project ou des splits de manière substantielle en utilisant des coupes de rang supérieur
ou calculées à partir de plusieurs lignes du tableau ?
Dans le second axe, nous avons activement participé au travers de diverses collaborations (Carnegie Mellon, IBM, U. de Bologne) à la mise au point du solveur open-source Bonmin. Nous souhaitons, en prolongeant ces collaborations, développer des méthodes d’inégalités valides pour le cas
non-linéaire. Un cas que nous souhaitons étudier en particulier est celui où les solutions réalisables
sont les points entiers contenus dans une région convexe. A ce jour, si des possibilités théoriques et
des cas particuliers ont été étudiés, aucune méthode n’est réellement praticable pour le cas général.
Nous comptons nous appuyer sur notre expertise du cas linéaire pour développer des méthodes qui
pourront être testées au travers du solveur Bonmin. Enfin nous souhaitons continuer à nous intéresser à diverses applications : flots à délais borné (collaboration avec Orange Labs voir ci-dessus),
conception de réseaux en anneaux (collaboration avec le LIP6), problèmes de contrôle optimal avec
contraintes entières (collaboration avec U. Rey Juan Carlos, Madrid).
Algorithmes et combinatoire pour la classification : Jusqu’à récemment, les méthodes de classification visaient à séparer parfaitement (en partitionnant, voire en hiérarchisant) les données. Cependant
des domaines comme la phylogénie, la sériation ou la fouille de données visent moins à discriminer
qu’à établir les relations qui lient les objets entre eux et nécessitent par là de nouveaux modèles ainsi
que des algorithmes efficaces pour les produire à partir de données réelles.
Notre projet s’articule en trois points :
Modèles. Nous pensons étendre les modèles relationnels classiques que sont les arbres et les hyperarbres à des types variés de données (dissimilarités, relations n-aires, treillis, . . .) et étudier
leurs structures.
48
Méthodes. Les théorèmes de bijection de la partie précédente permettent de transformer le problème initial de classification en un problème d’optimisation. Nous étudierons la complexité
de ces problèmes et essayerons de proposer des algorithmes optimaux ou heuristiques pour
les résoudre.
Applications. Ce projet étant motivé par des besoins en analyse des données, nous proposerons
un logiciel implémentant ces différents algorithmes ainsi qu’une représentation graphique des
classes obtenues pour permettre une utilisation pratique aisée de ces modèles.
Pour cela, nous utiliserons des travaux antérieurs sur des modèles plus contraints (hypergraphes
d’intervalles et dissimilarités de Robinson), plus généraux (treillis faiblement hiérarchique ou dissimilarités binaires) ou liés à des applications particulières (génération de langage naturel, recherche
d’éléments centraux en sociologie).
Recherche locale : Les techniques de recherche locale permettent d’aborder des problèmes NPdifficiles d’optimisation combinatoire. Elles consistent à appliquer de façon itérative des transformations locales à une solution dans le but de l’améliorer. Il est constaté en pratique que ces techniques
fournissent des solutions de qualité dans des temps d’exécution de l’ordre de la minute. Toutefois,
la conception et l’implémentation d’algorithmes de recherche locale performants n’est pas facile. En
effet, nous avons pu constater lors de nos précédentes participations au challenge ROADEF qu’il est
indispensable de mettre en place des structures de données complexes afin d’évaluer efficacement
et de façon incrémentale les conséquences des transformations. Plusieurs logiciels d’optimisation
basés sur la recherche locale ont vu le jour ces dernières années. Toutefois, la plupart de ces logiciels
ne proposent pas de fonctionnalités facilitant l’évaluation des transformations, qui reste à la charge
de l’utilisateur.
Nous avons commencé, il y a deux ans, une collaboration avec nos partenaires F. Gardi et T.
Benoist du Bouygues e-lab. Nous souhaitons définir un formalisme déclaratif simple et générique
pour modéliser un problème et le résoudre automatiquement par recherche locale. Nous avons sorti
récemment une première version de notre solveur LocalSolver qui permet de traiter une classe restreinte, mais néanmoins importante, des problèmes d’optimisation combinatoire : les problèmes de
partitioning, packing, covering. Ce logiciel, disponible sous licence BSD, peut être téléchargé gratuitement sur le site du LIF ou du Bouygues e-lab. Il est utilisé pour résoudre des problèmes opérationnels d’optimisation combinatoire dans le Groupe Bouygues et dans l’enseignement de recherche
opérationnelle au Département d’Informatique de Luminy. Nous travaillons actuellement sur l’intégration dans LocalSolver de fonctionnalités nouvelles, comme la gestion des ensembles et des
tableaux, afin d’aborder les problèmes d’ordonnancements.
Logiciels : Nous pensons poursuivre le développement et la diffusion des trois logiciels Bonmin, LocalSolver, Npic mentionnés ci-dessus et initier un nouveau projet intitulé Distancia qui consistera à
développer des implémentations efficaces des principaux algorithmes du domaine de la géométrie
et de l’algorithmique des distances (réduction de dimension, plongement isométrique ou à faible
distortion, algorithmes de reconnaissance, spanner, ...) A notre connaissance, il n’existe aucune bibliothèque regroupant de tels algorithmes alors que les applications potentielles sont multiples.
4.3
Auto-évaluation
Points forts : La pertinence, l’originalité des recherches et la qualité des résultats obtenus par les
membres de notre équipe sont attestées par le nombre d’articles publiés dans des revues et actes de
conférences internationales de tout premier plan. La plupart de ces publications sont le résultat de
collaborations entre plusieurs membres de l’équipe ACRO ou avec des chercheurs d’autres grands
centres universitaires à l’étranger et en France. Ces collaborations ainsi que notre participation à
des projets nationaux et internationaux témoignent de la très bonne visibilité dont bénéficie notre
équipe. Un autre point fort de nos activités est le caractère pluridisciplinaire de notre recherche qui
se situe à l’intersection entre l’informatique théorique, les mathématiques discrètes, la classification,
la géométrie discrète et la recherche opérationnelle.
49
Points à améliorer : Le nombre de doctorants de l’équipe est un point auquel nous sommes particulièrement attentifs. Dans la période 2006-2010, un nombre raisonnable de doctorants (12) ont
soutenu ou commencé leur thèse. Nous espérons pouvoir augmenter ce nombre dans les années qui
viennent. Par ailleurs, nous avons observé à quel point l’arrivée d’un chargé de recherche CNRS a
été bénéfique pour le thème optimisation combinatoire. Nous allons faire tout notre possible pour
que d’autres thématiques puissent bénéficier d’une telle opportunité.
Nous espérons aussi pouvoir favoriser la reprise d’activités de recherche d’enseignants chercheurs "non-publiants" de l’équipe. Un des moyens que nous envisageons pour atteindre ce but
consiste à développer une recherche plus expérimentale dans le domaine de la recherche opérationnelle.
Opportunités : Plusieurs collaborations sont en cours avec des membres de l’équipe MoVe autour
de problèmes algorithmiques et combinatoires liés aux systèmes distribués. Ces collaborations sont
déjà concrétisées par plusieurs articles communs. Ce rapprochement fructueux nous semble particulièrement prometteur et nous pensons mettre à profit les échanges de compétences entre nos deux
équipes pour développer ce thème dans les années à venir. Cette thématique est aussi une spécialité
du projet Mascotte de l’INRIA avec lequel nous avons aussi des collaborations que nous pensons
développer.
La diversité des thèmes présents au sein de notre équipe nous donne l’opportunité de développer de nouveaux axes de recherche dans les années à venir. Par exemple, certains projets de la
thématique "Complexité et aléas discrets" la rapproche du domaine de l’Intelligence Artificielle. Nos
travaux en programmation non-linéaire en nombres entiers nous ouvrent vers de nouveaux champs
d’applications pour la recherche opérationnelle par exemple en chimie, en finances, en contrôle.
De la même façon, la nature métrique et combinatoire des problèmes rencontrées dans le domaine
de l’algorithmique distribuée nous ouvre également de belles perspectives de développement dans
cette direction ...
Actuellement nous avons des collaborations attestées par des publications avec des mathématiciens de différentes universités en France et à l’étranger. En effet, comme nous l’avons déjà noté, nos
recherches se situent à l’interface entre les mathématiques et l’informatique. En particulier, nos recherches axées sur l’algorithmique, la complexité, l’optimisation, les espaces métriques, les graphes
(et plus généralement les structures combinatoires) trouveront naturellement leur place au sein d’un
institut math-info. Certains de ces axes traversent plusieurs équipes de notre laboratoire et pourront
constituer le point de départ de nouvelles collaborations avec d’autres équipes du LIF. Finallement,
l’intelligence artificielle et la recherche opérationnelle pourront servir de points de rapprochement
avec l’équipe INCA du LSIS.
Risques : L’équipe ACRO est constituée presque exclusivement d’enseignant-chercheurs qui en plus
de leur charge d’enseignement assurent de nombreuses charges administratives et qui sont très impliqués dans le fonctionnement de l’université et l’organisation des enseignements d’informatique
en particulier. A terme, la multiplication de ces charges combinée à la faiblesse du nombre de chercheurs permanents pourrait nuire à la production scientifique de l’équipe.
50
Chapitre 5
Modélisation et Vérification
5.1
5.1.1
Présentation
Membres Permanents
Responsable
Denis L UGIEZ
Permanents
Nicolas B AUDRU
Clara B ERTOLISSI
Jérémie C HALOPIN
Solange C OUPET-G RIMAL
Séverine F RATANI
Emmanuel G ODARD
Rémi M ORIN
Peter N IEBERT
Frédéric O LIVE
Pierre-Alain R EYNIER
Luigi S ANTOCANALE
Karl S CHLECHTA
Camilla S CHWIND
Jean-Marc TALBOT
Postdoctorants
Shantanu D AS
Stéphane M ARTIN
Doctorants
Florent Avellaneda
Julien F ERTÉ
Rémy J AUBERT
Janusz M ALINOWSKI
PU, Université de Provence
CR, CNRS
CR, CNRS
Postdoctorant Université de Provence (jan. 2010 -)
ATER
Université de la Méditerranée
Les départs à la retraite de Karl S CHLECHTA et Camilla S CHWIND sont prévus en 2012-2013 et ces
deux chercheurs sont hébergés par l’équipe MoVe pendant les quelques mois précédant leur départ,
compte tenu de l’émergence d’un sous-thème logique dans cette équipe.
5.1.2
Structuration de l’équipe
L’informatique a vécu une évolution profonde ces dernières années : elle est devenue décentralisée et ubiquitaire. Le concept de système distribué est donc fondamental tant pour les applications
52
CHAPITRE 5. MODÉLISATION ET VÉRIFICATION
pratiques que pour les fondements théoriques de la discipline. La conception d’applications correctes et sûres dans ce cadre est particulièrement difficile. La recherche de l’équipe MoVe est motivée
par ce problème et elle a accumulé une grande expertise dans la modélisation de ces systèmes, l’élaboration d’algorithmes adaptés à ce contexte, et les outils de vérification correspondants. L’objectif
est de faire progresser les concepts fondamentaux mais également de développer des outils logiciels
permettant de tester nos approches. Les applications pratiques permettent de susciter de nouveaux
problèmes et de vérifier la validité de nos méthodes.
Pour mieux identifier la recherche de l’équipe, trois axes ont été définis avec un responsable
scientifique pour animer chaque axe. Certains de ces axes pourront être les précurseurs d’équipes à
part entière, selon la politique du laboratoire et les opportunités de recrutement qui se présenteront.
Thème Vérification.
Participants : Florent Avellaneda, Nicolas B AUDRU , Clara B ERTOLISSI , Solange C OUPET-G RIMAL , Julien F ERTÉ, Rémy J AUBERT, Denis L UGIEZ, Janusz M ALINOWSKI, Rémi M ORIN (responsable), Peter
N IEBERT, Pierre-Alain R EYNIER, Jean-Marc TALBOT.
La vérification automatique ou semi-automatique d’applications est le thème historique de l’équipe
et il possède une large reconnaissance aux niveaux national et international. Au cours du prochain
quadriennal, nos intérêts vont évoluer vers les défis actuels qui concernent des formalismes adaptés aux nouvelles utilisations de l’informatique. De plus, le développement logiciel original sur les
ordres partiels vient d’atteindre un stade diffusable, et les retours d’usagers devraient susciter de
nouvelles recherches. Enfin, plusieurs collaborations industrielles ont récemment démarré, et un
accent sera donné dans ce sens. Naturellement, de nombreux travaux réalisés en vérification susciteront des interactions avec les deux autres sous-thèmes.
Thème Algorithmique distribuée.
Participants : Jérémie C HALOPIN (responsable), Shantanu D AS , Emmanuel G ODARD .
Cet axe sera renforcé par le recrutement d’un MCF à l’Université de Provence en octobre 2010.
L’algorithmique distribuée est devenue un axe de recherche important de l’équipe qui s’intéresse
aux problèmes classiques (élection, terminaison, rendez-vous, . . . ) mais en considérant des modèles
liés à des usages nouveaux des systèmes distribués. Cette thématique est déjà reconnue nationalement et internationalement (collaborations très actives, invitations de chercheurs, participations et
organisations de conférences). Elle sera d’autant plus encouragée qu’elle permet des collaborations
entre équipes du laboratoires.
Thème Logique.
Participants : Séverine F RATANI , Frédéric O LIVE , Luigi S ANTOCANALE (responsable), Karl S CHLECH TA , Camilla S CHWIND .
La logique est un outil fondamental en vérification pour exprimer des propriétés des systèmes
étudiés. De nombreux travaux de l’équipe concernent des propriétés des logiques utilisées dans le
domaine en lien avec des questions précises de vérification. Cela a conduit à s’intéresser à la logique
pour elle-même (complexité, expressivité, sémantique,. . . ). La mise en place d’un axe de recherche
autour de ce thème permettra de fédérer ces travaux et de les rendre plus visibles. Cela devrait
permettre aussi de favoriser les collaborations avec le LSIS et l’IML et d’identifier Marseille comme
un centre de logique international de tout premier plan en particulier via le projet de fédération
Mathématiques et Informatique.
5.2
5.2.1
Projet de Recherche
Vérification
La vérification est le thème le plus représenté au sein de l’équipe. Au cours du prochain quadriennal, nous souhaitons développer prioritairement les thèmes décrits ci-dessous qui sont sus-
53
cités par des problématiques de systèmes embarqués, de mobilité, et de sécurité, nourries par les
nouveaux usages de l’informatique. Dans ce contexte, nous allons développer les fondements théoriques nécessaires à la vérification de ces nouvelles applications. Nos travaux seront valorisés par
des développements logiciels au sein de l’équipe et validés par des partenariats industriels.
Extension de formalismes pour la modélisation et l’analyse de perturbations. Le model checking
pour les modèles à états finis est bien connu et les défis actuels concernent son extension à des modèles plus proches des systèmes réels. Dans ce contexte, nous étudierons la prise en compte de
perturbations (perte de messages, erreurs numériques, composants défaillants) et d’aspects quantitatifs. Ce thème de recherche s’inscrit dans le projet ANR ECSPER. Nos travaux s’appuieront sur
notre expertise en matière de langages d’ordres partiels et de systèmes temporisés.
Systèmes distribués mobiles. Nous souhaitons ajouter de la mobilité aux modèles distribués existants pour aborder les problématiques de sécurité et sûreté soulevées par l’émergence d’une utilisation de plus en plus nomade des systèmes informatiques. Ces modèles plus complexes suscitent de
plus en plus d’intérêts dans les communautés scientifiques et industrielles. Cette recherche s’effectuera en partenariat avec le groupe de recherche eRISCS (Université de la Méditerranée).
Partenariats industriels : travaux menés au sein du projet NODEFECT, labellisé par le pôle SCS.
Robustesse des automates temporisés. La sémantique idéalisée des automates temporisés est incompatible avec la nature numérique et imprécise des plateformes d’implémentation. Des travaux récents étudient une sémantique alternative permettant de garantir l’implémentabilité et possédant
d’excellentes propriétés théoriques. Nous souhaitons étendre cette sémantique au cadre du contrôle
et développer des méthodes algorithmiques permettant de quantifier la robustesse du système.
Synthèse de contrôleurs modulaires pour les systèmes hybrides. L’objectif est d’utiliser des techniques
d’abstraction pour effectuer la synthèse de contrôleurs. L’originalité de notre travail réside dans la
prise en compte d’équations différentielles quelconques et dans une structure en cascade du contrôleur. Dans ce contexte, les dynamiques réelles du système (capteurs bruités, phénomènes physiques
non modélisés) ne pouvant être évaluées de manière exacte, on utilise des sur-approximations non
déterministes qui permettent en outre de rendre l’analyse accessible.
Partenariats industriels : coopération avec Novadem dans le cadre du pôle de compétitivité PEGASE.
Synthèse de systèmes à partir de spécifications MSCs. Les Message Sequence Charts (MSC, norme
Z.120 de l’ITU) constituent un formalisme standardisé proche des diagrammes de message UML,
largement utilisé pour la spécification de protocoles de télécommunications. La vérification de spécifications basées sur les MSCs permet de détecter rapidement les erreurs de conceptions. Un cas
particulier consiste à caractériser quelles spécifications régulières basées sur des MSCs sont effectivement implémentables, préférablement sans blocage, puis à les synthétiser. Nous avons déjà obtenu
plusieurs résultats intéressants dans ce contexte et souhaitons compléter nos travaux au problème
de la synthèse de systèmes non-ambigus sûrs, et étendre nos résultats à des spécifications non régulières avec divergence de canaux.
Algorithmique et réalisations logicielles.
Algorithmique. Nous poursuivrons nos travaux pour rendre les algorithmes de model checking et
de synthèse de contrôleur plus efficaces. L’explosion combinatoire reste l’obstacle principal des algorithmes génériques, or selon le domaine d’application, on peut obtenir des réductions importantes
par des réductions structurelles (en analogie avec des réductions d’ordres partiels), des approches
modulaires (qu’on explorera notamment pour la synthèse) et par la parallélisation.
Futur de l’outil POEM (Partial Order Environment of Marseille). La base du code de POEM sera
développée pour intégrer ces nouveaux algorithmes. La modularité de POEM permet la publication
d’une partie de l’outil en open source et nous inciterons d’autres équipes à utiliser cette plate forme
pour leurs propres développements. Il est également prévu d’intégrer tout algorithme conçu dans
l’équipe MoVe et compatible avec la sémantique de base dans POEM, notamment les algorithmes
pour les formalismes avec perturbations. Enfin, le GUI va connaître des améliorations pour donner
un accès convivial aux nouvelles fonctionnalités.
54
MSCs. Basé sur le code du prototype AMSC, un analyseur de Message Sequence Charts (MSC)
sera intégré dans POEM, dévéloppement favorisé par la présence des notions d’ordres partiels dans
le noyau actuel. Les analyses proposées concerneront notamment la divergence des canaux, c’est-àdire la possibilité d’un accroissement illimité du nombre de messages en transit.
Etude de modèles structurés.
Transformations XML. XML est devenu un standard dans l’échange de données sur le Web et une
des tâches fondamentales est la transformation de documents XML. Pour certaines bases de données, la taille très importante des documents rend impossible le stockage du document et nécessite
un traitement en “streaming”. Nous souhaitons étudier et caractériser les transformations effectivement réalisables en streaming. Pour cela, nous voulons d’une part travailler sur le modèle des
visibly pushdown transducers, et nous intéresser au problème de la séquentialité. D’autre part, nous
voulons définir un langage de spécification de transformations sous la forme d’une logique, et nous
intéresser au problème de la synthèse.
Modélisation et vérification de contrôle d’accès. Actuellement, nous travaillons sur la définition algébrique d’un meta-modèle pour les politiques de contrôle d’accès (telles que RBAC, MAC, DAC,
DEBAC, etc). L’objectif est d’identifier un cadre uniforme basé sur des caractéristiques globales communes à ces politiques, par exemple la catégorisation des ressources et des groupes d’utilisateurs, et
l’attribution de permissions à ces groupes. Nous souhaitons ensuite étendre notre meta-modèle à un
cadre distribué en incorporant la notion de site et en étudiant des méthodes d’évaluation distribuées
pour les requêtes d’accès. Nous souhaitons également implémenter des instances du meta-modèle
pour tester son efficacité.
5.2.2
Algorithmique distribuée
Dans ce thème, nous souhaitons étudier la puissance de calcul de différents modèles distribués.
On souhaite non seulement déterminer ce qui est calculable de manière distribuée dans un modèle
donné, mais également étudier la complexité des problèmes considérés, i.e., on cherche à obtenir des
algorithmes distribués efficaces (que l’on considère leur temps d’exécution, ou la quantité d’information échangée entre les processus). Pour cela, l’étude de problèmes classiques permet généralement
de développer les outils combinatoires et algorithmiques qu’on peut ensuite utiliser pour déterminer ce qui est calculable dans un modèle donné (cette démarche s’est avérée fructueuse par le passé
dans l’étude des systèmes anonymes où les processus communiquent par échanges de messages).
Au cours du prochain quadriennal, nous souhaitons étudier prioritairement les thèmes décrits
ci-dessous qui sont liés à la mobilité et à la sécurité. Ces problématiques devraient soulever des
questions liées à la théorie des graphes, à la théorie des jeux et aux problèmes de synthèse de systèmes distribués. Pour traiter ces questions, nous souhaitons continuer nos collaborations (locales,
nationales et internationales) avec des experts de ces domaines.
Systèmes à agents mobiles. Dans un système à agents mobiles, des agents sont dispersés sur un
réseau et sont en charge de réaliser une tâche distribuée comme par exemple, explorer le réseau,
collecter des informations disséminées dans le réseau, ou cartographier le réseau. On considère des
modèles où les agents ont une vue locale du système et les moyens de communication mis à leur
disposition sont limités.
De tels systèmes offrent un nouveau point de vue sur les systèmes distribués et ont été l’objet de
nombreux travaux récents. On cherche à étudier les puissances de calcul respectives de ces différents
modèles et à établir une hiérarchie entre eux. De nombreux paramètres peuvent varier d’un modèle
à l’autre : le système peut être synchrone ou asynchrone, les agents peuvent avoir des identifiants
ou non, la mémoire des agents peut être bornée ou non, etc. Pour étudier la puissance de calcul
de ces modèles, on se concentre sur quelques problèmes classiques qui permettent de mesurer les
différences entre les modèles : l’exploration, le rendez-vous, la cartographie . . .
Dans de nombreux modèles, on suppose que le réseau est modélisé par un graphe quelconque.
Nous souhaitons également étudier ces modèles lorsque l’environnement dans lequel les agents évo-
55
luent provient d’un espace géométrique : on peut par exemple supposer que les robots évoluent dans
le plan euclidien, ou bien dans un polygone. Ces approches sont motivés par le développement de
robots pour explorer ou nettoyer des espaces dangereux et/ou inaccesibles pour des êtres humains.
L’étude de tels systèmes nécessite non-seulement une expertise en algorithmique distribuée, mais
aussi une bonne compréhension des propriétés combinatoires et géométriques des espaces sousjacents. Sur ces questions, nous envisageons de collaborer avec l’équipe CRO dont certains membres
sont experts en géométrie algorithmique et dans l’étude des espaces métriques.
D’autres problématiques liées aux systèmes à agents mobiles concernent la sécurité. En particulier, on souhaite déterminer ce qu’on peut calculer dans des systèmes où certains noeuds sont défaillants (trous noirs). On souhaite également étudier les problèmes de la capture d’agent malicieux
et du nettoyage de réseaux contaminés ; ces problématiques sont proches des jeux de gendarmes et
de voleurs qu’on étudie déjà avec des membres de l’équipe CRO.
Modélisation des Réseaux Dynamiques. Après avoir contribué à l’étude des réseaux dont la topologie peut varier de manière transitoire, nous souhaitons étudier les réseaux dont la topologie
sous-jacente peut évoluer au cours du temps, par exemple de manière périodique. Il s’agit d’un tout
nouveau champ de recherche en algorithmique distribuée. Il n’existe pas encore de description unanimement acceptée de tels systèmes. Dans un premier temps, nous souhaitons étudier l’expressivité
d’outils classiques utilisés pour décrire l’évolution temporelle de certains systèmes (comme les automates temporisés) dans un tel cadre. Cette étude s’appuiera sur les compétences des membres
d’autres thématiques de l’équipe concernant ces outils. Nous aborderons ensuite la recherche d’algorithmes pour des problèmes classiques de diffusion d’information, ainsi que pour des systèmes à
agents mobiles.
5.2.3
Logique, automates et combinatoire
Cet axe de recherche a comme ambition de fédérer des thématiques attenantes à la logique, traitées dans l’équipe de manière trop éparse pour être visibles de l’extérieur. Cette proposition s’accompagne d’une démarche de valorisation des recherches logiques qui se font au LIF et d’une redéfinition du rôle de la logique dans le laboratoire. Les perspectives de développements scientifiques
à Marseille (unification des trois universités, création d’un institut Mathématiques-Informatique)
rendent cette démarche d’autant plus opportune.
Parmi les thèmes que nous souhaitons aborder, ceux décrits ci-dessous tirent leur origine des recherches sur la vérification des systèmes informatiques et sont représentatifs de nos intérêts. Nous
souhaitons nous focaliser sur ces questions en se concentrant sur les problèmes fondamentaux d’expressivité et sémantique plus que sur les aspects algorithmiques plus classiques.
Complexité descriptive. Cette intitulé recouvre une diversité de problématiques. Il renvoie d’abord
à l’étude des caractérisations logiques de classes de complexité. Comme l’illustre le résultat fondateur
de Fagin, qui identifie les problèmes NP aux ensembles de modèles de formules du second-ordre
existentiel, il s’agit de décrire des classes de complexité en termes de formalismes logiques. De telles
descriptions garantissent la robustesse des classes considérées, facilitent la formulation de problèmes
complets pour ces classes, permettent d’échanger des résultats et des techniques entre le domaine
de la complexité et celui de la logique.
La notion de complexité descriptive s’étend par ailleurs à l’étude du pouvoir d’expression de formalismes logiques. Nous considérons en particulier les logiques de points fixes, ou µ-calculs, qui jouent
un rôle central en vérification.
Les méthodes à l’œuvre dans ces deux approches sont variées (théorie des modèles finis, théorie des graphes, jeux. . .) mais reposent sur une même proximité entre logique et combinatoire. Par
exemple, l’étude du pouvoir d’expression d’une logique se ramène parfois à la recherche de stratégies gagnantes dans des jeux combinatoires.
56
Automates et points fixes. La théorie des points fixes se développe principalement autour des
logiques pour la vérification des systèmes informatiques. Cette théorie a évolué en profondeur ces
dernières années, en même temps que se clarifiait la connection entre deux notions :
– les automates à pile d’ordre supérieur et les graphes qu’ils définissent d’une part,
– les systèmes d’équations d’ordre supérieur et leurs solutions d’autre part.
Ces notions apparaissent aujourd’hui comme deux aspects du même problème, l’un combinatoire
et dynamique, l’autre algébrique et logique. Les systèmes d’équations d’ordre supérieur étant étroitement liés au λ-calcul et au système T de Gœdel, cette thématique a récemment rapproché les recherches qui se font dans deux communautés différentes, vérification et sémantique, mettant à jour
une foison de problèmes ouverts.
Projets. Le projet Trecolococo http://www.lif.univ-mrs.fr/~lsantoca/TRECOLOCOCO/
est appuyé par une aide de type PEPS, et il se développera vers un projet ANR.
5.3
Animation de l’équipe
L’évolution scientifique de chaque thème de recherche est menée par son responsable sous la responsabilité du chef d’équipe. La structuration en thèmes permet de recentrer l’activité de recherche
et devrait éviter que certains membres ne se retrouvent isolés. Les collaborations entre thèmes sont
naturelles car les intérêts de plusieurs membres de l’équipe sont multiples et certains sujets demandent des compétences transversales.
Interactions. Ces sujets transversaux sont des questions fondamentales et difficiles que nous envisageons d’attaquer pour leur importance scientifiques et les conséquences qui découleront de leur
étude. Nous voulons étudier la question du bon étiquetage des structures d’événements et la conjecture de Thiagarajan. Ces problèmes sont issus de la théorie de la concurrence mais sont liées directement à des questions difficiles de combinatoire. La difficulté rencontrée par les chercheurs pour
les résoudre suggère que des outils fondamentaux liés à la théorie de la concurrence restent à inventer. La décision des propriétés arborescentes de graphes est un problème similaire. Il est bien connu
que plusieurs problèmes de model checking peuvent se résoudre efficacement si on se restreint à
des modèles ou à des classes de formules d’arborescence donnée. Dans ce cadre, la détermination
de l’entrelacement d’une formule du µ-calcul requiert à la fois des compétences spécifiques sur les
jeux de type Voleur-Policier, et des compétences sur la théorie des points fixes ; ces compétences
correspondent à deux thèmes précédemment décrits.
L’ANR jeunes chercheurs ECSPER, qui a débuté fin 2009, fait collaborer des membres des trois
sous-thèmes. Ainsi, la possibilité d’implémenter des algorithmes distribués classiques (élection, consensus, diffusion, . . . ) est vue comme un critère pour évaluer les modèles distribués avec perturbations
utilisés en vérification.
Le groupe de travail permet aux membres de l’équipe d’exposer leur travaux. Nous y invitons
par ailleurs fréquemment des chercheurs à présenter des sujets plus ou moins proches de nos thématiques.
Collaborations. L’équipe a comme objectif de consolider ses collaborations avec d’autres laboratoires (Verimag, LaBRI, LSV, LIAFA, LORIA), notamment via des projets communs (propositions
d’ANR) et des invitations réciproques. Cela conduira de manière naturelle à des recrutements croisés. Nous envisageons d’ouvrir nos collaborations à des laboratoires qui développent des recherches
à l’intersection de la sémantique, des langages de programmation et de la vérification. On peut citer
PPS (Paris 7), le LIP (ENS Lyon), l’équipe Parsifal de l’INRIA Saclay, ou l’Institut Gaspard-Monge
(Marne-la-Vallée). Les liens avec les équipes locales de logique (Logique de la Programmation à
l’IML, INCA au LSIS) seront aussi renforcés via les fédérations Mathématiques et Informatique et
avec le LSIS. L’évolution de notre recherche conduit naturellement à renforcer les interactions avec
57
l’équipe CRO du LIF sur les sujets de combinatoire et de graphes. Les collaborations internationales sont aussi importantes pour l’équipe : celles existantes – R. Cockett (Calgary), M. Fernández
(Londres), D. Paulusma (Durham), J.F. Raskin (Bruxelles), N. Santoro (Ottawa), Y. Venema (Amsterdam), P. Widmayer (Zurich) – seront développées et d’autres collaborations possiblement s’ajouteront : Z. Esik (Szeged), J.B. Nation (Honolulu) . . .
Événements prévus. L’équipe prévoit d’organiser plusieurs rencontres ou conférences scientifique,
ce qui permettra d’augmenter la visibilité de la recherche qu’elle effectue. Le workshop FICS 2010 aura
lieu à Brno en République Tchèque dans le contexte des conférences CSL et MFCS. Il est organisé
cette année par MoVe qui propose le thème « automates et points fixes » avec pour invité Arnaud
Carayol. L’école de printemps du projet européen Games sera organisée au CIRM en 2011. La conférence
TACL 2011 aura lieu à Marseille en 2011 ; elle sera organisée conjointement avec d’autres logiciens
de Marseille, issus de l’IML et du LSIS. Nous organiserons les Journées Graphes et Algorithmes en
Novembre 2010 avec l’équipe CRO. Nous demandons à accueillir à Marseille en 2012 la prochaine
édition de l’école jeunes chercheurs MOVEP, sur la modélisation et la vérification de processus parallèles.
5.4
Auto-évaluation
Points Forts
L’équipe MoVe est une équipe majoritairement composée de membres jeunes, actifs en recherche,
qui ont tous effectué une mobilité. Plusieurs membres de l’équipe ont une visibilité internationale
particulièrement forte. Les liens avec les équipes reconnues dans le domaine sont forts et le niveau
des publications est très satisfaisant. Les ANR obtenues permet de juger de la bonne reconnaissance
de l’équipe au niveau national et la visibilité internationale de plusieurs chercheurs de l’équipe est
un facteur d’attractivité. Nos thématiques, variées et centrées autour de méthodes et modèles partagés par l’équipe, permettent un groupe de travail très vivant.
Quelques-uns des membres publient peu et certains des thèmes très classiques doivent veiller
à explorer de nouvelles voies de recherche prometteuses. Peu de prototypes de logiciel ont été développés et diffusés. À ce titre, le devenir du logiciel POEM sera particulièrement significatif. La
diversité des thèmes peut devenir un handicap en nuisant à la cohésion de l’équipe et en empêchant d’avoir une masse critique sur les sujets de recherche. Cela peut mettre en danger certains des
enseignants-chercheurs recrutés récemment. La nouvelle organisation de l’équipe en sous-thèmes
permettra d’améliorer ce point. Le nombre de participations à des comités de programme est insuffisant mais peut s’expliquer en partie par la jeunesse de l’équipe.
Opportunités
La fusion des universités et la rationalisation de l’offre de formation pourrait permettre de diminuer la pression des charges administratives et d’enseignement. Le rapprochement des sites d’enseignement et de recherche favorisera des contacts entre chercheurs sur certaines thématiques. Les
encadrements de thèses autour de sujets proposés par des industriels permettent de renouveller les
thèmes plus théoriques. Le recrutement d’un Chargé de Recherches CNRS a permis de renforcer le
thème algorithmique distribuée et les collaborations avec l’équipe CRO, un recrutement sur cette
thématique est prévu et permettra de pérenniser cet axe. Une ANR (ECSPER) et un post-doc financé
par l’université donnent des possibilités de collaborations nouvelles entre les jeunes chercheurs recrutés récemment et de renforcer le thème d’algorithmique distribuée. La constitution de la fédération Mathématiques et Informatique, alliée à un rapprochement géographique, serait une chance de
lancer des collaborations plus poussées avec l’équipe de logique de l’IML. Cette fédération devrait
être un point de départ pour proposer des projets avec l’INRIA sur au moins un des axes identifiés.
58
La création d’un master international dans ce cadre avec l’École Centrale de Marseille permettrait
de récupérer de bons étudiants en master et en thèse.
Risques
L’équipe a vécu un profond renouvellement ces dernières années avec les départs de chercheurs
reconnus (R. Amadio, S. Dal Zilio), affaiblissant le thème de la sécurité et du typage. Définir une politique de recrutement trop ciblée scientifiquement est difficile car l’équipe est en concurrence directe
avec des centres qui ont des avantages marqués : présence de l’INRIA (LORIA, LaBRI, . . . ), enseignement à des publics de haut niveau (LIAFA, LSV, . . . ). Nous devons faire face à la situation chaotique
des sciences sur Marseille : concurrence entre établissements, sites dispersés, peu d’attractivité pour
les étudiants de haut niveau, etc. De plus, les rangs A de l’équipe sont contraints de s’engager fortement dans les tâches administratives, du fait du faible nombre de professeurs à l’Univ. de Provence.
Cela nuit à leur rôle d’animateurs scientifiques. La surcharge de tâches administratives et pédagogiques imposées aux enseignants-chercheurs, y compris les rangs B, risque de nuire à l’activité de
recherche et à l’attractivité de l’équipe. Un manque d’implication dans le master 2 est potentiellement dangereux pour le renouvellement des doctorants. La dispersion géographique de l’équipe,
non choisie, menace sa cohésion, comme celle du laboratoire dans son ensemble.
Chapitre 6
Traitement Automatique du Langage
Écrit et Parlé
Responsable
Alexis N ASR
PU, Univ. de la Méditerranée
Frédéric B ÉCHET
Laure B RIEUSSEL
José D EULOFEU
Benoît FAVRE
Nuria G ALA
Elisabeth G ODBERT
Paul S ABATIER
Marie-Hélène S TÉFANINI
André VALLI
Michael Z OCK
Permanents associés
Line J AKUBIEC -J AMET
Monique R OLBERT
Jean V ÉRONIS1
PU, Univ. de la Méditerranée
IE, Univ. de Provence
PU, Univ. de Provence
MC, Univ. de Provence
MC, Univ. de Provence
MC, Univ. de la Méditerranée
DR, CNRS
DR, CNRS
Permanents
6.1
MC, Univ. Paul Cézanne
Présentation
TALEP est l’acronyme de Traitement Automatique du Langage Ecrit et Parlé et désigne l’équipe
créée au sein du LIF le 1er janvier. 2008. L’équipe TALEP résulte de la fusion de l’équipe C ALN
(Compréhension automatique du langage naturel, dirigée par Paul S ABATIER) du LIF, et d’une partie
de l’équipe D ELIC (Description Linguistique Informatisée sur Corpus, dirigée par Jean V ÉRONIS),
ancienne équipe d’accueil (EA 3779) de l’Université de Provence. L’équipe TALEP s’est enrichie ces
dernières années de l’arrivée de Alexis N ASR (sept. 2006), Frédéric B ÉCHET (sept. 2009) et Benoît
FAVRE (sept. 2010) qui ont apporté à l’équipe de nouvelles compétences en modèles numériques
pour le TAL, reposant sur des méthodes d’apprentissage automatique.
Dans le cadre d’approches symboliques et numériques, l’équipe TALEP développe et enrichit
des ressources linguistiques concernant aussi bien la langue écrite que parlée, conçoit et développe
1 Jean
V ÉRONIS est actuellement en détachement dans l’industrie. Son statut sera réévalué à mi-quadriennal. Son retour
au sein de l’équipe permettra d’enrichir cette dernière d’une compétence en linguistique de corpus, précieuse pour l’axe
“méthodes numériques” décrit ci-après.
60
CHAPITRE 6. TRAITEMENT AUTOMATIQUE DU LANGAGE ÉCRIT ET PARLÉ
des algorithmes, des logiciels et des applications illustrant les résultats de ses travaux. Les travaux
sont menés dans le cadre de différents projets ANR et de projets internes.
6.2
Projet de recherche
Le projet de recherche de l’équipe s’articule selon deux axes, un axe autour des méthodes symboliques et un autre autour des méthodes numériques. Dans le premier cas, on s’intéresse à une
description fine et profonde de certains phénomènes linguistiques circonscrits tandis que dans le
second, on privilégie la couverture et la robustesse des traitements et des modèles.
6.2.1
Méthodes symboliques
Au moyen de modèles symboliques de nature linguistique (lexique, morphologie, syntaxe, sémantique lexicale et conceptuelle) et logique (sémantique formelle), nous continuerons à développer
et à enrichir des ressources que nous exploiterons dans différentes applications. Ces deux aspects,
ressources et applications, se déclinent en différents projets, détaillés ci-dessous.
Constitution et enrichissement de ressources linguistiques
FondamenTAL
Paul Sabatier, Laure Brieussel, Marie-Hélène Stéfanini. Coll. avec le laboratoire MoDyCo, Univ. Paris X
À partir de trois ressources linguistiques pour le français conçues par Jean Dubois et Françoise
Dubois-Charlier Les verbes français (26.510 entrées) [27], Locutions en français (7.500 entrées) [28], Les
mots français (138.000 entrées), le projet FondamenTAL a pour objectif (1) d’expliciter les ressources
initiales, (2) de les enrichir par de nouvelles propriétés syntaxiques et sémantiques, (3) de produire
de nouveaux outils pour valider l’intérêt de ces ressources, en particulier dans le domaine de l’apprentissage du français.
LEXVALF : Lexique électronique des valences verbales du français
Laure Brieussel, Paul Sabatier, André Valli
Dans le cadre de LEXVALF, Il s’agira de compléter la base de données existante qui a été développée
dans l’équipe et qui décrit la complémentation verbale du français, base qui réunira à terme les 975
entrées des verbes les plus fréquents avec leurs différents emplois[39, 40].
GNF : Grammaire noyau du français
Paul Sabatier, Monique Rolbert, Marie-Hélène Stéfanini
Initialement développée par Robert Pasero et Paul Sabatier, GNF vise à recenser et modéliser les
constructions fondamentales du français. GNF sera étendue, en particulier pour en faire le modèle
linguistique pratique de l’application du projet TRANSGEN (Génération automatique de transformations de phrases) décrit plus bas.
Lexique Interlangues
Nuria Gala Coll. avec les laboratoires : CLLE-ERSS Toulouse, CLLE-ERSS Bordeaux, SHADYC-EHESS
Marseille, ISSCO Génève, UB Barcelona, UPF Barcelona
Comparer la morphologie entre les langues est beaucoup plus complexe qu’il n’y paraît et soulève
de nombreuses questions, particulièrement d’un point de vue méthodologique [35]. Ceci étant, la
notion de similarité des unités lexicales a déjà été exploitée en traitement automatique du langage
naturel, mais la similarité de familles et de séries morphologiques n’a pas été étudiée ni évaluée
globalement au niveau de lexiques entiers. De même, il n’existe pas à l’heure actuelle une ressource
lexicale axée sur la morphologie des langues romanes. L’objectif de cette thématique est d’explorer le
lexique des langues à partir de la notion de famille et de série de mots. Nous nous proposons d’aborder les aspects suivants : (1) étudier la morphologie lexicale des langues romanes, tout en validant
la pertinence du concept de familles et séries de mots. Sur la base de travaux existants [29, 30] et
61
[33, 34] nous nous proposons de comparer l’organisation et la structure des unités lexicales dans des
langues ayant une origine commune. (2) doter les langues romanes d’une base de données morphologique. Il s’agira d’un réseau décrivant l’ensemble des relations qui s’établissent entre un mot et les
membres des différents paradigmes morphologiques auxquels il participe, notamment ses familles
et ses séries dérivationnelles (morphologiques, lexicales, diachroniques, etc.).
Applications
TRANSGEN : Génération automatique de transformations de phrases
Paul Sabatier, Monique Rolbert, Marie-Hélène Stéfanini
Dans le cadre de l’apprentissage d’une langue donnée et de l’évaluation des compétences de l’apprenant, nous avons tous pratiqué ces exercices qui consistent à produire une phrase par transformation d’une phrase initiale. Nous décrirons formellement un certain nombre de transformations
en essayant d’exprimer de façon minimale les conditions dans lesquelles elles peuvent s’appliquer.
Au moyen du logiciel ILLICO [38, 37], nous développerons un ensemble d’exercices linguistiques
dédiés à l’apprentissage du français. Opérant sur les ressources LEXVALF, Fondamental et GNF,
des phrases simples pourront être analysées et générées automatiquement à partir de contraintes
formulables de façon déclarative par l’utilisateur aux niveaux lexical (choix de mots, mots interdits,
...) et/ou syntaxique (spécification de tout ou partie de la structure de la phrase). Des transformations de phrases pourront être formulées et produites automatiquement. Par exemple, pour la phrase
Max donne un morceau de chocolat à Luc, il s’agira par exemple de produire automatiquement toutes
les transformations de type proforme, comme Il donne un morceau de chocolat à Luc. Il lui donne un
morceau de chocolat. (...) Il lui en donne un morceau. Il lui en donne un. Il le lui donne. Il fait cela. Il le fait.
Intégration d’informations sémantiques dans des analyses en dépendances, et extraction d’information
Elisabeth Godbert, Line Jakubiec
Dans le but d’améliorer le résultat d’une analyse syntaxique en dépendances, nous proposons d’intégrer des critères sémantiques, d’une part pour aider à la désambiguïsation de l’analyse, d’autre part
pour enrichir les sorties par des rôles thématiques tels qu’ils sont par exemple définis dans VerbNet[41]. Nous envisagerons des applications dans les domaines de l’extraction d’information, du
résumé automatique ou de l’indexation. Ce travail s’inscrit dans la continuité du système PredXtract
[32, 31] qui a été développé ces dernières années dans l’équipe et qui s’intéresse à l’identification des
structures prédicatives dans des analyses en dépendances. Nous définirons un modèle avec lequel le
contenu sémantique de chaque structure prédicative sera représenté. Les alternations qui véhiculent
la même information sémantique seront traduites dans ce modèle par le même objet structuré. Nous
utiliserons dans un premier temps un formalisme proche des langages définis par le W3C pour le
Web sémantique. Cela facilitera l’établissement d’un lien entre nos résultats et d’autres outils, bases
de connaissances ou ontologies existantes. Cela nous permettra aussi de définir d’autres traitements
en aval. Nous étudierons aussi dans quelle mesure nous pourrons utiliser une logique de description
pour représenter les informations extraites par notre système, dans le but de faire des inférences, en
connectant là aussi, éventuellement, notre système et nos résultats à d’autres bases de connaissances.
Création d’un livre de phrases multilingue pour apprendre des langues
Michael Zock, Nuria Gala, Line Jakubiec
L’objectif de ce projet[42, 43] est de construire un programme assistant des apprenants (adultes) à
acquérir les automatismes nécessaires pour produire les structures fondamentales d’une langue. Le
point de départ est une méthode de langue ou un livre de phrases destiné à des touristes contenant
les expressions de bases pour survivre dans des situations courantes : faire des courses, demander
un renseignement, etc. Ce genre d’ouvrage contient typiquement les structures fondamentales d’une
langue et un lexique de base. Nous proposons d’étendre le champ d’application de ces structures en
les généralisant. Désormais, l’utilisateur disposera d’un outil permettant d’exprimer sa pensée à partir d’un besoin (intention, but), pour la préciser ensuite, en instanciant la structure associée avec les
mots lui convenant. Notre livre de phrase possède plusieurs caractéristiques : (1) il est générique.
62
CHAPITRE 6. TRAITEMENT AUTOMATIQUE DU LANGAGE ÉCRIT ET PARLÉ
Bien que nous ayons commencé par le Japonais et l’Anglais, il peut être étendu à d’autres langues
de types très différents. (2) il est ouvert. L’utilisateur peut le façonner à sa guise, que ce soit pour les
données (vocabulaire à apprendre) ou le fonctionnement (nombre de répétitions, vitesse, interface,
etc.). (3) à terme il est capable d’apprendre. Ce dernier point est capital pour créer ou étendre la base
de phrases. Autrement dit, le système pourra s’auto-alimenter en piochant dans un corpus adapté
des nouvelles phrases, illustrant le schéma qu’on est en train d’apprendre.
Aide à la communication pour enfants autistes
Laure Brieussel, Paul Sabatier. Coll. avec l’Institut des Sciences Cognitives, Bron et l’ISATIS, CHS St
Jean de Dieu, Lyon
Conception et développement sur tablettes tactiles d’un logiciel dédié à des enfants autistes (aide à
la communication iconique et linguistique) et au personnel hospitalier chargé de leur suivi thérapeutique. Démarré mi 2010, ce projet nous permettra de renforcer nos collaborations dans le domaine
des Cognisciences et de la Santé, de nous intéresser aux aspects déficits cognitifs et langagiers en
proposant des solutions pratiques issues de nos travaux sur l’aide à la conception et à la composition de messages. D’autres applications pourront être développées pour pallier certains handicaps
ou déficits (IMC, Alzheimer, etc.)
6.2.2
Méthodes Numériques
Comme mentionné dans l’introduction, l’équipe s’est récemment enrichie de trois membres :
Alexis Nasr, Frédéric Béchet et Benoît Favre qui ont apporté à l’équipe des compétences en TAL
numérique. Les travaux de cet axe s’organiseront autour de trois thèmes :
Enrichissement (semi-)automatique de données
Les méthodes reposant sur l’apprentissage automatique sont de grandes consommatrices de données. Dans le cas du TAL, ces dernières prennent la forme de données (écrites ou orales) enrichies
manuellement par des annotations variées (syntaxe, sémantique, discours, prosodie . . . ). Ce processus d’enrichissement est coûteux et de telles données sont par conséquent rares. D’autre part, les
données non annotées sont disponibles en grande quantité, à travers les enregistrements de médias
audio(visuels) et l’Internet. La possibilité d’exploiter de telles données pour améliorer les performances des outils de TAL est devenue un des enjeux majeurs du TAL numérique.
Nous envisageons d’explorer plusieurs voies pour limiter l’effort d’annotation grâce à l’exploitation de données non annotées. Certaines sont automatiques (auto-apprentissage, co-apprentissage,
échantillonnage de Gibbs) et d’autres font appel de manière limitée à un jugement humain (apprentissage actif, interface semi-automatique d’annotation). L’équipe a déjà acquis une certaine expérience dans ce domaine, et collabore sur ces thèmes avec l’équipe Apprentissage Automatique du
LIF, notamment dans les ANR SEQUOIA dans le domaine de l’analyse syntaxique, dans l’acquisition de lexique à travers l’ANR EDYLEX, et dans le traitement automatique d’enregistrements de
parole conversationnelle dans le cadre de l’ANR DECODA.
Développement Logiciel
Le développement logiciel est un aspect important du TAL et il constitue une partie importante
de l’activité des membres de l’équipe. Ce développement vise un triple objectif. D’une part, confronter aux données les modèles que nous concevons dans le but de les évaluer et de les faire évoluer.
D’autre part, disposer d’outils performants pour les applications développées au sein de l’équipe et,
finalement, offrir à la communauté des outils libres de droits. Plusieurs logiciels ont déjà été développés, parmi lesquels la chaîne de traitement MACAON [36], l’analyseur syntaxique probabiliste
pour le français SEQUOIA, développé dans le cadre de l’ANR homonyme et l’analyseur syntaxique
probabiliste pour l’anglais MICA [24], développé en collaboration avec l’université Columbia et les
laboratoires de recherche ATT. L’arrivée de Benoît FAVRE donnera l’opportunité d’intégrer ses outils
aux traitements existants, notamment l’apprentissage discriminant MIRA [26] dans MACAON.
6.3. AUTO ÉVALUATION
63
Nous comptons continuer à accorder une grande importance au développement logiciel, en
maintenant les logiciels existants et en en développant de nouveaux. Nous chercherons aussi à créer
des communautés de développement autour des logiciels existants afin d’assurer leur pérennité.
Passage à l’échelle : traitement automatique de corpus collectés
Les sites WEB d’information, les centres d’appels enregistrant toutes les conversations entre
clients et agents, les données audiovisuelles diffusées notamment sur Internet, les agences de presse,
etc. sont autant de sources quasiment illimitées de contenu multimédia (texte, son et image). Les
modèles et les logiciels développés au sein de l’équipe sont régulièrement utilisés pour effectuer des
traitements linguistiques sur ces masses de données.
Parmi les applications déjà en cours on peut citer : la fouille de données dans des corpus de
parole conversationnelle à travers l’ANR DECODA qui vise à caractériser et résumer des conversations entre agent et client dans le cadre d’un centre d’appel téléphonique [25] ; l’indexation vidéo à
travers l’ANR PERCOL ayant pour but d’identifier des personnes dans des documents vidéos ; la
détection et la caractérisation de mots nouveaux dans l’ANR EDYLEX en partenariat avec l’Agence
France Presse ; le résumé automatique de documents multisources, notamment dans le cadre des
campagnes d’évaluation internationales TAC.
6.3
Auto évaluation
Points forts
Comme le montre sa composition et l’illustrent ses publications dans des revues et des conférences d’informatique (Traitement automatique des langues) et de linguistique, l’équipe TALEP est
fortement pluridisciplinaire. Certains de ses membres publient dans les deux domaines. Cette pluridisciplinarité est le moteur de plusieurs projets.
Un autre point fort réside dans le fait que les travaux de l’équipe portent à la fois sur des questions fondamentales (concernant et l’écrit et l’oral) et sur le développement de logiciels et d’applications illustrant les résultats des premiers travaux.
Un autre point fort de l’équipe est celui de la diversité des modèles utilisés, d’une part des modèles symboliques issus de la linguistique formelle et de la logique, et d’autre part des modèles
probabilistes issus de l’apprentissage automatique.
On peut ajouter que la réunion des membres de l’équipe CALN du LIF et des membres de
l’équipe DELIC pour former depuis janvier 2008 l’équipe TALEP porte ses fruits, comme le montrent
les publications et projets réalisés ensemble.
Nous devons encadrer davantage de thèses. Les sujets de recherche ne manquent pas mais nous
avons du mal à recruter des thésards dans notre Master d’informatique. Il faudrait pouvoir attirer
les meilleurs étudiants français et étrangers, désireux de se former en TAL, dans notre master ou
directement en thèse. Ce n’est pas encore le cas, mais nous y travaillons.
Pour diverses raisons, une partie des membres de l’équipe a un niveau de publication faible.
Nous devons créer les conditions pour ramener ces membres à une activité de recherche et de publication plus soutenue.
Nous pourrions valoriser davantage nos compétences et notre savoir-faire dans le monde industriel. Les idées d’applications de nos travaux ne manquent pas. Certains membres de l’équipe ont
séjourné dans le passé dans l’industrie ; dans le cadre d’un détachement, l’un d’entre nous s’y trouve
aujourd’hui. Le monde industriel ne nous est donc pas étranger. Pour mieux valoriser nos travaux, il
faudrait pouvoir créer au sein de l’équipe un groupe de personnes dédié au transfert technologique.
Opportunités
Notre équipe a collaboré et collabore sur plusieurs projets avec différentes équipes nationales
(Univ. Paris 7, 10, Nancy, Besançon, Lyon, Montpellier, Toulouse) et internationales (Allemagne,
64
BIBLIOGRAPHIE
Suisse, Etats-Unis, Canada, Japon, Thaïlande). Au cours de ces quatre dernières années, sur des
projets précis, nous avons aussi collaboré au niveau local avec des collègues biologistes et mathématiciens. La fusion des universités d’Aix-Marseille devrait renforcer la mise en oeuvre de projets de
recherche avec la communauté des sciences humaines et sociales dans les domaines du langage, de
la cognition et de l’éducation.
Nous travaillons aussi à un projet de Master qui s’adressera aux étudiants en sciences humaines
(sciences du langage) et qui associera l’équipe TALEP du LIF et le laboratoire Parole et Langage
(UMR 6057, CNRS, Univ. de Provence).
Finalement, deux autres laboratoires dans la région s’intéressent au Traitement Automatique de
la Langue, il s’agit du Laboratoire Parole et Langage, cité ci-dessus, et du Laboratoire d’Informatique
d’Avignon. Nous entretenons de nombreuses relations avec ces deux laboratoires et la question se
pose de l’institutionalisation de ces dernières. Celle-ci pourrait prendre la forme d’un projet de laboratoire d’excellence autour des langues et de certains aspects de leur traitement automatique,
actuellement à l’étude.
Risques
Trois membres de l’équipe (José D EULOFEU, André VALLI et Michael Z OCK) partiront à la retraite
au cours du quadriennal. Il est important que ces postes soient reconduits dans l’équipe si l’on tient à
ce que notre objectif de développer un pôle d’excellence dans le domaine du traitement automatique
des langues soit poursuivi.
Bibliographie
[24] Srinivas Bangalore, Pierre Boullier, Alexis Nasr, Owen Rambow, and Benoît Sagot. Mica : A
probabilistic dependency parser based on tree insertion grammars. In North American Chapter of
the Association for Computational Linguistics - Human Language Technologies (NAACL HLT), pages
185–188, Boulder, Colorado, 2009.
[25] Frédéric Béchet and Alexis Nasr. Robust dependency parsing for spoken language understanding of spontaneous speech. In Interspeech, Brighton, United Kingdom, 2009.
[26] K. Crammer, O. Dekel, J. Keshet, S. Shalev-Shwartz, and Y. Singer. Online passive-aggressive
algorithms. The Journal of Machine Learning Research, 7 :585, 2006.
[27] Jean Dubois and François Dubois-Charlier. Les verbes français. Larousse-Bordas, 1997.
[28] Jean Dubois and François Dubois-Charlier. Locutions en français. chez les auteurs, Aix-enProvence, 2004.
[29] N. Gala and V. Rey. Polymots : une base de données de constructions dérivationnelles en français à partir de radicaux phonologiques. In Traitement Automatique des Langues Naturelles, Avignon, France, 2008.
[30] N. Gala and V. Rey. Acquiring semantics from structured corpora to enrich an existing lexicon.
In eLEXICOGRAPHY in the 21st century : new challenges, new applications., Louvain-la-Neuve,
Belgium, 2009.
[31] Elisabeth Godbert and Jean Royauté. Exploring predicate-arguments structures in texts to relate
biological entities. In "Relations sémantiques" Workshop 8th International Conference on Terminology
and Artificial Intelligence (TIA 2009), Toulouse, 2009.
[32] Elisabeth Godbert and Jean Royauté. Predxtract, a generic platform to extract in texts predicate argument structures (pas). In "Semantic Relations, Theory and Applications" Workshop held
in conjunction with the The seventh international conference on Language Resources and Evaluation
(LREC 2010), Malte, 2010.
[33] N. Hathout. Acquistion of the morphological structure of the lexicon based on lexical similarity
and formal analogy. In Proceedings of the COLING workshop Textgraphs-3, Manchester, UK, 2008.
BIBLIOGRAPHIE
65
[34] N. Hathout. Contribution à la description de la structure morphologique du lexique et à l’approche extensive en morphologie, 2009. Habilitation à diriger des recherches, Université de
Toulouse.
[35] M. A. Lefer and B. Cartoni. Prefixes in contrast : towards meaning-based contrastive methodology for lexical morphology. Languages in contrast., to appear(to appear), 2011.
[36] Alexis Nasr, Frédéric Béchet, and Jean-François Rey. Macaon : Une chaîne linguistique pour le
traitement de graphes de mots. In Traitement Automatique des Langues Naturelles, Montréal, 2010.
[37] Robert Pasero and Paul Sabatier. Illico : Guide d’utilisation. Technical report, Laboratoire d’Informatique Fondamentale, (http ://pageperso.lif.univ-mrs.fr/˜paul.sabatier/ILLICO/ILLICOGuide-Utilisation.pdf, 2007.
[38] Robert Pasero and Paul Sabatier.
Illico : Principes, connaissances et formalismes.
Technical report, Laboratoire d’Informatique Fondamentale, http ://pageperso.lif.univmrs.fr/˜paul.sabatier/ILLICO/ILLICO-Formalismes.pdf, 2007.
[39] Maurice Salkoff and André Valli. A dictionary of french verbal complementation. In Language
and Technology Conference, 2005.
[40] Maurice Salkoff and André Valli. La constitution d’un lexique de la complémentation verbale
du français. In Colloque international sur le lexique et la grammaire, 2006.
[41] K.K. Schuler. VerbNet : A broad-coverage, comprehensive verb lexicon. Dissertations available
from ProQuest, 2005.
[42] Michael Zock and Stergos Afantenos. Affective, Interactive and cognitive methods for e-learning
design, chapter Using e-learning to achieve fluency in foreign languages, pages 187–206. IGI
Global, Hershey, Pennsylvania, 2009.
[43] Michael Zock and Guy Lapalme. A generic tool for creating and using multilingual phrasebooks. In International Workshop on Natural Language Processing and Cognitive Science, 2010.

Projet 2012-2017

Transcription

Documents pareils

Nouveauté - Astronomie et Imagerie Numérique

5ème Lyon International Fair de That`s IAE Lyon : un succès confirmé

laboratoire d`informatique fondamentale

laboratoire d`informatique fondamentale de marseille

Case Study Erasmus MC - Rotterdam

FSCF - LIF

Rendez-vous à la 11ème Lyon International Fair !

La recherche suisse et l`Europe : quel passé, quel avenir ? D`année en

labels en france années 60

Si tous les chemins mènent à Rome, ils ne se valent pas tous. Le