Télécharger le document - Centre National de Ressources

Transcription

Télécharger le document - Centre National de Ressources
APPEL A PROJETS EQUIPEX /
CALL FOR PROPOSALS
Acronyme du projet /
Acronym
ORTOLANG
2011
DOCUMENT SCIENTIFIQUE B
Ce document devra impérativement comprendre un maximum de 40 pages,
corps de texte en police de taille 11. Ce maximum ne comprend pas le nombre
de pages consacrées à la description des unités partenaires, dans les limites
indiquées.
Acronyme du projet/
Acronym of the
project
ORTOLANG
Titre du projet en
français
Outils et Ressources pour un Traitement Optimisé de la
LANGue
Project title in English
Open Resources and TOols for LANGuage
Responsable
scientifique et
technique du
projet/Project manager
(chercheur, enseignant
chercheur…)
Nom, Prénom / Last name, First name : Jean-Marie PIERREL
Etablissement / Institution : Université Henri Poincaré Nancy
Laboratoire / Laboratory : ATILF
Numéro d’unité/Unit number : UMR 7118
Aide demandée/
Requested funding
Champ(s)
scientifique(s) du
projet/Scientific field(s)
of the project
Tranche 1/Phase 1
Tranche 2/Phase 2
3 327 996 €
447 200 €
TVA non récupérable incluse
TVA non récupérable incluse
Sciences de la Matière et de l’Energie Sciences du Système Terre‐Ecologie‐Environnement Sciences de la Vie et de la Santé 2 Sciences du Numérique et Mathématiques 1 Sciences Sociales et Humanités Ce projet, ou un projet proche, a‐t‐il été soumis pour EQUIPEX2010 ? ⌧Non ⌧Non Ce projet est‐il la suite, pour tout ou partie, d’un ou plusieurs projets soumis à EQUIPEX 2010 ? Oui Acronyme du projet : Coordinateur du projet : Oui Acronymes des projets Coordinateurs Ce projet est‐il partie prenante d’un projet d’Idex ? Non
Oui INGEXYS (soumis à l’appel 2) 1/46 APPEL A PROJETS EQUIPEX /
CALL FOR PROPOSALS
Acronyme du projet /
Acronym
ORTOLANG
2011
DOCUMENT SCIENTIFIQUE B
Etablissement coordinateur (voir définition ci-après) / Institution
leading the project (project leader – see definition in the call for
proposals)
Nom de l’établissement / Institution name
PRES Lorrain
Statut / Status
EPCS
Etablissement gestionnaire de l’aide (voir définition ci-après), à
compléter si différent de l’établissement coordinateur / Institution
managing the fundings (see definition in the call for proposals), to be
completed if different from the project leader
Nom de l’établissement / Institution name
CNRS
Statut / Status
Organisme de recherche
Affiliations des unités partenaires (voir définition ci-après) du
projet/Organization of the partner(s) (see definition in the call for
proposals)
Laboratoire(s)/
Laboratory
ATILF
LPL
LORIA
Modyco
LLL
INIST
Numéro(s) d’unité/
Unit number
UMR 7118
UMR 6057
UMR 7503
UMR 7114
EA 3850
UPS 76
Tutelle(s)/Research organization
reference
Université Nancy & CNRS
Université de Provence &CNRS
Université Nancy & CNRS & INRIA
Université de Parix X & CNRS
Université d’Orléans
CNRS
2/46 APPEL A PROJETS EQUIPEX /
CALL FOR PROPOSALS
Acronyme du projet /
Acronym
ORTOLANG
2011
DOCUMENT SCIENTIFIQUE B
RESUME / SUMMARY............................................................................. 5 1. DESCRIPTION SCIENTIFIQUE ET TECHNIQUE / TECHNICAL AND SCIENTIFIC
DESCRIPTION OF THE ACTIVITIES ......................................................... 7 1.1. Description du Programme / Description of the Programme ....... 7 7 8 9 10 10 1.2. Structure et composition de l’equipement /Structure and
building of the equipment ..................................................................... 11 1.3. Originalité,
caractère
novateur
du
projet
d’équipement/Originality and innovative feature of the equipement
project 13 Intérêt pour la communauté de recherche en linguistique
13 Intérêt d’une telle proposition pour la communauté de TAL (écrit et oral)
14 Intérêt du point de vue culturel et pédagogique
15 Intérêt du point de vue des partenariats public privé
16 Les atouts du consortium proposant ce projet
16 1.4. Environnement technique / Technical environnement .............. 17 Préservation à long terme
17 Centres diffusion compatibles CLARIN
18 Centre « Thématique »
19 Infrastructures nécessaires
19 2. STRATÉGIE DE VALORISATION DE L’ÉQUIPEMENT ET IMPACT SOCIOÉCONOMIQUE DU PROJET/ DISSEMINATION AND EXPLOITATION OF RESULTS ........ 20 2.1. Valorisation dans le monde scientifique : .................................. 20 2.2. Valorisation culturelle au service de la langue française et des
langues de France ................................................................................. 21 2.3. Valorisation et impact dans le monde socio-économique : ........ 21 3. MANAGEMENT DU PROJET / PROJECT MANAGEMENT.................................... 22 3.1. Aspects organisationnels / Management .................................. 22 Principaux enjeux de la proposition
Bilan des actions précédemment menées par les proposants (cf. annexe 1)
articulation entre les disciplines scientifiques et apports respectifs.
originalité et caractère ambitieux du projet
Impacts attendus
Qualification du responsable scientifique et technique du projet /Relevant experience of
the project manager : Jean-Marie Pierrel
modalités de coordination/ Coordination modalities
22 23 Un comité technique opérationnel ........................................................................... 23 Un comité d’orientation ............................................................................................. 23 Un comité scientifique ............................................................................................... 23 Modalité d’accès aux ressources et outils d’ORTOLANG .................................... 23 3.2. Organisation du partenariat / Collaboration organization ......... 24 Description et adéquation des unites partenaires/Partners’ description and relevance
24 • L’ATILF & CNRTL ..................................................................................................... 24 • Le LPL et le SLDR Aix ............................................................................................... 25 • Le LORIA ..................................................................................................................... 26 • Le LLL .......................................................................................................................... 27 • MoDyCO ...................................................................................................................... 27 • L’INIST ......................................................................................................................... 28 Complémentarité des unites partenaires/Partners’ complementarity
28 • • • • Qualification, rôle et implication des UNITES partenaires / Qualification, role and
involvement of the partner units
29 3/46 APPEL A PROJETS EQUIPEX /
CALL FOR PROPOSALS
Acronyme du projet /
Acronym
ORTOLANG
2011
DOCUMENT SCIENTIFIQUE B
Partenaire ATILF et CNRTL ..................................................................................... 29 Partenaire LPL et SLDR ............................................................................................. 30 Partenaire LORIA ....................................................................................................... 31 Partenaire Modyco ..................................................................................................... 31 Partenaire LLL ............................................................................................................ 32 Partenaire INIST ......................................................................................................... 32 4. EVALUATION FINANCIÈRE DU PROJET/ FINANCIAL ASSESSMENT ...................... 33 4.1. Justification scientifique et financière des montants demandés
au titre du coût d’investissement : Phase 1 48 mois.............................. 33 Mise en place de l’architecture informatique proposée
33 • Matériels informatiques nécessaires (poste équipement) ..................................... 33 Pour les centres de diffusion ............................................................................................. 33 Pour chacun des 3 centres thématiques ........................................................................... 35 Matériels spécifiques pour l’élaboration de ressources et leur traitement au cours de la phase 1 du projet ............................................................................................................ 36 • Investissement de développement informatique de la plateforme (poste fonctionnement – personnel) ................................................................................................ 36 Pour le centre de diffusion ................................................................................................ 36 Pour les centres thématiques ............................................................................................ 38 • • • • • • Un ensemble de ressources et d’outils cohérents sur notre langue (Poste de
fonctionnement –Personnel)
38 • Pour l’ATILF et le CNRTL ......................................................................................... 39 • Pour le LPL .................................................................................................................. 40 • Pour le LORIA ............................................................................................................. 41 • Pour le pôle ModyCo et LLL ..................................................................................... 42 • Sous‐traitance pour les équipes externes au consortium acceptant de normaliser et mutualiser des ressources (Corpus) et de les verser sur ORTOLANG ...................... 42 Poste de fonctionnement
42 4.2. La justification scientifique et financière des montants demandés
au titre du coût de fonctionnement hors masse salariale : 496 K€ ........ 44 4.3. Bilan consolidé total de l’aide demandée en K€ ......................... 45 4.4. La justification scientifique et financière des autres frais
engendrés par l’acquisition et le fonctionnement de l’équipement, qui ne
seront pas financés ............................................................................... 46 Evaluation des apports existants des partenaires
46 4/46 APPEL A PROJETS EQUIPEX /
CALL FOR PROPOSALS
Acronyme du projet /
Acronym
ORTOLANG
2011
DOCUMENT SCIENTIFIQUE B
RESUME
ORTOLANG (Open Resources and Tools for Language) a pour but de proposer une infrastructure en réseau offrant un réservoir de données (corpus, lexiques, dictionnaires, etc.) et d’outils sur la langue et son traitement clairement disponibles et documentés qui : - permette, au travers d’une véritable mutualisation, à la recherche sur l’analyse, la modélisation et le traitement automatique de notre langue de se hisser au meilleur niveau international ; - facilite l’usage et le transfert des ressources et outils mis en place au sein des laboratoires publics vers les partenaires industriels, en particulier vers les PME qui souvent ne peuvent pas se permettre de développer de telles ressources et outils de traitement de la langue compte tenu de leurs coûts de réalisation ; - valorise le français et les langues de France à travers un partage des connaissances sur notre langue accumulées par les laboratoires publics. Un tel équipement a aussi pour objectif de généraliser et d’assurer la pérennisation des efforts entrepris à travers les Centres de Ressources Numériques sur la langue, CNRTL (Centre de Ressources Textuelles et Lexicales www.cnrtl.fr) et SLDR (Speech and Language Data Repository, http://sldr.org, anciennement CRDO‐Aix), mis en place par le CNRS. Il a aussi pour ambition de servir tout à la fois de nœud français et de support à l’engagement de la France au sein de l’infrastructure CLARIN (Common Language Resources and Technology Infrastructure : www.clarin.eu) dont nous fumes partenaires dès le début. Enfin, il servira de plateforme technique sur la langue, écrite et orale, support des actions de coordination menées par le TGE ADONIS et le TGIR Corpus, dans lesquels nos laboratoires et Centres Ressources sont fortement impliqués. Les fonctions envisagées pour cet équipement sont : ‐ L’identification/préparation des données : catalogage des ressources et outils existants à travers un ensemble de métadonnées normalisées ; contrôle et validation des ressources et des outils : accompagnement des auteurs sur les standards, les normes et les recommandations internationales actuelles : XML, TEI, LMF, MAF et SYNAF ; enrichissement de ressources et des outils. ‐ Archivage : stockage, maintenance et curation des ressources et des outils ; archivage pérenne, à travers la solution mise en place par le TGE ADONIS en lien avec le CINES. ‐ Diffusion : aide et accompagnement des utilisateurs et mise en place des procédures permettant à des utilisateurs de la plateforme d‘exploiter les ressources et outils mutualisés sans avoir à se soucier de leur localisation et implantation géographiques. ORTOLANG se propose donc de mettre en place un processus permettant à une donnée linguistique, une fois créée, d’être cataloguée, éventuellement améliorée (voire corrigée), puis diffusée et enfin archivée. Le modèle d’ORTOLANG reprend les entités de base du modèle OAIS en précisant le cycle de correction/ enrichissement des données, rendu possible par l’archivage intermédiaire. ORTOLANG propose d’accompagner les chercheurs en fournissant plusieurs types d’aides : 5/46 APPEL A PROJETS EQUIPEX /
CALL FOR PROPOSALS
Acronyme du projet /
Acronym
ORTOLANG
2011
DOCUMENT SCIENTIFIQUE B
•
Aide à la création de données : faciliter l’accès à des instruments permettant l’acquisition ou la création de données (par exemple numérisation, chambre sourde, caméra rapide, mouvements oculaires, électro‐encéphalographie, articulographe, etc.). • Enrichissement de données : plusieurs outils permettent d’enrichir automatiquement les données brutes (étiquetage morphosyntaxique, analyse prosodiques, syntaxiques, etc.). Pour ce faire nous avons choisi de regrouper dans notre consortium des compétences complémentaires en - sciences du langage à travers l’ATILF, le LPL, MODYCO et le LLL, - informatique avec le LORIA et l’INIST mais aussi en partie l’ATILF et le LPL qui demeurent des laboratoires d’interface avec l’informatique - base de données et accès à de l’information scientifique, à travers l’INIST, et à des ressources linguistiques, à travers les deux centre de ressources que sont le CNRTL et le SLDR (ex CRDO Aix). Au‐delà de la réunion de ces compétences disciplinaires différentes notre objectif est aussi de fédérer pour cet équipement de mutualisation de ressources et d’outils sur la langue des partenaires représentant la diversité des approches d’étude de la langue : modélisation linguistique (MoDyCo, LPL et ATILF), linguistique expérimentale (LPL, ATILF) , production et de perception du langage (LPL, ModyCo), études diachroniques (ATILF, LLL), sociolinguistique (LLL, ModyCo), traitement Automatique des Langues (LORIA, LPL, ATILF), écrit (ATILF, MoDyCo), oral (LPL, LLL, ModyCo). Cette proposition s’appuie sur une expérience acquise importante des équipes proposant cet équipement d’excellence. A titre illustratif, nous explicitons ci‐dessous quelques atouts tant en termes de ressources et outils déjà proposés que d’insertion nationale et internationale. - L’acquis des partenaires, centres de ressources (CNRTL et SLDR) et laboratoires qui alimenteront la version initiale de la plateforme avec un ensemble de ressources et d’outils déjà disponibles en leur sein et dont les compétences recouvrent les trois principaux aspects visés : l’oral, l’écrit et la patrimonialisation des parlers de France. - L’implication et la cohérence avec les TGE et TGIR du domaine que sont ADONIS et CORPUS. Nous sommes partie prenante du TGIR CORPUS à travers nos implications dans les consortiums sur l’écrit (J.M. Pierrel membre du comité de pilotage) et sur l’Oral (Ph. Blache membre du comité de pilotage). Par ailleurs nos centres de ressources sont opérateurs au sein du TGE ADONIS et un partenariat est mis en place pour exploiter la solution d’archivage et de pérennisation à long terme proposée par ADONIS en partenariat avec le CINES. - L’implication et la cohérence avec l’infrastructure européenne CLARIN au sein de laquelle nous travaillons depuis la phase préliminaire et dont notre plateforme se propose de structurer un sous réseau français en concertation avec le TGIR CORPUS qui a en charge de structurer le volet français de cette architecture. - La cohérence avec les efforts menés par la DGLFLF et la BNF sur les aspects patrimonialisation des parlers de France. 6/46 APPEL A PROJETS EQUIPEX /
CALL FOR PROPOSALS
Acronyme du projet /
Acronym
ORTOLANG
2011
DOCUMENT SCIENTIFIQUE B
1. DESCRIPTION SCIENTIFIQUE ET TECHNIQUE
1.1. DESCRIPTION DU PROGRAMME
PRINCIPAUX ENJEUX DE LA PROPOSITION
Dans notre société de l’information, seules les langues fortement outillées et modélisées, permettant des traitements automatiques, ont des chances de subsister comme langues véhiculaires de travail et d’échange dans les domaines scientifiques, économiques, industriels et culturels, les autres risquant de se voir réduites à une dimension uniquement vernaculaire. Aujourd’hui, contrairement à ce que quelques esprits chagrins prétendent en affirmant que seul un « anglais international » pourra subsister comme langue véhiculaire, les jeux sont loin d’être faits1. Il paraît donc important et urgent de doter le français des outils indispensables à son traitement automatique, si nous souhaitons qu’à l’avenir il continue à jouer un rôle majeur sur le plan intellectuel, économique et sociétal, tant dans le monde industriel que dans celui de la recherche ou de la culture. Une rapide analyse de l’évolution des sciences du langage et du traitement automatique des langues (TAL) au cours des trente dernières années montre que la confrontation avec l’informatique a permis de définir de nouvelles approches. C’est ainsi qu’au‐delà d’une simple linguistique descriptive s’est développée une linguistique formelle, couvrant aussi bien les aspects lexicaux que syntaxiques ou sémantiques, qui tend à proposer des modèles s’appuyant sur une double validation, explicative d’un point de vue linguistique, opératoire d’un point de vue informatique. C’est elle aussi qui a permis l’émergence d’une véritable linguistique de corpus2 permettant au linguiste d’aller au‐delà de l’accumulation de faits de langue et de confronter ses théories à l’usage effectif de la langue. Cette évolution a provoqué une véritable révolution qui fait de l’informatique un outil indispensable pour : - étudier la langue et ses propriétés grâce à l’exploitation de corpus de grande ampleur ; - structurer et normaliser les connaissances linguistiques (phonétiques, morphologiques, lexicales, syntaxiques, sémantiques, etc.) ; - valoriser, partager et mutualiser les résultats de la recherche sur notre langue qui passent le plus souvent par la production de ressources et d’outils informatiques. Dans ce cadre les aspects de ressources informatisées (corpus annotés, lexiques et outils de traitement) sont particulièrement importants et stratégiques pour servir de support à la fois : - aux travaux de recherche pour lesquels la notion de corpus d’étude et de ressources est incontournable spécifiquement en linguistique de corpus, en traitement automatique des langues et en didactique des langues ; - à la diffusion des résultats de ces travaux : un des aspects essentiels aujourd’hui est leur informatisation et leur disponibilité sur la toile sous une forme facilement accessible et exploitable par l’ensemble de la communauté scientifique et industrielle. Un équipement d’excellence de mutualisation de ressources et d’outils pour le traitement informatisé et la valorisation du français et des langues de France s’impose donc aujourd’hui pour les raisons suivantes : Union Latine (2008), Langue et cultures sur la toile : enquête 2007, http://dtil.unilat.org/LI/2007/index_fr.htm 1
2
Habert, B., Nazarenko, A. et Salem, A. (1997) Les linguistiques de corpus, Paris, Armand Colin.
7/46 APPEL A PROJETS EQUIPEX /
CALL FOR PROPOSALS
Acronyme du projet /
Acronym
ORTOLANG
2011
DOCUMENT SCIENTIFIQUE B
-
Le coût de définition et de production de vastes ressources linguistiques de qualité (corpus, dictionnaires et lexiques), de même que celui de mise au point d’outils d’analyse (morphologique, morphosyntaxique, lexicale, syntaxique et sémantique) est important et c’est un gâchis énorme de vouloir, pour chaque projet de linguistique ou de TAL, redéfinir l’ensemble des ressources dont on a besoin3. Sans vouloir plaider pour une rentabilisation de la recherche, il convient de prendre conscience que, sans une mutualisation de telles ressources dans le domaine du langage qui nécessite d’aborder des aspects aussi divers que le lexique, la syntaxe, la sémantique, la pragmatique, chaque équipe de recherche ou chaque chercheur se verrait dans l’obligation de tout réinventer, alors même que nul ne peut être spécialiste de chacun de ces sous‐domaines. - Un second point plaidant pour la mutualisation de ressources concerne l’évaluation de nos productions de recherche (modèles, analyseurs, systèmes de traitement), qui nécessite, pour des besoins de comparaison, la disponibilité de ressources de référence (corpus textuels, lexiques, dictionnaires) accessibles, partagées et clairement identifiables. - De plus, le partage et la patrimonialisation des connaissances sur les langues de France est nécessaire afin de faciliter des études sociolinguistiques sur les parlers de France et de les faire bénéficier des apports de la recherche. - Enfin, en termes de valorisation et de partage de connaissances avec nos concitoyens, une disponibilité accrue, en particulier sur le web, de nos productions de recherche est indispensable. Outre le fait que cela peut permettre un meilleur partage entre le monde de la recherche et celui de l’entreprise, cela répond aussi à un besoin, de plus en plus grand, de connaissance chez nos concitoyens4. L’association entre le pôle nancéien, regroupant le CNRTL, l’ATILF, l’INIST et le LORIA, le pôle aixois, regroupant le LPL et le SLDR (Speech and Language Data Repository, http://sldr.org, anciennement CRDO‐Aix), et le pôle regroupant Modyco de Nanterre et le LLL d’Orléans, a pour objectif de créer, à travers un équipement d’excellence, une infrastructure française en réseau de gestion, mutualisation, diffusion et valorisation de ressources et d’outils de traitement sur le français qui permettent tout à la fois de répertorier et diffuser les ressources existantes et de tester différents outils de traitement de la langue. BILAN DES ACTIONS PRECEDEMMENT MENEES PAR LES PROPOSANTS (CF. ANNEXE 1)
Sur cette même base de mutualisation de ressources le CNRS, en 2006, a impulsé la création de centres de ressources (www.cnrs.fr/inshs/recherche/centres‐ressources‐numeriques.htm) permettant aux laboratoires et aux chercheurs de partager librement et gratuitement leurs données tout en assurant leur archivage pérenne selon le modèle OAIS. C’est ainsi que furent mis en place : A titre d’exemple, la construction d’un dictionnaire de langue tel le Trésor de la Langue française (www.atilf.fr/tlfi) a nécessité près de cent personnes durant trente ans, et l’établissement d’une base de données textuelles tel FRANTEXT (www.atilf.fr/frantext) s’est chiffré aussi en dizaines d’hommes‐an. 4 A titre d’illustration on ne peut qu’être frappé par le fait que, sur le lexique du français, le CNRTL et l’ATILF servent aujourd’hui pas moins de 700 000 requêtes par jour se répatrtyissant pour moitié entre l’accès direct au TLFi (www.atilf.fr/tlfi) et l’accès au portail lexical du CNRTL (www.cnrtl.fr/portail) ! 3
8/46 APPEL A PROJETS EQUIPEX /
CALL FOR PROPOSALS
Acronyme du projet /
Acronym
ORTOLANG
2011
DOCUMENT SCIENTIFIQUE B
-
le CNRTL (www.cnrtl.fr) pour les ressources textuelles, lexicales et dictionnairiques. Adossé à l’UMR ATILF (www.atilf.fr), son objectif initial était de réunir, au sein dʹun portail unique, le maximum de ressources informatisées et dʹoutils de traitement pour lʹétude, la connaissance et la diffusion de la langue française écrite. - le SLDR (Speech and Language Data Repository, http://sldr.org, anciennement CRDO‐
Aix adossé au LPL (www.lpl.univ‐aix.fr), avec un objectif analogue pour l’oral. Ces deux centres de ressources ont pu se mettre en place grâce à l’implication forte des laboratoires supports que sont respectivement l’ATILF et le LPL. Cela nous a permis de tester la validité de ce concept de centres de ressources thématiques. Aujourd’hui, nous pensons qu’il est nécessaire de franchir une étape supplémentaire en proposant cet équipement d’excellence pour la mutualisation de ressources et d’outils sur les langue de France en associant au sein de cet équipement en réseau les partenaires complémentaires que sont le LORIA, l’INIST, le LLL d’Orléans et MoDyCo. Le LORIA (www.loria.fr) possède en effet une longue expérience de traitement automatique des langues tant écrites qu’orales. Pour l’écrit des analyseurs syntaxiques du Français ont été développés, notamment par le biais des grammaires dʹinteraction et des grammaires LTAG (Lexicalized Tree Adjoining Grammars). (Cf Annexe §1.3) MoDyCo, dans son programme scientifique, réserve une place de choix aux corpus et outils pour l’analyse et la modélisation des langues, et a une expérience importante dans le domaine lié à cette proposition plus particulièrement au travers de deux programmes : le projet PFC (Phonologie du Français Contemporain : http://www.projet‐pfc.net) qui a permis de constituer une base de données sur le français parlé suivant le même protocole et avec des méthodes d’analyse et des outils communs ; le projet COLAJE (ANR 2009‐2012) dont l’objectif est de reconstituer l’émergence et le développement de la communication langagière chez le jeune enfant, avec une approche pluridisciplinaire et multimodale, et dont les données sont disponibles sur le site http://colaje.risc.cnrs.fr et sur celui de CHILDES (http://childes.psy.cmu.edu/). Le LLL, en coopération avec MoDyCo, a mis au premier rang de ses objectifs une contribution exemplaire à la constitution d’un corpus prototypique de référence sur le français parlé qui intègre les variations, sociolinguistiques, diachroniques et transcriptionnelles, et en permette l’analyse : le projet ESLO L’INIST (www.inist.fr) dont la finalité est de faciliter lʹaccès aux résultats issus des différents champs de la recherche et qui possède une importante expérience en gestion, maintenance et distribution de ressources documentaires nous apporte son appui pour structurer nos serveurs de ressources. ARTICULATION ENTRE LES DISCIPLINES SCIENTIFIQUES ET APPORTS RESPECTIFS.
Pour mener à bien ce projet, nous avons souhaité dès le départ réunir des compétences diversifiées représentant une couverture optimale des besoins pour aborder au mieux l’objectif qui est d’offrir une plateforme en réseau de mutualisation de ressources et d’outils pour l’étude, la diffusion, la valorisation et le traitement automatique de la langue française et des langues de France. ORTOLANG s’appuie essentiellement sur deux disciplines : la 9/46 APPEL A PROJETS EQUIPEX /
CALL FOR PROPOSALS
Acronyme du projet /
Acronym
ORTOLANG
2011
DOCUMENT SCIENTIFIQUE B
linguistique (ATILF, LPL, ModyCo, LLL) et l’informatique (avec le LORIA et l’INIST, mais aussi dans une moindre mesure l’ATILF et le LPL, deux laboratoires fortement pluridisciplinaires). Il réunit des équipes qui ont déjà montré par le passé leurs capacités à gérer des centres de ressources (CNRTL à l’ATILF et SLDR au LPL) ou qui possèdent une importante expérience en gestion, maintenance et distribution de ressources (INIST). Il fédère aussi des compétences linguistiques et des approches de la langue complémentaires : étude de l’écrit pour l’ATILF et le CNRTL, de l’oral pour le LPL et le SLDR et approche multimodale au LPL, LORIA et MoDyCo ; avec une focalisation forte sur le TAL pour le LORIA, le LPL et l’ATILF, sur la normalisation de ressources pour l’ensemble des partenaires et sur la patrimonialisation de la langue et la sociolinguistique pour MoDyco et le LLL, ce dernier fortement associé au « Département des Documents Audiovisuels et Sonores » (ex Phonothèque Nationale) de la BnF. ORIGINALITE ET CARACTERE AMBITIEUX DU PROJET
Forts de nos expériences passées, notre ambition est de définir et d’offrir une plateforme unifiée de gestion et distribution de ressources et d’outils sur la langue française. Une telle plateforme, que nous envisageons sous forme de réseau unifié de centres serveurs, a pour objectif de généraliser et d’assurer la pérennisation des efforts entrepris à travers les CRN (Centre de Ressources Numériques) sur la langue mis en place par le CNRS et dont à ce jour seule la fonction de « centre de compétences » est effectivement soutenue par le TGE ADONIS. Une telle infrastructure a aussi pour ambition de servir tout à la fois de nœud français et de support à l’engagement de la France au sein de l’infrastructure CLARIN (Common Language Resources and Technology Infrastructure : www.clarin.eu) dont nous avons été partenaires dès le début. Enfin, elle servirait de plateforme technique sur la langue, écrite et orale, support des actions de coordination menées par le TGE ADONIS et le TGIR Corpus, dans lesquels nos laboratoires et Centres de Ressources sont fortement impliqués. En termes d’usage, compte tenu des coûts de développement de ressources et d’outils sur la langue, nous souhaitons qu’ORTOLANG puisse : - offrir une plateforme de partage et de mutualisation de ressources et d’outils entre les diverses équipes de recherche, - permettre aux partenaires industriels de tester, dans le cadre de développement de prototypes, les ressources, modèles et outils mis au point par les laboratoires de recherche, - diffuser plus largement auprès du grand‐public des connaissances sur le français et les langues de France. IMPACTS ATTENDUS
Les impacts attendus d’une telle plateforme peuvent s’analyser sous un triple point de vue : - permettre, au travers d’une véritable mutualisation, à la recherche sur l’analyse, la modélisation et le traitement automatique de notre langue de se hisser au meilleur niveau international et contribuer à une présence du français au sein du réseau européen CLARIN à la hauteur de l’importance et du rayonnement culturel de notre langue ; 10/46 APPEL A PROJETS EQUIPEX /
CALL FOR PROPOSALS
Acronyme du projet /
Acronym
ORTOLANG
2011
DOCUMENT SCIENTIFIQUE B
-
-
faciliter l’usage et le transfert des ressources et outils mis en place au sein des laboratoires publics vers les partenaires industriels, en particulier vers les PME qui souvent ne peuvent pas se permettre de développer de telles ressources et outils de traitement de la langue compte tenu de leurs coûts de réalisation ; valoriser le français et les langues de France au sein de notre société de l’information à travers un partage des connaissances sur notre langue accumulées par les laboratoires publics. 1.2. STRUCTURE ET COMPOSITION DE L’EQUIPEMENT
La plateforme que nous proposons est à la fois une extension d’un existant au sein de nos laboratoires et centres de ressources (CNRTL et SLDR) et la définition d’un nouvel équipement en réseau assurant les fonctions suivantes : ‐ Identification/préparation des données : catalogage des ressources et outils existants à travers un ensemble de métadonnées normalisées ; contrôle et validation des ressources et des outils : accompagnement des auteurs sur les standards, les normes et les recommandations internationales actuelles : XML, TEI, LMF, MAF et SYNAF ; enrichissement de ressources et des outils. ‐ Archivage : stockage, maintenance et curation des ressources et des outils ; archivage pérenne, à travers la solution mise en place par le TGE ADONIS en lien avec le CINES. ‐ Diffusion : aide et accompagnement des utilisateurs et mise en place des procédures permettant à des utilisateurs de la plateforme d‘exploiter les ressources et outils mutualisés sans avoir à se soucier de leur localisation et implantation géographiques. L’objectif d’ORTOLANG est donc de mettre en place un processus permettant à une donnée linguistique, une fois créée, d’être cataloguée, éventuellement améliorée (voire corrigée), puis diffusée et enfin archivée. Le schéma ci‐joint récapitule le modèle d’ORTOLANG qui reprend les entités de base du modèle OAIS en précisant le cycle de correction/ enrichissement des données, rendu possible par l’archivage intermédiaire. ORTOLANG propose de l’accompagner en fournissant plusieurs types d’aides : • Aide à la création de données : faciliter l’accès à des instruments permettant l’acquisition ou la création de données (par exemple numérisation, chambre sourde, caméra rapide, mouvements oculaires, électro‐encéphalographie, articulographe, etc.). • Enrichissement de données : plusieurs outils permettent d’enrichir automatiquement les données brutes (d’alignement, analyse prosodiques, syntaxiques, etc.). Le modèle identifie par ailleurs pour chaque étape les connexions d’ORTOLANG avec les partenaires ou institutions extérieures. Ainsi, l’étape de création est effectuée en connexion avec l’IR Corpus (dont un des objectifs est l’accompagnement des auteurs dans l’élaboration des données), l’archivage est coordonné avec les propositions du TGE ADONIS en partenariat avec le CINES et le CC‐IN2P3. Enfin, la 11/46 APPEL A PROJETS EQUIPEX /
CALL FOR PROPOSALS
Acronyme du projet /
Acronym
ORTOLANG
2011
DOCUMENT SCIENTIFIQUE B
diffusion se fera en relation avec CLARIN ainsi qu’éventuellement avec les agences internationales comme ELRA ou le LDC. Une plateforme en réseau A ce jour, chercheurs ou industriels, mais aussi le grand public, ont besoin d’un point d’accès unifié sur les ressources et outils disponibles sur notre langue. Nous proposons de créer un tel service, permettant l’accès à un ensemble de ressources gérées en réseau. Notre solution s’appuiera sur des serveurs de données et de calcul répartis sur trois sites (Nancy, Aix en Provence et Paris). Nous proposons pour cela de définir un package standard d’installation d’un serveur ORTOLANG qui puisse servir à terme à installer de nouveaux nœuds au sein de notre plateforme en réseau. L’architecture matérielle s’appuiera sur l’existant au sein des partenaires en le complémentant et le mettant à niveau : serveurs de données du CNRTL, du SLDR et de l’INIST, avec mise en place de systèmes de sauvegarde incrémentale de ces serveurs ; grille de calcul du LORIA, indispensable pour l’apprentissage de certains modèles statistiques ; matériels d’acquisition de données spécifique (Scanner et OCR, matériels d’acquisitions audio et vidéo), instrumentation du Centre d’Expérimentation sur la Parole. L’architecture informatique reposera sur deux niveaux de nœuds. Des nœuds de diffusion (services versants vis à vis de lʹarchivage pérenne) devront assurer une qualité de service 24h sur 24 en matière : dʹaccès aux données et métadonnées, dʹentrepôt OAI‐PMH, de protection des données non entièrement publiques, dʹassociation dʹidentificateurs pérennes aux données et métadonnées et dʹidentification des utilisateurs (lors dʹaccès à des données non publiques) sur le principe de signature unique (SSO). Ces nœuds ne seront cependant que peu visibles des utilisateurs qui sʹadresseront à des nœuds “thématiques” permettant la navigation dans les collections et la recherche dans les métadonnées. Ce sont également les nœuds thématiques qui seront en charge dʹaider les déposants de ressources en matière de respect des formats de données et métadonnées. De façon plus précise, lʹarchivage sera assuré par le TGE Adonis ou par l’INIST pour les données de la recherche en SHS, et éventuellement par la BNF pour certaines données patrimoniales. Un nœud de diffusion devra utiliser une plateforme de gestion dʹobjets numériques (telle que Fedora Commons). Néanmoins, cette plateforme devra être complétée pour prendre en compte un mécanisme de propagation d’identité (tel que Shibboleth) et devenir un fournisseur de service sur la fédération dʹidentité française. Elle devra également être complétée pour gérer les identifiants pérennes et garantir lʹintégrité des objets. Un nœud de diffusion devra également exporter les métadonnées au format CMDI (métadonnées Clarin). Le respect de ces contraintes fait que ces nœuds seront de parfaits candidats pour le projet dʹinfrastructure européenne Clarin. Un nœud thématique devra moissonner les nœuds de diffusion en OAI et présenter aux utilisateurs des moyens dʹidentification des ressources via les métadonnées. Un des enjeux essentiels pour un nœud thématique est la gestion efficace de métadonnées structurées, la navigation dans les métadonnées afin de constituer des corpus de travail (pouvant contenir des données issues de plusieurs centres) en particulier via la sélection par facettes. 12/46 APPEL A PROJETS EQUIPEX /
CALL FOR PROPOSALS
Acronyme du projet /
Acronym
ORTOLANG
2011
DOCUMENT SCIENTIFIQUE B
Un ensemble de ressources et d’outils cohérents sur notre langue ORTOLANG a pour ambition d’être un centre de mutualisation d’outils et de ressources institutionnelles de référence sur notre langue. Il est donc indispensable d’y adjoindre une fonction de complémentation des ressources et outils nécessaires à la communauté. En s’appuyant sur les résultats de la phase de catalogage de l’existant, nous proposons, en lien avec le TGIR CORPUS, de compléter les manques les plus criants en fonction des priorités établies par notre comité scientifique. Par exemple, il conviendrait de compléter les corpus textuels actuellement disponibles sur le site du CNRTL (FRANTEXT, Est Républicain, Sciences humaines) pour tendre vers un corpus plus représentatif du français, de mettre à jour un lexique morphosyntaxe à large couverture du français, d’offrir à la communauté divers outils de base de traitement de corpus : outils de conversion de formats de codage, étiqueteur morphosyntaxique, outils d’analyse statistiques de corpus, concordancier (cf. paragraphe 4 Evaluation des coûts de réalisation de ces compléments prioritaires). 1.3. ORIGINALITE, CARACTERE NOVATEUR DU PROJET D’EQUIPEMENT
ORTOLANG a pour but de former un réservoir de données et d’outils clairement disponibles et documentés permettant de remplir un double objectif de partage de connaissance et de mutualisation d’acquis. L’usage de ces données ira dans le futur largement au‐delà des objectifs scientifiques aujourd’hui au centre de nos préoccupations, notamment dans les domaines du lexique, de la sémantique, de la pragmatique, etc., et dans les divers domaines d’applications. ORTOLANG permettra à la communauté de franchir un pas décisif aujourd’hui encore à peine ébauché. Il s’agit, non seulement du contenu et de la variété des données ou outils disponibles (qui seront encore enrichis et améliorés pendant tout le déroulement du projet), mais aussi et surtout d’assurer la diffusion de standards clairs, internationalement reconnus, afin de pouvoir rendre accessibles et permettre le partage, la réutilisation et la complémentation des informations. L’intérêt de notre proposition peut en fait s’analyser selon plusieurs points de vue complémentaires INTERET POUR LA COMMUNAUTE DE RECHERCHE EN LINGUISTIQUE
Depuis une dizaine d’années le paysage de la recherche en linguistique a largement évolué grâce à l’apparition d’importants corpus de langage aisément disponibles sur Internet. Si l’existence d’une linguistique de corpus n’est pas nouvelle (Laks, 2008), cette évolution de l’accès aux données dynamise de manière très importante le domaine, permet de démontrer l’importance, du point de vue fondamental, de la notion de variation, et autorise de grandes avancées dans la modélisation des théories exemplaristes ou dites basées sur l’usage. Si avant les années 2000, le paradigme générativiste dominait et conduisait à voir les théories et les modèles linguistiques comme fondamentalement sous‐déterminés par les données factuelles, ce nʹest plus le cas aujourdʹhui. Comme noté par Newmeyer (2003), ce sont dʹabord les travaux psycholinguistiques dʹobservation longitudinale, et spécialement ceux menés sur les acquisitions précoces qui ont ébranlé le paradigme cognitiviste chomskyen en documentant une hétérogénéité et une variabilité intrinsèque très importantes et peu compatibles avec lʹinnéisme de la grammaire universelle. Ces travaux ont récemment rencontré les problématiques de la linguistique variationniste conduites indépendamment 13/46 APPEL A PROJETS EQUIPEX /
CALL FOR PROPOSALS
Acronyme du projet /
Acronym
ORTOLANG
2011
DOCUMENT SCIENTIFIQUE B
depuis plusieurs décennies. La confrontation avec les analyses du changement linguistique en temps réel a par ailleurs souligné lʹimportance des dynamiques qui structurent, forment et déforment les systèmes linguistiques dans le temps. Enfin, le développement des travaux contrastifs et typologiques a conduit à relativiser la portée des grandes hypothèses universalistes au profit dʹune description plus fine et plus précise des données observées. Dans chacun des domaines et des sous‐domaines des sciences du langage, la notion dʹusages ou de pratiques attestées a ainsi été remise au premier plan, induisant un rapport nouveau aux modélisations explicatives et aux formalisations (Barlow & Kemmer, 2000). Ces théories sont basées sur la notion de constructions, qui sont des associations entre forme et fonction. Les constructions peuvent être extrêmement variées, allant de formes figées (un mot, une holophrase, une expression idiomatique) à des structures plus générales (par exemple la structure transitive sujet‐verbe‐objet), et en passant par de nombreux intermédiaires plus ou moins généralisés (par exemple la construction « c’est X » où « X » peut prendre n’importe quelle forme ; ou la construction « X aime Vinf » où « X » et « Vinf » sont mutuellement contraints). Les constructions peuvent se combiner pour produire des formes langagières de tout niveau de complexité. De telles théories permettent de modéliser la variété à tous les niveaux, de l’interlocuteur à l’intra‐locuteur. Elles font évoluer le système de catégorisation mis en place sur les exemplaires connus en élargissant sa base empirique, en modifiant le poids fréquentiel d’une série d’exemplaires, en favorisant la formation dʹune construction plus générale que celles qui étaient disponibles sous la forme d’exemplaires auparavant. L’apport de la linguistique de corpus à la compréhension des phénomènes langagiers est donc devenu fondamental. Le nombre d’énoncés qu’entend et produit une personne durant sa vie est très grand. Grace à l’augmentation de la variété et de la taille des corpus, il est aujourd’hui devenu possible de démontrer les faits langagiers à l’aide d’exemples attestés en grand nombre et de tester les propositions de la linguistique et de la psycholinguistique. Pour cela, un grand nombre de corpus contrôlés, bien décrits et variés, est nécessaire. INTERET D’UNE TELLE PROPOSITION POUR LA COMMUNAUTE DE TAL (ECRIT ET ORAL)
La multiplication des corpus offre également de nouvelles ouvertures hors du champ de la linguistique théorique et de la psycholinguistique, en matière de simulation et de traitement automatique du langage naturel aussi bien écrit qu’oral. En effet, la majorité des traitements automatiques réalisés aujourdʹhui sur le langage naturel sʹappuie sur des approches dʹanalyse de grandes masses de données et exploite des modèles construits sur ces mêmes corpus. Cette nécessité dʹavoir accès à de telles bases de données se retrouve également dans les méthodes dʹévaluation standards des modèles ainsi conçus, qui requièrent des statistiques suffisantes pour garantir la validité des performances des modèles automatiques ainsi que leur robustesse aux diverses sources de variabilité du langage rencontrées en conditions réelles dʹapplication. La comparaison de différents modèles théoriques et la participation aux campagnes dʹévaluation qui tendent à se multiplier dans le domaine du TAL requièrent également de grandes quantités de données et qui participent sur le long terme à formaliser un domaine de recherche et contribuent significativement à sa 14/46 APPEL A PROJETS EQUIPEX /
CALL FOR PROPOSALS
Acronyme du projet /
Acronym
ORTOLANG
2011
DOCUMENT SCIENTIFIQUE B
progression, comme lʹillustre par exemple lʹévolution du champ dʹapplication de la transcription automatique de la parole au cours de ces dernières décennies. La mise à disposition pérenne de grands corpus normalisés et enrichis comme le propose ORTOLANG constitue donc un progrès très important pour la communauté de recherche en TAL et en parole, et un accélérateur certain pour les recherches menées dans ces domaines. Ainsi, pour reprendre lʹexemple de la reconnaissance automatique de la parole, domaine de recherche dont la progression est structurée et rythmée par les campagnes dʹévaluations sur des corpus payants dédiées successivement aux informations radiophoniques (ESTER) et aux émissions de télévision (ETAPE), lʹambition unanimement affichée consiste à diversifier les styles de parole et ouvrir les évaluations, comme cela a déjà été réalisé aux Etats‐Unis, aux enregistrements de réunions (MEETINGS) et aux conversations spontanées (Switchboard). Le projet ORTOLANG permettra la mise en place et la distribution de telles données dʹétude. Un autre exemple en TAL concerne les recherches en analyse syntaxique automatique, qui souffrent, particulièrement en France, du manque de corpus dédiés aux différents genres du français notamment oral. La récente campagne dʹévaluation PASSAGE des analyseurs syntaxiques illustre les besoins de la communauté en grandes masses de données annotées, comme lʹa démontré dans le reste de lʹEurope la succession des campagnes CoNLL. Les volets constitution, enrichissement et diffusion de corpus constitueront donc une base de travail unique et de grande valeur pour la communauté française du domaine. INTERET DU POINT DE VUE CULTUREL ET PEDAGOGIQUE
La diffusion de données de langage, contrôlées et validées, est également fondamentale du point de vue culturel et pédagogique. Du point de vue culturel, pour la diffusion du patrimoine de la langue française, des langues de France et des langues en contact avec le français, l’existence de ressources fiables et finement décrites est fondamentale. En particulier, depuis 1911, année de création des Archives de la parole en France, la conservation des enregistrements sonores et des documents écrits qui leur sont liés est une préoccupation qui repose sur une relation entre les chercheurs et les institutions de conservation. Si cette question est aujourd’hui intégralement traitée, dans le cas de documents édités, par le biais du dépôt légal des archives sonores dont la BnF a la responsabilité et qui pourra, à travers son implication dans le LLL, faire profiter ORTOLANG de son expertise, il n’en est pas de même pour les corpus électroniques produits et exploités par les chercheurs dont le dépôt reste souvent difficile voire impossible pour des raisons techniques et juridiques, d’autant qu’ils ne correspondent que rarement aux produits commerciaux qui ont retenu l’attention du législateur (musiques, dialogues de films…). Sur un plan technique, les besoins pour les opérations de catalogage sont la mise en place de descripteurs à intégrer dans une ontologie qui reste à construire et une indication déclarative des codages utilisés. Le catalogage doit prendre en compte les liens qui existent entre des données primaires audios ou vidéos et l’incrémentation des transcriptions et annotations qui leur sont liées dès lors qu’il s’agit de corpus ouverts, évolutifs ou dynamiques. 15/46 APPEL A PROJETS EQUIPEX /
CALL FOR PROPOSALS
Acronyme du projet /
Acronym
ORTOLANG
2011
DOCUMENT SCIENTIFIQUE B
Sur un plan juridique, la prise en compte des conditions de conservation et d’exploitation permet de résoudre les problèmes liés à la protection de la vie privée (données personnelles, droit moral) et à la gestion des droits patrimoniaux et de propriété intellectuelle. Du point de vue de l’enseignement, l’existence de données bien décrites, comprenant des métadonnées détaillées (y compris par exemple des descriptions de scènes), peut servir de source précieuse pour les supports audio‐visuels ainsi que pour les supports d’enseignement à distance. Un tel type de données est également nécessaire pour l’amélioration des supports de cours de langue française en apprentissage langue seconde. INTERET DU POINT DE VUE DES PARTENARIATS PUBLIC PRIVE
Les applications industrielles de la linguistique, notamment en matière d’accès à l’information, de structuration de connaissance, majoritairement sous formes langagières, et de dialogue entre l’homme et la machine, sont dépendantes de la qualité et de la taille des corpus d’apprentissage et de référence dont elles disposent. Ces recherches ont un impact d’un point de vue économique, à travers les entreprises qui consomment de la parole ou recherchent sur la parole comme les opérateurs téléphoniques, les créateurs de logiciels ou consoles pour la communication homme‐machine, et toutes celles qui créent des produits qui servent de support au langage humain (oral comme écrit, souvent associés), qui ont besoin de données de qualité et de grande taille sur lesquelles développer leurs produits. Or la plupart des entreprises du domaine, startups et PME, ne peuvent se permettre, compte tenu des coûts d’investissement à prévoir d’élaborer des ressources linguistiques à large couverture. Nous souhaitons donc ouvrir très largement les ressources et outils de notre plateforme aux partenaires industriels pour leur permettre de tester des modèles ou procédures d’analyse, lors des phases de recherche et de développement de prototypes. A l’image de ce que nous avons déjà testé avec la société XILOPIX, nous proposons un accès gratuit à ces ressources dans la première phase de test et de prototypage et une rémunération par royalties dès que l’utilisation de ces ressources conduit à une exploitation commerciale. Une telle procédure devrait permettre ainsi d’aider le tissu industriel français à développer ses outils de traitement de la langue sans nécessiter un ticket financier d’entrée souvent incompatible avec les charges de nos startups ou PME. LES ATOUTS DU CONSORTIUM PROPOSANT CE PROJET
Cette proposition s’appuie sur une expérience déjà importante des équipes proposant cet équipement d’excellence. A titre illustratif, nous explicitons ci‐dessous quelques atouts tant en termes de ressources et outils déjà proposés que d’insertion nationale et internationale. - L’acquis des partenaires, centres de ressources (CNRTL et SLDR, successeur du CRDO‐
Aix) et laboratoires qui alimenteront la version initiale de la plateforme avec un ensemble de ressources et d’outils déjà disponibles en leur sein (cf. annexe paragraphe 1.x.2.) et dont les compétences recouvrent les trois principaux aspects visés : l’oral, l’écrit et la patrimonialisation des parlers de France. - L’implication et la cohérence avec les TGE et TGIR du domaine que sont ADONIS et CORPUS. Nous sommes partie prenante du TGIR CORPUS à travers nos implications dans les consortiums sur l’écrit (J.M. Pierrel membre du comité de pilotage) et sur l’Oral 16/46 APPEL A PROJETS EQUIPEX /
CALL FOR PROPOSALS
Acronyme du projet /
Acronym
ORTOLANG
2011
DOCUMENT SCIENTIFIQUE B
-
-
(Ph. Blache membre du comité de pilotage). Par ailleurs nos centres de ressources sont opérateur au sein du TGE ADONIS5 et un partenariat est mis en place pour exploiter la solution d’archivage et de pérennisation à long terme proposée par ADONIS en partenariat avec le CINES. L’implication et la cohérence avec l’infrastructure européenne CLARIN au sein de laquelle nous travaillons depuis la phase préliminaire et dont notre plateforme se propose de structurer un sous réseau français en concertation avec le TGIR CORPUS qui a en charge de structurer le volet français de cette architecture. La cohérence avec les efforts menés par la DGLFLF et la BNF sur les aspects patrimonialisation des parlers de France. Les coopérations internationales avec des centres de ressources sur d’autres langues, ceux participants à l’infrastructure CLARIN et plus particulièrement le MPI, le centre de compétence de Trèves et les initiatives de type analogue menée à Oxford. 1.4. ENVIRONNEMENT TECHNIQUE
Nous proposons un Equipex en réseau dont lʹarchitecture doit permettre : - l’archivage pérenne des ressources à travers le modèle OAIS, - l’instanciation de « centres diffusion » pleinement compatibles avec les recommandations du projet d’infrastructure CLARIN, - et la mise en place de « centres thématiques » directement accessibles par les utilisateurs afin de permettre la navigation dans les collections de ressources ou lʹobtention de ressources via des requêtes sur les métadonnées. Nous envisageons, à terme, plusieurs centres CLARIN ainsi que plusieurs centres thématiques. De cette façon nous garantissons l’ouverture et la possibilité dʹajout dʹautres centres, que ce soit au niveau centres de diffusion ou au niveau centres thématiques. Dans la suite, nous spécifions, tout d’abord, ce qui nous paraît nécessaire dans chacune de ces 3 strates, en partant de la plus basse (préservation à long terme) vers la plus haute (centre thématique) en passant par les centre de diffusion, puis explicitons les infrastructures nécessaires à sa mise en place. PRESERVATION A LONG TERME
Le Très Grand Equipement ADONIS assure (via une collaboration avec le CINES) la préservation à long terme de données issues de la recherche en SHS. Il va donc de soi que nous utiliserons cette facilité. Par ailleurs, certaines données à caractère patrimonial pourront être préservées à long terme à travers la BNF. Enfin, la participation de lʹINIST, en partenariat avec le CINES, au projet d’IDEX ISTEX dédié entre autres à la préservation à long terme de données bibliographiques pour les universités offre une troisième opportunité dʹarchivage. La seule contrainte pour chacune de ces solutions est le respect du modèle OAIS. « La tribune d’ADONIS, Partage d’expérience, Le centre national de ressources lexicales et textuelles », Lettre de l’INSHS, N° 1er juillet 2011, p. 20‐22 5
17/46 APPEL A PROJETS EQUIPEX /
CALL FOR PROPOSALS
Acronyme du projet /
Acronym
ORTOLANG
2011
DOCUMENT SCIENTIFIQUE B
CENTRES DIFFUSION COMPATIBLES CLARIN
La seconde strate de cette architecture est constitué de centres de diffusion, 2 centres au départ (CNRTL et SLDR) sur lesquels vont peser des contraintes de qualité de service (disponibilité maximale) et une gestion des documents permettant dʹobtenir le DSA (Data Seal of Approval). Ces centres, peu visibles des utilisateurs, sont des dépôts fiables des données et ne présentent pas nécessairement dʹinterfaces de consultation. Les contraintes imposées dans le cadre du projet CLARIN matérialisent les critères de bonne gestion que nous devons atteindre. Bien évidemment le respect de ces contraintes permet également de se qualifier comme centre dans le projet CLARIN lui‐même. Les fonctionnalités attendues à ce niveau sont : - Lʹidentification de chaque ressource par un identifiant pérenne (Handle dans notre cas). Pour lʹinstant nous obtenons nos Handles à travers EPIC (une infrastructure européenne). Nous devrons probablement envisager dans le cadre de lʹEquipex de gérer entièrement un préfixe Handle par centre. Une garantie doit être offerte à lʹutilisateur quʹun identifiant donné renvoie toujours exactement à la même donnée (et aux mêmes métadonnées) y compris sur le long terme. - Une preuve dʹintégrité de la donnée associée à un identifiant pérenne devra être fournie sous forme dʹune somme de contrôle (MD5, SHA) liée à lʹidentifiant pérenne. Enfin le lien entre lʹidentifiant pérenne de type Handle et lʹéventuel identifiant dʹarchivage à long terme devra être établi et garanti. - La gestion de version. Toute modification dʹune donnée doit donner lieu à une nouvelle version (non nécessairement préservée à long terme). Cette gestion des versions sʹeffectue à travers une relation dédiée dans les métadonnées. - Entrepôt OAI‐PMH. Les centres doivent implémenter un entrepôt de métadonnées moissonnable au protocole OAI‐PMH pour des métadonnées aux formats Dublin Core et CMDI (Format de métadonnées structurées du projet CLARIN). - Authentification des utilisateurs à travers un mécanisme de signature unique (Single Sign On) lors de lʹaccès à des données à accès restreint. Comme nous le verrons dans le niveau suivant, ce mécanisme est un des points clés pour la constitution de corpus contenant des données qui proviennent des différents centres tout en respectant les contraintes dʹaccès. - Implémentation de la notion de déposant (en dédiant un élément à cet effet dans les métadonnées). Un déposant pouvant être un individu, un projet, un laboratoire ou une institution. Bien évidemment, en pratique, il y a donc plusieurs déposants (un chercheur, un laboratoire, une université ou un EPST). Cette notion est essentielle pour au moins deux raisons : ne prendre en considération que des données issues de la recherche ou au moins utiles à la recherche et rendre visible la production de données par les individus et les institutions. - Mise à disposition dʹoutils de traitement de données sous forme de Web Services. Dans lʹarchitecture, les outils sont décrits également à lʹaide de métadonnées au format CLARIN. 18/46 APPEL A PROJETS EQUIPEX /
CALL FOR PROPOSALS
Acronyme du projet /
Acronym
ORTOLANG
2011
DOCUMENT SCIENTIFIQUE B
De plus, concernant lʹinteropérabilité des métadonnées, nous serons amenés à compléter le format CMDI sur deux points : - définition dʹun schéma minimal commun faisant intervenir la notion de déposant et la notion de contrôle dʹintégrité ; - Définition dʹun mécanisme de « dumb‐down », cʹest à dire dʹaplatissement de la structure de métadonnées permettant dʹobtenir les différentes vues thématiques. Bien évidemment, la gestion dʹun centre exige une équipe de gestion des données. De telles bases sʹadministrent au quotidien. En pratique, la gestion dʹun tel centre nécessite du personnel dʹune part pour garantir la haute disponibilité et dʹautre part pour administrer la base de ressources. Lʹactuel CNRTL et le SLDR, en combinant leurs précédentes expériences (projet pilote ADONIS pour la préservation à long terme et réalisation dʹun prototype dʹun centre CLARIN), sont bien armés pour entreprendre les développements informatiques nécessaires. Les compétences présentes à lʹINIST en matière de haute disponibilité, de métadonnées et de gestion de bases bibliographiques importantes devraient nous garantir le niveau dʹexcellence visé. CENTRES « THEMATIQUES »
La partie émergée de lʹéquipement directement visible pour les utilisateurs sera constituée de trois centres « thématiques », orientés respectivement vers les aspects linguistiques (textuels) les aspects études de la parole et enfin les aspects patrimoniaux. Lʹenjeu est de rendre visible lʹensemble des données hébergées dans les centres à partir de chaque centre thématique. Pour autant, des centres dʹintérêts différents peuvent amener à : - des méthodes de navigation et de recherches dans les métadonnées différentes - un filtrage dʹune partie des métadonnées jugées non intéressantes. Rien nʹempêche dʹenvisager dʹautres centres « thématiques », voire même des centres qui permettent des requêtes dans la totalité des métadonnées. Les centres « thématiques » n’ont pas pour vocation d’héberger des ressources, autres que celles en cours de définition. Ils moissonnent les centres de diffusion en utilisant le protocole OAI‐PMH afin de disposer des métadonnées de lʹensemble des dernières versions des ressources. Lʹaccès aux données elles‐mêmes se faisant par un renvoi vers ces centres. Les centres « thématiques » sont également les interlocuteurs des déposants. Il est de leur responsabilité de mettre en forme données et métadonnées avant transmission aux centres de diffusion. Les centres de diffusion étant eux responsables de la mise en forme vis à vis des opérateurs dʹarchivage. Les centres « thématiques » doivent donc permettre aux chercheurs de se constituer des corpus de travail de façon transparente quant à la localisation de données dans les différents centres CLARIN. Ils offrent trois modes dʹidentification des ressources : une navigation par collection, une interface simple de recherche dans les métadonnées et une interface complexe de recherche à facette INFRASTRUCTURES NECESSAIRES
La mise en œuvre dʹun centre de diffusion suppose une plateforme de gestion dʹobjets numériques. Les prototypes actuels (SLDR et CNRTL) sʹappuient sur Fedora Commons. 19/46 APPEL A PROJETS EQUIPEX /
CALL FOR PROPOSALS
Acronyme du projet /
Acronym
ORTOLANG
2011
DOCUMENT SCIENTIFIQUE B
Certaines briques nécessaires existent sur des plateformes basées sur Fedora, pour autant lʹintégration de lʹensemble est incomplète et nécessite des développements supplémentaires (lʹensemble des développements se fera en open source). Un centre thématique nécessite la mise en œuvre dʹune base (RDF) pour une exploitation efficace des métadonnées structurées et hétérogènes pour permettre une sélection optimale de ressources en réponse à un besoin d’un utilisateur. Il est également souhaitable de disposer dʹune indexation plein texte qui, pour des raisons d’efficacité, devra se situer au niveau des centres de diffusion. Pour l’infrastructure d’accueil de ces centres, nous nous appuierons sur l’existant au sein des partenaires. Il n’y a donc pas lieu d’envisager d’investissement en termes de bâtiment, espace spécifique, alimentation électrique…. Nos demandes portent donc sur : - Des équipements informatiques (serveurs de calcul et de données et postes de travail), des équipements spécifiques de saisies de données en vue de la constitution de ressources. - Définition, programmation et test de l’architecture logicielle décrite ci‐dessus. - Finalisation et/ou constitution de ressources et d’outils nécessaires à la version 1 de l’Equipex. 2. STRATEGIE DE VALORISATION
SOCIO-ECONOMIQUE DU PROJET
DE
L’EQUIPEMENT
ET
IMPACT
2.1. VALORISATION DANS LE MONDE SCIENTIFIQUE :
Comme nous l’avons indiqué ci‐dessus, l’objectif de notre plateforme de mutualisation de ressources et d’outils sur les langues de France s’appuie sur une politique de ressources et de logiciels libres partagés avec l’ensemble de la communauté de recherche. Il n’y aura donc pas de ce point de vue de facturation d’usage de la plateforme ou de ses ressources et outils pour la communauté de recherche. L’impact de ce point de vue devra être mesuré suivant d’autres critères. Nous proposons les critères suivant comme indicateurs de réussite du projet : - Nombre de ressources et d’outils mutualisés et ratio entre celles et ceux venant des partenaires et celles et ceux venant d’autres laboratoires. Si la plateforme est amenée à gérer des ressources venant de laboratoires autres que l’un des partenaires de l’EQUIPEX nous aurons là un indice important de réussite du projet. Il convient de noter que dès à présent c’est ce que nous avons réussi au sein de nos centres de ressources. Ainsi le CNRTL abrité au sein de l’ATILF regroupe certes une majorité de ressources venant de l’ATILF mais aussi des ressources d’autres laboratoires ou organismes : Académie Française, ARTLF (Chicago), CRISCO (Caen), Ecole des Chartes, CLLE/ERSS (Toulouse), INIST, LDI (Cergy), LIA (Avignon), LORIA, Université de Laval (Québec), Université de Tours, etc. - Nombre d’accès à ces ressources. Ce second indicateur, complémentaire du premier est aussi important pour mesurer la réussite d’un tel projet. Nous souhaitons poursuivre nos efforts qui font par exemple que le seul portail lexical du CNRTL sert aujourd’hui plus de 20/46 APPEL A PROJETS EQUIPEX /
CALL FOR PROPOSALS
Acronyme du projet /
Acronym
ORTOLANG
2011
DOCUMENT SCIENTIFIQUE B
-
300 000 requêtes journalières venant du monde entier (www.cnrtl.fr/aide/stat/) et que plus de 200 Universités ou structures de recherche (dont plus de la moitié étrangères) sont abonnées à la base textuelle Frantext (www.frantext.fr). Nombre de projets de recherche s’appuyant sur les ressources et outils mutualisés au sein de cet equipex, dont en particulier les projets ANR et ratio entre ceux des partenaires et ceux d’autres laboratoires, et aussi nombre d’articles scientifiques faisant référence à des ressources de notre plateforme 2.2. VALORISATION CULTURELLE AU SERVICE DE LA LANGUE FRANÇAISE ET DES
LANGUES DE FRANCE
Ce second aspect est tout aussi important même s’il n’est pas toujours facile à mesurer. Il correspond à notre ambition de vouloir conforter et valoriser la place du français et d’autres langues de France (en particulier la langue des signes) dans un contexte très largement multilingue. Pour mesurer cet aspect les mêmes indicateurs de réussite qu’au point précédent peuvent être utilisés. On peut aussi y ajouter, à l’image de ce que nous faisons déjà au sein du portail lexical du CNRTL(www.cnrtl.fr/aide/stat/), évaluer, sur la base de numéro IP des machines interrogeant la plateforme, l’impact international de ce que nous proposons. Ainsi au 25 Août dernier, sur 314 000 requêtes, 46% venaient de France, 16% des USA, 15% d’autres pays de l’Union Européenne, 5,5% du Canada. 2.3. VALORISATION ET IMPACT DANS LE MONDE SOCIO-ECONOMIQUE :
Comme nous l’avons indiqué nous privilégions des ressources et outils proposés sous une licence de type « Creative commons » incluant une clause de « No Business » et, pour obtenir une adhésion de la communauté scientifique à nos objectifs de mutualisation, nous proposons que la valorisation des ressources et outils déposés dans des applications industrielles demeure du ressort essentiellement des laboratoires déposants. Une telle stratégie nécessite d’analyser des impacts dans le monde socio‐économique suivant d’autres critères que les retours financiers directs pour l’équipement de mutualisation. Nous proposons donc comme indicateurs de réussite de notre démanche, le nombre de projets de partenariat industriels s’appuyant sur les ressources et outils que nous diffuserons. Là encore, les expériences menées au cours des dernières années montrent qu’une telle stratégie est efficace. Pour le seul laboratoire ATILF, sur la base d’une politique de ce type, nous avons été amené, au cours des dernières années, à contractualiser avec plusieurs entreprises (dont Synapse, MVS et Xilopix, cette dernière ayant choisi de s’implanter en Lorraine pour se rapprocher de nos compétences) et cela s’est traduit par un volant de royalties non négligeables, un contrat, avec soutien de l’Agence de mobilisation économique de Lorraine de 1,5 millions d’euros sur 3 ans et la mise en place de 2 contrats CIFRE de financement de doctorants. Pour augmenter cet aspect valorisation nous souhaitons à l’avenir travailler, au moins pour le pôle nancéien, en lien avec la SATT proposée par nos tutelles (Cf. annexe 2). Nous nous proposons aussi d’étudier la mise en place d’un dispositif permettant d’assurer à terme une participation au financement du fonctionnement d’une telle infrastructure pour permettre sa pérennisation après 2020, dans le cas où, comme nous en sommes convaincus, 21/46 APPEL A PROJETS EQUIPEX /
CALL FOR PROPOSALS
Acronyme du projet /
Acronym
ORTOLANG
2011
DOCUMENT SCIENTIFIQUE B
la mise en place de cet équipement sera une réussite. Partant de l’idée que la valorisation de ces ressources et outils pourrait se faire, par les laboratoires déposants, sous forme de royalties d’usage, nous proposons d’étudier une répartition de ces retours sur investissement avec reversement d’un pourcentage raisonnable (de 5 à 10%) pour soutenir l’équipement ayant assuré la visibilité et le diffusion de ces ressources. Au cours des dernières années, un mécanisme de ce type mis en place au sein de l’ATILF a permis le développement et la maintenance du CNRTL que nous hébergeons. 3. MANAGEMENT DU PROJET
3.1. ASPECTS ORGANISATIONNELS
QUALIFICATION DU RESPONSABLE
JEAN-MARIE PIERREL
SCIENTIFIQUE
ET
TECHNIQUE
DU
PROJET
:
Professeur à l’Université Henri Poincaré Nancy 1 (Classe exceptionnelle, 2ème échelon), Bénéficiaire d’une PES (Prime d’Excellence Scientifique depuis 2010 et d’une PERD (Prime d’Encadrement Doctorale) de 1990 à 2010 Directeur de l’ATILF (UMR 7118 : www.atilf.fr) depuis le 2 janvier 2001 et Responsable du CNRTL (Centre National de Ressources Textuelles et Lexicales : www.cnrtl.fr) Représentant français au sein du projet européen d’infrastructure de recherche en SHS CLARIN (Common Language Resources and Technology Infrastructure : www.clarin.fr) de 2008 à 2010 Ancien directeur du CRIN (1989‐1994), UMR d’informatique CNRS/Université_de_Nancy devenu aujourd’hui le LORIA Ancien directeur adjoint du Groupement national d’intérêt Scientifique « sciences de la cognition » (1995‐1999) Membre nommé du Comité National de la Recherche Scientifique, section 07 « informatique » (91‐95), Section 34 « Langues, langage, discours » (95‐200 et 2004 ‐ 2008), section 45 “Cognition, langage traitement de l’information : systèmes naturels et artificiels” (2003 ‐ 2008) Membre du conseil scientifique des éditions Lavoisier‐Hermès, directeur de la collection « Cognition et traitement de l’Information », Rédacteur en chef adjoint de la Revue d’Intelligence Artificielle (RIA) Prix IBM de la recherche en informatique 1984 Domaines de recherche : Informatique‐linguistique, Traitement automatique des Langues. Durant 20 ans ses recherches ont porté sur la compréhension automatique de la parole et le dialogue homme‐machine. Depuis 2001, suite à la prise de direction de l’ATILF à la demande du CNRS, ses recherches se sont réorientées vers la définition et la gestion informatique de ressources linguistiques pour l’ingénierie des langues (dictionnaires informatisés et bases de données textuelles) et la recherche en linguistique informatique, avec une focalisation plus particulière sur le lexique. L’ensemble de ses activités depuis 20 ans se situe donc à la frontière de l’informatique et de la linguistique, deux communautés qui le reconnaissent comme l’un des leurs. 22/46 APPEL A PROJETS EQUIPEX /
CALL FOR PROPOSALS
Acronyme du projet /
Acronym
ORTOLANG
2011
DOCUMENT SCIENTIFIQUE B
Au cours de sa carrière il a encadré et fait soutenir 37 thèses. Parmi ses thésards on peut noter aujourd’hui : 2 professeurs d’université, 6 MC dans des universités françaises, 3 directeurs de recherche (2 à l’INRIA, 1 au CNRS), 4 Chargés de Recherche : 3 au CNRS, 1 à l’INRIA, 6 Maîtres de conférences ou équivalents dans des universités étrangères, 15 ingénieurs de recherche Auteur de plus de 150 contributions scientifiques (8 livres, 28 chapitres d’ouvrages, 40 articles en revues, 3 brevets, une centaine de contributions dans des actes de colloques avec comité de lecture et actes) MODALITES DE COORDINATION
Autour du porteur scientifique de cette proposition (Jean‐Marie Pierrel, directeur de l’ATILF et du CNRTL et par ailleurs professeur d’informatique) nous proposons de mettre en place trois comités : • Un comité technique opérationnel
Nous proposons que ce comité soit composé d’un représentant de chacun des partenaires du projet : CNRTL (Bertrand Gaiffe), ATILF (Etienne Petitjean), SLDR (Bernard Bel), LPL (Philippe Blache), Modyco (Christophe Parisse), LLL (Olivier Baude), LORIA (Denis Jouvet), INIST (Fabrice Lecocq). Ce comité technique assurera le suivi opérationnel des actions d’ORTOLANG. Il sera amené à se réunir fréquemment et pour ce faire nous utiliserons autant que cela se peut les moyens d’audio et de vidéo conférence dont disposent nos établissements. • Un comité d’orientation
Le comité d’orientation réunira les directeurs des laboratoires partenaires, un représentant par organisme partenaire (universités, CNRS et INRIA), et au moins un représentant du monde socio‐économique, un des collectivités territoriales soutenant notre démarche, un représentant de la BnF et un représentant de la DGLFLF. • Un comité scientifique
Le comité scientifique quant à lui devra réunir essentiellement des membres externes aux structures supports d’ORTOLANG. Nous proposons une composition de 12 à 18 membres issus pour les deux tiers de la communauté scientifique fédérée au sein des consortiums écrit et oral mis en place par le TGIR CORPUS, le dernier tiers de personnalités scientifiques exerçant hors de France. Ce comité scientifique devrait se réunir une fois par an et le comité technique pourra être amené à solliciter son avis par mail entre deux réunions afin qu’il l’aide à définir nos priorités d’actions. • Modalité d’accès aux ressources et outils d’ORTOLANG
Le principe qui guide notre démarche est de permettre la diffusion la plus large des diverses ressources de la plateforme tout en assurant les protections juridiques indispensables (droits d’auteur, propriété intellectuelle, licence et droit de distribution…). Nous distinguons quatre niveaux d’ouverture de telles ressources : (a) Les ressources entièrement libres pour tout usage. Ce premier type de ressources, dont les déposants doivent posséder tous les droits (droits d’auteur et droits d’éditeur) n’est 23/46 APPEL A PROJETS EQUIPEX /
CALL FOR PROPOSALS
Acronyme du projet /
Acronym
ORTOLANG
2011
DOCUMENT SCIENTIFIQUE B
lié à aucune contrainte. L’accès aux ressources pourra se faire par un simple téléchargement ne nécessitant aucune acceptation de licence. La ressource peut être téléchargée, réutilisée, retransmise, modifiée sans aucune restriction. (b) Les ressources téléchargeables après acceptation d’une licence « ressources libres ». Les ressources sont alors téléchargeables après acceptation d’une licence de type logiciel libre ou « creative commons » : utilisation libre pour la recherche et lʹenseignement, référencement bibliographique et mention du déposant et du site dʹhébergement exigée, non redistribution à des tiers, no business. (c) Les ressources sous droits, accessibles uniquement via un logiciel spécifique. Ce troisième mode fournit uniquement un droit d’usage via le web. Cet accès peut être entièrement libre : c’est en particulier le cas pour le TLFi (www.atilf.fr/tlfi)6. Il peut aussi être soumis à un filtre (par abonnement – gratuit ou payant) : c’est typiquement ce qui est mis en œuvre dans la cadre de FRANTEXT, qui regroupe des textes majoritairement sous droits d’auteur et d’éditeur pour un usage limité à la recherche et l’enseignement. (d) Les ressources sous droits accessibles uniquement par convention. Ce dernier mode enfin qui ne devrait s’appliquer qu’à des ressources valorisables par un partenaire industriel ou éditorial, permet néanmoins dans le cadre de partenariat spécifique un vrai partage de ressources. A titre d’exemple c’est ce que nous avons réalisé pour la version XML du TLFi avec plusieurs laboratoires. 3.2. ORGANISATION DU PARTENARIAT
DESCRIPTION ET ADEQUATION DES UNITES PARTENAIRES
• L’ATILF & CNRTL
L’un de leurs objectifs est de mettre en forme et valoriser des ressources à caractère linguistique produites par des équipes du laboratoire ou issues de projets externes dans le cadre de projets coopératifs, plus particulièrement au sein de l’axe « Langues textes et documents » de la MSH Lorraine. En effet, pour que ces ressources soient utilisables et exploitables, il est indispensable de les mettre dans des formats normalisés. En pratique, pour le texte, nous utilisons le langage XML et ses applications normalisées, la TEI (Text Encoding Initiative) et EAD (Encoded Archival Description). Pour ce faire nous nous appuyons sur le CNRTL mis en place conjointement, en 2006, par la Direction de l’Information Scientifique et du Département scientifique Homme et Société du CNRS. Actuellement opérateur au sein du TGE Adonis, ses missions concernent lʹassistance à des projets pour la normalisation, la préservation et la diffusion de données textuelles et lexicales, le développement dʹoutils au service de la communauté et la participation à des actions de formation. Dans ce cadre, nos activités se sont essentiellement développées dans deux directions complémentaires : - La mise en place d’un portail lexical : depuis 2007, nous diffusons des données lexicales (de nature morphologiques, dictionnairiques, textuelles, phonétiques, etc.) au sein dʹun 6
Cela permet de rendre accessible à tous un tel dictionnaire sans pour autant diffuser son contenu XML 24/46 APPEL A PROJETS EQUIPEX /
CALL FOR PROPOSALS
Acronyme du projet /
Acronym
ORTOLANG
2011
DOCUMENT SCIENTIFIQUE B
portail lexical (http://www.cnrtl.fr/portail) permettant un accès simplifié et unique à un ensemble de ressources disponibles à l’ATILF ou provenant dʹautres laboratoires. Aujourdʹhui, nous servons entre 250 000 et 450 000 requêtes par jour7 et continuons régulièrement à enrichir le portail en ajoutant de nouvelles ressources issues de lʹATILF ou venant dʹautres laboratoires. La mise à disposition de données textuelles (www.cnrtl.fr/corpus). Nos participations au TGE Adonis et au projet CLARIN nous ont amenés dans ce cadre à respecter de façon scrupuleuse les bonnes pratiques en matière de « Digital Humanities ». Nous avons développé une plate‐forme basée sur lʹenvironnement Fedora Commons, un système open‐source de gestion de documents numériques respectant les caractéristiques exigées pour être validé comme centre CLARIN : identifiant pérenne (Handle) des ressources, accès contrôlé grâce à un système dʹauthentification basé sur une signature unique (SSO, Shibboleth), métadonnées associées aux ressources de la plate‐forme et moissonnables en OAI‐PMH aux formats Dublin Core, OLAC et CMDI (format des métadonnées CLARIN), interface Web permettant dʹeffectuer des recherches dans les métadonnées, de visualiser les résultats et les collections de ressources stockées sur la plate‐
forme. Une première version de cette plate‐forme est mise à disposition via lʹINIST. -
• Le LPL et le SLDR Aix
Les travaux du LPL se situent dans le domaine de la linguistique expérimentale et s’appuient donc sur le recueil, le traitement et l’enrichissement de données linguistiques permettant la description des mécanismes de production et de perception du langage. Il peut donc s’agir aussi bien de données physiologiques, acoustiques ou écrites. Leur recueil est rendu possible par la mise en place du Centre d’Expérimentation sur la Parole, plateforme mutualisée créée au LPL et regroupant un grand nombre d’instruments scientifiques. Les données une fois recueillies sont ensuite traitées et enrichies grâce à des outils développés spécifiquement. Elles sont ensuite mises à disposition à travers le centre de ressources numérique « CRDO » (qui vient de se transformer en « Speech and Language Data Repository ») qui est issu d’une initiative conjointe, en 2006, de la Direction de l’Information Scientifique et du Département scientifique Homme et Société du CNRS. Au terme d’un projet pilote coordonné par le TGE‐
Adonis, le SLDR fonctionne aujourd’hui comme un dispositif interopérable et ouvert s’appuyant, pour l’archivage pérenne, sur le Centre informatique de l’enseignement supérieur (CINES) et, pour le partage des données, sur le Centre de calcul de l’Institut national de physique nucléaire et de physique des particules (CC‐IN2P3). Il fait partie des institutions membres du réseau CLARIN (Common Language Resources and Technology Infrastructure – www.clarin.eu) et ses données sont référencées sur les principaux portails : OLAC, VLO, DRIVER, DANS etc. (voir sldr.org/wiki/Links). L’objectif du SLDR est de rapprocher les connaissances aujourd’hui dispersées dans des domaines variés comme la linguistique descriptive, formelle et computationnelle, la littérature, la traductologie, les neurosciences et la psycholinguistique. Les ressources En plus des quelques 350 000 accès directs par jour au site du TLFI (www.atilf.fr/tlfi). C’est donc en cumul plus de 700 000 requêtees sur le lexique français que nous servons chaque jour, requêtes venant du monde entier (cf. www.cnrtl.fr/aide/stat/). 7
25/46 APPEL A PROJETS EQUIPEX /
CALL FOR PROPOSALS
Acronyme du projet /
Acronym
ORTOLANG
2011
DOCUMENT SCIENTIFIQUE B
partagées avec la communauté scientifique et le public en général comprennent des corpus de parole (spontanée ou lue), leurs enrichissements (transcriptions et annotations), des lexiques et autres bases de connaissances, ainsi que des outils adaptés au traitement de ces données. Les corpus proprement dits peuvent inclure des enregistrements audio/vidéo mais aussi des mesures de l’activité physiologique : endoscopie, potentiels évoqués, palatographie, etc. Le partage des ressources est basé sur un modèle ouvert de système d’information pour l’archivage (OAIS). En réponse à des besoins diversifiés, l’équipe a privilégié le développement d’un système générique qui minimise les contraintes techniques sur la structure et la volumétrie des objets archivés : segmentation automatique des objets de grande taille, pas de limite sur les noms de fichiers, prise en compte de l’évolution des droits d’accès dans les phases successives d’un projet, etc. Le site du SLDR est quadrilingue : anglais, français, espagnol, chinois. Les producteurs de ressources sont incités à fournir des métadonnées descriptives multilingues. • Le LORIA
Le LORIA, Laboratoire Lorrain de Recherche en Informatique et ses Applications, est une Unité Mixte de Recherche (UMR 7503) commune au CNRS, à lʹINPL, à lʹINRIA, à lʹUHP et à Nancy 2. Le LORIA compte aujourd’hui 155 chercheurs et enseignants chercheurs, organisés en équipes de recherche, et actuellement regroupées en 5 départements. Le pôle Traitement Automatique des Langues et des Connaissances (pôle TALC) correspond à lʹune des 5 thématiques de recherche du LORIA. Les domaines dʹexpertise du pôle TALC incluent le traitement automatique des langues et de la parole ; la fouille de textes et les systèmes à base de connaissances ; lʹintelligence collective, lʹannotation et les technologies du web sémantique. Le pôle TALC correspond à une cinquantaine de permanents (chercheurs et enseignants‐chercheurs) regroupés en 8 équipes de recherche, dont les équipes PAROLE, TALARIS, CALLIGRAMME et ORPAILLEUR qui seront impliquées dans ce projet. Le thème de recherche de lʹéquipe‐projet PAROLE est lʹétude de la communication parlée et recouvre un vaste spectre dʹactivités qui comprend lʹétude de la perception humaine des indices acoustiques, lʹanalyse et la production de la parole, ainsi que la modélisation de la parole pour la reconnaissance automatique de la parole, lʹalignement texte‐parole, et la traduction. Lʹobjectif de lʹéquipe‐projet TALARIS est dʹétudier la sémantique des langues naturelles en adoptant une approche computationnelle. Plus concrètement, le but de TALARIS est de développer une architecture informatique pour le traitement de la sémantique du français, ceci afin dʹexplorer les problèmes linguistiques et algorithmiques posés par des domaines tels que la génération en langue naturelle, la reconnaissance de lʹimplication textuelle, la modélisation du discours et du dialogue. Le thème de recherche du projet CALLIGRAMME est lʹutilisation de la logique linéaire et, en particulier de la théorie des réseaux de démonstration dans la modélisation de la circulation de lʹinformation. Un des objectifs applicatifs est la mise au point d’un modèle grammatical basé sur la logique linéaire permettant d’intégrer diverses théories linguistiques. Les thèmes de recherches de lʹéquipe‐
projet ORPAILLEUR portent principalement sur lʹétude et la conception de systèmes 26/46 APPEL A PROJETS EQUIPEX /
CALL FOR PROPOSALS
Acronyme du projet /
Acronym
ORTOLANG
2011
DOCUMENT SCIENTIFIQUE B
intelligents : systèmes de connaissances, systèmes dʹinformation, et systèmes dʹextraction de connaissances dans les bases de données (ou encore systèmes de fouille de données). • Le LLL
Le Laboratoire Ligérien de Linguistique, EA 3850, regroupe les chercheurs en linguistique des universités d’Orléans et de Tours. Associé à l’Institut de Linguistique Française (EA 3850), il réunit 5 PR, 1 CR HDR et 24 MCF, ainsi qu’une vingtaine de doctorants autour d’une thématique : le traitement des corpus oraux. Centrée sur une enquête de référence à visée diachronique et sociolinguistique, c’est‐à‐dire sur l’étude de la variation linguistique dans les usages du français contemporain, l’Enquête Sociolinguistique à Orléans (ESLO), la recherche concerne également différentes langues, incluant dans les travaux de terrain une part de réflexion anthropologique. Ce sont les programmes - « Langues et Cultures de Guyane » (wayana, wayampi, palikur), - « Créoles à base portugaise d’Afrique » (Guinée Bissau, Cap‐Vert, Sao Tome et Principe) - et, en lien avec le CNRST de Ouagadougou, « Langues du Burkina Faso » (dagara, sèmè). L’activité des chercheurs comprend des monographies sur le chiac (Canada), l’ikwéré (Nigeria) et le samba‐leko (Cameroun), Cette douzaine de langues présente un éventail de situations qui, depuis des civilisations à tradition orales à des cultures dominées par l’écrit, de langues vernaculaires à des langues mixtes, offre matière à une réflexion globale sur la constitution et l’exploitation des corpus oraux, en particulier en didactique. Dans le cadre du contrat en cours, une demande d’association formelle au CNRS sous forme d’une UMR associant au LLL le Département des Documents Audiovisuels et Sonores de la Bibliothèque Nationale de France a été présentée. Elle a reçu un avis favorable de la section 34 et des trois partenaires concernés (BnF, universités d’Orléans et de Tours). • MoDyCO
Laboratoire Modèles, Dynamiques, Corpus, UMR 7114 du CNRS/Université de Paris Ouest Nanterre la Défense et Université Paris Descartes – Lié aux écoles doctorales 139 (Paris Ouest) et 180 (Paris Descartes) – regroupe 60 membres titulaires (enseignants‐chercheurs, chercheurs et ingénieurs CNRS), 80 doctorants dont 30 en cotutelle. Ses axes scientifiques de recherche sont : - Modélisation : concerne les recherches phonologiques, morphologiques, syntaxiques et sémantiques, ainsi que les travaux de formalisation en traitement automatique des langues. - Dynamique renvoie aux recherches menées en acquisition (développement et pathologie ; langue maternelle ou langue seconde), en sociolinguistique et en didactique. - Corpus : que ce soit dans la recherche en linguistique textuelle, diachronique ou discursive, en linguistique de lʹécrit, en linguistique de lʹoral, les corpus traversent, en tant que méthodologie dʹappui, toutes les recherches du laboratoire. Modyco est porteur principal ou secondaire de 10 projets ANR en 2011, un projet PHC et un projet PICS avec lʹécole normale supérieure de Pise. Modyco a porté plusieurs importants projets corpus : Phonologie du Français Contemporain (PFC) depuis 2002 (120 heures de 27/46 APPEL A PROJETS EQUIPEX /
CALL FOR PROPOSALS
Acronyme du projet /
Acronym
ORTOLANG
2011
DOCUMENT SCIENTIFIQUE B
corpus), Communication Langagière du Jeune Enfant (COLAJE) depuis 2009 (130 heures de corpus). Modyco est impliqué dans deux masters de Linguistique générale et appliquée de Paris Ouest Nanterre, un master « Fonctionnements linguistiques et dysfonctionnements langagiers » et un master « Ingénierie linguistique ». Modyco est membre de lʹILF et participe aux deux consortiums de la TGIR corpus. • L’INIST
L’INIST (Institut de l’information Scientifique et Technique) est une Unité Propre de Service du CNRS (UPS 76) qui a été créée en 1988 afin de faciliter la collecte de l’Information Scientifique et Technique nationale et internationale, son traitement et d’en donner accès au monde de la recherche académique. L’INIST‐CNRS a acquis une expertise dans la constitution de très grosses bases de données (plusieurs dizaines de millions de référence) et la mise en ligne de ressources documentaires avec des impératifs de qualité, de continuité de service, de sécurité d’accès et de traçabilité. En termes de volumétrie, l’INIST‐CNRS représente actuellement : plus de 50 000 utilisateurs identifiés, plus de 250 millions de transactions par an, 8 portails thématiques, 50 applications majeures, plus de 70 sites web, des bases de données dont la plus grosse compte 50 millions de références, 8 serveurs centraux, 50 To de surface disque, 80 To de sauvegarde, 450 terminaux, un service opérationnel 24/24, 7/7, avec une disponibilité de 99,9%. Pour ses besoins internes de production, l’INIST‐CNRS a développé des technologies d’indexation assistée ou semi‐automatisée de corpus documentaires dont l’efficacité n’a pu être possible que par la mise en place d’une base terminologique informatisée qui regroupe actuellement 200 000 concepts et 650 000 termes. Les ingénieurs documentalistes de l’INIST ont par ailleurs développé une forte expérience en gestion de métadonnées. L’INIST‐CNRS a développé des compétences sur les domaines suivants : bibliothèques numériques (D‐Space, Fedora Commons), portails et site de diffusion de corpus ; moteurs de recherche, identification des objets numériques et accès pérenne à ces objets (handle, DOI, résolveurs de lien), pérennité des contenus et des accès (modèle OAIS, démarche PRAI), authentification et gestion des droits d’accès aux ressources (Shibboleth, ERM), statistiques d’accès, rapports sur l’usage des ressources documentaires, aide au pilotage, formats documentaires (XML, TEI…), technologie d’indexation, base terminologique, ontologie, fouille de données et cartographie. L’INIST est par ailleurs responsable de la mise en place d’un site d’accès aux ressources documentaires acquises nationalement par la communauté (IDEX ISTEX) COMPLEMENTARITE DES UNITES PARTENAIRES
En réunissant au départ ces divers partenaires pour proposer un équipement que nous souhaitons largement ouvert, nous avons voulu réunir l’ensemble des compétences qui nous paraissaient indispensable à la réussite de notre projet : - En sciences du langage à travers l’ATILF, le LPL, MODYCO et le LLL - En informatique avec le LORIA et l’INIST mais aussi en partie l’ATILF et le LPL qui demeurent des laboratoires d’interface avec l’informatique 28/46 APPEL A PROJETS EQUIPEX /
CALL FOR PROPOSALS
Acronyme du projet /
Acronym
ORTOLANG
2011
DOCUMENT SCIENTIFIQUE B
-
En base de données et accès à de l’information scientifique, à travers l’INIST, et à des ressources linguistiques, à travers les deux centre de ressources que sont le CNRTL et le SLDR (ex CRDO Aix). Au‐delà de la réunion de ces compétences disciplinaires différentes notre objectif fut aussi de fédérer pour cet équipement de mutualisation de ressources et d’outils sur la langue des partenaires représentant la diversité des approches d’étude de la langue : - modélisation Linguistique (MoDyCo, LPL et ATILF), - linguistique expérimentale (LPL, ATILF), - production et de perception du langage (LPL, ModyCo), - études diachroniques (ATILF, LLL), - sociolinguistique (LLL, ModyCo), - traitement Automatique des Langues (LORIA, LPL, ATILF), - écrit (ATILF, MoDyCo), - oral (LPL, LLL, ModyCo). L’apport de l’INIST‐CNRS , quant à lui, se situe au niveau de son savoir‐faire en tant que nœud d’infrastructure pour la diffusion de corpus (mise en œuvre des moyens, expertise, suivi), tel que cela a déjà été fait lors de la mise en place du prototype du nœud CLARIN de l’ATILF/CNTRL. Il se situera aussi en tant qu’administrateur des corpus qui seront déposés par les autres partenaires (suivi des normes et standards, validité des métadonnées, évolution des formats) et fera la liaison avec le CINES pour l’archivage final. Enfin nous tenons à souligner que l’architecture que nous proposons demeure très largement ouverte à l’ensemble de la communauté scientifique nationale du domaine. Cette ouverture s’instancie à deux niveaux. - Au niveau des dépôts et des usages des ressources et outils gérés par ORTOLANG qui sont ouverts à l’ensemble des équipes de recherche du domaine. - Mais aussi au niveau des centres thématiques mis en place. Si au départ nous proposons de mettre en place dans le cadre de cette soumission trois centre thématiques (un sur l’oral piloté par le LPL et le SLDR, un sur l’écrit piloté par l’ATILF et le CNRTL et un sur les aspects de patrimonialisation de données sur les langues de France piloté par MoDyCo et le LLL), l’architecture que nous proposons permet d’intégrer dans l’avenir de nouveaux centres thématiques éventuels pour peu que leurs porteurs, qui souhaiteraient ainsi enrichir cet équipement de mutualisation assurent la prise en charge financière de ces nouveaux centres thématiques QUALIFICATION, ROLE ET IMPLICATION DES UNITES PARTENAIRES
• Partenaire ATILF et CNRTL
Surname First name Position Domain
Partner
PIERREL Jean‐Marie Professeur Informatique Linguistique ATILF & CNRTL BENZITOUN Christiphe Maître de conférence Linguistique ATILF & CNRTL Organization or company University of Lorraine University of Lorraine Contribution in the project (4 lines max) Responsable scientifique et technique Transcription et annotation de corpus oraux 29/46 APPEL A PROJETS EQUIPEX /
CALL FOR PROPOSALS
Acronyme du projet /
Acronym
ORTOLANG
2011
DOCUMENT SCIENTIFIQUE B
ATILF & CNRTL University of Lorraine CNRS ATILF & CNRTL CNRS ATILF & CNRTL CNRS Informatique ATILF & CNRTL CNRS Information communication Linguistique ATILF & CNRTL CNRS ATILF & CNRTL CNRS Technicienne Informatique Linguistique ATILF & CNRTL CNRS Technicienne Informatique Linguistique Technicienne Informatique Linguistique ATILF & CNRTL CNRS ATILF & CNRTL CNRS MONTEMONT Véronique Maître de conférence GAIFFE Bertrand Ingénieur de recherche LUX‐
Véronique Ingénieur de POGOLLA recherche PETITJEAN Etienne Ingénieur de recherche SOUVAY Gilles Ingénieur de recherche Littérature française Informatique Linguistique Linguistique‐
Informatique Informatique DEL MANCINO BENOIT William BAERMANN Michèle CLEMENT Isabelle PERIGNON Jessika Jean‐Luc Ingénieur de recherche Ingénieur d’étude ATILF & CNRTL Responsable Base textuelle Frantext Correspondant CLARIN Préparation de corpus Responsable technique Développement informatique et codage de corpus Communication et valorisation recommandation et normes et codage de ressources (TEI) validation de ressources, balisage et codage XML/TEI balisage et codage XML/TEI balisage et codage XML/TEI • Partenaire LPL et SLDR
Surname First name Position Domain Partner Organization or company Contribution in the project (4 lines max) BEL Bernard Ingénieur de Informatique recherche LPL&SLDR CNRS Coordination technique BERTRAND Roxane Chargée de recherché Linguistique LPL& SLDR CNRS Production de données, annotations BIGI Brigitte Chargée de recherché Informatique LPL& SLDR CNRS Développement d’outils BLACHE Philippe Directeur Linguistique de recherche Informatique LPL& SLDR CNRS Coordination scientifique BOUTORA Leïla Maître de conférence Linguistique LPL& SLDR CNRS Production de données, annotations ESPESSER Robert Ingénieur de Informatique Recherche LPL& SLDR CNRS Développement d’outils FARACO Martine Maître de conférence Linguistique LPL& SLDR Université de Provence Administration et assistance éditoriale GHIO Alain Ingénieur de Informatique recherche LPL& SLDR CNRS Développement d’outils HIRST Daniel Directeur Linguistique de recherche LPL& SLDR CNRS Production de données, annotations LEGOU Thierry Ingénieur de Instrumentation
Recherche Informatique LPL& SLDR CNRS Assistance technique instrumentation MEUNIER Christine Chargée de recherché LPL& SLDR CNRS Production de données, annotations Linguistique 30/46 APPEL A PROJETS EQUIPEX /
CALL FOR PROPOSALS
Acronyme du projet /
Acronym
ORTOLANG
2011
DOCUMENT SCIENTIFIQUE B
NGUYEN Noël Professeur Linguistique LPL& SLDR Université de Provence Production de données, annotations PREVOT Laurent Maître de conférence Linguistique Informatique LPL& SLDR Université de Provence Production de données, annotations RAUZY Stéphane Ingénieur de Informatique recherche LPL& SLDR CNRS Développement d’outils STARKE Claudia Assistant Ingénieur LPL& SLDR CNRS Administration et assistance éditoriale Organization or company CNRS Contribution in the project (4 lines max) Développements outils JSafran‐JTrans Standardisation des formats Développements outils ANTS Développements outil GenI Développements outil Leopar Coordination scientifique Développements outils clustering texte
Développements outils articulographe Développements outil Leopar Développements TAL et IR Documentation • Partenaire LORIA
Surname CERISARA First name Position Domain
Christophe Chargé de recherche Maître de conférence Chargé de recherche Directeur de recherche Chargé de recherche Directeur de recherche Maître de conférence Directeur de recherche Professeur Informatique LORIA Informatique LORIA Informatique LORIA University of Lorraine CNRS Informatique LORIA CNRS Informatique LORIA INRIA Informatique LORIA INRIA Informatique LORIA Informatique LORIA University of Lorraine CNRS Informatique LORIA Informatique LORIA CRUZ‐LARA Samuel FOHR Dominique GARDENT Claire GUILLAUME Bruno JOUVET Denis LAMIREL LAPRIE Jean‐
Charles Yves PERRIER Guy TOUSSAINT Yannick Chargé de recherche Partner
University of Lorraine INRIA • Partenaire Modyco
Surname First name DE PONTONX LAKS Sophie Position Domain
Partner
Linguistique MoDyCo Bernard Ingénieur d’étude Professeur Linguistique MoDyCo LE PESANT Denis Professeur Linguistique MoDyCo LEROY Sarah Linguistique MoDyCo MINEL Jean‐Luc Chargée de recherche Professeur Linguistique‐
Informatique MoDyCo MONIN Xavier Informatique PARISSE Christophe Informatique Psycho‐
linguistique Ingénieur d’étude Chargé de recherche Organization or company CNRS Université Paris Ouest Nanterre Université Paris Ouest Nanterre CNRS Contribution in the project (4 lines max) Contrôle des données de corpus Projet PFC Projet PFC Projet PFC Outils de traitement de corpus MoDyCo Université Paris Ouest Nanterre CNRS MoDyCo INSERM Responsable pour MoDyCo Gestion des serveurs 31/46 APPEL A PROJETS EQUIPEX /
CALL FOR PROPOSALS
Acronyme du projet /
Acronym
ORTOLANG
2011
DOCUMENT SCIENTIFIQUE B
TCHOBANOV Atanas Ingénieur de recherche Linguistique informatique MoDyCo CNRS projet PFC – mise en place des données Organization or company Université d’Orléans Université d’Orléans Université d’Orléans Université d’Orléans Université d’Orléans BnF Contribution in the project (4 lines max) Production de données Production de données Production de données Etiquetage Contribution in the project (4 lines max) Responsable technique du projet, pour l’INIST Responsable Métadonnées Suivi des corpus et des métadonnées Responsable de la mise en œuvre Sauvegarde Administrateur de Base de données Correspondant Exploitation Ingénieur Système et Réseau Ingénieur en charge de la mise en œuvre Système et Stockage Expert XML, format, archivage pérenne • Partenaire LLL
Surname BAUDE First name Olivier BERGOUNIO Gabriel UX CRISTINOI Antonia ESHKOL Iris SCHANG Emmanuel CORDEREIX Pascal Position Domain
Partner
Maître de Linguistique conférences Professeur Linguistique LLL Maître de conférences Maître de conférences Maître de conférences Conservateur
BnF Linguistique‐ LLL Informatique Informatique Linguistique LLL Documentation LLL LLL LLL Production de données Gestion des données • Partenaire INIST
Surname LECOCQ Fabrice Ingénieur de Informatique recherche INIST Organization or company CNRS MOREL‐PAIR Catherine CNRS INIST CNRS TURRI Angel Métadonnées Documentaliste Métadonnées Documentaliste Informatique INIST XXX Ingénieur de recherche Ingénieur d’études Ingénieur d’études INIST (Exploitation) CNRS PELLETIER Laurent Informatique Marc PASCALE Fabien VILLAUME Michel Ingénieur de Informatique recherche Ingénieur Informatique d’études INIST (Exploitation) INIST (Exploitation) INIST (Systèmes & Réseaux) INIST (Systèmes & Réseaux) CNRS MARANI Assistant Ingénieur Technicien CHARDET Thierry Ingénieur de Informatique recherche INIST (Développement) CNRS XXX Ingénieur INIST (Développement) CNRS First name Position Domain
Partner
Informatique Informatique CNRS CNRS CNRS résolution de liens, contrôles d’accès 32/46 APPEL A PROJETS EQUIPEX /
CALL FOR PROPOSALS
Acronyme du projet /
Acronym
ORTOLANG
2011
DOCUMENT SCIENTIFIQUE B
4. EVALUATION FINANCIERE DU PROJET
4.1. JUSTIFICATION SCIENTIFIQUE ET FINANCIERE DES MONTANTS DEMANDES AU
TITRE DU COUT D’INVESTISSEMENT : PHASE 1 48 MOIS
MISE EN PLACE DE L’ARCHITECTURE INFORMATIQUE PROPOSEE
• Matériels informatiques nécessaires (poste équipement)
L’amortissement utilisé au sein du CNRS pour le matériel informatique de recherche est de 3 ans, nous prévoyons donc un premier investissement pour un matériel expérimental qui nous servira à définir et mettre en place l’architecture d’ORTOLANG et, en fin de tranche 1 à T + 42 mois, l’investissement d’un matériel nouveau pour préparer la phase de fonctionnement (Tranche 2 couvrant les 48 derniers mois du projet) Pour le centre de diffusion Dans la phase initiale du projet le centre de calcul de l’IN2P3 assurera une partie du service de diffusion, dans le cadre de la solution proposée par le TGE ADONIS, par la suite les données continuerons à être diffusée par ADONIS mais le centre de diffusion compatible aux spécifications CLARIN doit être redéfini au sein d’ORTOLANG et sera implanté à l’INIST. Le coût indiqué ci‐dessous ne correspond qu’aux investissements spécifiques à ORTOLANG. Nous proposons de bâtir l’infrastructure de ce centre de diffusion, respectant les spécifications de CLARIN, à partir de l’Infrastructure SAN existante à l’INIST / CNRS, dont la capacité (stockage et sauvegarde) sera étendue à la volumétrie spécifique au projet (base de travail 50 To). Seuls les serveurs seront spécifiques. Les équipements réseau de l’INIST, ainsi que la connectivité Renater pourront être utilisés tels quels. Les avantages de cette mutualisation des moyens de stockage et de sauvegarde entre les besoins spécifiques du projet et les besoins génériques de l’INIST / CNRS permettent : - de bénéficier dʹune architecture sécurisée, performante, évolutive et de conception récente (débit 8Gb/s en fiber channel, notion de classe de service (SATA, SAS/FC, SSD), raid, réplication...), - des facilités pour provisionner les extensions de stockage pour les applicatifs ou corpus, - des facilités de manœuvre pour les migrations de support, - une fraicheur des données en cas de restauration (snapshots instantanés...), - un coût d’acquisition moindre à comparer avec l’acquisition de matériels de stockage et de sauvegarde spécifiques (contrôleur disque, robotique, concentrateur SAN…). Les équipements utiliseront les technologies classiques pour assurer une continuité de service (disque en RAID, serveurs prêts à prendre la relève en cas d’incident) et les règles de l’art minimale seront mise en œuvre pour garantir une pérennité locale des données (dépôts des données sauvegardée dans un autre bâtiment sur le campus INIST. En cas d’incident, des opérations manuelles seront toutefois nécessaires pour effectuer la bascule. Le niveau de service mis en œuvre par l’INIST / CNRS pour cet Equipex sera le même que celui des principales applications de l’INIST (portails documentaires, fourniture de documents…). 33/46 APPEL A PROJETS EQUIPEX /
CALL FOR PROPOSALS
Acronyme du projet /
Acronym
ORTOLANG
2011
DOCUMENT SCIENTIFIQUE B
Pour les serveurs nous utiliserons en parallèle 2 serveurs physiques couplé à une solution de virtualisation et de haute disponibilité. Ces 2 serveurs physiques permettront : - de ne pas mélanger environnement de pré‐exploitation (pour les tests, les recettes, la mise en place des procédures d’exploitation, les migrations de corpus) et environnement de production pour servir les données à la communauté, - de pouvoir mettre en œuvre un mécanisme de répartition de charge si la puissance de la machine de production s’avérait un peu limitée ponctuellement ou plus régulièrement, - de pouvoir travailler en mode dégradé si l’un des 2 serveurs physiques tombait en panne ou nécessitait une intervention matérielle (par exemple mise à jour de microcode). Concernant l’incidence de l’arrivée de cet équipement ORTOLANG sur les moyens réseaux actuels de l’INIST, il s’avère que le firewall de l’INIST atteindra ses limites et n’apportera pas la souplesse qui sera nécessaire à la gestion de la sécurité d’accès logique aux données. Une mise à jour est inclue dans cette évaluation des besoins. Nous avons aussi ajouté une jouvence de certains équipements Réseau afin d’assurer une bonne qualité de service dans le transfert des données lourdes entre l’INIST et les autres centres. Serveur de diffusion : 20 K€ (14 K€ équipement tranche 1 ; 6 K€ amortissement tranche 2) - Phase expérimentale (Tranche 1) : Acquisition de 2 serveurs (1 production + 1 pré‐
exploitation). Dans le marché CNRS, notre préconisation actuelle serait des machines de type DELL R9108 d’un coût unitaire de 3,5 K€ soit: 7 K€ - Achat de 2 nouveaux serveurs (Fin tranche 1 pour préparer la phase d’exploitation ou tranche 2) de puissance au moins équivalente (avec maintenance sur 5 ans). Soit à un coût unitaire de 3,5 € : 7 K€ - Les amortissements de ce matériel au cours de la phase 2 pour une somme de 1,5 k€ par an afin de nous permettre d’assurer la pérennité du service : 6 K€ Stockage : 95 K€ (Equipement 40 K€ ; fonctionnement tranche 1 : 25 K€, tranche 2 : 30 K€) La configuration actuelle utilisée est un AMS 23009 de chez Hitachi Data Systems, avec 50 To utiles. L’acquisition date de printemps 2011 et la mise en œuvre durant l’été. C’est du matériel middle‐range de conception récente. Le matériel de stockage est couplé aux moyens de sauvegarde par un réseau SAN haut débit. Il convient donc de prévoir une incrémentation de 50 To dédié (20 K€) pour la phase d’expérimentation et un renouvellement pour le passage à la phase d’exploitation (20 K€). A ces coûts d’équipement s’ajoute une quote‐part d’amortissement et de maintenance sur la configuration actuelle (sous‐système, contrôleur, SAN…) et l’amortissement du matériel dédié au cours de la tranche 2 de fonctionnement le tout chiffré à 25 K€ pour la phase investissement (Tranche 1) et 30 K€ pour la phase de fonctionnement (Tranche 2). Sauvegarde : 73 K€ (Equipement 17 K€ ; Fonctionnement tranche 1 : 28 K€, tranche 2 : 28 K€) http://www.dell.com/fr/grandes‐entreprises/p/poweredge‐r910/pd?refid=poweredge‐r910 http://www.hds.com/products/storage‐systems/adaptable‐modular‐storage‐2000‐family/adaptable‐modular‐
storage‐2300.html 8
9
34/46 APPEL A PROJETS EQUIPEX /
CALL FOR PROPOSALS
Acronyme du projet /
Acronym
ORTOLANG
2011
DOCUMENT SCIENTIFIQUE B
La configuration actuelle utilisée est une librairie Quantum PX 71010 avec 6 lecteurs. Ce matériel sera renouvelé en 2012. Il convient de prévoir durant la phase d’investissement l’achat d’un lecteur LTO 4/5 dédié supplémentaire (17 K€) auquel il convient d’ajouter des frais de fonctionnement couvrant les coûts d’une licence logicielle du logiciel de sauvegarde et une quote‐part d’amortissement sur l’ensemble de la configuration actuelle de sauvegarde évaluée à 6 K€ par an, soit 28 k€ pour la tranche 1 et 28 K€ pour la tranche 2 56 K€ sur l’ensemble du projet. Logiciels : 20 K€ (équipement) Achat d’une solution de virtualisation et de haute disponibilité, type VMWare (et maintenance) et des licences Système d’Exploitation correspondant aux serveurs. Réseau : 20 K€ (fonctionnement) Jouvence du réseau afin de garantir le dépôt et le retrait rapide de données ʺlourdesʺ vers le centre de diffusion INIST (bande passante assurée, FTP dédié…). chiffrée pour l’ensemble du projet à 2.5 K€ par an soit 10 k€ pour la tranche1 et 10 k€ pour la tranche 2. Sécurité logique : 20 K€ (fonctionnement) Quote‐part mise à niveau Firewall chiffrée sur l’ensemble du projet à 2,5 K€ par an soit 10 k€ pour la tranche1 et 10 k€ pour la tranche 2. Hébergement Les frais d’hébergement et de fonctionnement de la salle informatique (consommation électrique, maintenance des moyens électriques et thermiques…) seront assurés par l’INIST Pour les 3 centres thématiques : Equipement 120 K€, Fonctionnement: 32 K€ Chaque centre thématique sera équipé dʹune architecture matérielle qui lui sera propre. Celle‐ci se composera dʹun serveur de type PowerEdge R910, dʹun espace de stockage conséquent pour le dépôt de ressources temporaires avant transfert vers les centres de diffusion, dʹune solution de sauvegarde. - Pour la phase expérimentale (Tranche 1) une telle configuration coûte environ 15 000 € HT via le marché CNRS pour chaque centre. - En fin de tranche 1, pour préparer la tranche 2 de fonctionnement, il conviendra d’acheter une nouvelle configuration avec un niveau de service supérieure (duplication de serveurs par exemple) qui coûtera (estimation) environ 25 000 € HT pour chaque centre. - Les amortissements de ce matériel sont prévus au cours de la phase 2 pour une somme de 8 k€ par an afin de nous permettre d’assurer la pérennité du service, soit 32 K€ sur la durée de la tranche 2. En résumé, pour l’ensemble des 3 centres thématiques, il convient de prévoir un coût d’investissement (Tranche 1) de 120 K€ d’équipement et un coût de fonctionnement (tranche 2) de 32 K€ par centre soit 96 k€ pour les trois centres.. http://www.sandirect.com/quantum‐px‐series‐tape‐libraries‐c‐213_84_85_313.html 10
35/46 APPEL A PROJETS EQUIPEX /
CALL FOR PROPOSALS
Acronyme du projet /
Acronym
ORTOLANG
2011
DOCUMENT SCIENTIFIQUE B
Matériels spécifiques pour l’élaboration de ressources et leur traitement au cours de la phase 1 du projet Articulographe : Lʹétude des processus dʹarticulation de la parole repose sur la collecte de données articulatoires faites grâce à des instruments sophistiqués. La position de capteurs fixés sur les articulateurs (langue, mâchoires, lèvres, etc.) et/ou sur le visage est enregistrée au fil du temps, ce qui permet de suivre leurs mouvements. Nous envisageons lʹacquisition de matériels complémentaires : OPTOTRAK au LPL (Aix) pour le suivi du visage, et dernière version de lʹarticulographe (AG501) au LORIA (Nancy) pour le suivi du conduit vocal avec une précision améliorée. Soit 2 x 70 K€ 140 k€
Camera Rapide : Caméra ultra rapide pour l’étude supra glottique du conduit vocal (cordes vocales, bandes ventriculaires) permettant, grâce à la fréquence de prise dʹimages (entre 5.000 et 10.000 images/seconde), de recueillir des données compatibles avec les besoins dʹune analyse précise des phénomènes vibratoires et aérodynamiques de la production de la parole, notamment des cordes vocales. 50 k€
Motion Capture : Les dispositifs dʹanalyse du mouvement sont parfaitement adaptés à lʹétude de la gestualité en situation dʹinteraction. Il sʹagit dʹun ensemble de caméras jouant le rôle de système de capture du mouvement, couplées à un système dʹanalyse vidéo. 60 k€
Renouvellement du matériel de numérisation et OCRisation du CNRTL : Scanner à plat et scanner de type CopyBook pour réaliser l’enrichissement de corpus textuels 35 k€
Total Matériels spécifiques 285 k€
• Investissement de développement informatique de la plateforme (poste
fonctionnement – personnel)
Pour le centre de diffusion Afin de pouvoir disposer d’un centre de diffusion respectant les spécifications énoncées pour ORTOLANG, il convient d’assurer les développements informatiques correspondant aux fonctions suivantes : - Gestion des droits dʹaccès sur la fédération dʹidentité française. Le prototype actuel permet de sʹauthentifier grâce à un système de signature unique (SSO) implémenté sous forme de servlets Java qui implémentent le protocole Shibboleth. Pour une exploitation à grande échelle, nous devrons dʹabord rendre lʹimplémentation actuelle plus robuste et ensuite développer des interfaces dʹadministration pour la création des groupes dʹaccès aux ressources et lʹaffectation des groupes aux ressources. Besoins en ressources humaines supplémentaires pour ces développements : 0.75 homme an. - Identifiants pérennes. Dans la maquette actuelle, les identifiants pérennes sont obtenus auprès dʹEPIC (European Persistent Identifier Consortium). Les évolutions envisagées, en particulier lʹassociation dʹune somme de contrôle aux identifieurs ainsi que la gestion de 36/46 APPEL A PROJETS EQUIPEX /
CALL FOR PROPOSALS
Acronyme du projet /
Acronym
ORTOLANG
2011
DOCUMENT SCIENTIFIQUE B
références entre objets nous obligeront à devenir autonomes pour la gestion des Handle en achetant un préfixe auprès du Corporation for National Research Initiatives (CNRI) et en gérant notre propre resolver derrière ce préfixe. Besoins en ressources humaines supplémentaires pour ces développements : 0.4 homme an. - Contrôle dʹintégrité. La politique de gestion des données doit être parfaitement définie. Typiquement, un identifiant pérenne doit toujours renvoyer la même donnée. Des outils permettant dʹaider à obtenir ce niveau de qualité doivent être mis en place. Besoins en ressources humaines supplémentaires pour ces développements : 0.35 homme an. - Versionnage. Dans un système avec identifiants pérennes, deux versions successives dʹun même objet vont avoir des identifiants différents. Le versionnage doit donc gérer un lien explicite de filiation entre ces objets. Les propriétés de cette relation sont non triviales notamment dans le cas des collections. Une archive doit être explicite quant aux collections versionnées (ex: un corpus de référence) ou non versionnées (ex: les dépôts dʹun laboratoire). Besoins en ressources humaines supplémentaires pour ces développements : 0.75 homme an. - Web Services. La mise à disposition dʹoutils existants sous forme de Web Services peut être simple (pour des outils simples) ou beaucoup plus complexe dès lors quʹun outil va travailler sur des collections dʹobjets issus de centres de diffusion différents. Lorsque ces collections dʹobjets sont une simple juxtaposition, le Web Service pourra se contenter dʹune vérification en amont des droits dʹaccès (et filtrer le corpus de cette façon). Dans dʹautres cas, par exemple une indexation plein texte, le filtrage se fait à posteriori et suppose des structures de données adaptées. Besoins en ressources humaines supplémentaires pour ces développements : 1.5 homme an. - Passage en production. Le niveau de qualité visé impose une définition stricte des procédures de surveillance, de redémarrage et dʹarrêt des applications développées. Par ailleurs, lʹintégration de lʹapplication dans lʹenvironnement de production suppose une adaptation à lʹenvironnement système et réseau. Une partie de ces développements sera prise en charge par du personnel en poste. Lʹautre partie nécessite des développements dʹoutils spécifiques de gestion du système. Besoins en ressources humaines supplémentaires pour ces développements : 0.75 homme an. - Outils dʹadministration. La bonne gestion de la base dʹobjets numériques devra être instrumentée. Les outils nécessaires vont de la gestion de lʹingestion de nouveaux objets, de nouvelles versions dʹobjets, la création de collections, bascule vers le système dʹarchivage pérenne, gestion des droits dʹaccès aux objets via la création de groupes dʹaccès et lʹinsertion dʹutilisateurs dans ces groupes. Pour chacun de ces outils, des contrôles dʹintégrité devront être effectués automatiquement. De tels outils permettent de déléguer lʹadministration de la base à des spécialistes de lʹadministration qui ne sont pas des informaticiens. Besoins en ressources humaines supplémentaires pour ces développements : 1.5 homme an. Cette évaluation porte des besoins en ressources humaines supplémentaires s’élevant à 6 hommes an de niveau ingénieur, soit, à un coût moyen de 50 k€ homme‐an, 300 K€ 37/46 APPEL A PROJETS EQUIPEX /
CALL FOR PROPOSALS
Acronyme du projet /
Acronym
ORTOLANG
2011
DOCUMENT SCIENTIFIQUE B
Pour les centres thématiques Tout en envisageant une mutualisation de plus en plus forte entre les trois centres thématiques (écrit à Nancy, oral à Aix, données patrimoniales sur les langues de France à Paris), par souci d’efficacité nous serons amenés à prendre en compte les spécificités de chacune de ces données. La mise en place d’un centre thématique nécessite de définir et implémenter les fonctions suivantes - Moissonnage OAI et redéploiement des MD : Les centres thématiques moissonnent les centres de diffusion au format OAI‐PMH. Ils redéployent ces métadonnées (moissonnées en XML) dans un format qui permet leur exploitation efficace pour la consultation/exploitation. - Adaptation de schémas de MD au thème du centre : Selon la thématique du centre ʺthématiqueʺ, certaines parties des métadonnées structurées doivent être affaiblies (agrégées). Le format CMDI sera donc complété pour permettre cet aplatissement. En pratique, chaque centre disposera donc dʹun format de métadonnées qui lui sera propre et traduira les métadonnées moissonnées dans ce schéma. Pour cela, il utilisera : ISOCAT (pour les équivalences au niveau des feuilles), le registre de relations (essentiellement pour les ʺsynonymiesʺ) et des informations dʹaffaiblissement. - Navigation par collections et facettes : Si la navigation dans les métadonnées via des collections prédéfinies [au niveau des centres de diffusions] doit être présente, les centres thématiques devront prédéfinir des ʺcollections virtuellesʺ par filtrage sur les métadonnées. ils devront aussi implémenter la navigation par facettes sur les métadonnées. - Intégration de la partie ʺconsultationʺ : Lʹensemble des points précédents devra être intégré dans un site web de consultation. Le site web devra notamment proposer une fonctionnalité permettant aux utilisateurs de constituer un ʺpanierʺ de ressources à télécharger. - Production de personnalisation de schémas CMDI et mise en forme à ce schéma : Les données recueillies et produites dans les centres devront être mises au format CMDI. Cela nécessitera, projet par projet, de produire une instanciation du schéma général, et, le plus souvent, de traduire des métadonnées existantes à ce format. En pratique, chaque centre devra donc disposer de quelques schémas types qui ne sʹadapteront plus quʹà la marge. - Production de paquet données + métadonnées : Les centres thématiques doivent délivrer aux centres de diffusion des données et métadonnées dans des formats directement diffusables. Cette tâche vise à développer une interface dʹaide à la fabrication de tels paquets de diffusion. L’ensemble de ces tâches nécessite de pourvoir chacun des centres d’un ingénieur informaticien pendant les 3 ans de développement et déploiement de la plateforme ORTOLANG. A raison d’un coût moyen de 50 k€ par homme‐an, cela correspond à 450 K€. UN ENSEMBLE DE RESSOURCES ET D’OUTILS COHERENTS SUR NOTRE LANGUE
FONCTIONNEMENT –PERSONNEL)
(POSTE DE
Comme nous l’avons indiqué, ORTOLANG a pour ambition d’être un centre de mutualisation d’outils et de ressources institutionnelles de référence sur notre langue. Il est 38/46 APPEL A PROJETS EQUIPEX /
CALL FOR PROPOSALS
Acronyme du projet /
Acronym
ORTOLANG
2011
DOCUMENT SCIENTIFIQUE B
donc indispensable d’y adjoindre une fonction de complémentation des ressources et outils nécessaires à la communauté. Nous listons ci‐dessous les propositions que nous faisons en indiquant pour chaque ressources et outils les besoins en ressources humaines supplémentaires pour ces développements qui devront être pris en charge par des ingénieurs informaticiens et/ou linguistes. Pour l’ensemble de ces ressources et outils nous privilégierons la mise en place de web services pour faciliter leurs usages et leur intégration dans des chaînes de traitement. • Pour l’ATILF et le CNRTL
Frantext2 : (i) développement dʹun concordancier travaillant sur de gros volumes et utilisable sur tout corpus de langue écrite (ii) enrichissement des métadonnées de Frantext et enrichissement en couverture : 4.5 h.an Morphalou : enrichissement de Morphalou Lexique morphosyntaxique du français www.cnrtl.fr/lexiques/morphalou/ (mots composés, couverture plus large des données) : 0.25 h.an LGERM (lemmatiseur pour le moyen et lʹancien‐français) : amélioration de la couverture temporelle et mise à disposition sous forme de Web Service (nécessite une meilleur séparation des données et du code) : 0.5 h.an Ensemble des données textuelles du CNRTL : passage à métadonnées CLARIN, POS Tagging de lʹensemble et enrichissement en continu par données issues de lʹEst Républicain + Vosges Matin) : 3 h.an Web service dʹannotation morpho syntaxique : mise à disposition dʹun web service dʹannotation morpho syntaxique sur du français contemporain : 0.25 h.an Web service de mise à disposition du portail lexical www.cnrtl.fr/portail (y compris Morphalou), Outil de conversion de certains en‐têtes TEI vers le format de métadonnées CLARIN, Adaptateurs de forme (changements de jeu de caractère, passage XML vers Texte ou formats de traitement de texte). Lʹessentiel du travail est ici un travail dʹintégration dʹoutils existants. Cependant, ce travail est directement lié à la nécessité dʹune bonne description des données (en MD) : 0.5 h.an A ces propositions s’ajoutent les efforts mis en place dans le cadre du projet RELIEF (REssource Lexicale Informatisée d’Envergure sur le Français) soutenu par ailleurs par la Région lorraine (Agence de Mobilisation Economique) et le FEDER lorrain. Ce programme vise, premièrement, le développement d’une modélisation informatisée à large couverture du lexique français, le Réseau Lexical du Français ou RLF, exploitable dans un contexte de traitement automatique de la langue, et deuxièmement, la valorisation industrielle de cette ressource, notamment dans le contexte des activités de la société MVS. Une des productions de ce programme sera, sur la base dʹun diagnostic linguistique détaillé donné par lʹoutil Druide‐Antidote, l’enrichissement du corpus FrWac11 en ajoutant à chaque page un score linguistique. Cet indicateur sera calculé en utilisant les statistiques sur le nombre dʹerreurs, le nombre dʹanalyses syntaxiques incomplètes, etc. relativement au nombre de mots et au FrWac (http://wacky.sslmit.unigo.it/lib/exe/fetch.php?media=ferraresi_et_al_2010.pdf) 11
39/46 APPEL A PROJETS EQUIPEX /
CALL FOR PROPOSALS
Acronyme du projet /
Acronym
ORTOLANG
2011
DOCUMENT SCIENTIFIQUE B
nombre de phrases. Il devrait permettre des interrogations ciblées de sous‐ensembles de FrWac en fonction d’un score de qualité scientifique : 18 h.an financé par la région Lorraine et le FEDER Lorrain (cf. lettre de soutien de la Région Lorraine en annexe). • Pour le LPL
Outils de traitement de l’écrit Word_Tokenizer : L’outil actuellement utilisé pour le français est robuste et efficace. Les autres langues nécessitent un développement plus spécifique. Il faut développer une interface permettant de spécifier les formats d’entrée et les besoins en sortie : 0.25 h.an Sentence_Tokenizer : Développement des outils de segmentation de phrase multilingues, évolution de la segmentation d’unités pour l’oral (cf. outils pour l’oral) : 0.25 h.an POS‐tagger : Adaptation à l’étiquetage d’autres langues, amélioration de l’interface, adaptation à l’étiquetage de l’oral (cf. section suivante: 0.25 h.an Chunker : Portage sur d’autres langues: 0.25 h.an Tree‐Parser : Développement d’une interface pour la définition des formats d’entrée et de sortie: 0.25 h.an PropertyGrammar‐Parsers: Développement de la couverture grammaticale, développement d’un outil de navigation dans le graphe de contraintes : 1 h.an Outils de traitement de l’oral (46h/m) 4 Transcription : Développement d’un outil d’aide à la transcription intégrant les conventions de transcription génériques, développement de plug‐ins assurant l’interopérabilité entre les différents outils d’édition et d’annotation : 1.5 h.an Tokenization, POS‐tagging, Chunking, Parsing: Adaptation de toutes les techniques au traitement de l’oral : 0.5 h.an Phonedit/Signaix : Amélioration/finalisation des modules d’affichage, développement d’une interface d’étiquetage/annotation intégrant les résultats d’OTIM : hiérarchie de niveaux d’étiquetage, dépendance, format XML : 1 h.an SPeech Phonetization Alignment and Syllabification : Lʹensemble est programmé en scripts ʺtcshʺ et ʺgawkʺ... Pour une meilleure portabilité et une diffusion plus large, et aussi pour accroître son utilisabilité, et y ajouter des fonctionnalités, il faudrait le re‐
programmer dans un langage plus portable, écrire les installeurs pour les différents systèmes, etc. : 0.5 h.an Disfluencies : Développement d’un outil générique de repérage et d’annotation des disfluences : 0.5 h.an Ressources Lexiques : Correction, maintenance, évolution, intégration de données sémantiques, évolution multilingue : 0.5 h.an Grammaire : Développement d’une grammaire couvrante du français, adaptation à l’anglais : 1 h.an 40/46 APPEL A PROJETS EQUIPEX /
CALL FOR PROPOSALS
Acronyme du projet /
Acronym
ORTOLANG
2011
DOCUMENT SCIENTIFIQUE B
LSF et gestes co‐verbaux : Constitution d’un corpus de référence pour les études gestuelles (langue des signes et gestualité co‐verbale), développement d’un outil d’aide à l’annotation de la LS, compatible avec les différents logiciels d’annotation disponibles : 1.5 h.an POSbank : Développement et correction manuelle de corpus plus larges : : 0.25 h.an Treebank : Correction manuelle du French Treebank, développement d’un treebank complémentaire sur des données variées : 0.5 h.an • Pour le LORIA
JTrans : outil d’aide à l’alignement de corpus qui propose une interface d’alignement automatique et semi‐automatique de corpus de parole et de leur transcription. Amélioration des algorithmes d’alignement automatique en implémentant une adaptation au locuteur semi‐supervisée, parallélisation de JTrans sur le clustertalc, implémentations de nouvelles I/O compatibles avec le format choisi dans l’Equipex : 0.75 h.an JSafran : outil d’aide à l’analyse syntaxique automatique ou semi‐automatique. Parallélisation de JSafran sur le clustertalc, Implémentations de nouvelles I/O compatibles avec le format choisi dans l’Equipex 0.25 h.an Ester Treebank corpus : corpus français d’émissions d’information radiophoniques annotées en syntaxe avec 50 000 mots annotés manuellement. Ce corpus sert de base pour entraîner les modèles des analyseurs de JSafran.‐ Annotation de nouvelles données pour améliorer la qualité des modèles, et donc de l’analyse réalisée par JSafran : 0.5 h.an Leopar : outil d’analyse syntaxique fondé sur les grammaires d’interaction. Parallélisation de Leopar sur le clustertalc, implémentations de nouvelles I/O compatibles avec le format choisi dans l’Equipex : 0.25 h.an ANTS : outil de transcription automatique de la parole. Apprentissage de nouveaux modèles acoustiques via une approche semi‐supervisée qui exploite des données non transcrites, parallélisation de ANTS sur le clustertalc, implémentations de nouvelles I/O compatibles avec le format choisi dans l’Equipex : 0.75 h.an Treebank du français parlé spontané : Il est fondamental pour la recherche en syntaxe du français de couvrir la plus grande variabilité possible de style du français parlé. Le French treebank est dédié à lʹécrit et le corpus Ester treebank se focalise sur la parole préparée journalistique. Nous voulons donc également annoter un corpus de français parlé spontané libre de droit (ce qui nʹest pas le cas du corpus Ester) afin de couvrir ce domaine très utile du français. Après avoir créé le premier treebank de français parlé journalistique, nous souhaitons donc réutiliser les compétences, outils et ressources acquis pour lʹoral spontané. ‐ 0.50 h/an JSNOORI : Enrichissement de lʹoutil de visualisation et dʹannotation manuelle (par exemple segmentation phonétique) du signal de parole écrit en Java (JSNOORI est le successeur de WinSNOORI qui ne fonctionnait que sous windows); dont lʹadaptation aux formats des données. ‐ 1,00 h‐an 41/46 APPEL A PROJETS EQUIPEX /
CALL FOR PROPOSALS
Acronyme du projet /
Acronym
ORTOLANG
2011
DOCUMENT SCIENTIFIQUE B
• Pour le pôle ModyCo et LLL
PFC, COLAJE, EMERGRAM, ainsi que ESLO (partie Orléans) : ces corpus existants sont dans des formats différents. Il faut donc convertir et normaliser les corpus existants dans des formats correspondant aux outils effectivement choisis par les utilisateurs. Cette conversion, si elle peut souvent s’automatiser en grande partie (dans certains cas une intervention semi‐automatique est nécessaire), nécessite en général des solutions de conversion ad‐hoc et une réorganisation des transcriptions originales pour maximiser l’interopérabilité et la qualité de l’information disponible dans les différents formats : 4.5 h.an Données de développement du langage : les projets ANR LEONARD et COLAJE ainsi que le projet ADONIS ENFLANG ont permis de constituer des corpus complets de quatre enfants de l’âge de 1 an à l’âge de 5‐6 ans pour deux des enfants, 3‐4 ans pour les deux autres enfants. Ces corpus constituent une donnée unique par leur suivi à long terme de plusieurs enfants. Ces enfants continuent aujourd’hui d’être suivis régulièrement par les chercheurs impliqués dans les projets avec pour but de constituer un suivi de données jusque l’âge de 9‐10 ans au moins. Les enregistrements, recueillis aujourd’hui, devront être transcrits et normalisés pour achever la couverture de ce corpus : 2 h.an • Vacations pour la normalisation de ressources et d’outils pour les équipes
externes au consortium acceptant de les verser sur ORTOLANG
Afin de créer un mouvement de mutualisation largement ouvert vers des équipes externes au consortium, nous souhaitons disposer de crédits de vacations pour les équipes acceptant de mutualiser leurs ressources et outils. Ces financements sont indispensables pour prendre en charge les nécessaires travaux de normalisation des corpus outils que les équipes externes au consortium devront réaliser préalablement à leurs versements sur ORTOLANG. Nous avons évalué ce poste à 100 K€ par an durant les trois premières années de la tranche 1 de mise en place d’équipement. POSTE DE FONCTIONNEMENT
En termes de fonctionnement, nous sollicitons un budget de 61 K€ par an durant les 4 années du projet Tranche 1 (soit 244 k€) et 15 K€ pour l’achat de postes de travail pour les personnes spécifiquement recrutées dans le cadre de la mise en place de cet équipement, soit 259 K€. Les besoins annuels de fonctionnement de l’équipement ORTOLANG sont en effet de cinq types : -
des frais de missions, pour présenter à l’extérieur les services et activités d’ORTOLANG et assurer auprès des équipes de recherche française et étrangères notre mission de conseil et d’accompagnement : 7, 5 K€ -
des frais de missions pour couvrir les frais des participants d’ORTOLANG aux groupes de travail de CLARIN, et aux groupes de normalisation du domaine : 13,5 K€ -
des frais liés aux réunions de concertation du projet et celles des comités techniques, scientifiques et d’orientation : 15 K€ 42/46 APPEL A PROJETS EQUIPEX /
CALL FOR PROPOSALS
Acronyme du projet /
Acronym
ORTOLANG
2011
DOCUMENT SCIENTIFIQUE B
-
des crédits de fonctionnement courant, en particulier pour les consommables informatiques (disques amovibles, cartouches, etc.) : 20 K€ Des frais de communication pour assurer la nécessaire information sur les ressources et outils proposés tant auprès de la communauté scientifique que des industriels du domaine : 5 K€ A ces coûts de fonctionnement il convient d’ajouter l’achat de postes informatiques pour les collègues que nous recruterons en vue de la création d’un ensemble de ressources et d’outils cohérents sur notre langue et de la conception des logiciels de notre architecture informatique, soit 15 postes de travail à un coût moyen de 1000 € le poste : soit 15 K€ Un tel investissement devrait nous permettre de nous situer, au terme de la première phase du projet (48 mois), à un niveau d’outillage et de ressources comparable à celui de centres de même type à l’étranger. 43/46 APPEL A PROJETS EQUIPEX /
CALL FOR PROPOSALS
Acronyme du projet /
Acronym
ORTOLANG
2011
DOCUMENT SCIENTIFIQUE B
Investissement pour la mise en place d'ORTOLANG
Tranche 1 Investissement
Poste équipement
Description
Poste de Fonctionnement
Montant
HT en
K€
Description
Nombre
d'h/mois
Montant
HT en
K€
Quote-part d'amortissement de
l’Infrastructure SAN d'appui
existante à l’INIST
Serveurs de
diffusion
91
Serveurs centres
thématiques
120
Sous-Total (1)
211
TOTAL (1) + (2)
Personnels non permanents Centre
de diffusion
Personnels non permanents
Centres thématiques
Sous-Total (2)
1034
73
72
360
108
450
823
Conception et mise en place des outils et ressources au sein des centres
thématiques
Articulographe
2 x 70 K€
Matériel de
numérisation et
OCRisation
140
35
Motion Capture
60
Camera Rapide
50
Sous-Total (3)
285
TOTAL (3) + (4)
TOTAL Tranche 1
Personnels non permanents au
sein du CNRTL et de l'ATILF
Personnels non permanents au
sein du SLDR et du LPL
Personnels non permanents au
sein du LORIA
Personnels non permanents au
sein du pôle MoDyCo et LLL
Vacation de normalisation de
corpus venant de labos extérieurs
au consortium)
Fonctionnement spécifique induit
par l'équipement (Missions, fonctionnement, communication)
Achat de postes de travail pour les
personnels recrutés pour la mise
en place de l'équipement
Sous-Total (4)
2294
108
450
120
500
48
200
72
300
300
244
15
2009
3328
4.2. JUSTIFICATION SCIENTIFIQUE ET FINANCIERE DES MONTANTS DEMANDES AU
TITRE DU COUT DE FONCTIONNEMENT HORS MASSE SALARIALE (TRANCHE 2)
En termes de fonctionnement induit pour la tranche 2 (48 mois), après investissement, nous sollicitons un budget de 60 K€ par an, soit 240 K€. En effet les besoins annuels de fonctionnement de l’équipement ORTOLANG seront alors de cinq types : 44/46 APPEL A PROJETS EQUIPEX /
CALL FOR PROPOSALS
Acronyme du projet /
Acronym
ORTOLANG
2011
DOCUMENT SCIENTIFIQUE B
-
des frais de missions, pour présenter à l’extérieur les services et activités d’ORTOLANG et assurer auprès des équipes de recherche française et étrangères notre mission de conseil et d’accompagnement : 7, 5 K€ -
des frais de missions pour couvrir les frais des participants d’ORTOLANG aux groupes de travail internes, aux groupes de travail de CLARIN, et aux groupes de normalisation du domaine : 18,5 K€ -
des frais liés aux réunions des comités techniques, scientifiques et d’orientation : 9 K€ -
des crédits de fonctionnement courant, en particulier pour les consommables informatiques (disques amovibles, cartouches, etc.) : 20 K€ Des frais de communication pour assurer la nécessaire information sur les ressources et outils proposés tant auprès de la communauté scientifique que des industriels du domaine : 5 K€ Auquel il convient d’ajouter : -
-
Postes de travail pour les personnels recrutés spécifiquement dans le cadre du fonctionnement de l’équipement : 10 K€ -
Les frais d’amortissement du serveur de diffusion nancéien (84 K€, cf. page 35) et des serveurs thématiques (96 K€, Cf. page 36). 4.3. BILAN CONSOLIDE TOTAL DE L’AIDE DEMANDEE POUR LE FONCTIONNEMENT
(TRANCHE 2 : 430 K€
Fonctionnement (Tranche 2 : 48 Mois)
Coût de fonctionnement et d'amortissement du serveur de
diffusion
Coût de fonctionnement et d'amortissement des serveurs
thématiques 32 K€ par centre soir 3x32 K€
Poste de travail pour les personnels affectés au centre de
diffusion et au centre thématiques
Fonctionnement
induit
par
l'équipement
fonctionnement courant, communication)
TOTAL
Tranche 2
84 k€
96 k€
10 k€
(Missions,
240 k€
430 k€
TOTAL Général Tranche 1 + Tranche 2
3758 k€
+ 17,2 k€ au titre des frais de
gestion
45/46 APPEL A PROJETS EQUIPEX /
CALL FOR PROPOSALS
Acronyme du projet /
Acronym
ORTOLANG
2011
DOCUMENT SCIENTIFIQUE B
4.4. LA JUSTIFICATION SCIENTIFIQUE ET FINANCIERE DES AUTRES FRAIS ENGENDRES
PAR L’ACQUISITION ET LE FONCTIONNEMENT DE L’EQUIPEMENT, QUI NE SERONT
PAS FINANCES
EVALUATION DES APPORTS EXISTANTS DES PARTENAIRES
Outre le fait que l’ensemble des coûts d’infrastructure de l’équipement ORTOLANG (Bâtiment, fluides, mobiliers, etc…) liés au matériel ou au personnel sont assumés par chacun des laboratoires partenaires qui les accueillent, les apports de chaque partenaire sont de trois types : - des ressources et outils existant qu’il est difficile de chiffrer12 et qui sont détaillés pour chaque partenaire dans l’annexe aux paragraphes 1.x.y.) ; - de frais de personnels affectés au projet et des apports en fonctionnement courant qui sont chiffrés pour chaque partenaire dans la fiche financière A2. Le tableau ci‐dessous synthétise ces deux derniers points. Apport des partenaires Phase 1 d'investissement (48 mois) ATILF LPL LORIA MoDyCo
LLL 2 353 655 1 380 057
1 081 665
INIST 1 319 414 1 047 186 525 269 Phase 2 de fonctionnement (48 MOIS) Apport des partenaires 1 533 125 1 485 658
0
626 400 0 466 027 1 945 814 1 047 186 991 196 TOTAL 3 886 780 2 865 715
1 081 665
A titre d’exemple Le TLF a réuni à Nancy près de 100 personnes pendant 30 ans pour sa réalisation 12
46/46