Equipex ORTOLANG (Open Resources and Tools for Language)

Transcription

Equipex ORTOLANG (Open Resources and Tools for Language)
Equipex ORTOLANG (Open Resources and Tools for Language)
ORTOLANG (Open Resources and Tools for Language) a pour but de proposer une
infrastructure en réseau offrant un réservoir de données (corpus, lexiques, dictionnaires,
etc.) et d’outils sur la langue et son traitement clairement disponibles et documentés qui :
- permette, au travers d’une véritable mutualisation, à la recherche sur l’analyse, la
modélisation et le traitement automatique de notre langue de se hisser au meilleur
niveau international ;
- facilite l’usage et le transfert des ressources et outils mis en place au sein des laboratoires
publics vers les partenaires industriels, en particulier vers les PME qui souvent ne
peuvent pas se permettre de développer de telles ressources et outils de traitement de la
langue compte tenu de leurs coûts de réalisation ;
- valorise le français et les langues de France à travers un partage des connaissances sur
notre langue accumulées par les laboratoires publics.
Un tel équipement a aussi pour objectif de généraliser et d’assurer la pérennisation des
efforts entrepris à travers les Centres de Ressources Numériques sur la langue, CNRTL
(Centre de Ressources Textuelles et Lexicales www.cnrtl.fr) et SLDR (Speech and Language
Data Repository, http://sldr.org, anciennement CRDO-Aix), mis en place par le CNRS. Il a
aussi pour ambition de servir tout à la fois de nœud français et de support à l’engagement de
la France au sein de l’infrastructure CLARIN (Common Language Resources and
Technology Infrastructure : www.clarin.eu) dont nous fumes partenaires dès le début. Enfin,
il servira de plateforme technique sur la langue, écrite et orale, support des actions de
coordination menées par le TGE ADONIS et le TGIR Corpus, dans lesquels nos laboratoires
et Centres Ressources sont fortement impliqués.
Les fonctions envisagées pour cet équipement sont :
- L’identification/préparation des données : catalogage des ressources et outils existants à
travers un ensemble de métadonnées normalisées ; contrôle et validation des ressources et
des outils : accompagnement des auteurs sur les standards, les normes et les
recommandations internationales actuelles : XML, TEI, LMF, MAF et SYNAF ;
enrichissement de ressources et des outils.
- Archivage : stockage, maintenance et curation des ressources et des outils ; archivage
pérenne, à travers la solution mise en place par le TGE ADONIS en lien avec le CINES.
- Diffusion : aide et accompagnement des utilisateurs et mise en place des procédures
permettant à des utilisateurs de la plateforme d‘exploiter les ressources et outils mutualisés
sans avoir à se soucier de leur localisation et implantation géographiques.
ORTOLANG se propose donc de mettre en place un processus permettant à une donnée
linguistique, une fois créée, d’être cataloguée, éventuellement améliorée (voire corrigée),
puis diffusée et enfin archivée. Le modèle d’ORTOLANG reprend les entités de base du
modèle OAIS en précisant le cycle de correction/ enrichissement des données, rendu possible
par l’archivage intermédiaire. ORTOLANG propose d’accompagner les chercheurs en
fournissant plusieurs types d’aides :
Aide à la création de données : faciliter l’accès à des instruments permettant l’acquisition ou
la création de données (par exemple numérisation, chambre sourde, caméra rapide,
mouvements oculaires, électro-encéphalographie, articulographe, etc.).
Enrichissement de données : plusieurs outils permettent d’enrichir automatiquement les
données brutes (étiquetage morphosyntaxique, analyse prosodiques, syntaxiques, etc.).
Pour ce faire nous avons choisi de regrouper dans notre consortium des compétences
complémentaires en
- sciences du langage à travers l’ATILF, le LPL, MODYCO et le LLL,
- informatique avec le LORIA et l’INIST mais aussi en partie l’ATILF et le LPL qui
demeurent des laboratoires d’interface avec l’informatique
- base de données et accès à de l’information scientifique, à travers l’INIST, et à des
ressources linguistiques, à travers les deux centre de ressources que sont le CNRTL et le
SLDR (ex CRDO Aix).
Au-delà de la réunion de ces compétences disciplinaires différentes notre objectif est aussi de
fédérer pour cet équipement de mutualisation de ressources et d’outils sur la langue des
partenaires représentant la diversité des approches d’étude de la langue : modélisation
linguistique (MoDyCo, LPL et ATILF), linguistique expérimentale (LPL, ATILF) , production
et de perception du langage (LPL, ModyCo), études diachroniques (ATILF, LLL),
sociolinguistique (LLL, ModyCo), traitement Automatique des Langues (LORIA, LPL,
ATILF), écrit (ATILF, MoDyCo), oral (LPL, LLL, ModyCo).
Cette proposition s’appuie sur une expérience acquise importante des équipes proposant cet
équipement d’excellence. A titre illustratif, nous explicitons ci-dessous quelques atouts tant
en termes de ressources et outils déjà proposés que d’insertion nationale et internationale.
- L’acquis des partenaires, centres de ressources (CNRTL et SLDR) et laboratoires qui
alimenteront la version initiale de la plateforme avec un ensemble de ressources et
d’outils déjà disponibles en leur sein et dont les compétences recouvrent les trois
principaux aspects visés : l’oral, l’écrit et la patrimonialisation des parlers de France.
- L’implication et la cohérence avec les TGE et TGIR du domaine que sont ADONIS et
CORPUS. Nous sommes partie prenante du TGIR CORPUS à travers nos implications
dans les consortiums sur l’écrit (J.M. Pierrel membre du comité de pilotage) et sur l’Oral
(Ph. Blache membre du comité de pilotage). Par ailleurs nos centres de ressources sont
opérateurs au sein du TGE ADONIS et un partenariat est mis en place pour exploiter la
solution d’archivage et de pérennisation à long terme proposée par ADONIS en
partenariat avec le CINES.
- L’implication et la cohérence avec l’infrastructure européenne CLARIN au sein de
laquelle nous travaillons depuis la phase préliminaire et dont notre plateforme se
propose de structurer un sous réseau français en concertation avec le TGIR CORPUS qui
a en charge de structurer le volet français de cette architecture.
- La cohérence avec les efforts menés par la DGLFLF et la BNF sur les aspects
patrimonialisation des parlers de France.
Contact :
Jean-Marie Pierrel, professeur à l'Université de Lorraine
Directeur de l'ATILF (Université de Lorraine & CNRS) Analyse et Traitement Informatique
de la Langue Française
Responsable du CNRTL-CNRS, Centre National de Ressources Textuelles et Lexicales
44, avenue de la Libération
BP 30687
54063 Nancy cedex
Tél. : 03 54 50 52 85 ou 06 88 38 87 32
[email protected]
http://www.atilf.fr http://www.cnrtl.fr

Documents pareils

L`Equipex Ortolang

L`Equipex Ortolang travers  un  ensemble  de  métadonnées   normalisées  ;   §  contrôle  et  validation  des  ressources  et  des   outils  :  accompagnement  des  auteurs  sur...

Plus en détail