ANNEXE - Centre National de Ressources Textuelles et Lexicales

Transcription

ANNEXE - Centre National de Ressources Textuelles et Lexicales
APPEL A PROJETS EQUIPEX /
CALL FOR PROPOSALS
Acronyme du projet /
Acronym
ORTOLANG
2011
ANNEXE SCIENTIFIQUE /
SCIENTIFIC APPENDICE
ANNEXE
1. BILAN DES RECHERCHES ET BIBLIOGRAPHIE DES PARTENAIRES........................ 3 1.1. ATILF et CNRTL, UMR 7118 ............................................................ 3 Bilan des recherches
3 1.1.1 1.1.2 1.1.3 1.2. Ressources et outils disponibles actuellement et qui seront versés pour servir de
base à la version 1 de l’EQUIPEX
Bibliographie sélective liée au projet (2007 - )à
7 9 Ressources et outils disponibles actuellement et qui seront versés pour servir de
base à la version 1 de l’EQUIPEX
Bibliographie sélective liée au projet (2007- )
16 19 LPL et SpLanDR Aix, UMR 6057 ..................................................... 13 Bilan des recherches
13 1.2.1 1.2.2 1.2.3 1.3. LORIA, UMR 7503 ....................................................................... 25 Bilan des recherches
25 LORIA resources and tools
28 Bibliographie sélective liée au projet
30 1.4. MoDyCo UMR 7114...................................................................... 33 1.4.1 Bilan des recherches
33 1.4.2 Ressources et outils disponibles actuellement et qui seront versés pour servir de
base à la version 1 de l’EQUIPEX
37 1.4.3 Bibliographie sélective liée au projet (2007 - )
38 1.5. LLL Laboratoire Ligérien de Linguistique, EA 3850 ............................ 44 1.5.1 Bilan des recherches
44 1.5.2 Ressources et outils disponibles actuellement et qui seront versés pour servir de
base à la version 1 de l’EQUIPEX
47 1.5.3 Bibliographie sélective liée au projet (2007 )
47 1.6. INIST, UPS 76 ............................................................................ 48 1.6.1 Activites et domaines de compétence
48 1.6.2 Ressources et outils disponibles actuellement et qui seront versés pour servir de
base à la version 1 de l’EQUIPEX
50 1.6.3 Services et projets
52 2. PRÉSENTATION OF TECHNOLOGY TRANSFER ORGANIZATION: THE SATT
GRAND EST ...................................................................................... 54 3. LETTRES DE SOUTIEN ..................................................................... 56 3.1. Tutelles et partenaires institutionnels ............................................. 57 PRES de L’Université de Lorraine
57 Université De Provence
58 Université Paris Ouest Nanterre
59 Université d’Orléans
60 INRIA
61 DGLFLF (Délégation à la Langue Française et au Langue de France)
62 CORPUS, Infrastructure de Recherche
63 TGE ADONIS
64 CLARIN : a European Research Infrastructure
65 CINES (Archivage et diffusion)
67 Linguistic Data Consortum
68 TEI Concil Chair and ISO Committee TC37/SC4 Chair
69 LORIA
70 Dann Broeder MPI
71 3.2. Partenaires Industriels ................................................................. 72 3.2.1 XILOPIX
72 1.3.1 1.3.2 1.3.3 1/82 APPEL A PROJETS EQUIPEX /
CALL FOR PROPOSALS
Acronyme du projet /
Acronym
ORTOLANG
2011
ANNEXE SCIENTIFIQUE /
SCIENTIFIC APPENDICE
3.2.2 3.2.3 3.2.4 3.2.5 3.3. GFI Informatique
MVS
Saint-Gobain PAM
EDF
73 75 56 77 Collectivités territoriales ............................................................... 78 Région Lorraine
78 Conseil Général 54
79 Grand Nancy
81 4. DEVIS ...................................................................................... 82 3.3.1 3.3.2 3.3.3 CE
DOCUMENT EST L’ANNEXE DU DOCUMENT
DU DOSSIER DE CANDIDATURE
PARAGRAPHES
PEUVENT
–
ETRE
B,
ET FAIT DONC PARTIE INTEGRANTE
IL LUI EST DONC DIRECTEMENT LIE.
AJOUTES,
DE
NOUVEAUX
QUI APPORTENT DES INFORMATIONS
COMPLEMENTAIRES UTILES A LA COMPREHENSION DU PROJET.
IL N’EST
PAS LIMITE
EN NOMBRE DE PAGES, TOUTEFOIS, CE NOMBRE DOIT RESTER RAISONNABLE.
2/82 APPEL A PROJETS EQUIPEX /
CALL FOR PROPOSALS
Acronyme du projet /
Acronym
ORTOLANG
2011
ANNEXE SCIENTIFIQUE /
SCIENTIFIC APPENDICE
1. BILAN DES RECHERCHES ET BIBLIOGRAPHIE DES PARTENAIRES
1.1. ATILF ET CNRTL, UMR 7118
1.1.1 BILAN DES RECHERCHES
Le projet scientifique du laboratoire s’unifie autour des notions d’ « Analyse et Traitement Informatique de la Langue Française ». Il est structuré en 4 équipes : - L’équipe « Linguistique historique française et romane » centrée sur de la recherche fondamentale dans les domaines de la lexicologie/lexicographie/métalexicographie et de la syntaxe historiques françaises, galloromanes et romanes. - L’équipe « Lexique », structurée autour de cinq axes de recherche : Morphologie constructionnelle ; Lexicologie théorique et descriptive ; Lexicographie franco‐
allemande ; Du lexique à la phrase ; Lexique et corpus. - L’équipe « Acquisition et apprentissage des langues (CRAPEL)» dont les travaux contribuent à la recherche sur l’appropriation des langues : acquisition, apprentissage, enseignement, méthodologies, dispositifs et outils. Ils allient recherche fondamentale, recherche‐action et recherche‐développement dans les domaines suivants : autonomisation ; apprentissage en situations formelles et informelles ; TIC et exploitation des corpus ; pédagogie du plurilinguisme ; insécurités langagières ; langage en situation de travail. - L’équipe « Macro‐syntaxe de l’écrit et de l’oral », dont le champ d’investigation est l’exploration de phénomènes relevant de la macro‐syntaxe et ayant pour point commun de se manifester à la périphérie droite des énoncés. Deux thèmes principaux y sont développés : les faits d’adjonction, qui se manifestent après une unité apparemment achevée sur le plan de la syntaxe, et les faits de pseudo‐subordination ou de parataxe et leur lien avec la cataphore. L’équipe travaille parallèlement sur des corpus écrits et oraux. Pour les corpus oraux, elle a recours aux corpus issus du projet « Corpus oraux » du laboratoire. Pour l’écrit, les études s’appuient sur des données typologiquement définies, puisées notamment dans Frantext et dans la presse écrite. Enfin un axe transversal, « Ressources et normalisation », qui intègre trois types d’actions complémentaires 1) des actions centrées sur la constitution et la normalisation de ressources ; 2) le support du CNRTL, (Centre National de Ressources Textuelles et Lexicales : www.cnrtl.fr), opérateur des TGIR ADONIS et CORPUS pour son champ de compétence et acteur français dans l’infrastructure de recherche européenne CLARIN ; 3) l’exploitation de ressources textuelles pour des recherches littéraires avec, en particulier, l’évolution de la Base textuelle FRANTEXT. • La constitution et normalisation de ressources
L’un de nos premiers objectifs est de mettre en forme et valoriser des ressources à caractère linguistique produites par des équipes du laboratoire ou issues de projets externes dans le cadre de projets coopératifs, plus particulièrement au sein de l’axe « Langues textes et 3/82 APPEL A PROJETS EQUIPEX /
CALL FOR PROPOSALS
Acronyme du projet /
Acronym
ORTOLANG
2011
ANNEXE SCIENTIFIQUE /
SCIENTIFIC APPENDICE
documents » de la MSH Lorraine. En effet, pour que ces ressources soient utilisables et exploitables, il est indispensable de les mettre dans des formats normalisés. En pratique, nous utilisons le langage XML et ses applications normalisées, la TEI (Text Encoding Initiative) et EAD (Encoded Archival Description). Parfois, nous normalisons les données qui nous arrivent dans des formats hétérogènes, parfois au contraire, nous participons à lʹélaboration des données en spécifiant les schémas dʹannotation et les outils à utiliser. Ressources produites à lʹATILF au cours des quatre dernières années -
Le projet ERC starting grant « Lexique politique du français » pour la mise à disposition en TEI de lʹédition critique de la première traduction en français de La Cité de Dieu de saint Augustin, en lien avec l’équipe « Linguistique historique ». -
Le projet TCOF pour la mise à disposition de corpus oraux transcrits (interactions entre adultes et enfants, récits de vie, réunions de travail et interactions entre adultes) en lien avec les équipes « Macrosyntaxe » et « Acquisition, apprentissage des langues ». -
Le projet ASTTIC pour lequel nous avons encodé en TEI une centaine dʹarticles relatifs à la linguistique issus de la revue « Sciences Humaines », en lien avec l’équipe « Lexique ». -
La transcription de Pèlerinage de Vie Humaine de Guillaume de Digulleville établie par Béatrice Stumpf pour sa thèse. -
Le projet Est Républicain qui, dans le cadre d’un partenariat, nous permet de normaliser et diffuser plusieurs années de presse quotidienne régionale. Lʹexistence dʹun corpus de cette taille librement accessible pour la recherche a permis en particulier son utilisation dans plusieurs projets ANR. Ressources issues de projets externes et normalisées par le CNRTL -
Le projet ANR « SOURCENCYME » du Centre de Médiévistique Jean Schneider (ERL 7229) pour lʹidentification et lʹannotation des sources dans les encyclopédies latines du Moyen‐Âge. -
Le projet ANR « DETCOL » auquel nous collaborons pour la normalisation, lʹexploitation et la diffusion dʹun corpus textuel dʹœuvres linguistiques. -
Le projet MSH « EVADULOR » pour la mise à disposition dʹun état des archives ducales lorraines à travers des normes (EAD) et des outils (PLEADE) standardisés. -
Le projet MSH « ALIENTO » (Analyse Linguistique & Interculturelle des Énoncés sapientiels et Transmission Orient/Occident) pour lequel nous travaillons sur la définition des normes de codage à utiliser en vue dʹune exploitation future des corpus. -
Le projet MSH « POINCARV » pour lequel nous avons commencé un travail de normalisation des correspondances de Poincaré en TEI en vue de leur diffusion (coopération avec l’UMR 7117). 4/82 APPEL A PROJETS EQUIPEX /
CALL FOR PROPOSALS
Acronyme du projet /
Acronym
ORTOLANG
2011
ANNEXE SCIENTIFIQUE /
SCIENTIFIC APPENDICE
• Le CNRTL (Centre National de Ressources Textuelles et Lexicales :
http://www.cnrtl.fr)
Opérateur au sein du TGE Adonis, ses missions (E5‐36) concernent lʹassistance à des projets pour la normalisation (cf. ci‐dessus), la pérennisation et la diffusion de données textuelles et lexicales, le développement dʹoutils au service de la communauté et la participation à des actions de formation. Dans ce cadre, nos activités se sont essentiellement développées dans deux directions : Le portail lexical Depuis 2007, nous diffusons des données lexicales (de nature morphologiques, dictionnairiques, textuelles, phonétiques, etc.) au sein dʹun portail lexical (http://www.cnrtl.fr/portail) permettant un accès simplifié et unique à un ensemble de ressources disponibles à l’ATILF ou provenant dʹautres laboratoires. Ce portail a, très vite, rencontré un grand succès auprès de la communauté et du grand public. Aujourdʹhui, nous recevons, en période de pointe, jusquʹà 450 000 requêtes par jour1. Nous continuons régulièrement à enrichir le portail en ajoutant de nouvelles ressources issues de lʹATILF ou venant dʹautres laboratoires. Nous avons également enrichi le CNRTL avec la mise à disposition de dictionnaires anciens. En collaboration avec lʹUniversité de Poitiers et lʹUniversité de Montréal, nous avons développé une application Web pour donner lʹaccès au Dictionnaire critique de la langue française de Féraud. Actuellement, en partenariat avec notre centre de documentation, nous finalisons également lʹapplication Web pour rendre visible sur le site du CNRTL le dictionnaire de Trévoux (dictionnaire universel françois et latin) en mode image ainsi que tout le travail effectué à lʹATILF autour des ornements typographiques de ce dictionnaire. Nous proposons également le dictionnaire œconomique dit de Chomel. La mise à disposition de données textuelles Nous participons au projet européen CLARIN (http://www.clarin.eu/) (Common Language Resources Infrastructure) qui vise à construire un réseau européen de centres permettant aux chercheurs d’accéder de façon transparente à lʹensemble des ressources et outils disponibles sur le réseau. Nos participations au TGE Adonis et au projet CLARIN nous ont amenés à respecter de façon scrupuleuse les bonnes pratiques en matière de « Digital Humanities ». Pour cela, nous avons développé une plate‐forme basée sur lʹenvironnement Fedora Commons, un système open‐source de gestion de documents numériques dont les principales caractéristiques sont : -
Toute donnée est associée à un identifiant pérenne (Handle). Ce système permet de garantir un accès à long terme à une ressource avec la même URL. -
Un accès contrôlé grâce à un système dʹauthentification basé sur une signature unique (SSO, Shibboleth). La plate‐forme est intégrée comme fournisseur de service (Service En plus des quelques 350 000 accès directs par jour au site du TLFI (www.atilf.fr/tlfi). C’est donc en cumul plus de 700 000 requêtees sur le lexique français que nous servons chaque jour, requêtes venant du monde entier (cf. www.cnrtl.fr/aide/stat/). 1
5/82 APPEL A PROJETS EQUIPEX /
CALL FOR PROPOSALS
Acronyme du projet /
Acronym
ORTOLANG
2011
ANNEXE SCIENTIFIQUE /
SCIENTIFIC APPENDICE
Provider) auprès de la Fédération dʹIdentité de Renater. Lʹobjectif à terme est de faire partie dʹun système de fédérations transnationales à lʹéchelle européenne. -
Une utilisation avancée des métadonnées associées aux ressources stockées sur la plate‐
forme et moissonnables en OAI‐PMH aux formats Dublin Core, OLAC et CMDI (format des métadonnées CLARIN). -
Une interface Web permettant dʹeffectuer des recherches dans les métadonnées, de visualiser les résultats et les collections de ressources stockées sur la plate‐forme. Cette interface Web permet également de créer des corpus de textes à télécharger en fonction des droits associés aux ressources. Des outils calculant les métadonnées au format CLARIN à partir des en‐têtes des fichiers TEI, une procédure dʹingestion strictement définie et faisant appel à un algorithme de bissimulation pour éviter la redondance de composants de métadonnées identiques. Une première version de cette plate‐forme est mise à disposition via lʹINIST. Nous envisageons de lui adjoindre au fur et à mesure des outils dʹexploitation. Cʹest dans ce cadre que nous avons cette année développé un moteur dʹindexation supportant des volumes de données très importants (exemple FRANTEXT et ses quelques 4000 œuvres pour environ 250 millions de mots) et permettant dʹeffectuer des recherches complexes sur ces données en un minimum de temps de calcul. Notre objectif à terme est de mutualiser lʹutilisation de ce moteur dʹindexation sur de nombreux projets auxquels le CNRTL sera amené à coopérer dans les années à venir. En partenariat avec le TGE Adonis, nous avons également entamé un processus visant à la préservation à long terme de nos données. Cet archivage sera assuré par le CINES (Centre Informatique National de lʹEnseignement Supérieur). Même si ce travail est peu spectaculaire vu de lʹextérieur, il vise à nous inscrire dans le respect des meilleures pratiques de la gestion dʹarchives numériques. Dans le cadre des différents projets auxquels nous collaborons, nous sommes amenés à utiliser des normes et par conséquent à suivre leurs évolutions. De ce fait, il nous arrive dʹêtre impliqués dans ces évolutions. Nous participons par exemple à un groupe dʹexperts sur les métadonnées à lʹISO. Ce groupe vise à normaliser une partie du contenu du Registre de Catégorie de Données des éléments de métadonnées utilisés dans CLARIN. Dans lʹoptique de partager et diffuser les bonnes pratiques en matière dʹencodage de ressources numériques textuelles, nous avons également organisé en 2008, sous lʹégide du TGE Adonis et en collaboration avec lʹINIST, les premières rencontres francophones autour de la TEI, dans le but de structurer et consolider un réseau dʹexperts français sur lʹutilisation de la TEI. -
• Le suivi et l’évolution de la base de données textuelles FRANTEXT
Le contexte concurrentiel lié à de nouvelles bases (émergence de Google Livres, de Gallica), et au développement de nombreux outils de fouille textuelle nous oblige à repenser notre offre en termes de ressources. Une attention particulière a été portée à FRANTEXT, base textuelle historique, et donc « vitrine » du laboratoire, d’autant plus qu’elle est solidement implantée dans les instituts de recherches français (plus de 200 bibliothèques et centres de recherche implantés) et étrangers (200 abonnements). 6/82 APPEL A PROJETS EQUIPEX /
CALL FOR PROPOSALS
Acronyme du projet /
Acronym
ORTOLANG
2011
ANNEXE SCIENTIFIQUE /
SCIENTIFIC APPENDICE
La base a fait l’objet d’une importante campagne d’enrichissement ciblé : de 2007 à 2011, 248 références ont été numérisées, balisées en XML‐TEI et ajoutées au corpus. L’objectif est double : rééquilibrer le corpus, notamment sur le plan de la représentation des genres déficitaires, et proposer des textes intéressant directement la communauté, pour alimenter des chantiers de recherches en cours. Ainsi, un important ensemble « Écrits personnels » a‐t‐
il été constitué en lien avec l’équipe « Genèse et Autobiographie » (ITEM‐CNRS, Paris) : 127 autobiographies, 23 journaux personnels (dont une dizaine de journaux de jeunes filles sous l’Occupation), 17 autofictions, 10 essais autobiographiques. 22 œuvres d’Alphonse Daudet ont également été numérisées ainsi qu’une quinzaine de textes écrits par des auteurs oulipiens. FRANTEXT propose enfin, à chaque rentrée, tous les textes en langue française au programme de l’agrégation, et du concours d’entrée à l’École Normale Supérieure. Un nouveau modèle descriptif de métadonnées a été mis au point, et est mis en œuvre depuis 2009 (toute la base est en train d’être réétiquetée selon ces critères). Ce modèle comporte : des informations biographiques et bibliographiques supplémentaires (distinguant édition originale ou remaniée et édition encodée), un étiquetage en genre, par combinaison d’opérateurs choisis dans une palette d’une soixantaine de descripteurs, une indexation par contenu, ainsi que des informations périphériques (prix littéraire). En parallèle, l’interface de consultation de la base a été en grande partie rénovée : un formulaire de sélection de corpus multicritères permet notamment de s’appuyer sur cette gamme de métadonnées plus étendues pour sélectionner son corpus d’études. L’interface a enfin été profondément remaniée de manière à rendre les recherches plus accessibles : suppression de la saisie manuelle de certaines commandes, possibilité d’exportation de résultats, passerelles établies entre les différentes fonctionnalités du logiciel. 1.1.2 RESSOURCES ET OUTILS DISPONIBLES ACTUELLEMENT ET QUI SERONT VERSES POUR
SERVIR DE BASE A LA VERSION 1 DE L’EQUIPEX
Outre la base FRANTEXT (cf. ci‐dessus et www.frantext.fr) nous appuierons pour alimenter la version 1 de l’équipement que nous proposons sur les acquis du CNRTL (www.cnrtl.fr) qui se structurent aujourd’hui autour de cinq pôles de compétence : 1. Un portail lexical (www.cnrtl.fr/portail), base de connaissances lexicales du français qui a pour vocation de valoriser et de partager, en priorité avec la communauté scientifique, un ensemble de données issues des travaux de recherche sur le lexique français menés à l’ATILF ou au sein de partenaires du CNRTL (Académie française, ARTFL Chicago, CLEE et IRIT Toulouse, CRISCO Caen, Laboratoire Informatique de Tours, etc.). Projet évolutif, cette base de connaissances permet d’obtenir à partir d’une forme lexicale, par exemple sussiez du verbe savoir des informations morphologiques, lexicographiques et étymologiques, des informations de synonymie, d’antonymie et de proximité sémantique (proxémie) et une concordance utilisant le corpus de textes libres de droits de la base FRANTEXT (www.atilf.fr/frantext). Il permet d’exporter les résultats du concordancier au format XML/TEI (Text Encoding Initiative : www.tei‐c.org) et, à notre connaissance, c’est le seul site permettant à un utilisateur d’importer dans un format normalisé un concordancier français d’une telle importance. Produit phare du CNRTL, ce 7/82 APPEL A PROJETS EQUIPEX /
CALL FOR PROPOSALS
Acronyme du projet /
Acronym
ORTOLANG
2011
ANNEXE SCIENTIFIQUE /
SCIENTIFIC APPENDICE
portail sert en moyenne chaque jour plus de 350 000 requêtes venant du monde entier (cf. http://www.cnrtl.fr/aide/stat/). Il est intégré sous forme d’extension aux navigateurs Firefox et Chrome. 2. Un ensemble de corpus librement accessibles par téléchargement, avec, entre autres : - Le corpus journalistique de LʹEst Républicain : dans le cadre dʹun accord de collaboration avec LʹEst Républicain, le CNRTL offre, après en avoir assuré le traitement informatique, le téléchargement gratuit pour la recherche d’un des plus grands corpus de type journalistique. Codé au format XML/TEI, il correspond à trois années des éditions intégrales du quotidien régional et sera enrichi au fur et à mesure de son traitement informatique. La volumétrie de cette seule ressource nous amènera à plus de 600 millions de mots en fin de cette année 2011. - Un corpus dʹarticles issus de la revue Sciences Humaines : un partenariat avec cette revue nous autorise à diffuser ces articles sous une licence Creative Commons (attribution du texte à lʹauteur, pas dʹutilisation commerciale, rediffusion aux mêmes conditions). - Frantext : à travers une sélection par auteurs, titres, dates ou genres, nous offrons la possibilité de télécharger des textes libres de droit. Une première offre concerne 500 textes : l’utilisateur récupère une archive contenant la DTD et le codage XML/TEI des textes. A notre connaissance, le CNRTL fut le premier site offrant un tel corpus français normalisé XML/TEI d’environ 150 millions de caractères. 3. Des lexiques avec, entre autres : - MORPHALOU : lexique ouvert des formes fléchies du français à large couverture (540.000 formes fléchies, 68.075 lemmes), respectant les propositions de normalisation pour les ressources lexicales de lʹISO (TC37/SC4). Il est en accès libre tant en consultation qu’en téléchargement. - PROLEX : issue d’un projet piloté par le Laboratoire dʹinformatique de lʹuniversité de Tours, cette base fournit des connaissances sur les noms propres qui constituent, à eux seuls, 10% des textes journalistiques, à travers une plate‐forme comprenant un dictionnaire électronique multilingue de noms propres (Prolexbase), des systèmes dʹidentification des noms propres et de leurs dérivés, des grammaires locales, etc. 4. Un ensemble de dictionnaires français informatisés assez unique - Dictionnaires modernes : TLFi : Trésor de la Langue Française informatisé et sa version XML, Dictionnaire de lʹAcadémie française (8ème et 9ème éditions), Dictionnaire électronique dʹexpressions idiomatiques français‐portugais / portugais‐français. - Dictionnaires anciens du XVIe au XIXe siècle : Dictionnaire de lʹAcadémie française, 1ère (1694), 4ème (1762), 5ème (1798), et 6ème (1835) éditions, Dictionarium latinogallicum de Robert Estienne (1552), Thresor de la langue françoyse de Jean Nicot (1606), Dictionnaire historique et critique de Pierre Bayle (1740), Dictionnaire critique de la langue française de Jean‐François Féraud (1787‐1788), Encyclopédie de Diderot et dʹAlembert. 5. Des outils parmi lesquels : - Flemm, un Analyseur Flexionnel du français pour des corpus préalablement étiquetés au moyen de lʹun des deux catégorisateurs : Brill ou TreeTagger. Principalement basé sur 8/82 APPEL A PROJETS EQUIPEX /
CALL FOR PROPOSALS
Acronyme du projet /
Acronym
ORTOLANG
2011
ANNEXE SCIENTIFIQUE /
SCIENTIFIC APPENDICE
-
-
-
lʹusage de règles (un lexique de 3000 mots seulement est utilisé pour prendre en compte les exceptions), Flemm calcule le lemme de chaque mot fléchi (en fonction de lʹétiquette) et fournit également les traits flexionnels principaux : genre et nombre pour les adjectifs, déterminants et participes ; nombre pour les noms ; genre, nombre, personne et cas pour les pronoms ; nombre, personne, temps, mode et groupe de conjugaison pour les verbes. Pompamo, un outil de détection de candidats à la néologie basé sur lʹemploi de lexiques dʹexclusion. Il permet, à partir dʹun corpus étiqueté morphosyntaxiquement, de recenser les occurrences de néologie formelle et catégorielle. La large couverture du lexique utilisé permet de filtrer la majeure partie des formes du français et de repérer les cas de changement de catégorie syntaxique. Un lexique de noms propres et un lexique dʹadjectifs toponymiques et de gentilés sont également proposés. DériF, un analyseur du lexique morphologiquement construit du français. DériF analyse non seulement les unités du lexique construites par dérivation mais aussi celles formées par composition savante ou néoclassique. FastKwic, un outil permettant dʹindexer un texte, français ou anglais, et de produire un concordancier à partir du résultat de cette indexation. 1.1.3 BIBLIOGRAPHIE SELECTIVE LIEE AU PROJET (2007 - )A
André V., Benzitoun C., Canut E., Debaisieux J.‐M., Gaiffe B.et Jacquey E., 2010, « Traitement informatique de données orales : quels outils pour quelles analyses ? », Recherches qualitatives 9, Collection Hors‐Série «Logiciels pour l'analyse qualitative : innovations techniques et sociales», Dumont V., Lejeune C. et Guillemette F. (Eds.), Québec. http://www.recherche‐qualitative.qc.ca, p. 131‐150. Barque L., Nasr A., Polguère A. (2010) From the Definitions of the Trésor de la Langue Française To a Semantic Database of the French Language. Dans A. Dykstra et T. Schoonheim (dir.), Proceedings of the XIV Euralex International Congress, Leeuwarden (Pays‐Bas), Fryske Akademy, 2010, pages 245‐252. Barque L., Polguère A., (2009) Structuration et balisage sémantique des définitions du Trésor de la Langue Française informatisé (TLFi). Dans Proceedings of the Fourth International Conference on Meaning‐Text Theory (MTT’09), Montréal, 2009, pages 35‐45. Benzitoun C., Bresson S., Budzinski L., Debaisieux J.‐M., Holzheimer K. Quand un corpus rencontre un adjectif du troisième type. Étude distributionnelle de "prochain., http://corpus.revues.org/index1588.html, [Édition papier : décembre 2010 / Mise en ligne décalée : juin 2011] Benzitoun C. (2010), Description linguistique assistée par ordinateur : réflexion autour des outils et des ressources, Travaux linguistiques du Cerlico 23, pages 145‐162. Benzitoun C., Cappeau P. (2010), Description sur corpus. Quelques réflexions autour des données et des instruments pour le français (parlé) à travers la description de cause et causer, in F. Neveu, V. Muni Toke, J. Durand, T. Klingler, L. Mondada, S. Prévost (éds.), Congrès Mondial de Linguistique Française ‐ CMLF 2010, pages 1383‐1398. Benzitoun C., Dister A., Gerdes K., Kahane S., Pietrandrea P., Sabio F., Debaisieux J.‐M. (2010), tu veux couper là faut dire pourquoi. Propositions pour une segmentation syntaxique du français parlé, in F. Neveu, V. Muni Toke, J. Durand, T. Klingler, L. Mondada, S. Prévost (éds.), Congrès Mondial de Linguistique Française ‐ CMLF 2010, pages 2075‐2090. 9/82 APPEL A PROJETS EQUIPEX /
CALL FOR PROPOSALS
Acronyme du projet /
Acronym
ORTOLANG
2011
ANNEXE SCIENTIFIQUE /
SCIENTIFIC APPENDICE
Benzitoun C., Dister A., Gerdes K., Kahane S., Marlet R. (2009), annoter du des textes tu te demandes si c’est syntaxique tu vois, The 28th Conference on Lexis and Grammar, Arena Romanistica 4, Presses de l’Université de Bergen, Bergen, pages 16‐27. Benzitoun C. (2008), Annotation morphosyntaxique : où est le problème, in Constant M., Dister A., Emirkanian L. et Piron S. (éds), Description linguistique pour le traitement automatique du français, Cahiers du Cental 5, Presses Universitaires de Louvain, pages 127‐142. Boulton, A. (2010). Consultation de corpus et styles d’apprentissage. Cahiers de l’APLIUT, 29/1, p. 98‐
115. Boulton, A. (2010). Learning outcomes from corpus consultation. In M. Moreno Jaén, F. Serrano Valverde & M. Calzada Pérez (eds), Exploring New Paths in Language Pedagogy : Lexis and Corpus‐Based Language Teaching. Londres : Equinox, p. 129‐144. Boulton, A. (2009). Corpora for all ? Learning styles and data‐driven learning. In M. Mahlberg, V. González‐Díaz & C. Smith (eds), Proceedings of 5th Corpus Linguistics Conference (CL2009), 20‐23 juillet, University of Liverpool (Royaume Uni). http://ucrel.lancs.ac.uk/publications/cl2009/ Boulton, A. (2008). Esprit de corpus : promouvoir l’exploitation de corpus en apprentissage des langues. Texte et corpus, 3, p. 37‐46. http://web.univ‐ubs.fr/corpus/jlc5.html#publi2007 Briquet C., Renders P., Petitjean E. (2010) A virtualization‐based retrieval and update API for XML‐
encoded corpora. In Proceedings of Balisage: The Markup Conference, Montréal, 2010, http://balisage.net/Proceedings/vol5/html/Briquet01/BalisageVol5‐Briquet01.html Debaisieux J.M. (2009) « Des documents authentiques oraux aux corpus : un défi pour la didactique du FLE », Mélanges Pédagogiques, n°31. Crapel, Nancy2, pp. 22‐44. Debaisieux J.M. (2008) « Corpus oraux et didactique des langues », Le Français dans le Monde, Recherches et Applications, n° spécial, Quel oral enseigner, cinquante ans après le Français fondamental ? Clé international, pp.102‐114. Del Mancino W , Pierrel J.M. (2009), Du Trésor de la langue française à l’ATILF et au CNRTL : 50 ans au service de l’étude et de la connaissance de la langue française », Revue pour l’histoire du CNRS, N° 24 Fradin B., Dal G., Grabar N., Namer F., Lignon S., Tribout D., Zweigenbaum P. (2008) « Remarques sur l'usage des corpus en morphologie » Langages 171 :34‐59. Gaiffe B., E Jacquey et L. Kister, (2009), Approche lexicosémantique de l’extraction terminologique : utilisation de ressources lexicographiques et validation sur corpus,Toth’09, http://www.porphyre.org/toth/files/actes/TOTh‐2009_02_gaiffe‐jacquey‐kister.pdf Gaiffe B., Hyungsuk Ji, Hyunseung Choo (2007) « Selecting Target Word Using Contexonym Comparaison Method », Proceeding 12th International Conference on human computer interaction (2007) Grzesitchak M., Jacquey E., Valette M. (2007) « Systèmes complexes et analyse textuelle : Traits sémantiques et recherche d'isotopies », ARCo’07 – Cognition, Complexité, Collectif., Acta‐
Cognitica, 227‐235. (Article) Hathout N., Namer F., Plénat M., Tanguy L. (2009) « Apport des corpus en morphologie ». Aperçus de Morphologie, Bernard Fradin, Françoise Kerleroux et Marc Plénat (éds). Paris: Presses Universitaires de Vincennes:267‐287. Haton S., Pierrel J.M. (2007), Les Lexiques‐Miroirs. Du dictionnaire bilingue au graphe multilingue. Actes de TALN 2007, Vol 2, Toulouse, IRIT Press, 12‐15 juin 2007, p. 113‐122, IRIT Press 2007, ISBN 2‐9520326‐9‐6 10/82 APPEL A PROJETS EQUIPEX /
CALL FOR PROPOSALS
Acronyme du projet /
Acronym
ORTOLANG
2011
ANNEXE SCIENTIFIQUE /
SCIENTIFIC APPENDICE
Jacquey E., L. Kister, M. Grzesitchak, B. Gaiffe, C. Reutenauer, S. Ollinger, Valette M. (2010), Thésaurus et corpus de spécialité sciences du langage : approches lexicométriques appliquées à l’analyse de termes en corpus,TALN2010, Montréal, 19‐23 juillet 2010. Jacquey E. et Kister L. (2007), Comparaison des structures thématiques de textes spécialisés et de thesaurus ou de terminologies, Terminologia e mediazione linguistica : approcci e metodi a confronto, ASS.I Term et università di Bologna, sede di Forli, Bertinoro, 8 jui 2007 (http://realiter.net/spip.php?article951) Kister L., E. Jacquey et B. Gaiffe (2009), Fusion d’un thesaurus et d’une terminologie : utilisation de ressources existante pour amorcer une ontoterminologie, TIA’09, 18‐19novembre. http://www.irit.fr/TIA09/thekey/posters/kister‐jacquey‐gaiffe.pdf Kister L., E. Jacquey et B. Gaiffe (2008), Repérage de la référence à partir du thesaurus, de la terminologie et de la sémantique lexicale, Associazione Italiana, per la Documentazione Avanzata, AIDAinformazioni, 26, 1‐2. http://www.aidainformazioni.it/pub/kister‐jacquey‐gaiffe122008.pdf Kister L. et E. Jacquey (2007), NdeN et acquisition d'informations lexicales à partir du Trésor de la langue française Informatisé, in Cognition Représentation Langage, Revue du Cercle de Linguistique du Centre et de l'Ouest. http://corela.edel.univ‐poitiers.fr/index.php?id=332 Landure, C. & Boulton, A. (2010). Corpus et autocorrection pour l’apprentissage des langues. ASp, 57, p. 11‐30. Lux‐Pogodalla V., D. Besagni, K. Fort, FastKwic (2010) an « Intelligent » Concordancer Using FASTR, Proceedings of the seventh conference on International Language ressources and Evaluation (LREC'2010), 19th‐21st May 2010, Valletta, Malta, http://www.lrec‐
conf.org/proceedings/lrec2010/index.html Namer F. (2009) Morphologie, lexique et Traitement Automatique des Langues – Le système DériF: TIC et Sciences cognitives. London: Hermès Sciences Publishing, 448p. Montémont V. (2011) « How to explore a digitalized corpus : the case of autobiographies in Frantext », 3d Global Digital Memories Congress, Prague, 14‐16 mars 2009, dir. Daniel Riha,
http://www.inter‐disciplinary.net/wp‐content/uploads/2011/02/montemontdmpaper.pdf Montémont V. (2009) « Corpus quercuscanis frantexto », in Daniel Delbreil et al., in Raymond Queneau et le corps (Nancy, 5‐7 octobre 2006), Paris, Editions Calliopées, 2009, p. 25‐34. Montémont V. (2008) « Discovering Frantext », in Jan Auracher & Willie van Peer, New Beginnings in Literary Studies, Newcastle, Cambridge Scholars Publishing, 2008, p. 89‐107. Polguère A. (2009) Lexical systems: graph models of natural language lexicons, Language Resources and Evaluation. Volume 43 – nº 1, 2009, pages 41‐55. Pierrel J.M., Buchi E. (2009), Research and Resource Enhancement in French Lexicography: the ATILF Laboratory’s computerized resources, in “Lexicography in Italy and in Europe”, Silvia Bruti, Roberta Cella and Marina Foschi Albert, editors, Cambridge Scholars Publishing, p. 79‐118, 2009. Pierrel J.M., Etienne‐Becker C., Petitjean E., Zaercher‐Keck V. , ZITELLA D. (2011), LyText : un environnement logiciel d’aide à la préparation de l’EAF (Epreuve anticipée de français du baccalauréat) , revue ELA « Revue de Linguistique Appliquée », Informatique et didactique des lettre, 2/2010, p. 167‐179, Pierrel J.M., Petitjean E. (2007), Valorisation et exploitation scientifiques de documents numériques pour la recherche en linguistique : l’exemple du CNRTL, Actes de CIDE 2007 Congrès International 11/82 APPEL A PROJETS EQUIPEX /
CALL FOR PROPOSALS
Acronyme du projet /
Acronym
ORTOLANG
2011
ANNEXE SCIENTIFIQUE /
SCIENTIFIC APPENDICE
sur le Document Numérique, Nancy, 2‐4 juillet 2007 (Conférence invitée plénière d’ouverture), p. 13‐24, Europia 2007, ISBN 978‐2‐909285‐38‐2. Pierrel J.M., Petitjean E. (2007), Le CNRTL, Centre National de Ressources Textuelles et Lexicales, un outil de mutualisation de ressources linguistiques, Actes de TALN 2007, Vol 2, Toulouse, IRIT Press, 12‐15 juin 2007, p. 327‐ 330, IRIT Press 2007, ISBN 2‐9520326‐9‐6. Pierrel J.M. (2009), Recherche et valorisation en lexicographie française : les ressources informatisées du laboratoire ATILF, Actes du colloque DORIF, Milan, 30/09‐2/10/2009. Pierrel J.M. (2010), Apports et usages de l’informatisation de connaissances sur le lexique français : l'exemple du TLFi et du portail lexical du CNRTL, Conférence invitée au 7ème colloque Technologies de l’Information et de la communication pour l’Enseignement, Nancy, 6‐8 décembre 2010, http://www.canalc2.tv/video.asp?idvideo=10203 Pierrel J.M. (2008), De la nécessité et de l’intérêt d’une mutualisation informatique de connaissances sur le lexique de notre langue, Actes du 1er Congrès Mondial de Linguistique Française, (Paris, 9‐
12 juillet), Paris : EDP Sciences, 2008. www.linguistiquefrancaise.org Pierrel J.M. (2008), Informatisation et valorisation sur le Net : une deuxième vie pour le TLF, Colloque LEXICOGRAPHIE ET INFORMATIQUE : Bilan et perspectives, Colloque international à l’occasion du 50e anniversaire du lancement du projet, du Trésor de la Langue Française, 23‐25 janvier 2008, Nancy, http://www.atilf.fr/atilf/evenement/Colloques/Tlf2008/Pre‐
actes_colloque_TLF2008.pdf Renders P. (2010). « L’informatisation du Französisches Etymologisches Wörterbuch : quels objectifs, quelles possibilités ? ». In Iliescu M. et al., Actes du XXVe Congrès International de Linguistique et de Philologie Romanes (Innsbruck, 3‐8 septembre 2007). Tübingen, Niemeyer, vol. 6, 311‐320. Renders P. (2009). « Des dangers de l’informatisation d’un document : le cas du FEW ». In Méthodes et Interdisciplinarité en Sciences humaines, 2 : Pratiques du document, 179‐195. Renders P., Nissille C. (2008). « L'informatisation du FEW: attentes et modélisation ». In Bernal E., DeCesaris J. (eds), Proceedings of the XIII EURALEX International Congress (Barcelona, 15‐19 July 2008). Barcelona, Universitat Pompeu Fabra, Institut Universitari de Lingüística Aplicada, 1189‐
1198. Reutenauer C. (2009) «Analyse et modélisation sémantiques à partir de ressources lexico‐
sémantiques», [En ligne], Vol. XIV (2009) n°1 (coordonné par Évelyne Bourion), URL : http://www.revue‐texto.net/index.php?id=2095. Reutenauer Coralie, Lecolle Michelle, Jacquey Evelyne, Valette Mathieu (2010). « Sémème au macroscope : genèse et variation sémiques d'une unité lexicale ». In Proceedings of 10th International Conference Journées d'Analyse Statistique des Données Textuelles, Rome, Italie, 9‐
11 juin 2010, pp.467‐478, ISBN 978‐88‐7916‐450‐9, http://lexicometrica.univ‐
paris3.fr/jadt/jadt2010/tocJADT2010.htm Reutenauer C., Valette M., Jacquey E. (2009). « Proposition pour l'enrichissement sémantique de corpus », Actes des 6e Journées de la Linguistique de Corpus, Lorient, 10‐12 septembre 2009, http://web.univ‐ubs.fr/corpus/jlc6.html#publi2009 Reutenauer Coralie, Valette Mathieu, Jacquey Evelyne (2009). « De l'annotation sémantique globale d'un texte à l'interprétation locale d'un mot ». In Cognitica, ARCo'09, Actes de Colloque de l'Association pour la Recherche Cognitive, Interprétation et problématiques du sens, Rouen, 9‐11 décembre 2009, http://arco09.colloques.univ‐rouen.fr/spip.php?article25. 12/82 APPEL A PROJETS EQUIPEX /
CALL FOR PROPOSALS
Acronyme du projet /
Acronym
ORTOLANG
2011
ANNEXE SCIENTIFIQUE /
SCIENTIFIC APPENDICE
Souvay G.. Informatisation de dictionnaires : exemples des pratiques dans l'équipe linguistique historique française et romane de l'ATILF Études de linguistique Appliquée, 156 (2009) 405‐415 [hal‐00522781 ‐ version 1] Souvay G., Bazin‐Tacchella S. (2010) “Construction assistée de glossaires à l’aide des outils du DMF”, Actes du XXVIe Congrès International de Linguistique et de Philologie Romane, Valence (2010), à paraître. Souvay G., Pierrel J.M. (2009), LGeRM Lemmatisation des mots en Moyen Français, Traitement Automatique des Langues. Volume 50 – n° 2/année 2009, pages 149‐172. Tyne, H. (2010), « Corpus oraux par et pour l’apprenant ». In A. Boulton (dir.) « Des documents authentiques oraux aux corpus : questions d’apprentissage en didactique des langues ». Mélanges CRAPEL, 31, p. 91‐111, 2010. Valette M (2008a) « A quoi servent les lexiques sémantiques ? Discussion et proposition », Valette M.,, éd. (2008b) Textes, documents numériques, corpus. Pour une science des textes instrumentée, Syntaxe & Sémantique, n°9/2008 Wittenburg P., N. Bel, L. Borin, G. Budin, N. Calzolari, E. Hajicova, K. Koskenniemi, L. Lemnitzer, B. Maegaard, M. Piasecki, J.M. Pierrel, S. Piperidis, I. Skadina, D. Tufis, R.v. Veenendaal, T. Váradi, M. Wynne (2010), Resource and Service Centres as the Backbone for a Sustainable Service Infrastructure, LREC 2010, Valetta, Malte, http://www.lrec‐
conf.org/proceedings/lrec2010/index.html 1.2. LPL ET SPLANDR AIX, UMR 6057
1.2.1 BILAN DES RECHERCHES
Les recherches menées au LPL se déploient autour dʹun axe principal concernant les mécanismes de production, de perception et de compréhension du langage oral. Ces études sont prioritairement conduites dans un cadre expérimental, et elles font appel à une vaste panoplie dʹinstruments de mesure qui permettent de procéder à des analyses quantitatives sur des données cérébrales, physiologiques, articulatoires, acoustiques, visuelles, et perceptives, dʹune grande variété. Le Centre dʹexpérimentation sur la parole (CEP), plateforme mutualisée hébergée par le LPL, forme lʹaboutissement le plus récent de cette longue tradition. Au‐delà de ce qui forme le cœur historique du laboratoire, cʹest‐à‐dire la phonétique expérimentale et la prosodie, lʹapproche expérimentale sʹétend au LPL dans plusieurs directions, dont la phonologie de laboratoire, la psycholinguistique du langage oral et du langage écrit, le traitement automatique du langage, les études sur les troubles de la parole et du langage. Les travaux conduits dans cette approche sont combinés à des études quantitatives menées sur de vastes corpus de données textuelles ou de données orales multimodales. Lʹensemble de ces recherches correspond à ce que lʹon appelle aujourdʹhui la linguistique expérimentale. La linguistique expérimentale englobe donc les études quantitatives sur corpus, dont le puissant essor peut se mesurer à travers la mise en place récente du Centre de Ressources pour la Description de lʹOral (CRDO), désormais appelé « Speech and Language Data Repository ». 13/82 APPEL A PROJETS EQUIPEX /
CALL FOR PROPOSALS
Acronyme du projet /
Acronym
ORTOLANG
2011
ANNEXE SCIENTIFIQUE /
SCIENTIFIC APPENDICE
Plutôt que dʹêtre centrées sur le langage pris dans lʹabstrait, nos études portent sur le locuteur, plongé dans son environnement physique et social, avec son appareil sensori‐
moteur, son système cognitif, ses compétences sociales, et la trajectoire individuelle quʹil a suivie dans lʹacquisition et lʹutilisation de ses ressources langagières. Il est crucial pour nous dʹétudier le langage et les langues en situation, dans leur contexte dʹoccurrence premier. • Équipes de recherche et groupes transversaux
• Equipe « Langues, Usages, Cognition, Apprentissage » : étude des facteurs de variation et de changement dans les systèmes linguistiques et de leurs mécanismes cérébraux et cognitifs sous‐jacents. • Equipe « Parole : Contraintes, Variations et Structures » : centrée sur lʹétude expérimentale des différentes productions normales et pathologiques de parole, considérées comme des phénomènes dʹadaptation à des contraintes linguistiques dʹune part, physiologiques et pathologiques dʹautre part. • Equipe « Co‐construction du sens : Intégration, Interface, Interaction » : étude des mécanismes mis en œuvre dans la production et la compréhension des discours, par le biais dʹun ensemble dʹanalyses portant sur différents domaines linguistiques (prosodie, phonologie, morphologie, syntaxe, sémantique, pragmatique) et différentes modalités (verbale —
dans sa forme orale et dans sa forme écrite—, vocale et mimo‐gestuelle). • Centre d'Expérimentation sur la Parole
Le Centre d’Expérimentation sur la Parole (CEP) est une plateforme expérimentale mutualisée destinée au recueil et au traitement de données pour l’étude de la production et de la perception de la parole. Cette plateforme permet de recueillir un grand nombre d’informations, audio et vidéo, mais également physiologiques et cérébrales. Le CEP est composé de différents plateaux techniques permettant de conduire ces expérimentations: électro‐encéphalographie, articulographe, chambre anéchoïque, studio d’enregistrement, salle d’enregistrement de suivi oculaire, station de test de perception, etc. • Le « Speech and Language Data Repository » (ex-CRDO)
• SLDR (Speech and Language Data Repository : http://sldr.org)
Issu d’une initiative conjointe, en 2006, de la Direction de l’Information Scientifique et du Département scientifique Homme et Société du CNRS, le Centre de ressources pour la description de l’oral (CRDO) était un dispositif de préservation des données orales et linguistiques ouvert à l’ensemble de la communauté scientifique. Entre 2008 et 2010 les composantes CRDO‐Aix et CRDO‐Paris (portées respectivement par le LPL et le LACITO) ont été les acteurs du projet pilote de stockage, de préservation pérenne et d’accès mutualisé aux corpus oraux coordonné par le TGE Adonis, en coopération avec le Centre informatique de lʹenseignement supérieur (CINES) et le Centre de calcul de lʹInstitut national de physique 14/82 APPEL A PROJETS EQUIPEX /
CALL FOR PROPOSALS
Acronyme du projet /
Acronym
ORTOLANG
2011
ANNEXE SCIENTIFIQUE /
SCIENTIFIC APPENDICE
nucléaire et de physique des particules (IN2P3). Mis en production pour l’archivage pérenne en juillet 2010, le service versant CRDO‐Aix a été rebaptisé en août 2011 Speech and Language Data Repository (Banque de données parole et langage). Pendant la phase expérimentale, CRDO‐Aix n’a fait l’objet d’aucun lancement officiel, ce qui explique le relatif faible nombre de dépôts : 174 objets distribués correspondant à un total de 150 000 documents, voir http://sldr.org/hist. Ont été privilégiés les dépôts offrant la plus grande diversité de contenus et de contraintes permettant de procéder aux essais sur des données réelles, comme par exemple l’American National Corpus http://sldr.org/sldr000770 qui contient à lui seul plus de 60 000 fichiers XML. Un dispositif client‐serveur interopérable sur le modèle OAIS Le SLDR est un système générique pour lequel la distinction entre les objets (items) existe uniquement au niveau de leurs métadonnées descriptives. Les types d’objets actuellement traités par ce système sont les données primaires (corpus), les données secondaires (ressources), les outils et les collections. Ces objets peuvent être interconnectés par des relations au format Dublin Core. Chaque objet est constitué d’une arborescence de documents sans contrainte de volumétrie ni de noms de fichiers ou de répertoires (au format Unicode), ceci afin de respecter au mieux les agencements prévus par les producteurs de données. Un algorithme de mise en forme (packaging) a été conçu pour convertir l’objet source en un paquet d’informations déposé au service d’archivage (Submission Information Package, SIP). Ce paquet, une fois validé, est archivé et une copie est transférée au service de diffusion où il est réagencé dans l’environnement Fedora Commons. Le packaging tient compte à la fois des limitations de formats reconnus par la plateforme d’archivage et des contraintes de la plateforme de diffusion. Un tableau de correspondance (mapping) est conservé par le service versant afin de permettre la restitution intégrale de tout objet à partir des flux d’informations (datastreams) disponibles au service de diffusion. Après son archivage pérenne, l’objet source peut donc être supprimé du service versant. Les objets de forte volumétrie (dépassant 40 Go et/ou 30 000 documents) sont segmentés de manière invisible aux utilisateurs et aux producteurs. Les informations de pérennisation du SLDR sont décrites sur http://sldr.org/ppdi Le SLDR dispose d’un serveur OAI‐PMH moissonnable aux formats OAI_DC et OLAC : http://sldr.org/oai Le cycle de vie des objets
Au SLDR les producteurs de données sont encouragés à créer la fiche descriptive d’un objet avant même que les données soient disponibles, ceci afin de bénéficier immédiatement d’une référence pérenne, mais aussi de s’engager à fournir un ensemble cohérent de documents qui pourront être basculés en archive pérenne une fois l’objet stabilisé. Cette fiche peut rester invisible pendant la phase initiale. Elle est accessible au producteur (déposant) ainsi que, optionnellement, à des personnes autorisées et/ou des groupes identifiés. Les producteurs peuvent définir et modifier à volonté les conditions d’accès à un objet dans son ensemble ainsi que, plus finement, à certains répertoires et certains documents. Bien que 15/82 APPEL A PROJETS EQUIPEX /
CALL FOR PROPOSALS
Acronyme du projet /
Acronym
ORTOLANG
2011
ANNEXE SCIENTIFIQUE /
SCIENTIFIC APPENDICE
toutes les archives publiques soient en libre accès par défaut (Code du patrimoine, loi du 15 juillet 2008), les dérogations prévues à l’article L213‐2 peuvent être appliquées pour restreindre l’accès à des documents pendant une période maximale fixée par la loi. Des autorisations de diffusion peuvent aussi être signées par les personnes ayant contribué à leur élaboration : locuteurs, rédacteurs… L’ensemble de ces informations (attributs d’accès) est utilisé pour repérer les documents dont le statut public/privé n’est pas compatible avec les dispositions légales ; le pourcentage de compatibilité est mesuré sur chaque objet afin que les administrateurs et les producteurs puissent en réviser les attributs d’accès en temps utile. Le suivi de l’utilisation des objets
Les objets et les documents qu’ils contiennent peuvent être diffusés selon deux modes : • libre accès (en général sous licence Creative Commons) • accès réservé à certains groupes d’utilisateurs sous une licence non‐commerciale : http://sldr.org/wiki/Licences_fr Tout accès sous licence SLDR fait l’objet d’une inscription dans l’historique de l’objet. Les producteurs de l’objet et les personnes ayant effectué un téléchargement peuvent afficher cet historique et échanger des messages sur des adresses masquées (approche Web 2.0). Ce dispositif permet notamment aux producteurs d’entrer en contact avec les utilisateurs d’une ressource et d’évaluer son impact au regard des laboratoires et métiers concernés. Les utilisateurs ayant effectué un téléchargement sous licence s’engagent à saisir sur le site les références de publications faisant état de leurs utilisations de cet objet dans le cadre d’un travail scientifique. 1.2.2 RESSOURCES ET OUTILS DISPONIBLES ACTUELLEMENT ET QUI SERONT VERSES POUR
SERVIR DE BASE A LA VERSION 1 DE L’EQUIPEX
• Outils de traitement de l’écrit
Word_Tokenizer La tokenisation consiste à segmenter et normaliser des textes écrits en mots ou unités plus grandes. Ces unités serviront d’entrée aux outils d’analyse morphosyntaxique et syntaxique. Nous avons développé plusieurs outils de tokenization, pour différentes langues. Outils existants : CTTK (http://www.lpl‐aix.fr/~bigi/logiciels.html) qui permet Description de segmenter en mots un texte en ASCII, html ou quelques formats propriétaires comme ceux dʹESTER ou le journal ʺLe Mondeʺ. On peut actuellement traiter : FR, EN, SP, CN, VN, KH. Bénéficie dʹune programmation/dʹalgorithmes modulaires qui permettent un ajout rapide dʹune nouvelle langue. B. Bigi, V.‐B. Le. Normalisation et alignement de corpus français et vietnamiens : Format et Logiciels. 9e journées internationales dʹanalyse statistique des Publication données textuelles (JADT), Lyon, 2008. Blache P. and Rauzy S. (2008) ʺInfluence de la qualité de lʹétiquetage sur le chunking : une corélation dépendant de la taille des chunksʺ in proceedings of 16/82 APPEL A PROJETS EQUIPEX /
CALL FOR PROPOSALS
Acronyme du projet /
Acronym
ORTOLANG
2011
ANNEXE SCIENTIFIQUE /
SCIENTIFIC APPENDICE
TALN 2008 . Sentence_Tokenizer La segmentation en phrases permet d’identifier les unités d’entrée de la plupart des analyseurs syntaxiques. La ponctuation n’est pas toujours fiable ni Description présente. Les outils de segmentation de phrases utilisent en plus les informations morpho‐syntaxiques. POS‐tagger L’étiquetage en partie du discours (POS‐tagger) consiste à associer à chaque forme sa catégorie, son lemme et ses traits morpho‐syntaxiques. De nombreuses informations peuvent être calculées à partir de cette étape (analyse syntaxique, segmentation en unités de haut niveau, indices de complexité de Description traitement, etc.). Il s’appuie sur une ressource lexicale de haut niveau pour le français. L’étiqueteur pour le français que nous avons développé est efficace et robuste et disponible en ligne via le CRDO. Chunker Identification des unités syntaxiques non récursives. Il s’agit d’unités élémentaires à partir desquelles il est possible d’identifier quelques relations syntaxiques simples ainsi que les types de constituants. Description Cet outil est très robuste et permet de fournir des résultats performants pour tout type de texte. De plus, il fournit des informations utiles par exemple pour l’étude des relations avec la prosodie, les systèmes de synthèse de la parole, etc. Jean‐Marie Balfourier, Philippe Blache, Marie‐Laure Guénot, Tristan Vanrullen (2005) ʺComparaison de trois analyseurs symboliques pour une tâche Publication d’annotation syntaxiqueʺ, in actes du workshop Easy‐2005 Philippe Blache (2006), ʺA Robust and Efficient Parser for Non‐Canonical Inputsʺ, in proceedings of ROMAND‐06 Tree Parser Un environnement stochastique pour l’analyse syntaxique en constituants a été Description développé. Il permet de fournir des formats d’arbre variés, par exemple ceux utilisés dans le développement du French Treebank. Rauzy S. and Blache P. (2009) « Un point sur les outils du LPL pour l’analyse Publication syntaxique du français » in Actes de la journée ATALA 2009 « Quels analyseurs syntaxiques pour le français ? » PropertyGrammar Parser Cet analyseur fournit une description en termes de « caractérisation » Description (ensemble de contraintes) de la structure syntaxique. Une version robuste a été développée, calculant les caractérisations à partir des sorties du Tree‐Parser. 17/82 APPEL A PROJETS EQUIPEX /
CALL FOR PROPOSALS
Acronyme du projet /
Acronym
ORTOLANG
2011
ANNEXE SCIENTIFIQUE /
SCIENTIFIC APPENDICE
Publication Philippe Blache (2006), ʺA Robust and Efficient Parser for Non‐Canonical Inputsʺ, in proceedings of ROMAND‐06 • Outils de traitement de l’oral
Transcription La transcription et l’annotation de corpus repose sur des outils différents, chacun étant adapté à une tâche spécifique (Transcriber, Praat, Anvil, etc.). Nous avons développé des outils aidant à l’annotation de certains phénomènes Description en générant les sorties à des formats éditables par ces outils. Nous avons également développé des fonctionnalités permettant d’assurer une traduction entre les différents formats utilisés. P. Blache, B. Bigi, L. Prévot, S. Rauzy, J. Seinturier Annotation schemes, annotation tools and the question of interoperability: from Typed Feature Publication Structures to XML Schemas Second International Conference on Global Interoperability for Language Resource, Hong Kong, 2010 Phonedit/Signaix Outil de visualisation et d’analyse multiparametrique : signal de parole, données aérodynamiques (pression intra orale,…) , articulatoires (électropalatographie, EMA) associées, et paramètres dérivés Description Analyse signal de parole : analyse spectrale, LPC, détection f0,… Extensible via des plugins Les modules d’analyse sont des exécutables autonomes utilisables via l’interface graphique ou dans des scripts indépendants (en shell, awk...) Publication www.lpl‐aix.fr/~lpldev/phonedit/ SPeech Phonetization Alignment and Syllabification Cet ensemble d’outils permet de prendre en entrée un enregistrement audio et sa transcription orthographique et fournit en sortie la transcription Description orthographique standard, la transcription phonétique et la segmentation en syllabes, le tout aligné sur le signal. Publication http://www.lpl‐aix.fr/~bigi/sppas/ Disfluencies Le repérage des disfluences est une étape de traitement indispensable à la Description préparation des corpus oraux. Nous avons développé un outil permettant le repérage d’un phénomène de disfluence fréquent, les répétitions. M. Guardiola, B. Priego‐Valverde, B. Bigi, R. Bertrand Other‐repetitions in Publication French face‐to‐face interactions as a device of conversational humor, 12th International Pragmatics Conference (IPRA), Manchester, 2011 Tokenization, POS‐tagging, Chunking, Parsing 18/82 APPEL A PROJETS EQUIPEX /
CALL FOR PROPOSALS
Acronyme du projet /
Acronym
ORTOLANG
2011
ANNEXE SCIENTIFIQUE /
SCIENTIFIC APPENDICE
Tous les outils présentés pour le traitement de l’écrit peuvent être utilisés pour traitement des trascriptions Nesterenko I., Rauzy S. and Bertrand R. (2010) ʺProsody in a corpus of French Publication spontaneous speech: perception, annotation and prosody versus syntax interaction?ʺ, in proceedings Speech Prosody. Description • Ressources
Lexiques Nous disposons d’un lexique morphologique du français très couvrant (plus de 450.000 formes) , distribué via le CRDO. VanRullen T. , Blache P. , Portes C. , Rauzy S. , Maeyhieux J.‐F. , Guénot M.‐L. Publication Balfourier J.‐M. , Bellengier E. (2005) ʺUne plateforme pour l’acquisition, la maintenance et la validation de ressources lexicalesʺ, in actes de TALN‐05 Description Grammaire Une grammaire du français a été développée dans le cadre des Grammaires de Propriétés. Elle peut être réutilisée pour d’autres formalismes M.‐L. Guénot & P. Blache (2005) ʺA descriptive and formal perspective for Publication grammar developmentʺ, in proceedings of the workshop Foundations of Natural‐Language Grammar Description POSbank L’amélioration des outils d’étiquetage repose sur le développement de corpus Description de qualité, corrigés manuellement. Nous disposons de plusieurs corpus de ce type pour l’écrit et l’oral. Treebank Les corpus arborés sont indispensables à l’étude de la syntaxe et au développement d’outils d’analyse syntaxique numériques. Nous participons à Description l’effort de développement d’un treebank français à partir de du projet de French Treebank 1.2.3 BIBLIOGRAPHIE SELECTIVE LIEE AU PROJET (2007- )
ALI, S. (2008). Optimising the automatic functional annotation of English intonation. Proceedings of Speech Prosody 2008 (4 : 2008 mai 6‐9 : Campinas, BRAZIL). 2008, p. 127‐131. ALI, S.; HIRST, D. (2009). Developing an Automatic Functional Annotation System for British English Intonation. Proceedings of Interspeech. Annual Conference of the International Speech Communication Association. (10 : 2009 septembre 6‐10 : Brighton, ). 2009, 4 pages. Cederom. AUBANEL, V.; NGUYEN, N. (2010). Automatic recognition of regional phonological variation in conversational interaction. Speech Communication. 2010, p. 577‐586. Internet : <http://www.lpl.univ‐aix.fr/~nguyen/AubanelNguyen10_preprint.pdf> 19/82 APPEL A PROJETS EQUIPEX /
CALL FOR PROPOSALS
Acronyme du projet /
Acronym
ORTOLANG
2011
ANNEXE SCIENTIFIQUE /
SCIENTIFIC APPENDICE
AUDIBERT, N.; FOUGERON, C.; FREDOUILLE, C.; MEUNIER, C. (2010). Evaluation d’un alignement automatique sur la parole dysarthrique. Actes, Journées d'Etude sur la Parole (2010 mai 25‐28 : Mons, BELGIUM). 2010, 4 pages. Cederom. Internet : <http://lpl‐aix.fr/~fulltext/4539.pdf> BERTRAND, R.; ADER, M.; BLACHE, P.; FERRÉ, G.; ESPESSER, R.; RAUZY, S. (2009). Représentation, édition et exploitation de données multimodales : le cas des backchannels du corpus CID. Cahiers de linguistique française, vol. 33, no. 2. 2009, p. 183‐212. ISSN 0771‐6524. Internet : <http://hal.archives‐ouvertes.fr/hal‐00380698> BERTRAND, R.; ADER, M.; BLACHE, P.; FERRÉ, G.; ESPESSER, R.; RAUZY, S. (2009). Représentation, édition et exploitation de données multimodales : le cas des backchannels du corpus CID. Cahiers de linguistique française, vol. 33, no. 2. 2009, p. 183‐212. ISSN 0771‐6524. Internet : <http://hal.archives‐ouvertes.fr/hal‐00380698> BERTRAND, R.; BLACHE, P.; ESPESSER, R.; FERRÉ, G.; MEUNIER, C.; PRIEGO‐VALVERDE, B.; RAUZY, S. (2008). Le CID ‐ Corpus of Interactional Data ‐ Annotation et Exploitation Multimodale de Parole Conversationnelle . Traitement automatique des langues (TAL), vol. 49, no. 3. 2008, p. 105‐134. Internet : <http://hal.archives‐ouvertes.fr/hal‐00349893> BERTRAND, R.; PORTES, C.; SABIO, F. (2007). Distribution syntaxique, discursive et interactionnelle des contours intonatifs du français dans un corpus de conversation. Travaux neuchâtelois de linguistique, no. 47. 2007, p. 59‐77. ISSN 1010‐1705. Internet : <http://hal.archives‐
ouvertes.fr/hal‐00380697> BIGI, B.; LE, V.‐B. (2008). Normalisation et alignement de corpus français et vietnamiens : Format et Logiciels. Actes, Journées internationales d'Analyse statistique des Données Textuelles (9 : 2008 mars 12‐14 : Lyon, FRANCE). ISBN 978‐2‐7297‐0810‐8Presses universitaires de Lyon. 2008, p. 199‐207. Internet : <http://www.cavi.univ‐paris3.fr/lexicometrica/jadt/jadt2008/pdf/bigi‐le.pdf> (Auteurs (éditeurs scientifiques) JADT 2008 : Serge HEIDEN, Bénédicte PINCEMIN ) BIGI, B.; MEUNIER, C.; NESTERENKO, I.; BERTRAND, R. (2010). Automatic detection of syllable boundaries in spontaneous speech. Proceedings of Language Resource and Evaluation Conference (2010 mai 19‐21 : La Valette, MALTA). 2010, p. 3285‐3292. Cederom. Internet : <http://lpl‐aix.fr/~bigi/Doc/bigi2010lrec.pdf> BLACHE, P. (2009). A general scheme for broad‐coverage multimodal annotation. Proceedings of Linguistic Annotation Workshop (2009 : Singapour, SINGAPORE). 2009, p. 38‐53. Internet : <http://hal.archives‐ouvertes.fr/hal‐00413208> BLACHE, P.; BERTRAND, R.; BIGI, B.; BRUNO, E.; CELA, E.; ESPESSER, R.; FERRÉ, G.; GUARDIOLA, M.; HIRST, D.; MAGRO, E.‐P.; MARTIN, J.‐C.; MEUNIER, C.; MOREL, M.‐A.; MURISASCO, E.; NESTERENKO, I.; NOCERA P., PALLAUD B., PRÉVOT L., PRIEGO‐VALVERDE B., SEINTURIER J., TAN N., TELLIER M., RAUZY S. (2010). Multimodal Annotation of Conversational Data. Proceedings of Linguistic Annotation Workshop (2010 juillet 15‐16 : Uppsala, SWEDEN). 2010, 6 pages. Internet : <http://lpl‐aix.fr/~fulltext/4518.pdf> BLACHE, P.; BERTRAND, R.; FERRÉ, G. (2008). Creating and exploiting multimodal annotated corpora. Proceedings of LREC08 ‐ Language Resource and Evaluation COnference (2008 : Marrakech, MOROCCO). Marrakech: ELDA. 2008, p. 1‐5. Cederom. Internet : <http://hal.archives‐
ouvertes.fr/hal‐00353722> BLACHE, P.; BERTRAND, R.; FERRÉ, G. (2009). Creating and exploiting multimodal annotated corpora: the ToMA project. In M. Kipp; J.‐C. Martin, P. Paggio, D. Heylen (eds.) Multimodal Corpora: From Models of Natural Interaction to Systems and Applications. Berlin: Springer‐Verlag. 2009, vol.LNAI 5509, p. 38‐53. Internet : <http://hal.archives‐ouvertes.fr/hal‐00433876> 20/82 APPEL A PROJETS EQUIPEX /
CALL FOR PROPOSALS
Acronyme du projet /
Acronym
ORTOLANG
2011
ANNEXE SCIENTIFIQUE /
SCIENTIFIC APPENDICE
BLACHE, P.; BERTRAND, R.; GUARDIOLA, M.; GUÉNOT, M.‐L.; MEUNIER, C.; NESTERENKO, I.; PALLAUD, B.; PRÉVOT, L.; PRIEO‐VALVERDE, B.; RAUZY, S. (2010). A formal annotation model as a preliminary step before annotation scheme: an experiment. Proceedings of Language Resource and Evaluation Conference (2010 mai 19‐21 : La Valette, MALTA) [Forthcoming . BLACHE, P.; BIGI, B.; PRÉVOT, L.; RAUZY, S.; SEINTURIER, J. (2010). Annotation schemes, annotation tools and the question of interoperability: from Typed Feature Structures to XML Schemas. Poster. ICGL (International Conference on Global Interoperability for Language Resources) (2010 janvier 17‐19 : Hong Kong, CHINA). Internet : <http://www‐
clips.imag.fr/geod/User/brigitte.bigi/Doc/ICGL‐2010.pdf> BLACHE, P.; FERRÉ, G.; RAUZY, S. (2007). An XML Coding Scheme for Multimodal Corpus Annotation. Proceedings of Corpus Linguistics (4 : 2007 juillet 27‐30 : Birmingham, UNITED KINGDOM). 2007, p. 1‐17. Cederom. Internet : <http://hal.archives‐ouvertes.fr/hal‐00244494> BLACHE, P.; RAUZY, S. (2008). Influence de la qualité de l'étiquetage sur le chunking: une corrélation dépendant de la taille des chunks. Actes, Traitement Automatique des Langues Naturelles (15 : 2008 juin 9‐13 : Avignon, FRANCE). 2008, p. 1‐10. Cederom. Internet : <http://hal.archives‐
ouvertes.fr/hal‐00285642> BRUNETTI, L. (2009). A multilingual annotated corpus for the study of Information Structure. Proceedings of Corpus Linguistics Conference CL2009 (2009 juillet 20‐23 : Liverpool, UNITED KINGDOM) [Forthcoming . CHUNG, S.‐F.; JIANG, T.‐J.; KAMRUL, H.; LEE, S.; SU, I.‐L.; PRÉVOT, L.; HUANG, C.‐R. (2007). Extending an international lexical framework for Asian languages, the case of Mandarin, Taiwanese, Cantonese, Bangla and Malay. Poster. The First International Workshop on Intercultural Collaboration (2007 : Kyoto, JAPAN). 2007. Cederom. DE LOOZE, C.; HIRST, D. (2008). Detecting Key and Range for the Automatic Modelling and Coding of Intonation. Poster. speech prosody (2008 : CAMPINAS, BRAZIL). 2008, p. 135‐138. DE LOOZE, C.; RAUZY, S. (2009). Automatic Detection and Prediction of Topic Changes Through Automatic Detection of Register variations and Pause Duration. Poster. INTERSPEECH (10 : 2009 septembre 6‐10 : Brighton, UNITED KINGDOM). 2009, 4 pages. DO, T.‐N.; LE, V.‐B.; BIGI, B.; BESACIER, L.; CASTELLI, E. (2009). Exploitation d'un corpus bilingue comparable pour la création d'un système de traduction probabiliste Vietnamien ‐ Français. Actes, Traitement Automatique des Langues Naturelles (2009 juin 24‐26 : Senlis, FRANCE). 2009, p. 1‐10. Cederom. Internet : <http://www‐lipn.univ‐
paris13.fr/taln09/paper/paper_TALN_25.html> DO, T.‐N.; LE, V.‐B.; BIGI, B.; BESACIER, L.; CASTELLI, E. (2009). Mining a comparable text corpus for a Vietnamese ‐ French statistical machine translation system . Proceedings of Fourth Workshop on Statistical Machine Translation (WMT) (2009 mars 30‐31 : Athenes, GREECE). 2009, p. 165‐172. Internet : <http://www‐clips.imag.fr/geod/User/brigitte.bigi/Doc/WMT09‐Diep.pdf> DURAND, J.; TURCSAN, G. (2009). Vers un corpus de référence du français parlé : le projet PFC (Phonologie du français contemporain). Cahiers de linguistique française, vol. 33, no. 2. 2009, p. 213‐241. FERRARIO, R.; PRÉVOT, L. (2007). Formal Ontologies for Communicating Agents. Applied Ontology, vol. 2, no. 3‐4. 2007, p. 1‐8. ISSN 1570‐5838. FOUGERON, C.; CREVIER‐BUCHMAN, L.; FREDOUILLE, C.; GHIO, A.; MEUNIER, C.; CHEVRIE‐MULLER, C.; AUDIBERT, N.; BONASTRE, J.‐F.; COLAZO SIMON, A.; DE LOOZE, C.; DUEZ, D.; GENDROT, C.; 21/82 APPEL A PROJETS EQUIPEX /
CALL FOR PROPOSALS
Acronyme du projet /
Acronym
ORTOLANG
2011
ANNEXE SCIENTIFIQUE /
SCIENTIFIC APPENDICE
LEGOU, T.; LEVÈQUE, N.; PILLOT‐LOISEAU, C.; PINTO, S.;POUCHOULIN, G.; ROBERT, D.; VAISSIERE, J.; VIALLET F. ; VINCENT C. (2010). The DesPho‐APaDy Project: Developing an acoustic‐phonetic characterization of dysarthric speech in French. Proceedings of Language Resources and Evaluation (LREC) (2010 mai 19‐21 : valetta, MALTA). 2010, p. 2831‐2838. FREDOUILLE, C.; POUCHOULIN, G.; GHIO, A.; RÉVIS, J.; BONASTRE, J.‐F.; GIOVANNI, A. (2009). Back‐
and‐Forth Methodology for Objective Voice Quality Assessment: From/to Expert Knowledge to/from Automatic Classification of Dysphonia. EURASIP Journal on Advances in Signal Processing, vol. 2009. 2009, p. 1‐13. Internet : <http://dx.doi.org/10.1155/2009/982102> GASQUET‐CYRUS, M. (2010). Corpus Accents du Sud. Corpus du CRDO : <http://crdo.fr/crdo> (En cours de publication) GASQUET‐CYRUS, M. (2010). Corpus Valjouffrey. Corpus du CRDO : <http://crdo.fr/crdo000764> GASQUET‐CYRUS, M.; BEL, B. (2009). Corpus Valjouffrey. Corpus du CRDO : <http://crdo.fr/crdo000764> (En cours de publication) GAUME, B.; DUVIGNAU, K.; PRÉVOT, L.; DESALLE, Y. (2008). Toward a cognitive organization for electronic dictionaries, the case for semantic proxemy. Proceedings of Cognitive Aspect of the Lexicon (COGALEX, COLING Workshop) (2008 : Manchester, UNITED KINGDOM). 2008, 8 pages. Internet : <http://hal.archives‐ouvertes.fr/hal‐00368888/fr/> GHIO, A. (2007). Modélisation du conduit vocal. In Auzou P.; Rolland V.; Pinto S. ; Ozsancak C. (eds.) Les dysarthries. ISBN 978‐2‐35327‐021‐7. Marseille: Solal. 2007, p. 140‐156. Internet : <http://aune.lpl.univ‐aix.fr/~ghio/DOC/Bib‐2007‐Chap11.modelisation_conduit‐Ghio.pdf> GHIO, A.; POUCHOULIN, G.; CREVIER‐BUCHMAN, L.; FOUGERON, C.; FREDOUILLE, C.; GIOVANNI, A.; ROBERT, D.; SIMON, A.; TESTON, B.; VIALLET, F. (2010). Expériences et recommandations pour la structuration des données sonores, physiologiques et cliniques dans le cas de dysfonctionnements de la parole. Actes, Journées d'Etude sur la Parole (XXVIII : 2010 mai 25‐28 : Mons, BELGIUM). Mons: Université de Mons. 2010, p. 57‐60. Internet : <http://lpl‐
aix.fr/~fulltext/4529.pdf> GIOVANNI, A.; TURNER, F.; LAGIER, A. (2008). Analyse instrumentale de la voix. In Deguine Jean‐
claude; Darrouzet Vincent (ed.) Électrophysiologie en ORL. ISBN 2‐916287‐38‐8. Boulogne: L'Européenne d'éditions. 2008, p. 236‐244. HERMENT, S. (2010). COEC : a Corpus of English Conversation. Corpus du CRDO : <http://crdo.fr/crdo000014> HIRST, D. (2007). A Praat plugin for Momel and INTSINT with improved algorithms for modelling and coding intonation. Proceedings of International Conference of Phonetic Sciences, (XVI : 2007 septembre 6‐10 : Saarbrücken, GERMANY). Saarbrücken, Germany: Universtät Saarland. 2007, p. 1233‐1236. HIRST, D.; ALI, S. (2008). Optimising the automatic functional annotation of English intonation. Proceedings of International Conference on Speech Prosody (4 : 2008 avril 6‐9 : Campinas, BRAZIL). 2008, p. 127‐130. HIRST, D.; ALI, S.; CHENTIR, A.; CHO, H.; NESTERENKO, I.; RAUZY, S. (2007). The AANVIS project: towards the automatic multilingual analysis of non‐verbal information in speech. Proceedings of ICPhS 2007 Satellite Meeting, Workshop on Intonational Phonology : Understudied or Fieldwork Languages (16 : 2007 août 6‐10 : Saarbrücken, GERMANY). 2007, 2 pages. Cederom. Internet : <http://hal.archives‐ouvertes.fr/hal‐00244495> 22/82 APPEL A PROJETS EQUIPEX /
CALL FOR PROPOSALS
Acronyme du projet /
Acronym
ORTOLANG
2011
ANNEXE SCIENTIFIQUE /
SCIENTIFIC APPENDICE
HIRST, D.; CHO, H.; KIM, S.; YU, H. (2007). Evaluating two versions of the Momel pitch modeling algorithm on a corpus of read speech in Korean. Proceedings of Interspeech (VIII : 2007 septembre 6‐10 : Antwerp, BELGIUM). Saarbrücken, Germany: Universtät Saarland. 2007, p. 1649‐1652. HSIEH, S.‐K.; SU, I.‐L.; HSIAO, P.‐Y.; HUANG, C.‐R.; KUO, T.‐Y.; PRÉVOT, L. (2007). Basic Lexicon and Shared Ontology for Multilingual Resources: A SUMO+MILO Hybrid Approach. Poster. OntoLex07 ‐ From Text to Knowledge: The Lexicon/Ontology Interface (2007 : Busan, SOUTH KOREA). 2007. Cederom. HUANG, C.‐R.; SIMON, P.; HSIEH, S.; PRÉVOT, L. (2007). Rethinking Chinese Word Segmentation: Tokenization, Character Classification, or Wordbreak Identification. Poster. Association for Computational Linguistics (2007 : Prague, CZECH REPUBLIC). Prague, Czech.: Association for Computational Linguistics. 2007, 4 pages. Cederom. Internet : <http://aclweb.org/anthology‐
new/P/P07/P07‐2018.pdf> (poster avec proceedings) KIM, S.; HIRST, D.; CHO, H.; LEE, H.; CHUNG, M. (2008). Korean MULTEXT: A Korean prosody corpus. Proceedings of International Conference on Speech Prosody (4 : 2008 avril 6‐9 : Campinas, BRAZIL). 2008, p. 139‐142. KRIEGEL, S. (2008). Corpus « Migration ». Corpus du CRDO : <http://crdo.fr/crdo000718> LEGOU, T.; MARCHAL, A.; MEYNADIER, Y.; ANDRÉ, C. (2008). 3D palatography. Poster. 5th International EPG Symposium (2008 : Edinburgh, UNITED KINGDOM). Internet : <http://lpl‐
aix.fr/~fulltext/3864.pdf> LEGOU, T.; MARCHAL, A.; MEYNADIER, Y.; ANDRE, C. (2008). Traitements automatiques de palatogrammes (palatographie directe). Actes, Journées d’Etude sur la Parole (XXVII : 2008 juin 9‐
13 : Avignon, FRANCE). 2008, p. 41‐44. Internet : <http://hal.archives‐ouvertes.fr/hal‐00380696> NESTERENKO, I.; RAUZY, S. (2007). On the use of probabilistic grammars in speech annotation and segmentation tasks. Proceedings of Speech and Computer (12 : 2007 octobre 15‐18 : Moscow, RUSSIA). 2007, p. 1‐7. Cederom. Internet : <http://hal.archives‐ouvertes.fr/hal‐00244492> NESTERENKO, I.; RAUZY, S.; BERTRAND, R. (2010). Prosody in a corpus of French spontaneous speech: perception, annotation and prosody ~ syntax interaction. Proceedings of Speech Prosody (5 : 2010 mai 11‐14 : Chicago, UNITED STATES OF AMERICA). NÍ CHIOSÁIN, M.; WELBY, P. (2010). La syllabification de séquences VCV en irlandais : une étude de perception. Actes, Journées d'Études sur la Parole (XXVIII : 2010 mai 24‐28 : Mons, BELGIUM). 2010, p. 205‐208. Internet : <http://lpl‐aix.fr/~fulltext/4500.pdf> NIKLAS‐SALMINEN, A. (2006). Productions d'une enfant bilingue précoce français‐finnois. Corpus du CRDO : <http://crdo.fr/crdo> (En cours de publication) NOUALI, O.; BLACHE, P. (2007). Generation Tool of Information Filtering Interface. Proceedings of International Conference on Multidisciplinary Information Sciences and Technologies (INSCIT) (Octobre 2006 : Badajoz, ). 2007, 5 pages. PÉRY‐WOODLEY, M.‐P.; ASHER, N.; ENJALBERT, P.; BENAMARA, F.; BRAS, M.; FABRE, C.; FERRARI, S.; HO‐DAC, L.M.; LE DRAOULEC, A.; MATHET, Y.; MULLER, P.; PRÉVOT, L.; REBEYROLLES, J.; TANGUY, L.; VERGEZ‐COURET, M.; VIEU, L.; WIDLÖCHER, A. (2009). ANNODIS: une approche outillée de l'annotation de structures discursives. Poster. Traitement Automatique des Langues Naturelles (2009 juin 24‐26 : Senlis, FRANCE). Internet : <http://hal.archives‐ouvertes.fr/hal‐00410590> PORTES, C.; BERTRAND, R.; ESPESSER, R. (2007). Contribution to a grammar of intonation in French. Form and function of three rising patterns . Interfaces discours‐prosodie (2 : 2007 septembre 12‐
23/82 APPEL A PROJETS EQUIPEX /
CALL FOR PROPOSALS
Acronyme du projet /
Acronym
ORTOLANG
2011
ANNEXE SCIENTIFIQUE /
SCIENTIFIC APPENDICE
14 : Genève, SWITZERLAND). Cahiers de linguistique française, no. 28. 2007, p. 155‐162. Internet : <http://lpl‐aix.fr/~fulltext/3099.pdf> POUCHOULIN, G.; FREDOUILLE, C.; BONASTRE, J.‐F.; GHIO, A.; AZZARELLO, M.; GIOVANNI, A. (2006). Modélisation statistique et infomations pertinentes pour la caractérisation des voix pathologiques (dysphonies). Actes, Journées d'Etude sur la Parole (JEP) (26 : 2006 juin 12‐16 : Dinard, FRANCE). Rennes: Irisa, Afcp, Isca. 2006, p. 93‐96. Internet : <http://hal.archives‐
ouvertes.fr/hal‐00136742> PRÉVOT, L.; ASHER, N.; VIEU, L. (2009). Une formalisation plus précise pour une annotation moins confuse: la relation d'Élaboration d'entité. Journal of French Language Studies, vol. 19, no. 2. 2009, p. 207‐228. ISSN 0959‐2695. Internet : <http://dx.doi.org/10.1017/S0959269509003755> PRÉVOT, L.; HUANG, C.‐R.; KAMRUL, H.; LEE, S.; SU, I.‐L.; CHUNG, S.‐F.; JIANG, T.‐J. (2006). Meta‐
modeling and standardization issues for asian languages lexical resources. Proceedings of Proceedings of International Conference on Terminology, Standardization and Technology Transfer (2006 : Beijing, ). Beijing: Encyclopedia of China Publishing House. 2006, p. 151‐162. RAUZY, S.; BLACHE, P. (2009). Un point sur les outils du LPL pour l’analyse syntaxique du français. Actes, Journée ATALA Quels analyseurs syntaxiques pour le français ? (2009 octobre 10 : Paris, FRANCE). 2009, p. 1‐6. Internet : <http://hal.archives‐ouvertes.fr/hal‐00433879> SARR, M.M.; PINTO, S.; JANKOWSKI, L.; TESTON, B.; PURSON, A.; GHIO, A.; RÉGIS, J.; PERAGUT, J.‐C.; VIALLET, F. (2009). Contribution de la mesure de la pression intra‐orale pour la compréhension des troubles de la coordination pneumophonique dans la dysarthrie parkinsonienne. Revue Neurologique, vol. 165, no. 12. 2009, p. 1055‐1061. SENG, S.; SAM, S.; LE, V.‐B.; BIGI, B.; BESACIER, L. (2008). Reconnaissance automatique de la parole en langue khmère : quelles unités pour la modélisation du langage et la modélisation acoustique ? Actes, XXVII‐emes Journees d'Etudes sur la Parole (2009 juin 9‐13 : Avignon, FRANCE). 2008, p. 1624‐1628. Cederom. Internet : <http://www‐clips.imag.fr/geod/User/brigitte.bigi/Doc/JEP08‐
Seng.pdf> SITBON, L.; BELLOT, P.; BLACHE, P. (2008). A corpus of real‐life questions for evaluating robustness of QA systems. Proceedings of LREC08 ‐ Language Resource and Evaluation Conference (Marrakech, MOROCCO). Marrakech: ELDA. 2008, 4 pages. Cederom. Internet : <http://lpl‐
aix.fr/~fulltext/3360.pdf> SITBON, L.; BELLOT, P.; BLACHE, P. (2008). Evaluation of lexical resources and semantic networks on a corpus of mental associations. Proceedings of LREC08 ‐ Language Resource and Evaluation Conference (Marrakech, MOROCCO). Marrakech: ELDA. 2008. Cederom. Internet : <http://lpl‐
aix.fr/~fulltext/3361.pdf> TAN, N.; FERRÉ, G.; TELLIER, M.; CELA, E.; MOREL, M.‐A.; MARTIN, J.‐C.; BLACHE, P. (2010). Multi‐level Annotations of Nonverbal Behaviors in French Spontaneous Conversation. Workshop Multimodal Corpora: Advances in Capturing, Coding and Analyzing Multimodality ‐ LREC (7 : 2010 mai 17‐23 : La vallette, MALTA). Document numérique, vol. 13, no. 2. 2010, p. 74‐79. Internet : <http://hal.archives‐ouvertes.fr/hal‐00488832> Ressource du CRDO : <http://crdo.fr/crdo000027> TESTON, B. (2007). L'étude instrumentale des gestes dans la production de la parole: Importance de l'aérophonométrie. In P. Auzou; V. Rolland‐Monnoury, S. Pinto, C. Ozsancak (ed.) Les Dysarthries. ISBN 978‐2‐35327‐021‐7. Marseille: SOLAL. 2007, p. 115‐117. Internet : <http://hal.archives‐
ouvertes.fr/hal‐00173547> 24/82 APPEL A PROJETS EQUIPEX /
CALL FOR PROPOSALS
Acronyme du projet /
Acronym
ORTOLANG
2011
ANNEXE SCIENTIFIQUE /
SCIENTIFIC APPENDICE
TORTEL, A. (2008). ANGLISH. Corpus du CRDO : <http://crdo.fr/crdo000731> (En cours de publication) ZELLERS, M.; POST, B.; D'IMPERIO, M. (2009). Modeling the Intonation of Topic Structure: Two Approaches. Proceedings of Interspeech (2009 : 2009 septembre 6‐10 : Brighton). 2009, p. 2463‐
2466. 1.3. LORIA, UMR 7503
1.3.1 BILAN DES RECHERCHES
Les paragraphes suivants présentent quelques éléments de bilan de recherche du LORIA relatifs au traitement automatique des langues et des connaissances, et en particulier sur les aspects de traitement de textes et traitement de la parole et du français parlé en lien avec les thématiques du projet. Le portail TALC, http://talc.loria.fr, mis en place en 2008, documente les activités de recherche, dʹenseignement et de développement logiciel menées par les chercheurs du pôle TALC du LORIA. Il recense entre autres, les axes passés et en cours ; les séminaires et ateliers organisées par les équipes TALC (Séminaire TALC, atelier NaTAL, etc.) ; les logiciels et ressources développés par les axes ; et les activités dʹenseignement en lien avec TALC (Master Erasmus Mundus ``Language and communication technologyʹʹ, Master Sciences Cognitives et ses Applications, Options ʺTraitement Automatique des Languesʺ et «Technologies des Média Numériques et Technologies de l’Information et de la Communication pour l’Enseignementʺ). Il permet aussi de communiquer sur les principaux événements de la communauté scientifique TALC, et fournit un point dʹaccès à différents outils et ressources, parmi lesquelles on peut citer des lexiques syntaxiques (Easylex, Dicovalence‐easy, Treelex‐easy, Lexschemeasy), un lexique de prépositions pour lʹanalyse syntaxique (Preplex), un étiqueteur pour le français basé sur l’entropie maximale (FrenchMaxentTagger), un environnement logiciel pour lʹannotation en dépendances syntaxiques et en rôles sémantiques (JSafran), un analyseur syntaxique basé sur les grammaires dʹinteractions (Leopar), un réalisateur de surface basé sur les grammaires dʹarbres adjoints (GenI), un logiciel dʹalignement semi‐automatique Texte/Parole (Jtrans). Parmi les tâches composant la chaîne de traitement traditionnelle du TAL, comme la segmentation, la lemmatisation, l’analyse morpho‐syntaxique, etc., l’analyse syntaxique est particulièrement importante car elle structure le flux de mots et permet ainsi d’en faire une analyse sémantique fine. L’interface entre l’analyse syntaxique et sémantique est depuis quelques années l’objet d’une attention particulière de la part de la communauté TAL. Toutefois, les approches statistiques qui sont le plus souvent utilisées dans ce domaine sʹappuient sur de grandes masses de données standardisées produites pour des campagnes dʹévaluation qui tendent à faire défaut pour le français. D’autre part, l’analyse syntaxique de l’oral en général, et du français parlé en particulier, est toujours bien moins maîtrisée que celle de l’écrit, sans parler des spécificités de la parole transcrite automatiquement, parmi lesquelles les erreurs de reconnaissance. 25/82 APPEL A PROJETS EQUIPEX /
CALL FOR PROPOSALS
Acronyme du projet /
Acronym
ORTOLANG
2011
ANNEXE SCIENTIFIQUE /
SCIENTIFIC APPENDICE
Le LORIA possède une longue expérience de lʹanalyse syntaxique formelle du Français écrit, notamment par le biais des grammaires LTAG (Lexicalized Tree Adjoining Grammars) et des grammaires dʹinteraction [Perrier, 2007]. Les travaux sur les grammaires TAG ont concerné en particulier le développement de compilateurs de méta‐grammaires TAG intégrant la sémantique [Gardent, 2008] ainsi que lʹutilisation de ces grammaires en génération de texte [Gardent & Perez‐Beltrachini, 2010]. Ces derniers travaux ont par ailleurs débouché sur la diffusion du logiciel GenI et à une première place à la campagne dʹévaluation internationale GIVE. Une approche alternative dʹanalyse formelle est également développée au LORIA, qui ne manipule pas directement les arbres syntaxiques mais plutôt des descriptions de ces arbres sous la forme de propriétés élémentaires. Une grammaire peut alors être vue comme un système de contraintes qui engendre un langage dʹarbres [Marchand et al., 2009]. Cette approche a aboutit à la conception et à la libre diffusion de lʹoutil dʹanalyse syntaxique LEOPAR [Perrier et al., 2009] [Guillaume & Perrier, 2010]. Enfin, des approches statistiques dʹanalyse syntaxique ont également été abordées, aussi bien dans un but dʹextraction lexicale [Gardent & Lorenzo, 2010] que dʹanalyse automatique en dépendances [Cerisara & Gardent, 2010] et en rôles sémantiques [Gardent & Cerisara, 2010]. Au‐delà de la syntaxe, divers types de représentations sémantiques du langage naturel ont été abordés au LORIA. Une catégorie de représentation sémantique abordée sʹappuie sur la structure syntaxique pour y ajouter des informations sémantiques, comme par exemple dans le cas des grammaires TAG, voire des grammaires en dépendances [Bedaride et al, 2009]. Dʹautres représentations sémantiques étudiées sʹappuient sur lʹextension des logiques modales [Blackburn, 2007], ou encore sur les treillis de concepts et leur manipulation par le biais de lʹanalyse en concepts formelle (FCA) [Bendaoud, 2008b]. Cette dernière approche est notamment exploitée pour construire et enrichir des ontologies de domaine, et a aboutit à la conception de la méthodologie PACTOLE [Bendaoud, 2008c]. Dans un domaine proche qui sʹintéresse à la sémantique lexicale pour la catégorisation automatique, un certain nombre dʹapproches dérivées dʹalgorithmes statistiques et neuronaux (dont neural gas) ont été proposées afin de regrouper automatiquement de grands ensembles de documents textuels polythématiques, comme des brevets ou des publications, en classes cohérentes [Lamirel et al., 2010], avec des performances particulièrement intéressantes. Un domaine dʹapplication aussi bien des analyses syntaxique que sémantique précédemment décrites concerne le dialogue homme‐machine. Ainsi, plusieurs architectures de dialogue dédiées à différentes applications ont été développées, notamment dans le cadre de projets industriels. Ces travaux ont notamment impliqué des efforts liés à la normalisation et à la standardisation des représentations multimodales [Cruz Lara et al., 2008b], afin de faciliter lʹinteraction entre le texte écrit et la parole, décrite ci‐dessous. Un résultat important de ces efforts réside en particulier dans la standardisation ISO du méta‐modèle MLIF de représentation multimodale [Cruz Lara et al., 2010]. Le traitement de la parole est étudié à différents niveaux incluant la production de la parole, la perception dʹindices acoustiques, la modélisation et la reconnaissance de la parole. Depuis de nombreuses années le LORIA étudie la modélisation de la parole et la mise en œuvre 26/82 APPEL A PROJETS EQUIPEX /
CALL FOR PROPOSALS
Acronyme du projet /
Acronym
ORTOLANG
2011
ANNEXE SCIENTIFIQUE /
SCIENTIFIC APPENDICE
dʹapproches robustes [Haton et al., 2006]. Lʹapproche actuellement utilisée repose sur la modélisation statistique de la réalisation acoustique des sons, des variantes de prononciation et de lʹenchaînement des mots; et exploite des modèles toujours plus précis et détaillés (ex. [Jouvet et al., 2010]). Lʹalignement texte‐parole, i.e. la mise en correspondance temporelle de segments dʹun signal de parole avec les mots ou les sons correspondants, est très lié à la reconnaissance de la parole, et bénéficie des progrès dans ce domaine. La plupart des outils de reconnaissance automatique de la parole proposent une fonctionnalité rudimentaire dʹalignement, dont les principales contraintes portent sur la taille limitée des fichiers son à aligner, et une correspondance parfaite entre la parole et le texte à aligner. Lʹoutil interactif JTRANS [Cerisara et al, 2009] lève ces contraintes, et offre un mode semi‐automatique de supervision des alignements. Lʹutilisation dʹun concordancier en cours de finalisation viendra enrichir les fonctionnalités dʹaccès aux corpus alignés (texte‐parole). Le traitement de la parole non‐native requiert la prise en compte des variantes de prononciation non‐natives [Bouselmi et al., 2007], [Bartkova & Jouvet, 2007]. Un autre domaine de traitement de la parole non‐native est relatif à lʹapprentissage des langues. Les travaux en cours portent sur la fiabilité de la segmentation phonétique [Mesbahi et al., 2011] qui est vitale pour permettre des retours prosodiques pertinents vers lʹapprenant. Le résultat de la transcription automatique dʹun document audio est une simple suite de mots. Pour en faciliter lʹexploitation, voire simplement la lecture par une personne, il est nécessaire de structurer cette suite de mots. Une première étape consiste à segmenter le flux de mots en phrases, et à y ajouter automatiquement une ponctuation. Des informations syntaxiques peuvent être prise en compte lors de lʹajout de la ponctuation [Cerisara et al, 2011]. La prosodie, jointe à lʹinformation lexicale, contribue également à la reconnaissance des actes de dialogue [Kral et al., 2007]. Du fait que la langue parlée ne respecte pas toujours la grammaire ʺcorrecteʺ du français, lʹanalyse syntaxique du français parlé [Cerisara & Gardent, 2009] est plus complexe que pour lʹécrit, et doit donc être adaptée à ces données. Comme il nʹexistait pas de corpus syntaxique de lʹoral, un corpus syntaxique de journaux radiophoniques a été développé. Il exploite des données audio de la campagne dʹévaluation ESTER de systèmes de transcription automatique. La partie annotée syntaxiquement est composée dʹenviron 50000 mots [Cerisara et al., 2010]. Une partie a également été annotée en rôles sémantiques [Gardent & Cerisara, 2010]. Le corpus a servi pour lʹapprentissage semi‐supervisé dʹanalyseurs automatiques [Tantini et al., 2010], ainsi que pour lʹamélioration des modèles de langage pour la transcription automatique [Gillot et al., 2010]. La plate‐forme JSafran [Cerisara & Gardent, 2011] a été développée pour lʹannotation semi‐automatique syntaxique et sémantique de données. En complément, la synthèse de la parole multimodale (i.e. son & bouche) requiert lʹacquisition et lʹannotation de corpus multimodaux contenant de la parole audiovisuelle (projet ANR VISAC). De même lʹétude de la production de la parole requiert lʹacquisition de 27/82 APPEL A PROJETS EQUIPEX /
CALL FOR PROPOSALS
Acronyme du projet /
Acronym
ORTOLANG
2011
ANNEXE SCIENTIFIQUE /
SCIENTIFIC APPENDICE
données articulatoires [Aron et al., 2009] et de base de données rayons‐X et dʹoutils associés [Sock et al., 2011]. Ces dernières années, les travaux de recherche en TALC ont bénéficié dʹun cluster de calcul qui a été mis à disposition des utilisateurs TALC mi 2009, avec une forte utilisation des ressources de calcul sur les deux axes TAL/Parole et TAL/Connaissances. Divers processus ont ainsi été exécutés sur le cluster, processus que l’on peut regrouper sous les grandes catégories suivantes : Apprentissage de modèles stochastiques ; Analyse numérique ; Optimisation des paramètres des systèmes ; et Distribution des calculs de preuve. 1.3.2 LORIA RESOURCES AND TOOLS
Several tools have been developed at LORIA for processing speech and text data. They will provide basis for tools useful for enriching corpora though complementary annotations, whether manual, semi‐automatic or automatic. This includes for example automatic transcription of audio signals, speech‐to‐text alignment, manual segmentation, syntaxico‐
semantic analysis, … Moreover, experience and knowledge of the researchers in processing textual data, speech data and X‐ray or MRI images of speech articulators constitutes a strong background for possibly developing new tools if necessary. • ANTS - automatic transcription of audio signals
The ANTS platform is a software developed in the Parole team for automatic transcription of radio broadcast news in French. It includes the full multi‐pass process to convert such an audio recording into a raw sequence of words, including telephone/wideband audio segmentation, noise/speech/music segmentation, speaker turn detection, segmentation and grouping, speaker adaptation of the acoustic models, transcription of each speech segment and final merging of the transcribed segments into a unique sequence of words. The core speech transcription stage currently relies on the HTK toolkit for acoustic model training, on the CMULM and SRILM toolkits for language model training and interpolation and on the Julius library for large vocabulary decoding. • JTrans - text-to-speech alignment
JTrans is an open‐source cross‐platform software written in Java for semi‐automatic text‐to‐
speech alignment. It is distributed under the Cecill‐C licence, and can be downloaded at http://www.loria.fr/~cerisara/jtrans/index.html. In addition to the basic manual editing functionalities that are common in similar tools, JTrans further proposes dedicated semi‐automatic speech alignment algorithms that can be dynamically controlled and guided by the user. Its main application domains concern anonymisation and indexation of long audio recordings. It includes the Sphinx4 speech recognition engine with ready‐to‐use French models, as well as three types of models for automatic phonetisation of out‐of‐vocabulary words (i.e. words not in the pronunciation lexicon). 28/82 APPEL A PROJETS EQUIPEX /
CALL FOR PROPOSALS
Acronyme du projet /
Acronym
ORTOLANG
2011
ANNEXE SCIENTIFIQUE /
SCIENTIFIC APPENDICE
• Winsnoori and J-Snoori - speech analysis and visualisation software
WinSnoori, available at http://www.winsnoori.fr, is a speech analysis software. It is intended to facilitate the work of the scientist in automatic speech recognition, phonetics or speech signal processing. Basic functions of WinSnoori enable several types of spectrogram to be calculated and the fine edition of speech signals (cut, paste, and a number of filtering techniques) because the spectrogram allows the acoustical consequences of all the modifications to be evaluated. Beside this set of basic functions there are various functionalities to annotate speech files phonetically or orthographically, to extract fundamental frequency, to pilot the Klatt synthesizer and to utilize PSOLA resynthesis. Last developments in 2008 concerned copy synthesis for the Klatt synthesizer. WinSnoori can be downloaded freely at www.winsnoori.fr and has been downloaded more than 2000 times. There exist competitors, like Praat for instance. Both have similar basic functions. WinSnoori offers more advanced tools for formant synthesis, signal edition, and spectrogram calculations. In addition, all the functions can be accessed without any programming effort. The counterpart is that it is slightly less flexible. J‐Snoori is a Java real time version which presently focuses on the processing of prosody within the framework of language learning. • Xarticulators - software to delineate contours of speech articulators
Xarticulators, available at http://www.loria.fr/~laprie/xarticul.htm, is a software intended to delineate contours of speech articulators in X‐ray films. This software provide tools to track contours automatically, semi‐automatically or by hand, to make the visibility of contours easier, to add anatomical landmarks to speech articulators, to synchronize images together with the sound. In addition, it enables the construction of adaptable linear articulatory models from the X‐ray images. Xarticulators has been applied to other types of images, like ultrasound images and MRI images of the vocal tract. It has been distributed to ZAS (Berlin), IPS (Strasbourg) and Haskins laboratories (Cambridge). The impact mainly corresponds to the opening of new scientific collaborations. There are no direct competitors since other software used by speech scientists is mainy dedicated to medical applications and do not offer comparable functionalities. • JSafran - syntaxico-semantic French analyser
JSafran is the “Java Syntaxico‐semantic French Analyser”. Its development has started in June 2009 from the collaboration between Parole and Talaris in the context of the RAPSODIS project. It is an open‐source cross‐platform application dedicated to the syntactic annotation of speech and text. It is distributed under the Cecill‐C licence, and can be downloaded at http://www.loria.fr/~cerisara/jsafran/index.html. It includes a fast and easy‐to‐use Graphical User Interface for syntactic dependency edition and integrates two widely used morphosyntactic taggers (OpenNLP, TreeTagger) and two amongst the best state‐of‐the‐art parsers (MATE and Malt parser) for automatic and semi‐
29/82 APPEL A PROJETS EQUIPEX /
CALL FOR PROPOSALS
Acronyme du projet /
Acronym
ORTOLANG
2011
ANNEXE SCIENTIFIQUE /
SCIENTIFIC APPENDICE
automatic syntactic annotations. It further interfaces with the companion JTrans software, which allows for semi‐automatic alignment of text and audio and thus facilitates syntactic disambiguation thanks to its synchronized playback feature. It supports the standard text, latex and CoNLL‐2006‐2008‐2009 formats, manages multiple annotations layers as well as the annotation of words sequences. It further includes a tree‐
transformation search and transformation language and a partial rule‐based semantic role labeler. • LEOPAR - natural language parsing
LEOPAR is a software for natural language parsing based on the Interaction Grammar formalism. The current version can be used with the French resources Frigram and can produce a very detailled syntactic analysis for complex French sentences. The fact that it is completely based on linguistic knowledge has several advantages, including limited overgeneration, so that most of ungrammatical French sentences are rejected by the Leopar/Frigram system. Furtermore, Leopar keeps ambiguity at every level of the analysis and does not limit the number of syntactically correct solutions. An online web demonstration is available at http://leopar.loria.fr. • GenI - surface realiser
The GenI surface realiser is a successor of the InDiGen realiser. Also based on a chart algorithm, it is implemented in Haskell and aims for modularity, re‐
usability and extensibility. The system is “stand‐alone” as we use the Glasgow Haskell compiler to obtain executable code for Windows, Solaris, Linux and Mac OS X. The GenI generator uses efficient datatypes and intelligent rule application to minimise the generation of redundant structures. It also uses a notion of polarities as a means, first, of coping with lexical ambiguity and second, of selecting variants obeying given syntactic constraints. GenI is compatible with both a grammar for French (SemTag ) and for English (SemXTag ), both grammars beeing produced using the MetaGrammar Compiler. SemTag covers the basic syntactic structures of French as described in Anne Abeilléʹs book “An Electronic Grammar for French”. SemXTag has a coverage similar to that of XTAG, the TAG grammar for English developped by the University of Pennsylvannia. Both grammars are additionnally equiped with a compositional semantics supporting semantic construction (during parsing) and/or surface realisation. GenI can be freely downloaded at http://trac.haskell.org/GenI. 1.3.3 BIBLIOGRAPHIE SELECTIVE LIEE AU PROJET
Aron M., Berger M.‐O., Kerrien E., Laprie Y., 2009, "Acquisition multimodale de données articulatoires", in L'imagerie médicale pour l'étude de la parole, Hermes Science Publications (Ed.) (2009) 175‐196. Barreaud V., Illina I., Fohr D., 2008, "On‐line stochastic matching compensation for non‐stationary noise", in Computer Speech and Language, vol. 22, Issue 3. 30/82 APPEL A PROJETS EQUIPEX /
CALL FOR PROPOSALS
Acronyme du projet /
Acronym
ORTOLANG
2011
ANNEXE SCIENTIFIQUE /
SCIENTIFIC APPENDICE
Bartkova K., Jouvet D., 2007, "On using units trained on foreign data for improved multiple accent speeh recognition", in Speech Communication, vol. 49, 836‐846. Bedaride P., Gardent C., 2009, "Normalising semantics : a framework and an experiment", in Proc. IWCS (Int. Conf. on Computational Semantics), Tilburg, The Netherlands. Bendaoud R., Napoli A., Toussaint Y., 2008a, "A Proposal for an Interactive Ontology Design Process based on Formal Concept Analysis, in 5th Int. Conf. on Formal Ontology in Information Systems ‐ FOIS 2008", pp. 311‐323. Bendaoud R., Napoli A., Toussaint Y., 2008b, "Formal Concept Analysis : A unified framework for building and refining ontologies, in 16th Int. Conf. on Knowledge Engineering and Knowledge Management ‐ EKAW 2008", pp. 156–171. Bendaoud R., Napoli A., Toussaint Y., 2008c, "PACTOLE : A methodology and a system for semi‐
automatically enriching an ontology from a collection of texts", in 16th Int. Conf. on Conceptual Structures ICCS’08, pp. 203–216. Benzeghiba M., Mori R. de, Deroo O., Dupont S., Erbes T., Jouvet D., Fissore L., Laface P., Mertins A., Ris C., Rose R., Tyagi V., Wellekens C., 2007, "Automatic speech recognition and speech variability: A review", in Speech Communication, Vol. 49, 763‐786. Bonneau A., Laprie Y., 2008, "Selective acoustic cues for French voiceless stop consonants", in J. Acoust. Soc. Am., 123, 6, June, 4482‐4497. Bouselmi G., Fohr D., Illina I., 2007, "Combined acoustic and pronunciation modelling for non‐native speech recognition", in Proc. INTERSPEECH'2007, Annual Conf. of the Int. Speech Communication Association, Antwerp, Belgium, pp. 1449‐1452. Cerisara C., 2009, "Automatic topic discovery and recognition from the speech stream", in Computer Speech and Language, 23, 2, april, 220‐239, Cerisara C., 2010, "Quelques contributions en reconnaissance automatique de la parole robuste", Habilitation à diriger des recherches de l’Univ. Henri Poincaré, Nancy, mars 2010. Cerisara C., Demange S., Haton J.‐P., 2007, "On noise masking for automatic missing data speech recognition : a survey and discussion", in Computer Speech and Language, vol. 21, 3, 443‐457. Cerisara C., Gardent C., 2009, "Analyse syntaxique du français parlé", in Journée ATALA (2009). Cerisara C., Gardent C., 2011, "The JSafran platform for semi‐automatic speech processing", In Proc. INTERSPEECH'2011, 12th Annual Conf. of the Int. Speech Communication Association (2011). Cerisara, C., Gardent, C., Anderson, C., 2010, "Building and exploiting a dependency treebank for French radio broadcasts". in Proc. TLT, Tartu, Estonie, déc. 2010. Cerisara C., Kral P., Gardent C., 2011, "Commas recovery with syntactic features in French and in Czech", In Proc. INTERSPEECH'2011, 12thAnnual Conf. of the Int. Speech Communication Association (2011). Cerisara C., Mella O., Fohr D., 2009, "JTrans, an open‐source software for semi automatic text‐to‐
speech alignment", in Proc. INTERSPEECH'2009, Brighton, UK, sep. 2009. Cloarec G., Jouvet D., 2008, "Modeling inter‐speaker variability in speech recognition", in Proc. ICASSP'2008, IEEE Int. Conf. on Acoustics, Speech, and Signal Processing, 30 March – 4 April, Las Vegas, USA, pp. 4529‐4532. Cruz‐Lara S., Bellalem N., Ducret J., Krammer I., 2008a, "Topics in Language Resources for Translation and Localisation (Chapter : Standardising the Management and the Representation of Multilingual Data : the Multi Lingual Information Framework)", John Benjamins Publishing Company (Ed.) (2008). 31/82 APPEL A PROJETS EQUIPEX /
CALL FOR PROPOSALS
Acronyme du projet /
Acronym
ORTOLANG
2011
ANNEXE SCIENTIFIQUE /
SCIENTIFIC APPENDICE
Cruz‐Lara S., Bellalem N., Ducret J., Krammer I., 2008b, "Standardising the Management and the Representation of Multilingual Data : the Multi Lingual Information Framework", in Language Resources for Translation and Localisation, Elia Yuste, John Benjamins Publishers, 151‐172. Cruz‐Lara S., Francopoulo G., Romary L., Semar N., 2010, "MLIF: A Metamodel to Represent and Exchange Multilingual Textual Information", in LREC (Language Resources and Evaluation Conf.). Cuxac P., Lamirel J.‐C., Ghribi M., 2010, "Les méthodes de classification non supervisées appliquées aux textes: mesure de la performance des résultats de clustering de documents, in Association Canadienne des Science de l’Information ‐ ACSI 2010, Canada Montreal, 2010. Demange S., Cerisara C., Haton J.‐P., 2009, "Missing data mask estimation with frequency and temporal dependencies", in Computer Speech and Language, vol. 23, 1, 25‐41. Dufour Lussier V., Lieber J., Nauer E., Toussaint Y., 2010, "Améliorer la remémoration par enrichissement de l'ontologie du domaine". In Atelier RàPC, Strasbourg, 2010. Gardent C., Cerisara C., 2010, "Semi‐automatic semantic pre‐annotation for French". in Proc. TLT, Tartu, Estonie, déc. 2010 Gardent C., Kallmeyer, 2003, Semantic construction in Feature‐Based, TAG, EACL 2003, Budapest, Hungary Gardent C., Kow E., 2007, Spotting overgeneration suspects, European Workshop on Natural Language Generation, Dagstuhl. Gardent C., “Integrating a unification‐based semantics in a large scale Lexicalised Tree Adjoining Grammar for French”, in "The 22nd International Conference on Computational Linguistics, Royaume‐Uni Manchester",2008‐08, p. 249‐257. Gardent C., Perez‐Beltrachini L., 2010, Efficient RTG based surface realisation for TAG, COLING 2010, Beijing, China. Gardent, C., Lorenzo, A., 2010, "Identifying sources of weaknesses in Syntactic Lexicon Extraction". in Proceedings of LREC 2010, Malta, 2010. Ghribi M., Cuxac P., Lamirel J.‐C., Lelu A., 2010. Mesures de qualité de clustering de documents : prise en compte de la distribution des mots clés., in Évaluation des méthodes d’Extraction de Connaissances dans les Données‐ EvalECD’2010, Tunisia Hammamet, N. BÉCHET (editor), Fatiha Saïs, January 2010, 14. Gillot C., Cerisara C., Langlois D., Haton J.‐P., 2010, "Similar n‐gram language model. in Proc. INTERSPEECH, Tokyo, sep. 2010 Guillaume B., Perrier G., 2010, "LEOPAR, un analyseur syntaxique pour les grammaires d'interaction", in Traitement Automatique des Langues Naturelles (TALN) (2010). Jouvet D., Fohr D., Illina I., 2010, "Detailed pronunciation variant modeling for speech transcription", in Proc. INTERSPEECH'2010, 26‐30 Sept., Tokyo, Japan. Kral P., Cerisara C., Kleckova J., 2007, "Confidence measures for semi‐automatic labelling of dialog acts", pp. 153‐156, in Proc. ICASSP,2007, IEEE Int. Conf. on Acoustics, Speech, and Signal Processing, Honolulu, avril. Kral P., Cerisara C., Kleckova J., "Importance of Prosody for Dialogue Acts Recognition", in Proc. SPECOM'07, XIIth Int. Conf. “Speech and Computer (2007). Lamirel J.‐C., Boulila Z., Ghribi M., Cuxac P., François C., 2010, "A new incremental growing neural gas algorithm based on clusters labeling maximization: application to clustering of 32/82 APPEL A PROJETS EQUIPEX /
CALL FOR PROPOSALS
Acronyme du projet /
Acronym
ORTOLANG
2011
ANNEXE SCIENTIFIQUE /
SCIENTIFIC APPENDICE
heterogeneous textual data", in 23rd Int. Conf. on Industrial, Engineering & Other Applications of Applied Intelligent Systems (IEA‐AIE 2010), Spain, Cordoba, 2010. Latiri C., Smaïli K., Lavecchia C., Langlois D., 2010, "Mining monolingual and bilingual corpora. Intelligent Data Analysis, IOS Press., vol. 14, N°6, pp. 663‐682, novembre 2010. Marchand J., Guillaume B., Perrier G., 2009, "Analyse en dépendances à l'aide des grammaires d'interaction", in TALN'09 ‐ Conf. sur le Traitement Automatique des Langues Naturelles (2009). Mesbahi L., Jouvet D., Bonneau A., Fohr D., illina I., Laprie Y., 2011, "Reliability of non‐native speech automatic segmentation for prosodic feedback" ; to appear in Proc. SLATE'2011, ISCA workshop on Speech and Language Technology in Education, Venise, Italie, août 2011. Piat M., Fohr D., Illina I., 2008, "Foreign accent identification based on prosodic parameters", pp. 759‐763, in Proc INTERSPEECH'2008, 9th Annual Conf. of the Int. Speech Communication Association, Brisbane, Australia. Perrier G., 2009, "An Interaction Grammar of interrogative and relative clauses in French". In Proc. of Recent Advances in Natural Language Processing, RANLP 2009, Borovets, Bulgaria, pages 343–348, 2009. Perrier G., 2007, "A French Interaction Grammar". In Proc. of Recent Advances in Natural Language Processing, RANLP 2007, Borovets, Bulgaria, pages 463–467, 2007. Perrier G., Guillaume B., Marchand J., 2009, "La chaîne d'analyse syntaxique de LEOPAR", in Journée thématique ATALA "What French parsing systems ?" (2009). Potard B., Laprie Y., Ouni S., 2008, "Incorporation of phonetic constraints in acoustic‐to‐articulatory inversion", in J. Acoust Soc. Am., April, vol. 123, 4, 2310–2323 Potard B., Laprie Y., 2009, "A robust variational method for the acoustic‐to‐articulatory problem", in Proc. INTERPSEECH'2009, 10th Annual Conf. of the Int. Speech Communication Association. Razik J., Mella, O., Fohr, D., Haton, J.‐P., 2008b, "Frame‐synchronous and local confidence measures for on‐the‐fly automatic speech recognition», in Proc., INTERSPEECH'2008, 9th Annual Conf. of the Int. Speech Communication Association, 22‐26 sept., Brisbane, Australia. Sock R., Hirsch F., Laprie Y., Perrier P., Vaxelaire B., Brock G., Bouarourou F., Fauth C., Ferbach‐Hecker V., Ma L. et al, 2011, "An X‐ray database, tools and procedures for the study of speech production", in 9th Int. Seminar on Speech Production (ISSP2011) (2011) 41‐48. Stouten F., Fohr D., Illina I., 2009, "Detection of OOV words by combining acoustic confidence measures with linguistic features", in Proc. ASRU 2009, IEEE Workshop on Automatic Speech Recognition and Understanding, 13‐17 dec., Merano, Italie. Tantini F., Cerisara C., Gardent C., 2010, "Memory‐based active learning for French broadcast news", in Proc. INTERSPEECH'2010, Tokyo, sept., 1377‐1380. 1.4. MODYCO UMR 7114
1.4.1 BILAN DES RECHERCHES
Le laboratoire Modèles, Dynamiques, Corpus, UMR 7114 CNRS, Université de Paris Ouest Nanterre la Défense et Université Paris Descartes, a été créé en janvier 2001. Le laboratoire compte actuellement 60 membres permanents (chercheurs, enseignants‐
chercheurs, ingénieurs et techniciens) et plus de 80 doctorants et jeunes chercheurs associés. 33/82 APPEL A PROJETS EQUIPEX /
CALL FOR PROPOSALS
Acronyme du projet /
Acronym
ORTOLANG
2011
ANNEXE SCIENTIFIQUE /
SCIENTIFIC APPENDICE
Centrée sur la linguistique française, sans pourtant exclure a priori lʹétude dʹautres langues, cette unité thématique est marquée par un souci empirique qui adosse les analyses linguistiques à une base descriptive solide prenant en compte la réalité des usages quʹils soient conversationnels, discursifs ou textuels. Cʹest sur la base de corpus de tous ordres et de toutes dimensions que sont proposées des analyses et des modélisations linguistiques sʹinscrivant dans les cadres théoriques modernes les plus divers. La spécificité des travaux du laboratoire MoDyCo consiste ainsi à intervenir dans les débats théoriques les plus fondamentaux à partir dʹun ancrage solide en linguistique française et dʹun souci empirique et descriptif constant. Membre de lʹInstitut de Linguistique Française (ILF, Fédération CNRS), le laboratoire entretient de nombreuses collaborations avec des équipes françaises CNRS et universitaires et participe à des opérations internationales contractualisées. Trois perspectives de recherche structurent le laboratoire : - La perspective modélisatrice concerne au premier chef les recherches phonologiques, morphologiques, syntaxiques et sémantiques, ainsi que les travaux de formalisation en traitement automatique des langues. - La perspective dynamique renvoie aux recherches menées en acquisition (développement et pathologie ; langue maternelle ou langue seconde), en sociolinguistique et en didactique. - La perspective des corpus, tout en étant plus spécifique des recherches en linguistique textuelle, diachronique ou discursive, et en linguistique de lʹécrit traverse, en tant que méthodologie dʹappui, les deux premières. Se trouvent ainsi convoquées un grand nombre de sous‐disciplines des sciences du langage. La diversité des objets linguistiques traités marque la richesse des recherches menées au sein du laboratoire ; lʹattention portée aux dynamiques langagières et acquisitionnelles, le souci descriptif et empirique dans la construction de corpus et la préoccupation de formalisation et de modélisation des hypothèses et des résultats soulignent les synergies et signent lʹunité du laboratoire MoDyCo. Modyco est porteur principal ou secondaire de 10 projets ANR en 2011, un projet PHC et un projet PICS. Modyco a porté plusieurs importants projets corpus dont Phonologie du Français Contemporain (PFC) depuis 2002 (400 heures de corpus) et Communication Langagière du Jeune Enfant (COLAJE) depuis 2009 (130 heures de corpus). MODYCO participe aux deux consortiums de la TGIR corpus. • Le projet PFC
Le principal objectif du projet PFC (Université Paris Ouest Nanterre la Défense, Université de Toulouse‐Le Mirail, Université d’Ottawa) est la constitution d’une base de données sur le français parlé suivant le même protocole et avec des méthodes d’analyse et des outils communs. Le projet PFC se caractérise par une volonté́ de transparence et de partage. La consultation en ligne, le téléchargement et l’utilisation des données validées sont possibles sur le site http://www.projet‐pfc.net, tant pour la communauté́ scientifique que pour le grand public. Après dix années d’enquête (première enquête en 1998, le protocole de recueil actuel 34/82 APPEL A PROJETS EQUIPEX /
CALL FOR PROPOSALS
Acronyme du projet /
Acronym
ORTOLANG
2011
ANNEXE SCIENTIFIQUE /
SCIENTIFIC APPENDICE
a été adopté et appliqué dès 2000), le corpus PFC peut être considéré́ comme un corpus de référence du français parlé, tant par sa taille que par sa couverture géographique, sociale et stylistique. Il contient 35 enquêtes, 383 locuteurs, 120 heures dʹenregistrements transcrits, 120 gigaoctets en volume et environ 900 000 mots. Le but de l’enquête est de rassembler un échantillon de variétés de français et une procédure stricte nous permet d’avoir accès à la variation individuelle. L’ensemble des enregistrements permet en effet une étude de plusieurs registres chez le même locuteur : dans les entretiens, un français soutenu et parfois un français familier ; dans les dialogues, un français familier ; dans la lecture, un français très soutenu. Le dialogue lui‐même se scinde en deux parties : une discussion libre de groupe et une entrevue guidée (plus une fiche à remplir). La grille définitive de passation contient : une liste de 94 mots (commune à tous les groupes), un texte lu, une conversation guidée, et une conversation libre. La base PFC n’est assurément pas un produit fini puisqu’elle est constamment enrichie de nouvelles enquêtes, de nouveaux outils ainsi que de nouvelles extensions. La masse croissante des données traitées a ouvert la voie au développement sur de nouveaux chantiers comme par exemple la liaison qui focalise sur un phénomène précis de la phonologie du français. Le projet « ANR PHONLEX » se proposait d’explorer la description et la modélisation intégrées de ce phénomène central de la morphophonologie et de la morphosyntaxe du français conciliant les facteurs structuraux et cognitifs, avec le partenariat de nombreux phonologues, phonéticiens et psycholinguistes, spécialistes de divers domaines tels que l’acquisition, la pathologie ou la fréquence lexicale. La base de donnée, initialement conçue au sein d’un projet de description phonologique classique a également su s’ouvrir vers une communauté plus large de linguistes et d’ingénieurs ; la qualité, la diversité et l’accessibilité des données en font une ressource précieuse pour la linguistique du français. Les applications et les extensions du projet font appel soit au français parlé en général (extension prosodique, syntaxique ou encore pédagogique) soit à la variation. Le projet « ANR VARCOM », qui a étudié le traitement de la variation par l’homme et par la machine, a permis de favoriser les échanges entre les connaissances phonologiques et les outils de traitement automatique de la parole, un des objectifs initiaux du projet PFC. Tandis que les études phonologiques « classiques » sur le corpus PFC se centrent sur la variation régionale et sociale du point de vue du locuteur, l’extension au sein de VARCOM a permis d’étudier l’impact de ces variations dans le traitement de la parole par l’auditeur. Toujours dans le cadre de VARCOM, la collaboration avec les linguistes et les ingénieurs du LIMSI a tenté d’établir en quoi un inventaire des variantes régionales permettrait d’améliorer la reconnaissance automatique de la parole. Le projet PFC présente des données enregistrées dans un format de qualité (numérique) et transcrites en utilisant le logiciel PRAAT, largement répandu dans la communauté scientifique de la phonologie et de la phonétique, ce qui assure une diffusion aisée. Ce corpus présente aussi un exemple d’enrichissement successif des transcriptions avec le codage initial de la ligne orthographique, puis l’ajout d’un codage des liaisons et d’un codage de la production des ‘e’ muets. Cette problématique de l’enrichissement des données sera un des points forts que ROMTAL pourra offrir à la communauté. 35/82 APPEL A PROJETS EQUIPEX /
CALL FOR PROPOSALS
Acronyme du projet /
Acronym
ORTOLANG
2011
ANNEXE SCIENTIFIQUE /
SCIENTIFIC APPENDICE
Enfin, une des applications du projet PFC porte sur l’enseignement du français. PFC‐EF (voir http://www.projet‐pfc.net/le‐projet‐pfc‐ef) est un projet international d’exploitation pédagogique des données de la base PFC pour l’enseignement / apprentissage et la diffusion du français, saisi dans sa variation orale au sein de l’espace francophone. Il concerne tous les enseignants de français, concepteurs pédagogiques et acteurs de la politique linguistique et culturelle francophone dans le monde, qu’il s’agisse de contextes Français Langue Etrangère (FLE), Français Langue Première (FL1) ou Français Langue Seconde (FLS), puisqu’il vise à offrir du matériel oral riche et diversifié, exploitable en classe selon différents axes d’utilisation, en compréhension et en production, dans son rapport à l’écrit, à la norme et à la variation au sein de la francophonie. Perspectives Aujourd’hui, le projet comptabilise une quarantaine d’enquêtes et représente approximativement 400 locuteurs référencés et autant d’heures d’enregistrement. La couverture géographique, sans être exhaustive, présente déjà un large panorama du monde francophone en Europe et au‐delà. La richesse de la base actuelle permet ainsi de répondre à un autre impératif de départ du projet, celui de fournir une meilleure image du français parlé et de conserver une partie importante du patrimoine linguistique des espaces francophones du monde et ce, en contrepoint aux corpus déjà constitués. Dans le cadre de sa diffusion dans des projets comme l’Equipex ROMTAL, cette base sera encore enrichie et son accès (format de transcription) diversifié. • Le projet COLAJE
COLAJE est un projet Université Paris III Sorbonne Nouvelle, Université Paris Ouest Nanterre la Défense et Université Lille 3. L’objectif du projet (ANR LEONARD 2005‐2008 et ANR COLAJE 2009‐2012) est de reconstituer l’émergence et le développement de la communication langagière chez le jeune enfant, avec une approche pluridisciplinaire et multimodale. L’analyse simultanée de la phonologie, la prosodie, la morphosyntaxe, le dialogue et le mimo‐gestuel offre une perspective enrichie du développement linguistique de l’enfant. Le travail réalisé s’appuie sur une base de données commune, comportant pour la première fois des suivis longitudinaux de productions spontanées d’enfants, de la naissance jusqu’à l’âge de 7 ans. Ce corpus comprend des données d’enfants apprenant le français ainsi que la langue des signes française. Trois axes de recherche principaux s’enrichissent mutuellement : ‐ un axe MULTIMOD, qui se focalise sur la dimension multimodale du langage en observant particulièrement prosodie et geste ; ‐ un axe INTERACTION, qui se penche sur la dimension communicative du langage, en observant les reformulations, mais aussi le développement de l’humour, de l’intersubjectivité, du positionnement co‐énonciatif ; ‐ un axe DEVGRA, qui se donne pour but de reconstituer l’apparition et le développement des marqueurs grammaticaux, de manière comparative entre tous les enfants étudiés. 36/82 APPEL A PROJETS EQUIPEX /
CALL FOR PROPOSALS
Acronyme du projet /
Acronym
ORTOLANG
2011
ANNEXE SCIENTIFIQUE /
SCIENTIFIC APPENDICE
La partie technique du projet comprend la réalisation de sept corpus longitudinaux de développement du langage. Le projet a permis de définir des normes de transcriptions pour le langage oral des enfants qui comprennent des informations linguistiques, mais aussi gestuelles, situationnelles et pragmatiques. Des outils spécifiques ont été développés pour offrir plusieurs formats aux utilisateurs des corpus (CHAT et ELAN). D’autres outils permettent de créer des codages dits descripteurs (métadonnées élargies) qui permettent une description fine et structurée des transcriptions et des enfants. Un outil d’interrogation (sur site WEB) de ces descripteurs a été réalisé. Le format des transcriptions suit les normes CHAT‐XML, ce qui permet de produire des données au format XML et de réaliser des conversions vers le logiciel PHON pour l’analyse phonologique fine. Cinq corpus sont disponibles en usage public dans ces formats disponibles librement sur le site COLAJE (http://colaje.risc.cnrs.fr) et CHILDES (http://childes.psy.cmu.edu). Ils représentent environ 132 heures d’enregistrement et 830 000 mots. Deux corpus supplémentaires ont été créés. Un corpus a été spécifiquement consacré au développement de ces analyses phonologiques et utilise le logiciel PHON. Un corpus de langue des signes française sous format ELAN a aussi été réalisé pour l’étude du développement des gestes de pointage à valeur langagière et non langagière. Le projet a aussi permis la réalisation d’un film‐documentaire intitulé ʺle Chemin des motsʺ réalisé par Valérie Deschenes, productrice déléguée Aliyah Morgenstern, producteur université Sorbonne Nouvelle. Il est sous‐titré en anglais et en français (pour malentendants). Le projet est décrit dans un site bilingue http://colaje.risc.cnrs.fr/. Perspectives Le suivi des enfants doit être prolongé de l’âge de 5 ans à l’âge de 7 ans dans le projet actuel. Une prolongation de ce suivi au delà de l’âge d’apprentissage de la lecture sera réalisé. Les techniques mises au point (enregistrement, transcription, diffusion) ont pour but d’être appliquées sur au moins deux autres enfants et sur des enfants bilingues (deux enfants sont actuellement suivi dans cet objectif). Une amélioration des outils pour l’intégration d’annotations enrichies, un meilleur transfert des données d’un outil à l’autre et une meilleure interrogation des corpus existants est nécessaire dans l’avenir. 1.4.2 RESSOURCES ET OUTILS DISPONIBLES ACTUELLEMENT ET QUI SERONT VERSES POUR
SERVIR DE BASE A LA VERSION 1 DE L’EQUIPEX
• Corpus :
Données sur la phonologie du français contemporain (PFC) PFC : Ce projet (ANR PFC‐COR, ANR VARCOM, ANR PHONLEX) a pour but de décrire la variabilité de la phonologie du français actuel. Il comporte donc des enregistrements de nombreuses personnes différentes. Il contient 35 enquêtes, 383 locuteurs, 120 heures dʹenregistrements transcrits, 120 gigaoctets en volume et environ 900 000 mots. Le format des enregistrements audio est WAV 16 bits 22,5 KHZ Mono. Le format de diffusion en streaming est MP3. Les transcriptions sont au format TextGrid (PRAAT). Quatre enregistrements sont disponibles par locuteur: Liste de mots, Texte Lu, Conversation Guidée, Conversation libre. 37/82 APPEL A PROJETS EQUIPEX /
CALL FOR PROPOSALS
Acronyme du projet /
Acronym
ORTOLANG
2011
ANNEXE SCIENTIFIQUE /
SCIENTIFIC APPENDICE
Données développementales de langage oral (COLAJE, EMERGRAM). COLAJE : Trois projets ont permis de constituer les corpus « Colaje » (2 projets ANR, un projet TGE‐Adonis). Ce corpus porte sur le développement morpho‐phonologique et contient actuellement environ 132 heures de transcriptions aux formats CHAT et ELAN (830 000 mots), toutes associées à des données primaires vidéo. Tous les enregistrements ont été réalisés en format DV et sont aujourd’hui disponibles en format MP4 (H264) ou MOV (Quicktime). Ces corpus qui décrivent des interactions en situation naturelle entre l’enfant et un ou des adultes sont de très bonne qualité, en particulier pour ce qui est des transcriptions réalisées et disposent de transcriptions phonologiques pour l’enfant. Le but du corpus étant de documenter le développement du langage, il présente cinq locuteurs qui sont vus et suivis sur de longues périodes. Ces corpus sont richement transcrits, y compris phonologie, ligne orthographique, gestes, situations. EMERGRAM : Ce corpus est issu du projet ANR EMERGRAM. Il comprend actuellement 72 heures de transcriptions au format CHAT correspondant à environ 130 000 mots. Les transcriptions correspondent à cinq enfants suivis longitudinalement dans la période de début du développement grammatical (autour de l’âge de 2 ans). Une soixantaine de corpus correspondant à des sessions individuelles d’enfants d’environ 2 à 3 ans sont également disponibles dans le même format (phonologie pour l’enfant, et ligne orthographique pour l’adulte). ESLO : projet mené avec le Laboratoire Ligérien de Linguistique et décrit dans la présentation de ce partenaire (voir http://corpusdelaparole.in2p3.fr). 1.4.3 BIBLIOGRAPHIE SELECTIVE LIEE AU PROJET (2007 -
)
• Articles dans des revues avec comité de lecture
Avanzi M., Martin P., (2007). «L’intonème conclusif : une fin (de phrase) en soi ?», Cahiers de linguistique française, 28 247‐258. Avanzi M., Goldman J.‐P., Lacheret‐Dujour A., Catherine Simon A., Auchlin A., (2007). «« Méthodologie et algorithmes pour la détection automatique des syllabes proéminentes dans les corpus de français parlé »», Cahiers of French Language Studies, 13 2 2‐30. Avanzi M., (2008). «La différence entre micro‐ et macro‐syntaxe est‐elle marquée prosodiquement ? L’exemple des dispositifs clivés en “il y a SN qui/Ø V”», L’information grammaticale, 119 8‐13. Baker M., Andriessen J., Lund K., Van Amelsvoort M., Quignard M., (2007). «Rainbow: a framework for analyzing computer‐mediated pedagogical debates.», International Journal of Computer‐
Supported Collaborative Learning, 2 2‐3 315‐357. Bellonie J.‐D., (2009). «La variation en syntaxe dans le cadre de l’enseignement de la langue en Martinique», Linx, 57 133‐144. Bernard F.‐X., Weil‐Barais A., Caillot M., (2007). «Les jeunes enfants peuvent‐ils acquérir des connaissances sur le monde physique en utilisant un simulateur ?», ASTER recherches en didactique des sciences experimentales, 43 17‐34. Bore C., (2007). «”Corpus et genre, affinités, difficultés »», Le français aujourd’hui, 159 en cours. Cogis D., (2003). «Marques orthographiques du féminin et pratiques de l’écrit», LIDIL, 27 103‐115. 38/82 APPEL A PROJETS EQUIPEX /
CALL FOR PROPOSALS
Acronyme du projet /
Acronym
ORTOLANG
2011
ANNEXE SCIENTIFIQUE /
SCIENTIFIC APPENDICE
Cori M., David S., Léon J., (2008). «Présentation: Eléments de réflexion sur la place des corpus en linguistique», Langages, 171 3 5‐11. Cori M., David S., (2008). «Les corpus fondent‐ils une nouvelle linguistique ?», Langages, 171 3 111‐
129. Cori M., (2008). «Des méthodes de traitement automatiqueaux linguistiques fondées sur les corpus», Langages, 171 95‐110. Couto J., Minel J.‐L., (2009). «Text Linguistics and Navigation. Questions about Text», Belgian Journal of Linguistics, 23 91‐102. Couto J., Minel J.‐L., (2007). «Navigation textuelle : représentation des textes et des connaissances», Traitement automatique des langues (TAL), Discours et document : traitements automatiques, 47 1/2006 ?. Couto J., Minel J.‐L., Lundquist L., (2007). «La Navegación Textual en el contexto del aprendizaje de lenguas», InfoSur, 1 27‐38. Desagulier G., (2011). «Pour en finir avec la politesse : la socio‐pragmatique des constructions comme alternative à la Théorie des Faces», La modernité japonaise en perspective, Japon pluriel 8 (Editions Philippe Picquier) pp.. Do‐Hurinville D. T., (2007). «Étude sémantique et syntaxique de ÊTRE EN TRAIN DE», L’information grammaticale, 113 32‐39. Elalouf M.‐L., Boré C., (2007). «Construction et exploitation de corpus d’écrits scolaires», Revue française de linguistique appliquée, XII 1 pp. 53‐70. Eshkol I., Le Pesant D., (2007). «Trois petites études sur les verbes de communication», Langue Française, 153 153 20‐32. Flament‐Boistrancourt D., (2007). «Entrée thème/rhème du glossaire Comenius», Linx, inconnues. François J., Le Pesant D., Leeman D., (2007). «Présentation de la classification des Verbes Français de Jean Dubois et Françoise Dubois‐Charlier», Langue Française, 153 153 3‐32. Gadet F., Coveney A., Dalbera J.‐P., Fattier D., Ludwig R., (2009). «Sociolinguistique, écologie des langues, etc.», Langage & Société, 121‐135. Gadet F., (2008). «Deux nouveaux corpus internationaux : CIEL_F et CFA», Revue de linguistique romane, 295‐314. Gadet F., (2008). «Le couple oral/écrit dans une sociolinguistique à visée didactique», Le français aujourd’hui, 162 21‐27. Gadet F., (2008). «Variation, contact and convergence in French spoken outside France», Journal of Language Contact, revue en ligne. Gadet F., (2007). «Où en sont les corpus sur les français parlés?», Revue française de linguistique appliquée, 12 1 129‐133. Gadet F., (2007). «L’exploitation sociolinguistique des grands corpus : Maître‐mot et pierre philosophale», Revue française de linguistique appliquée, 12 1 99‐110. Gadet F., (2003). «Is there a French theory of variation?», International Journal of the Sociology of Language, 160 17‐40. Goldman J.‐P., Simon A.‐C., Auchlin A., Avanzi M., (2007). «Phonostylographe, un outil de description des phonostyles prosodiques. Chroniques radiophoniques et style lu», Cahiers de linguistique française, 28 219‐237. Jeandillou J.‐F., (2010). «Corpus des écrits métalexicographiques de Charles Nodier, 1808‐1842, par Henri de Vaulchier (Honoré Champion, 2008)», Romanische Forschungen, 122 1 145‐147. Juanals B., Noyer J.‐M., (2007). «D. H. Hymes, vers une pragmatique et une anthropologie communicationnelle», HERMES CNRS, 47 117‐123. 39/82 APPEL A PROJETS EQUIPEX /
CALL FOR PROPOSALS
Acronyme du projet /
Acronym
ORTOLANG
2011
ANNEXE SCIENTIFIQUE /
SCIENTIFIC APPENDICE
Juanals B., Picard J.‐M., (2010). «Normalisation industrielle internationale et gestion des identités numériques», Documentaliste‐Sciences de l’information, 1 38‐39. Lacheret‐Dujour A., Victorri B., Avanzi M., (2007). «La mise en scène intonative dans la description d’itinéraires en milieu urbain», Travaux Neuchâtelois de Linguistique, 47 79‐102. Laks B., Demoule J.‐P., Encrevé P., (2010). «Origine de l’homme, origine des langues : rétrospective et perspectives», La tribune internationale des langues vivantes, 49 32‐4. Laks B., Nguyen N., (2009). «La phonétique et la phonologie à la rencontre du traitement automatique des langues», TAL : traitement automatique des langues : revue semestrielle de l’ATALA, 49 3 7‐11. Laks B., Detey S., Durand J., Lyche C., (2008). «Ressources phonologiques au service de la didactique : le projet PFC‐EF», Mélanges CRAPEL, 31 223‐237. Le Normand M.‐T., Parisse C., Cohen H., (2008). «Lexical diversity and productivity in French preschooolers: developmental, gender and sociocultural factors», Clinical Linguistics and Phonetics, 22 1 47‐58. Martel K., Leroy‐Collombel M., (2010). «Du gazouillis au premier mot : rôle des compétences préverbales dans l’accès au langage», Rééducation Orthophonique, 244 77‐94. Morgenstern A., Mathiot E., Leroy M., Limousin F., (2009). «Premiers Pointages chez L’enfant entendant et L’enfant sourd‐signeur : deux suivis longitudinaux entre 7 mois et 1 an 7 mois», AILE ‐ LIA, 1 1 141‐168. Morgenstern A., Parisse C., Sekali M., (2010). «A la source du futur : premières formes verbales dans les productions spontanées de deux enfants français de 18 mois à 3 ans», Faits de Langues, 33 163‐176. Morgenstern A., Parisse C., Sekali M., (2010). «Les premières prépositions chez l’enfant : grammaticalisation de l’espace relationnel», Faits de Langue, 34 95‐108. Morgenstern A., Parisse C., (2007). «Codage et interprétation du langage spontané d’enfants de 1 à 3 ans», Corpus, 6 55‐78. Noël L., Carloni O., Moreau N., Weiser S., (2008). «Designing a knowledge‐based tourism information system», International journal of Digital Culture and Electronic Tourism, pp. Parisse C., Maillart C., (2008). «The interplay between phonology and syntax in French‐speaking children with specific language impairment», International journal of language & Communication Disorders / International journal of language and Communication Disorders, 43 4 448‐472. Parisse C., Le Normand M.‐T., (2007). «Une méthode pour évaluer la production du langage spontané chez l’enfant de 2 à 4 ans», Glossa, 97 10‐30. Plane S., Alamargot D., Lebrave J.‐L., (2010). «Temporalité de l’écriture et rôle du texte produit dans l’activité rédactionnelle», Langages, 177 11‐34. Rinck F., (2010). «L’analyse linguistique des enjeux de connaissance dans le discours scientifique : un état des lieux», Revue d’Anthropologie des Connaissances, 4 3 427‐450. Trevise A., (2009). «Les textes officiels français pour les langues vivantes et l’enseignement/apprentissage de la grammaire. L’exemple de la détermination nominale en anglais», Diptyque, 16 103‐124. Veneziano E., Parisse C., (2010). «The acquisition of early verbs in French: Assessing the role of conversation and of child‐directed speech», First Language, 30 3‐4 287‐311. Veneziano E., (2010). «Conversation in language development and use: An Introduction.», First Language, 30 3‐4 241‐249. 40/82 APPEL A PROJETS EQUIPEX /
CALL FOR PROPOSALS
Acronyme du projet /
Acronym
ORTOLANG
2011
ANNEXE SCIENTIFIQUE /
SCIENTIFIC APPENDICE
• Communications avec actes
Avanzi M., Lacheret‐Dujour A., Victorri B., (2008). «ANALOR. A Tool for Semi‐Automatic Annotation of French Prosodic Structure», 119‐122. ANALOR. A Tool for Semi‐Automatic Annotation of French Prosodic Structure (2008) Campinas. Battistelli D., Folino A., Geretto P., Kuznik L., Minel J.‐L., Amardeilh F., (2009). «”Confortation”: About a New Category for Analyzing Biomedical Texts», 523 4‐15 Springer Philippe Cudre‐Mauroux and Jeff Heflin 8th International Semantic Web Conference, ISWC 2009, SWASD 2009 Workshop (2009) Chnatilly, VA États‐. Battistelli D., Couto J., R. Schwer S., Minel J.‐L., (2008). «Representing and Visualizing Calendar Expressions in Texts», 1‐7 SYMPOSIUM ON SEMANTICS IN SYSTEMS FOR TEXT PROCESSING (2008) Venice. Battistelli D., Couto J., Minel J.‐L., R. Schwer S., (2008). «Représentation algébrique des expressions calendaires et vue calendaire d’un texte», 1‐10 TALN 08 (2008) Avignon. Battistelli D., Schwer R. S., Minel J.‐L., (2007). «Calendar Expressions Ordering in text Corpora», 3‐4 CNAM 12th International Conference on Applications of Natural Language to Information Systems (2007) Paris. Bellonie J.‐D., (2012). «Faits de variation syntaxique dans le français parlé en Martinique : une approche sociolinguistique», (à paraitre) L’Harmattan Colloque “ Le français régional antillais : exploration et délimitation d’un concept “ (2010) Paris. Bellonie J.‐D., (2008). «Français et créole en contact en Martinique : diglossie ou continuum ? Ce que nous apprend l’analyse des mélanges codiques», ... Journées « Etudes de syntaxe : français parlé, français hors de France, créoles » (2007). Benzitoun C., Dister A., Gerdes K., Kahane S., Pietrandrea P., Sabio F., (2010). «tu veux couper là faut dire pourquoi ‐ Propositions pour une segmentation syntaxique du français parlé», 2075‐2090 CMLF Congrès Mondial de linguistique française (2010) New Orleans États‐. Cori M., (2007). «Quelle formalisation pour les fonctions grammaticales ?», 1‐20 Peter Lang Les fonctions grammaticales : histoire, théories, pratiques, (2005) Tromso. Couto J., Minel J.‐L., (2008). «A linguistic and navigational knowledge approach to text navigation», 667‐672 IJCNLP 2008, The Third International Joint Conferenceon Natural Language Processing (2008) Hyderabad. Couto J., Minel J.‐L., (2007). «NaviTexte, a Text Navigation Tool», www.springer.com Springer‐Verlag 10th Congress of Italian Association for Artificial Intelligence. Artificial Intelligence and Human‐
Oriented Computing (2007) Rome. Juanals B., Minel J.‐L., (2011). «Writing and monitoring in International Standardization, Theoretical Choices and Methodological tools», 1 82‐87 International Institute of Informatics and Systemics IMETI 2011 (2011) Orlando États‐. Kahane S., (2010). «Entre adverbes, noms et pronoms : le cas des modifieurs temporels», 1‐12 CMLF (2010) La Nouvelle Orléans États‐. Kahane S., Lareau F., (2005). «Meaning‐Text Unification Grammar: modularity and polarization», 1 Meaning‐Text Unification Grammar: modularity and polarization (2005. Kahane S., Lareau F., (2005). «Grammaire d’Unification Sens‐Texte : modularité et polarisation», 23‐
32 Grammaire d’Unification Sens‐Texte : modularité et polarisation (2005. Kahane S., (2005). «Structure des représentations logiques, polarisation et sous‐spécification», 153‐
162 Structure des représentations logiques, polarisation et sous‐spécification Actes TALN (Traitement automatique du langage naturel) (2005) Dourdan. Kerleroux F., (2007). «Verb classes, morphological construction rules and gaps in the nominalizations», inconnues inconnue Lucia Tovena & Ph. Miller (2007. 41/82 APPEL A PROJETS EQUIPEX /
CALL FOR PROPOSALS
Acronyme du projet /
Acronym
ORTOLANG
2011
ANNEXE SCIENTIFIQUE /
SCIENTIFIC APPENDICE
Lacheret A., Obin N., Avanzi M., (2010). «Design and Evaluation of Shared Prosodic Annotation for Spontaneous French Speech: From Expert Knowledge to Non‐Expert Annotation», 265‐273 Linguistic Annotation Workshop (2010) Uppsala. Lacheret A., Obin N., Goldman J.‐P., Avanzi M., (2008). «Comparaison de trois outils de détection automatique de proéminences en français parlé», non précisé Journées d’Etude sur la parole (2008) Avignon. Lacheret A., Avanzi M., Goldman J.‐P., Simon A. C., Auchlin A., (2008). «Méthodologie et algorithmiques pour la détection automatique des syllabes proéminentes dans les corpus de français parlé», 13 2 2‐30 Cahiers of French Language Studies (2007) Bristol Royaume‐. Laks B., Calderone B., Tchobanov A., (2010). «Receptors and Syllable Trajectories», X LACUS 36 (2009) Houston États‐. Laks B., Bertinetto P. M., Calderone B., Celata C., Tchobanov A., (2009). «Unsupervised Syllable Based Behaviors», X CUNY Syllable Conference, (2009) New York États‐. Laks B., Lepesant D., (2009). «La liaison en français. Quelques conditionnements morphosyntaxiques et lexicaux.», X CIL 18 (2009) Séoul Corée, République. Loth R., Battistelli D., Chaumartin F.‐R., De Mazancourt H., Minel J.‐L., Vinckx A., (2010). «Linguistic information extraction for job ads (SIRE project)», 300‐303 Centre de Hautes Etudes Internationales d’Informatique Documentaire 9th international conference on Adaptivity, Personalization and Fusion of Heterogeneous Information (2010) Paris. Obin N., Lacheret A., Rodet X., (2011). «Stylization and Trajectory Modelling of Short and Long Term Speech Prosody Variations», ‐‐‐ Interspeech (2011) Florence. Obin N., Lanchantin P., Lacheret A., Rodet X., (2011). «Discrete/Continuous Modelling of Speaking Style in HMM‐based Speech Synthesis: Design and Evaluation», ‐‐‐ Interspeech (2011) Florence. Obin N., Lanchantin P., Lacheret A., Rodet X., (2011). «Reformulating Prosodic Break Model into Segmental HMMs and Information Fusion», ‐‐‐ Interspeech (2011) Florence. Obin N., Lanchantin P., Avanzi M., Lacheret A., Rodet X., (2010). «Towards Improved HMM‐based Speech Synthesis Using High‐Level Syntactical Features.», 2000‐2004 Speech Prosody (2010) Chicago États‐. Obin N., Rodet X., Lacheret A., (2010). «HMM‐based Prosodic Structure Model Using Rich Linguistic Context», 1133‐1136 Interspeech (2010) Makuhari. Obin N., Goldman J.‐P., Avanzi M., Lacheret‐Dujour A., (2008). «Comparaison de trois outils de détection semi‐automatique des proéminences dans les corpus de français parlé», non paginé Comparaison de trois outils de détection semi‐automatique des proéminences dans les corpus de français parlé (2008) Avignon. Parisse C., Morgenstern A., (2010). «A multi‐software integration platform and support for multimedia transcripts of language», 106‐110 LREC 2010 : Workshop on Multimodal Corpora: Advances in Capturing, Coding and Analyzing Multimodality (2010) La Valette. Parisse C., (2007). «Rethinking the syntactic burst in young children.», 65‐72 Workshop on Cognitive Aspects of Computational Language Acquisition, ACL (Association for Computational Linguistics) (2007) Prague. Plane S., (2008). «Les apprentissages lexicaux: prescriptions, attentes et fonctions», x Peter Lang Rispail M & Ronveaux C Les apprentissages lexicaux: prescriptions, attentes et variations. le problème des “mots difficiles” (2004) Québec. Rinck F., (2010). «Des genres textuels aux communautés discursives. La recherche en sciences humaines entre modèle scientifique et modèle savant», 5 531‐540 XXVe CILPR Congrès International de Linguistique et de Philologie Romanes (2007) Innsbruck. 42/82 APPEL A PROJETS EQUIPEX /
CALL FOR PROPOSALS
Acronyme du projet /
Acronym
ORTOLANG
2011
ANNEXE SCIENTIFIQUE /
SCIENTIFIC APPENDICE
Teissèdre C., Battistelli D., Minel J.‐L., (2011). «Recherche d’Information et temps linguistique : une heuristique pour calculer la pertinence des expressions calendaires», 161‐172 TALN 2011 (2011) Montpellier. Teissèdre C., Battistelli D., Minel J.‐L., (2010). «Du texte au portail sémantique : cas d’utilisation lié à des données temporelles», 209‐220 Ecole des Mines d’Alès Sylvie DESPRES IC 2010 (2010). Teissèdre C., Battistelli D., Minel J.‐L., (2010). «Resources for Calendar Expressions Semantic Tagging and Temporal Navigation through Texts», 3572‐3577 European Language Resources Association (ELRA) Nicoletta Calzolari (Conference Chair), Khalid Choukri, Bente Maegaard, Joseph Mariani, Jan Odjik, Stelios Piperidis, Mike Rosner, Daniel Tapias LREC 2010 (2010) La Valette. Weiser S., Amardeilh F., Coste M., (2009). «Chaîne de traitement linguistique : du repérage d’expressions temporelles au peuplement d’une ontologie de tourisme», ‐ TALN 2009 (2009) Senlis. Weiser S., (2008). «Informations spatio‐temporelles et objets touristiques dans des pages Web : repérage et annotation», pp. Recital 2008 (2008) Avignon. Weiser S., Laublet P., Minel J.‐L., (2008). «Automatic Identification of Temporal Information in Tourism Web Pages», pp 127‐131 Sixth International Conference on Language Resources and Evaluation (LREC 2008) (2008) Marrakech. • Chapitres d’ouvrages scientifiques
Battistelli D., Cori M., Minel J.‐L., Teissèdre C., (2011). «Semantics of Calendar Adverbials for Information Retrieval», 622‐631 Springer Marzena Kryszkiewicz, Henryk Rybinski, Andrezej Skowron, Zbigniew W. Ras Lecture Notes in Artificial Intelligence. Bore C., (2007). «La métamorphose d’un genre : quelques descripteurs pour un genre scolaire de récit», 140‐165 Presses Universitaires de Namur (Belgique) Catherine Boré Diptyque. Bore C., (2007). «Les genres scolaires comme corpus, construction d’une problématique», 41‐55 Presses Universitaires de Namur (Belgique) Catherine Boré Diptyque. Couto J., Minel J.‐L., Moncecchi G., (2009). «Quelle plateforme pour le filtrage sémantique», 225‐250 Hernmès Lavoiisier Jean‐Luc Minel Traité IC2. Gadet F., (2009). «Introduction (section II “Stylistic and syntactic Variation”)», 115‐120 John Benjamins Publishing Company. Gadet F., (2008). «Les ‘français marginaux’ dans une perspective dialinguistique», 171‐191 Presses Universitaires de l’Université Laval in Luc Baronian & France Martineau. Gadet F., (2007). «Identités françaises différentielles et linguistique du contact», 206‐216 Modern Humanities Research Association and Maney Publishing Wendy Ayres‐Bennett & Mari Jones. Gadet F., (2007). «L’oral et l’écrit dans les changements technologiques et idéologiques», 131‐142 Peter Lang Transversales. Juanals B., Noyer J.‐M., (2010). «De l’émergence de nouvelles technologies intellectuelles», 27‐75 Hermès Science Publications‐Lavoisier Juanals B., Noyer J.‐M.. Laks B., (2010). «La Phonologie : passé et présent des sons dans le langage,», 34‐37 Editions des Sciences Humaines Jean‐François Dortier. Laks B., Detey S., Durand J., Lyche C., (2011). «La variation inter‐ et intra‐locuteurs dans l’enseignement : outils pour la formation», X Editions de l’Ecole Polytechnique Isabelle Schaffner et Olivier Bertrand. Laks B., (2010). «La linguistique des usages : de l’exemplum au datum», 13‐29 Presses Universitaires de Rennes Paul Cappeau, Hélène Chuquet, Freiderikos Valetoupolos. Laks B., Detey S., Durand J., Lyche C., (2010). «Eléments de linguistique pour la description de l’oral», 45‐60 Ophrys. 43/82 APPEL A PROJETS EQUIPEX /
CALL FOR PROPOSALS
Acronyme du projet /
Acronym
ORTOLANG
2011
ANNEXE SCIENTIFIQUE /
SCIENTIFIC APPENDICE
Laks B., Detey S., Durand J., Lyche C., (2010). «Les variétés du français parlé contemporain : méthodologie et ressources», 29‐44 Ophrys S. Detey, J. Durand, B. Laks et Ch. Lyche. Laks B., (2009). «Règles et régularités en linguistique cognitive», 119‐130 L’Harmattan, Hervé Dumez et Jean‐Baptiste Suquet. Laks B., Durand J., Lyche C., (2009). «Le projet PFC (Phonologie du Français Contemporain) : une source de données primaires structurées», 19‐6 Hermès. Laks B., (2008). «Variatio omnibus : notes sur la variation linguistique et le changement», 91‐123 GIK Peter von Moss. Laks B., Durand J., Lyche C., Mallet G., (2007). «Aperçus sur le projet ‘Phonologie du Français Contemporain», 41‐51 L’Harmattan, Abecassis Michaël, Ayosso Laure, Vialleton Elodie. Laks B., (2000). «La phonologie cognitive», 69‐84 Odile Jacob Yves Michaud. Léglise I., Leroy M., (2008). «Insultes et joutes verbales chez les “jeunes” : le regard des médiateurs urbains», 155‐174 Karthala Aline Tauzin. Parisse C., Morgenstern A., (2010). «Transcrire et analyser les corpus d’enfant», 201‐222 L’Harmattan. Parisse C., (2008). «Left‐dislocated subjects: A construction typical of young French‐speaking children?», 13‐30 John Benjamins Guijarro‐Fuentes, P., Larrañaga, P. and Clibbens, J.. Plane S., Lafourcade B., (2004). «pour une approche discursive de l’apprentissage du lexique : les activités définitionnelles», 47‐60 De Boeck Calaque E. & David J.. 1.5. LLL LABORATOIRE LIGERIEN DE LINGUISTIQUE, EA 3850
1.5.1 BILAN DES RECHERCHES
Le Laboratoire Ligérien de Linguistique (LLL), Equipe d’Accueil 3850, résulte de la fusion des équipes de linguistique des universités dʹOrléans (CORAL) et de Tours (Langage & Représentations), décidée dʹun commun accord en 2008. A ce titre, il relève des deux Ecoles Doctorales SHS. Le directeur est G. Bergounioux (site dʹOrléans), le directeur adjoint Jean‐
Michel Fournier (site de Tours). Le LLL anime la « Fédération Linguistique du Centre‐
Ouest » qui réunit aux laboratoires des deux universités ceux de Poitiers (FORELL A) et de Limoges (CeReS). Le LLL est membre associé de la Fédération de Recherche ILF (Institut de Linguistique Française) du CNRS. Le LLL réunit les enseignants‐chercheurs de linguistique, quelle que soit leur langue de spécialité, et de didactique, intervenant dans les départements de sciences du langage, dʹanglais, dʹallemand et dʹespagnol, à lʹIUFM ou en IUT. A ce titre, le laboratoire intervient en appui de plusieurs masters, en particulier le master « linguistique » construit sur le même format dans les deux universités et décliné autour de trois spécialités : la didactique, le traitement automatique des langues et la recherche fondamentale. Au 1er septembre 2011, le LLL réunit :5 professeurs (+ 1 professeur émérite) de 7e et 11e sections, 4 à Orléans et 1 à Tours, 1 CR HDR du CNRS, 19 MCF, 18 à Orléans (dont 4 à lʹIUFM) et 6 à Tours, 21 doctorants (dont 3 ATER et 5 allocataires). 4 MCF ont le statut dʹassociés, et une trentaine de collaborateurs, PRAG, maîtres du premier et du second degré, professionnels, sont intégrés aux activités du laboratoire. Le LLL est structuré autour de cinq thématiques : 44/82 APPEL A PROJETS EQUIPEX /
CALL FOR PROPOSALS
Acronyme du projet /
Acronym
ORTOLANG
2011
ANNEXE SCIENTIFIQUE /
SCIENTIFIC APPENDICE
-
Enquête Socio‐Linguistique à Orléans (ESLO), pour la constitution dʹun corpus de référence variationniste (diachronique, sociolinguistique, transcriptif) en français parlé, Analyse des temps et de leur expression dans les langues, dans le cadre dʹune approche historique et typologique Langues dʹAfrique (Burkina, Guinée‐Bissau, Cap‐Vert, Sao Tome, Nigéria...), Langues de Guyane (palikur, wayana, wayampi), Didactique du français et des langues. Le LLL a mis au premier rang de ses objectifs une contribution exemplaire à la constitution d’un corpus prototypique de référence sur le français parlé qui intègre les variations, sociolinguistiques, diachroniques et transcriptionnelles, et en permette l’analyse ‐ pas seulement linguistique ‐, qu’il s’agisse de la reconnaissance des données, de leur transcription, de leur étiquetage ou des traitements dont elles peuvent faire l’objet. Le travail effectué ne peut manquer d’avoir des effets en retour sur les méthodes, les procédés et les théories. Le point de départ de ce travail a été pris dans la reconsidération et le traitement exhaustif de l’Enquête Socio‐Linguistique à Orléans (ESLO 1, 1967‐1971) qui totalise 300 heures de parole et un corpus estimé à 4.500.000 mots. Il s’agit d’un témoignage unique sur les usages du français par des locuteurs natifs. Une nouvelle enquête, ESLO 2, conduite par le LLL (préalablement CORAL ‐ EA 3850), pour laquelle le soutien de l’ANR a été crucial, aura permis d’établir, à quarante années de distance, un corpus comparable dans les modalités de collecte et dans l’archive. L’objectif a été fixé à 400 heures environ de documents sonores, soit 6.000.000 de mots environ qui s’ajoutent aux 4.000.000 déjà collectés. Même s’il reste des compléments à apporter, largement compensés par des extensions qui se sont imposées au fur et à mesure de l’avancement, ce programme entre aujourd’hui dans sa phase d’exploitation, même si la mise en ligne s’est trouvée retardée par les difficultés, d’abord économiques (règlement judiciaire) puis techniques, du prestataire retenu par appel d’offres il y a un an (société ARES devenue GFI). Il s’agit du seul programme en France (il en existe un équivalent au Québec) qui privilégie la dynamique sociolinguistique du français en diachronie, bénéficiant d’un horizon de rétrospection de quatre décennies. L’étude, qui intègre la variation diachronique et sociale (et leur interaction), est complémentaire des travaux conduits en synchronie sur la prosodie (Paris X), la phonologie variationniste (Toulouse), les réalisations phonétiques (Aix), la dialectologie (Nice, Grenoble), les interaction avec vidéo (Lyon), l’oralité (Louvain), la contrastivité avec l’oral (Nancy)… Cet inventaire, qui n’a pas pour ambition d’être exhaustif, met en évidence la mobilisation de la communauté autour d’une question centrale : outiller les études de linguistique en mettant à la disposition de tous les chercheurs des données fiables, exploitables et accessibles. Si le LLL a choisi de répondre à cet objectif en prenant d’abord comme centre de son investigation le processus de fabrication d’un corpus qui bénéficie d’un horizon de rétroaction fondé sur une expérience conduite quelques décennies auparavant, parallèlement, une comparaison a été conduite par des études entreprises dans une autre 45/82 APPEL A PROJETS EQUIPEX /
CALL FOR PROPOSALS
Acronyme du projet /
Acronym
ORTOLANG
2011
ANNEXE SCIENTIFIQUE /
SCIENTIFIC APPENDICE
région (l’Aquitaine) en privilégiant la réflexion sur les considérants théoriques de l’interaction (Enquête du LIAS EHESS) alors que les problèmes de description de langues non écrites sont intégrés à la recherche par des collectes en Amérique (palikur / Guyane) et en Afrique (créoles à base portugaise du Cap‐Vert, de Guinée Bissau et de Sao Tome et Principe et Burkina‐Faso). Ces deux dimensions, envisagées primitivement dans une perspective comparative, ont trouvé leur point de rencontre dans le lancement d’un nouveau projet : « Langues en Contact à Orléans » (LCO) qui intègre dans la description du français l’effet des interactions avec les autres langues, qu’elles soient de migration, d’enseignement, de lien matrimonial... Pour l’outillage de la recherche, certains aspects du traitement informatique ont été confiés au LIFO (Orléans) et au L.I. (Laboratoire d’Informatique de l’Université de Tours), en particulier le traitement des disfluences et l’anonymisation qui étaient au cœur de la réflexion sur l’usage des corpus. Les disfluences, parce qu’elles sont traitées comme source de bruit, perturbant à tous les niveaux une exploitation optimale des enregistrements requéraient un travail de reconnaissance dans le signal, d’inventaire et de classement des formes afin d’apporter des solutions ad hoc à la transcription. L’anonymisation, pour des raisons juridiques, constitue la condition sine qua non de mise à disposition des corpus, d’où l’investissement des informaticiens et linguistes pour en accroître l’efficience. Dès sa conception, le LLL a conçu un programme destiné à préfigurer une référence dans un domaine qui, à l’échelle internationale, est en cours de structuration. L’adoption d’un format standardisé de collecte, de conservation, de traitement et d’analyse se trouve confrontée à la multiplication des développements, des applications et des normes, en attente d’une certification qui se doit de prendre en compte les pratiques en usage concernant la fabrication des corpus oraux en linguistique. Tout a été mis en œuvre pour que rien d’irréversible n’affecte les données et pour faciliter, autant qu’il se pourra, les reconversions exigées par la normalisation en cours. Au‐delà d’une visée cumulative (accroître la quantité de données pour fournir des éléments d’analyse et assurer des comparaisons avec d’autres corpus), l’enjeu des enquêtes conduites tant en France qu’à l’étranger est aussi réflexif (accompagner la campagne de collecte, traiter et exploiter les données pour contribuer à la définition des normes). La mise en œuvre de cette conception a impliqué : - une prospective sur l’exhaustivité des usages avec un calcul de représentativité, - un inventaire des techniques de collecte (formats d’enregistrement et numérisation), - une politique de formation des enquêteurs et d’information des témoins afin d’intégrer dans les critères de variation celle liée à l’enquêteur, - un recueil des données en conjonction avec un le recueil des méta‐données, - un codage et un catalogage anticipant les principales requêtes, - une transcription déclarative avec alignement sur le signal en attente de normalisation, - un étiquetage, avec catégorisation et lemmatisation - une analyse syntaxique (parsing), en particulier pour la co‐référence anaphorique, - une procédure d’anonymisation (détection d’entités nommées et dénommantes), 46/82 APPEL A PROJETS EQUIPEX /
CALL FOR PROPOSALS
Acronyme du projet /
Acronym
ORTOLANG
2011
ANNEXE SCIENTIFIQUE /
SCIENTIFIC APPENDICE
-
un stockage, avec archivage et indexation, une procédure de mise à disposition pour assurer une libre consultation sur Internet, des données partagées par interopérabilité avec protections Ce dernier point a été réalisé en lien avec les propositions formulées dans le cadre du programme pour le catalogage et codage des corpus CAT‐COD qui prolonge le travail de l’EPML50, « Corpus d’interaction langagière ». L’organisation du premier colloque CAT‐
COD à Orléans en 2008 est un exemple de l’investissement du LLL dans cette recherche. Durant les quatre années écoulées, le LLL s’est efforcé de constituer un prototype, à toutes les étapes de sa réalisation, un corpus exemplaire qui puisse se situer au même niveau, qualitatif et quantitatif, y compris par sa dimension patrimoniale, que les grands corpus oraux fabriqués, ou en cours de fabrication, en Europe et dans le monde. Au cours des années passées, l’exécution de ce projet a contribué, sur un domaine qui se présente comme le premier obstacle à l’exploitation des données, c’est‐à‐dire leur variabilité, à fournir des réponses à un grand nombre de questions dans un panorama de la recherche où la complémentarité des institutions et le dynamisme de l’échange scientifique garantissent un développement conforme aux attentes des partenaires : équipes de recherche françaises, francophones et mondiales, transfert technologique vers les pays du Sud, accroissement de l’expertise, valorisation du patrimoine en lien avec la Bibliothèque Nationale de France, intégration aux projets de restructuration de la communauté avec l’ensemble des laboratoires et les structures du CNRS (ADONIS, TGIR‐Corpus), une démarche qui conjoint l’accumulation des connaissances et la critique de leur constitution, l’analyse des outils et la disponibilité des données, le dialogue des chercheurs et l’échange de corpus devenus interopérables. De nouveaux segments sont à présent investis en lien avec les collègues de la BnF, en particulier le traitement de données à grande échelle, la conservation matérielle des documents, le catalogage et la mise en ligne à destination du grand public qui s’intègrent dans le cadre du projet Equipex ROMTAL. 1.5.2 RESSOURCES ET OUTILS DISPONIBLES ACTUELLEMENT ET QUI SERONT VERSES POUR
SERVIR DE BASE A LA VERSION 1 DE L’EQUIPEX
1.5.3 BIBLIOGRAPHIE SELECTIVE LIEE AU PROJET (2007 )
Abouda, L. (2010). « De la visibilité syntaxique des modes, de l’invisibilité syntaxique des temps », in Álvarez Castro, Camino / Bango de la Campa, Flor Mª / Donaire, María Luisa (éds), Liens linguistiques. Etudes sur la combinatoire et la hiérarchie des composants, Collection « Sciences pour la Communication », Vol. 90, 319‐334, Peter Lang. Abouda, L. et Baude, O. (2009). « Du français fondamental aux Eslo », Les Cahiers de Linguistique de Louvain, 33, 2. Abouda, L. et Baude, O. (2007). « Constituer et exploiter un grand corpus oral : choix et enjeux théoriques. Le cas des Eslo », in F. Rastier et M. Ballabriga (dir.), Corpus en Lettres et Sciences sociales. Des documents numériques à l’interprétation, Toulouse, PUM, 161‐168. Abouda, L., Baude, O. (2009) «Du Français Fondamental aux ESLO», in Bruxelles, Mondada, Simon, Traverso «Grand corpus de français parlé, Bilan historique et perspectives de recherche, Cahiers 47/82 APPEL A PROJETS EQUIPEX /
CALL FOR PROPOSALS
Acronyme du projet /
Acronym
ORTOLANG
2011
ANNEXE SCIENTIFIQUE /
SCIENTIFIC APPENDICE
de Linguistique Revue de sociolinguistique et de sociologie de la langue française 33/2, EME, Louvain, PP 131‐146. Baude, O. (2008) «Le droit de la parole», in M. Bilger (ed), Données orales, les enjeux de la transcription, Presses universitaires de Perpignan, p 23‐34. Bellonie J.‐D. & Guérin E. (2010). « Lorsque la réflexion sociolinguistique éclaire la problématique de l’enseignement du FLM… », in Pour une épistémologie de la sociolinguistique, Limoges, Lambert‐
Lucas. Bergounioux, G. (2007) « From a reference corpus to a prototypical corpus : ESLO1 & ESLO2 » Corpus Linguistics, Birmingham Paper 64 : 3‐9 http://www.corpus.bham.ac.uk/corplingproceedings07/paper/64_Paper.pdf Bergounioux G. (2008) « Des œufs mués : entendre omelette », Actes du Congrès Mondial de Linguistique Française, consultable en ligne sur http://www.linguistiquefrancaise.org Bergounioux G. (2009) « La fonction critique de l’histoire de la linguistique », « Discours sur les langues et rêves identitaires », Velmezova & Sériot ed., Cahiers de l’ILSL 26 : 5‐19 Bergounioux G. (2010) « Mai 68 à Orléans : la geste et la parole », 2e Congrès Mondial de Linguistique Française, consultable en ligne sur http://www.linguistiquefrancaise.org Bergounioux G. (2010) Du corpus en linguistique : les deux paradigmes du structuralisme » in Pour une épistémologie de la sociolinguistique (H. Boyer éd.), Limoges, Lambert‐Lucas : 15‐22. Eshkol I., (2010), « Entrer dans l’anonymat. Etude des "entités dénommantes" dans un corpus oral », Eigennamen in der gesprochenen Sprahe, p.245‐266. Guérin E. (2009). « L’enseignement du FLM et la prise en compte de la nécessaire variabilité de la langue », Le Français Aujourd’hui, n°165, 111‐120. Guérin E. (à paraître). « L’« outre‐langue » des enseignants ou le mythe d’une langue monovariétale », Pratiques. N. Serpollet, G. Bergounioux, A. Chesneau & R. Walter A Large Reference Corpus for Spoken French : ESLO 1 and 2 and its variations Corpus Linguistics, Birmingham Paper 64 : http://www.corpus.bham.ac.uk/corplingproceedings07/paper/64_Paper.pdf Guérin, E. (2009). « Authenticité des données et description grammaticale scolaire », Mélanges‐
crapel, n°31, 147‐157, Actes du colloque international Des documents authentiques oraux aux corpus : questions d’apprentissage en didactique des langues, Nancy, 14‐15 décembre 2007. Tellier I., Eshkol I., Taalab S., Prost J‐P., (2010). "POS‐tagging for Oral Texts with CRF and Category Decomposition", Research in Computer Science, special issue : Natural Language Processing and its Applications : 79‐90. 1.6. INIST, UPS 76
1.6.1 ACTIVITES ET DOMAINES DE COMPETENCE
L’INIST (Institut de l’information Scientifique et Technique) est une Unité Propre de Service du CNRS (UPS 76) qui a été créée en 1988 afin de faciliter la collecte de l’Information Scientifique et Technique nationale et internationale, son traitement et d’en donner accès au monde de la recherche académique. C’est la Bibliothèque Scientifique Numérique du CNRS, une des plus importantes en Europe. Pour cela, l’INIST‐CNRS a élaboré une série de services tels que des catalogues en ligne, des bases bibliographiques (PASCAL, FRANCIS) et huit portails thématiques offrant l’accès, 48/82 APPEL A PROJETS EQUIPEX /
CALL FOR PROPOSALS
Acronyme du projet /
Acronym
ORTOLANG
2011
ANNEXE SCIENTIFIQUE /
SCIENTIFIC APPENDICE
pour les ayant‐droits, au texte intégral des principaux éditeurs mondiaux, dans pratiquement tous les domaines de la science. Au cours du temps, l’INIST‐CNRS a acquis une expertise dans la constitution de très grosses bases de données (plusieurs dizaines de millions de référence) et la mise en ligne de ressources documentaires avec des impératifs de qualité, de continuité de service, de sécurité d’accès et de traçabilité. Les 320 personnes de l’INIST (personnel CNRS ITA) sont réparties en 5 pôles : - Accès à l’Information Scientifique et Technique (portails et fourniture de documents) - Données et bases de données - Appui au pilotage, veille scientifique et ingénierie en IST - Services spécialisés d’appui à la recherche - Et un pôle Services Communs assurant le support aux autres pôles. En termes de volumétrie, l’INIST‐CNRS représente actuellement : plus de 50 000 utilisateurs identifiés ; plus de 250 millions de transactions par an ; 8 portails thématiques, 50 applications majeures, plus de 70 sites web ; des bases de données dont la plus grosse compte 50 millions de références ; 8 serveurs centraux (représentant une centaine de serveurs physiques et virtualisés), 50 To de surface disque, 80 To de sauvegarde, 450 terminaux ; un service opérationnel 24/24, 7/7, avec une disponibilité de 99,9%. L’INIST‐CNRS a développé des compétences sur les domaines suivants : - Bibliothèques numériques (D‐Space, Fedora Commons, SGBD…), - Portails et site de diffusion de corpus (technologies Web, moteurs de recherche…), - Identification des objets numériques et accès pérenne à ces objets (handle, DOI, résolveurs de lien), - Pérennité des contenus et des accès (modèle OAIS, démarche PRAI, LOCKSS…), - Authentification et gestion des droits d’accès aux ressources (Shibboleth, LDAP, ERM…), - Statistiques d’accès, rapport sur l’usage des ressources et aide au pilotage, - Formats documentaires (XML, METS, TEI, TMF…), - Technologie d’indexation, base terminologique, ontologie, fouille de données et représentation par cartographie. Pour ses besoins internes de production, l’INIST‐CNRS a développé des technologies d’indexation assistée ou semi‐automatisée de corpus documentaires dont l’efficacité n’a pu être possible que par la mise en place d’une base terminologique informatisée qui regroupe actuellement 200 000 concepts et 650 000 termes. Les ingénieurs documentalistes de l’INIST ont par ailleurs développé une forte expérience en gestion de métadonnées. En tant qu’opérateur d’infrastructure, l’INIST‐CNRS s’appuie sur les technologies disponibles sur le marché et peut aussi développer ses propres outils en s’appuyant sur un pool d’ingénieurs de développement et même une structure de R&D déjà en relation avec les autres partenaires de cet Equipex (ATILF, LORIA). L’INIST‐CNRS travaille aussi en partenariat avec le monde industriel (Quaero, Google Scholar, Exalead). 49/82 APPEL A PROJETS EQUIPEX /
CALL FOR PROPOSALS
Acronyme du projet /
Acronym
ORTOLANG
2011
ANNEXE SCIENTIFIQUE /
SCIENTIFIC APPENDICE
Les activités de l’INIST‐CNRS s’inscrivent désormais dans le cadre de la mise en place de la Bibliothèque Scientifique Numérique (BSN) qui réunit la majeure partie des acteurs de l’Enseignement Supérieur et de la Recherche (ABES, CINES, Couperin, DIST du CNRS…) dans le cadre de 8 briques technologiques. L’INIST‐CNRS participe très activement dans la plupart d’entres‐elles. Elle est d’ailleurs responsable de la mise en place d’un site d’accès aux ressources documentaires acquises nationalement par la communauté Enseignement Supérieur et Recherche (IDEX ISTEX). Dans le cadre du Schéma Numérique des Bibliothèques (SNB), l’INIST a de forte relation avec le CINES (et la BNF) pour la mise en place d’un réseau d’acteurs en charge de l’archivage pérenne des contenus numériques selon les modalités prévues par la modèle OAIS (Open Archival Information System) (norme ISO 14721:2003) L’apport de l’INIST‐CNRS à cet Equipex se situe donc en premier au niveau de son savoir‐
faire en tant que nœud d’infrastructure pour la diffusion de gros corpus (moyens et expertise), tel que cela a déjà été prototypé dans le cadre de la mise en place du nœud CLARIN de l’ATILF/CNTRL. En phase opérationnelle, il se situera aussi en tant qu’administrateur des contenus qui seront déposés pour diffusion par les autres partenaires (suivi technologiques des normes et standards, métadonnées, évolution des formats) et fera la liaison avec le CINES pour l’archivage final. 1.6.2 RESSOURCES ET OUTILS DISPONIBLES ACTUELLEMENT ET QUI SERONT VERSES POUR
SERVIR DE BASE A LA VERSION 1 DE L’EQUIPEX
• Infrastructure
L’INIST possède une salle machine principale totalement équipée. Celle salle est divisée en une première partie, dite « Salle Périphérique », où se situent les équipements de sauvegarde et le cœur du réseau, et une salle dite « borgne » qui héberge les ordinateurs et les systèmes de stockage. La première salle est accessible par les services d’Exploitation. L’accès à la seconde n’est qu’exceptionnel. Ces salles sont protégée contre les incendies (porte coupe‐feu, dispositif à gaz neutre). L’INIST dispose aussi d’une salle machine secondaire. Utilisée initialement pour les moyens informatiques du Système d’Archivage Numérique de l’INIST, cette salle est utilisée actuellement pour héberger le service de numérisation. Les deux salles disposent de systèmes de réfrigération et de régulation hydrométrique. L’INIST dispose d’un groupe électrogène (démarrage automatique en 3 minutes ; autonomie de 5 jours) et d’une alimentation sécurisée (onduleurs, batteries) ayant une autonomie de plus d’1/4 heure (en attente de relais par le groupe). Ces équipements sont testés 1 fois par mois. De nuit, les gardiens sont chargés de vérifier l’état des salles machine et d’avertir en cas d’incident ou d’alerte les Services Généraux de l’INIST qui ont un régime d’astreinte. Ayant de fortes contraintes de production, les moyens informatiques de l’INIST sont organisés en conséquence : service d’Exploitation dédié, procédures de test et de mise en production des applications… Le service d’Exploitation est présent de 7 à 19h les jours ouvrables et tous les moyens sont mis en œuvre pour assurer une continuité de service 7j sur 7, 24h sur 24, ce qui donne une disponibilité de 99,9% 50/82 APPEL A PROJETS EQUIPEX /
CALL FOR PROPOSALS
Acronyme du projet /
Acronym
ORTOLANG
2011
ANNEXE SCIENTIFIQUE /
SCIENTIFIC APPENDICE
Il n’y a pas de créneaux de fermeture du site pour maintenance. Les arrêts programmés se font après 19h, ou le week‐end, et les arrêts partiels sont privilégiés. Les seuls arrêts complets sont liés aux exercices réguliers pour tester les groupes électrogènes. Pour ces arrêts importants, du personnel est présent pour intervenir en cas de besoin. L’INIST a été un des premiers sites CNRS à mettre en place une démarche qualité concernant la sécurité logique des services et des données. Plus récemment l’INIST a engagé une démarche PRAI (Plan de Reprise dʹActivité Informatique). • Moyens Informatiques
La configuration actuelle du Système de stockage de l’INIST‐CNRS est un AMS 23002 de la société Hitachi Data Systems, avec 50 To utiles. L’acquisition de ce matériel date de printemps 2011 et la mise en œuvre s’est faite durant l’été. C’est du matériel de milieu de gamme de conception récente. Ce sous‐système est évolutif et aisément extensible en termes de capacité. Pour les sauvegardes, le matériel utilisé est une librairie Quantum PX 7203 avec 6 lecteurs de type LTO 3/4. Ce matériel sera renouvelé en 2012. Le matériel de stockage est couplé aux moyens de sauvegarde par un réseau SAN haut débit en Fiber Channel. Ces équipements mutualisés seront utilisés pour l’Equipex ORTOLANG, augmentés de la volumétrie spécifique au projet. Cette architecture permettra - de bénéficier de moyens sécurisés (RAID, réplication...), performants (débit 8 Gb/s en fiber channel, classes de service), évolutifs et de conception récente, - des facilités pour provisionner les extensions de stockage pour les applicatifs ou corpus, - des facilités de manœuvre pour les migrations de support et de contenus, - une fraicheur des données en cas de restauration (snapshots instantanés...), - un coût d’acquisition moindre à comparer avec l’acquisition de matériels de stockage et de sauvegarde spécifiques (contrôleur disque, robotique, concentrateur SAN…). Les équipements utiliseront les technologies classiques pour assurer une continuité de service (disque en RAID, serveurs prêts à prendre la relève en cas d’incident) et les règles de l’art minimale seront mise en œuvre pour garantir une pérennité locale des données (dépôts des données sauvegardée dans un autre bâtiment sur le campus INIST). En cas d’incident, des opérations manuelles seront toutefois nécessaires pour effectuer la bascule. Le niveau de service mis en œuvre par l’INIST pour cet Equipex sera le même que celui des principales applications de l’INIST (portails documentaires, fourniture de documents…) Pour les serveurs, l’INIST‐CNRS préconise des serveurs dédiés aux applications. Selon le contexte, il peut d’agir de machines physiques dédiées, de serveurs partitionnés ou de machines virtuelles. Pour Ortolang, nous utiliserons en parallèle 2 serveurs physiques avec une solution de virtualisation et de haute disponibilité. Ces 2 serveurs physiques permettront : http://www.hds.com/products/storage‐systems/adaptable‐modular‐storage‐2000‐family/adaptable‐modular‐
storage‐2300.html 3 http://www.sandirect.com/quantum‐px‐series‐tape‐libraries‐c‐213_84_85_313.html 2
51/82 APPEL A PROJETS EQUIPEX /
CALL FOR PROPOSALS
Acronyme du projet /
Acronym
ORTOLANG
2011
ANNEXE SCIENTIFIQUE /
SCIENTIFIC APPENDICE
de ne pas mélanger environnement de pré‐exploitation (pour les tests, les recettes, la mise en place des procédures d’exploitation, les migrations de corpus) et environnement de production pour servir les données à la communauté, - de pouvoir mettre en œuvre un mécanisme de répartition de charge si la puissance de la machine de production s’avérait un peu limitée ponctuellement ou plus régulièrement, - de pouvoir travailler en mode dégradé si l’un des 2 serveurs physiques tombait en panne ou nécessitait une intervention matérielle (par exemple mise à jour de microcode). L’INIST‐CNRS mettra à disposition du projet ses compétences en matière de gestion Système et Réseau (définition de l’architecture, mise en œuvre, supervision, reporting) et d’Exploitation informatique dans un contexte de Production (procédures d’exploitation, procédures de reprise…). -
• Gestion des données
Partager et diffuser des informations de façon efficace suppose le respect de normes établies pour leur encodage ou pour leur description par des métadonnées aussi précises que possible, le respect de référentiels existants, leur diffusion en utilisant des protocoles favorisant l’interopérabilité, enfin leur archivage pérenne et leur identification non ambiguë. Au‐delà de l’aspect purement informatique, l’INIST dispose de la plupart des compétences documentaires réunies dans le même Institut : suivi des normes et standards en matière de format (XML, METS, TEI, OLAC…) ; catalogage des données, curation de données ; gestion des terminologies et mise au point d’ontologies Pour ORTOLANG, l’INIST s’appuiera donc sur ses spécialistes en Informatique Documentaire, ses spécialistes en Ingénierie Documentaire, et ses Ingénieurs documentalistes ayant la double compétence documentation/domaine scientifique (un des services du Pôle Données et Bases de données est dédié aux SHS). Certaines personnes seront dédiées au projet, ‐ en phase de mise en œuvre, puis en phase de fonctionnement ‐, d’autres interviendront ponctuellement selon les besoins. 1.6.3 SERVICES ET PROJETS
• Portails (BiblioSHS, BiblioPlanets, BiblioSDV, BiblioINSERM…)
L’INIST opère 8 portails thématiques qu’il a conçus et mis en œuvre pour diverses communautés du CNRS et de l’INSERM. Ces portails donnent accès à des ressources documentaires, en particulier les textes intégraux des revues acquises par le CNRS dans sa globalité (négociations nationales) ou par les Instituts (2400 revues, 31 bases de données). Mi‐
2010, il y avait 1197 unités CNRS inscrites sur 1732, soit un taux de pénétration de 81 %. Une extension de cette activité est la mise en place de la plateforme ISTEX qui, en offrant des corpus documentaires scientifiques pérennes et structurés comme objets d’études, favorisera des formes innovantes de valorisation de la production scientifique. Ce projet ISTEX a été proposé dans le cadre des appels initiatives d’excellence, en partenariat avec l’ABES, le consortium Couperin et l’Université de Lorraine. L’ambition du projet est : 52/82 APPEL A PROJETS EQUIPEX /
CALL FOR PROPOSALS
Acronyme du projet /
Acronym
ORTOLANG
2011
ANNEXE SCIENTIFIQUE /
SCIENTIFIC APPENDICE
-
de donner accès à un corpus inégalé de ressources documentaires acquises dans le cadre d’un programme volontariste d’achat sous forme de licence nationale, d’agréger ces ressources au sein d’une plateforme nationale apportant une plus‐value basée sur le traitement des données en texte intégral, d’héberger sur le territoire des contenus scientifiques numériques afin d’offrir à la com‐
munauté d’enseignement supérieur et de recherche des services à forte valeur ajoutée. • Catalogues en lignes
RefDoc est le service de fourniture de documents développé et géré par l’INIST‐CNRS. Il s’appuie sur un fonds propre et un réseau de partenaires français et étrangers, dont la British Library. RefDoc s’adresse à l’utilisateur final, français ou étranger, public ou privé. RefDoc a été lancé au début 2010. Son catalogue d’articles scientifiques contient actuellement 50 millions de références. Dans le cadre de la brique technologique BSN8, ce service servira, en association avec le Système Universitaire (SuDoc), au futur système global de fourniture de documents et de prêt entre bibliothèque de l’ensemble de la communauté d’enseignement supérieur et de Recherche LARA4 (Libre Accès au RApport) est une bibliothèque numérique qui propose lʹaccès au texte intégral à près de 1300 rapports scientifiques et techniques français. Les principaux établissements déposants sont le CNRS, l’INSERM, l’INRS, l’INRP, le CNAM. OpenGrey5 est un catalogue de plus de 700 000 références bibliographiques de littérature grise produites en Europe. • Constitution de bases de données et base terminologique
PASCAL : 20 M de références / 480 000 réf produites en 2007 (stable) FRANCIS et BHA : 2,3 M de références / 59 000 réf produites en 2007, 31 000 en 2010 Les quelques 20 millions de notices bibliographiques des bases de données PASCAL et FRANCIS constituent un important corpus de textes scientifiques courts (titre + résumé). Ce fonds XML peut être utilisé pour alimenter des technologies basées sur l’exploitation de corpus telles que l’extraction terminologique et l’élaboration de concordanciers ou encore pour des études bibliométriques ou infométriques. Par ailleurs, les bases PASCAL et FRANCIS représentant chacune une importante ressource documentaire pour les outils de cartographie qu’il s’agisse de révéler des interactions entre équipes de recherche (analyse des auteurs et de leurs laboratoires d’affiliation), d’étudier la phylogénie des sciences (collaboration en cours avec le Centre de Recherche en Epistémologie Appliquée (CREA) CNRS‐Ecole Polytechnique), etc. TermSciences : 200 000 concepts, 650 000 termes Portail terminologique TermSciences (www.termsciences.fr) qui a été développé par l’INIST en association avec le LORIA et l’ATILF ; il a pour but la valorisation et la mutualisation des ressources terminologiques (lexiques, dictionnaires, thesaurus) des organismes publics de http://lara.inist.fr/ http://www.opengrey.eu/ 4
5
53/82 APPEL A PROJETS EQUIPEX /
CALL FOR PROPOSALS
Acronyme du projet /
Acronym
ORTOLANG
2011
ANNEXE SCIENTIFIQUE /
SCIENTIFIC APPENDICE
recherche et d’enseignement supérieur pour aboutir à la constitution d’un référentiel terminologique commun. La réalisation du portail terminologique TermSciences vise donc à constituer un référentiel terminologique commun qui permet d’établir des passerelles entre les - différents termes et variantes utilisés pour désigner une même notion tout en s’inscrivant dans une démarche de normalisation des données, d’interopérabilité des systèmes et de collaboration entre les spécialistes. - Une partie du site d’édition électronique I‐Revues (http://irevues.inist.fr) dédié au patrimoine scientifique lorrain • Ingénierie documentaire
Le service Edition Electronique et Publication Numérique de l’INIST‐CNRS est à disposition des laboratoires pour les aider dans le passage de leur publication scientifique au numérique. Ceci peut se faire soit par retro‐numérisation de revues préalablement éditées sur papier (150 000 pages ont été numérisées en 2008 dans ce cadre), soit par la création de revues nativement numériques. Ce service est en relation avec d’autres structures telles que le CLEO ou Persée. Si les laboratoires le souhaitent, ces revues numériques peuvent aussi être diffusées sur la plateforme I‐Revues6, selon les modalités souhaitées (Open Access, barrière mobile, accès totalement restreint). I‐Revues héberge et diffuse actuellement 51 revues représentant 32 000 articles. L’INIST‐CNRS apporte un soutien technique et logistique à l’ATILF dans le cadre du projet européen CLARIN en particulier sur les aspects de mise en production, d’interopérabilité entre centres, de résolution de liens, d’identification pérenne de corpus, de moteur de recherche, de grandes masses de données, de bibliothèques numériques, d’intégration dans un dispositif de Fédération d’Identité, de continuité de service, de préparation des corpus pour archivage long terme, de visibilité… Le démonstrateur de centre CLARIN développé par l’ATILF/CNTRL a été mis en production sur les infrastructures INIST en Janvier 2011. Bien que hors du champ des SHS, SIDR7 (Standards‐based Infrastructure with Distributed Resources) est un projet en cours avec l’INSB du CNRS où l’INIST intervient au niveau de la curation de données (web de données). Les Ingénieurs documentalistes de l’INIST de formation biomédicale interviennent ici pour mettre en forme les données primaires générées par laboratoires partenaires qui sont ensuite rediffusée à la communauté. 2. PRÉSENTATION OF TECHNOLOGY TRANSFER ORGANIZATION:
THE SATT GRAND EST
Since 2006, the 4 Universities located in Lorraine (Université Henri Poincaré, Institut Polytechnique de Lorraine, Université Nancy 2, Université Paul Verlaine de Metz) have merged their Technology Transfer Organizations (TTO) into a single organization supported by the French ministry of Education and Research. irevues.inist.fr www.sidr‐isb.eu 6
7
54/82 APPEL A PROJETS EQUIPEX /
CALL FOR PROPOSALS
Acronyme du projet /
Acronym
ORTOLANG
2011
ANNEXE SCIENTIFIQUE /
SCIENTIFIC APPENDICE
This organization composed of 16 persons is mainly involved in the negotiation of collaborative research contracts for the 81 laboratories of the PRES Université de Lorraine, as well as in the management of development projects (maturation) and their transfer. Strongly supported by the regional players in the recent years, this organisation has become very professional in finding, selecting and engineering over 20 news projects every year, some of them granted over 100 000 €. In parallel, the IP activity has considerably increased with a current portfolio of 84 patents. In 2010, the PRES Université de Lorraine, the PRES Bourgogne Franche Comté, the Université Technique de Troyes (UTT) and the CNRS have decided to run a common project labelled ʺSATT Grand Estʺ dedicated to 4 important Regions in terms of public research input . The priority and central objective of this project leads to the creation of wealth, to the production of added value stemming from the knowledge produced in the laboratories, through their mastery of detection, maturation and incubation at a new dimension. The ʺSATT Grand Estʺ will thus rapidly situate itself in a pivotal and indispensable position between academic laboratories and researchers on the one hand and the socio‐economic sector on the other, by privileging a strong connection with the players involved in promotion and innovation in the inter ‐region. In that regard the main objectives of the SATT ʺGrand Estʺ will be : - to finance and manage the development of demonstrators ready to us. This kind of activity has already been initiated in the past years by the Technology Transfer Organizations (TTO) of the future shareholders of the SATT Grand Est and as contributed to news devices ready to be transferred. For this purpose, a maturation division will be set up and project leaders who are specialist in the thematic areas of the SATT will be recruited to manage these TT projects. The main founding of the SATT will be dedicated to this activity. - to manage the IP portfolio. Operations carried out within this framework will be disclosure of the inventions, patent filling, extension and management to national and international level, portfolio management, patent mapping, licencing agreements, and management of financial returns and payment of the profits to inventors. These operations will be conducted by the IP & Legal division which will also support the laboratories for negotiating contracts principally in the case of collaborative research contracts that potentially involve IP creation. - detect the business needs and promote services. This will be carried out by the Marketing & Commercial division of the SATT Grand Est which main objective will be to visit major businesses for promotional operations of services, as well as of the news platforms developed in Equipex. This division will also collaborate with some the coming thematic valorisation consortiums (CVT) for a better promotion of the developing platform and the identification of industrial needs and potential partnerships. 55/82 3. LETTRES DE SOUTIEN
3.1. TUTELLES ET PARTENAIRES INSTITUTIONNELS
PRES DE L’UNIVERSITE DE LORRAINE
UNIVERSITE DE PROVENCE
UNIVERSITE PARIS OUEST NANTERRE
UNIVERSITE D’ORLEANS
INRIA
DGLFLF (DELEGATION A LA LANGUE FRANÇAISE ET AU LANGUE DE FRANCE)
CORPUS, INFRASTRUCTURE DE RECHERCHE
TGE ADONIS
CLARIN : A EUROPEAN RESEARCH INFRASTRUCTURE
CINES (ARCHIVAGE ET DIFFUSION)
LINGUISTIC DATA CONSORTUM
TEI CONCIL CHAIR AND ISO COMMITTEE TC37/SC4 CHAIR
LORIA
DANN BROEDER MPI
3.2. PARTENAIRES INDUSTRIELS
3.2.1
XILOPIX
3.2.2
GFI INFORMATIQUE
3.2.3
MVS
3.2.4
SAINT-GOBAIN PAM
3.2.5
EDF
3.3. COLLECTIVITES TERRITORIALES
3.3.1
REGION LORRAINE
3.3.2
CONSEIL GENERAL 54
3.3.3
GRAND NANCY
56/82 57/82 58/82 59/82 60/82 61/82 62/82 63/82 64/82 65/82 66/82 67/82 68/82 69/82 70/82 71/82 72/82 73/82 74/82 75/82 76/82 77/82 78/82 79/82 80/82 81/82 4. DEVIS
82/82 Articulograph AG501
High Precision Electromagnetic Articulograph (EMA)
Recording articulatory orofacial movements in real time, 400 Hz, up to 24 channels,
Preliminary data sheet - August 2011
easily adjustable height, more comfortable for the subject
3-dimensional Articulograph AG501 with 8 channels,
49.000 €
consisting of
Transmitter-holder
Electronic (Transmitter, Receiver, Power Supply, Control-Unit)
One Computer (Dell Notebook Linux) to control the system
Calibration unit
Synchronisation box :
With this box you are able to synchronise your acoustic and other additional data streams
External sound card and microphone for synchronized sound recording.
Program for head movement correction
The results of the positions will be transported in ASCII-Format.
(X, Y, Z as well as two angles)
Real time display while recording
8 sensors HQ220-L100-B or similar
16 channels version
57.000 €
24 channels version
65.000 €
Technical Data
Position sampling frequency exact 400 Hz
3 D Real time display
Head movement correction
Measurement field at least 300 mm sphere
Synchronized sound recording
Dynamic positional accuracy 0.3 mm RMS for line movements of 100 mm in length valid for 100 % of all data
Sensor HQ220-L100-B
scale in mm
Price of 1 package of 5 sensors
by ordering
1-2
packages
3-5
packages
6 and more
packages
HQ220-L100-B
240 €
226 €
216 €
PRODUCTS
NEW!
Oqus
Qualisys motion capture camera with high-speed video
KEY FEATURES
High speed motion capture
High speed video
Sensor resolution: 0.3, 1.3
and 4 Mpixel
Up to 600 markers
Wireless communication
Battery power
Remotely controlled aperture and
focus settings
Virtually unlimited number
of cameras
Silent operation, no fan
OEM FEATURES
Custom colors and labelling
Other sensors
Open Camera Architecture
The new generation of cameras from Qualisys represents a major
technological breakthrough in combining high performance, user
friendliness and flexibility.
Product Information
Custom applications such as web
server
QUALISYS MOTION CAPTURE CAMERA
Motion capture is ideal for a wide
range of sports applications in
research, rehabilitation, physical
education and training.
The Oqus range of cameras is the new platform for the Qualisys motion
capture systems. In addition to the precision and real time marker generation, the cameras are also capable of recording high-speed, high-resolution video. The dual functionality opens the door to entirely new areas of
applications.
This third generation of high quality cameras from Qualisys, builds on
the proven and unique concept of real-time marker calculation, inside the
camera.
MOBILITY
The system consists of a set of
digital motion capture cameras,
software, acquisition units,
calibration equipment, markers
and mounting devices.
External equipment, such as
force plates and EMG can be
synchronized.
A motion capture system based on the Oqus cameras, is uniquely mobile.
The Oqus cameras were developed with mobility, robustness and troublefree operation as key parameters. Communication with the host computer
is normally done through a single Ethernet cable at a speed of 100 Mbps.
The cameras are daisy-chained and no additional hub is needed to link
them together. Alternatively, wireless communication can be used via an
internal WLAN at 54 Mbps.
The Oqus cameras can be run on an optional battery pack. An Oqus
based system is presently the only system on the market that can be run
completely wireless. Oqus is available in an IP67-classed version and can
therefore be used in harsh condition environments. The low weight of 1.9
kilo and small dimensions, makes it easy to move the equipment between
different measurement locations.
FLEXIBILITY
The versatility and flexibility
of the system make it suitable
for many applications within
psychology and facilitates the
study of both simple and complex
movements.
Tracking a model vessel’s motions
under different wave, current or
wind conditions, is one of the
fundamental tasks at a hydrodynamics lab or a naval test site.
A range of different size, light-weight, passive retro-reflective markers, as
well as battery powered active LED markers, makes reliable data capture
possible in almost any condition, indoors as well as outdoors.
In order to match the different application needs, the Oqus cameras are
available in three different series, the Oqus 1, 3 and 5 series. The three
series are distinguished by the choice of the optical sensor. The user can
then optimize the price/performance for his particular application.
The high resolution series, enables the use of a large number of small
markers, without sacrificing accuracy. It is even possible to mix the different series within the same system.
Daisy-chainable data
Daisy-chainable power
Control port
Battery pack connection
SPECIFICATIONS
Camera output modes
Marker coordinates, high speed video, streaming video
Built-in camera display
128 × 64 graphical high contrast PLED
Camera body
Custom, die-cast aluminium
Camera size
185 × 110 × 125 mm (7.3 × 4.3 × 4.9 inches)
Weight including optics
1.9 kg (4.2 Ibs)
Cooling
Convection cooling
Camera protection level*
Water resistant IP67 housing available
Operating temperature
0-35 °C
Firmware
Upgradeable from host computer
Position data noise level
+/- 1 camera units
Adjustable threshold
Yes
Frame buffer speed
12.9 Gbyte/second
Maximum frame buffer size
1152 Mbyte
Cabeling
Bundled cable with Ethernet and power
Wired communication
Hubless daisy-chained Ethernet 802.3@100Mbps
Wireless communication*
WLAN 802.11b/g@54mbps
Power supply
Daisy-chained power from mains adaptor
Power
36-72 VDC, 10-16 VDC (battery) at 25 W maximum
Battery*
Available Q2-2007
Lens types*
Standard 40 degrees HFOV (many other options available)
Motorized optics*
Aperture and focus
Zoom lens supported*
Yes
Strobe types supported*
Infrared, red and blue/green
1-SERIES
3-SERIES
5-SERIES
CMOS sensor size (pixels)
640×480
1280×1024
2352×1728
Maximum frame rate
at full resolution and field-of-view
250 fps
500 fps
200 fps
Maximum frame rate at full resolution
and reduced field-of-view
1000 fps
10000 fps
10000 fps
x-coordinate full scale range (camera units)
41000
82000
150000
y-coordinate full scale range (camera units)
30000
65000
110000
Maximum number of markers
at full speed
600
400
600
Maximum video frame rate using
internal frame buffer
250 fps
500 fps
200 fps
Maximum buffer capacity
3800 frames
900 frames
290 frames
Maximum buffer capacity
15.2 s
1.8 s
1.4 s
*
Optional accessory/feature
Qualisys reserves the right to change specifications without notice
USABILITY
Oqus cameras are versatile and easy to use. They have a large, high-contrast PLED display showing information such as, the number of markers
in view and their intensity. Oqus has a motorized optics option, which
allows the user to adjust focus and aperture from the host computer. The
new Qualisys MMO-technology eliminates the problem with merging and
partially occluded markers.
Oqus is convection cooled and is therefore, completely noiseless during
measurements.
HIGH-SPEED VIDEO
The Oqus camera has integrated, full-frame, highspeed video capability as
an option. Using the large buffer memory in the camera, the video speed
and resolution equals the motion capture performance. The 12.9 Gb/s
bandwidth memory, can be expanded up to 1.1 GB.
The large display has good visibility
at a distance. It shows information
that simplifies set-up and maintenance of the cameras such as
camera number, number of markers
in view, average and peak marker
intensity, marker quality, etc.
INTEGRATION
The Oqus cameras are easily synchronized with external systems such as
EMG and force plates. Qualisys data acquisition software QTM, takes full
advantage of all the new features and possibilities in the Oqus cameras.
The entire system can be controlled by a single laptop or desktop PC. This
means that no heavy workstation is needed for data acquisition.
The Oqus cameras can be ordered
with standard lens systems with
focal lengths as shown in the table:
Oqus1
Oqus3
Oqus5
8 mm
12 mm
16 mm
25 mm
25 mm
50 mm
75 mm
-
25 mm
50 mm
75 mm
-
The shortest focal length for each
camera gives a horizontal field of
view of approximately 40 degrees.
2006-10-09
QUALISYS AB
Packhusgatan 6 · 411 13 Gothenburg · SWEDEN
Tel. +46 31 336 94 00 · Fax. +46 31 336 94 20
e-mail: [email protected] · www.qualisys.com
Référence article client
4-­‐3-­‐1-­‐50
4-­‐3-­‐1-­‐60
4-­‐3-­‐1-­‐9
4-­‐2-­‐2-­‐125
210-­‐31847
374-­‐13416
693-­‐11409
405-­‐11484
780-­‐12333
709-­‐10634
450-­‐15010
350-­‐10766
330-­‐10179
565-­‐10113
223-­‐10221
450-­‐12465
212-­‐10240
631-­‐10572
800-­‐10503
683-­‐11870
340-­‐21914
429-­‐14704
770-­‐11043
611-­‐10036
4-­‐0-­‐0-­‐455
4-­‐0-­‐0-­‐562
Description
Cat 3 conf 1 PowerEdge R910
Passage à une garantie ProSupport Enterprise 5 ans avec une intervention en J+1
Passage à 2 processeurs Intel Xeon huit-­‐Core E7-­‐4830 à 2.13GHz avec 24Mo de cache L2 (TDP: 105Watts)
Passage à 32Go de mémoire DDR-­‐3 à 1066MHz (16x2Go)
Ajout d un disque SAS NEAR LINE de 1To à 7.2 Ktpm (2.5 pouces) à 6Gbits
PowerEdge R910 Rack châssis
Pas de processeur additionnel
2 Disques 146Go SAS 15Ktpm 2"5
PERC H700 contrôleur RAID intégré 512Mo Cache
RAID 0 avec PERC H700
Garantie basique 3 ans avec intervention en J+1
Alimentation haute efficacité redondante (2+2 PSU) 1100W
PowerEdge R910 Bezel
Carte d extension 4x PCIe profil bas pour Poweredge R910
Carte d administration à distance iDRAC6 Express
Reglages BIOS Performance
Câbles C13/C14 12A 0.6m (quantité 2)
Double carte réseau intégrée Broadcom NetXtreme II 5709 double contrôleur
Documentation et DVDOpenManage
Commande PowerEdge -­‐ France
Vous avez décidé de ne pas opter pour le service d installation de serveurs Dell PowerEdge
Documentation systeme R910
Lecteur de DVD 16X SATA
Rails coulissants
Pas de système d exploitation
Quantité
Prix unitaire
1 3203,00 EUR
1 2000,00 EUR
1 1260,00 EUR
1 668,00 EUR
5 270,00 EUR
1 0,00 EUR
1 0,00 EUR
1 0,00 EUR
1 0,00 EUR
1 0,00 EUR
1 0,00 EUR
1 0,00 EUR
1 0,00 EUR
1 0,00 EUR
1 0,00 EUR
1 0,00 EUR
1 0,00 EUR
1 0,00 EUR
1 0,00 EUR
1 0,00 EUR
1 0,00 EUR
1 0,00 EUR
1 0,00 EUR
1 0,00 EUR
1 0,00 EUR
31
1 0,00 EUR
Lecteur de Bande PV110T LTO-­‐5 SAS interne avec carte SAS et cable (Pour serveur Tour)
1 1250,00 EUR
55
2 0,00 EUR
Licence Linux Red Hat Entreprise OEM avec 3 ans de RHN pour serveur Quadri-­‐processeur (Installé en usine) -­‐ 1 invité virtuel -­‐2 Support 1826,00 OEEM
UR
Taux de taxes
19,60%
19,60%
19,60%
19,60%
19,60%
19,60%
19,60%
19,60%
19,60%
19,60%
19,60%
19,60%
19,60%
19,60%
19,60%
19,60%
19,60%
19,60%
19,60%
19,60%
19,60%
19,60%
19,60%
19,60%
19,60%
19,60%
19,60%
19,60%
19,60%
Prix total
3830,79 EUR
2392,00 EUR
1506,96 EUR
798,93 EUR
1614,60 EUR
0,00 EUR
0,00 EUR
0,00 EUR
0,00 EUR
0,00 EUR
0,00 EUR
0,00 EUR
0,00 EUR
0,00 EUR
0,00 EUR
0,00 EUR
0,00 EUR
0,00 EUR
0,00 EUR
0,00 EUR
0,00 EUR
0,00 EUR
0,00 EUR
0,00 EUR
0,00 EUR
0,00 EUR
1495,00 EUR
0,00 EUR
4367,79 EUR
Prix total (hors taxes) : 13383,00 EUR
PRODUCTS
Qualisys Video Analysis
Markerless video tracking software
KEY FEATURES
l
l
l
l
l
l
Supports a large numbers of
digital formats
Advanced and flexible high
speed tracker
2D tracker
Automatic and manual tracking
event settings
Import and export of data
Generates reports
BENEFITS
l
QVA - Qualisys Video Analysis- is an analysis software tool used to manage
and report video data. Together with a Qualisys Motion Capture High
Speed Video System, QVA provides an advanced and affordable solution
for biomechanical motion analysis. The high speed video image can now
be evaluated both visually – by watching the sequence in slow-motion – as
well as analytically, by means of QVA. QVA is developed around and based
upon TEMA, software created by Image Systems, one of Qualisys global
strategic partners in developing and marketing world-class motion analysis
systems.
Automating processes to save
money through reduced cycle
times, reduced opportunities
for mistakes and reduced
training needs
l Having the flexibility to customize the system to meet your
local, specific data collection,
formatting, processing, analytic
and reporting requirements
l Generating consistent reports
across trials, time and systems
for performance quantification
and analysis
SYSTEM REQUIREMENTS
l
With every shipment of a Qualisys High Speed Video Camera (Oqus), a
60-day trial version of QVA will now be included for the user to install and
use at no extra charge.
Product Information
Windows 2000, XP
Pentium III, 2GHz or higher
l 1 GB RAM Memory
l Video card with >19”
@1280x1024
l
Input data
QVA’s standard input files are digital image sequences. A large number of
digital formats can be read directly during tracking: AVI, TIFF, BMP, JPEG,
MPEG2 and many others. QVA imports several different standard data
formats like tsv and ASCII. The imported data is available for all parts of
the program and can be used in calculations, graphs and tables.
All type of data can be presented
in tabulated form using rows
and columns.
Tracking
QVA uses an optimal method for tracking each frame by using fixed
cameras. The basic tracking function operates in two dimensions and produces 2D pixel coordinates for each tracked target in each image.
The tracking can be performed in a number of different modes: “Manual”,
“Semi Automatic” or “Automatic”. In the automatic mode, the
operator sets a tracker tolerance specifying how much variation in the
target features that should be tolerated. As requirements for tracking a
defined target are often user-specific, there are a number of different
tracking algorithms available:
Correlation, Quadrant, Circular, Center of gravity and Virtual points.
Furthermore, the image quality and appearance of target could vary too
which means that different algorithms and trackers setups are needed.
Diagrams in which data can be
plotted against time or other
data (X/Y-diagrams). All data,
whether tracking data, or data
input separately, can be plotted
in single or multi axis X/T or
Y/X plots with many options to
customize.
TEMA is the world leading system
for advanced motion analysis.
TEMA Covers the complete
process from bringing the image
into the program via automated
tracking and analysis to a result
presentation in predefined tables
and graphs.
User interface
The windows-based
user interface provides
for a very flexible way
of setting up tests. The
user can easily load
one or multiple camera
views and define which
points in the image
sequence that he
wants to track. There
are many options to
choose a certain function or feature: the “menu-bar”, “tool-bar” or “keybindings” all provide quick access to desired user areas.
The interface is fully synchronized: change a parameter; click on an interesting value in a table; or move the time slider to an interesting position on
a curve – all windows will be updated automatically and show the corresponding image in the image sequence, curve or table.
The time panel gives the user perfect control and overview of playing and
tracking the image sequence. Step by step, normal speed or fast-forward;
all supported in both directions.
Software features
QVA can track a number of points throughout the image sequence and the results can be presented in a
variety of predefined graphs and tables. Depending on the requirements of the user, QVA is offered in different versions, each with its own unique features. The standard version contains following features.
Tracking
Correlation
Number of points in one session
5
Import of image
AVI, TIFF, MPEG, JPEG and others
Export of diagrams and images
To Word document
Scaling
Dynamic, static and manually scaling
Co-ordinate system
Visualizing of grid system/division and scale of image
Diagram
X/Y, X/T diagram, full interactivity
Tables
Free choice of parameters, full interactivity
Toolbox
Several options except printing parameters, scales of diagrams printing of logo types, test comments etc.
Tools and properties
QVA has a large set of predefined tools available to the user. This function
makes it easy to handle functions such as image improvement, measurements
in images and to perform calculations for the analysis.
OPTIONS
3D with two or more fixed cameras and a series of defined fixed targets in
any one image can be tracked. The observations (tracked pixel coordinates)
from each camera, computes the direction from each camera to the target,
and finds the target position that is the best fit to the observations
6 Degrees of Freedom (6DOF) is an optional feature that computes the position and orientation of a tracked rigid body from a single camera. The motion
of the rigid body can be described with six parameters: three positions coordinates (x, y and z), which gives the position of a specific point on the body, and
three altitude angles (roll, pitch and yaw), which gives its orientation in space.
To correct the image data from the camera, lens calibration is performed by
using a mathematical model of distortion. A sequence of images from a target
board is imported into the program and the coordinates of the target positions relative to the lens center is calculated.
Viewer allows the recipient to rerun the tracking with the images, graphs and
spreadsheet data synchronized. Data collected during this process can easily
be copied into other documents; the user does not require any additional program installation to run it.
The operator can also
define properties like angles
and distances between
points. The system will then
automatically calculate distance, angles, angle velocity
and angle acceleration for
each frame in the sequence.
Presentation
One of the great advantages using the QVA system, is the possibility to
present data and results in customized graphs and tables. It is easy to add
comments, special graphics as well as to customize the appearance of
a certain view. The main tools for presentations are 2D diagrams, diagrams in which data can be plotted against time or other values. All data,
whether tracking data, or data inputted separately, can be plotted in single
or multi axis X/T or Y/X plots with numerous options to customize.
FEATURES
FLEXIBLE - The flexible
windows-based user interface
makes it fast and easy to
find the best setup for your
application. Key-bindings to
the menu system make the
operation very fast
POWERFUL - Handles and
analyses at rapid speed large
quantities of data from high
speed cameras and other
sensors. The operator can
choose between a large
number of tracking algorithms
and track an unlimited number
of points throughout the image
sequence.
SYNCHRONIZED - The
User Interface is “Fully
synchronized”: any change
of parameters or set-up will
directly affect all parts of the
tracking session, updating
results, graphs and tables.
Tables: All types of data can be presented in tabulated form using rows
and columns. The diagram can easily be customized with different headers
or combination of data.
COMPATIBLE - The system
handles all major image formats
on the market and has options
to control most of the available
cameras such as Phantom,
Photron, Redlake and others.
Applications
QVA provides maximum flexibility in managing, analyzing, and reporting
optical data collected by the Qualisys Motion Capture System and Oqus
High Speed Video. QVA has evolved from being a research tool into the
most powerful and practical solution for many industries and researchers
in fields, such as:
• Clinical Motion Analysis (including Gait Analysis)
• Human Factors Engineering and Ergonomics
• Neuroscience
• Sports motion analysis
• Animal motion studies
• Psychology studies
2007-11-29
Qualisys AB
Packhusgatan 6 · 411 13 Gothenburg · SWEDEN
Tel. +46 31 336 94 00 · Fax. +46 31 336 94 20
e-mail: [email protected] · www.qualisys.com
Scanners de livres et logiciels de restauration d'images
http://www.i2s-bookscanner.com/produits.asp?IDPAGE=27&sX_Menu_selectedID=left_BC60CF75
i2S DigiBook propose une gamme complète de scanners de livres (manuels ou automatiques) pouvant numériser, en couleur ou niveaux de gris,
tous types de documents reliés jusqu’au format A0 (livres anciens, manuscrits, incunables, registres d’état civil, plans, journaux, magazines,
cahiers de paillasse, plaques de verre, ...) et des logiciels de restauration et de compression d’images.
Les scanners de livres d’i2S DigiBook répondent aux exigences les plus strictes en matière de conservation d’ouvrages fragiles et précieux, et
garantissent une exceptionnelle qualité de numérisation, le respect des documents et le confort de l’opérateur.
De nombreux accessoires sont également disponibles en option tels que les balances porte-livres, les supports de livres 120° ou encore les vitres
amovibles. Ceux-ci permettent de numériser en toute sécurité les ouvrages présentant des problématiques spécifiques (épaisseur de la reliure,
angle d’ouverture,…).
Scanners manuels
1 sur 2
Scanners automatiques
Logiciel BookRestorer
07/09/2011 21:54

Documents pareils