Compte rendu réunion MULTICOM - Service de listes de diffusion

Transcription

Compte rendu réunion MULTICOM - Service de listes de diffusion
Compte rendu réunion MULTICOM Groupe projet MULTICOM­CORLI, “Multimodalité et nouvelles formes de communication” (MULTICOM­ GP2) du nouveau consortium CORLI (Corpus, Langues et Interactions) Mercredi 15 juin 2016, CNAM Paris Version du 23 juin 2016, auteurs : Dominique Boutet, Céline Poudat et Thierry Chanier ●
●
Liste de discussions de MULTICOM : https://groupes.renater.fr/sympa/info/multicom­corli Wiki : ​
https://groupes.renater.fr/wiki/multicom­corli Participants​
: ​
Auriac­SLusarczyk Emmanuèle, Bigi Brigitte, Bontemps Nicolas, Boutet Dominique, Boutora Leila, Caët Stéphanie, Chanier Thierry, Claudel Chantal, El Ayari Sarra, Demagny Anne­Claude, Falaise Achille, Ferré Gaëlle, Gobet Stéphanie, Ho­Dac Mai, Jackiewicz Agata, Longhi Julien, Martel Karine, Morel Jean­François, Poudat Céline, Sallandre Marie­Anne, Wigham Ciara. Documents présentés lors de la réunion ●
Ce compte rendu et diaporamas sur le wiki : https://groupes.renater.fr/wiki/multicom­corli/public/reunion­14juin Notamment les diaporamas présentés par Dominique Boutet, Céline Poudat et Thierry Chanier: ● Bilan 2013­15 du groupe Nouvelles formes de communication (ex Consortium Corpus­écrits IRCE) ● Bilan 2013­15 de l'ex consortium IRCOM (corpus oraux et multimodaux) ● Travail du groupe CORLI­INTEREXPLO (Interopérabilité / Exploration de corpus / Annotation de haut niveau) Actions Les propositions d’actions discutées lors de cette réunion sont tournées vers 3 pôles : ● 1) Journée de formations ​
présentant les méthodologies et outils sur les corpus oraux, multimodaux et écrits. Des formations avaient été organisées de façon distincte dans IRCOM et Corpus­écrits. L’enjeu ici en synthétisant les besoins communs est d’offrir aux personnes travaillant sur les corpus multimodaux des perspectives d’exploration, analyse nouvelles partiellement basées sur celles des corpus écrits. ● 2) projets de recherche​
transversaux sur l’oral, le multimodal et l’écrit ● 3) état des lieux des systèmes de transcriptions 1) Formations ●
●
●
●
Octobre 2016 : Journée de présentation croisée des outils/logiciels utilisés pour l'oral/multimodal et pour l'écrit. Une demi­journée pour chaque communauté comprenant 1h30 de présentation et pendant 1h30 des questions des participants qui expriment les besoins et les attentes vis­à­vis de leur données en regard des moyens logiciels portés par l'autre communauté. ○ Objectif : déterminer les formations prioritaires des logiciels en usage pour l'écrit en direction des chercheurs pour l'oral/multimodal et réciproquement. La formation Outils d’analyse de données et d’exploration de corpus sera mise en place par le GT1­CORLI INTEREXPLO à la mi­novembre; les deux GT se coordoneront pour articuler les besoins et les liens entre linguistes de l’oral et linguistes de l’écrit (prévoir par exemple un import ELAN) Côté oral/multimodal 4 formations en novembre soit à Lyon soit à Paris ○ ­ Enregistrement audio et vidéo (Coralie Vincent, Christophe Savariaux, Franck Guillemain). 2 groupes sur deux jours ○ ­ CLAN (Annie­Claude Demagny, Stéphanie Caët). 2 jours. ○ ­ ELAN (Isabelle Rousset, Christophe Parisse, Dominique Boutet et Coralie Vincent). 2 groupes de niveau sur deux jours, avec une présentation commune sur les exports de transcrits et sous­titrage. ○ ­ SPASS (Brigitte Bigi) 1 journée et demie. Programme de formation étendu : début 2017, mise en forme d'une offre de formation duplicable au niveau des écoles doctorales par grandes régions avec intervenants CORLI sur invitation de ces écoles qui gèrent la logistique, les inscriptions, la communication et rétribuent les intervenants (car ces écoles ont des budgets pour les intervenants extérieurs en formation). 2) Mise en place de projets communs transversaux oral / écrit Une notable fraction des participants ont d'une part des données et des corpus, et d’autre part des pratiques et des envies de recherche. Afin de mettre en oeuvre des projets communs, tant méthodologiques que scientifiques, on adoptera une approche ​
bottom­up​
, en suivant un modèle qui a bien fonctionné dans les groupes actifs des consortiums précédents : ● Dans un premier temps, on ouvrirait un Google sheet (adresse de ce tableur en ligne à venir ; ce sera diffusé sur la liste Multicom) où chaque membre de la liste de discussion ○ déclare les corpus / données sur lesquels ils travaillent et qu'ils pourraient apporter en support de discussion au sein des groupes ○ indique ce qu'il attend de notre groupe en terme d'objet de travail, cf. les thèmes précédents ● On fixe des délais de participation à ce document en ligne et on en établit ensuite une synthèse fixant un ensemble de grands thèmes à privilégier. ●
On planifie une première réunion présentielle début 2017​
, où chacun amène des exemples de données, et où les thèmes ayant émergé sont discutés. Parmi les thèmes qui pourraient se dégager : ● corpus multimodaux rassemblant des corpus de langue des signes, de classe d'apprentissage, corpus Mulce­CoMeRe + autres apports de la liste : traitement et organisation de ces corpus avec les différentes sources (audio, vidéo), schémas d'encodage / transcription (échanges des travaux déjà faits) et outils associés, travail sur les transcriptions textuelles avec d'autres linguistes des corpus oraux et textuels, travail méthodologique sur le traitement des corpus annotés au moyen des méthodes de l’analyse de données textuelles qui résistent actuellement à ce type de données ­ comment gérer des corpus multi­couches avec des annotations complexes, et articuler les traitements de ces corpus aux métadonnées nombreuses qui les décrivent? diffusion de ces corpus (nécessité d'ouvrir de façon concerté un dialogue avec ORTOLANG pour prévoir l'avenir car tout reste à faire et pour l'heure ils bossent surtout sur le texte), travail sur la TEI (à partir de TEI­CMC mais pour répondre à des besoins plus précis sur cet aspect multimodal), sans doute encore autre chose du côté CMC (autres que ceux mentionnés précédemment) où le multimodal s'interprète avec la présence de texte et d'images ou de vidéos (tweets multimodaux ?) ● corpus d'écrits collaboratifs​
: Les corpus d’écrits scolaires, Corpus sur l’écrit collaboratif partiellement ou totalement en ligne en situation d’apprentissage, La question abordée aux IRD de Rennes du texte et de son commentaire, qui fédérerait les travaux sur les systèmes d’écriture collaborative de type gdoc, des écrits CMC comme Wikipédia, et des écrits scolaires (le texte et son annotation). Etat des lieux des systèmes de transcription multimodaux (langues des signes et autres situations) Même si ce travail est destiné à se dérouler sur le moyen terme, nous avons une échéance à court terme du fait des attentes de Huma­Num : le consortium CORLI en fin de première année de labellisation (septembre 2016 ?) doit rendre un rapport fixant pour les années à venir des objectifs clairs, un calendrier défini, des livrables identifiés correspondant aux besoins des communautés linguistiques. ● Dominique Boutet lance l’action en diffusant sur la liste l’adresse d’un tableau collaboratif (Google sheets) avec critères de description ­ une première structure de grille pourrait émerger en juillet ●
­ Sarra El Ayari développe pour l’AT un site web collaboratif qui pourrait servir de modèle et de structure pour accueillir un site vivant sur la question.