Tutoriel import de transcriptions entretiens TXT-ODT-RTF
Transcription
Tutoriel import de transcriptions entretiens TXT-ODT-RTF
Tutoriel de conversion de transcriptions en format Texte (.odt, .rtf ou .doc) éventuellement synchronisées (marques de synchronisation) vers le format Transcriber (.trs) pour import dans TXM Copyright © 2013 – ENS de Lyon Ce document est publié sous licence Creative Commons BY-NC-SA : http://creativecommons.org/licenses/by-nc-sa/3.0/fr Table des mises à jour 01/01/2013 Justine Lascar Création 08/10/2013 Matthieu Decorde Réorganisation et réécriture partielle 31/10/2013 Serge Heiden Réécriture 26/11/2013 Matthieu Decorde Mise à jour des liens et noms de fichier 03/03/2014 Matthieu Decorde Mise à jour pour TXM 0.7.5 N° d'édition : 21 Date d'édition : 08/04/14, 10:45:39 Ce document explique comment préparer des fichiers de type Word, ODT, RTF ou Transana pour que TXM puisse les interpréter. Il est découpé en 3 grandes parties : préparation des fichiers, préparation de TXM et annexes. Prérequis Avant tout, il faut avoir installé la dernière version de TXM (0.7.5) et Libre Office ou (OpenOffice 3). Liens directs pour OpenOffice 3 par système d'exploitation : – windows : http://archive.apache.org/dist/incubator/ooo/files/localized/fr/3.4.1/A pache_OpenOffice_incubating_3.4.1_Win_x86_install_fr.exe – mac : http://archive.apache.org/dist/incubator/ooo/files/localized/fr/3.4.1/A pache_OpenOffice_incubating_3.4.1_MacOS_x86_install_fr.dmg Conventions de transcription nécessaires pour le bon fonctionnement de la macro « Transcription2TRS » Ces conventions sont adaptées pour la saisie de transcriptions avec le logiciel Transana, mais elles peuvent également servir à transcrire directement dans LibreOffice Writer, Microsoft Word ou tout éditeur de texte. La stratégie d'importation dans TXM consiste à transformer automatiquement la transcription vers le format XML du logiciel Transcriber avec l'aide d'un script Groovy puis à utiliser le module d'import Transcriber+CSV. Les principes du module d'import Transcriber+CSV de TXM s'appliquent donc également à ce type de transcriptions. Par exemple, l'importation est réalisée à partir d'un lot de plusieurs transcriptions rassemblées dans un même répertoire. Préambule de la transcription Tout ce qui précède la première marque de synchronisation ne fait pas partie du corps de la transcription, mais est affiché en préambule dans la première page de l'édition de la transcription. Il faut toujours placer une première marque de synchronisation au début de la transcription (même si on ne souhaite pas mettre de marques de synchronisation dans la transcription). Par exemple « (00:00:00.0) » si la transcription commence dès le début de l'enregistrement. Tout ce qui se situe avant cette première marque est considéré comme préambule, n'a pas à suivre les règles du corps de la transcription (sections, tours de parole, etc.) et ne fera pas partie de la transcription. On peut donc y mettre n'importe quel texte (texte introductif, métadonnées sur les locuteurs ou la situation, informations de durée, conditions, etc.). Il faut également toujours mettre une marque de synchronisation à la fin du dernier tour de la transcription. Par exemple « (01:00:00.0) » pour un cours ou un entretien qui a duré une heure. Tours de parole La saisie d'un tour de parole commence par un code de locuteur en début de ligne, immédiatement suivi d'un caractère <Tabulation> (touche « >| » puis de la transcription de l’énoncé. L'identifiant du locuteur est systématiquement passé en majuscules pour uniformiser tous les identifiants. Astuces : Pour vérifier que les tabulations entre les codes de locuteur et les transcriptions d’énoncés sont bien placées dans Writer/Word : vous pouvez transformer le texte de la transcription en tableau (sélectionner le texte des tours de parole et utiliser la commande 'Tableau > Convertir > Texte en tableau') et vérifier que l’on obtient bien que deux colonnes : – la première colonne ne contient que des codes de locuteurs (avec éventuellement des adresses ou autre entre parenthèses) – la deuxième colonne ne contient que ce qui est dit ou fait. On peut également faire la recherche de tabulations doublées : ‘\t\t’ dans le module de recherche de Writer (‘^t^t’ dans le module de recherche de Word) pour trouver 2 tabulations qui se suivent, les remplacer alors par une seule '\t' dans Writer (ou ‘^t’ dans Word). Marques de synchronisation La transcription peut contenir des marques de synchronisation sous la forme « (hh:mm:ss.M) ». Par exemple ”(0:00:48.5)”, soit à 48 secondes et demi du début de l'enregistrement. Il faut placer ces marques au sein des tours de paroles. Une bonne pratique est de les placer soit en début soit en fin de tour. TXM affectera un temps de début et de fin à chaque tour de parole, éventuellement en approximant en cas de manque de certaines marques de synchronisation dans la transcription. Commentaires Les commentaires sont entre parenthèses ou entre crochets. Le fait qu'ils soient dans un certain style, par exemple en italiques, n'est pas différencié ; Une bonne pratique consiste à mettre entre parenthèses tout ce qui n’est pas de la parole. Sections La transcription peut être divisée en sections, caractérisées par des propriétés. Une section commence par une ligne au format suivant : [propriété1="une valeur" propriété2="une autre valeur"] «propriété1» et «propriété2» sont des noms de propriétés de la section qui prennent pour valeur « une valeur » et « une autre valeur » jusqu'à la prochaine section. Les lignes de début de section doivent respecter les règles suivantes : – Le nom d'une propriété ne doit pas contenir d'accent ni d'espace ou de ponctuation. Astuce : on pourra remplacer les espaces par des soulignés (_) – La valeur de la propriété doit être entre guillemets anglais "..." – Les propriétés sont séparées par un espace – Une nouvelle section ferme la section qui la précède. Astuce : si jamais une propriété de section n'a pas de valeur à prendre, on peut lui mettre la valeur conventionnelle "none". Cela sera plus pratique pour traiter l'absence de valeur dans TXM. Attention : il ne doit rien avoir d'autre dans cette ligne (pas de commentaire ni de marque de synchronisation) Ponctuations La ponctuation de la transcription est ignorée (elle n'est pas indexée dans le lexique des unités lexicales) mais est restituée dans les pages d'édition pour faciliter sa lecture. Préparation de TXM A faire, une seule fois par installation de TXM. – Télécharger l'archive «transana-rtf-odt-doc-txttranscription4txm.zip ». Disponible ici : http://sourceforge.net/projects/txm/files/software/TXM %20macros/transana-rtf-odt-doc-txt-transcription4txm.zip/download – Extraire l'archive sur votre disque. Cette archive contient : – un dossier ‘macro’ contenant un dossier « org » qui contient les macros (scripts Groovy) nécessaires pour la transformation vers le format « .trs ». Copier le dossier « org » dans le dossier « $HOME/TXM/scripts/macro ». « $HOME » est votre répertoire utilisateur de votre système (Par exemple, sous Windows XP : « C:\Documents and Settings\<nom d'utilisateur> » ou « C:\Users\<nom d'utilisateur> » sous Windows Seven) – un dossier ‘model’ contenant le modèle de langue du français oral et écrit pour transcriptions « fr.par » pour TreeTagger (attention le fichier a le même nom que celui du modèle de langue du français standard mais dans ce cas il s’agit du modèle français écrit et oral) – un fichier « trans-14.dtd » obligatoire pour que TXM puisse lire les fichiers « .trs ». si les fichiers « .trs » sont plus tard déplacés dans un dossier ‘corpus’ penser à recopier ce fichier également – Ce tutoriel – Paramétrer TXM pour qu'il prenne en compte le modèle du français pour transcription : – Dans la page de préférences « TXM/Avancé/TAL/TreeTagger » de TXM, modifier le chemin des modèles de TreeTagger pour qu'il pointe vers le dossier « model » de l'archive. – Ou bien copier le fichier « fr.par » de l'archive dans le répertoire des modèles de TreeTagger en faisant attention au conflit de noms de fichiers si un modèle français existe déjà. Dans ce cas, renommer le modèle français existant. Lancer la conversion <odt, rtf, doc> vers <trs> – Regrouper les transcriptions à traiter dans un dossier. Ne pas oublier d’y ajouter le fichier trans14.dtd, sans cela le script ne fonctionnera pas. – Lancer TXM et ouvrir la vue Macros avec le menu Affichage > Vues > Macros Illustration 1: Entrée de menu "Macros" – Double cliquer sur la macro ‘TextTranscription2TRS’ du sousdossier « org/txm/importer/transcription » de la vue macro, et une fenêtre de dialogue apparaît. Illustration 2: Configuration de la transformation – Choisir l’emplacement du dossier contenant les fichiers odt, rtf ou doc à traiter – Laisser le paramètre ‘debug’ à la valeur ‘n’ (sauf si vous rencontrez des erreurs lors de l'exécution) – Puis cliquer sur 'Run' – Après quelques secondes un dossier ‘out’ contenant les nouveaux fichiers .trs est créé dans le dossier traité. Rapport d’erreurs et corrections Pendant l'exécution de la macro, le cas échéant, un rapport d’erreurs apparaît dans la console de TXM. Il contient également le repérage des sections thématiques et organisationnelles créées. Illustration 3: Extrait des messages d'exécution de la transformation Ces informations doivent vous servir à corriger vos transcriptions pour obtenir un codage optimal des transcriptions (tours de parole, commentaires, marques de synchronisation, etc.). Pour cela, retourner au fichiers Transana, ODT, RTF ou DOC originaux, corriger les erreurs puis reconvertir les fichiers selon cette même procédure. Cas de Transana : il est préférable de corriger directement dans Transana et de régénérer le RTF ainsi corrigé. De cette façon, on a toujours les dernières versions et elles se correspondent. Typologie de nom de fichier : pour ne pas se tromper entre les différentes versions, ajouté « _txm date de la modification » au nom de fichier ex : 01P1 03 17092010.rtf devient 01 P1 03 17092010_txm 010613.rtf Import dans TXM Pour l’import des fichiers .trs dans TXM, vous référer à la documentation du module d’import Transcriber+CSV consultable ici : http://txm.sourceforge.net/doc/manual/manual65.xhtml#toc215 Dans cette phase, ne pas oublier d'utiliser le bon modèle de la langue du dossier « model » de TXM puis de réaliser le bon réglage dans l’application : Préférences > TXM > Avancé > TAL > TreeTagger > choix du répertoire > model Illustration 4: Changement des préférences de TreeTagger Annexes Création d'un fichier RTF depuis le logiciel de transcription Transana Tout d’abord, dans le logiciel Transana exporter la transcription vers le format RTF avec les valeurs temporelles visibles mais sans les codes temps. Fichier > sauvegarder le fichier sous > choisir RTF puis valider ‘non’ dans sauvegarder les codes temps. Conventions spécifiques à l'équipe ICAR2 (didactique des sciences et des langues) sections thématiques – Organisation : (nommer les catégories en anglais). Prend les valeurs suivantes – Class (classe entière) – Group (travail en petits groupes) – Mixed (travail en petits groupes avec des interruptions/interventions PLENIERES de la prof, qui concernent toute la classe) – Individual (travail individuel, chaque élève travaille sur sa propre tâche) – Monitoring Group (travail en groupes AVEC interventions spécifiques de l’enseignant auprès du groupe concerné, filmé) – Monitoring Individual (travail individuel AVEC interventions spécifiques de l’enseignant auprès de l’élève concerné, filmé) – … Nom de fichier transcription Astuce : afin de pouvoir réaliser des analyses chronologiques dans TXM, noter un numéro à deux chiffres devant le nom de la transcription. Par exemple « P1 S01 10092010 » devient « 01 P1 S01 10092010 »