Tutoriel import de transcriptions entretiens TXT-ODT-RTF

Transcription

Tutoriel import de transcriptions entretiens TXT-ODT-RTF
Tutoriel de conversion de transcriptions en format Texte
(.odt, .rtf ou .doc) éventuellement synchronisées
(marques de synchronisation) vers le format Transcriber
(.trs) pour import dans TXM
Copyright © 2013 – ENS de Lyon
Ce document est publié sous licence Creative Commons BY-NC-SA :
http://creativecommons.org/licenses/by-nc-sa/3.0/fr
Table des mises à jour
01/01/2013 Justine Lascar
Création
08/10/2013 Matthieu Decorde Réorganisation et réécriture partielle
31/10/2013 Serge Heiden
Réécriture
26/11/2013 Matthieu Decorde Mise à jour des liens et noms de fichier
03/03/2014 Matthieu Decorde Mise à jour pour TXM 0.7.5
N° d'édition : 21
Date d'édition : 08/04/14, 10:45:39
Ce document explique comment préparer des fichiers de type Word, ODT,
RTF ou Transana pour que TXM puisse les interpréter. Il est découpé en 3
grandes parties : préparation des fichiers, préparation de TXM et annexes.
Prérequis
Avant tout, il faut avoir installé la dernière version de TXM (0.7.5) et Libre
Office ou (OpenOffice 3).
Liens directs pour OpenOffice 3 par système d'exploitation :
– windows :
http://archive.apache.org/dist/incubator/ooo/files/localized/fr/3.4.1/A
pache_OpenOffice_incubating_3.4.1_Win_x86_install_fr.exe
– mac :
http://archive.apache.org/dist/incubator/ooo/files/localized/fr/3.4.1/A
pache_OpenOffice_incubating_3.4.1_MacOS_x86_install_fr.dmg
Conventions de transcription nécessaires pour le bon
fonctionnement de la macro « Transcription2TRS »
Ces conventions sont adaptées pour la saisie de transcriptions avec le
logiciel Transana, mais elles peuvent également servir à transcrire
directement dans LibreOffice Writer, Microsoft Word ou tout éditeur de
texte. La stratégie d'importation dans TXM consiste à transformer
automatiquement la transcription vers le format XML du logiciel
Transcriber avec l'aide d'un script Groovy puis à utiliser le module d'import
Transcriber+CSV. Les principes du module d'import Transcriber+CSV de
TXM s'appliquent donc également à ce type de transcriptions. Par
exemple, l'importation est réalisée à partir d'un lot de plusieurs
transcriptions rassemblées dans un même répertoire.
Préambule de la transcription
Tout ce qui précède la première marque de synchronisation ne fait pas
partie du corps de la transcription, mais est affiché en préambule dans la
première page de l'édition de la transcription.
Il faut toujours placer une première marque de synchronisation au début
de la transcription (même si on ne souhaite pas mettre de marques de
synchronisation dans la transcription). Par exemple « (00:00:00.0) » si la
transcription commence dès le début de l'enregistrement. Tout ce qui se
situe avant cette première marque est considéré comme préambule, n'a
pas à suivre les règles du corps de la transcription (sections, tours de
parole, etc.) et ne fera pas partie de la transcription. On peut donc y
mettre n'importe quel texte (texte introductif, métadonnées sur les
locuteurs ou la situation, informations de durée, conditions, etc.).
Il faut également toujours mettre une marque de synchronisation à la fin
du dernier tour de la transcription. Par exemple « (01:00:00.0) » pour un
cours ou un entretien qui a duré une heure.
Tours de parole
La saisie d'un tour de parole commence par un code de locuteur en début
de ligne, immédiatement suivi d'un caractère <Tabulation> (touche « >| » puis de la transcription de l’énoncé. L'identifiant du locuteur est
systématiquement passé en majuscules pour uniformiser tous les
identifiants.
Astuces : Pour vérifier que les tabulations entre les codes de locuteur et
les transcriptions d’énoncés sont bien placées dans Writer/Word : vous
pouvez transformer le texte de la transcription en tableau (sélectionner le
texte des tours de parole et utiliser la commande 'Tableau > Convertir >
Texte en tableau') et vérifier que l’on obtient bien que deux colonnes :
– la première colonne ne contient que des codes de locuteurs (avec
éventuellement des adresses ou autre entre parenthèses)
– la deuxième colonne ne contient que ce qui est dit ou fait.
On peut également faire la recherche de tabulations doublées : ‘\t\t’ dans
le module de recherche de Writer (‘^t^t’ dans le module de recherche de
Word) pour trouver 2 tabulations qui se suivent, les remplacer alors par
une seule '\t' dans Writer (ou ‘^t’ dans Word).
Marques de synchronisation
La transcription peut contenir des marques de synchronisation sous la
forme « (hh:mm:ss.M) ». Par exemple ”(0:00:48.5)”, soit à 48 secondes et
demi du début de l'enregistrement. Il faut placer ces marques au sein des
tours de paroles. Une bonne pratique est de les placer soit en début soit
en fin de tour.
TXM affectera un temps de début et de fin à chaque tour de parole,
éventuellement en approximant en cas de manque de certaines marques
de synchronisation dans la transcription.
Commentaires
Les commentaires sont entre parenthèses ou entre crochets. Le fait qu'ils
soient dans un certain style, par exemple en italiques, n'est pas différencié
; Une bonne pratique consiste à mettre entre parenthèses tout ce qui n’est
pas de la parole.
Sections
La transcription peut être divisée en sections, caractérisées par des
propriétés. Une section commence par une ligne au format suivant :
[propriété1="une valeur" propriété2="une autre valeur"]
«propriété1» et «propriété2» sont des noms de propriétés de la section qui
prennent pour valeur « une valeur » et « une autre valeur » jusqu'à la
prochaine section.
Les lignes de début de section doivent respecter les règles suivantes :
– Le nom d'une propriété ne doit pas contenir d'accent ni d'espace ou
de ponctuation. Astuce : on pourra remplacer les espaces par des
soulignés (_)
– La valeur de la propriété doit être entre guillemets anglais "..."
– Les propriétés sont séparées par un espace
– Une nouvelle section ferme la section qui la précède.
Astuce : si jamais une propriété de section n'a pas de valeur à prendre, on
peut lui mettre la valeur conventionnelle "none". Cela sera plus pratique
pour traiter l'absence de valeur dans TXM.
Attention : il ne doit rien avoir d'autre dans cette ligne (pas de
commentaire ni de marque de synchronisation)
Ponctuations
La ponctuation de la transcription est ignorée (elle n'est pas indexée dans
le lexique des unités lexicales) mais est restituée dans les pages d'édition
pour faciliter sa lecture.
Préparation de TXM
A faire, une seule fois par installation de TXM.
– Télécharger l'archive «transana-rtf-odt-doc-txttranscription4txm.zip ». Disponible ici :
http://sourceforge.net/projects/txm/files/software/TXM
%20macros/transana-rtf-odt-doc-txt-transcription4txm.zip/download
– Extraire l'archive sur votre disque. Cette archive contient :
– un dossier ‘macro’ contenant un dossier « org » qui contient les
macros (scripts Groovy) nécessaires pour la transformation vers
le format « .trs ». Copier le dossier « org » dans le dossier
« $HOME/TXM/scripts/macro ». « $HOME » est votre répertoire
utilisateur de votre système (Par exemple, sous Windows XP :
« C:\Documents and Settings\<nom d'utilisateur> » ou
« C:\Users\<nom d'utilisateur> » sous Windows Seven)
– un dossier ‘model’ contenant le modèle de langue du français
oral et écrit pour transcriptions « fr.par » pour TreeTagger
(attention le fichier a le même nom que celui du modèle de
langue du français standard mais dans ce cas il s’agit du modèle
français écrit et oral)
– un fichier « trans-14.dtd » obligatoire pour que TXM puisse lire les
fichiers « .trs ». si les fichiers « .trs » sont plus tard déplacés dans
un dossier ‘corpus’ penser à recopier ce fichier également
– Ce tutoriel
– Paramétrer TXM pour qu'il prenne en compte le modèle du français
pour transcription :
– Dans la page de préférences « TXM/Avancé/TAL/TreeTagger » de
TXM, modifier le chemin des modèles de TreeTagger pour qu'il
pointe vers le dossier « model » de l'archive.
– Ou bien copier le fichier « fr.par » de l'archive dans le répertoire
des modèles de TreeTagger en faisant attention au conflit de
noms de fichiers si un modèle français existe déjà. Dans ce cas,
renommer le modèle français existant.
Lancer la conversion <odt, rtf, doc> vers <trs>
– Regrouper les transcriptions à traiter dans un dossier. Ne pas oublier
d’y ajouter le fichier trans­14.dtd, sans cela le script ne
fonctionnera pas.
– Lancer TXM et ouvrir la vue Macros avec le menu Affichage > Vues >
Macros
Illustration 1: Entrée de menu "Macros"
– Double cliquer sur la macro ‘TextTranscription2TRS’ du sousdossier « org/txm/importer/transcription » de la vue macro, et une
fenêtre de dialogue apparaît.
Illustration 2: Configuration de la transformation
– Choisir l’emplacement du dossier contenant les fichiers odt, rtf ou
doc à traiter
– Laisser le paramètre ‘debug’ à la valeur ‘n’ (sauf si vous rencontrez
des erreurs lors de l'exécution)
– Puis cliquer sur 'Run'
– Après quelques secondes un dossier ‘out’ contenant les nouveaux
fichiers .trs est créé dans le dossier traité.
Rapport d’erreurs et corrections
Pendant l'exécution de la macro, le cas échéant, un rapport d’erreurs
apparaît dans la console de TXM. Il contient également le repérage des
sections thématiques et organisationnelles créées.
Illustration 3: Extrait des messages d'exécution de la transformation
Ces informations doivent vous servir à corriger vos transcriptions pour
obtenir un codage optimal des transcriptions (tours de parole,
commentaires, marques de synchronisation, etc.). Pour cela, retourner au
fichiers Transana, ODT, RTF ou DOC originaux, corriger les erreurs puis
reconvertir les fichiers selon cette même procédure.
Cas de Transana : il est préférable de corriger directement dans Transana
et de régénérer le RTF ainsi corrigé. De cette façon, on a toujours les
dernières versions et elles se correspondent.
Typologie de nom de fichier : pour ne pas se tromper entre les différentes
versions, ajouté « _txm date de la modification » au nom de fichier ex :
01P1 03 17092010.rtf devient 01 P1 03 17092010_txm 010613.rtf
Import dans TXM
Pour l’import des fichiers .trs dans TXM, vous référer à la documentation
du module d’import Transcriber+CSV consultable ici :
http://txm.sourceforge.net/doc/manual/manual65.xhtml#toc215
Dans cette phase, ne pas oublier d'utiliser le bon modèle de la langue du
dossier « model » de TXM puis de réaliser le bon réglage dans
l’application :
Préférences > TXM > Avancé > TAL > TreeTagger > choix du répertoire >
model
Illustration 4: Changement des préférences de TreeTagger
Annexes
Création d'un fichier RTF depuis le logiciel de transcription
Transana
Tout d’abord, dans le logiciel Transana exporter la transcription vers le
format RTF avec les valeurs temporelles visibles mais sans les codes
temps.
Fichier > sauvegarder le fichier sous > choisir RTF puis valider ‘non’ dans
sauvegarder les codes temps.
Conventions spécifiques à l'équipe ICAR2 (didactique des
sciences et des langues)
sections thématiques
– Organisation : (nommer les catégories en anglais). Prend les valeurs
suivantes
– Class (classe entière)
– Group (travail en petits groupes)
– Mixed (travail en petits groupes avec des
interruptions/interventions PLENIERES de la prof, qui concernent
toute la classe)
– Individual (travail individuel, chaque élève travaille sur sa propre
tâche)
– Monitoring Group (travail en groupes AVEC interventions
spécifiques de l’enseignant auprès du groupe concerné, filmé)
– Monitoring Individual (travail individuel AVEC interventions
spécifiques de l’enseignant auprès de l’élève concerné, filmé)
– …
Nom de fichier transcription
Astuce : afin de pouvoir réaliser des analyses chronologiques dans TXM,
noter un numéro à deux chiffres devant le nom de la transcription. Par
exemple « P1 S01 10092010 » devient « 01 P1 S01 10092010 »

Documents pareils