Bidouiller pour exploiter Frantext libre de droit

Transcription

Bidouiller pour exploiter Frantext libre de droit
Transformer les fichiers de Frantext libre de droit
à l’aide de Notepad++
Comme nous l’avons vu lors de la première journée du séminaire, les fichiers « Frantext libre
de droit » disponibles sur le site du CNRTL (www.cnrtl.fr/corpus/frantext) ne sont pas
directement exploitables à l’aide du logiciel AntConc, car il ne s’agit pas de texte brut mais de
fichiers XML. La transformation de fichier XML en texte brut, si l’on veut s’assurer qu’elle
est de bonne qualité, doit être faite à l’aide d’une feuille de style XSLT et d’un processeur
XSLT.
L’objet de ce séminaire n’est cependant pas de faire de vous des informaticiens et je vous
propose ici une « bidouille » permettant d’utiliser Notepad++ et la fonction « Remplacer »
pour nettoyer les fichiers de l’intégralité des balises XML qui s’y trouvent.
ATTENTION !!! Il est possible que ce traitement supprime accidentellement des parties du
texte que l’on aurait voulu conserver. ATTENTION !!!
Les fichiers qui nous intéressent (qui contiennent les œuvres libres de droit que vous venez de
sélectionner sur le site du CNRTL) ont tous un nom qui ressemble à celui-ci : M223.xml
(côte_Frantext.xml)
En les ouvrant à l’aide de Notepad++, vous voyez ceci :
La première chose que l’on constate, c’est que les métadonnées (les informations concernant
la nature du texte et la façon dont on l’a récupéré) sont intégrées au fichier, à l’intérieur d’une
balise <teiHeader>.
On va donc la supprimer. Pour cela, cliquez sur le petit - qui apparaît dans la marge à côté de
cette balise. Le – devient + et le contenu de la balise <teiHeader> est masqué à l’affichage.
Sélectionnez la balise à l’aide de votre souris, ainsi que la balise <TEI> qui la précède et la
balise <text> qui la suit.
Supprimez-les.
Observons maintenant ce qu’il reste « en trop » dans notre fichier :
Différentes chaînes de caractères ne font pas partie de l’œuvre littéraire qui nous intéresse,
mais contiennent des informations, notamment de mise en page. Ces chaînes de caractères ont
la particularité de toutes se trouver entre un chevron ouvrant < et un chevron fermant >. On va
donc pouvoir utiliser la fonction de remplacement de Notepad++ et une expression régulière
pour nettoyer notre fichier.
Vous voyez ici que j’ai coché la case « expression régulière » dans l’interface « Remplacer ».
Vous voyez également que j’ai recherché le motif « <[^>]+> » que l’on peut traduire par « Les
chaînes de caractères qui commencent par un chevron ouvrant, suivi de un ou plusieurs
caractères qui ne sont pas des chevrons fermants, suivi d’un chevron fermant ». Vous voyez
que j’ai laissé vide le champ « Remplacer par », car je souhaite simplement supprimer les
chaînes de caractères correspondant à mon motif. Pour lancer la suppression, il suffit ensuite
de cliquer sur « Remplacer tout ».
A présent vos textes sont nettoyés de toutes leurs balises XML (et peut-être également de
partie de l’œuvre qui se trouvaient entourées de chevrons !!!). Vous avez malheureusement
perdu toutes les informations fournies par les balises XML. Préférez donc toujours un
traitement par XSLT de vos fichiers XML plutôt qu’un telle bidouille.