Bidouiller pour exploiter Frantext libre de droit
Transcription
Bidouiller pour exploiter Frantext libre de droit
Transformer les fichiers de Frantext libre de droit à l’aide de Notepad++ Comme nous l’avons vu lors de la première journée du séminaire, les fichiers « Frantext libre de droit » disponibles sur le site du CNRTL (www.cnrtl.fr/corpus/frantext) ne sont pas directement exploitables à l’aide du logiciel AntConc, car il ne s’agit pas de texte brut mais de fichiers XML. La transformation de fichier XML en texte brut, si l’on veut s’assurer qu’elle est de bonne qualité, doit être faite à l’aide d’une feuille de style XSLT et d’un processeur XSLT. L’objet de ce séminaire n’est cependant pas de faire de vous des informaticiens et je vous propose ici une « bidouille » permettant d’utiliser Notepad++ et la fonction « Remplacer » pour nettoyer les fichiers de l’intégralité des balises XML qui s’y trouvent. ATTENTION !!! Il est possible que ce traitement supprime accidentellement des parties du texte que l’on aurait voulu conserver. ATTENTION !!! Les fichiers qui nous intéressent (qui contiennent les œuvres libres de droit que vous venez de sélectionner sur le site du CNRTL) ont tous un nom qui ressemble à celui-ci : M223.xml (côte_Frantext.xml) En les ouvrant à l’aide de Notepad++, vous voyez ceci : La première chose que l’on constate, c’est que les métadonnées (les informations concernant la nature du texte et la façon dont on l’a récupéré) sont intégrées au fichier, à l’intérieur d’une balise <teiHeader>. On va donc la supprimer. Pour cela, cliquez sur le petit - qui apparaît dans la marge à côté de cette balise. Le – devient + et le contenu de la balise <teiHeader> est masqué à l’affichage. Sélectionnez la balise à l’aide de votre souris, ainsi que la balise <TEI> qui la précède et la balise <text> qui la suit. Supprimez-les. Observons maintenant ce qu’il reste « en trop » dans notre fichier : Différentes chaînes de caractères ne font pas partie de l’œuvre littéraire qui nous intéresse, mais contiennent des informations, notamment de mise en page. Ces chaînes de caractères ont la particularité de toutes se trouver entre un chevron ouvrant < et un chevron fermant >. On va donc pouvoir utiliser la fonction de remplacement de Notepad++ et une expression régulière pour nettoyer notre fichier. Vous voyez ici que j’ai coché la case « expression régulière » dans l’interface « Remplacer ». Vous voyez également que j’ai recherché le motif « <[^>]+> » que l’on peut traduire par « Les chaînes de caractères qui commencent par un chevron ouvrant, suivi de un ou plusieurs caractères qui ne sont pas des chevrons fermants, suivi d’un chevron fermant ». Vous voyez que j’ai laissé vide le champ « Remplacer par », car je souhaite simplement supprimer les chaînes de caractères correspondant à mon motif. Pour lancer la suppression, il suffit ensuite de cliquer sur « Remplacer tout ». A présent vos textes sont nettoyés de toutes leurs balises XML (et peut-être également de partie de l’œuvre qui se trouvaient entourées de chevrons !!!). Vous avez malheureusement perdu toutes les informations fournies par les balises XML. Préférez donc toujours un traitement par XSLT de vos fichiers XML plutôt qu’un telle bidouille.