source TXM
Transcription
source TXM
Analyse de corpus TEI avec la plateforme opensource TXM Serge Heiden, UMR ICAR, ENS de Lyon Séminaire du Pôle Document numérique, MRSH, Caen, 26 Janvier 2012 Plateforme communautaire open-source TXM 2008-2010 projet ANR Textométrie (resp. S. Heiden) Université de Nice / CNRS – laboratoire BCL Université de Besançon – laboratoire LASELDI Université de Paris 3 – laboratoire ILPGA ENS de Lyon / CNRS – laboratoire ICAR (porteur) + U. of Oxford – centre OUCS + U. du Québec à Montréal – centre ATO -> plateforme de base TBX + logiciel Windows/Linux/Mac 2011- développements tiers UMR EVS 2010 ENS de LYON: import Transcriber, FactomineR ANR Corptef ENS de LYON (C. Guillot) : portail TXM WEB – inscription, sélection de textes PUC-UMR GREYC Caen été 2011 : TXM WEB UI fonctions Σ LASLA (D. Longrée, Univ. Liège) : corpus latin classique, corpus grec ancien en ligne (TXM WEB à Liège) + essais textes hiéroglyphiques (projet Ramsès) UMR Triangle ENS de LYON (S. Gedzelman) : corpus parallèles Plateforme communautaire open-source TXM 2012-2014/2022 Equipex Matrice (resp. D. Peschanski) PRES HéSam Paris (porteur) Mémorial de Caen, INA, UMR ICAR+BCL, Etc. -> TXM comme infrastructure de textométrie pour 200 historiens 2013-2015 Projets ANR-DFG ANR-DFG Costomef Lyon/Stuttgart (Heiden/Stein) -> intégration annotations/corrections ANR-DFG Presto Lyon/Köln (Vigier/Blumenthal) -> lemmatisation FR 9-21, volumétrie++ Projets ANR (en cours de dépôt) (déposés) Porteur UMR CESR partenaire ICAR Porteur UPR IRHT partenaire ICAR Porteur UMR LDI partenaire ICAR etc. Projet inter-UMR ENS de Lyon : UMR EVS / UMR ICAR repérage et encodage d’informations spatiotemporelles (géographie et toponymes) Plateforme communautaire open-source TXM aujourd’hui http://textometrie.ens-lyon.fr http://txm.sourceforge.net https://listes.cru.fr/sympa/info/txm-users Sources Java, Groovy, C, R en ligne – licence GPLv3 Téléchargeable gratuitement : Windows, Mac OS X, Linux (version 0.6 début 2012) Version portail web, depuis fin 2010 : http://txm.risc.cnrs.fr/demo (version 0.3.1 début 2012) Démos de TXM TXM RCP 0.5 (Windows) import copier-coller+lemmatisation FR outils standard : lexique lemme, cooccurrents, concordances sur DISCOURS : partition, AFC, CAH TXM WEB 0.3 (Firefox) <bfm> : sélection de textes + outils standard <test> : intégration Tiger Search Sources gérées par TXM Copier/Coller TXT Unicode+CSV (métadonnées) : répertoire de textes bruts XML/w+CSV : répertoire de textes XML XML-TEI P5 BFM : XML compatible standard TEI (BVH, FRANTEXT) XML-TEI-TXM : XML compatible TEI+TAL (pivot) XML-Transcriber+CSV – transcriptions alignées avec le son XML-TMX - corpus parallèles multilingues XML-PPS-Factiva – portail de presse Calibre – bibliothèque numérique (ePub) ouverte Formats propriétaire : Hyperbase, Alceste, CNR (Cordial) module d’import XML-TEI P5 BFM le format XML(-TEI)-TXM V2 Modèle de données TXM (analyse de discours, etc.) unité documentaire & métadonnées -> élément <tei:TEI>+<txm:metadata> unités lexicales & propriétés -> élément <tei:w>+<txm:ana> Encodage pour les outils de TAL encodage des annotations encodage de l’historique des appels d’outils de TAL Gestion d’annotations en stand-off et en ligne Charactères Unicode vs. Éléments XML GATE, UIMA: texte brut de référence (SOFA)! espaces (XML pretty printing) Édition des caractères (philologie & transcription de l’oral) Corpus Alignés Spécifications http://sourceforge.net/apps/mediawiki/txm/index.php?title=Xml-txm-tei http://txm.svn.sourceforge.net/viewvc/txm/trunk/doc/tei-txm Opérations d’importation Importer Tokenizer Sentencer Annotator TreeTagger -> Unités lexicales -> Limites de phrases -> morphosyntaxe, lemme… export/import & appel Compiler -> Index des moteurs de recherche Pager -> édition HTML Scripts Groovy & XSLT2 (BreakByMilestone.xsl) Tokenizer XML-TEI-BFM : classes de balises et classes de caractères pour les UNITES LEXICALES word_external_tags = $div_tags|$q_tags|expan|pb|lb|milestone|gap|note|s| locus|title|ref|hi|witDetail word_level_tags = w|abbr|num word_internal_tags = c|ex floating_tags_no_seg = expan|unclear|choice|corr|sic|reg|orig|foreign|hi|title| name|supplied|subst|add|del|damage|date|idno floating_tags = $floating_tags_no_seg|seg word_chars_neg = [^ .§ẽəә∈·∗ˆ≤≥_±=†φθΓ/ν√µ•@≈→αγ∞≡σ∼€¼½Θĩ!?,:; \"'“”<>«»()\\-…\\[&<\\]]|&[^;]+; word_chars = [^0-9A-Za-zœÀ-ÿ'’\(\)\[\]–\-] enclitics = je|m[eo]i|tu|t[eo]i|il|lui|luy|ilz|ils|no?u?s|vo?u?s|on|ce|ci|là|elles? Sentencer XML-TEI-BFM : classes de balises et classes de caractères pour les limites de PHRASES div_tags = TEI|text|front|body|div|div1|div2|div3|div4|div5| div6|back|head|trailer|p|ab|sp|speaker|list|notice|bibl q_tags = q|quote|item|stage punct_strong = [.!?] punct_all = $punct_strong|[,;%:\"“`*”…«»\\+=/\\(\\)\\[\\-\\—\ \]\\|] text_external = <note[^>]*> Annotator XML-TEI-BFM : exemple du plugin TAL TreeTagger Interface de TreeTagger pour TXM Déclaration du composant Appel en Groovy Modèles « linguistiques fro.par » : ancien français basé sur 6 textes de la BFM, morphosyntaxe CATTEX (ou d’autres langues : FR, EN, IT, DE, PT, RU…) Exemple d’import 1 : 2 fichiers XML-TEI BFM (extraits) <corpus/ea2011c> Qgraal Adgar Métadonnées : parameters.properties Paramètres : import.xml TT et Stand-off, XML-TXM, HTML Files script BFMloader -> filtres Exemple d’import 2 : 3 fichiers XML-TEI Frantext (extraits) <corpus/frantexta> Correspondance de Flaubert un discours de Robespierre Hernani de Hugo Préfiltre : filtre-atilf2.xsl Métadonnées : parameters.properties Stand-off, XML-TXM Cahiers des charges d’import TXM BVH Frantext Bouvard next ? & Pécuchet