source TXM

Transcription

source TXM
Analyse de corpus TEI
avec la plateforme opensource TXM
Serge Heiden, UMR ICAR, ENS de Lyon
Séminaire du Pôle Document numérique, MRSH, Caen, 26 Janvier 2012
Plateforme communautaire
open-source TXM
 2008-2010 projet ANR Textométrie (resp. S. Heiden)
    Université de Nice / CNRS – laboratoire BCL
Université de Besançon – laboratoire LASELDI
Université de Paris 3 – laboratoire ILPGA
ENS de Lyon / CNRS – laboratoire ICAR (porteur)
  + U. of Oxford – centre OUCS
+ U. du Québec à Montréal – centre ATO
-> plateforme de base TBX + logiciel Windows/Linux/Mac
 2011- développements tiers
     UMR EVS 2010 ENS de LYON: import Transcriber, FactomineR
ANR Corptef ENS de LYON (C. Guillot) : portail TXM WEB –
inscription, sélection de textes
PUC-UMR GREYC Caen été 2011 : TXM WEB UI fonctions Σ
LASLA (D. Longrée, Univ. Liège) : corpus latin classique, corpus grec
ancien en ligne (TXM WEB à Liège) + essais textes hiéroglyphiques
(projet Ramsès)
UMR Triangle ENS de LYON (S. Gedzelman) : corpus parallèles
Plateforme communautaire
open-source TXM
 2012-2014/2022 Equipex Matrice (resp. D. Peschanski)
 PRES
HéSam Paris (porteur)
 Mémorial de Caen, INA, UMR ICAR+BCL, Etc.
-> TXM comme infrastructure de textométrie pour 200 historiens
 2013-2015
 Projets ANR-DFG
  ANR-DFG Costomef Lyon/Stuttgart (Heiden/Stein)
-> intégration annotations/corrections
ANR-DFG Presto Lyon/Köln (Vigier/Blumenthal)
-> lemmatisation FR 9-21, volumétrie++
 Projets ANR
    (en cours de dépôt)
(déposés)
Porteur UMR CESR partenaire ICAR
Porteur UPR IRHT partenaire ICAR
Porteur UMR LDI partenaire ICAR
etc.
 Projet
inter-UMR ENS de Lyon : UMR EVS / UMR ICAR repérage et
encodage d’informations spatiotemporelles (géographie et toponymes)
Plateforme communautaire
open-source TXM aujourd’hui
http://textometrie.ens-lyon.fr
http://txm.sourceforge.net
https://listes.cru.fr/sympa/info/txm-users
 Sources
Java, Groovy, C, R en ligne –
licence GPLv3
 Téléchargeable gratuitement : Windows,
Mac OS X, Linux (version 0.6 début 2012)
 Version portail web, depuis fin 2010 :
http://txm.risc.cnrs.fr/demo
(version 0.3.1 début 2012)
Démos de TXM
 TXM RCP 0.5 (Windows)
 import copier-coller+lemmatisation FR
 outils standard : lexique lemme, cooccurrents,
concordances
 sur DISCOURS : partition, AFC, CAH
 TXM
WEB 0.3 (Firefox)
 <bfm>
: sélection de textes + outils standard
 <test> : intégration Tiger Search
Sources gérées par TXM
 Copier/Coller
 TXT Unicode+CSV (métadonnées) : répertoire de textes bruts
 XML/w+CSV : répertoire de textes XML
XML-TEI P5 BFM : XML compatible standard TEI (BVH, FRANTEXT)
XML-TEI-TXM : XML compatible TEI+TAL (pivot)
XML-Transcriber+CSV – transcriptions alignées avec le son
XML-TMX - corpus parallèles multilingues
XML-PPS-Factiva – portail de presse
       Calibre – bibliothèque numérique (ePub) ouverte
Formats propriétaire : Hyperbase, Alceste, CNR (Cordial)
module d’import XML-TEI P5 BFM
le format XML(-TEI)-TXM V2
 Modèle de données TXM (analyse de discours, etc.)
 unité documentaire & métadonnées
-> élément <tei:TEI>+<txm:metadata>
 unités lexicales & propriétés
-> élément <tei:w>+<txm:ana>
 Encodage pour les outils de TAL
 encodage des annotations
 encodage de l’historique des appels d’outils de TAL
 Gestion d’annotations en stand-off et en ligne
 Charactères Unicode vs. Éléments XML
   GATE, UIMA: texte brut de référence (SOFA)!
espaces (XML pretty printing)
Édition des caractères (philologie & transcription de l’oral)
 Corpus Alignés
 Spécifications
 http://sourceforge.net/apps/mediawiki/txm/index.php?title=Xml-txm-tei
 http://txm.svn.sourceforge.net/viewvc/txm/trunk/doc/tei-txm
Opérations d’importation
 Importer
 Tokenizer
 Sentencer
 Annotator
 TreeTagger
-> Unités lexicales
-> Limites de phrases
-> morphosyntaxe, lemme…
export/import & appel
 Compiler
-> Index des moteurs de recherche
 Pager
-> édition HTML
 Scripts
Groovy & XSLT2 (BreakByMilestone.xsl)
Tokenizer XML-TEI-BFM : classes de
balises et classes de caractères pour les
UNITES LEXICALES
     word_external_tags = $div_tags|$q_tags|expan|pb|lb|milestone|gap|note|s|
locus|title|ref|hi|witDetail
word_level_tags = w|abbr|num
word_internal_tags = c|ex
floating_tags_no_seg = expan|unclear|choice|corr|sic|reg|orig|foreign|hi|title|
name|supplied|subst|add|del|damage|date|idno
floating_tags = $floating_tags_no_seg|seg
 word_chars_neg = [^ .§ẽəә∈·∗ˆ≤≥_±=†φθΓ/ν√µ•@≈→αγ∞≡σ∼€¼½Θĩ!?,:;
\"'“”<>«»()\\-…\\[&<\\]]|&[^;]+;
word_chars = [^0-9A-Za-zœÀ-ÿ'’\(\)\[\]–\-]
 enclitics = je|m[eo]i|tu|t[eo]i|il|lui|luy|ilz|ils|no?u?s|vo?u?s|on|ce|ci|là|elles?
 Sentencer XML-TEI-BFM : classes de
balises et classes de caractères pour les
limites de PHRASES
  div_tags = TEI|text|front|body|div|div1|div2|div3|div4|div5|
div6|back|head|trailer|p|ab|sp|speaker|list|notice|bibl
q_tags = q|quote|item|stage
 punct_strong = [.!?]
punct_all = $punct_strong|[,;%:\"“`*”…«»\\+=/\\(\\)\\[\\-\\—\
\]\\|]
 text_external = <note[^>]*>
 Annotator XML-TEI-BFM : exemple du
plugin TAL TreeTagger
 Interface
de TreeTagger pour TXM
 Déclaration
du composant
 Appel en Groovy
 Modèles
 «
linguistiques
fro.par » : ancien français basé sur 6 textes
de la BFM, morphosyntaxe CATTEX
(ou d’autres langues : FR, EN, IT, DE, PT, RU…)
Exemple d’import 1 :
2 fichiers XML-TEI BFM (extraits)
<corpus/ea2011c>
 Qgraal
 Adgar
Métadonnées : parameters.properties
Paramètres : import.xml
TT et Stand-off, XML-TXM, HTML
Files script BFMloader -> filtres
Exemple d’import 2 :
3 fichiers XML-TEI Frantext (extraits)
<corpus/frantexta>
 Correspondance
de Flaubert
 un discours de Robespierre
 Hernani de Hugo
Préfiltre : filtre-atilf2.xsl
Métadonnées : parameters.properties Stand-off, XML-TXM
Cahiers des charges d’import TXM
 BVH
 Frantext
 Bouvard
 next
?
& Pécuchet