Support de présentation

Transcription

Support de présentation
TEI et analyse linguistique
Bertrand Gaiffe
9 juin 2010
Plan
I
“simple analytic mechanisms”
I
structures de traits
I
structures non hiérarchiques
I
NKJP (Corpus national polonais)
Quelques éléments dédiés en TEI
I
s (phrase)
I
cl (proposition)
I
ph (syntagme)
I
w (mot)
I
m (morphème)
I
c (caractère)
I
pc (symbole de ponctutation)
Annotation “linguistique” minimale
Au delà de la structure (div, head, p), l’annotation en phrase (s)
permet de :
I
localiser des recherches de concordances à l’intérieur des
phrases
I
désambiguı̈ser la ponctuation (. d’abbréviation vs fin de
phrase)
De plus,même si la notion de phrase peut s’avérer moins évidente
qu’il n’y paraı̂t, on considère en général que les phrases ne se
chevauchent pas. On reste donc dans de l’annotation “simple”.
Segmentation en mots
I
utilisation de w
I
probablement une bonne idée dans ce cas d’utiliser aussi pc.
Ca évite d’avoir du “mixed content”.
I
décision à prendre concernant les espaces... (ex : inclure les
éventuelles espaces dans les w)
Remarque : en général, la TEI n’impose pas une théorie
particulière. On peut donc par exemple avoir s dans s ou w dans
w.
En revanche, les contraintes “consensuelles” sont respectées : on
ne peut pas avoir p dans s ni s dans w...
Annotation en parties du discours et en lemmes
L’attribut “ana” permet de donner une analyse d’un élement
donné. Typiquement, c’est l’endroit rêvé pour attacher une partie
du discours à un mot.
Par ailleurs, w peut porter un attribut “lemma”.
L’annotation la plus simple pourrait alors ressembler à :
<s><w lemma=’’le’’ ana="ART’’>la</w> .... </s>
mais :
I
c’est interdit (ana est de type data.pointers)
I
ça veut dire quoi “ART” ?
Rq : si vraiment on voulait faire ça, on pourrait mettre la partie du
discours dans “type”, ou définir son propre attribut...
Ca veut dire quoi ART ?
La question peut paraı̂tre stupide... mais...
<w ana="#ART">le</w>
<interp xml:id="ART">Article à l’exception des articles
contractés</interp>
C’est quand même plus clair non ?
Sauf que :
I
Est-ce que c’est la même notion d’article que celle employée
par d’autres personnes/outils ?
Isocat
Le “DCR” isocat est une base terminologique. Le but est de
marquer explicitement qu’on utilise un même concept (ou pas).
I
dévelopé à l’origine pour les besoins propres de l’ISO
I
ouvert à tous
I
les concepts peuvent (devraient) être définis dans différentes
langues (mais une définition en anglais est exigée)
I
a chaque concept est associé un identifiant pérenne (PID).
Faire le lien entre TEI et Isocat
La TEI ne vit pas dans un monde isolé !
Une solution possible : utiliser l’attribut sameAs pour marquer
explicitement l’identité de concept.
<interp xml:id="ART"
sameAs="http://www.isocat.org/datcat/DC-1892">
... </interp>
Remarque pour les traitements
Au début, l’exigence que la valeur de l’attribut ana soit un
pointeur peut faire peur !
Mais :
I
Ca ne coûte pas plus cher en traitements (éventuellement,
supprimer le premier caractère c.a.d le dièse).
I
Ca documente le “tagset”.
I
Bien entendu, le “tagset” peut être défini à l’extérieur du
document.
Et si on a en plus les traits morphologiques
I
La même méthode est envisageable, mais le tagset devient
gros !
I
Une solution : employer des structures de traits.
I
la TEI, propose des structures de traits telles que (co)définies
par l’ISO (ISO-24610).
I
Même principe général : on peut faire des traitements “de
surface” i.e. basés sur les noms des structures de traits, ou se
doter d’outils dédiés (unification , subsomption).
I
Même remarque aussi en ce qui concerne la liaison au dcr
isocat.
Exemple
<f xml:id="Pl" sameAs="http://......" name="nombre">
<binary value="true"></f>
<f xml:id="m" name="genre">
<string>masculin</string></f>
<f xml:id="N" name="cat"
<string>Nom</string></f>
<fs xml:id="N:m:Pl"feats="#N #Pl #m"/>
....
<w ana="#N:m:Pl">chats</w>
Evidemment, ce qui est vrai pour w...
I
Est vrai tout aussi bien pour cl,ph,s. De la même façon, on
peut avoir envie de leur associer des “analyses” qui soient des
symboles atomiques ou des structures de traits.
I
Autre remarque : on dispose aussi d’un élément seg très
général au cas ou ceux prévus ne conviennent pas...
I
Les problèmes viennent en pratique plutôt des “structures non
hiérarchiques” (ex : grammaires de dépendances), soit parce
que deux niveaux d’annotation se croisent.
module nets (graphes, réseaux et arbres)
I
Il existe un module dédié aux graphes réseaux et arbres.
I
Je ne connais pas d’utilisation en pratique...
I
Probablement adapté au cas où un document “contient” des
arbres ex : bouquin sur l’analyse syntaxique. Convient aussi
(je pense) aux stemmas.
I
Redondant avec link et linkGrp... (fabrication de graphes)
Structures non hiérarchiques
I
@next, @prev (linking)
I
stand-off par pointeurs
I
stand-off par xinclude (cf corpus du polonais)
Xpointers schemes...
Une fois de plus, la TEI ne vit pas hors du monde ! Elle encourage
donc l’utilisation de Xpointers.
Mais elle propose des “schemes” Xpointer. . .
I
xpath1
I
left() right()
I
range()
I
string-range()
I
match()
Le corpus national du polonais utilise string-range.
NKJP
Gros corpus encodé en TEI et comprenant les niveaux
d’annotations suivants :
I
segmentation
I
morphosyntaxe
I
mots syntaxiques
I
syntaxe
I
désambiguı̈sation sémantique.
Réalisé en stand-off à l’aide de xinclude et utilisant le “scheme”
string-range() pour les Xpointers.
Quelques élements (clefs ?)
I
le texte “brut” est découpé en ab pour des raisons
techniques...
I
les niveaux linguistiques sont séparés des niveaux structurels
I
au niveau segmentation, des alternatives sont possibles (et
résolues au niveau suivant)
I
le “tagset” de l’annotation morphosyntaxique est présent dans
ISOCAT.
Affaire à suivre. . .

Documents pareils

Logiciels d`analyse textuelle : vers un format XML

Logiciels d`analyse textuelle : vers un format XML exemple le découpage en mots effectué par un autre logiciel. Les logiciels devront aussi pouvoir intégrer en tout ou en partie au corpus originel les résultats de leurs propres traitements, résulta...

Plus en détail