Développement de ressources pour le persan

Transcription

Développement de ressources pour le persan
Développement de ressources pour le persan:
PerLex 2, nouveau lexique morphologique et MEltfa, étiqueteur morphosyntaxique
Benoît Sagot1, Géraldine Walther2,3, Pegah Faghiri 3, Pollet Samvelian 3
1. Alpage — INRIA & Université Paris 7
2. LLF — Université Paris 7
30 rue du Château des Rentiers
75 013 Paris, France
Domaine de Voluceau, Rocquencourt, B.P. 105,
78 153 Le Chesnay, France
3. MII — CNRS & Université Paris 3
27 rue Paul Bert,
94 204 Ivry-sur-Seine, France
[email protected], [email protected], [email protected], [email protected]
ABSTRACT
Nous présentons une nouvelle version de PerLex, lexique morphologique du persan, une version corrigée etpartiellement réannotée du corpus étiqueté
BijanKhan (BijanKhan, 2004) et MEltfa, un nouvel étiqueteur morphosyntaxique librement disponible pour le persan. Après avoir développé une
première version de PerLex (Sagot & Walther, 2010), nous enproposons donc ici une version améliorée. Outre une validation manuelle partielle,
PerLex 2 repose désormais sur un inventaire de catégories linguistiquement motivé. Nous avons également développé une nouvelle version du corpus
BijanKhan: elle contient des corrections significatives de la tokenisation ainsi qu'un réétiquetage à l'aide des nouvelles catégories. Cette nouvelle version
du corpus a enfin été utilisée pour l'entraînement de MEltfa, notre étiqueteur morphosyntaxique pour le persan librement disponible, s'appuyant à la fois
sur ce nouvel inventaire de catégories, sur PerLex 2 et sur le système d'étiquetage MElt (Denis & Sagot, 2009).
Le persan
Le persan est une langue indo-européenne, de la
famille des langues iraniennes occidentales. Il
s’écrit avec une variante de l’alphabet arabe.
Notamment, deux caractères qui se suivent
peuvent être liés, collés ou séparés par un blanc.
Description
Nous avons développé dans le
formalisme Alexina (Sagot, 2010)
une description morphologique du
persan, selon des choix linguistiques
motivés au sein du projet PerGram
État de l’art
Premier projet de recherche en TAL sur le persan : projet Shiraz (traduction
automatique persan–anglais) (Amtrup et al., 2000). Repose sur une description
morphologique de Megerdoomian (2000, 2004).
Depuis, divers travaux (étiqueteurs, parseurs, traduction), souvent non-libres.
Lexiques libres existants depuis 2010 : MULTEXT-East persan (Erjavec, 2010) et
PerLex 1 (Sagot & Walther 2010).
PerLex 1
PerLex 2
Extraction de données à partir
notamment du corpus BijanKhan
(Sagot & Walther 2010).
35 914 entrées lexicales produisant
524 700 entrées fléchies.
Problèmes : bruit + inventaire de cat.
Après intégration des données de
validation de PerLex et conversion vers le
nouvel inventaire de parties du discours,
nous obtenons 36 397 entrées lexicales
produisant 525 074 entrées fléchies
Entrées lexicales
Entrées fléchies
PerLex 1 PerLex 2 PerLex 1 PerLex 2
Pré-validation automatique : le lexique
MULTEXT-East persan (Erjavec, 2010) et le
Persian Pronunc. Dic. (Deyhime, 2000) ont
été convertis et/ou fusionnés avec PerLex 1.
Les entrées issues d’une fusion sont prévalidées. Les entrées manquantes sont
ajoutées.
Validation manuelle partielle : les entrées
non-prévalidées sont en cours de validation
manuelle via une interface dédiée. Près de
2000 entrées déjà validées (précision : ~75 %)
Corpus BijanKhan
Description
Corpus
BijanKhan
(BijanKhan, 2004 ; Amiri
et al., 2007), corpus de
2 597 937 tokens, annoté
automatiquement en parties
du discours.
Problèmes : la tokenisation
est imparfaite; la graphie
souvent incohérente ; les
étiquettes ne sont pas
suffisament documentées ; il
y a des étiquettes ambiguës
et notamment une catégorie
poubelle MORP pour les
éléments qui ne correspondent pas à des mots.
Nouvelles catégories
Les catégories de PerLex 1 sont
celles
sous-jacentes
aux
annotations du corpus BijanKhan.
Elles ne sont pas définies et
décrites de façon très satisfaisante.
Nous avons donc mis en place un
nouvel
inventaire
de
14
catégories, et des règles (pas
toujours
déterministes)
de
conversion.
verbes
171
176
noms
9 553
9 546
177 988 165 345
adjectif
s
TOTAL
11 872
12 322
290 537 302 574
35 914
36 397
524 700 525 074
19 776
20 373
PerLex,
comme tous les lexiques
Alexina, est librement
disponible sur
alexina.gforge.inria.fr
Définition du jeu d’étiquettes : Jeu de 79 étiquettes pour 14 catégories.
Conversion : Ces étiquettes ont été appliquées à PerLex. Les étiquettes du corpus BijanKhan
amélioré ont été converties automatiquement vers notre jeu d’étiquettes, sauf en cas d’ambiguïté.
Résultats : Conversion possible pour 92,4% des mots, d’où 18 763 phrases entièrement converties.
Corpus d’évaluation : 1 707 tokens (100 phrases) annotés à la main (entièrement converties ou non)
Corpus d’entraînement : les 18 731 phrases (302 690 tokens) entièrement converties qui ne sont pas
dans le corpus d’évaluation + PerLex 2 en lexique externe > système MElt (Denis & Sagot, 2009)
MEltfa
Correction de la tokenisation :
Exemples :
– séparation des préverbes (‫در‬
dar, #$$ % bar, ‫ 'ز‬% bâz, ‫ا‬# ) farâ, *+ ,
piš, etc.) — ambiguïté levée dans
certains cas de formes verbales ;
– identification des prépositions
complexes (pas + az ‫ از‬+ -,) ;
– traitement des préfixes (-‫ ب‬beattaché, -/0 (‫( )ن‬n)mi- attaché).
b
Travail réalisé dans le cadre du projet ANR-DFG PerGram (MUI 2822-3/1)
Correction des étiquettes :
Exemples :
– šodan (‫ن‬2$$ $ $ $ $ $3), si étiqueté
comme nom, est réétiqueté
comme infinitif ;
– hatta (/4$$5), si étiqueté
comme conjonction, est
réétiqueté adverbe ;
– et bien d’autres, spécifiques comme génériques.
– 95,3 % de précision sur les
catégories pour sur les 1 568 tokens
dont la conversion avait réussi,
93,3 % sur tous les mots (93,3 % et
90,3 % sur le jeu complet) ;
– sur les 1 568 tokens, MEltfa a une
précision identique à son corpus
d’entraînement, plus précis que le
BijanKhan d’origine.
MEltfa,est librement disponible sur
lingwb.gforge.inria.fr

Documents pareils