Développement de ressources pour le persan
Transcription
Développement de ressources pour le persan
Développement de ressources pour le persan: PerLex 2, nouveau lexique morphologique et MEltfa, étiqueteur morphosyntaxique Benoît Sagot1, Géraldine Walther2,3, Pegah Faghiri 3, Pollet Samvelian 3 1. Alpage — INRIA & Université Paris 7 2. LLF — Université Paris 7 30 rue du Château des Rentiers 75 013 Paris, France Domaine de Voluceau, Rocquencourt, B.P. 105, 78 153 Le Chesnay, France 3. MII — CNRS & Université Paris 3 27 rue Paul Bert, 94 204 Ivry-sur-Seine, France [email protected], [email protected], [email protected], [email protected] ABSTRACT Nous présentons une nouvelle version de PerLex, lexique morphologique du persan, une version corrigée etpartiellement réannotée du corpus étiqueté BijanKhan (BijanKhan, 2004) et MEltfa, un nouvel étiqueteur morphosyntaxique librement disponible pour le persan. Après avoir développé une première version de PerLex (Sagot & Walther, 2010), nous enproposons donc ici une version améliorée. Outre une validation manuelle partielle, PerLex 2 repose désormais sur un inventaire de catégories linguistiquement motivé. Nous avons également développé une nouvelle version du corpus BijanKhan: elle contient des corrections significatives de la tokenisation ainsi qu'un réétiquetage à l'aide des nouvelles catégories. Cette nouvelle version du corpus a enfin été utilisée pour l'entraînement de MEltfa, notre étiqueteur morphosyntaxique pour le persan librement disponible, s'appuyant à la fois sur ce nouvel inventaire de catégories, sur PerLex 2 et sur le système d'étiquetage MElt (Denis & Sagot, 2009). Le persan Le persan est une langue indo-européenne, de la famille des langues iraniennes occidentales. Il s’écrit avec une variante de l’alphabet arabe. Notamment, deux caractères qui se suivent peuvent être liés, collés ou séparés par un blanc. Description Nous avons développé dans le formalisme Alexina (Sagot, 2010) une description morphologique du persan, selon des choix linguistiques motivés au sein du projet PerGram État de l’art Premier projet de recherche en TAL sur le persan : projet Shiraz (traduction automatique persan–anglais) (Amtrup et al., 2000). Repose sur une description morphologique de Megerdoomian (2000, 2004). Depuis, divers travaux (étiqueteurs, parseurs, traduction), souvent non-libres. Lexiques libres existants depuis 2010 : MULTEXT-East persan (Erjavec, 2010) et PerLex 1 (Sagot & Walther 2010). PerLex 1 PerLex 2 Extraction de données à partir notamment du corpus BijanKhan (Sagot & Walther 2010). 35 914 entrées lexicales produisant 524 700 entrées fléchies. Problèmes : bruit + inventaire de cat. Après intégration des données de validation de PerLex et conversion vers le nouvel inventaire de parties du discours, nous obtenons 36 397 entrées lexicales produisant 525 074 entrées fléchies Entrées lexicales Entrées fléchies PerLex 1 PerLex 2 PerLex 1 PerLex 2 Pré-validation automatique : le lexique MULTEXT-East persan (Erjavec, 2010) et le Persian Pronunc. Dic. (Deyhime, 2000) ont été convertis et/ou fusionnés avec PerLex 1. Les entrées issues d’une fusion sont prévalidées. Les entrées manquantes sont ajoutées. Validation manuelle partielle : les entrées non-prévalidées sont en cours de validation manuelle via une interface dédiée. Près de 2000 entrées déjà validées (précision : ~75 %) Corpus BijanKhan Description Corpus BijanKhan (BijanKhan, 2004 ; Amiri et al., 2007), corpus de 2 597 937 tokens, annoté automatiquement en parties du discours. Problèmes : la tokenisation est imparfaite; la graphie souvent incohérente ; les étiquettes ne sont pas suffisament documentées ; il y a des étiquettes ambiguës et notamment une catégorie poubelle MORP pour les éléments qui ne correspondent pas à des mots. Nouvelles catégories Les catégories de PerLex 1 sont celles sous-jacentes aux annotations du corpus BijanKhan. Elles ne sont pas définies et décrites de façon très satisfaisante. Nous avons donc mis en place un nouvel inventaire de 14 catégories, et des règles (pas toujours déterministes) de conversion. verbes 171 176 noms 9 553 9 546 177 988 165 345 adjectif s TOTAL 11 872 12 322 290 537 302 574 35 914 36 397 524 700 525 074 19 776 20 373 PerLex, comme tous les lexiques Alexina, est librement disponible sur alexina.gforge.inria.fr Définition du jeu d’étiquettes : Jeu de 79 étiquettes pour 14 catégories. Conversion : Ces étiquettes ont été appliquées à PerLex. Les étiquettes du corpus BijanKhan amélioré ont été converties automatiquement vers notre jeu d’étiquettes, sauf en cas d’ambiguïté. Résultats : Conversion possible pour 92,4% des mots, d’où 18 763 phrases entièrement converties. Corpus d’évaluation : 1 707 tokens (100 phrases) annotés à la main (entièrement converties ou non) Corpus d’entraînement : les 18 731 phrases (302 690 tokens) entièrement converties qui ne sont pas dans le corpus d’évaluation + PerLex 2 en lexique externe > système MElt (Denis & Sagot, 2009) MEltfa Correction de la tokenisation : Exemples : – séparation des préverbes (در dar, #$$ % bar, 'ز% bâz, ا# ) farâ, *+ , piš, etc.) — ambiguïté levée dans certains cas de formes verbales ; – identification des prépositions complexes (pas + az از+ -,) ; – traitement des préfixes (- بbeattaché, -/0 (( )نn)mi- attaché). b Travail réalisé dans le cadre du projet ANR-DFG PerGram (MUI 2822-3/1) Correction des étiquettes : Exemples : – šodan (ن2$$ $ $ $ $ $3), si étiqueté comme nom, est réétiqueté comme infinitif ; – hatta (/4$$5), si étiqueté comme conjonction, est réétiqueté adverbe ; – et bien d’autres, spécifiques comme génériques. – 95,3 % de précision sur les catégories pour sur les 1 568 tokens dont la conversion avait réussi, 93,3 % sur tous les mots (93,3 % et 90,3 % sur le jeu complet) ; – sur les 1 568 tokens, MEltfa a une précision identique à son corpus d’entraînement, plus précis que le BijanKhan d’origine. MEltfa,est librement disponible sur lingwb.gforge.inria.fr