Structuration automatique du lexique au sein du dictionnaire
Transcription
Structuration automatique du lexique au sein du dictionnaire
SETIT 2007 4rth International Conference: Sciences of Electronic, Technologies of Information and Telecommunications March 25-29, 2007 – TUNISIA Structuration automatique du lexique au sein du dictionnaire électronique arabe Ahmed HADDAD* et Henda Ben GHEZALA** * Laboratoire RIADI, Ecole Nationale des Sciences Informatiques [email protected] ** Laboratoire RIADI [email protected] Résumé Dans cet article, nous présentons un modèle générique de lexique structuré pour la langue arabe, décrivant simultanément la structure et le contenu pour la génération d’un dictionnaire thématique (dicothéme). Ce modèle général peut être adapté à différent es tâches. Le formalisme des réseaux bayésiens, sur lequel repose notre modèle, permet la prise en compte de différentes relations entre les éléments structurels d’un lexique. Notre dictionnaire basé sur un modèle d'organisation en étoile, où les lemmes, a insi que les lexèmes sont arrangés suivant des longueurs calculées à partir d’un corpus dans le but d'optimiser la pertinence de recherche d'informations au sein de notre dictionnaire électronique. Mots clés: dictionnaire électronique (dicothème), réseau bayésiens, lexique, occurrence d'apparition, dépendance structurelle. 1 Introduction 2 Modèles de structure du dictionnaire Le développement du document électronique et du Web a vu émerger puis s’imposer des formats de données semi structurées, tel le XML. Ce nouveau format décrit simultanément la structure logique des documents et le contenu de ceux -ci et permet ainsi de représenter l’information sous une forme plus riche que le simple contenu. Celle -ci est adaptée à des besoins spécifiques qui permettent, par exemple, de faciliter l’accès à l’information ou d’optimiser le stockage et l’interrogation des informations. Dans cet article nous focalisons sur deux aspects complémentaires ; la structure où nous présentons un modèle générique du lexique au sein du dictionnaire basé sur le formalisme des réseaux bayésiens permettant une prise en compte de différentes relations entre les éléments structurels d’un document, et le contenu : l'organisation des informations au sein des dictionnaires électroniques où nous proposons un modèle d'arrangement en étoile basé sur des calculs et des analyses statistiques concernant l'apparition des lexèmes et des caractères dans la langue arabe. Nous allons proposer différentes modélisations possibles des relations de dépendances entre les unités structurelles d’un lexique au sein du dictionnaire linguistique d e la langue arabe afin de déterminer les dépendances les plus intéressantes pour la classification automatique. Nous avons choisi de modéliser la structure par un réseau bayésien car ce formalisme permet de caractériser les dépendances conditionnelles de manière flexible. Cependant, il est nécessaire de faire un compromis entre l’expressivité du modèle et sa complexité . Les dépendances sont structurées selon le même ordre que celui des analyses dans le traitement automatique du langage naturel (ALOULOU, 2003). Chadda Alif Flexion : déclinaison Flexion : conjugaison Dérivation nominale Catégorie grammaticale Acronyme Synonyme Anaphore Catégorie thématique Dépendances syntaxiques Dépendances sémantiques Dépendances pragmatiques Dérivation verbale Racines Dépendances de formes Dépendances morphologiques Figure 1 : Schéma de distribution du lexique au sein du dictionnaire SETIT2007 2.1 ___________ Modèle général Soit (s1, ..., s|d|) l’ensemble des nœuds de structure du lexique dans le dictionnaire . On va considérer que la structure du dictionnaire est modélisée par un réseau bayésien de N variables X1, ...,XN. Les arcs du réseau seront modélisés par la fonction fs(Xi) qui renvoie l’ensemble des fils de la variables Xi dans le réseau. sémantique (exemple un verbe v1 est un synonyme du verbe v2, synonyme (ﻛﻠﻢ,))ﻗﺎل. La figure suivante représente un exemple de représentation du dictionnaire où les informations de contenu apparaissent dans les recta ngles et les nœuds structurels sont représentés par des cercles dans lesquels apparaissent les étique ttes: Lemme Nous allons distinguer deux types de variables : Dérivé verbal les variables E1, ..., E|d| qui correspondent à des nœuds du dictionnaire modélisé. les variables Y1, ..., YN−|d| permettant de modéliser des dépendances supplémentaires entre les nœuds du dictionnaire. Ces variables ont pour but de modéliser des relations plus fines entres les éléments de structure du dictionnaire. acron yme Synon yme ﻤﻜﺘﻮﺐ ﻛﺎﺗﺐ dériv é dériv é Lemme Lemme Lemme dériv é dérivé dériv é dérivé اﻧﻜﺘﺐ Ainsi, l’ensemble des variables s’écrit (X1, ...,XN) = (S1, ..., S|d|, Y1, ..., YN−|d|). Nous allons proposer deux familles de modèles : Dérivé nominal Figure 3 : Exemple de dictionnaire structuré 2.2 Le modèle du mot graphique en arabe – la première famille (E) correspond à des réseaux « simples » pour lesquels toutes les variables aléatoires correspondent à des entités structurelles du dictionnaire (i.e. : N = |d|). Cette famille permet la modélisation de dépendances directes entre les éléments d’un dictionnaire (dépendance de surface, de morphologie et de syntaxe) . – la seconde famille (C) permet de décrire, à l’aide des variables Y1, ..., YN−|d| des dépendances supplémentaires (dépendance de sens et de contexte) . Une dépendance de type c et de classe x entre deux nœuds p et q est schématisé par Ecx(p,q). Ecxpq p Figure 2 : Schéma de dépendance Parmi ces dépendances qui décrivent les liens entre les différents nœuds du dictionnaire, on trouve des relations de forme, des relations morphologique , syntaxique (exemple: un mot contient préfixe, base et suffixe, morphologie (ت,ﺴﺮ ﻛ, ))إنou des relations Figure 4 : Décomposition du mot graphique en arabe ; أ ﺳﺘﺬﻛﺮوﻧﮫasatadkurūnahu "est-ce que vous allez parler de lui". Le mot graphique en arabe comporte une structure d'objet complexe appelait mot maximal l'unité décomposable en : proclitique(s), préfixe, base, suffixe(s), enclitique(s) (ABBES, 2004). 2.3 dépendances de base les dépendances de base sont décrites par les dépendances de surfaces ou de formes ( Efi), les dépendances de morphologie ( Emj) et les dépendances de syntaxe (Esk) : Des dépendances de surface ou de forme. Ef1, Ef2, Ef3,…( ﻗﺎل, ) Des dépendances morphologique ou lexicale. Em1, Em2, Em3,…( , ) 2 SETIT2007 ___________ à partir des 7836 racines trilitères attestés dans la langue arabe, et dans le cadre des dépendances morphologiques, sont générés les dérivés (verbaux et nominaux), les verbes conjugués et les mots déclinés, en s’aidant des matrices de dérivations, des règles de conjugaison,…Parois, il s’avère indispensable de décrire les dépendances de surfaces et surtout dans le cas des racines contenant "alif" ou "chadda". En second lieu sont définies les dépendances syntaxiques telle que les catégories grammaticales, organisées selon l’ordre d’apparition dans notre corpus. Modèle parent : Le modèle parent vise à modéliser l’information d’inclusion entre les entités structurelles : Racine R1 Mot Syn R1 Mot Syn M1 M1 Syn Modèle Père-Père R1 2.4 Mot Des dépendances syntaxiques. E s1, Es2, Es3,… ( ﻗﺎﻞ, ) ﻓﻌل Modèle Père-Frère Ensuite et dans le cadre des dépendances supplémentaires, on s’intéresse aux dépendances sémantiques (Csi) tels que les synonymes, les anonymes, les acronymes…, et aux dépendances de contexte (pragmatiques (Cpi)) où sont définies les catégories thématiques : Des dépendances sémantiques ou de sens. E t1, Et2, Et3,… ( , ) Des dépendances pragmatiques thématiques. E p1, Ep2, Ep3,… ( ﺳﺎ, ou ) Autres modèles : Pour ces types de dépendances, nous proposons un modèle grand-père qui correspond à la modélisation de descendance d’ordre 2 et le modèle père- relation d’inclusion et de la relation de séquentialité (WISNIEWSKI, 02). Base préfix e schèm e suffix e enclitique Racin e Modèle Père Figure 6 : autres modèles Ces modèles ont un grand avantage et un énorme apport sur les calculs statistiques concernant la fréquence d'apparition de chaque type de dépendances, la liaison entre ces dépendances, les dépendances adjacentes, compatibles. Au sein de ces modèles qui décrivent les dépendances conditionnelles entre les différents nœuds du document, on trouve plusieurs types de relations ou de dépendances ; soit des relations de forme, ou des relations morphologique ou syntaxique (exemple: un mot contient préfixe, base et suffixe, morphologie (ت, ﻛﺴﺮ, ))إنou des relations sémantique (exemple un verbe v1 est un synonyme du verbe v 2, synonyme (ﻛﻠﻢ,))ﻗﺎل. 2.5 Figure 5 : Modèle parent dépendances supplémentaires frère qui correspond à la modélisation de la proclitique Matrice de dépendances Étant donné |d| le nombre des nœuds du dictionnaire. Chaque nœud n i est composé d’une étiquette s i et d’un contenu t i et correspond à une entité structurelle dictionnaire (racine, dérivé verbal, dérivé nominal, synonyme...). Soit E l’ensemble des étiquettes possibles (i.e.: s i Є E). Le processus générique décrit précédemment nous permet de générer pour chaque contenu du nœud une matrice de dépendance correspond ant à la probabilité de générer un contenu t pour une étiquette s pour la dépendance E. ni Si MDt Ti Ecxninj nj Sj Tj Es1 Em1 Ef2 s1 1 0 5 s2 7 7 0 0 1 2 0 s3 Figure 7 : Schéma de dépendance Figure 8 : Matrice de dépendances structurée La probabilité d'un nœud p d'avoir une dépendance Exc avec une étiquette s i et un contenue t est : MDt(Ecx,si). La probabilité du contenue t d'un nœud p parmi tous les mots est: (1) P(t) MDt (Ecxi,Sj)/ | d | 3 SETIT2007 ___________ 2.6 Tableau d'indexation statistique A partir des statistiques faites sur un corpus de la langue arabe, on obtient le tableau d'indexation statistique TIS qui contient les racines des verbes (lemme), ainsi que les informations statistiques qui sont liées à ces racines, parmi les informations associés à ces racines, on trouve: le thème associé, la fréquence d'apparition dans le corpus, la fréquence d'appartenance dans chaque type de dépendances,… 3 Classification thématique du lexique Représenter les documents sous forme d'un espace vectoriel est une technique largement utilisée en recherche documentaire (PIWOWARSKI, 2003). On considère une collection de thèmes T = {T1, T2, T3,…}, un dispositif de représentation consistant en un ensemble de termes t = {t1,t2,t3,…} et une matrice M de thème /terme dans laquelle l'élément de la i-éme ligne et la j-éme colonne représente le nombre de fois où le terme tj a été observé dans le document D. Toutefois, les termes d'un thème n'ont pas tous le même poids sémantique Ps, en plus, il y a des termes qui appartiennent à plus qu'un thème, mais ils n'ont pas le même poids sémantique da ns tous ces thèmes. Par conséquent, la classification sémantique des document doit tenir compte de toutes ces contraintes, d’où la probabilité P(D,Ti) qu'un document appartient au thème Ti est calculé par la formule suivante: n P(D,Ti) = Ps( j ) * M (i, j ) j 1 Donc le document D appartient au thème qui a la probabilité la plus élevées, en cas où deux thèmes, ou plus, ont des probabilités proches (P(D, Ti) - P(D, Tj) < k où k est un seuil déterminé par l'utilisateur), une intervention humaine s'avère nécessaire pour choisir le thème approprié au document. 3.1 Poids sémantique Le poids sémantique est une notion que nous avons adoptés pour classer les verbes qui appartiennent à un thème selon leur apport sémantique et leurs effets dans le choix de thème . L'assignation du poids sémantique du verbe est un processus semi automatique, qui utilise deux outils(ressources): le tableau des fréquences d'apparition des verbes au sein du corpus, car il est clair qu'un verbe qui soit fortement lié au thème, doit apparaître plus que les autres dans le corpus d'apprentissage, mais parfois, il arrive qu'un texte soit dans le contexte du thème, et pourtant il ne contient pas le verbe dédié, donc l'intervention humaine s'avère indispensable, dont le rôle du linguiste est d'assigner une note n() à chaque verbe du thème. Donc Ps(vi) = (fa(vi) + nt(v1))/n(Tj) (4) Ps = poids sémantique du verbe fa( ) = fréquence d'apparition du verbe dans le corpus thématique nt = note donnée par le linguiste au verbe n( ) = nombre de mots clés du thème. Le processus de génération des noeuds structurées ( contenant les informations de contenu ) est un processus semi_automatique, il contient deux taches complémentaires, dont la première est automatique et elle se charge de l'analyse morphologique des mots et leurs décomposition, soit une décomposition flexionnelle en préfixe, base et suffixe, ou bien une décomposition dérivationnelle de la base en schème et racine, pour cette première tâche, nous avons développé un racinisateur (stemmer) pour la langue arabe. La deuxième tâche est semi_automatique, puisqu'elle nécessite une assistance humaine pour la génération des dépendances sémantique entre les mots, les racines, les dérivés,… 4 Dictionnaires électroniques thématiques 4.1 Introduction Si les dictionnaires électroniques ont d’indéniables avantages par rapport aux dictionnaires en papier (maniabilité accrue, encombrement réduit), ils sont loin d’être parfaits en ce qui concerne le contenu et l’accès aux informations. La couverture (nombre d’entrées) n’est sûrement pas le seul critère d’un dictionnaire de bonne qualité, car à quoi bon de disposer d’une base de données riche s’il n’est pas possible d’accéder facilem ent et rapidement aux données?( MONTELEONE, 2003) Afin d'alléger les traitements que subit le dictionnaire et dans le but d'optimiser le temps de traitement nous proposons un modèle d'arrangement en étoile des informations au sein des dictionnaires 4 SETIT2007 ___________ électroniques basé sur des calculs et des analyses statistiques concernant l'apparition des lexèmes et des caractères dans la langue arabe, ces analyses sont faites sur des corpus thématiques de la langue arabe. L1: distance spécifique thématique à la classe sémantique. L1 = ∑ (i=1, i <n) Ps * f(mci) / n(T1) (5) 4.2 Organisation des données lexicales au sein du n= nombre des mots clés du theme T 1 dictionnaire Notre dictionnaire électronique est arrangé par thème (ces thèmes sont choisis par des experts linguistes, et à chaque thème est associé un corpus thématique dédié à celui-ci), chaque thème contient tous les mots de la langue arabes qui appartiennent à ce thème. Les mots sont organisés selon leurs racines, à partir de ces racines, sont classés tous les mots qui sont générés par une relation de morphologie dérivationnelle ou flexionnelle (HAD DAD, 2005). Le dictionnaire linguistique de la langue arabe contient en plus des données lexicales (racines, mots, dérivés, suffixes, préfixes, schèmes,…), une description des dépendances linguistiques qui régissent ces données lexicales. Pour chaque racine, sont associés toutes les dépendances qui accompagne la générations du lexique inspirés de cette racine. Le schéma suivant décrit le modèle d'organisation des données au sein du dictionnaire, ce modèle est basé sur des calculs statistiques, ces calculs sont réalisés sur des corpus thématiques de la langue arabe. Ps = poids sémantique mcti=mot clé du théme T 1 f(): fréquence d'apparition du mot dans le corpus. L11 : distance spécifique à la longueur du verbe "verbe1" calculé par une méthode statistique basée sur la probabilité du verbe dans le corpus thématique. On ne tient pas compte seulement du verbe sous sa forme lemmatisée, mais même s'il appariât dans le corpus dans une autre forme conjuguée ou dérivée. L11=K* L1- ∑ (i=1, i <m) Ps * f(ti) / m (6) K= constante M=taille du vocabulaire du thème L111: distance spécifique au dérivé (dérivé1) généré à partir du verbe (verbe1) Thème 1 : Tourisme Dérivé1 L111 C11 Dérivé2 L11 L12 D113 Verbe1 Dérivé3 Verbe2 L13 L1 Dérivé4 D112 L121 Dérivé1 Dérivé2 Dérivé1 Dérivé3 Verbe3 Dérivé2 L122 S23 Dérivé1 Thème 3 L311 Dérivé2 Noyau L2 L31 L32 L33 L313 Dérivé3 D313 Verbe1 Dérivé1 Verbe2 D312 L321 Dérivé1 Dérivé2 Dérivé3 Verbe3 L322 Dérivé2 Figure 9 : Organisation du lexique au sein du dictionnaire L111=K* L11- ∑ (i=1, i <m) f(ti) / m (7) Cette formule n'est valable que lorsqu'il existe une occurrence du mot dérivé dans le corpus, sinon ce mot aura une distance (nd(v11)+1) ou nd est le nombre des dérivés du verbe v11 existants dans le dictionnaire. D112: distance sémantique verbale entre les verbes (verbe1 et verbe2) calculé par une méthode statistique. Cette distance est extraite de la probabilité des dépendances sémantiques existante dans le réseau bayésiens du corpus, entre les deux verbes v1 et v2. (Cette distance n'existe pas nécessairement entre tous les verbes de la classe sémantique 1) C11: distance sémantique déverbale entre les d érivés de deux verbes différents avec les deux dérivés sont de même schème verbale ou nominale, cette distance est calculé à partir des relations ou des dépendances sémantiques entre les deux mots dans le corpus thématique. 5 SETIT2007 ___________ S23: distance sémantique déverba l entre les dérivés de deux verbes différents avec les deux dérivés sont de schème verbale ou nominale différentes. 4.3 Consultation du lexique au sein du dictionnaire Le schéma suivant présente le module consultation du lexique au sein du dictionnaire: Vérification de " "ﻛﺎﺗﺐparmi les dérivés de " "ﻛﺘﺐdans le dictionnaire de ALOULOU C. (2003), "analyse syntaxique de l’arabe : le système MASPAR", colloque international sur le traitement automatique du langage naturel pour les jeunes chercheurs (RECITAL’2003), du 11 au 14 juin 2003 à Batz-surMer, France. ABBES R. (2004), "La conception et la réalisation d’un concordancier élect ronique pour l’arabe", thèse à l’institut national des sciences appliquées de Lyon . Vérification Fa()ﻛﺘﺐ Mot à rechercher lemmatiseur ﻛﺎﺗﺐ Racine Consultation de Tis ﻛﺘﺐ كتب Calcul de la L11 Fac( )ك+ Fac()ك Longueur Consultation du tableau + Fac()ك d'occurrences des caractères Figure 10 : Module de consultation du lexique 5 Conclusion Nous focalisons sur deux aspects complémentaires; l'organisation du contenu(des informations au sein des dictionnaires électroniques) où nous proposons un modèle d'arrangement en étoile basé sur des calculs et des analyses statistiques concernant l'appari tion des lexèmes et des caractères dans la langue arabe, ensuite nous décrivons la structure (les dépendances dans le lexique) où nous proposons une approche basé sur le formalisme des réseaux bayésiens, sur lequel repose notre modèle, qui permet la prise en compte de différentes relations entre les éléments structurels d’un lexique. Références PIWOWARSKI P. (2003), "Techniques d’apprentissage pour le traitement d’informations structurées : application à la recherche d’information " thèse à l’université PARIS 6. HADDAD A. (2005), "Un système de génération automatique de dictionnaires ling uistiques pour la langue arabe", TALN, DOURDON. WISNIEWSKI G., DENOYER L., GALLINARI P. (2002), "Classification automatique de documents structurés. Application au corpus d’arbres étiquetés de type XML". MONTELEONE M. (2003), "lexicographie et dictionnaires électroniques : des usages linguistiques aux bases de données lexicales ", thèse à l'Université de Marne-la-Vallée. 6