Structuration automatique du lexique au sein du dictionnaire

Transcription

Structuration automatique du lexique au sein du dictionnaire
SETIT 2007
4rth International Conference: Sciences of Electronic,
Technologies of Information and Telecommunications
March 25-29, 2007 – TUNISIA
Structuration automatique du lexique au sein du
dictionnaire électronique arabe
Ahmed HADDAD* et Henda Ben GHEZALA**
* Laboratoire RIADI, Ecole Nationale des Sciences Informatiques
[email protected]
**
Laboratoire RIADI
[email protected]
Résumé Dans cet article, nous présentons un modèle générique de lexique structuré pour la langue arabe, décrivant
simultanément la structure et le contenu pour la génération d’un dictionnaire thématique (dicothéme). Ce modèle
général peut être adapté à différent es tâches. Le formalisme des réseaux bayésiens, sur lequel repose notre modèle,
permet la prise en compte de différentes relations entre les éléments structurels d’un lexique. Notre dictionnaire basé
sur un modèle d'organisation en étoile, où les lemmes, a insi que les lexèmes sont arrangés suivant des longueurs
calculées à partir d’un corpus dans le but d'optimiser la pertinence de recherche d'informations au sein de notre
dictionnaire électronique.
Mots clés: dictionnaire électronique (dicothème), réseau bayésiens, lexique, occurrence d'apparition, dépendance
structurelle.
1 Introduction
2 Modèles de structure du dictionnaire
Le développement du document électronique
et du Web a vu émerger puis s’imposer des formats de
données semi structurées, tel le XML. Ce nouveau
format décrit simultanément la structure logique des
documents et le contenu de ceux -ci et permet ainsi de
représenter l’information sous une forme plus riche
que le simple contenu. Celle -ci est adaptée à des
besoins spécifiques qui permettent, par exemple, de
faciliter l’accès à l’information ou d’optimiser le
stockage et l’interrogation des informations.
Dans cet article nous focalisons sur deux aspects
complémentaires ; la structure où nous présentons un
modèle générique du lexique au sein du dictionnaire
basé sur le formalisme des réseaux bayésiens
permettant une prise en compte de différentes
relations entre les éléments structurels d’un
document, et le contenu : l'organisation des
informations au sein des dictionnaires électroniques
où nous proposons un modèle d'arrangement en étoile
basé sur des calculs et des analyses statistiques
concernant l'apparition des lexèmes et des caractères
dans la langue arabe.
Nous
allons
proposer
différentes
modélisations possibles des relations de dépendances
entre les unités structurelles d’un lexique au sein du
dictionnaire linguistique d e la langue arabe afin de
déterminer les dépendances les plus intéressantes
pour la classification automatique. Nous avons choisi
de modéliser la structure par un réseau bayésien car
ce formalisme permet de caractériser les dépendances
conditionnelles de manière flexible. Cependant, il est
nécessaire de faire un compromis entre l’expressivité
du modèle et sa complexité . Les dépendances sont
structurées selon le même ordre que celui des
analyses dans le traitement automatique du langage
naturel (ALOULOU, 2003).
Chadda
Alif
Flexion : déclinaison
Flexion : conjugaison
Dérivation nominale
Catégorie
grammaticale
Acronyme
Synonyme
Anaphore
Catégorie thématique
Dépendances
syntaxiques
Dépendances
sémantiques
Dépendances
pragmatiques
Dérivation verbale
Racines
Dépendances
de formes
Dépendances
morphologiques
Figure 1 : Schéma de distribution du lexique au sein du
dictionnaire
SETIT2007
2.1
___________
Modèle général
Soit (s1, ..., s|d|) l’ensemble des nœuds de structure
du lexique dans le dictionnaire . On va considérer que
la structure du dictionnaire est modélisée par un
réseau bayésien de N variables X1, ...,XN. Les arcs
du réseau seront modélisés par la fonction fs(Xi) qui
renvoie l’ensemble des fils de la variables Xi dans le
réseau.
sémantique (exemple un verbe v1 est un synonyme
du verbe v2, synonyme (‫ﻛﻠﻢ‬,‫))ﻗﺎل‬.
La figure suivante représente un exemple de
représentation du dictionnaire où les informations de
contenu apparaissent dans les recta ngles et les nœuds
structurels sont représentés par des cercles dans
lesquels apparaissent les étique ttes:
Lemme
Nous allons distinguer deux types de
variables :
Dérivé
verbal

les variables E1, ..., E|d| qui correspondent à
des nœuds du dictionnaire modélisé.
 les variables Y1, ..., YN−|d| permettant de
modéliser des dépendances supplémentaires
entre les nœuds du dictionnaire. Ces
variables ont pour but de modéliser des
relations plus fines entres les éléments de
structure du dictionnaire.
acron
yme
Synon
yme
‫ﻤﻜﺘﻮﺐ‬
‫ﻛﺎﺗﺐ‬
dériv
é
dériv
é
Lemme
Lemme
Lemme
dériv
é
dérivé
dériv
é
dérivé
‫اﻧﻜﺘﺐ‬
Ainsi, l’ensemble des variables s’écrit (X1, ...,XN) =
(S1, ..., S|d|, Y1, ..., YN−|d|).
Nous allons proposer deux familles de modèles :
Dérivé
nominal
Figure 3 : Exemple de dictionnaire structuré
2.2
Le modèle du mot graphique en arabe
– la première famille (E) correspond à des réseaux «
simples » pour lesquels toutes les variables aléatoires
correspondent à des entités structurelles du
dictionnaire (i.e. : N = |d|). Cette famille permet la
modélisation de dépendances directes entre les
éléments d’un dictionnaire (dépendance de surface,
de morphologie et de syntaxe) .
– la seconde famille (C) permet de décrire, à l’aide
des variables Y1, ..., YN−|d| des dépendances
supplémentaires (dépendance de sens et de contexte) .
Une dépendance de type c et de classe x entre deux
nœuds p et q est schématisé par Ecx(p,q).
Ecxpq
p
Figure 2 : Schéma de dépendance
Parmi ces dépendances qui décrivent les liens entre
les différents nœuds du dictionnaire, on trouve des
relations de forme, des relations morphologique ,
syntaxique (exemple: un mot contient préfixe, base et
suffixe, morphologie (‫ت‬,‫ﺴﺮ‬
‫ ﻛ‬,‫ ))إن‬ou des relations
Figure 4 : Décomposition du mot graphique en arabe ;
‫ أ ﺳﺘﺬﻛﺮوﻧﮫ‬asatadkurūnahu "est-ce que vous allez
parler de lui".
Le mot graphique en arabe comporte une structure
d'objet complexe appelait mot maximal l'unité
décomposable en : proclitique(s), préfixe, base,
suffixe(s), enclitique(s) (ABBES, 2004).
2.3
dépendances de base
les dépendances de base sont décrites par les
dépendances de surfaces ou de formes ( Efi), les
dépendances de morphologie ( Emj) et les
dépendances de syntaxe (Esk) :

Des dépendances de surface ou de forme.
Ef1, Ef2, Ef3,…(‫ ﻗﺎل‬, )

Des dépendances morphologique ou
lexicale. Em1, Em2, Em3,…(
,
)
2
SETIT2007

___________
à partir des 7836 racines trilitères attestés dans la
langue arabe, et dans le cadre des dépendances
morphologiques, sont générés les dérivés (verbaux et
nominaux), les verbes conjugués et les mots déclinés,
en s’aidant des matrices de dérivations, des règles de
conjugaison,…Parois, il s’avère indispensable de
décrire les dépendances de surfaces et surtout dans le
cas des racines contenant "alif" ou "chadda". En
second lieu sont définies les dépendances syntaxiques
telle que les catégories grammaticales, organisées
selon l’ordre d’apparition dans notre corpus.
Modèle parent : Le modèle parent vise à
modéliser l’information d’inclusion entre les entités
structurelles :
Racine
R1
Mot
Syn
R1
Mot
Syn
M1
M1
Syn
Modèle Père-Père R1
2.4
Mot
Des dépendances syntaxiques. E s1, Es2,
Es3,… ( ‫ ﻗﺎﻞ‬, ‫) ﻓﻌل‬
Modèle Père-Frère
Ensuite et dans le cadre des dépendances
supplémentaires, on s’intéresse aux dépendances
sémantiques (Csi) tels que les synonymes, les
anonymes, les acronymes…, et aux dépendances de
contexte (pragmatiques (Cpi)) où sont définies les
catégories thématiques :

Des dépendances sémantiques ou de
sens. E t1, Et2, Et3,… (
, )

Des dépendances pragmatiques
thématiques. E p1, Ep2, Ep3,… ( ‫ﺳﺎ‬,
ou
)
Autres modèles : Pour ces types de
dépendances, nous proposons un modèle
grand-père qui correspond à la modélisation
de descendance d’ordre 2 et le modèle père-
relation d’inclusion et de la relation de
séquentialité (WISNIEWSKI, 02).
Base
préfix
e
schèm
e
suffix
e
enclitique
Racin
e
Modèle Père
Figure 6 : autres modèles
Ces modèles ont un grand avantage et un énorme
apport sur les calculs statistiques concernant la
fréquence d'apparition de chaque type de
dépendances, la liaison entre ces dépendances, les
dépendances adjacentes, compatibles.
Au sein de ces modèles qui décrivent les dépendances
conditionnelles entre les différents nœuds du
document, on trouve plusieurs types de relations ou
de dépendances ; soit des relations de forme, ou des
relations morphologique ou syntaxique (exemple: un
mot contient préfixe, base et suffixe, morphologie
(‫ت‬,‫ ﻛﺴﺮ‬,‫ ))إن‬ou des relations sémantique (exemple un
verbe v1 est un synonyme du verbe v 2, synonyme
(‫ﻛﻠﻢ‬,‫))ﻗﺎل‬.
2.5
Figure 5 : Modèle parent
dépendances supplémentaires
frère qui correspond à la modélisation de la
proclitique
Matrice de dépendances
Étant donné |d| le nombre des nœuds du dictionnaire.
Chaque nœud n i est composé d’une étiquette s i et d’un
contenu t i et correspond à une entité structurelle
dictionnaire (racine, dérivé verbal, dérivé nominal,
synonyme...).
Soit E l’ensemble des étiquettes possibles (i.e.: s i Є
E). Le processus générique décrit précédemment nous
permet de générer pour chaque contenu du nœud une
matrice de dépendance correspond ant à la probabilité
de générer un contenu t pour une étiquette s pour la
dépendance E.
ni
Si
MDt
Ti
Ecxninj
nj
Sj
Tj
Es1
Em1
Ef2
s1
1
0
5
s2
7
7
0
0
1
2
0
s3
Figure 7 : Schéma de dépendance
Figure 8 : Matrice de dépendances
structurée
La probabilité d'un nœud p d'avoir une dépendance
Exc avec une étiquette s i et un contenue t est :
MDt(Ecx,si). La probabilité du contenue t d'un nœud p
parmi tous les mots est:
(1)
P(t) 
MDt (Ecxi,Sj)/ | d |

3
SETIT2007
___________
2.6 Tableau d'indexation statistique
A partir des statistiques faites sur un corpus
de la langue arabe, on obtient le tableau d'indexation
statistique TIS qui contient les racines des verbes
(lemme), ainsi que les informations statistiques qui
sont liées à ces racines, parmi les informations
associés à ces racines, on trouve: le thème associé, la
fréquence d'apparition dans le corpus, la fréquence
d'appartenance dans chaque type de dépendances,…
3 Classification thématique du lexique
Représenter les documents sous forme d'un
espace vectoriel est une technique largement utilisée
en recherche documentaire (PIWOWARSKI, 2003).
On considère une collection de thèmes T = {T1, T2,
T3,…}, un dispositif de représentation consistant en
un ensemble de termes
t = {t1,t2,t3,…} et une
matrice M de thème /terme dans laquelle l'élément de
la i-éme ligne et la j-éme colonne représente le
nombre de fois où le terme tj a été observé dans le
document D.
Toutefois, les termes d'un thème n'ont pas tous le
même poids sémantique Ps, en plus, il y a des termes
qui appartiennent à plus qu'un thème, mais ils n'ont
pas le même poids sémantique da ns tous ces thèmes.
Par conséquent, la classification sémantique des
document doit tenir compte de toutes ces contraintes,
d’où la probabilité P(D,Ti) qu'un document appartient
au thème Ti est calculé par la formule suivante:
n
P(D,Ti) =
 Ps( j ) * M (i, j )
j 1
Donc le document D appartient au thème qui a la
probabilité la plus élevées, en cas où deux thèmes, ou
plus, ont des probabilités proches (P(D, Ti) - P(D, Tj)
< k où k est un seuil déterminé par l'utilisateur), une
intervention humaine s'avère nécessaire pour choisir
le thème approprié au document.
3.1 Poids sémantique
Le poids sémantique est une notion que nous
avons adoptés pour classer les verbes qui
appartiennent à un thème selon leur apport
sémantique et leurs effets dans le choix de thème .
L'assignation du poids sémantique du verbe est un
processus semi automatique, qui utilise deux
outils(ressources): le tableau des fréquences
d'apparition des verbes au sein du corpus, car il est
clair qu'un verbe qui soit fortement lié au thème, doit
apparaître plus que les autres dans le corpus
d'apprentissage, mais parfois, il arrive qu'un texte soit
dans le contexte du thème, et pourtant il ne contient
pas le verbe dédié, donc l'intervention humaine
s'avère indispensable, dont le rôle du linguiste est
d'assigner une note n() à chaque verbe du thème.
Donc
Ps(vi) = (fa(vi) + nt(v1))/n(Tj)
(4)
Ps = poids sémantique du verbe
fa( ) = fréquence d'apparition du verbe dans
le corpus thématique
nt = note donnée par le linguiste au verbe
n( ) = nombre de mots clés du thème.
Le processus de génération des noeuds structurées
( contenant les informations de contenu ) est un
processus semi_automatique, il contient deux taches
complémentaires, dont la première est automatique et
elle se charge de l'analyse morphologique des mots et
leurs décomposition, soit une décomposition
flexionnelle en préfixe, base et suffixe, ou bien une
décomposition dérivationnelle de la base en schème
et racine, pour cette première tâche, nous avons
développé un racinisateur (stemmer) pour la langue
arabe.
La deuxième tâche est semi_automatique,
puisqu'elle nécessite une assistance humaine pour la
génération des dépendances sémantique entre les
mots, les racines, les dérivés,…
4 Dictionnaires électroniques
thématiques
4.1 Introduction
Si
les
dictionnaires
électroniques
ont
d’indéniables avantages par rapport aux dictionnaires
en papier (maniabilité accrue, encombrement réduit),
ils sont loin d’être parfaits en ce qui concerne le
contenu et l’accès aux informations. La couverture
(nombre d’entrées) n’est sûrement pas le seul critère
d’un dictionnaire de bonne qualité, car à quoi bon de
disposer d’une base de données riche s’il n’est pas
possible d’accéder facilem ent et rapidement aux
données?( MONTELEONE, 2003)
Afin d'alléger les traitements que subit le
dictionnaire et dans le but d'optimiser le temps de
traitement nous proposons un modèle d'arrangement
en étoile des informations au sein des dictionnaires
4
SETIT2007
___________
électroniques basé sur des calculs et des analyses
statistiques concernant l'apparition des lexèmes et des
caractères dans la langue arabe, ces analyses sont
faites sur des corpus thématiques de la langue arabe.
L1: distance spécifique thématique à la classe
sémantique.
L1 = ∑ (i=1, i <n) Ps * f(mci) /
n(T1)
(5)
4.2 Organisation des données lexicales au sein du
n= nombre des mots clés du theme T 1
dictionnaire
Notre dictionnaire électronique est arrangé
par thème (ces thèmes sont choisis par des experts
linguistes, et à chaque thème est associé un corpus
thématique dédié à celui-ci), chaque thème contient
tous les mots de la langue arabes qui appartiennent à
ce thème. Les mots sont organisés selon leurs racines,
à partir de ces racines, sont classés tous les mots qui
sont générés par une relation de morphologie
dérivationnelle ou flexionnelle (HAD DAD, 2005).
Le dictionnaire linguistique de la langue arabe
contient en plus des données lexicales (racines, mots,
dérivés, suffixes, préfixes, schèmes,…), une
description des dépendances linguistiques qui
régissent ces données lexicales. Pour chaque racine,
sont associés toutes les dépendances qui accompagne
la générations du lexique inspirés de cette racine.
Le schéma suivant décrit le modèle
d'organisation des données au sein du dictionnaire, ce
modèle est basé sur des calculs statistiques, ces
calculs sont réalisés sur des corpus thématiques de la
langue arabe.
Ps = poids sémantique
mcti=mot clé du théme T 1
f(): fréquence d'apparition du mot dans le corpus.
L11 : distance spécifique à la longueur du verbe
"verbe1" calculé par une méthode statistique basée
sur la probabilité du verbe dans le corpus thématique.
On ne tient pas compte seulement du verbe sous sa
forme lemmatisée, mais même s'il appariât dans le
corpus dans une autre forme conjuguée ou dérivée.
L11=K* L1- ∑ (i=1, i <m) Ps *
f(ti) / m
(6)
K= constante
M=taille du vocabulaire du
thème
L111: distance spécifique au dérivé (dérivé1) généré
à partir du verbe (verbe1)
Thème 1 : Tourisme
Dérivé1
L111
C11
Dérivé2
L11
L12
D113
Verbe1
Dérivé3
Verbe2
L13
L1
Dérivé4
D112
L121
Dérivé1
Dérivé2
Dérivé1
Dérivé3
Verbe3
Dérivé2
L122
S23
Dérivé1
Thème 3
L311
Dérivé2
Noyau
L2
L31
L32
L33
L313
Dérivé3
D313
Verbe1
Dérivé1
Verbe2
D312
L321
Dérivé1
Dérivé2
Dérivé3
Verbe3
L322
Dérivé2
Figure 9 : Organisation du lexique au sein du
dictionnaire
L111=K* L11- ∑ (i=1, i <m) f(ti) /
m
(7)
Cette formule n'est valable que lorsqu'il existe une
occurrence du mot dérivé dans le corpus, sinon ce
mot aura une distance (nd(v11)+1) ou nd est le
nombre des dérivés du verbe v11 existants dans le
dictionnaire.
D112: distance sémantique verbale entre les verbes
(verbe1 et verbe2) calculé par une méthode
statistique. Cette distance est extraite de la probabilité
des dépendances sémantiques existante dans le réseau
bayésiens du corpus, entre les deux verbes v1 et v2.
(Cette distance n'existe pas nécessairement entre tous
les verbes de la classe sémantique 1)
C11: distance sémantique déverbale entre les d érivés
de deux verbes différents avec les deux dérivés sont
de même schème verbale ou nominale, cette distance
est calculé à partir des relations ou des dépendances
sémantiques entre les deux mots dans le corpus
thématique.
5
SETIT2007
___________
S23: distance sémantique déverba l entre les dérivés
de deux verbes différents avec les deux dérivés sont
de schème verbale ou nominale différentes.
4.3 Consultation du lexique au sein du
dictionnaire
Le schéma suivant présente le module
consultation du lexique au sein du dictionnaire:
Vérification de "‫ "ﻛﺎﺗﺐ‬parmi les dérivés de "‫ "ﻛﺘﺐ‬dans le dictionnaire
de
ALOULOU C. (2003), "analyse syntaxique de
l’arabe :
le
système
MASPAR",
colloque
international sur le traitement automatique
du
langage naturel pour les jeunes chercheurs
(RECITAL’2003), du 11 au 14 juin 2003 à Batz-surMer, France.
ABBES R. (2004), "La conception et la réalisation
d’un concordancier élect ronique pour l’arabe", thèse à
l’institut national des sciences appliquées de Lyon .
Vérification
Fa(‫)ﻛﺘﺐ‬
Mot à rechercher
lemmatiseur
‫ﻛﺎﺗﺐ‬
Racine
Consultation de Tis
‫ﻛﺘﺐ‬
‫كتب‬
Calcul de la L11
Fac(‫ )ك‬+ Fac(‫)ك‬
Longueur
Consultation du tableau
+ Fac(‫)ك‬
d'occurrences des caractères
Figure 10 : Module de consultation du lexique
5 Conclusion
Nous focalisons sur deux aspects complémentaires;
l'organisation du contenu(des informations au sein
des dictionnaires électroniques) où nous proposons un
modèle d'arrangement en étoile basé sur des calculs et
des analyses statistiques concernant l'appari tion des
lexèmes et des caractères dans la langue arabe,
ensuite nous décrivons la structure (les dépendances
dans le lexique) où nous proposons une approche
basé sur le formalisme des réseaux bayésiens, sur
lequel repose notre modèle, qui permet la prise en
compte de différentes relations entre les éléments
structurels d’un lexique.
Références
PIWOWARSKI P. (2003), "Techniques
d’apprentissage pour le traitement d’informations
structurées : application à la recherche d’information "
thèse à l’université PARIS 6.
HADDAD A. (2005), "Un système de génération
automatique de dictionnaires ling uistiques pour la
langue arabe", TALN, DOURDON.
WISNIEWSKI G., DENOYER L., GALLINARI P.
(2002), "Classification automatique de documents
structurés. Application au corpus d’arbres étiquetés
de type XML".
MONTELEONE M. (2003), "lexicographie et
dictionnaires électroniques : des usages linguistiques
aux bases de données lexicales ", thèse à l'Université
de Marne-la-Vallée.
6