Étude Comparative des Algorithmes de - CEUR

Transcription

Étude Comparative des Algorithmes de - CEUR
Étude Comparative des Algorithmes de Segmentation
Thématique Pour la Langue Arabe
Fouzi Harrag ¹, Mohamed BenMohammed ²
¹ Département d'informatique
Université Farhat Abbas
Sétif –Algérie
[email protected]
² Département d'informatique
Université Mentouri,
Constantine, Algérie
[email protected]
Résumé. Le besoin d'avoir un système de segmentation thématique des textes
arabes apourbutd’
améliorer les fonctionnalités de la Recherche d'Information
Arabe (RIA). La segmentation thématique des textes a été utilisée pour
améliorer la précision des processus subséquents telle que les systèmes de
résumé automatique, les systèmes de Question/Réponses et les systèmes de
r
e
c
he
r
c
he d’
i
nf
or
ma
t
i
on. Dans cet article, nous présentons une étude
comparative des algorithmes TextTiling et C99 pour la segmentation thématique
des textes arabes. Nous évaluons la performance de ces deux algorithmes en
utilisant les mesures classiques Rappel et Précision et la méthode des
Jugements des Lecteurs récemment introduite.
1 Introduction
La segmentation thématique est une nouvelle technique pour l
’
amélioration de
l'accès à l
’
information, elle peut être définie comme la tâche de subdivisi
ond’
un
document en plusieurs paragraphes thématiquement cohérents. En recherche
d'information par exemple, avoir des documents thématiquement segmentés peut
résulter en la récupération des segments de texte courts et pertinents qui
correspondent directement à la requête d'un utilisateur au lieu de longs documents
examiné avec soin par l
’
utilisateur pour trouver l'objet de son intérêt. Avoir des
documents thématiquement segmentés peut aussi aider dans la tâche de résumé
automatique des textes puisque un meilleur résumé peut être obtenu de la fusion des
différents segments constituant le document [7]. Au temps où un nombre considérable
de recherches a é
t
éc
on
s
a
c
r
éàl
’
é
t
u
decette technique pour les langues anglaise et
française, peu l'ont étudié pour d’
autres langues et presque personne, àl
’
e
x
c
e
pt
i
onde
[7] et [12], n
’
aé
t
u
di
éc
e
t
t
et
e
c
h
n
i
qu
epour langue arabe. Le manque de recherche
dans ce domaine nous a poussés à adopter les deux algorithmes de segmentation
thématique TextTiling et C99 pour une telle langue. Cet article est organisé comme
suit: la Section 2 présents u
né
t
a
tdel
’
a
r
tda
n
sl
edoma
i
n
e
; la Section 3 présents une
vue d'ensemble des approches implémentés; les résultats et leur discussion sont
rapportées dans la Section 4; finalement la Section 5 conclut l’
a
r
t
i
c
l
e
.
2 Travaux antérieurs
Les approches qui adressent le problème de segmentation thématique peuvent être
classées en deux classes : les approches à base de connaissance et les approches à base
de mot. Les systèmes à base de connaissance, comme dans [11], exige un grand effort
ma
nu
e
ld
el
’
i
n
g
é
n
i
e
r
ie de connaissance pour la créa
t
i
ond’
u
n
ebase de connaissance
(réseau sémantique et/ou de Frames). Ceci est seulement réalisable dans quelques
domaines très restreints. Pour dépasser cette limitation, et pour traiter une grande
quantité de textes, les approches à base de mot ont été développées. [13] et [20] fait
usage de la distribution des mots dans un texte pour trouver une segmentation
thématique. Ces travaux sont bien adaptés à des textes techniques ou scientifiques
caractérisés par un vocabulaire spécifique.
Pour traiter des textes narratifs ou explicatifs tels que les articles des journaux, les
approches [17] et [22] sont basées sur la cohésion lexicale calculée à partir d'un réseau
lexical. Ces méthodes dépendent de la présence du vocabulaire du texte à l'intérieur de
leur réseau. Donc, pour éviter toute restriction de domaines dans tels genres de textes,
[20] a présenté une méthode mixte qui augmente un système basée sur la distribution
des mots, en utilisant les connaissances représentés par un réseau lexical de cooccurrences construit automatiquement à partir d'un corpus.
Les autres approches Existantes de segmentation thématique peuvent être classées
dans deux groupes principaux: les approches à base de cohésion lexicale et les
approches à base d’
a
t
t
r
i
bu
t
s
. Les approches à base de cohésion lexicale dépendent de la
tendance des unités thématiques à lier ensemble. En outre, les approches qui mesurent
ce type de cohésion peuvent être divisées en deux catégories: les approches à base de
similarité où les modèles de répétitions syntactiques sont utilisés pour indiquer la
cohésion et les approches à base de chaînes lexicales où autres aspects de cohésion
lexicale (comme les relations entre termes) sont aussi analysé [3].
3 Approches implémentés
Dans cette section, deux algorithmes de segmentation thématique des textes sont
décrits: TextTiling [13] et C99 [5]. Les deux systèmes sont basés sur la cohésion
lexicale. L'algorithme TextTiling utilise la mesure de similarité Cosine entre les
vecteurs des termes pour mesurer la densité de la cohésion entre blocs adjacents.
L'algorithme C99 utilise aussi la mesure de similarité Cosine pour déterminer des
ressemblances parmi les phrases du texte puis il projette ceux-ci graphiquement. Il
applique alors des techniques de traitement d'image pour déterminer des frontières
thématiques.
3.1 Pré-traitement des textes
L'étape de pré-traitement traite l
e
sf
l
u
xd’
e
n
t
r
é
een enlevant les étiquettes et les
ponctuations et en transformant les termes en lemmes. En premier lieu, nous allons
construire des blocs de texte appelés « séquences lexicales ». Le texte de l'entrée est
simplement une séquence de caractères avant le pré-traitement. C'est la responsabilité
du pré-processor de transformer cette séquence en unités sémantiques dans la phase
d’
a
n
a
l
y
s
el
e
x
i
c
a
l
e
. Ces unités peuvent être des mots simples tels que les mots
programme et création, ou des expressions composées telles que Les États-Unis (par
opposition à États et Unis).
3.2
L’
Al
gor
i
t
hmeTextTiling
L'algorithme TextTiling, pour la découverte des structures thématiques en utilisant
la répétition des termes, se décompose de trois parties principales [13]:
 Le découpage physique.
 Détermination de la similarité.
 Identification des frontières.
C’
est l’
un des travaux fondateurs dans le domaine de la détection de thème, TextTiling
réalise le découpage d’
un texte en unités de discours multi paragraphe cohérentes qui
reflète la structure thématique du texte cf. Figure 1. Cet algorithme utilise la fréquence
lexicale indépendamment du domaine et la distributivité pour reconnaitre l’
interaction
de thèmes simultanés multiples. Elle se base sur un modèle d’
espace vectoriel qui
détermine la similarité entre des groupes voisins de phrases et place une coupure entre
des blocs voisins dissimilaires.
La première étape est le découpage physique Elle se base sur une mesure de similarité
lexicale. Les lemmes issus du texte prétraites sont groupes en pseudo phrases, c'est-adire un ensemble de lemmes adjacents (20 dans l’article), qui sont elles-mêmes
regroupées en bloc de Taille fixée par l’utilisateur (cf. Figure 1). Cette taille des
segments est variable, elle peut aller de 3 à 5 pseudo phrases a un paragraphe. En
général, on prend la moyenne de la longueur des Paragraphes. Les paragraphes réels
ainsi que les phrases ne sont pas pris car leur longueur Peut être fortement irrégulière
conduisant à des comparaisons déséquilibrées.
La deuxième étape est le calcul de la similarité entre blocs adjacents La similarité entre
des blocs de pseudo phrase adjacents est calculée cf. Figure 1 par Une mesure du
cosinus cf. Equation 1 : étant donne des blocs de textes b1 et b2,
Score(i) 
W
t,b1
W t,b2
(1)
t
W
t
2
t, b1
W
2
t, b2
t
Où t s
’
é
t
e
n
dàl
’
e
n
s
e
mbl
ed
e
st
e
r
me
sda
n
sl
ed
oc
u
me
n
te
twt,b1 est le poids tf.idf assigné
au terme t dans le bloc b1. tf.idf correspond au nombre de lemmes communs et au
n
ombr
edef
oi
squ
’
i
l
sa
p
pa
r
a
i
s
s
e
n
tdans le texte tout entier. Donc, si le score de la
similarité entre deux blocs est élève, alors non seulement les Blocs ont des termes en
c
ommu
n
,ma
i
sl
e
st
e
r
me
squ
’
i
l
son
te
nc
ommu
ns
on
tr
e
l
a
t
i
v
e
me
n
trares en ce qui
concerne le reste du document. L’
évidence de la réciproque n’
est pas aussi concluante :
si des blocs adjacents ont une mesure de similarité faible, cela ne signifie pas
n
é
c
e
s
s
a
i
r
e
me
n
tqu
’
i
l
sn
es
et
i
e
n
n
e
n
tpa
se
n
s
e
mbl
e;c
e
p
e
n
da
n
t
,e
npr
a
t
i
qu
ec
e
t
t
e
évidence négative est souvent justifiée.
Fig. 1. Principe del
’
a
l
g
or
i
t
hmeTextTiling
La troisième étape e
s
tl
’
extraction des zones thématiques, à partir de ce score, le calcul
d’
un score de cohésion (ou de profondeur) est effectue qui quantifie la similarité entre
un bloc et les blocs voisins. En terme de graphe de score de Similarité, un score de
cohésion peut être représente comme la somme des différences entre le sommet du pic
et les creux des vallées voisines. Le calcul des scores de cohésion procède comme suit:
 on commence au premier creux entre 2 blocs et,
 on mémorise le score de similarité associée avec les blocs de chaque cote du
creux.
 On vérifie le score de similarité du creux précédant,
 Sic
’
e
s
tp
l
u
sh
a
u
t
,onc
on
t
i
n
u
ee
tone
x
a
mi
n
el
es
c
o
r
ed
es
i
mi
l
a
r
i
t
éduc
r
e
u
x
précédant.
 Onc
on
t
i
n
u
ej
u
s
qu
’
àc
equ
el
es
c
o
r
es
oi
tp
l
u
sba
squ
ec
e
l
u
idé
j
àe
x
a
mi
n
e
r.
 Ensuite, on soustrait le score de similarité du creux initial avec le score
maximum de similarité rencontre.
 Cette procédure est répétée pour les creux entre les blocs suivant le premier
creux.
 Enfin, la somme des deux différences est calculée.
Cette valeur est le score de cohésion pour le premier creux examine, les scores de
cohésion ne sont calcules que pour les creux qui sont des minimaux locaux pour la
fonction de similarité. Les limites, c’
est-a-dire les zones de changements de thèmes,
sont déterminées en localisant les portions les plus basses des vallées dans le graphique
résultant. En d’
autres termes, les creux avec de fort score de cohésion sont sélectionnes
comme les endroits de rupture de thèmes. Cette coupure est ajustée a la fin d’
un
paragraphe. Ceci permet d’
éliminer les coupures très proches l’
une de l’
autre.
3.3 L’
al
g
or
i
t
hmeC99
Cet algorithme proposé par [5] utilise une mesure de similarité entre chaque unité
t
e
x
t
u
e
l
l
e
.L’
i
dé
edeb
a
s
ed
ec
e
t
t
emé
t
h
od
ee
s
tqu
el
e
sme
s
u
r
e
sd
es
i
mi
l
a
r
i
t
ée
ntre des
segments de textes courts sont statistiquement insignifiantes, et que donc seul des
classements locaux (voir ci-dessous) sont à considérer pour ensuite appliquer un
algorithme de catégorisation sur la matrice de similarité.
Dans un premier temps, une matrice de similarité est donc construite, représentant la
s
i
mi
l
a
r
i
t
ée
n
t
r
et
ou
t
e
sl
e
sph
r
a
s
e
sdut
e
x
t
eàl
’
a
i
dedel
ame
s
u
r
ed
es
i
mi
l
a
r
i
t
éCosinus,
calculée pour chaque paire de phrases du texte, en utilisant chaque mot commun entre
les phrases, et après « nettoyage » du texte : suppression des mots vides et
lemmatisation.
One
f
f
e
c
t
u
ee
n
s
u
i
t
eu
n«c
l
a
s
s
e
me
n
tl
oc
a
l»
,e
ndé
t
e
r
mi
n
a
n
tpou
rc
h
a
qu
ep
a
i
r
ed’
u
n
i
t
é
s
textuelles, le rang de sa mesure de similarité par rapport à ses m × n −1voisins, m × n
étant le ma
s
qu
edec
l
a
s
s
e
me
n
tc
h
o
i
s
i
.Ler
a
n
ge
s
tl
en
ombr
ed’
é
l
é
me
n
t
sv
oi
s
i
n
sa
y
a
n
t
une mesure de s
i
mi
l
a
r
i
t
ép
l
u
sf
a
i
b
l
e
,c
on
s
e
r
v
és
ou
sl
af
o
r
med
’
u
nr
a
t
i
ora
f
i
nd
ep
r
e
n
dr
e
en compte les effets de bord.
rang
r
# de voisins dans le masque
.
(2)
Enfin, la dernière étape détermine les limites de chaque segment de la même manière
qu
el
’
a
l
g
o
r
i
t
h
meDotplotting [24] emploie la maximisation. En effet on cherche à
déterminer quelle configuration offre la plus grande densité, en recherchant une
nouvelle limite thématique à chaque étape.
Les segments sont alors représentés par des carrés le long de la diagonale de la matrice
de similarité modifiée avec les classements locaux. Pour chaque segment de la
répartition proposée à une étape de la segmentation on considère son aire notée ak et
son poids sk qui e
s
tl
as
ommede
st
ou
sl
e
sr
a
n
g
sd
e
sph
r
a
s
e
squ
’
i
lc
on
t
i
e
n
t
.Onc
a
l
c
u
l
e
alors la densité D de la configuration avec :
m
s
D km1
k
a
k 1
.
(3)
k
L’
a
l
g
or
i
t
h
me s
’
a
r
r
ê
t
el
o
r
s
qu
el
ad
e
n
s
i
t
éd
el
a me
i
l
l
e
u
r
er
é
p
a
r
t
i
t
i
on p
r
o
p
os
é
ee
s
t
suffisamment faible, ou si le nombre de frontières thématiques est déjà déterminé,
l
or
s
qu
’
i
le
s
ta
t
t
e
i
n
t
.
Fig. 2. Principe del
’
a
l
g
or
i
t
hmeC99.
4 Résultats et discussion
4.1 Cr
i
t
è
r
e
sd’
é
val
uat
i
on
L’
é
v
a
l
u
a
t
i
ond
el
as
e
g
me
n
t
a
t
i
o
nt
h
é
ma
t
i
qu
ep
e
u
ts
ef
a
i
r
ed
ep
l
u
s
i
e
u
r
sma
n
i
è
r
e
s:
 Par comparaison avec des jugements humains : aucun corpus segmenté de
t
a
i
l
l
es
u
f
f
i
s
a
n
t
en
’
e
s
tc
e
p
e
n
da
n
tdisponible à ce jour ; des propositions ont été
f
a
i
t
e
spou
rl
ac
on
s
t
i
t
u
t
i
ond’
u
nt
e
lc
o
r
pu
se
tp
ou
ré
v
a
l
u
e
rl
aqu
a
l
i
t
éde
s
jugements humains [4] [13] [24].
 Pa
rr
a
pp
o
r
tàd
e
sma
r
qu
e
sd
é
p
os
é
e
spa
rl
’
a
u
t
e
u
rdut
e
x
t
e(
c
e
t
t
ep
r
oc
é
du
r
e
n
’
e
s
tp
a
sf
i
a
bl
ec
a
rt
ou
t
esegmentation est subjective [24], la position des
marques de segmentation dépend du point de vue du lecteur) ;
 Par rapport à des marques « certaines » à retrouver (limites entre documents
d’
u
nc
or
pu
sp
a
re
x
e
mpl
e
)
;
 Par son impact sur une tâche particulière (évaluation fonctionnelle), la
recherche d'informations par exemple.
4.2 Le Corpus d’
é
va
l
uat
i
on
Pour l'évaluation des deux algorithmes TextTiling et C99, on se base sur les jugements
de sept lecteurs, chaque lecteur parmi les sept a fait la lecture et la segmentation
manuelle de 5 textes arabes traitant des sujets de deux domaines différents (Littérature,
Médecine). Les textes utilisés pour cette évaluation ont une longueur moyenne entre
600 et 2000 mots. Les lecteurs ont été invités simplement à délimiter les paragraphes
auxquels il y a un changement de thème, cette délimitation restera subjective pour
chaque lecteur.
4.3 Méthode de Jugements des Lecteurs:
Le schéma de la figure (Fig.3) montre les limites faites par les sept lecteurs sur les
textes. Ce schéma nous aide à illustrer les tendances générales des évaluations des
lecteurs, et également à montrer où/et combien de fois ils sont en accord ou en
désaccord. Par exemple, tous les lecteurs sauf le quatrième ont marqué une frontière au
paragraphe 7. Ce lecteur en désaccord avec les autres a délimité la frontière au
paragraphe 1
0.L’
e
n
s
e
mbl
ed
e
sf
r
on
t
i
è
r
e
s pou
rl
e
s
qu
e
l
l
e
sl
e
sl
e
c
t
e
u
r
ss
on
tt
ou
se
n
accord sont les suivants: {12, 20, 22, 31, 33, 37, 38, 50}. Par contre, il y a un désaccord
pour les frontières suivantes: {1, 15, 18, 41,43, 44, 45 …}
.
Fig. 3. Le
sr
up
t
ur
e
smi
s
e
spa
rl
e
sl
e
c
t
e
ur
se
tl
’
a
l
g
or
i
t
hmeTextTiling
D’
a
p
r
è
s[
24], si quatre ou plus sur sept lecteurs marquent la même frontière, la
segmentation s'avérée. Mais, deux années après [18], ont montré que trois lecteurs sont
considérés suffisamment pour classifier ce point comme une frontière "principale". [4]
et [14] précisent l'importance de tenir en compte l
’
a
c
c
o
r
df
o
r
t
u
i
te
tpr
é
v
ue
nc
a
l
c
u
l
a
n
t
si les lecteurs convenir de manière significative. A c
e
t
t
ef
i
n
,I
l
sc
on
s
e
i
l
l
e
n
td‘
u
t
i
l
i
s
e
rl
e
coefficient de Kappa (K). S'accorder à [4], K mesure par paires l'accord parmi un
e
n
s
e
mbl
edel
e
c
t
e
u
r
sf
a
i
s
a
n
td
e
sc
a
t
é
g
o
r
i
e
sdej
u
g
e
me
n
t
s
,c
a
l
c
u
l
a
n
ts
e
l
onl
’
é
qu
a
t
i
on(
4
)
K 
P 
A P 
E
1 P 
E
.
(4)
Où P (A) est la proportion de fois que les lecteurs conviennent et P(E) est la proportion
de fois où on s'attendrait à ce qu'ils conviennent par hasard. Le coefficient peut être
calculé en faisant par paires des comparaisons contre un expert ou en comparant à une
décision de groupe. [4] déclare également que si K > 0.8 ceci signale que la
segmentation est bonne, et si K > 0. 67 et K < 0.8 cela permet de donner des
conclusions expérimentales acceptables. Les coefficients trouvés par [14] se sont
étendus du 0.43 au 0.68 pour trois lecteurs, et ceux trouvées par [4] sont étendus du
0.65 à 0.90 pour quatre lecteurs segmentant des phrases.
Dans notre évaluation, nous concéderons que trois jugements en accord sont
a
c
c
e
p
t
a
bl
e
spou
rc
on
s
i
dé
r
e
rl
af
r
on
t
i
è
r
ej
u
s
t
e
.A pa
r
t
i
rdel
af
i
g
u
r
e(
Fi
g
.
3
)l
’
e
n
s
e
mbl
e
des frontières acceptables est le suivant : {1, 3, 5, 7, 12, 14, 15, 16, 18, 20, 22, 23, 29,
31, 33, 34, 37, 38, 50}. A partir du schéma de la même figure on peut calculer le
coefficient Kappa comme il est montré dans le tableau 1 ci-dessous, la comparaison de
nos résultats avec celles obtenus par Hearst [13] à pa
r
t
i
rd
el
’
a
p
pl
i
c
a
t
i
on d
e
l
’
a
l
g
o
r
i
t
h
me TextTiling sur un corpus anglais a montré que notre segmentation est
acceptable.
Table 1. Résultats de calcul du coefficient Kappa
P(A)
P(E)
K
K (H)
Remarque
0.7894
0.2106
0.7332
0.647
Acceptable
4.4 Méthode de Rappel / Précision:
Dans l’
e
xpérience suivante, les deux mesures rappel et précision, classiquement
utilisés dans la recherche d'information, détaillés dans [1], ont aussi été employés
pour évaluer les algorithmes de segmentation. Dans le contexte de segmentation
thématique, la précision est définie comme:
Nombre de frontières correctement détectées par le système
P
nombre totale de frontières générées par le système
.
(5)
.
(6)
Tandis que le rappel est défini comme:
Nombre de frontières correctement détectées par le système
R
nombre totale des frontières de référence
Les valeurs de Rappel et Précision pour les deux algorithmes nous donnent une idée
générale s
u
rl
’
é
c
h
e
cdec
e
sde
u
xme
s
u
r
e
straditionnellesdel
ar
e
c
h
e
r
c
h
ed’
i
nf
or
ma
t
i
on
da
n
sl
at
a
c
h
ed’
é
v
a
l
u
a
t
i
onde
sperformances des systèmes de segmentation [11]. Le
tableau 2 présente les valeurs de rappel et de précision pour cinq textes du corpus de
référence segmentés par l
’
a
l
g
or
i
t
hmeTextTiling. On voit bien que les valeurs de
rappel pour cet algorithme sont très basses, allant de 0.
00j
u
s
qu’
à0.
60,t
a
n
di
squ
eles
valeurs de précision sont hautes, allant de 0.40 j
u
s
qu’
à1.00.
Table 2. Rappel et Précision pour 5 textes segmentésa
v
e
cl
’
a
l
g
or
i
t
hmeTextTiling
Texte
1
2
3
4
5
Nombre total de
frontières
6
4
3
5
1
Nombre de frontières en
accords
6
4
2
2
1
Rappel Précision
0.00
0.00
0.33
0.60
0.00
1.00
1.00
0.66
0.40
1.00
Cependant, ces valeurs ne prennent pas en compte le fait que l’
a
l
g
or
i
t
hmeTextTiling
ma
l
g
r
équ’
i
lé
c
h
ou
eda
n
sl
adé
t
e
c
t
i
onc
or
r
e
c
t
ede
sf
r
on
t
i
è
r
e
s
,i
ln
ema
n
qu
ede
détecter toutes les frontières. Le tableau 3 présente les valeurs de rappel et de
précision pour les cinq textes segmentés par l
’
algorithme C99. On remarque que
l
’
algorithme C99 a de hautes valeurs du rappel, 0.33, 0.40, 0.50 et 1 respectivement,
Alors que Les valeurs de précision sont entre 0.50 et 0.66.
Table 3. Ra
ppe
le
tPr
é
c
i
s
i
o
np
our5t
e
x
t
e
ss
e
gme
nt
é
sa
v
e
cl
’
a
l
g
or
i
t
hmeC99
Texte Nombre total de
frontières
1
6
2
4
3
3
4
5
5
1
Nombre de frontières en
accords
3
2
2
3
0
Rappel
Précision
0.50
0.50
0.33
0.40
1.00
0.50
0.50
0.66
0.60
0.00
Le tableau 4 présente les résultats de comparaison entre les deux algorithmes et les
jugements des lecteurs. Pour les algorithmes, TextTiling a la meilleure valeur pour la
précision; il dépasse 0.84 mais il a la plus mauvaise valeur pour rappel qui est égale
0.15. C99 a la plus mauvaise valeur de précision 0.45 mais il a la meilleure valeur
pour le rappel; il dépasse 0.54. TextTiling et C99 paraissent avoir des difficultés à
s
’
adapter avec le nombre de frontières à découvrir; la longueur du texte a un grand
impact sur leur nombre de frontières détectées. L’
a
l
g
or
i
t
hmeC99 paraît être plus
effectif aux textes arabes.
Table 4. Comparaison des algorithmes avec les jugements des lecteurs
Segmentation
TextTiling
C99
Les jugements des lecteurs
Rappel
0.18
0.54
0.15
Précision
0.81
0.45
0.84
5 Conclusion
Dans cet article, une analyse comparative de deux algorithmes de segmentation
thématique des textes arabes est présentée. Pour évaluer les performances de chaque
algorithme sur des corpus arabe, chacun a été appliqué sur un ensemble de textes
arabes et les résultats ont été comparés. Nous avons confirmé dans cet article que la
tâche de segmentation est dure à évaluer parce que les objectifs peuvent varier.
Globalement l'algorithme TextTiling paraît être plus adapté à la langue arabe que
celui de C99. Pour aller plus loin dans les expérimentations, nous devrions essayer un
nouvel algorithme qui mélange une méthode supervisée avec une autre non
supervisée, et faire de nouvelles comparaisons entre les approches statistiques et
linguistiques. Finalement, notre travail montre qu'avec seulement des petites
améliorations, les algorithmes existants pour segmenter des textes anglais, sont
adaptables pour les textes arabes.
Références
1. R. Baeza-Yates and B. Ribeiro-Ne
t
o,“
Mo
de
r
nI
nf
or
ma
t
i
onRe
t
r
i
e
v
a
l
”
.Addi
s
on-Wesley,
ACM Press, 1999.
2. D. Beeferman, A. Be
r
ge
r
,a
ndJ
.La
f
f
e
r
t
y
,“
St
a
t
i
s
t
i
c
a
lmode
l
sf
ort
e
x
ts
e
gme
nt
a
t
i
on,
”
Machine Learning, vol. 34, pp. 177 - 210, 1999.
3. T.Br
a
nt
s
,F.Che
n,a
nd I
.Ts
o
c
ha
nt
a
r
i
di
s
,“
Topi
c
-based document segmentation with
pr
o
ba
bi
l
i
s
t
i
cl
a
t
e
nts
e
ma
nt
i
ca
na
l
y
s
i
s
,
”pr
e
s
e
nt
e
da
tCI
KM, McLean, Virginia, USA, 2002.
4. J
. Ca
r
l
e
t
t
a
.“
As
s
e
s
s
i
ng a
g
r
e
e
me
nt on c
l
a
s
s
i
f
i
c
a
t
i
on t
a
s
k
s
: The ka
ppa s
t
a
t
i
s
t
i
c
”
.
Computational Linguistics, 22(2):249-254. 1996.
5. F.Ch
oi
,“
Adv
a
nc
e
si
ndoma
i
ni
n
de
pe
nde
ntl
i
ne
a
rt
e
x
ts
e
g
me
nt
a
t
i
on,
”pr
e
s
e
nt
e
da
tt
hef
i
r
s
t
conference on North American chapter of the Association for Computational Linguistics
(NAACL), Seattle, Washington, 2000.
6. K.Da
r
wi
s
h,“
Bui
l
di
ng a Sha
l
l
ow Ar
a
bi
c Mor
p
hol
og
i
c
a
lAna
l
y
z
e
ri
n One Da
y
,
”
Proceedings of the workshop on Computational Approaches to Semitic Language, in the
40th Annual Meeting of the Association for the Computational Linguistics, (ACL-02), pp.
47 - 54. 2002.
7. M. A. El-Shayeb, S. R. El-Be
l
t
a
g
ya
ndA.Ra
f
e
a
,“
Compa
r
a
t
i
v
eAna
l
y
s
i
sofDi
f
f
e
r
e
ntTe
x
t
Segmentation Algorithms on Arabic News Stori
e
s
,
”Pr
oc
.I
EEEI
nt
e
r
na
t
i
o
na
lCo
nf
e
r
e
nc
e
on Information Reuse and Integration, pp. 441 - 446, Aug, 2007.
8. O.Fe
r
r
a
t
,B.Gr
a
ua
ndN.Ma
s
s
o
n,“
The
ma
t
i
cs
e
gme
nt
a
t
i
onoft
e
x
t
s
:t
wome
t
hodsf
ort
wo
k
i
ndsoft
e
x
t
s
,
”I
nPr
oc
e
e
di
ng
soft
he3
6t
hAnnua
lMe
e
t
i
ngoft
he ACL, 1998.
9. M. Galley, K. McKeown, E. Fosler-lussier, and H. Jing. Discourse segmentation of multiparty conversation. In: Proceedings of the 41st Annual Meeting of ACL, Sapporo, Japan,
2003.
10. G. Grefenstette, and P. Tapanainen. What is a word, what is a sentence? Problems of
tokenization. In: Proceedings of the 3rd Conference on Computational Lexicography and
Text Research (COMPLEX-94), Budapest, Hungary, 1994.
11. B.J
.Gr
os
za
ndC.L.Si
dne
r
,“
At
t
e
nt
i
on,I
nt
e
nt
i
onsa
ndt
heSt
r
uc
t
ur
eofDi
s
c
our
s
e
,
”
Computational Linguistics, vol. 12, pp. 175 - 204, 1986.
12. Ha
s
na
h,“
Ful
lTe
x
tPr
oc
e
s
s
i
ng a
nd Re
t
r
i
e
v
a
l
:We
i
g
htRa
nk
i
ng Te
x
tSt
r
uc
t
ur
i
ng
,a
nd
Pa
s
s
a
g
eRe
t
r
i
e
v
a
lf
orAr
a
bi
cDoc
ume
nt
s
,
”Ph.
D.t
he
s
i
s
,I
l
l
i
n
oi
sI
ns
t
i
t
ut
eofTe
c
hnol
og
y
.
1996.
13. M.A.He
a
r
s
t
,“
Te
x
t
Ti
l
i
ng
:Se
gme
nt
i
ng t
e
x
ti
nt
o mul
t
i
pa
r
a
g
r
a
ph s
u
bt
opi
cpa
s
s
a
g
e
s
,
”
Computational Linguistics, vol. 23, pp. 33 - 64, 1997.
A. I
s
a
r
da
ndJ
.Ca
r
l
e
t
t
a“
Re
pl
i
c
a
bi
l
i
t
yoft
r
a
ns
a
c
t
i
ona
nda
c
t
i
onc
odi
ngi
nt
hema
pt
a
s
k
c
or
pus
”
.I
nJ
oha
n
naMo
or
ea
ndMa
r
i
l
y
nWa
l
k
e
r
,e
di
t
or
s
,Empi
r
i
c
a
l Methods in Discourse:
Interpretation & Generation, AAAI Technical Report SS-95~06. AAAI Press, Menlo Park,
CA. 1995.
14. M.Y.Ka
n,J
.L.Kl
a
va
ns
,a
ndK.R.Mc
Ke
own,“
Li
ne
a
rs
e
gme
nt
a
t
i
ona
nds
e
gme
nt
r
e
l
e
v
a
nc
e
,
”pr
e
s
e
nt
e
da
tt
heI
nt
e
r
na
t
i
o
na
lWor
k
s
hopofVe
r
yLarge Corpora (WVLC 6),
Montreal, 1999.
15. D.Ka
uc
ha
ka
ndF.Che
n,“
Fe
a
t
u
r
e
-ba
s
e
ds
e
gme
nt
a
t
i
onofna
r
r
a
t
i
v
edoc
ume
nt
s
,
”pr
e
s
e
nt
e
d
at the ACL Workshop on Feature Engineering for Machine Learning in Natural Language
Processing, Ann Arbor, MI, USA, 2005.
16. H. Kozi
ma
,“
Te
x
tSe
gme
nt
a
t
i
onBa
s
e
donSi
mi
l
a
r
i
t
ybe
t
we
e
nWor
ds
,
”I
nPr
oc
e
e
di
ng
sof
ACL'93, pp. 286 - 288, Ohio, Japan, 1993.
17. D.J
.Li
t
ma
na
ndR.J
.Pa
s
s
o
nne
a
u.“
Combi
ni
ngmul
t
i
pl
ek
n
owl
e
dg
es
our
c
e
sf
ordi
s
c
our
s
e
s
e
gme
nt
a
t
i
on”
.I
nPr
oc
e
e
di
ng
soft
he33r
dMe
e
t
i
ngof Association for Computational
Linguistics., pages 108-115, June. 1993.
18. O.Ma
na
bua
n
dH.Ta
ke
o,“
Wor
ds
e
ns
edi
s
a
mbi
g
ua
t
i
ona
n
dt
e
x
ts
e
gme
nt
a
t
i
onba
s
e
do
n
l
e
x
i
c
a
lc
ohe
s
i
on,
”pr
e
s
e
nt
e
da
tTheI
nt
e
r
na
t
i
o
na
lCo
nf
e
r
e
nc
eonComput
a
t
i
ona
lLi
ng
ui
s
t
i
c
s
,
Kyoto, Japan, 1994.
19. N.Ma
s
s
on,“
AnAut
oma
t
i
cMe
t
hodf
orDoc
ume
ntSt
r
uc
t
ur
i
ng
,
”I
nPr
oc
e
e
di
ng
soft
he18t
h
Annual International ACM-SIGIR Conference on Research and Development in
Information Retrieval, Seattle, Washington, USA, 1995.
20. G. A. Miller, R. Beckwith, C. Fe
l
l
ba
um,D.Gr
os
s
,a
nd K.Mi
l
l
e
r
,“
Fi
v
epa
pe
r
son
Wor
dne
t
,
”Cog
ni
t
i
v
eSc
i
e
nc
eLa
bor
a
t
or
y
,Te
c
hni
c
a
lr
e
por
t1
99
0.
21. J
.Mor
r
i
sa
n
dG.Hi
r
s
t
,“
Le
x
i
c
a
lc
ohe
s
i
onc
omput
e
dbyt
he
s
a
ur
usr
e
l
a
t
i
onsa
sa
ni
n
di
c
a
t
or
oft
hes
t
r
uc
t
ur
eoft
e
x
t
,
”Comput
a
t
i
ona
lLi
ng
ui
s
t
i
c
s
, vol. 17(1), pp. 21 - 48, 1991.
22. D.
D.Pa
l
me
ra
nd M.A.He
a
r
s
t
,“
Ada
pt
i
v
es
e
nt
e
nc
e boun
da
r
y di
s
a
mbi
g
ua
t
i
on,
”I
n
Proceedings of the 4th Conference on Applied Natural Language Processing, Stuttgart,
Germany, October. 1994.
23. J
.R.Pa
s
s
onne
a
ua
n
dD.J
.Li
t
ma
n.“
Intention-based segmentation: Human reliability and
c
or
r
e
l
a
t
i
onwi
t
hl
i
ng
ui
s
t
i
cc
ue
s
”
.I
nPr
oc
e
e
di
ng
soft
he31s
tAnn
ua
lMe
e
t
i
ng
,pa
g
e
s14
8155. 1993.
24. J
.Re
y
na
r
,“
Topi
cSe
gme
nt
a
t
i
on:Al
g
or
i
t
hmsa
ndAppl
i
c
a
t
i
on,
”Ph
.
D.t
he
s
i
s
,Computer and
Information Science. University of Pennsylvania, Pennsylvania, USA, 1998.
25. N.St
ok
e
s
,J
.Ca
r
t
hy
,a
ndA.F.Sme
a
t
on,“
Se
Le
CT:al
e
x
i
c
a
lc
ohe
s
i
onba
s
e
dne
wss
t
or
y
s
e
gme
nt
a
t
i
ons
y
s
t
e
m,
”AICommuni
c
a
t
i
o
ns
,v
ol
.1
7,
pp
.3- 12, 2004.