SibyLettre Système de prédiction de lettre pour l`aide à la saisie de

Transcription

SibyLettre Système de prédiction de lettre pour l`aide à la saisie de
TALN 2001, Tours, 2-5 juillet 2001
SibyLettre
1
Système de prédiction de lettre pour l’aide à la saisie de texte
Igor Schadle, Brigitte Le Pévédic, Jean-Yves Antoine, Franck Poirier
Laboratoire VALORIA, Université de Bretagne Sud (EA 2593)
([email protected])
Résumé – Abstract
Le système présenté dans cet article a pour but d’améliorer l’aide à la saisie de textes pour
personne handicapée. Le principe de cette aide est de remplacer le clavier réel, interface
inadaptée au handicap, par un clavier simulé. Ces aides posent cependant un problème de
lenteur de saisie, en particulier dans le cas où la sélection des lettres utilise un système de
défilement automatique. Le but de notre projet est d’intégrer des connaissances linguistiques
pour améliorer la vitesse de saisie. Dans le cadre de cet article, nous présentons notre système
de clavier dynamique. Le principe est relativement simple : après chaque saisie, l’ordre des
lettres est réorganisé afin de présenter en priorité les lettres ayant la plus forte probabilité
d’apparition. L’estimation des probabilités est réalisée par un modèle statistique n-gramme.
Alternative and augmentative communication (AAC) is the field of research concerned with
providing techniques to improve communication ability of person with disabilities. A typical
computer based AAC system displays a virtual keyboard which enables the user to select
letters and words to compose sentences in a text editor. The aim of our project is to model
linguistic constraints to improve the input speed of such a system. In this article, we present a
dynamic keyboard with letter prediction to facilitate the access to the expected letter. The
letter prediction uses a n-gram statistical model.
1 INTRODUCTION
Certains handicaps moteurs (paralysie des membres supérieurs accompagnée de troubles de la
parole), rendent les fonctions de communication difficiles. Le rôle des « aides techniques » est
de restaurer partiellement cette fonction par l’intermédiaire d’un système de suppléance.
L’aide à la saisie de textes (ou composition de phrases) entre dans cette catégorie. Le principe
consiste à utiliser un éditeur de textes avec une interface adaptée : au clavier réel se substitue
un clavier simulé (clavier présenté à l’écran, Figure 1) actionné par une interface matérielle
adaptée (joystick, bouton pressoir, commande oculaire, etc.). Cette dernière dépend du geste
laissé libre par le handicap.
1
Activités de recherche financées par le Conseil Régional de Bretagne
Igor Schadle et al.
Figure 1 : Exemple d’interface d’aide à la saisie de texte avec éditeur et clavier simulé
L’inconvénient majeur du clavier simulé est la lenteur de saisie. Ce problème devient
particulièrement important lorsque l’interface n’autorise que l’équivalent d’un simple clic
(bouton pressoir). Dans ce cas, la sélection des touches ne peut être réalisée que par un
système de défilement automatique qui ralentit d’autant plus la vitesse de saisie.
Pour remédier partiellement à ce problème, diverses solutions sont envisageables :
•
Permettre un accès rapide à la lettre désirée : défilement ligne / colonne (cf. infra),
prédiction de lettre.
•
Economiser le nombre de saisies : rappel de phrases pré-enregistrées, utilisation
d’abréviations, prédiction de mot.
L’objectif de notre projet Sibylle est d’élaborer un outil d’aide à la saisie rapide de textes
proposant une liste de mots. A l’heure actuelle, les logiciels du commerce offrant cette
possibilité basent leurs propositions uniquement sur la fréquence d’apparition des mots dans
la langue, indépendamment de leur contexte (RNT 1997). Ainsi, pour le début de phrase Le
chat mange la sou…, la liste affichera indifféremment : sourire, souris, soucoupe,
soucoupes… Le recours à des connaissances linguistiques permet d’améliorer la pertinence de
ces propositions. Ceci a pour effet non seulement d’augmenter l’efficacité du système mais
également le confort d’utilisation. Sur l’exemple précédent, certains mots sont ainsi
inadéquats et ce, à différents niveaux linguistiques :
•
morphosyntaxique : * la soucoupes (accord singulier-pluriel)
•
syntaxique : * le chat mange la sourire (verbe après un déterminant)
•
sémantique : * le chat mange la soucoupe (objet animé ou substance attendu)
Ainsi, ce que nous souhaitons réaliser, comme les projets KOMBE (Richardet 1998), VITIPI
(Boissière 1990) et HandiAS (Le Pevedic 1997, Maurel 2000) s’inscrit dans la démarche
suivante : baser le système sur un modèle de langage pour prédire les mots.
La prédiction de mots est cependant une tâche relativement complexe. Les systèmes VITIPI et
HandiAS annoncent des gains en économie de saisies entre 26% et 45%. Ceci laisse encore
Système de prédiction de lettre pour l’aide à la saisie de texte
plus de 50% des saisies dans des conditions difficiles. De plus, la prédiction de mot est
inopérante dans le cas où l’utilisateur tape un mot inconnu du système. Dans ces conditions, la
sélection des lettres reste problématique. Nous avons donc réalisé en première partie à Sibylle
un système favorisant la saisie des lettres : SibyLettre. Il s’agit d’un système de clavier
dynamique avec prédiction de lettre. Le principe est de réorganiser les lettres sur le clavier en
fonction de leur probabilité d’apparition et ce, après chaque saisie. La prédiction tient compte
de la saisie du mot en cours et utilise une modélisation statistique par modèle n-gramme.
Ce projet s'effectue en collaboration avec le Centre Mutualiste de Rééducation et
Réadaptation Fonctionnelle (CMRRF) de Kerpape qui intervient en qualité de centre de
validation. Dans le cadre de cette collaboration, de nombreux patients sont des enfants IMC
(Infirmes Moteurs Cérébraux) aux facultés motrices très réduites utilisant comme interface
matérielle le bouton pressoir.
L’article s’articule de la manière suivante : après un rappel de la problématique liée à la
sélection par défilement automatique, nous présentons notre système de clavier dynamique
avec prédiction de lettre. Nous décrivons ensuite le modèle de prédiction employé et sa mise
en oeuvre. Les dernières parties portent sur l’évaluation : évaluation du modèle dans sa tâche
prédictive, puis évaluation des performances du système et enfin évaluation auprès de
personnes handicapées.
2 PROBLEMATIQUE
Le problème de lenteur lié au défilement automatique peut être mis simplement en évidence
de la manière suivante : dans le cas d’un défilement lettre par lettre (appelé défilement
linéaire), l’accès à la lettre médiane d’un clavier de 65 touches nécessite 33 défilements.
Pour améliorer le temps d’accès, la solution actuellement adoptée par les logiciels du
commerce (RNT 1997) est le défilement appelé « ligne / colonne ». La sélection se fait alors
en deux temps : sélection de la ligne où se trouve la lettre puis sélection de la lettre dans la
ligne. Sur l’exemple précédent, l’accès à la lettre médiane est ainsi réalisé en moyenne en 8
défilements. Il faut cependant noter que ce gain est réalisé avec une « validation »
supplémentaire (sélection de la ligne puis de la lettre). Ceci entraîne de fréquentes erreurs de
saisie lorsque le geste est mal contrôlé.
Une autre solution consiste à réduire le nombre de lettres présentes sur le clavier. De
nombreux logiciels relèguent ainsi les lettres accentuées à un sous-menu. Cette solution n’est
pas acceptable car le souhait des personnes handicapées est d’écrire correctement.
Une autre approche consiste à présenter prioritairement les lettres dont la probabilité
d’apparition est la plus forte. Cette idée était déjà utilisée dans les tableaux de lettres qui
organisaient statiquement les lettres en fonction de leur fréquence observée dans la langue.
Grâce au clavier simulé, il est possible de généraliser cette approche en prenant en compte le
contexte de saisie et en actualisant l’ordre après chaque saisie : l’ordre était statique, il devient
dynamique. C’est ce principe que nous avons utilisé pour notre système.
Igor Schadle et al.
3 PRESENTATION
Le fonctionnement du système est le suivant : après chaque saisie, le contexte (lettres déjà
saisies du mot en cours) est fourni au module de prédiction. En retour, celui-ci délivre la liste
des lettres classées en fonction de leur probabilité d’apparition (cf. infra). La liste contient
également un caractère « fin de mot », symbolisé par l’espace. Le clavier simulé est alors
réorganisé pour refléter ce nouvel ordre, le curseur remis en position initiale (en haut à gauche
du clavier) et le défilement automatique reprend. Le type de défilement utilisé est le
défilement linéaire, l’aspect dynamique rendant le défilement ligne / colonne inadapté (le
temps de trouver « visuellement » la ligne sur laquelle se trouve la lettre désirée, le défilement
est susceptible d’avoir passé cette ligne). A titre d’exemple, la Figure 2 présente une
simulation pour la saisie des deux premières lettres du mot « CO…MPTER ». Le Tableau 1
présente les étapes successives de la saisie avec le contexte envoyé au module de prédiction,
les premières propositions retournées et la saisie réalisée.
Contexte
Propositions
Saisie
Ø
DLPAEC…
C
C
OEH…
O
Tableau 1 : Contexte et propositions pour la saisie de CO…MPTER (Ø : début du mot)
Figure 2 : Exemple de réorganisation dynamique du clavier sur le début de mot CO…MPTER
4 MODELISATION
La modélisation de la prédiction de lettre peut être réalisée selon différentes approches :
•
A base de règles morphologiques
•
A partir de connaissances lexicales : le recours à un dictionnaire permet d’obtenir la
liste des mots prévisibles et donc celle des lettres après une séquence saisie
•
Avec une modélisation statistique basée sur les données (apprentissage sur corpus)
Dans le cadre de Sibylle, nous serons amenés à intégrer un dictionnaire de mots. Cependant
pour la prédiction de lettre, nous souhaitons une prédiction robuste dans le cas des mots
inconnus (mots non répertoriés ou mal orthographiés et non corrigés). C’est pourquoi nous
avons choisi la dernière approche en utilisant le modèle statistique n-gramme. Ce modèle,
couramment utilisé en ingénierie linguistique (étiquetage morphosyntaxique, reconnaissance
Système de prédiction de lettre pour l’aide à la saisie de texte
vocale, etc.), a pour avantage une certaine robustesse liée à sa nature statistique et une relative
simplicité de mise en œuvre.
De manière stricte, la probabilité d'apparition d'une observation (dans notre cas d’une lettre)
dépend de toute séquence passée. La probabilité de la séquence L1,…,Lm sera ainsi écrite
comme le produit de probabilités conditionnelles :
i=m
PROB( L1,..., Lm )= PROB(L1 Ø )×∏ PROB(Li L1,..., Li −1 ) où Ø est une pseudo observation
i=2
ajoutée pour prendre en compte le début de la séquence. Compte tenu du nombre de
séquences possibles, ce résultat n'est pas directement exploitable car l’estimation de ces
probabilités nécessiterait un trop grand nombre de données. Cependant, une bonne
approximation consiste à se limiter à un contexte d’estimation de n observations. Ce modèle
est appelé n-gramme. Il exprime le fait que la probabilité d'apparition d'une séquence peut être
donnée par une combinaison de probabilités basée sur les n-1 observations précédentes :
i =m
PROB(L1,..., Lm )≅ PROB(L1 Ø)×∏ PROB(Li Li − (n −1),..., Li −1 )
i =1
L'approximation est d'autant meilleure que le paramètre n est élevé. Dans le cadre de notre
prédiction de lettre, la séquence L1,..., Lm-1 correspond au début du mot en cours de saisie.
Cette séquence est connue et notre problème consiste plus simplement à classer les lettres en
fonction des probabilités PROB(Lm|Lm-(n-1),…,Lm-1). Ces probabilités sont estimées par les
fréquences d’occurrence FREQ(Lm-(n-1),…,Lm) des séquences Lm-(n-1),…,Lm observées sur un
corpus d’apprentissage (cf. infra).
La nature statistique du modèle pose le problème de la représentativité des données pour
l’estimation des probabilités. Ce problème est connu sous le nom d’éparpillement des données
(Allen 1997) : un grand nombre de données est concentré sur un petit nombre de cas. Ceci
implique qu’un nombre non négligeable de cas ne sont pas observés et se voient affectés
d’une probabilité nulle. Parmi les techniques employées pour obtenir des estimations fiables,
nous avons adopté une technique de repliement : le module de prédiction classe les lettres en
fonction des probabilités de l’ordre n non nulles, puis pour les lettres restantes il fait appel aux
probabilités sur l’ordre n-1 et ainsi de suite jusqu’à un classement complet.
Le corpus utilisé pour estimer les probabilités est celui du journal Le Monde2. Les données
représentent tous les articles du journal sur une période de 5 ans (1995 à 1999). Comme la
prédiction porte sur les lettres et la fin des mots, nous avons effectué deux pré-traitements : 1)
suppression des caractères autres que les lettres et l’espace (65 caractères), 2) conversion des
majuscules en minuscules. Le corpus ainsi obtenu contient 600 millions de caractères, 110
millions de mots pour 400 000 formes fléchies. Outre son grand nombre de données, ce
corpus présente l’avantage de permettre l’estimation de la fréquence des mots (et des
séquences de lettres) dans la langue. Le problème de la représentativité du vocabulaire est, a
priori, limité car notre système s’applique aux séquences de lettres.
2
« Le Monde » Text Corpus Version 1.0 Years 1995 to 1997 & 1998 and 1999
Igor Schadle et al.
5 EVALUATION
L’évaluation a porté sur deux aspects. Nous avons d’abord évalué le modèle n-gramme dans
sa tâche de prédiction ; les résultats donnent une indication sur la difficulté de la tâche et
permettent la comparaison avec d’autres modèles de prédiction de lettre. Nous avons ensuite
évalué le système en termes de vitesse de saisie, ceci afin de mesurer l’intérêt de notre
système du point de vue utilisateur. Nous présentons également en dernière partie les premiers
résultats sur l’évaluation qualitative réalisée auprès de persones handicapées.
Pour les évaluations quantitatives, nous avons utilisé quatre années pour le corpus
d’apprentissage et la cinquième pour le corpus de test (autour de 20% des données). Cinq
séries de tests ont ainsi été réalisées (chaque année a servi de corpus de test), afin d’effectuer
une validation croisée (Allen 1997). Seule la moyenne sera présentée dans les résultats de
l’évaluation.
5.1 EVALUATION DE LA PREDICTION
Pour évaluer les capacités prédictives du système, nous avons cherché à mesurer la pertinence
de la liste délivrée par le module de prédiction. A cet effet, nous avons calculé une mesure de
prédiction moyenne correspondant au rang moyen de la lettre attendue. Dans un deuxième
temps, nous avons étudié l’influence de la position de la lettre dans le mot. Ce résultat nous
intéresse car, dans le cas d’une prédiction de mot, le rôle de la prédiction de lettre se limitera
généralement aux premières lettres des mots.
5.1.1
Prédiction moyenne globale (PMG)
Lors de la phase de test, pour chaque prédiction, le rang de la lettre attendue est relevé dans la
liste proposée. Par exemple, avec « COM » le système délivre la liste « M, P, B, … ». Si le
mot à saisir est « COM…PTER », le rang de la lettre dans la liste est 2. Un calcul de moyenne
délivre la prédiction moyenne :
i=N
PMG = 1 × ∑ Rang(i) où N est le nombre d’observations et Rang(i) le rang obtenu à l’obs. i.
N i =1
ADA @CDB
@A
=? > ; <=9 : !"
$
#
% & ' ( ) * +-, .
/0 , 1 2 3
4 5 6 7 8 //3
Figure 3 : Prédiction moyenne globale en fonction de n
Système de prédiction de lettre pour l’aide à la saisie de texte
La Figure 3 donne la prédiction moyenne pour différentes valeurs de n (de 1 à 5) où n est la
taille de la fenêtre contextuelle du modèle n-gramme.
1) Les résultats permettent de constater que le paramètre n est important : la prédiction
moyenne varie de 7,1 (pour n=1) à 3,2 (gain de 55% pour n=4) et 2,9 (gain de 59% pour
n=5). Si l’on rappelle que pour n=1, le modèle n-gramme ne tient pas compte du contexte et
est basé sur la seule fréquence des lettres, on peut constater qu’un système statique basé
uniquement sur l’ordre fréquentiel dans la langue est loin d’être optimal.
2) Le gain obtenu pour chaque valeur de n supplémentaire décroît rapidement. Ceci
s’explique en partie par la décroissance rapide du nombre d’occurrences de mots en fonction
de leur longueur (Tableau 2).
Longueur
1
2
3
4
5
% mots
9,0
21,9
13,4
10,0
8,9
% cumulé
9,0
30,9
44,3
54,3
63,2
Tableau 2 : Nombre de mots en fonction de la longueur
3) Qualitativement, les « bons » résultats obtenus (prédiction moyenne faible) laissent à
supposer que la tâche de prédiction de lettre est relativement aisée. Ceci peut être montré plus
formellement à l’aide d’une mesure de perplexité. La perplexité est une notion souvent
utilisée pour mesurer la complexité d’une tâche en fonction d’un modèle (Boite 1997). Cette
perplexité est définie comme étant 2H, où H est l’entropie moyenne sur toutes les lettres des
mots étant donné le modèle de langage :
H =∑PROB(h)∑PROB(Li h)log2 PROB(Li h) où Li est une lettre et h une séquence du modèle.
N
h
i =1
n
1
2
3
4
5
Perplexité
17,4
10,2
6,9
5,0
4,1
Tableau 3 : Perplexité en fonction de n
Les valeurs (Tableau 3) entre 4,1 et 17,3 sont à comparer avec celles du modèle n-gramme
utilisé avec les mots pour n= 3 : 247 en anglais général, 105 en journalisme et 20 dans le
domaine de la radiologie (Roukos 1996) et confirment que cette tâche est relativement aisée.
5.1.2
Prédiction moyenne en fonction de la position dans le mot (PMP)
Au calcul de prédiction moyenne défini précédemment, le paramètre « position dans le mot »
est ajouté. Sur l'exemple précédent « COM…PTER » avec la liste « M, P, B, … », le rang de
la lettre dans la liste est 2, la position dans le mot 4. Le calcul de moyenne est effectué pour
chaque position j :
Igor Schadle et al.
i=N
PMP(j)= 1 ×∑ Rang(i, j) où N est le nombre d’observations et Rang(i,j) le rang obtenu à
N i =1
l’observation i pour la position j.
Les résultats sont donnés pour les 5 premières lettres des mots et les valeurs de n de 1 à 5, par
la figure 4. Par exemple, pour n=1 (1ère série), la prédiction moyenne sur la 4è lettre des mots
est de 7,3 ; pour cette même position, la prédiction moyenne est de 1,8 avec n=5.
E F G F H I J K I L M NK I O H PQ R K S NM N K I O H P Q PH M M T H
fb
U V WX
fa
}€} e
|€~
d
{ |}
yz
w xyu v c
Y W Z\[ W ]
[ W]
Y W^
^ W]
Z W[
^ WV
` WZ
_ WU
` W]
a
b
f
^ W_
` WU
U WX
[ W_
Z W_
^ WZ
` W`
U W_
b
g
c
i j k l m l j no p
q r
q p m m s po r n kq p
tj m
 ‚ƒ
 ‚„
‚…
‚†
 ‚‡
h
Figure 4 : Prédiction moyenne en fonction de n et de la position de la lettre dans le mot.
1) L’analyse de chaque série de données (chaque valeur de n) permet de constater que la
principale difficulté réside dans la prédiction de la première lettre : on observe un écart net
entre la prédiction moyenne de la première lettre des mots et les suivantes (PMP(1)=7,4 et
PMP(2)=2,9 à partir de n=2). Nous reviendrons sur cette remarque dans les perspectives pour
proposer une ébauche de solution à ce problème.
2) A l’inverse, la comparaison entre la PMG et les PMP(i) à partir de i=2 (prédictions à partir
de la deuxième lettre) montre que la prédiction est efficace dès la deuxième lettre. Cette
remarque permet d’envisager une collaboration entre les deux systèmes de prédiction (lettre et
mot) sur les mots courts. Nous reviendrons également plus en détail sur cette remarque dans la
partie perspectives.
5.2 EVALUATION DU CLAVIER DYNAMIQUE
Après l'évaluation des capacités prédictives du modèle n-gramme, nous avons tout
naturellement cherché à mesurer le gain apporté par cette prédiction sur le temps de sélection.
A cet effet, nous avons comparé les différents modes de sélection possibles. La rapidité de
sélection dépend de deux paramètres : le type de défilement (linéaire ou ligne / colonne) et le
mode d’ordonnancement des lettres. Nous avons distingué trois modes d’ordonnancement :
Système de prédiction de lettre pour l’aide à la saisie de texte
• 0 (ou aléatoire) : ne tient compte ni de la prédiction ni de la fréquence des lettres dans la
langue. L'ordre alphabétique rentre dans cette catégorie.
• fréquentiel : les lettres sont organisées sur le clavier en fonction de leur fréquence
moyenne dans la langue, indépendamment de leur contexte d’occurrence (cas n=1 dans le
modèle n-gramme).
•
dynamique : les lettres sont réorganisées après chaque saisie (cas n>1).
La métrique employée pour cette évaluation est le nombre de défilements moyen pour accéder
à la lettre souhaitée. Cette mesure est réalisée en pondérant la probabilité d’apparition de
chaque lettre par le nombre de défilements nécessaires pour y accéder. Ce dernier tient compte
de l’ordre des lettres et du mode de défilement. Les résultats sont présentés dans le Tableau 4
(la colonne Val rappelle le nombre de validations nécessaires).
Ordonnancement
des lettres (et valeur
n associée)
statique
dynamique
0
n=1 n=2 n=3 n=4 n=5 Val
Déf. linéaire
33
7,4
Déf. ligne / colonne
8
4,3
4,7
3,8
3,2
2,9
1
2
Tableau 4 : Nombre de déf. moyen en fonction du type de défilement et de l’ordre des lettres
1) En première remarque, il nous semble important de rappeler que les logiciels
commercialisés présentent généralement les lettres dans l’ordre alphabétique ou
« AZERTY ». Cet ordre correspond à l’ordre 0 dans notre évaluation. Les résultats obtenus
(en italique, col 0) montrent clairement que cet ordre n’est pas approprié.
2) En comparant le mode de sélection de notre système (défilement linéaire avec ordre
dynamique) et le défilement ligne / colonne avec ordre fréquentiel (LCF), les résultats
montrent l’intérêt de la prédiction de lettre. Bien que le mode d’accès soit moins rapide, notre
système obtient de meilleurs résultats (2,9 déf. avec n=5) que le mode LCF (4,3 déf.), soit un
gain de 32% en nombre de défilements. De plus, le défilement linéaire réduit le nombre de
validations (50%).
5.3 EVALUATION QUALITATIVE
Pour valider ces résultats, une première application a été réalisée. Son expérimentation est
actuellement en cours au centre de rééducation fonctionnelle de Kerpape. Trois enfants IMC
(Infirmes Moteurs Cérébraux) ont jusqu’à présent testé le système. L’un d’entre eux, souffrant
de problèmes de poursuite oculaire, a été géné par l’aspepct dynamique et a préféré retourner à
un clavier statique. Les deux autres ont accueilli favorablement le logiciel. L’apprentissage à
cette nouvelle interface a été rapide, le gain est apprécié en termes de confort (saisie plus
rapide, moins de validations). Ils n’ont pas mentionné de gêne particulière sur l’aspect
dynamique. Dans le cadre de l’école, les professeurs ont également remarqué que les enfants
font moins de fautes d’orthographe. Ceci est lié à la présentation prioritaire des lettres les plus
Igor Schadle et al.
probables et à la prédiction des lettres accentuées. Ces premiers résultats semblent donc
confirmer l’intérêt du clavier avec prédiction de lettre même si cette aide peut ne pas être
adaptée pour tous (ce qui souligne la difficulté de ces aides face à la diversité des handicaps).
6 CONCLUSION ET PERSPECTIVES
Le but de Sibylle est d’améliorer les aides à la saisie de texte pour personnes handicapées.
Dans cet article, nous nous sommes plus particulièrement intéressés au problème de la lenteur
de sélection avec défilement automatique. En alternative au défilement ligne / colonne
actuellement utilisé par les logiciels du commerce, nous proposons d’intégrer au clavier
simulé une prédiction de lettre. Nous avons ainsi obtenu un gain de 32% en temps de saisie et
50% en nombre de validations. A titre de référence, les projets VITIPI et HandiAS, basés sur
des prédictions de mot, affichent des gains entre 26 et 45% en nombre de saisies.
L’objectif de notre recherche concerne cependant la mise en œuvre d’une prédiction lexicale
efficace. Dans cette perspective, nous avons détaillé dans cet article la prédiction des lettres
pour les premières lettres des mots. Les bons résultats obtenus dès la deuxième lettre
permettent ainsi d’envisager de laisser l’utilisateur saisir intégralement les mots courts. Ceci
aurait pour effet de faciliter la tâche de la prédiction de mot en réduisant le nombre de mots
présentés (ainsi, dans notre corpus les mots de plus de 3 lettres ne représentent « que » 56% du
total des mots).
Nous avons également pu constater que la prédiction de la 1ère lettre des mots est difficile.
Nous envisageons d’améliorer cette prédiction à l’aide de connaissances de plus haut niveau
(comme la prédiction de la prochaine classe syntaxique). On peut ainsi remarquer que les
premières lettres proposées par la prédiction (d et l) correspondent aux mots grammaticaux de,
le (et leurs formes fléchies).
Références
RNT (1997) Réseau Nouvelles Technologies, Logiciels, http://www.rnt-apf.org.
Richardet N. (1998) Composition de phrases assistée – Un système d’aide à la communication
pour handicapés, Thèse de Doctorat, Université de la Méditerrannée.
Boissière P. (1990), Un système autoorganisationnel pour faciliter le dialogue écrit hommemachine, Thèse d’université, IRIT-UPS, Toulouse.
Le Pévédic B. (1997), Prédiction Morphosyntaxique Evolutive, Thèse de doctorat, IRIN,
Nantes.
Maurel D., Fouche B., Briffault S. (2000), HandiAS : Aider la communication en facilitant la
saisie rapide de textes, Handicap 2000, p87-92, Paris.
Allen J. (1998), Natural Language Understanding, Chap. VII Statistical Methods. Benjamins
Cummings, 2è éd.
Boite R. (1997) Traitement de la parole, Presses polytechniques et universitaires romandes
Roukos S. (1996), Survey of the state of the Art in Human Language Technology, Chap. 1.6,
Cambridge Unisersity Press. http://cslu.cse.ogi.edu/HLTsurvey/ch1node8.html.