Vers une recherche d`information adaptée aux utilisateurs dyslexiques

Transcription

Vers une recherche d`information adaptée aux utilisateurs dyslexiques
Vers une recherche d’information adaptée
aux utilisateurs dyslexiques
Laurianne Sitbon*, ** — Patrice Bellot* — Philippe Blache**
* NICTA, University of Queensland
Brisbane St Lucia, QLD 4072, Australia
[email protected]
** Laboratoire d’Informatique d’Avignon (LIA)
Université d’Avignon et des Pays de Vaucluse
339, chemin des Meinajaries - Agroparc BP 1228
84911 Avignon Cedex 9 (France)
[email protected]
*** Laboratoire Parole et Langage (LPL)
Université de Provence - CNRS
29, avenue Robert Schuman
13621 Aix-en-Provence Cedex 1 (France)
[email protected]
RÉSUMÉ. Nous proposons de prendre en compte des indices non purement informationnels, tels
que la lisibilité, en recherche d’information. Nous montrons sur les données des évaluations
TREC, CLEF et DUC que cette prise en compte peut être efficace dans un cadre général. Enfin,
nous proposons une estimation automatique de la lisibilité adaptée à des personnes dyslexiques.
We propose a new way of estimating relevance that takes some non-informational
user needs into account. This is achieved using a linear function which has the advantage of
being simple, efficient, and controllable by the user directly. The experiments are conducted on
TREC and CLEF ad hoc task data and on DUC data. Lastly, the readability constraints are
specifically estimated for dyslexic readers.
ABSTRACT.
Recherche documentaire, recherche d’information, RI contextuelle, résumé automatique, lisibilité, dyslexie
MOTS-CLÉS :
KEYWORDS:
Information retrieval, summarisation, readability, dyslexia, contextual IR
RSTI - DN – 13/2010. Recherche d’information, pages 161 à 185
162
RSTI - DN – 13/2010. Recherche d’information
1. Introduction
S’il existe de nombreux travaux autour des moteurs de recherche d’information interactifs, de grandes lacunes concernent leur adaptation contextuelle à des utilisateurs
aux capacités en écriture ou en lecture limitées. Il peut s’agir de personnes atteintes
de pathologies (dyslexie, mauvaise vision. . . ) mais aussi, plus simplement, de personnes ne maîtrisant pas suffisamment la langue d’un document en consultation. De
manière générale, la prise en compte du contexte et l’adaptation aux utilisateurs en
recherche d’information fait l’objet de nombreuses conférences : Information Retrieval in Context1 durant SIGIR 2004 (Ingwersen et al., 2004), Adaptive Information
Retrieval2 durant la conférence IIiX 2008, NLP for Reading and Writing3 durant la
conférence SLTC 2008... Par ailleurs, des groupes d’études ont été formés afin de
permettre l’accès au web par des personnes handicapées. C’est le cas de la Web Accessibility Initiative (W3C, 2001) qui dresse une liste d’utilisations potentielles du
web et préconise certaines solutions techniques. Par exemple, une personne atteinte
de dyslexie sera aidée si l’on ajoute aux documents des représentations graphiques et
si l’on rend immobiles les animations tandis qu’une personne daltonienne souhaitera
gérer elle-même les couleurs d’affichage. Une personne ayant des problèmes d’acuité
visuelle appréciera l’interfaçage d’un module de synthèse de la parole tandis qu’une
autre qui ne peut se servir d’un clavier standard emploiera un outil de reconnaissance
de la parole pour saisir ses requêtes (Scott et al., 1998, Fairweather et al., 2002).
Dans ce cadre, la personnalisation de la recherche d’information et la prise en
compte des caractéristiques cognitives individuelles des utilisateurs est l’une des problématiques majeures. Les modèles de recherche d’information usuels permettent
d’ordonner des documents en fonction de la quantité d’informations qu’ils véhiculent
vis-à-vis de ce que l’utilisateur a exprimé dans sa requête tout en tenant compte, dans
le meilleur des cas, du taux de nouveautés apportées par rapport à d’autres documents
déjà connus (Allan, 2002). Il s’agit d’une vision purement informationnelle de la pertinence posant l’hypothèse que plus le nombre d’informations nouvelles est grand,
plus le document est susceptible d’intéresser l’utilisateur. Cela s’avère exact dans une
certaine mesure mais ne tient pas compte du fait que les besoins sont différents suivant le niveau d’expertise de l’utilisateur : une personne novice dans un domaine sera
certainement plus intéressée par un document de vulgarisation que par une étude approfondie au vocabulaire et à la structure complexes. Ainsi, de nombreuses études se
sont penchées très tôt sur la notion de pertinence en tentant de la définir en fonction de
paramètres le plus souvent extra-linguistiques et contextuels, non explicites dans une
requête (Mizzaro, 1997). Cela est vrai à plus forte raison, pour des personnes ayant des
difficultés élevées de lecture. Il s’agit alors de définir de nouvelles mesures prenant en
compte cet aspect tout en offrant la possibilité de présenter d’abord les documents les
plus « simples », les plus « lisibles ». Notons que cette fonctionnalité peut aussi être
1. http://ir.dcs.gla.ac.uk/context/
2. http://www.dcs.gla.ac.uk/workshops/air2008/
3. http://spraakbanken.gu.se/personal/sofie/SLTC_2008/SLTC_2008.html
Lisibilité et recherche d’information
163
profitable pour des adultes ayant des capacités en lecture et écriture normales et pour
des enfants en phase d’apprentissage.
Pour ce faire, nous devons dans un premier temps définir ce que nous entendons
par lisibilité. Cette notion est étroitement liée à la caractérisation d’un profil utilisateur, lui-même fonction de son niveau de connaissance du domaine et de la langue du
document ; autrement dit, de ses capacités de lecture. S’il existe un continuum évident
depuis la personne analphabète ou illettrée jusqu’au lecteur expert qui peut être reflété
par les nombreux tests de lecture disponibles, nous avons choisi de travailler sur un
handicap courant, la dyslexie. Dans un deuxième temps, les caractérisations des handicaps entraînant des déficits en lecture et écriture doivent être exploitées en étudiant
comment ils peuvent se traduire au niveau d’implémentations informatiques (Rossignol, 2001, Rey et al., 2001). Celles-ci peuvent être destinées à l’aide à la détection ou
à la remédiation des handicaps étudiés mais aussi, plus modestement, à l’adaptation de
logiciels basés sur des interactions textuelles, orales ou écrites. Certaines estimations
font état qu’entre 3 et 9 % de la population adulte ou en âge d’être scolarisée connaît
des difficultés importantes dans l’apprentissage de la lecture (Ducrot et al., 2003) leur
rendant d’autant plus complexe la manipulation d’outils informatisés. Un effort particulier doit être entrepris afin de faciliter l’accès à « l’information » pour ces personnes
et, a fortiori, pour celles présentant un handicap plus important.
À titre d’exemple, l’étude exposée dans (Bruza et al., 2000) qui mesure l’effort
cognitif correspondant à différents modes de recherche d’information ainsi que le logiciel de traitement de textes pour dyslexiques décrit par (Dickinson et al., 2002)
peuvent servir de points de départ, notamment pour l’assistance dans la formulation
de requêtes. Pour des handicaps plus importants, ces dernières peuvent aussi s’exprimer sous forme de symboles ou d’images tel que cela est réalisé dans les plateformes
de communication alternative — voir par exemple les logiciels de la société AEGYS
d’aide à la communication verbale et non verbale4 (Bellengier et al., 2004, Blache et
al., 2008) ou encore VITIPI (Boissière et al., 2000) développé à l’institut de recherche
en informatique de Toulouse (IRIT-CNRS). Pour un aperçu d’autres propositions dans
l’adaptation des systèmes d’informations, se référer par exemple aux actes de l’atelier
PeCUSI 2007 et plus particulièrement de (Chevalier et al., 2007) qui discutent de la
notion de profil utilisateur pour la recherche d’information.
Nous proposons dans cet article de faire évoluer les systèmes de recherche d’information en y intégrant une contrainte de lisibilité, celle-ci étant spécifiquement évaluée
pour des lecteurs dyslexiques. En effet, si la prise en compte de l’utilisateur dans les
systèmes de recherche d’information est en soi déjà une amélioration intéressante,
c’est une nécessité dans le cas où l’utilisateur présente certains handicaps langagiers.
En particulier, les difficultés de lecture induites par la dyslexie (Snowling, 2000) créent
un fossé informationnel important avec des normo-lecteurs.
La décomposition du besoin de l’utilisateur en un besoin thématique et un besoin orthogonal (tel que le niveau d’expertise, la langue, le type de document) est
4. http://aegys.fr
164
RSTI - DN – 13/2010. Recherche d’information
fréquemment envisagée dans la littérature. Dans ces cas, le besoin orthogonal est généralement une contrainte qui ne s’exprime pas de manière continue. Cette contrainte
peut être satisfaite par un filtrage des documents retournés. Pour intégrer la lisibilité,
nous envisageons soit une solution de réordonnancement des documents de manière à
retourner en priorité les plus lisibles, soit une solution de réduction de la quantité de
texte à lire pour obtenir l’information voulue. D’un point de vue expérimental, il est
difficile d’obtenir des données en grande quantité sur les facultés de lecture de dyslexiques, étant donné le temps nécessaire et la difficulté de la tâche. Aucune donnée
concernant les retours de tels utilisateurs sur la lisibilité de documents n’étant à ce
jour disponible, nous avons choisi d’estimer empiriquement le taux optimal de prise
en compte de la lisibilité (évaluée spécifiquement pour des lecteurs dyslexiques) en regard de l’évolution de la précision calculée a posteriori de la recherche documentaire
(selon les référentiels des campagnes d’évaluation TREC et CLEF). Une telle étude
est réalisée pour des normo-lecteurs ainsi que pour des dyslexiques.
Afin d’augmenter l’accessibilité des informations retrouvées, une autre solution
que l’identification des documents les plus lisibles consiste à réduire la quantité d’informations à faire lire à l’utilisateur. Cela est réalisable soit en sélectionnant les parties
des documents les plus pertinentes (recherche des passages les plus pertinents et les
plus lisibles), soit en réalisant un résumé de tous les documents en fonction de la requête. Les contraintes de lisibilité peuvent également être intégrées à ces tâches de
sélection de phrases (résumé automatique par extraction) ou de passages.
La section 2 introduit des mesures de lisibilité générales et s’intéresse à leur intégration dans un processus de recherche documentaire puis de résumé automatique
(section 4). Des tests ont été effectués sur les données des campagnes d’évaluation
TREC ad hoc, CLEF 2003 et DUC. La section 3 propose une nouvelle mesure adaptée
aux utilisateurs dyslexiques et l’évalue sur les données de CLEF ad hoc en français.
2. Prise en compte de la lisibilité en recherche d’information
2.1. La pertinence en recherche documentaire
L’objectif d’un système de recherche d’information est de fournir les documents
pertinents pour l’utilisateur par rapport au besoin exprimé (requête). La notion de
pertinence a été largement débattue pour préciser ce qu’elle doit prendre en compte.
Mizzaro (1997) propose un cadre de définition de la pertinence qui permet d’englober
toutes les dimensions jusqu’alors évoquées.
La pertinence peut ainsi être définie selon au moins quatre dimensions :
– le besoin d’information, décomposé en besoin réel, besoin perçu par l’utilisateur,
besoin exprimé, et besoin formalisé par un langage de requête ;
– les composants : l’information elle-même, la tâche et le contexte ;
– le temps relevé pour retrouver l’information ;
Lisibilité et recherche d’information
165
– la granularité de l’information recherchée : document complet, sujet du document, ou information précise à l’intérieur de ce document.
Les modèles de base mettent en relation les mots de la requête avec ceux des
documents, qu’ils soient explicités ou non. Le besoin sous-jacent de l’utilisateur peut
s’exprimer soit à travers la sélection d’une tâche précise de recherche d’information
(recherche documentaire, questions-réponses...), soit par son opinion sur le résultat
de précédentes recherches (retour de pertinence), soit par un profil utilisateur déclaré
ou déduit. A l’heure actuelle, les modèles (vectoriel, probabiliste...) ne prennent en
compte ce besoin qu’a posteriori.
L’intégration du critère de lisibilité dans un système de recherche documentaire
nécessite de reformuler le modèle définissant ce qu’est un document pertinent. Au
sein des modèles classiques de recherche documentaire, la pertinence d’un document
est évaluée en fonction de sa corrélation thématique estimée selon la requête posée par
l’utilisateur. Les mots de la requête sont représentés dans un espace sémantico-lexical
plus ou moins vaste (augmenté dans les cas d’expansion de requête, ou réduit à l’aide
d’une l’analyse sémantique latente LSA) et les documents les plus similaires au sens
de cet espace sont retournés par ordre décroissant de score de similarité. Quelques
systèmes prennent en compte des profils utilisateur en tenant compte des historiques
de requêtes et de retours de pertinence sur les documents consultés.
Pour prendre en compte les capacités de lecture de l’utilisateur, il faut considérer
la lisibilité comme une donnée continue que l’on cherche à maximiser tout en maintenant une forte similarité. Dans ce cadre, la similarité peut être estimée par le score
de similarité d’un système de recherche documentaire, et on peut s’inspirer des travaux réalisés par (Vogt et al., 1999) sur les métamoteurs de recherche pour intégrer
linéairement la lisibilité.
2.2. Quelques critères de lisibilité génériques
Nous devons définir les critères objectifs, et éventuellement subjectifs, qui peuvent
permettre d’estimer la lisibilité d’un texte (les capacités de lecture nécessaires) en exploitant les modélisations psychocognitives et neurocognitives les plus récentes. De
nombreux modèles de la lecture ont été proposés depuis une quarantaine d’années.
Ferrand (2007) en dresse une liste exhaustive depuis le modèle Logogène de (Morton,
1969) dans lequel un détecteur cognitif spécifique est associé à chaque mot dans un
lexique mental jusqu’aux récents modèles à double voies en cascade ou connexionnistes incorporant un codage phonologique (Seidenberg et al., 1989, Coltheart et al.,
2001) et permettant des simulations informatiques performantes. Historiquement, une
des questions soulevées par la compréhension des processus en jeu durant la lecture
(silencieuse ou non), concerne le rôle de l’information phonologique et la manière
dont celle-ci est utilisée pour accéder à la compréhension du mot et, le cas échéant, à
leur prononciation. En ce qui nous concerne, ces modèles sont intéressants car ils per-
166
RSTI - DN – 13/2010. Recherche d’information
mettent d’envisager des moyens de simuler par ordinateur les processus de la lecture
humaine, et de tenter de distinguer ainsi un texte facile d’un texte difficile.
En considérant que la difficulté de lecture d’un mot peut être mise en correspondance avec le temps nécessaire à son identification, de nombreux critères, certains
corrélés entre eux, ont été jugés plus ou moins significatifs (Sprenger-Charolles et al.,
2003, Ferrand, 2007, Dehaene, 2007). Parmi eux l’on trouve le nombre de graphèmes,
la cohésion lettres-graphèmes-phonèmes, l’attaque et la rime, le voisinage orthographique, le voisinage phonologique, la longueur des mots, le nombre de syllabes, la
fréquence d’occurrence, la familiarité, l’âge d’acquisition, la morphologie, la concrétude et l’imageabilité, la polysémie et l’homonymie. Par contre d’autres critères ont
été écartés, par exemple la forme graphique globale des mots qui n’est pas corrélée
au temps de décision lexicale. Pour plus d’informations sur ces différents critères,
nous invitons le lecteur à se référer aux articles cités ci-avant mais également, dans le
contexte présent, à (Bellot, 2008).
Dans les logiciels grand public5 , la mesure la plus souvent utilisée pour l’évaluation de la lisibilité d’un texte – au sens de sa facilité de lecture et de compréhension
indépendamment des aspects visuels et typographiques – est celle établie par (Flesch,
1948) pour l’anglais puis adaptée par (Kandel et al., 1958) pour le français :
pour l’anglais : LF lesh = 206,835 − 1,015 × ASL − 84,6 × ASW
[1]
pour le français : LKandel = 207 − 1,015 × ASL − 73,6 × ASW
[2]
où ASL est la longueur moyenne des phrases exprimée en nombre de mots et ASW
est le nombre moyen de syllabes par mot contenu dans le texte. Cette mesure établit
une échelle de lisibilité de 0 à 100, sur laquelle un score de 30 situe un document très
difficile à lire, et un score de 70 un document correctement lisible par des adultes.
Les approches plus récentes pour estimer la lisibilité d’un document utilisent des
modèles de langage statistiques ainsi que divers algorithmes pour la classification :
Expectation Maximization (Si et al., 2001), les arbres de décision (Kane et al., 2006),
l’analyse sémantique latente (LSA) (Wolfe et al., 1998) ou des modèles de catégorisation (Collins-Thompson et al., 2005). Pour des textes à destination de jeunes lecteurs,
les données sur lesquelles s’appuient ces approches peuvent provenir d’annotations
manuelles réalisées par des professeurs des écoles sur des pages web (Petersen et al.,
2006) ou sur des livres entiers (Lennon et al., 2004). Les principaux paramètres utilisés par ces méthodes de catégorisation automatique sont la taille des phrases et des
mots, et les caractéristiques syntaxiques et lexicales des mots.
5. Dans MS Word, il faut activer l’option Afficher la lisibilité dans l’onglet grammaire et orthographe des préférences pour voir les statistiques de lisibilité s’afficher à la fin de la vérification
du document.
Lisibilité et recherche d’information
167
2.3. Intégration de la lisibilité dans la pertinence
Les mesures de Flesch et Kandel (formules [1] et [2]) produisent un score pour
chaque document trouvé. Pour prendre en compte la lisibilité dans le processus de
recherche, ces scores de lisibilité doivent être combinés avec les scores de pertinence
thématique initiaux ou encore, en fonction des rangs initiaux des documents.
Souhaiter combiner une mesure de lisibilité avec une mesure de similarité du type
BM25 est une problématique qui s’apparente à celle de la fusion de résultats et à la métarecherche où doivent être pris en compte différents scores pour un même document :
la sélection des seuls documents lisibles ou d’un niveau d’expertise adéquat pourrait
aussi s’apparenter à un problème de filtrage (Berrut et al., 2003, Boughanem et al.,
2004). À cet effet, la plupart des auteurs ont proposé d’établir de nouvelles fonctions
de score, comme par exemple (Ogilvie et al., 2003) à partir d’approches bayésiennes,
(Lillis et al., 2006) selon une approche probabiliste entraînée sur les niveaux de performance pré-établis de plusieurs systèmes différents et établissant un score à partir
des rangs obtenus.
Une autre façon de voir est de faire le parallèle avec la recherche de documents
structurés où le score retenu est une combinaison des scores des parties qui composent
les documents (Piwowarski et al., 2003, Lalmas et al., 2007). Pour un document d
structuré en K parties dk , La forme courante de la fonction de score est :
X
s(d,q) =
vk · s0 (dk ,q)
[3]
k
0
avec s la fonction de score sur le document,
P s la fonction de score sur une partie de
e
d, vk le poids de la k partie de d tel que vk = 1 et q la requête.
En ce qui concerne les expériences décrites dans cet article, nous proposons deux
fonctions de combinaison, RSV et RSV 0 , qui sont définies ci-après où q est une requête, Rank(d) le rang initial du document d tel que déterminé initialement par le
moteur de recherche documentaire, Sim(d,q) le score initial, N le nombre de documents trouvés, LF une des deux mesures de Flesch (calculée à partir de la moyenne
arithmétique des lisibilités de toutes les phrases le contenant) et enfin λ un coefficient,
dont la valeur optimale sera trouvée empiriquement, tel que 0 6 λ 6 1 :
Rank(d)
LF (d)
RSV (d) = (1 − λ) · 1 −
+λ·
[4]
N
100
RSV 0 (d) = (1 − λ) · Sim(d, q) + λ ·
LF (d)
100
[5]
168
RSTI - DN – 13/2010. Recherche d’information
2.4. Impact sur la tâche de recherche documentaire ad hoc en anglais de TREC
Nous avons testé cette combinaison (formules 4 et 5)6 sur les données de la tâche
ad hoc de la campagne TREC-8 qui comprennent 50 requêtes (topics) et un corpus
de 530 000 documents. Les documents ont été initialement ordonnés en utilisant le
moteur de recherche Lucene à partir des champs title des topics7 .
Figure 1. Précision et lisibilité moyenne pour les N = 10 ou N = 20 premiers documents trouvés après réordonnancement en fonction de différentes valeurs du coefficient de pondération λ (premiers points à gauche : λ = 0 ; derniers points à droite :
λ = 1). Sur les données de TREC-8, le meilleur compromis entre lisibilité et précision
est obtenu pour la valeur λ = 0,2 (ligne verticale)
L’évaluation d’un processus de recherche documentaire se fait généralement à
l’aide des mesures de rappel et précision sur les mille premiers documents retournés.
Dans l’optique où l’utilisateur est en difficulté de lecture, l’évaluation est pertinente
si elle concerne les vingt, voire les dix premiers documents retournés. Il est en effet
connu que la plupart des utilisateurs du moteur de recherche Google ne dépassent que
rarement les 2 premières pages de résultats. La figure 1 indique les taux de précision et
de lisibilité moyenne obtenus sur les 10 et 20 premiers documents réordonnés en fonction de différentes valeurs du coefficient de pondération λ. Jusqu’à la valeur λ = 0,2,
la précision ne diminue pas tandis que la lisibilité augmente. Au-delà de cette valeur,
la chute de la précision est significative.
6. De façon générale, l’utilisation d’une addition plutôt que d’une multiplication entre les deux
scores normalisés permet d’augmenter l’importance accordée à l’un des deux scores lorsque
celui-ci est très élevé. Par exemple, si pour un document d, les scores valent 0,9 et 0,1 et pour
un autre document d0 0,5 et 0,4, une addition permet de sélectionner d avant d0 à l’inverse d’une
multiplication.
7. Le moteur de recherche Lucene, http://lucene.apache.org exploite simultanément le
modèle vectoriel et le modèle booléen pour estimer la similarité des documents avec la requête.
Lisibilité et recherche d’information
169
Faisant l’hypothèse que la lisibilité d’un document est indépendante de la requête,
il est naturel que sa prise en compte ne puisse pas, sauf dans des cas de pur hasard,
entraîner une hausse de la précision : il n’y a pas de raison pour que les documents
les plus lisibles soient les plus proches thématiquement de la requête. L’inverse étant
également vrai (les documents les moins lisibles ne sont pas nécessairement les plus
pertinents), nous nous attendions à ce que le réordonnancement des documents en
fonction de la lisibilité reste neutre vis-à-vis de la mesure de précision. Lorsque la
lisibilité est pondérée par un coefficient λ faible, le réordonnancement agit, vis-à-vis
de la mesure de la précision, comme une redistribution locale et forcément limitée
où l’espérance du gain en précision est quasi nul. Si la valeur λ est trop forte, le
réordonnancement devient global et aboutit à redistribuer les documents pertinents
dans un ensemble où ils sont minoritaires et donc à faire fortement chuter la précision.
L’expérience confirme cette hypothèse, mais au-delà de ces résultats, elle souligne une
fois de plus le manque de pertinence... de la mesure de pertinence usuelle dans des
conditions réelles : la prise en compte de la lisibilité entraînant de fait une hausse de la
lisibilité des premiers documents trouvés (à condition bien sûr d’en accepter son bienfondé), il est probable que l’utilisateur puisse trouver plus rapidement l’information
recherchée, et donc, en ce sens, que les premiers documents soient plus pertinents
qu’auparavant. Cela ne peut être pris en compte par la mesure de précision seule et
devra être validé par des expériences interactives en conditions réelles. Pour cela, se
reporter à la méthodologie expérimentée par les évaluations de la piste HARD durant
les campagnes TREC ainsi qu’à (Chaudiron, 2004).
3. Amélioration de la lisibilité par sélection de passages et résumé automatique
Une manière d’aider le lecteur est de retourner l’information sous forme plus
condensée, en proposant une sélection de passages ou en réalisant un résumé, le plus
lisible possible, du contenu des documents trouvés en fonction de la requête.
3.1. Utilisation de méthodes de segmentation thématique pour réduire la taille
du texte à lire
En ciblant l’information recherchée à l’intérieur des documents, on peut réduire
l’effort de lecture de l’utilisateur. De plus (Callan, 1994) suggère que la réduction des
unités de traitement textuelles améliore la qualité des informations retrouvées.
De nombreux algorithmes ont été proposés pour segmenter un texte en segments
cohérents de plus petite taille lorsque les démarcations en paragraphes de l’auteur ne
sont pas disponibles, ou ne correspondent pas à la taille recherchée (Sitbon et al.,
2004). Cependant étant donné l’efficacité relative de ces algorithmes, et vu que les
limites de paragraphes sont disponibles dans les données de la campagne CLEF, nous
nous sommes appuyés sur les paragraphes existants pour les expériences.
170
RSTI - DN – 13/2010. Recherche d’information
La première approche proposée est d’indexer les paragraphes comme s’ils étaient
des documents à part entière. Les résultats de cette approche dans le tableau 1 montrent
que les résultats sont fortement dégradés lorsqu’on réduit de cette façon les unités
documentaires indexées. En effet la précision moyenne (MAP) ainsi que la précision
des 10 ou 20 premiers documents subissent des dégradations significatives.
Unité de texte
Paragraphe
Document
MAP
0,19
0,31
P10
0,17
0,23
P20
0,15
0,17
Tableau 1. Précision moyenne (MAP) et précision au 10e rang (P10) et au 20e rang
(P20) sur les requêtes courtes, avec une indexation par Lucene des documents complets ou des paragraphes considérés isolément (CLEF ad hoc français 2003)
Ces résultats suggèrent que l’index des documents est plus performant et donc
qu’il serait plus raisonnable de le conserver. Cela n’empêche pas de remplacer les
documents par leur paragraphe le plus pertinent (du moins celui ayant le score le plus
élevé) dans les cas où l’index des paragraphes en valide la pertinence par rapport
à la requête. En effet, on considère que si un paragraphe d’un document est aussi
pertinent que le document en entier, c’est que la majorité de l’information pertinente
du document est contenue dans ce paragraphe. Cette approche peut être combinée avec
une sélection des documents les plus lisibles, en considérant qu’un paragraphe pris au
lieu d’un document a une lisibilité supérieure.
Cette approche a été également évaluée sur les données de la campagne CLEF
2003, sans prise en compte de la lisibilité des documents complets (λ = 0) ou avec
une prise en compte équivalente à l’intégration optimale calculée pour la recherche
documentaire (λ = 0,3). Le tableau 2 contient la précision des 10 ou 20 premiers
éléments retournés, leur lisibilité moyenne, ainsi que le nombre d’éléments trouvés se
résumant à des paragraphes. Si un élément est un paragraphe, le document dont il est
issu est utilisé pour l’évaluation. De plus, on lui confère une lisibilité maximale, qui
reflète ici le gain considérable apporté par la réduction de la quantité de texte à lire et
non la lisibilité moyenne des phrases.
λ
0
0
0,3
0,3
N
10
20
10
20
Précision à N
0,23
0,17
0,20
0,16
Lisibilité
85,68
86,92
93,01
93,80
Nombre de paragraphes
6,55
13,6
8,2
16,65
Tableau 2. Précision, lisibilité moyenne et nombre de paragraphes retournés parmi
les N premiers éléments retrouvés, avec différentes valeurs du paramètre λ pour la
prise en compte de la lisibilité dans le classement des résultats (CLEF 2003)
Lisibilité et recherche d’information
171
Les résultats montrent qu’en remplaçant les documents contenant un segment de
similarité supérieure par ce segment, et sans estimer la pertinence en fonction de la
lisibilité, on aboutit à une faible perte de précision au regard de celle subie lors de
l’indexation pure des segments introduite dans le tableau 1. Dans tous les cas, 50 % des
documents contiennent suffisamment d’information pertinente dans un seul segment.
Dans une configuration où l’on prend en compte la lisibilité des documents complets (à hauteur de 30 %), on aboutit à 80 % de documents qui peuvent être référés par
un segment aussi pertinent. La précision obtenue est à mi-chemin entre celle qui est
obtenue en indexant uniquement les segments et celle qui est obtenue en ne prenant
pas en compte la lisibilité.
3.2. Sélections des phrases les plus lisibles pour la génération du résumé
La campagne d’évaluation DUC8 (Document Understanding Conference) est dédiée au résumé automatique. Elle comporte une tâche de résumé multidocument
orienté requête, ce qui correspond à une synthèse de l’information disponible et distillée dans le corpus. Si cette tâche permet de faire ressortir des informations noyées
dans des documents plus vastes, elle présente aussi l’avantage de réduire la quantité
de texte à lire pour obtenir des informations. Les méthodes les plus efficaces dans ce
domaine effectuent une extraction des phrases les plus pertinentes.
3.2.1. Génération de résumés orientés requête par MMR-LSA
Le système de résumé par extraction sur lequel nous nous appuyons (Favre et al.,
2006) sélectionne une par une les phrases selon un critère qui maximise à la fois
leur similarité à la requête et leur dissimilarité au résumé en cours d’élaboration et
constitué des phrases précédemment sélectionnées. Ceci permet d’éviter une certaine
forme de redondance dans les phrases extraites.
La sélection des phrases du résumé se fait en autant d’étapes que nécessaire pour
parvenir au nombre de mots souhaités dans le résumé. La méthode MMR (Maximum
Marginal Relevance) a été proposée par (Carbonell et al., 1998). A chaque étape, un
algorithme glouton sélectionne la phrase qui maximise sa similarité avec la requête
tout en minimisant sa similarité avec la moyenne des phrases déjà sélectionnées pour
le résumé. L’algorithme 1 détaille le processus de sélection des phrases d’un résumé
R parmi l’ensemble P = {p1 , ...pi , ..., pn } des phrases contenues dans les documents
pertinents par rapport à la requête q , préalablement retournés à l’aide d’un système
de recherche documentaire. Les valeurs utilisées pour λ peuvent être déterminées de
manière empirique. (Murray et al., 2005) suggèrent de faire évoluer λ en fonction du
nombre d’itérations de l’algorithme. Nous avons choisi d’utiliser une normalisation de
la distribution des similarités à chaque itération en leur imposant une moyenne nulle
et une variance unitaire (standardisation des distributions).
8. http://duc.nist.gov/
172
RSTI - DN – 13/2010. Recherche d’information
Algorithme 1 Sélection de phrases par Maximum Marginal Relevance
tant que |R| < K faire
si |R| = 0 alors
ajouter (R, argmaxpi ∈P sim(q,pi ))
sinon
ajouter (R, argmaxpi ∈P ∩R̄ (λsim(q, pi ) − (1 − λ)maxpj ∈R sim(pj , pi )))
fin si
fin tant que
La notion de similarité suggère de placer les phrases dans un espace vectoriel à
l’intérieur duquel il est possible de calculer des distances au sens vectoriel. Nous avons
choisi de projeter les phrases vers un espace sémantique réduit à l’aide de l’analyse
sémantique latente LSA (Deerwester et al., 1990). Celle-ci permet de créer des classes
de mots en fonction de leurs cooccurrences, et s’appuie sur une décomposition en
valeurs singulières de la matrice de cooccurrences du corpus.
En employant une similarité de type cosinus, les phrases sont ordonnées au sein du
résumé, mais l’on ne dispose pas de score de pertinence associé. En effet, la mesure
utilisée à chaque étape par l’algorithme pour sélectionner la phrase la plus pertinente
fournit un score uniquement par rapport au résumé existant à cet instant.
3.2.2. Evaluation
La campagne DUC en 2006 consistait à produire automatiquement des résumés
d’une taille maximale de 250 mots à partir de thèmes de recherche sur le corpus
AQUAINT (articles issus de l’Associated Press, du New York Times et de Xinhua New
Agency). Elle s’apparentait ainsi à une tâche de type questions-réponses complexes.
Chaque thème (topic) était constitué d’un titre et d’une description. Par exemple le
thème D0629B avait pour titre Computer viruses et pour descriptif Identify computer
viruses detected worldwide. Include such details as how they are spread, what operating systems they affect, what damage they inflict, their country of origin, and their
creators wherever possible.. Pour produire les résumés, les systèmes pouvaient s’appuyer sur une liste, fournie aux participants, de 25 documents pertinents par thème.
Les résumés ont été évalués à l’aide d’une mesure de comparaison entre les ngrammes des résumés de référence (4 par requête, rédigés manuellement) et ceux produits automatiquement. La mesure ROUGE-2 proposée par (Lin, 2004) se base sur la
comparaison des bigrammes et est réputée comme étant la plus fiable parmi les mesures d’évaluation automatique. Les résumés ont également été évalués manuellement
selon leur qualité linguistique. Celle-ci tenait compte de critères de cohérence et de
style mais n’avait pas pour objectif de mesurer la lisibilité au sens où nous l’entendons
ici. Le système que nous avons fait concourir a été classé 5e sur 34 selon la mesure
Rouge-2 et 8e pour sa qualité linguistique.
Etant donné que les données de DUC sont rédigées en anglais, nous avons choisi
d’appliquer la mesure de lisibilité de Flesh (1) établie pour l’anglais, même si elle
Lisibilité et recherche d’information
173
0,1
λ=0.3
ROUGE-2
0,08
MMR-LSA +
Lisibilité
meilleur système
0,06
baseline
0,04
résumés manuels
0,02
0
0
20
40
60
80
100
Lisibilité (Flesch)
Figure 2. Lisibilité et pertinence selon la mesure ROUGE-2 de résumés produits avec
différentes valeurs de lambda entre 0 et 1. Les lignes horizontales correspondent au
meilleur système de DUC et au système naïf. La ligne verticale indique la valeur
de lisibilité (formule [1]) pour les résumés produits manuellement (évaluation DUC
2006)
n’est pas spécifique à la dyslexie. Et puisque notre système de résumé ne propose pas
de score de pertinence au sens d’une mesure de similarité pour chacune des phrases
sélectionnées, nous avons utilisé leur rang 4.
Le graphe de la figure 2 montre la corrélation entre les taux de lisibilité (calculés
selon la mesure de Flesch) et les valeurs de la mesure ROUGE-2 pour les résumés
produits avec différents λ (4). Les lignes de référence sont les valeurs de ROUGE-2
pour le meilleur système de DUC 2006 d’une part et pour un système naïf d’autre
part (résumé obtenu en sélectionnant le document le plus récent du corpus), ainsi
que la valeur de Flesch pour les résumés de référence, produits manuellement. La
courbe présente un point d’inflexion notable pour λ = 0,3, qui correspond également
à la valeur optimale de prise en compte de la lisibilité obtenue précédemment en la
recherche documentaire. Le gain de lisibilité est très important, puisqu’il est de près
d’un tiers de l’échelle d’évaluation de Flesch. De plus, la lisibilité des résumés obtenus
dépasse celle des résumés manuels. La figure 3 montre un exemple de résumé sur le
thème des virus informatiques produit en prenant la lisibilité en compte avec cette
valeur optimale (à droite), et le résumé produit pour le même thème sans prendre en
compte la lisibilité (à gauche).
174
RSTI - DN – 13/2010. Recherche d’information
! = 0.0 - 10 sentences - 240 words - R = 26,9 ! = 0.3 - 19 sentences - 229 words - R = 58,5
The Melissa macro or W 97 M Melissa virus
spreads via infected e mail and attacks computers
loaded with Microsoft's widely used Word 97 or
Word 2000 programs, according to CERT or
Computer Emergency Response Team Carnegie
Mellon's Department of Defense funded computer
security team. Disguised as a list of pornographic
Internet sites and allegedly named after a stripper
David Smith once knew, Melissa is a macro virus,
a document with a malignant computer program
built in. When the software was downloaded,
computer users infected other files on their hard
drive. Zip virus, which enters machines in almost
the same way as the recent Melissa virus by
disguising itself as a friendly piece of e mail.
Melissa, as the new viral vixen was named by its
creator as unknown combines elements of both a
computer virus and a worm program. Melissa
typically enters a computer hidden in a Microsoft
Word 97 or Word 2000 file attached to an
electronic mail message. Computer experts used
unique identification numbers embedded in
Microsoft Word documents to trace Melissa back
to a well known virus writer who calls himself
VicodinES. No matter how it arrives, Melissa can
infect any computer that uses Microsoft Word,
including Macintoshes. It generally gets into your
computer by way of an attachment to an e mail.
Unlike the recent Melissa scare, which
automatically propagated via e mail, this virus
doesn't spread as quickly because it requires a
person to launch an infected program file to
contaminate a computer.
Zip began to spread. The new virus, named W 32
/Kriz. Zip on his computer. As the virus spreads,
the file certainly will change. Chen did not come
up with an anti virus program. If an infected
program was sent in an e mail, the virus was
passed on to the recipient. Since both Word and
Outlook are so widely used, the Melissa virus
spread with shocking speed. Gets in via e mail,
floppies or downloaded software. Many were
caught off guard by the amount of damage and
said it was much worse than the Melissa virus.
Here are some recent viruses; all of them can be
blocked by anti virus software. It generally gets
into your computer by way of an attachment to an
e mail. New viruses are being created all the time.
It is clear that the virus caused much damage. Bc
CIR computer virus list NYT. Computer experts
said Chen might not be charged because he did not
intend to spread the virus. On the screens of
infected computers when a user tries to open an
MS Word file. The disk from the helpline would
detect and remove more than 9400 other computer
viruses. Zip is the third major bug to sweep across
the Internet since March, when the Melissa virus
overwhelmed systems with floods of e mail. A
third virus, called Mad Cow Joke has appeared and
works like Melissa, sending itself to 20 people in
the victim's e mail address book.
Figure 3. Exemples de deux résumés sur le thème des virus informatiques, produits
respectivement sans prise en compte de la lisibilité (colonne de gauche), et avec une
lisibilité prise en compte avec un facteur λ = 0,3 (colonne de droite)
4. Estimation automatique de la lisibilité pour des personnes dyslexiques
4.1. Vers une mesure de lisibilité adaptée aux dyslexies
Jusque dans les années 1970 la dyslexie était considérée comme un trouble visuel
associé à la confusion de lettres ou de syllabes. Les recherches en psycholinguistique
(Snowling, 2000) ont montré qu’il s’agit en réalité d’un dysfonctionnement des représentations phonologiques qui est à l’origine de la dyslexie. Une des conséquences de
cela est que les représentations mentales des liens entre les phonèmes (les sons parlés)
et les graphèmes (les lettres ou groupes de lettres correspondants) sont dégradées. Du
point de vue de la lisibilité, les correspondances graphèmes-phonèmes les plus complexes (comme le son « o » dans manteau ou le son « f » dans amphore) vont présenter
une difficulté supplémentaire pour le lecteur. Une haute fréquence de ces difficultés
mobilise les ressources attentionnelles du lecteur dyslexique qui perd des capacités
de mémorisation à court terme, ce qui rend la compréhension de la phrase et du texte
Lisibilité et recherche d’information
175
plus difficile. Le niveau de complexité dans la correspondance graphèmes-phonèmes
est ainsi un facteur important pour l’évaluation de la lisibilité. En réalité, il s’agit
aussi de complexité mnésique, puisque ce sont les aspects qui influent sur la mémoire
à court terme qui sont impliqués : la difficulté de correspondance, associée parfois
à une difficulté de lecture directe (minimisant le rôle du découpage en phonèmes),
engendre un risque plus élevé d’oubli des phonèmes précédemment identifiés.
La lisibilité est donc une caractéristique essentielle qu’un système de recherche
d’information doit prendre en compte et ceci d’autant plus si l’utilisateur est dyslexique. Une mesure de lisibilité orientée dyslexies peut s’inspirer de celles définies
pour les normo-lecteurs et doit être adaptée à chaque utilisateur.
De nombreux types de dyslexies sont en effet recensés (et parfois contestés, ou du
moins, discutés) qui touchent plus ou moins gravement certaines aptitudes de lecture.
Citons, en se référant aux différentes routes de la lecture reprises de (Southwood et
al., 1999) et illustrées par la figure 4 :
– la dyslexie dyseidétique (ou dyslexie de surface) : lecture lente sans altération de
la qualité de la compréhension au moins pour les mots réguliers (la faculté à lire des
mots inconnus est plus ou moins atteinte et en tout cas très ralentie). Elle correspond
à une perte de l’accès direct au sens (route A sur la figure 4). La route (C) est alors
privilégiée : par exemple femme est lu fèm et le mot peut alors ne pas être reconnu ;
– la dyslexie dysphonique : lecture à vitesse normale mais certains mots sont substitués par d’autres sans altération profonde du sens (par exemple viande est lu lorsque
jambon est écrit). La route (A) est efficace contrairement à la route (B) ;
– la dyslexie phonologique : incapacité à prononcer de nouveaux mots ou des nonmots. La route (C) est déficiente. Cette forme de dyslexie est parfois associée à une
aphasie voire à une difficulté à nommer les objets vus ;
– la dyslexie profonde : il s’agit d’une forme aggravée de dyslexie phonologique
qui touche les trois routes (A), (B) et (C) et engendre une incapacité à lire des mots
nouveaux (perte de la capacité à convertir des graphèmes en phonèmes), des erreurs
sémantiques et phonétiques.
En lien avec les critères de lisibilité mentionnés dans la section 2, énonçons maintenant quelques remarques autour de la dyslexie :
– si l’effet de fréquence est constaté chez une personne dyslexique comme chez un
normo-lecteur, i.e. si les mots fréquents sont plus rapidement lus que les mots rares et
ceci indépendamment des autres caractéristiques du mot telles que sa longueur, cela
témoigne de la possibilité d’utiliser la voie lexicale (routes B et C) ;
– les effets de régularité graphèmes/phonèmes sont constatés aussi bien chez des
personnes atteintes de dyslexie développementale que chez des normo-lecteurs. Autrement dit, un mot régulier est toujours lu plus rapidement qu’un mot irrégulier ou
encore qu’un non-mot. Cela signifie que si déficit phonologique il y a, la lecture peut
tout de même se faire selon des voies différentes parmi les routes (A), (B) et (C) ;
176
RSTI - DN – 13/2010. Recherche d’information
Mot écrit
Route
lexicale
Lexique
"visuel"
Route
non lexicale
C
homophones
Règles de
conversion
graphèmesphonèmes
B
Système
sémantique
A
Lexique
phonologique
Système
phonémique
Figure 4. Les différentes routes de la lecture experte permettant de passer du mot écrit
à une séquence de phonèmes et à sa compréhension. Le modèle présenté ici est le modèle dual route (A) et (C) étendu avec une troisième route (B). Il permet par exemple
d’expliquer pourquoi certaines personnes ayant une voie directe (C) déficiente parviennent à lire sans difficulté les mots fonctionnels du langage (mots outils) malgré
leur représentation sémantique réduite
– la longueur des mots est un facteur plus important pour la personne dyslexique
que pour un normo-lecteur ;
– les dyslexiques dits profonds ont de grandes difficultés à identifier les mots abstraits alors que les mots concrets sont lus correctement.
4.2. Apprentissage automatique et prédiction de la difficulté de lecture d’un texte
4.2.1. Une fonction de prédiction du temps de lecture
La dyslexie entraînant une capacité réduite à identifier les mots écrits, le nombre de
mots difficiles est augmenté par rapport à celui d’un normo-lecteur. Par ailleurs, la variabilité et la complexité des types de dyslexie est telle qu’il est inadapté de prédire la
lisibilité d’un texte à partir des seuls critères de longueur moyenne des phrases ou des
mots comme cela a été défini précédemment. Cela nous a incité à utiliser d’autres critères tels que le nombre de lettres qui composent un mot, sa rareté dans le langage
courant, sa catégorie morpho-syntaxique et sa cohésion graphème-phonème. Nous
avons estimé cette dernière par le rapport entre le nombre de phonèmes et le nombre
Lisibilité et recherche d’information
177
de lettres dans le mot9 . Elle permet de tenir compte du fait qu’un mot contenant des
lettres muettes ou bien des phonèmes de plusieurs lettres (ph vis-à-vis de f seul) est
plus complexe à lire qu’un mot pour lequel la correspondance graphème-phonème est
bijective10 . À partir de la définition de la complexité d’un mot, celle d’une phrase peut
être estimée en fonction de la moyenne des complexités des mots qu’elle contient.
Afin de déterminer les coefficients à appliquer à chacun des critères retenus pour
estimer la difficulté d’un mot, nous avons choisi d’entraîner un classifieur à partir
des temps de lecture d’un ensemble de phrases lues par des enfants. Ces données ont
été recueillies par une équipe de psycholinguistes conduite par S. Ducrot, du Laboratoire Parole & Langage (LPL) du CNRS et de l’Université de Provence, dans le
cadre d’expérimentations sur le diagnostic de la dyslexie par l’empan perceptif (Lété
et al., 2007). Neuf enfants pour lesquels le français est la langue maternelle ont dû lire
vingt phrases d’une longueur de douze mots11 . L’expérimentation a été conduite par
l’intermédiaire d’un logiciel réalisé par des étudiants en Master Informatique sous la
supervision de L. Sitbon et de P. Bellot. Les phrases ont été lues mot à mot (le passage
d’un mot au suivant se faisant par activation d’une touche au clavier), ce qui a permis
de mesurer des temps de lecture globaux et mot à mot. La lecture effective de chaque
phrase a été validée par une épreuve visuelle de compréhension (l’enfant, après avoir
lu chaque phrase, devait choisir l’image qui la représentait le mieux parmi deux).
En faisant l’hypothèse que le temps de lecture d’un mot ou d’une phrase est relié
à sa difficulté, alors mesurer la lisibilité d’une phrase peut se ramener à prédire son
temps de lecture. La première approche choisie pour cette évaluation sont les SVM
(Support Vector Machines), pour leur capacité à travailler sur des faibles volumes de
données. Les SVM projettent les données initiales dans un espace de plus grande dimension jusqu’à trouver un hyperplan séparateur. La seconde approche est la régression linéaire, choisie pour sa capacité à fournir une mesure transparente : une combinaison linéaire des paramètres les plus discriminants. L’apprentissage des modèles a
été réalisé à l’aide de l’environnement WEKA12 (Witten et al., 1999). Les temps de
lecture des mots ont été normalisés pour chaque utilisateur sur une échelle allant de
0 à 100 (0 étant le temps de lecture normalisé du mot le plus vite lu et 100 celui du
mot lu le plus longuement). A partir de là, les temps de lecture normalisés des phrases
sont les moyennes des temps de lecture normalisés des mots les constituant. Aucune
normalisation n’a été effectuée par rapport à la taille des phrases, car elles comportent
toutes 12 mots, ni par rapport à la taille des mots eux-mêmes. Les paramètres utilisés
sont ceux utilisés pour l’établissement de la lisibilité pour des normo-lecteurs dans le
cadre d’autres expériences basées sur l’apprentissage, ainsi que ceux qui sont spéci9. Un niveau de consistance graphème-phonème est accessible pour les mots de la base de données lexicales Manulex-Infra constituée de mots issus de manuels scolaires en français (Peereman et al., 2007).
10. Dans le même ordre d’idées, il serait judicieux de considérer le fait qu’une lettre seule, par
exemple c, peut correspondre à différents phonèmes. Cela n’a pas été fait dans les expériences
décrites ici, où la cohésion n’est donc qu’une première approximation.
11. Par exemple Le chien de ma grand-mère aime beaucoup jouer avec mes chaussons.
12. http://www.cs.waikato.ac.nz/~ml/
178
RSTI - DN – 13/2010. Recherche d’information
fiques à la lecture de documents par des dyslexiques. La figure 5 illustre l’ensemble
des données utilisées pour refléter les différents paramètres d’une phrase, avec des
valeurs attribuées à chacun des paramètres.
La fonction de prédiction du temps de lecture que nous avons déterminée par régression à partir des données d’apprentissage est définie par :
T emps(d) = 1,12 × ADV − 0,69 × CON + 6,48 × COH + 15,58
[6]
où ADV et CON sont le nombre d’adverbes et de conjonctions dans d (un texte), et
COH exprime la cohésion graphèmes-phonèmes de d, i.e. le nombre de phonèmes de
d divisé par son nombre de lettres.
cohésion
conjonctions
fréquence
noms propres
taille des mots
0
noms communs
nombre de mots
adverbes
syllabes
adjectifs
verbes
Figure 5. Dimensions paramétriques d’une phrase pour évaluer sa lisibilité
4.2.2. Evaluation de la qualité de la prédiction du temps de lecture
Des modèles sur la base de données communes à tous les utilisateurs ont été réalisés et évalués à l’aide d’une validation croisée. Le tableau 3 contient l’écart moyen
entre les temps prédits par les classifieurs testés (SVM et régression linéaire) et les
temps réels. Une comparaison est effectuée avec un classifieur naïf (l’algorithme ZeroR affecte la valeur moyenne des données d’entraînement à toutes les données de
test), et un classifieur aléatoire (qui affecte des valeurs aléatoires entre 0 et 100). Si
l’on considère qu’une phrase est lue en approximativement 20 secondes, un écart de 2
points est de l’ordre du dixième de seconde. Les résultats du classifieur naïf montrent
que les données utilisées sont très homogènes et centrées autour de la moyenne. Des
résultats similaires avec les deux classifieurs testés suggèrent l’utilisation prioritaire
de la régression linéaire étant donné qu’elle fournit une mesure transparente pour des
résultats équivalents aux SVM.
Lisibilité et recherche d’information
mots
phrases
SVM
9,38
5,01
Reg, linéaire
9,74
5,00
Naif
10,1
5,07
179
Aléatoire
37,97
35,69
Tableau 3. Taux d’erreur dans la prédiction du temps de lecture de mots isolés ou de
phrases (obtenus par validation croisée 10 plis) selon les classifieurs SVM ou régression linéaire, un classifieur basé sur la moyenne des données disponibles (naïf) et un
classifieur aléatoire
4.2.3. Une nouvelle mesure de lisibilité
Cette définition permet de définir une nouvelle mesure de lisibilité L0 considérant à
la fois les difficultés spécifiques aux personnes dyslexiques (fonction T emps, formule
[6]) et la lisibilité générique de Kandel (formule [2]) :
L0 (d) =
T emps(d) + (100 − LF rench (d))
2
[7]
Elle retourne une valeur entre 0 (pour un document d idéalement lisible) et 100
(pour un document d illisible). Des expérimentations avec des phrases de taille et de
composition variables permettront de valider ou d’affiner ce choix.
4.3. Impact sur la tâche de recherche documentaire ad hoc en français de CLEF
La campagne d’évaluation CLEF (Cross Language Evaluation Forum)13 fournit
une référence en recherche documentaire francophone pour la tâche ad hoc monolingue. Cette tâche consiste à retrouver les documents pertinents pour 60 requêtes dans
une collection d’environ 130 000 documents. La référence est construite par des validations manuelles des résultats de plusieurs moteurs de recherche. Il y a en moyenne
16 documents pertinents par requête posée.
Nos expériences sont réalisées à partir des scores de similarité fournis par Lucene
(avec ses paramètres par défaut) pour les données françaises de la campagne d’évaluation CLEF 2003, en appliquant un score de lisibilité calculé à l’aide de la formule
[6] précédemment établie pour des lecteurs dyslexiques.
Les résultats de l’application des deux formules d’intégration du paramètre de lisibilité (formules 4 et 5) montrent sur les figures 6 et 7 que le calcul de la pertinence
en fonction de la similarité permet d’augmenter la lisibilité sans dégrader la précision,
jusqu’à un taux d’intégration de 30 % de la lisibilité. En revanche, le calcul de la pertinence basé sur le rang initial des documents retournés par Lucene fait très rapidement
chuter la précision des 10 premiers documents dès lors qu’on prend en compte la lisibilité. L’augmentation de la lisibilité pour λ = 0,3 dans le calcul à partir des scores
13. http://clef-campaign.org
180
RSTI - DN – 13/2010. Recherche d’information
0,25
λ=0.3
Précision à N
0,2
0,15
N = 10
N = 20
λ=0.3
0,1
0,05
0
55
60
65
70
75
Lisibilité à N
Figure 6. Précision au rang N (10 ou 20) corrélée avec la lisibilité moyenne des N
premiers documents, pour des résultats obtenus avec différentes valeurs de lambda
(formule [5], en utilisant le score fourni par Lucene pour les valeurs de similarité —
campagne CLEF ad hoc français 2003)
0,25
Précision à N
0,2
λ=0.3
0,15
N = 10
N = 20
λ=0.3
0,1
0,05
0
55
60
65
70
75
Lisibilité à N
Figure 7. Précision au rang N (10 ou 20) corrélée avec la lisibilité moyenne des N
premiers documents, pour des résultats obtenus avec différentes valeurs de lambda
(formule [4], en utilisant Lucene pour l’obtention des valeurs de rang)
Lisibilité et recherche d’information
181
de similarité est assez faible mais significative. Etant donné que la pertinence n’est
pas dégradée, on peut conclure que si elle est contrôlée, l’intégration de la lisibilité
apporte une amélioration notable des résultats.
5. Perspectives et conclusion
La raison pour laquelle il est possible de réorganiser les données afin d’optimiser un critère orthogonal au besoin thématique est qu’il existe dans les cas étudiés
suffisamment d’informations thématiquement pertinentes pour pouvoir sélectionner
uniquement les plus lisibles. D’après les expériences menées sur la recherche documentaire et le résumé automatique, nous avons montré qu’il était possible de prendre
en compte la lisibilité pour 30% du score de pertinence sans pour autant fortement
dégrader les performances.
Les expériences ont été réalisées sur des données en français et en basant l’évaluation de la lisibilité sur la mesure élaborée pour des enfants dyslexiques. Des expériences similaires ont également été réalisées sur des données en anglais, avec la
mesure de Flesch pour la lisibilité, en utilisant un outil de segmentation thématique.
Les résultats obtenus sont tout à fait similaires, ce qui tend à valider leur généricité.
De même, des expériences similaires ont été réalisées sur le résumé automatique en
évaluant la lisibilité à l’aire de la mesure établie sur le français pour des personnes
dyslexiques, ce qui amène des résultats identiques.
Cela dit, les problèmes de lecture (dyslexie) étant souvent couplés à des problèmes
d’écriture (dysorthographie), les systèmes de recherche d’information doivent être
adaptés en ce sens comme nous avons discuté dans Sitbon et al. (2007, 2008a, 2008b)
en implémentant un système de réécriture de questions en langage naturel destiné à
améliorer la robustesse des systèmes de RI.
En ce qui concerne les scores proposés, nous avons défini une combinaison linéaire mais cela peut ne pas être la meilleure solution. D’abord car il a été montré que
les différentes stratégies de classement internes peuvent interférer avec un tel choix
et que d’autre solutions sont souvent préférables (Savoy et al., 1997). Ensuite, parce
que la redondance des indices pris en compte dans chacun des scores peut entraîner
une sélection déséquilibrée. Toutefois, les définitions de la lisibilité que nous avons
utilisées tiennent compte d’indices qui ne sont pas liés à la fréquence d’apparition des
mots dans les documents. Ainsi la combinaison linéaire du score de lisibilité avec une
fonction de score BM25 ne fait pas perdre la non-linéarité vis-à-vis de la composante
fréquentielle des mots dans les pondérations. Cependant, si l’on considère l’ensemble
des critères de lisibilité envisagés (et non uniquement ceux que nous avons utilisés
dans nos expériences), et donc la fréquence d’apparition des mots, cette propriété de
non-linéarité serait mise à mal. En effet, un mot de la requête qui apparaîtrait plusieurs fois dans un document verrait cette quantité prise en compte deux fois dans le
calcul du score, une fois pour la lisibilité et une fois pour la similarité BM25. Ainsi,
il est possible qu’un document contenant plusieurs fois un même mot de la requête, et
182
RSTI - DN – 13/2010. Recherche d’information
uniquement celui-ci, soit préféré à un document qui contient deux mots de la requête.
Pour répondre à ce problème précis, (Robertson et al., 2004) ont modifié la composante fréquentielle plutôt que de combiner des scores qui, indépendamment les uns
des autres, utilisent la fréquence réelle des mots. Si l’on estime par exemple qu’un
mot qui apparaît 3 fois dans un document est 2 fois plus lisible qu’un mot qui n’apparaît qu’une seule fois alors on modifie sa fréquence estimée en la multipliant par deux.
Une perspective intéressante réside donc dans la définition de fonctions de score qui
préservent l’efficacité des mesures de type okapi tout en tenant compte de la lisibilité.
De manière générale, nous pourrons passer d’un processus qui enchaîne :
1) pondération des mots des documents et de la requête selon une approche type
okapi/BM25 ;
2) calcul des scores de pertinence vis-à-vis de la requête des documents de la collection ;
3) calcul des scores de lisibilité des documents extraits de la collection à l’étape
précédente ;
4) réordonnancement des documents en fonction des scores de pertinence et de
lisibilité
vers un nouveau processus, incluant une rétro-action de pertinence améliorant simultanément la lisibilité et la pertinence des documents trouvés.
Selon un processus interactif, il serait possible d’associer à des requêtes, et par
suite à des thématiques, des listes de documents que l’utilisateur aura trouvés non
seulement pertinents mais également utilisables (lisibles) et ainsi définir des fonctions
de score adaptées à chaque utilisateur.
Remerciements
Ce papier est une version augmentée de celui que nous avons présenté durant le
congrès CORIA 2008. Nous tenons à remercier très sincèrement son comité scientifique ainsi que la fondation Métivier pour leur soutien apporté à nos travaux.
6. Bibliographie
Allan J., Topic Detection and Tracking : Event-based Information Organization, vol. 12 of The
Kluwer International Series on Information Retrieval, Kluwer Academic Publishers, 2002.
Bellengier E., Blache P., Rauzy S., « PCA : Un système de communication alternative évolutif
et réversible », ISAAC’04 (International Society for Augmentative and Alternative Communication), Neuchâtel, Suisse, p. 78-85, 2004.
Bellot P., Contributions en faveur d’une meilleure personnalisation de la recherche d’informations - Applications à la tâche questions-réponses, à la recherche de documents audio et
Lisibilité et recherche d’information
183
à l’accessibilité pour des personnes dyslexiques, Habilitation à Diriger des Recherches Université d’Avignon et des Pays de Vaucluse, 2008.
Berrut C., Denos N., « Filtrage collaboratif », in , E. Gaussier, , M.-H. Stéfanini (eds), Assistance
intelligente à la recherche d’informations, Hermès, Paris, p. 255-284, 2003.
Blache P., Rauzy S., « Le moteur de prédiction de mots de la Plateforme de Communication
Alternative », Traitement Automatique des Langues (TAL), vol. 48, num. 2, p. 47-70, 2008.
Boissière P., Dours D., « VITIPI : A universal writing interface for all », 6th ERCIM Workshop
"User Interfaces for All", 2000.
Boughanem M., Tmar M., Tebri H., « Filtrage d’information », in , M. Ihadjadene (ed.), Méthodes avancées pour les systèmes de recherche d’informations, Hermès, Paris, p. 137-162,
2004.
Bruza P., Mc Arthur R., Dennis S., « Interactive Internet search : Keyword, directory and query
reformulation mechanisms compared », ACM-SIGIR 2000, ACM Press, p. 280-288, 2000.
Callan J., « Passage-Level Evidence in Document Retrieval », Proccedings of the ACM/SIGIR
Conference of Research and Development in Information Retrieval, p. 302-310, 1994.
Carbonell J., Goldstein J., « The use of mmr, diversity-based reranking for reordering documents and producing summaries », Proceedings of the 21st Annual International ACM SIGIR Conference on Research and Development in Information Retrieval, Melbourne, Australia, p. 335-336, August, 1998.
Chaudiron S., « La place de l’usager dans l’évaluation des systèmes de recherche d’informations », in , S. Chaudiron (ed.), Evaluation des systèmes de traitement de l’information,
Hermès, Paris, p. 287-310, 2004.
Chevalier M., Julien C., Soulé-Dupuy C., « Prise en compte de l’usager dans la recherche d’information », PeCUSI (Prise en Compte de l’Utilisateur dans les Systèmes d’Information),
atelier de Inforsid 2007, Perros Guirec (France), p. 274-284, 2007.
Collins-Thompson K., Callan J., « Predicting reading difficulty with statistical language models », Journal of the American Society for Information Science and Technology, vol. 56,
num. 13, p. 1448-1462, November, 2005.
Coltheart M., Rastle K., Perry C., Langdon R., Ziegler J. C., « DRC : A Dual Route Cascaded
model of visual word recognition and reading aloud », Psychological Review, vol. 108,
p. 204-256, 2001.
Deerwester S., Dumais S. T., Furnas G. W., Landauer T. K., Harshman R., « Indexing by Latent
Semantic Analysis », Journal of the American Society for Information Science, vol. 41,
num. 6, p. 391-407, 1990.
Dehaene S., Les neurones de la lecture, Odile Jacob, Paris, 2007.
Dickinson A., Gregor P., Newell A. F., « Ongoing investigation of the ways in which some of
the problems encountered by some dyslexics can be alleviated using computer techniques »,
2002. 638268 97-103.
Ducrot S., Nguyen N., « Special Issue on Language Disorders and Reading Acquisition : Introductory Remarks », Current Psychology Letter (CPL), Behaviour, Brain and Cognition,
Special Issue on Language Disorders and Reading Acquisition, 2003.
Fairweather P., Hanson V., Detweiler S., Schwerdtfeger R., « From Assistive Technology to a
Web Accessibility Service », ACM-Assets 2002, ACM-Press, Edinburgh, Scotland, p. 4-8,
2002.
184
RSTI - DN – 13/2010. Recherche d’information
Favre B., Béchet F., Bellot P., Boudin F., El-Bèze M., Gillard L., Lapalme G., Torres-Moreno
J.-M., « The LIA-Thales summarization system at DUC-2006 », Proceedings of Document
Understanding Conference (DUC-2006), New York, USA, June, 2006.
Ferrand L., Psychologie cognitive de la lecture. Reconnaissance des mots écrits chez l’adulte.,
Ouvertures psychologiques, de Boeck, Bruxelles, Belgique, 2007.
Flesch R., « A new readability yardstick », Journal of applied psychology, vol. 32, p. 221-233,
1948.
Ingwersen P., Belkin N., « Information retrieval in context - IRiX : workshop at
SIGIR 2004 - Sheffield », SIGIR Forum, vol. 38, num. 2, p. 50-52, 2004.
http ://doi.acm.org/10.1145/1041394.1041405 ACM.
Kandel L., Moles A., « Application de l’indice de flesch à la langue française », The journal of
educationnal research, vol. 21, p. 283-287, 1958.
Kane L., Carthy J., Dunnion J., « Readability Applied to Information Retrieval », Proceedings of
the European Conference on Information Retrieval (ECIR), London, England, p. 523-526,
2006.
Lalmas M., Tombros A., « Evaluating XML Retrieval Effectiveness at INEX », SIGIR Forum
(ACM Press), vol. 41, num. 1, p. 40-57, 2007.
Lennon C., Burdick H., « The Lexile Framework as an Approach for Reading Measurement and
Success », electronic publication on www.lexile.com, April, 2004.
Lillis D., Toolan F., Collier R., Dunnion J., « ProbFuse : a probabilistic approach to data fusion », Proceedings of the 29th annual international ACM SIGIR conference on Research
and development in information retrieval, ACM, Seattle, Washington, USA, p. 139-146,
2006. 1148197.
Lin C.-Y., « ROUGE : a Package for Automatic Evaluation of Summaries », Proceedings of
WAS, 2004.
Lété B., Ducrot S., « La perception du mot écrit chez l’apprenti lecteur et l’enfant dyslexique :
Evaluation en fovea et en parafovea », in , E. Demont, , J.-E. Gombert, , M. N. Metz-Lutz
(eds), Acquisition du langage : approche intégrée, SOLAL, p. 125-172, 2007.
Mizzaro S., « Relevance : the whole history », Journal of the American Society for Information
Science, vol. 48, num. 9, p. 810-832, 1997.
Morton J., « Interaction of information in word recognition », Psychological Review, vol. 76,
p. 165-178, 1969.
Murray G., Renals S., Carletta J., « Extractive summarization of meeting recordings », Proceedings of Eurospeech 2005, Lisboa, Portugal, p. 593-596, September, 2005.
Ogilvie P., Callan J., « Combining document representations for known item search », 26th
ACM SIGIR Conference on Research and Development in Information Retrieval, ACM,
2003.
Peereman R., Lété B., Sprenger-Charolles L., « Manulex-Infra : Distributional characteristics
of grapheme-phoneme mappings, infra-lexical and lexical units in child-directed written
material », Behavior Research Methods, vol. 39, num. 3, p. 579-589, 2007.
Petersen S. E., Ostendorf M., « Assessing the Reading Level of Web Pages », Proceedings of
Interspeech 2006 - ICSLP, Pittsburgh, Pennsylvania, p. 833-836, September, 2006.
Lisibilité et recherche d’information
185
Piwowarski B., Gallinari P., « A machine learning model for information retrieval with structured documents », in , P. Petner (ed.), Machine Learning and Data Mining in Pattern
Recognition (MLDM’03), Springer-Verlag, Leipzig, p. 425-438, 2003.
Rey V., Sabater C., de Cormis C., « Un déficit de la conscience morphologique comme prédicteur de la dysorthographie chez l’enfant présentant une dyslexie phonologique », Glossa,
num. 78, p. 4-20, 2001.
Robertson S., Zaragoza H., Taylor M., « Simple BM25 extension to multiple weighted fields », Proceedings of the thirteenth ACM international conference on Information and knowledge management, ACM, Washington, D.C., USA, p. 42-49, 2004.
http ://doi.acm.org/10.1145/1031171.1031181.
Rossignol C., Inadaptation, Handicap, Invalidation ? Histoire et étude critique des notions, de
la terminologie et des pratiques dans le champ professionnel de l’Éducation spéciale., Doctorat d’état : Université Louis Pasteur - Strasbourg I - Presses Universitaires du Septentrion,
2001.
Savoy J., Calvé A., Vrajitoru D., « Report on the TREC-5 experiment », TREC-5, NIST Special
Publication, p. 489-502, 1997.
Scott N., Galan J., « The Total Access System », 1998 CSUN Conference, 1998.
Seidenberg M., McClelland J., « A distributed developmental model of word recognition and
naming », Psychological Review, vol. 96, p. 523-568, 1989.
Si L., Callan J., « A statistical model for scientific readability », Proceedings of CIKM’01,
Atlanta, USA, p. 574-576, 2001.
Sitbon L., Bellot P., « Adapting and comparing linear segmentation methods for french. »,
Proceedings RIAO’04, Avignon, France, 2004.
Sitbon L., Bellot P., « How to cope with questions typed by dyslexic users », Proceedings of
the second workshop on Analytics for noisy unstructured text data (AND at SIGIR 2008),
ACM, Singapore, 2008a. 1390752 1-8.
Sitbon L., Bellot P., Blache P., « Phonetic based sentence level rewriting of questions typed
by dyslexic spellers in an information retrieval context », Interspeech 2007, Antwerpen
(Belgique), 2007.
Sitbon L., Bellot P., Blache P., « Evaluating Robustness of Question Answering System through
a Corpus of Real-Life Questions », 6th edition of the Language Resources and Evaluation
Conference (LREC 2008), Marrakech (Maroc), 2008b.
Snowling M. J., Dyslexia, Blackwell, 2000.
Southwood M. H., Chatterjee A., « Simultaneous Activation of Reading Mechanisms : Evidence
from a Case of Deep Dyslexia », Brain and Language, vol. 67, num. 1, p. 1-29, 1999.
Sprenger-Charolles L., Colé P., Lecture et dyslexie - Approche cognitive, Dunod, Paris, 2003.
Vogt C. C., Cottrell G. W., « Fusion Via a Linear Combination of Scores », Information Retrieval, vol. 1, num. 3, p. 151-173, 1999.
W3C, « How People with Disabilities Use the Web », 2001.
Witten I. H., Frank E., Data Mining : Practical Machine Learning Tools and Techniques, Morgan Kaufmann, San Francisco, 1999.
Wolfe M., Schreiner M., Rehder B., Laham D., Kinstch W., Landauer T., « learning from text :
matching readers and texts by latent semantic analysis », Discourse Processes, vol. 25,
p. 309-336, 1998.