Chapitre 3.3 Systèmes de questions-réponses1

Transcription

16 Systèmes de Questions Réponses
Chapitre 3.3
Systèmes de questions-réponses1
Quis necavit equitem?
1.1. Introduction
Qu’est-ce donc qui nous conduit à poser des questions à une machine et
comment peut-on raisonnablement attendre d’elle que des réponses satisfaisantes
nous soient apportées ? Encore heureux que ces machines ne prennent pas
l’initiative et ne se mettent à poser des questions aux humains ! Non, pour l’instant
c’est nous qui les mettons à l’épreuve de nos questions, et non l’inverse.
À quoi cet exercice ressemble-t-il ? Comment faire pour évaluer le bon
fonctionnement de ces interactions ? Ici, comme dans bien d’autres domaines, il
semblerait que le stade de la meta-évaluation ait déjà été atteint, à la lecture du titre
de certains articles parus sur ce sujet comme celui de [VOO 03] : « Evaluating the
Evaluation …». À moins qu’il ne s’agisse, tout naturellement, de savoir si les
critères retenus pour effectuer de telles évaluations, sont appropriés pour mesurer ce
que l’on souhaite évaluer !
Un système de questions-réponses2 (QR) correspond, en général, à une chaîne de
traitements rassemblant trois ou quatre composants plus ou moins indépendants les
uns des autres : analyse des questions, recherche de documents textuels, recherche
de passages, extraction des réponses. Chacun de ces composants mériterait d’être
évalué de façon intrinsèque, or c’est leur assemblage qui est évalué dans sa
globalité. Certaines étapes (pas toutes) peuvent faire l’objet d’un recours à des
ressources capitalisant des connaissances sur la langue ou sur le monde environnant.
Cela suffit-il pour nous autoriser à dire que sont mis en jeu des mécanismes de
compréhension par l’ensemble de la chaîne ? Au moins une de ses parties (la
recherche textuelle) échappe à cette logique car, généralement, elle repose sur des
approches numériques, autant que faire se peut, indépendantes du domaine
d’application et de la langue.
Sans forcer le trait, on peut comparer le moteur de recherche traditionnel autour
duquel est bâti un système de questions réponses à une épine dorsale à laquelle on a
ajouté en amont un module d'analyse des questions et en aval des modules d'analyse
des documents, aussi robustes que possible. Ces deux greffes sont destinées à établir
un lien entre les questions et les passages pour pouvoir en extraire au mieux des
réponses. À cette fin, sont exploitées toutes sortes de traits linguistiques, aussi bien
de nature morphologique, syntaxique ou sémantique. Sont également employés des
critères numériques, calqués sur ceux utilisés classiquement en recherche
d'information.
Même si le paradigme du changement prend de l’ampleur lorsqu’on change de
siècle, et a fortiori de millénaire, cela ne suffit pas à expliquer pourquoi il est
devenu indispensable à ce moment précis de concevoir une Nouvelle Génération de
Recherche d’Information. [STR 00] s’appuyant sur l’analyse des campagnes TREC3
en matière de Recherche Documentaire (RD), montre que pour dépasser le plafond
atteint par les moteurs de RD, une quasi révolution se révélait nécessaire. Les
concepteurs des systèmes de questions-réponses ont pris le relais pour relever un
défi de taille : produire des résultats à la hauteur des attentes fortes qui
correspondent en la matière à des enjeux économiques majeurs.
Ainsi, il s’est avéré que le problème devait être posé en d’autres termes pour que
le couplage entre recherche et extraction d’information puisse porter ses fruits. Des
1. Chapitre rédigé par Marc EL-BÈZE, LIA - CNRS.
2. Soulignons que nous optons volontairement pour une forme plurielle. Pour ce qui est des
réponses, il est clair que le pluriel s’impose. Comme pour la tâche de résumé automatique, où
il est admis qu’il n’existe pas de résumé idéal, dans notre cas aussi, à une question donnée, ne
peut être apportée une réponse idéale. L’inverse supposerait que le contexte de la question est
suffisant pour déterminer l’unicité de LA réponse. Or ceci est rarement (pour ne pas dire
jamais) le cas. Par ailleurs, les systèmes de questions-réponses sont censés traiter des lots de
questions divers et variés. Étant doublement justifié, le pluriel devrait devenir la norme.
3
Text REtrieval Conference (pour plus d’explications sur TREC cf. section 1.4)
Titre du chapitre en Times NR, corps 9 17
fonctionnalités nouvelles (encore assez embryonnaires dans les systèmes actuels de
recherche d'information) devaient être envisagées : évaluation de l'existence de
réponses à une question dans une base de textes et justification de ces réponses,
synthèse de réponses multiples glanées dans un ou plusieurs documents, dialogue
avec l’utilisateur pour l’aider à reformuler sa requête ou encore capacités de
compréhension de texte allant4 de la résolution d’anaphores à la conciliation entre de
multiples réponses éventuellement incompatibles.
Tout en restant conscient des limites de l’analogie, on ne peut s’empêcher de
comparer le fonctionnement global d’un système de QR aux mécanismes qui entrent
en jeu dans la compréhension d’un texte lu, et de façon plus aiguë, lorsque le texte
est un roman policier. S’il s’agit d’une construction classique5, l’auteur d’un roman
policier s’ingénie à brouiller les pistes. Il introduit plus d’indices qu’il n’en faut,
créant suffisamment de bruit pour pouvoir y dissimuler les fils qui mènent au
coupable. Le lecteur se laisse d’autant plus prendre au jeu qu’il a entre les mains
assez d’éléments (ce qui lui donne l’illusion de mener l’enquête) mais pas trop pour
que le coupable ne soit pas découvert trop tôt avant l’épilogue. Dans ce cadre, le
lecteur peut développer différentes stratégies. La première stratégie, que l’on peut
qualifier de totalement passive, consiste à ne pas se poser de question, se laisser
guider par le récit et attendre patiemment d’arriver à la découverte du coupable par
sa révélation explicite à la fin de l’ouvrage. À l’opposé, un lecteur amateur de
logique s’arrêtera à chaque indice nouveau pour réévaluer les différentes
hypothèses. Éventuellement, il pourra reformuler le problème sous la forme d’un
système d’équations dont les paramètres ont changé, ou s’appuyer sur certaines
incohérences pour écarter telle ou telle piste et progresser, à l’instar d’un juge
d’instruction, vers la seule solution qui s’impose. Entre les deux, bien entendu toutes
sortes de comportements sont envisageables.
Ainsi, pour pouvoir gérer un scénario complexe, on arrive vite à la conclusion
qu’on tourne en rond si on se contente de répondre à la seule question qui est
ouvertement posée. Si l’on veut progresser, il faut varier les angles de vue, et
répondre à d’autres questions que l’on se doit parfois d’engendrer. Ainsi dans le
roman intitulé Le tableau du maître flamand d'Arturo Perez-Reverte, la question
centrale posée par une inscription cachée découverte lors de la rénovation d’un
tableau (Quis necavit equitem ? Qui a tué le cavalier ?) en appelle d’autres :
Pourquoi le peintre a-t-il ajouté cette mystérieuse sentence ? Pourquoi l'a-t-il
recouverte ensuite ? Le chevalier dont il semble être question figure-t-il parmi les
4
Si on veut fixer la barre à un niveau ambitieux, on peut inclure, dans cet intervalle, le suivi
de narrations ou l’analyse et la production d’argumentaires (cf. chap. A. Reboul).
5
Nous ne faisons pas référence ici aux romans policiers modernes, dans lesquels on a
tendance à dévoiler d’emblée qui est coupable, le suspense reposant à présent sur d’autres
motifs comme par exemple les capacités du coupable à être démasqué ou non.
personnages de la toile ? Quelqu'un aurait-il intérêt à ce qu'un secret vieux de plus
de 500 ans ne soit pas découvert ? Etc.
Comparaison n’est pas raison, loin s’en faut. En tous les cas, si l’on fournit à des
systèmes automatisés la globalité d’un roman policier (y compris la résolution des
énigmes qui s’y trouvent), il est certain que ces automates, même les plus efficaces
d’entre eux, ne seront pas capables d’apporter le moindre début de réponse à l’une
ou l’autre de ces questions. Quitte à décevoir certaines des attentes pressantes
auxquelles il a été fait allusion plus haut, il faut bien le reconnaître, les systèmes
actuels ne savent pour l’instant découvrir en X l’assassin que s’il est clairement écrit
quelque part : X est l’assassin. La seule preuve qu’on leur demande d’apporter est
d’exhiber le passage où cela est dit. De ce fait, il n’est pas utile de recourir à quelque
logique que ce soit. Toutefois, il ne suffit pas de retrouver une aiguille dans une
meule de foin, encore faut-il que ce soit la bonne (celle qui est recherchée), et que
les éléments environnants (le contexte) attestent que c’est bien elle qui est
recherchée.
1.2. Architecture d’un système de questions-réponses
En faisant abstraction des particularités des différents systèmes de QR existant
actuellement, on peut, de façon générale, distinguer au moins quatre composants que
l’on retrouve dans la plupart des cas. L’architecture générique schématisant le bâti
de ces systèmes est représentée en figure 3.3.1.
Questions
Analyse questions
Requête RD
Recherche
Documents
Segmentation
Segments
Extraction de Réponses
Type Questions
Réponses
Supports
Figure 3.3.1. Les différents composants d’un système de QR
Le premier des quatre composants est chargé de l’analyse des questions. Le
second composant est en général un moteur de recherche documentaire classique.
On peut envisager de l’adapter, par exemple en injectant dans les données qu’il
accepte en entrée, le type d’Entité Nommée (EN) attendue. Le troisième étage
correspond aux traitements effectués sur les documents rapportés : étiquetage,
découpage en segments, calcul à nouveau d’une similarité entre chacun de ces
passages et la question. Enfin, le dernier composant est celui qui est chargé
d’extraire un fragment, une bribe aussi compacte que possible, de lui assigner un
score pour pouvoir comparer cette réponse éventuelle à d’autres hypothèses
potentielles.
Si, a priori, rien ne s’oppose à ce que des mécanismes de compréhension du
langage interviennent à chacun de ces quatre niveaux, force est de constater, comme
le fait [SPA 03], que la tâche de Recherche Documentaire (RD) entretient des
relations plutôt faibles avec ce qui relève du traitement de la langue naturelle. Mais
ce constat négatif ne pèse pas sur la globalité de tel ou tel système de QR du fait
qu’il inclut toujours d’autres composants plus élaborés que celui qui est dédié à la
seule RD. Dans les sections qui suivent, nous allons nous intéresser à ceux d’entre
eux qui font le plus appel à des mécanismes qu’il est possible d’assimiler à de la
compréhension automatique.
1.2.1. Questionner un texte : ce qui est en jeu
Dans un de ses articles fameux [BEN 58], l’éminent linguiste qu’a été Émile
Benveniste s’est interrogé sur les rapports qu’entretiennent les catégories de langue
et de pensée.
« Aristote pose ainsi la totalité des prédicats que l'on peut affirmer de l'être, et il
vise à définir le statut logique de chacun d'eux. Or, il nous semble – (…) que ces
distinctions sont d'abord des catégories de langue, et qu'en fait Aristote, raisonnant
d'une manière absolue, retrouve simplement certaines des catégories fondamentales
de la langue dans laquelle il pense »
Pour Aristote, les catégories représentent tout ce qu’il est possible d’attribuer à
un objet du monde, autrement dit un jeu de prédicats médiatisés par le langage.
Ainsi, Aristote est amené à proposer un système à dix catégories (substance,
quantité, qualité, lieu, temps, possession etc.), qui constituent à l’évidence un
inventaire des prédications possibles dans sa langue. Pour Benveniste, ces catégories
ne sont rien d’autres que le reflet parfait des questions qu’il est possible de se poser
dans cette langue sur un objet ou un être donné. Le découpage de la pensée selon ce
schéma catégoriel est mis en relation directe avec des classes de pronoms
interrogatifs6.
Dans le cadre des systèmes de QR, l’analyse des questions revient à trouver quel
est le type de la question posée par un utilisateur, et ce sur quoi elle porte.
Parallèlement, une étape d’annotation en catégories (les EN) aura été effectuée sur
un nombre limité de documents, jugés proche de la requête issue de la question.
Mettre en adéquation le type de la question et les EN repérées dans les textes, n’est
pas étranger à la relation liant les catégories de langue et de pensée. Ce mécanisme
joue un rôle déterminant dans la recherche d’éléments textuels de réponse à une
question donnée. Un renversement de la procédure consisterait à détecter dans un
texte les questions auxquelles le document est censé répondre. Cette vision inversée
suppose toutefois que si l’on ne peut faire l’économie d’un agent important,
l’utilisateur, il est indispensable de savoir simuler certains de ses comportements.
1.2.2. Analyse des questions
Il est essentiel qu’une question soit analysée aussi finement que possible pour
qu’une réponse correcte lui soit apportée. Bien que cela soit essentiel, il ne s’agit pas
seulement de déterminer le type de la question qui est posée. Une fois le type de la
question identifié, il convient de sélectionner dans le jeu d’EN, celle(s) dont il
faudra ensuite rechercher les différentes occurrences dans les textes.
Un calcul de collocations permettra, par exemple, de déterminer quels sont les
termes qui composent la question. Par exemple, quand il est demandé (comme
c’était le cas dans le jeu de TREC9) : Où Bill Gates a-t-il fait ses études
supérieures ?, on arrivera plus facilement à répondre correctement Harvard, si on a
identifié Bill et Gates comme formant un tout référant à une seule et même personne
rarement dénommée autrement que « Bill Gates ». Dans ce cas, la question peut être
vue comme une simple équation avec une inconnue et des paramètres. À un niveau
supérieur, on peut imaginer de représenter des questions légèrement plus
compliquées comme des équations à deux inconnues. Supposons que l’on ait à
traiter à présent la question suivante : Quelle est la nationalité de la femme de Bill
Gates ? Deux stratégies sont envisageables. Dans une optique de décomposition, on
peut considérer qu’il faut passer par une question intermédiaire, à savoir comment
s’appelle la femme de Bill Gates, et dans un second temps rechercher quelle est la
nationalité de Melinda French avec la possibilité de tomber dans un piège lié à
l’ambiguïté inhérente à la réponse. Une autre façon de faire consiste à rechercher un
6
Cette proposition a marqué de façon profonde et durable les Sciences humaines. Par
exemple, l’ethnologie jusque dans les années 1980 était enseignée comme savoir décrire « qui
fait quoi avec qui, où, quand et comment … »
bout de texte donnant directement la réponse sans même aller chercher, ici ou là, le
nom de celle avec qui le fondateur de Microsoft s’est marié en 1994. Aussi étrange
que cela puisse paraître, la première stratégie n’implique pas davantage de
« compréhension » que la seconde dans les phases postérieures. Une analyse
syntaxique de la question appropriée permet simplement de dédoubler l’appel des
mêmes procédures que celles employées par la deuxième stratégie.
Les questions sont en général assez courtes. Il ne faut rien négliger de ce point
d’appui assez ténu, pour pouvoir exploiter au maximum l’ensemble des contenus
qu’il véhicule. Comme toute production langagière, une question peut être ambiguë.
S’il est demandé de citer les trois plus grandes villes d’un pays, qu’entend-on par
grandes ? Les plus peuplées, ou celles qui occupent la plus grande surface au sol ?
L’ambiguïté peut provenir d’un manque de précision dans le choix d’un qualificatif,
ou plus généralement du fait que les termes de l’énoncé ne sont pas assez
circonstanciés. Si l’interrogation porte sur la population d’une ville, à supposer que
l’on veuille savoir combien de personnes habitent cette ville, (et pas le nom de ses
habitants) il est indispensable parfois de préciser de quelle ville il s’agit (plusieurs
villes pouvant porter le même nom). Par ailleurs, il n’est certainement pas inutile de
clarifier si on s’intéresse à la seule population de la ville, ou plus largement à la
communauté urbaine qui l’entoure. Enfin, on ne peut ignorer le fait que l’on va
trouver dans les textes des réponses différentes selon la date où un recensement a été
réalisé. Qui plus est, ces quantités seront exprimées avec un niveau de précision
éminemment variable. Nous entrevoyons là une des limites des systèmes qui ne
traitent que des questions isolées, alors qu’il faudrait entamer un véritable dialogue
avec l’utilisateur pour délimiter plus précisément le contexte dans lequel s’inscrit
chacune de ces questions.
1.2.3. Recours à des Bases de Connaissances
Pour un pourcentage de questions, si faible soit-il, il est possible de recourir à
des Bases de Connaissances (BC). On peut inclure dans ce lot les questions les plus
fréquentes, pour lesquelles a été archivée une liste de réponses associées. Pour
l’ensemble de ces questions, la chaîne de traitement se trouve simplifiée. Nul besoin
de passer par le biais des EN. Il suffit de faire une recherche sur le texte non annoté
du fragment où se trouvent rassemblés de la façon la plus ramassée, dense ou
compacte, les termes de la question et une des formes de la réponse attendue. Bien
entendu, un simple calcul de compacité aura comme résultat de positionner en tête
des hypothèses, si elle existe, une fenêtre centrée autour de la réponse et contenant
tous les mots de la question et rien qu’eux. Toutefois, l’ordre des mots n’aura pas été
pris en compte, et si par un simple rejet des mots vides, les adverbes de négation ont
été rejetés, on risque d’aboutir à de véritables contresens en faisant dire à un bout de
texte le contraire de ce qu’il signifie. Nous indiquerons un peu plus loin, dans la
section consacrée aux questions booléennes, quelques propositions pour résoudre
cette difficulté.
Il convient néanmoins de dire qu’il faudrait, dans le cas de questions factuelles7,
un mauvais concours de circonstances, pour que la base de connaissances soit
erronée et que le contenu du texte soit interprété à l’opposé de ce qu’il signifie. La
représentation du monde que l’on peut coder au travers d’une base de connaissances
est un ensemble de relations instanciées de façon assez schématique au détriment de
toutes les finesses et nuances que la langue permet d’introduire quand cette relation
est exprimée dans un texte par le biais d’une langue naturelle. L’objectif assigné aux
systèmes de QR est de retrouver dans un texte une expression de cette relation. Or
l’architecture des systèmes développés actuellement montre une certaine
inadéquation du second composant, celui qui est en charge de la phase de recherche
documentaire. Une vision plus appropriée de cette étape consisterait à introduire
dans l’étape préalable d’indexation des documents, des éléments susceptibles de
mieux cadrer avec l’objectif global. Les textes pourraient être vus au travers d’un
prisme particulier : quelles sont les questions auxquelles ils sont censés répondre ?
Une telle orientation permettrait de déboucher sur deux phases de prétraitement
des collections de textes : indexation de ces textes avec un jeu de questions qui ne
sont rien d’autres que les relations entretenues entre des entités nommées, et au-delà
une extraction automatique de Bases de Connaissance à partir de textes.
1.3. Le cas particulier des questions booléennes
Dans le cadre de notre interrogation sur les capacités d’un système de QR à
parvenir à la compréhension de ce qui est dit dans un texte, il nous a paru intéressant
d’accorder une mention spéciale au cas particulier des questions booléennes. En
effet, nous allons voir en quoi ces questions se distinguent des autres, quant à leur
nature, leur traitement et leur évaluation. Remarquons au passage, que le projet
EQueR [AYA 05] a fait œuvre d’innovation en intégrant ce type de questions dans
la campagne d’évaluation 2004. Le rapport précité mentionne que la présence de ces
questions a été vivement appréciée par les participants. Nous nous proposons
d’analyser ici les raisons de cet intérêt d’un point de vue scientifique.
7
Les questions factuelles sont analogues à celles que l’on trouve majoritairement dans le jeu
de société Trivial Pursuit. Par exemple : When was Shakespeare born ? When was John
Fitzerald Kennedy assassinated ? Who made the film "Jurassic Park" ? In what team does
Michael Jordan play ?
1.3.1. Originalité des questions booléennes
Prenons en exemple une question booléenne simple : Le chanteur Jim Morisson
est-il enterré au Père Lachaise ? Pour éviter tout risque de confusion pouvant
découler des qualificatifs8 accolés à ce type de question, il est important de préciser
que la réponse attendue ne prend pas ses valeurs dans l’ensemble {vrai, faux}, mais
plutôt dans l’ensemble {oui, non}. Comme pour les autres questions9, on n’est pas à
la recherche d’une vérité absolue. Dans le cas présent, il ne s’agit pas de savoir s’il
est vrai que telle jeune star des années 1970 est bel et bien morte et enterrée en tel ou
tel endroit. Le but est de trouver un extrait de texte permettant de valider ou
d’invalider une affirmation.
L’architecture du système présentée en figure 3.3.1 n’est probablement pas la
plus à même de traiter, telle quelle, une question de ce type. Certes, on peut
effectuer une partie de l’analyse de la question comme s’il s’agissait de n’importe
quelle autre question. Par exemple, une recherche de collocations ou la consultation
de listes prédéfinies permettra de considérer Jim_Morisson et Père_Lachaise comme
des termes à part entière. En revanche, le processus qui est chargé de typer la
question risque d’être pris en défaut. Et surtout, la phase d’extraction de la question
qui consiste en général à rechercher une EN attendue, eu égard au type de la
question, risque de n’aboutir nulle part. Quelle EN rechercher dans les segments ?
Bien plus, à supposer que l’on connaisse la réponse, qu’elle soit oui ou non, aucun
de ces deux termes n’apparaîtra probablement dans le support que le système devra
fournir pour étayer sa décision finale.
1.3.2. Feu roulant de questions dérivées
Pour pouvoir nous ramener au cas de figure classique, il suffit de produire
l’ensemble des questions sous-jacentes à une question booléenne. Ainsi, en
masquant tour à tour, chacun des mots pleins de la question booléenne, on est à
même d’engendrer l’ensemble des questions factuelles suivant :
1. Quel est le métier de Jim Morisson (enterré au Père Lachaise) ?
2. Citer le nom d’un chanteur enterré au Père Lachaise.
3. Dans quel cimetière est enterré le chanteur Jim Morisson ?
8
Qu’on les appelle questions booléennes ou binaires, ne change rien à l’affaire.
En effet, les campagnes d’évaluation posent un certain nombre de contraintes variables
d’une année à l’autre. Mais s’il y a une règle que l’on retrouve de façon systématique, c’est
bien la nécessité de produire un support à la réponse. Aussi une question posée comme
« Quelle est la capitale de la Grande Kabylie ? » doit être comprise comme : Nommer cette
ville (Tizi-Ouzou en l’occurrence) s’il se trouve un passage disant quelle est la capitale de
cette région de l’Algérie, et exhiber ce passage ou tout au moins le document qui le contient.
9
4.
Quel est le lien entre le Père Lachaise et le chanteur Jim Morisson ?
Ce procédé est souvent utilisé, de façon parfois artificielle, par les auteurs de
romans policiers, pour suggérer, avec plus ou moins de réussite, au lecteur, qu’il se
trouve à un moment crucial de l’enquête. On lui donne par la même occasion,
quelques indications pour pouvoir faire progresser l’enquête, (cf. l’exemple que
nous donnions en fin d’introduction de ce chapitre).
Il est à noter que, pour engendrer automatiquement les questions figurant dans la
liste ci-dessus, il n’est pas nécessaire de posséder un système de synthèse élaboré car
ces questions sous-jacentes ne sont pas destinées à être lues. Le style importe peu,
on souhaite tout simplement alimenter un système de QR classique, dans l’intention
de tester si une hypothèse de réponse (l’élément retiré) peut constituer une réponse
valide.
Toutefois, si on examine de près la formulation de la première question, on peut
remarquer qu’elle ne peut être engendrée sans que le système sache que chanteur est
une profession. Un raisonnement analogue nous amènerait à constater que la
production de la troisième question suppose que le système sache faire l’adéquation
entre le Père Lachaise et un cimetière, ce qui ne va pas de soi. Dans ce cas précis,
une formulation plus simple peut être envisagée : Où est enterré le chanteur Jim
Morisson ?
1.3.3. Traitement des questions sous-jacentes
Il suffit à présent de dérouler une procédure simple. Supposons que l’affirmation
suivante soit exacte : Le chanteur Jim Morisson est enterré au Père Lachaise. On se
trouve à présent dans un cas identique à celui qu’on est amené à traiter quand on
emploie une BC. Pour chacune des questions dérivées, on connaît la réponse : elle
est contenue dans la question d’origine. Pas besoin de relancer à chaque fois l’étape
de recherche documentaire. Comme cela a été déjà mentionné en section 1.2.3, nul
besoin d’avoir étiqueté le texte en termes d’EN.
Méthode symbolique ou numérique ? Peu importe le choix, chacun optera pour
la méthode qui lui semble la plus appropriée pour identifier le meilleur segment
textuel s et y localiser le site informatif adéquat. Ce qui nous intéresse ici, c’est qu’il
reste enfin et surtout à répondre à la question q par oui ou par non. À cette fin, nous
allons montrer, dans la section suivante, comment cet aspect peut être traité par des
calculs de polarité et de parité.
1.3.4. Polarité et parité
Il est rare que les termes d’une question apparaissent tels quels dans les
différents segments textuels. Au-delà des moyens mis en œuvre pour faire face aux
difficultés provenant des variations morphologiques, on a tout intérêt à déployer des
moyens supplémentaires, comme recourir à des lexiques sémantiques (par ex.
WordNet [FEL 98]), pour tenir compte d’un certain nombre de phénomènes liés à
des relations linguistiques telles que la synonymie et l’antonymie. Dans la
comparaison qui est faite entre la question q et le segment s, il ne suffit pas de faire
le décompte des mots en commun, même si ce calcul intègre la notion de compacité.
Il faut de toute évidence recourir à des listes de termes équivalents ou opposés, pour
arriver à rapprocher les phrases suivantes :
GB365 : Est-ce que Lounès a gagné son procès contre Ferhat Méhenni ?
S1 : Lounès a perdu son procès contre Ferhat Méhenni.
S2 : Lounès n’a pas gagné la procédure qui l’opposait à Ferhat Méhenni.
Pour peu que l’on dispose d’une ressource lexicale appropriée, il n’est pas très
difficile de coder ces équivalences et ces oppositions sous la forme d’expressions
régulières, comme on peut le voir avec les quelques exemples donnés ci-après :
• / refus/
versus
/ accept/
• / (pertes?|perdre)/
versus
/ (gain|gagn)/
• / (interdi|prohib|(pas permi))/
versus
/ (autoris|perm)/
Bien entendu, il faudra tenir un décompte précis des inversions de polarité dues à
la présence de contraires. Il en va de même des négations qui influent sur le sens
global par le jeu d’inversion. Ainsi puisque les négations doubles s’annulent, il
convient de faire également un calcul de parité, afin de pouvoir finalement décider si
s et q sont en phase ou en opposition de phase.
Ces opérations sont délicates, et il faut contourner quelques pièges pour ne pas
commettre d’erreur. Par exemple, la préposition sans correspond à une inversion de
polarité qui doit être prise en compte dans le calcul de parité. Sa cooccurrence avec
non, aboutit à une parité nulle. Mais, le redoublement de l’emploi de sans ne peut
être traité de la même façon que non sans, comme le montre la question :
Q GB364 : A-t-on prévenu l'artiste Guiffrey de la démolition de son œuvre place
Besagne à Toulon ?
Question à laquelle il convient de répondre par la négative, si l’on s’appuie sur le
segment suivant :
S3 : le maire de Toulon … vient en effet de faire raser au bulldozer la fontaine
monumentale du plasticien René Guiffrey, sans prévenir l'artiste, sans prévenir le
ministère de la culture.
On peut ranger ce redoublement de sans dans une catégorie « liste de rejets »,
qui inclut également les constructions du type ni … ni. Si ce piège est assez facile à
éviter, il en va autrement de phénomènes plus complexes, mettant en œuvre des
mécanismes tels la dénégation, jouant dans un registre sémantique à prendre au
propre ou figuré, comme c’est le cas du segment S4 retrouvé lors du traitement de la
question concernant Jim Morisson :
S4 : Huit mille visiteurs vont, en effet, se recueillir sur sa tombe parisienne, au
Père-Lachaise, tous les jours depuis 1971. On se demande bien pourquoi, puisqu’il
est toujours vivant.
1.3.5. Comment gérer deux difficultés : l’incomplétude et la contradiction
Que faire si l’intégralité des mots pleins d’une question booléenne ne se retrouve
pas dans l’un ou l’autre des syntagmes que contient la collection de textes ? Il serait
risqué d’en déduire que la réponse, de ce fait, est forcément négative. Une troisième
modalité doit être envisagée, que l’on peut matérialiser par trois lettres NIL
auxquelles est accordé le sens suivant : il n’y a pas de bribe dans la base de texte qui
permette d’apporter une réponse à la question posée.
Quand une question comporte des noms de personne (prénom et nom de famille),
comme c’est le cas de l’exemple GB365 donné plus haut, on peut trouver un
document contenant une réponse sans pour autant décliner l’identité complète des
deux protagonistes. À ce propos, notons qu’il y avait une dissymétrie dans l’énoncé
même de la question. On peut également trouver des paraphrases qui impliquent des
expressions de la réponse employant des variantes morphologiques que le système
n’a pas su normaliser et ramener à une forme canonique.
À l’opposé, une autre difficulté survient si l’on trouve au moins deux segments
donnant des informations contradictoires. En consultant une source, en l’occurrence
le journal Le Monde, qualifié à tort ou à raison, de quotidien de référence, on est
confronté à ce cas de figure lorsqu’on tente de répondre à la question GB365
énoncée en section précédente :
S5 : <LEMONDE97-41520> DIFFAMATION : Lounès Matoub a perdu en appel
son procès contre Ferhat Méhenni.
S6 : < LEMONDE97-43785> Contrairement à ce qui était indiqué dans nos
éditions du 13 septembre, le chanteur algérien Lounès Matoub a gagné, jeudi 11
septembre, en appel, son procès contre Ferhat Mhenni, ancien président du
Mouvement culturel berbère (MCB). Le Monde prie M. Matoub d'accepter ses
excuses.
Que faire dans ce cas ? Si les segments proviennent de deux sources différentes,
il est possible d’associer à l’un et l’autre un score reflétant la crédibilité accordée à
chacune de ces sources. Éventuellement, on peut prendre en considération d’autres
critères, comme par exemple, la réponse la plus fréquente, ou la plus récente.
Toutefois, ces deux critères ne conduisent pas forcément à une prise de décision en
accord avec le contenu de l’information traitée. Dans les médias, de nombreuses
pratiques recouvrent mal la notion de fréquence : par exemple, un démenti, de façon
générale, est moins répété que l’objet qui a motivé son énoncé. Quant au second
critère, il semble convenir pour traiter le problème posé par les segments S5 et S6,
mais il est clair que S6 « efface » S5 plus en raison de son contenu que de sa
publication postérieure. Cet exemple illustre bien le chemin qu’il reste à accomplir
pour analyser et comprendre (à un niveau méta) ce que dit S6 assez explicitement :
« l’information donnée par S5 est fausse ». Pour être convaincu des limites d'une
préférence donnée au plus récent, il suffit d’imaginer un segment S7 publié dans un
tiers temps pour indiquer de façon elliptique que finalement S5 était correct. En
attendant de savoir comment effectuer automatiquement de telles analyses, on n’a
pas d’autre choix que de laisser les robots extraire les énoncés dans leur diversité et
inviter l’utilisateur à résoudre les contradictions qu’ils contiennent.
1.4. Évaluation des systèmes de Questions-Réponses
Il a été envisagé de construire des systèmes de QR dès l’apparition d’une activité
en traitement automatique des langues naturelles. Pour se faire une petite idée de ce
que de tels systèmes ont pu représenter dans l’imaginaire, on lira avec intérêt [SIM
65]. Dès les années 60, sont conçus essentiellement des systèmes faits pour
interroger des Bases de Données en langue naturelle. L’objectif de construire un
robot omniscient étant hors d’atteinte, les chercheurs des trois décennies concentrent
leurs efforts pour développer des systèmes capables de répondre à des questions
pointues dans un domaine de spécialité sportif, informatique ou … lunaire.
Principalement, c’est l’introduction en 1999 d’une piste QR spécifique dans les
campagnes TREC, qui va consacrer le double tournant pris par ce qui est présenté
comme un nouveau domaine. La conférence TREC, sponsorisée à la fois par NIST
(National Institute of Standards and Technology) et le Ministère américain de la
défense, existe depuis 1992. Comme indiqué dans [VOO 02], les campagnes
d’évaluation organisées dans ce cadre joue un rôle fondamental car elles permettent
de forger une communauté, favoriser les transferts technologiques et faire avancer
l’état de l’art. Depuis TREC-8, qui a eu lieu en 1999, l’évaluation des systèmes de
QR a été reconduite chaque année de façon répétitive à quelques variantes près10 sur
le nombre de questions posées (entre 200 et 700), la taille de la réponse, le nombre
de réponses autorisées (entre 1 et 5), la taille de la collection de documents mise à
disposition des participants. Il faut citer également l’existence de campagnes
d’évaluation organisées depuis 2003 pour d’autres langues que l’anglais, comme
NTCIR pour le japonais, CLEF pour les langues européennes, et plus récemment
EQueR 2004 pour le français. Cette dernière a déjà été évoquée dans les sections
précédentes.
1.4.1. Ce sur quoi peut porter l’évaluation d’un système de QR
Comme il n’existe pas une seule façon de répondre en langue naturelle à une
question posée en langue naturelle, la pratique de l’évaluation n’est pas quelque
chose qui va de soi. De façon idéale, on devrait être capable de juger si la réponse
apportée est juste, concise, complète, appropriée (en fonction d’un contexte
particulier), rapide, détaillée, approfondie, étayée.
Par ailleurs, il est clair qu’une évaluation portant sur une batterie de questions
permettra de juger l’étendue des capacités des systèmes. Pour avoir un point de vue
global, il est attendu de savoir comment agréger les performances obtenues dans les
différentes dimensions évoquées ci-dessus, au travers de l’ensemble des questions
posées. Lors de la campagne, TREC 11, une dimension supplémentaire a été
introduite dans l’évaluation. Il était demandé aux participants de faire en sorte que
leurs systèmes soient capables de mesurer la confiance qu’ils pouvaient accorder
aux réponses données. Nous donnerons en section suivante, la formule qui a été
utilisée pour évaluer cette capacité de porter un jugement sur soi-même, et nous
dirons pourquoi cette approche a été (pour le moment ?) abandonnée.
Analyse des Réponses
par des juges humains
Figure 3.3.2. Évaluation des systèmes de QR.
10
Un descriptif schématique des différentes campagnes TREC est donné en annexe du
présent chapitre, pour un récapitulatif plus complet on se reportera à [GRA 04].
Mis en forme :
Police :8 pt
Une des retombées fort appréciables des campagnes d’évaluation réside dans la
constitution de données de référence. Celles-ci se révèlent fort utiles pour comparer
différentes approches. Il y a toutefois un problème dans la manière dont ces
références sont établies. En effet, étant donné la taille11 des collections de
documents, il n’est pas possible de constituer ces références avant que la campagne
ne se déroule. Les réponses des différents systèmes participants sont soumises à des
juges qui décident a posteriori de la validité ou non de la réponse. Le schéma
représenté en figure 3.3.2 montre que la production des références dépend des
réponses apportées par les systèmes. De ce fait, elles présentent forcément des
lacunes, notamment du point de vue de l’exhaustivité des supports12. Si, après la
campagne, on veut évaluer un système qui n’a pas concouru il se peut que ce
système donne des réponses correctes ne figurant pas dans les références établies par
les évaluateurs. Ces réponses, confrontées aux références incomplètes, seront
considérées (à tort) comme fausses. Il y a là un risque de sous estimation13 qu’il est
bon de souligner.
1.4.2. Mesure stable
La mesure qui est le plus largement adoptée est la Moyenne des Rangs
Réciproques, que nous appellerons ici MIR pour Moyenne de l’Inverse du Rang14.
Cette moyenne est définie de la façon suivante :
MIR =
Nq 1
1
× ∑q=1
Nq
Rq
[3.3.1]
avec Nq, le nombre de questions et Rq le rang auquel le système a classé la réponse
attendue pour la question q. Comme le nombre de réponse que le système peut
donner pour une question est limité à un seuil donné ρ, il faut préciser ce qui est fait
si jamais la réponse ne se trouve pas dans les ρ réponses. En général, ρ vaut 5. Aux
questions pour lesquelles la réponse attendue fait totalement défaut, correspond un
terme nul dans la sommation de la formule 3.3.1.
11
Quelques Gigaoctets de textes.
Pointeurs vers les documents étayant (supportant) les réponses.
Cette limite s’applique également en cas d’utilisation de ces données de référence pour
réévaluer, quelque temps après la campagne, un système ayant concouru et évolué depuis.
14
Pour cette mesure que nous avons choisi d’appeler MIR, la dénomination couramment
employée dans la littérature anglo-saxonne est MRR pour Mean Reciprocal Rank.
1.4.3. Évaluation des Questions Booléennes
Pour le cas particulier des Questions Booléennes, une seule réponse était
autorisée dans le cadre de la campagne d’évaluation EQueR. De ce fait, la formule
3.3.1 devient :
MIR =
Nq
1
× ∑q=1 Bq
Nq
[3.3.2]
avec Nq, le nombre de questions et Bq valant 1 en cas de réponse correcte et
supportée15, 0 dans le cas contraire. Ainsi, il n’est pas possible de développer des
stratégies biaisant l’évaluation, par exemple en alternant oui et non sur des rangs
pairs et impairs ayant un même support textuel, et permettant d’assurer ainsi un
minimum d’un demi point si tant est que le support soit correct. Cette formule n’est
pas qu’un cas particulier de la formule 3.3.1 avec ρ =1, elle est aussi plus sévère
parce que la réponse est très courte (oui ou non), et ne doit pas être justifiée par un
document mais par un passage de taille limitée. Dans le cadre d’EQuer 2004,
l’ensemble des 500 questions portant sur le corpus général comportait 30 questions
booléennes. Parmi les 200 questions portant sur le corpus médical, il y en avait 24.
1.4.4. Score de Confiance Pondérée
En 2002, et seulement pour une année, une nouvelle mesure a été introduite dans
le cadre de la campagne TREC-11, pour pouvoir évaluer la capacité des systèmes à
estimer correctement la confiance qu’ils accordaient aux réponses données. Nous
appelons cette mesure Score de Confiance Pondérée16 (SCP).
SCP =
Nq c
1
× ∑q=1 q
Nq
q
[3.3.3]
Nq est le nombre de questions ordonnées par le système en mettant en tête celle
pour laquelle la confiance d’avoir fourni une réponse correcte est maximale, et en
queue celle pour laquelle elle est minimale. cq est le nombre de réponses correctes
du premier rang jusqu’au rang q. L’examen des résultats obtenus par les dix
meilleurs systèmes ayant participé à TREC-11, fait apparaître que la valeur de SCP
est toujours supérieure au pourcentage de réponses correct. Seulement, pour deux de
12
13
15
Rappelons que par réponse supportée, il faut entendre réponse accompagnée d’un pointeur
vers un document (le support) justifiant cette réponse.
16
Pour cette mesure que nous avons choisi d’appeler SCP, la dénomination couramment
employée dans la littérature anglo-saxonne est CWS pour Confidence Weighted Score.
ces systèmes, il y a interversion d’ordre entre le classement induit par l’un ou l’autre
des deux critères.
La mesure SCP a été abandonnée dans le cadre de TREC, car il a été observé
[VOO 02] que de légers réajustements du jugement des assesseurs entraînaient une
instabilité dans le classement des participants, du fait que les modifications
pouvaient porter sur des questions classées en tête par certains des systèmes, et en
queue par d’autres. Nous avons jugé bon néanmoins de citer cette mesure, car elle
repose sur une idée intéressante. Dans les campagnes CLEF, il est toujours demandé
aux participants de fournir une valeur de la confiance accordée à chaque réponse.
Ceci a pour but d’étudier le niveau de corrélation entre ces estimations et
l’exactitude des réponses
1.4.5. TREC 2004 : un nouveau tournant
Lors de la treizième édition de TREC, en 2004, a été pris un nouveau tournant
amorcé l’année précédente. Les questions ne sont plus isolées mais regroupées dans
65 séries. Les questions sont de trois types : questions factuelles (F), questions de
listes (L), autres questions (O).
22
Franz Kafka
22.1 F Where was Franz Kafka born?
22.2 F When was he born?
22.3 F What is his ethnic background?
22.4 L What books did he author? 22.5 O Other
Comme le montre l’exemple donné ci-dessus, les questions qui appartiennent à
une même série ne sont pas indépendantes l’une de l’autre. Le jeu global compte
230 questions factuelles (F), 50 questions de liste (L) et 65 autres (O, une par série)
que l’on peut assimiler à des questions informatives. Par exemple, pour la question
22.5 il est attendu de rapporter que Kafka, souffrait de tuberculose, qu’il est mort
jeune (à l’âge de 40 ans), qu’une place à Prague porte son nom, etc.
Pour évaluer les questions factuelles, un simple pourcentage de questions
correctes est calculé, et pour les autres questions, est effectué un calcul de F-score,
tenant compte à la fois du rappel (R) et de la précision (P).
FS =
(1 + β ) × P × R
1.4.6. Discussion
Il est légitime de se demander à quel point les métriques utilisées à des fins
d’évaluation sont naturelles. Dans la réflexion que nous menons, ce questionnement
peut revêtir plusieurs formes. Si l’on souhaite savoir à quel point un calcul de Fscore (cf. formule 3.3.4) permet de mesurer le niveau de compréhension des textes
traités par un système, on peut se dire que c’est la tâche QR qui est en cause plus
que la métrique utilisée. Notons au passage que la tâche telle qu’elle est définie dans
les campagnes d’évaluation des systèmes de QR s’apparente d’assez près à un
commentaire de textes dirigé par des questions17. Dans cette optique, c’est le choix
des questions dans leur diversité qui devient déterminant pour juger différentes
capacités des systèmes comme celles d’analyse, ou de synthèse.
On peut également se demander si les méthodes d’évaluation sont justes et
impartiales. Comme il est fait appel à des humains (juges ou assesseurs) pour
déterminer ce que sont les références, il est difficile de les qualifier d’objectives.
Certes, chaque réponse est évaluée par plusieurs juges et un coefficient d’accord
inter juges permet d’estimer l’homogénéité des jugements portés. Néanmoins, nous
tenons à rappeler ici une limite que nous avons signalée en section 1.4.1. La
constitution des références dépend en partie des réponses données par les systèmes
évalués. Le manque d’exhaustivité défavorise tout système n’ayant pas été pris en
compte dans le processus d’élaboration des références.
Enfin, il est évident que le protocole expérimental actuel ne permet pas de
mesurer la qualité des raisonnements logiques (s’ils existent) qui ont conduit un
système à choisir telle ou telle réponse parmi plusieurs hypothèses. En eftet, il n’est
pas demandé aux systèmes de faire état de la démarche empruntée pour aboutir à
une réponse. Aussi, les critères n’ont pas été choisis en raison de leur aptitude à
évaluer la faculté des systèmes à suivre ou produire un argumentaire, élaborer des
raisonnements selon une logique plus ou moins fine, et de ce fait, ils peuvent
paraître superficiels. Toutefois, l’exigence de fournir, en plus des réponses exactes,
des pointeurs vers des documents ou des passages les justifiant donne un avantage
certain aux systèmes ayant de telles capacités.
1.5. Perspectives
2
β2 ×P + R
[3.3.4]
Le paramètre β permet de régler l’importance accordée à P par rapport à R. Si β = 1,
on se ramène à une moyenne harmonique. Le score global s’obtient en effectuant
une combinaison linéaire entre les scores obtenus sur les trois types de questions.
Dans le prolongement des lignes directrices esquissées par un groupe de
réflexion [BUR 01], l’objectif du projet Aquaint18 n’était pas de développer un
17
Cet éclairage nous permet de voir le critère SCP (ou les alternatives proposées par CLEF)
comme la mesure d’une capacité à l’auto-évaluation.
http://www.ic-arda.org/InfoExploit/aquaint/
http://www.ai.sri.com/aquaint/
18
système de questions réponses pour un jeu de questions factuelles, indépendantes les
unes des autres, pour lesquelles la réponse peut être trouvée dans un seul document,
ou à l’intérieur d’une chaîne unique, par exemple une fenêtre de taille limitée 50 (50
ou 250 caractères). Le plan était d’envisager un scénario élaboré tel qu’il soit
possible de traiter un jeu de questions posées par un spécialiste sur un sujet pointu et
entretenant des relations les unes avec les autres. On peut constater que le tournant
pris en 2004 par TREC correspond à un tel objectif.
1.7. Bibliographie
Cette vision élargie du problème a un impact sur les différents composants des
systèmes de QR que l’on peut considérer comme appartenant à une première
génération. La situation de communication envisagée se rapproche de celle d’un
dialogue permettant de mieux définir le contexte. Il est important d’en tenir compte
pour mieux comprendre le sens de chacune des questions. À l’autre bout de la
chaîne, les éléments des réponses pouvant se trouver disséminés dans plusieurs
fragments de textes, voire dans plusieurs textes, potentiellement dans des langues
différentes, il devient indispensable de faire une synthèse des extraits qui peuvent
soit converger soit diverger. Après avoir résolu les éventuels conflits, il convient de
formuler une synthèse de la réponse. Une étape de génération vient donc s’ajouter au
simple processus d’extraction qui était jusqu’à présent effectué. Afin de pouvoir
relier ces deux extrémités, on ne se demande plus si on a le droit d’utiliser ou non
des Bases de Données, mais comment les utiliser au mieux et surtout comment
combiner les Connaissances qui s’y trouvent avec celles qui sont dérivées des textes.
Cela suppose une représentation adéquate de concepts et surtout la capacité de les
manier pour pouvoir enchaîner des raisonnements allant bien au-delà des
mécanismes aussi simples que ceux décrits plus haut dans la section consacrée aux
questions booléennes.
[BUR 01] BURGER J., CARDIE C., CHAUDHRI V., GAIZAUSKAS R., HARABAGIU S., ISRAEL, D.
JACQUEMIN C., LIN C.-Y., MAIORANO S., MILLER G., MOLDOVAN D., OGDEN B., PRAGER
J., RILOFF E., SINGHAL A., SHRIHARI R., STRZALKOWSKI T., VOORHEES E., WEISHEDEL R.,
« Issues, Tasks and Program Structures to Roadmap Research in Question & Answering
(Q&A) » http://www-nlpir.nist.gov/projects/duc/papers/qa.Roadmap-paper_v2.doc, 2001.
1.6. Conclusion
Nous avons examiné, dans ce chapitre, le fonctionnement des systèmes de QR en
nous demandant en quoi ils mettaient en œuvre des mécanismes de compréhension
des textes. Par ailleurs, nous nous sommes demandé comment ces systèmes étaient
évalués. Dans l’articulation qui existe entre ces deux angles de vue, nous avons
accordé une importance particulière aux questions booléennes introduites en 2004
dans le cadre de la campagne d’évaluation EQueR. Ces questions se distinguent des
autres car elles demandent en plus des traitements effectués de façon classique par
les systèmes de QR de gérer les problèmes spécifiques posés par les antonymes et
les adverbes de négation. Enfin, nous avons vu que les perspectives ambitieuses
fixées par un groupe de réflexion commençaient à déboucher sur des réalités assez
élaborées. Nous sommes peut-être à la veille de voir une machine répondre aux
questions complexes qui découlent d’une inscription latine : Quis necavit equitem ?
[AYA 05] AYACHE C., CHOUKRI K., GRAU B., « Campagne EVALDA / EQueR Evaluation
en Question-Réponse », http://www.technolangue.net/IMG/pdf/rapport_EQueR_1.2.pdf,
2005.
[BEN 58] BENVENISTE, É., « Catégories de pensée et catégories de langue », Les Études
philosophiques, Paris, P.U.F. 4, 1958. Repris dans Problèmes de linguistique générale,
Paris, Gallimard, p. 63-74, 1966.
[FEL 98] FELLBAUM, C., « WordNet : An Electronic Lexical Database ». Mit Press,
Cambridge, MA, 1998.
[FER 01] FERRET, O., GRAU, B., HURAULT-PLANTET, M., ILLOUZ, G., MONCEAUX, L., ROBBA,
I., VILNAT, A., « Finding an answer based on the recognition of the question focus ». In
Proceedings of Text REtrieval Conference, Gaithersburg, USA, 2001.
[GRA 04] GRAU, B., « L'évaluation des systèmes de question-réponse ». In L'évaluation des
systèmes de traitement de l'information, publié par Stéphane CHAUDIRON, Hermès, 2004.
[LAV 02] LAVENUS K., LAPALME G., « Évaluation des systèmes de question réponse,
Aspects méthodologiques », In Traitement Automatique des Langues, Vol.43, N°3/2002,
p. 181-208, 2002.
[LEH 77] LEHNERT,W. « Human and computational question answering ». Cognitive
Science, 1, p. 47–63, 1977.
[LEH 79] LEHNERT, W., The process of question-answering, Lawrence Erlbaum Associates,
1979.
[MON 94] MONCEAUX L., « Adaptation du niveau d'analyse des interventions dans un
dialogue - Application à un système de question-réponse », Thèse en Informatique,
soutenue le 13 décembre 2002 au LIMSI-CNRS (Université Paris XI, Orsay).
[SOU 01] SOUBBOTIN, M. M., SOUBBOTIN, S. M., « Patterns of potential answer expressions
as clues to the right answers ». In Proceedings of TREC, p. 175–182, 2001.
[SIM 65] SIMMONS, R.F., « Answering English Questions by Computer: A survey ».
Communication of the ACM. 8, 1, p. 53-70, 1965.
[SPA 03] KAREN SPARCK JONES, « Is question answering a rational task? Questions and
Answers: Theoretical and Applied Perspectives ». Ed. R. Barnardi and M. Moortgat,
Utrecht Institute of Linguistics, p. 24-35, 2003.
[STR 00] STRZALKOWSKI T., « Towards the Next Generation Information Retrieval », in
Proceedings of the RIAO-2000, 6th International Conference on Intelligent Multimedia,
Information Retrieval Systems and Management, Paris, April, 2000.
Mis en forme :
Anglais
(Royaume-Uni)
[SWA 88] SWANSON, D.R., « Historical note: information retrieval and the future of an
illusion ». Journal of the American Society for Information Science. 39, 2, p. 92-98, 1988.
[VOO 03] VOORHEES E.M., « Evaluating the Evaluation: A Case Study Using the TREC 2002
Question Answering Track », Edmonton, Proceedings of HLT-NAACL, p. 181-188, maijuin 2003.
1.8. Annexe
1999, TREC-8 : 200 questions, formulées à partir du corpus ; rapporter jusque 5
réponses (réponse, docid) ; réponse sur 50 ou 250 octets ; mesure MIR.
2000, TREC-9 : 693 questions issues des logs de moteurs de recherche ; rapporter
jusque 5 réponses, (réponse, docid) ; réponse sur 50 ou 250 octets ; mesure MIR.
2001, TREC-10 : 500 questions issues des logs de moteurs de recherche; rapporter 1
seule réponse, (réponse, docid) ; réponses sur 50 octets uniquement ; 25% des
questions étaient des questions définitoires.
2002, TREC-11 : 500 questions issues des logs de moteurs de recherche ; pour
chaque question, rapporter 1 seule réponse (réponse exacte, docid) ; les réponses
devaient être ordonnées par confiance décroissante ; métrique SCP.
2003, TREC-12 : environ 400 questions factuelles (issues des logs de moteurs de
recherche) réponses exactes requises ; métrique : % correctes ; environ 50 questions
définitoires : des éléments informatifs clefs sur des concepts, des personnes, des
organisations ; environ 50 questions de listes : listes de réponses exactes requises.
2004, TREC-13 : 65 séries de questions. 230 questions factuelles (pour chaque série,
nombre indéteminé) ; métrique : % réponses exactes ; 65 questions autres (une par
série) : des éléments informatifs clefs sur le thème de la série ; 56 questions de listes
(0 à 2 par série) ; métrique F_score sur les réponses exactes.

Chapitre 3.3 Systèmes de questions-réponses1

Transcription

Documents pareils

Poney-club du Moulin club du Moulin club du Moulin

buffer zone ehn1 - Indico

(R\351servation matos trec cde)

Définition épreuve TREC

Visite-guidée du cimetière du Père Lachaise

78SC P. Arrache moyeux avec pompe intégrée

3d studio max - prise en main

ETIENNE ludovic port : 06 99 50 28 43 Email :

Calendrier qualifications Loisirs et Trec

Système de question/réponse pour PIPS