Chapitre 3.3 Systèmes de questions-réponses1
Transcription
Chapitre 3.3 Systèmes de questions-réponses1
16 Systèmes de Questions Réponses Chapitre 3.3 Systèmes de questions-réponses1 Quis necavit equitem? 1.1. Introduction Qu’est-ce donc qui nous conduit à poser des questions à une machine et comment peut-on raisonnablement attendre d’elle que des réponses satisfaisantes nous soient apportées ? Encore heureux que ces machines ne prennent pas l’initiative et ne se mettent à poser des questions aux humains ! Non, pour l’instant c’est nous qui les mettons à l’épreuve de nos questions, et non l’inverse. À quoi cet exercice ressemble-t-il ? Comment faire pour évaluer le bon fonctionnement de ces interactions ? Ici, comme dans bien d’autres domaines, il semblerait que le stade de la meta-évaluation ait déjà été atteint, à la lecture du titre de certains articles parus sur ce sujet comme celui de [VOO 03] : « Evaluating the Evaluation …». À moins qu’il ne s’agisse, tout naturellement, de savoir si les critères retenus pour effectuer de telles évaluations, sont appropriés pour mesurer ce que l’on souhaite évaluer ! Un système de questions-réponses2 (QR) correspond, en général, à une chaîne de traitements rassemblant trois ou quatre composants plus ou moins indépendants les uns des autres : analyse des questions, recherche de documents textuels, recherche de passages, extraction des réponses. Chacun de ces composants mériterait d’être évalué de façon intrinsèque, or c’est leur assemblage qui est évalué dans sa globalité. Certaines étapes (pas toutes) peuvent faire l’objet d’un recours à des ressources capitalisant des connaissances sur la langue ou sur le monde environnant. Cela suffit-il pour nous autoriser à dire que sont mis en jeu des mécanismes de compréhension par l’ensemble de la chaîne ? Au moins une de ses parties (la recherche textuelle) échappe à cette logique car, généralement, elle repose sur des approches numériques, autant que faire se peut, indépendantes du domaine d’application et de la langue. Sans forcer le trait, on peut comparer le moteur de recherche traditionnel autour duquel est bâti un système de questions réponses à une épine dorsale à laquelle on a ajouté en amont un module d'analyse des questions et en aval des modules d'analyse des documents, aussi robustes que possible. Ces deux greffes sont destinées à établir un lien entre les questions et les passages pour pouvoir en extraire au mieux des réponses. À cette fin, sont exploitées toutes sortes de traits linguistiques, aussi bien de nature morphologique, syntaxique ou sémantique. Sont également employés des critères numériques, calqués sur ceux utilisés classiquement en recherche d'information. Même si le paradigme du changement prend de l’ampleur lorsqu’on change de siècle, et a fortiori de millénaire, cela ne suffit pas à expliquer pourquoi il est devenu indispensable à ce moment précis de concevoir une Nouvelle Génération de Recherche d’Information. [STR 00] s’appuyant sur l’analyse des campagnes TREC3 en matière de Recherche Documentaire (RD), montre que pour dépasser le plafond atteint par les moteurs de RD, une quasi révolution se révélait nécessaire. Les concepteurs des systèmes de questions-réponses ont pris le relais pour relever un défi de taille : produire des résultats à la hauteur des attentes fortes qui correspondent en la matière à des enjeux économiques majeurs. Ainsi, il s’est avéré que le problème devait être posé en d’autres termes pour que le couplage entre recherche et extraction d’information puisse porter ses fruits. Des 1. Chapitre rédigé par Marc EL-BÈZE, LIA - CNRS. 2. Soulignons que nous optons volontairement pour une forme plurielle. Pour ce qui est des réponses, il est clair que le pluriel s’impose. Comme pour la tâche de résumé automatique, où il est admis qu’il n’existe pas de résumé idéal, dans notre cas aussi, à une question donnée, ne peut être apportée une réponse idéale. L’inverse supposerait que le contexte de la question est suffisant pour déterminer l’unicité de LA réponse. Or ceci est rarement (pour ne pas dire jamais) le cas. Par ailleurs, les systèmes de questions-réponses sont censés traiter des lots de questions divers et variés. Étant doublement justifié, le pluriel devrait devenir la norme. 3 Text REtrieval Conference (pour plus d’explications sur TREC cf. section 1.4) Titre du chapitre en Times NR, corps 9 17 fonctionnalités nouvelles (encore assez embryonnaires dans les systèmes actuels de recherche d'information) devaient être envisagées : évaluation de l'existence de réponses à une question dans une base de textes et justification de ces réponses, synthèse de réponses multiples glanées dans un ou plusieurs documents, dialogue avec l’utilisateur pour l’aider à reformuler sa requête ou encore capacités de compréhension de texte allant4 de la résolution d’anaphores à la conciliation entre de multiples réponses éventuellement incompatibles. Tout en restant conscient des limites de l’analogie, on ne peut s’empêcher de comparer le fonctionnement global d’un système de QR aux mécanismes qui entrent en jeu dans la compréhension d’un texte lu, et de façon plus aiguë, lorsque le texte est un roman policier. S’il s’agit d’une construction classique5, l’auteur d’un roman policier s’ingénie à brouiller les pistes. Il introduit plus d’indices qu’il n’en faut, créant suffisamment de bruit pour pouvoir y dissimuler les fils qui mènent au coupable. Le lecteur se laisse d’autant plus prendre au jeu qu’il a entre les mains assez d’éléments (ce qui lui donne l’illusion de mener l’enquête) mais pas trop pour que le coupable ne soit pas découvert trop tôt avant l’épilogue. Dans ce cadre, le lecteur peut développer différentes stratégies. La première stratégie, que l’on peut qualifier de totalement passive, consiste à ne pas se poser de question, se laisser guider par le récit et attendre patiemment d’arriver à la découverte du coupable par sa révélation explicite à la fin de l’ouvrage. À l’opposé, un lecteur amateur de logique s’arrêtera à chaque indice nouveau pour réévaluer les différentes hypothèses. Éventuellement, il pourra reformuler le problème sous la forme d’un système d’équations dont les paramètres ont changé, ou s’appuyer sur certaines incohérences pour écarter telle ou telle piste et progresser, à l’instar d’un juge d’instruction, vers la seule solution qui s’impose. Entre les deux, bien entendu toutes sortes de comportements sont envisageables. Ainsi, pour pouvoir gérer un scénario complexe, on arrive vite à la conclusion qu’on tourne en rond si on se contente de répondre à la seule question qui est ouvertement posée. Si l’on veut progresser, il faut varier les angles de vue, et répondre à d’autres questions que l’on se doit parfois d’engendrer. Ainsi dans le roman intitulé Le tableau du maître flamand d'Arturo Perez-Reverte, la question centrale posée par une inscription cachée découverte lors de la rénovation d’un tableau (Quis necavit equitem ? Qui a tué le cavalier ?) en appelle d’autres : Pourquoi le peintre a-t-il ajouté cette mystérieuse sentence ? Pourquoi l'a-t-il recouverte ensuite ? Le chevalier dont il semble être question figure-t-il parmi les 4 Si on veut fixer la barre à un niveau ambitieux, on peut inclure, dans cet intervalle, le suivi de narrations ou l’analyse et la production d’argumentaires (cf. chap. A. Reboul). 5 Nous ne faisons pas référence ici aux romans policiers modernes, dans lesquels on a tendance à dévoiler d’emblée qui est coupable, le suspense reposant à présent sur d’autres motifs comme par exemple les capacités du coupable à être démasqué ou non. 18 Systèmes de Questions Réponses personnages de la toile ? Quelqu'un aurait-il intérêt à ce qu'un secret vieux de plus de 500 ans ne soit pas découvert ? Etc. Comparaison n’est pas raison, loin s’en faut. En tous les cas, si l’on fournit à des systèmes automatisés la globalité d’un roman policier (y compris la résolution des énigmes qui s’y trouvent), il est certain que ces automates, même les plus efficaces d’entre eux, ne seront pas capables d’apporter le moindre début de réponse à l’une ou l’autre de ces questions. Quitte à décevoir certaines des attentes pressantes auxquelles il a été fait allusion plus haut, il faut bien le reconnaître, les systèmes actuels ne savent pour l’instant découvrir en X l’assassin que s’il est clairement écrit quelque part : X est l’assassin. La seule preuve qu’on leur demande d’apporter est d’exhiber le passage où cela est dit. De ce fait, il n’est pas utile de recourir à quelque logique que ce soit. Toutefois, il ne suffit pas de retrouver une aiguille dans une meule de foin, encore faut-il que ce soit la bonne (celle qui est recherchée), et que les éléments environnants (le contexte) attestent que c’est bien elle qui est recherchée. 1.2. Architecture d’un système de questions-réponses En faisant abstraction des particularités des différents systèmes de QR existant actuellement, on peut, de façon générale, distinguer au moins quatre composants que l’on retrouve dans la plupart des cas. L’architecture générique schématisant le bâti de ces systèmes est représentée en figure 3.3.1. Questions Analyse questions Requête RD Recherche Documents Segmentation Segments Extraction de Réponses Type Questions Réponses Supports Figure 3.3.1. Les différents composants d’un système de QR Le premier des quatre composants est chargé de l’analyse des questions. Le second composant est en général un moteur de recherche documentaire classique. Titre du chapitre en Times NR, corps 9 19 On peut envisager de l’adapter, par exemple en injectant dans les données qu’il accepte en entrée, le type d’Entité Nommée (EN) attendue. Le troisième étage correspond aux traitements effectués sur les documents rapportés : étiquetage, découpage en segments, calcul à nouveau d’une similarité entre chacun de ces passages et la question. Enfin, le dernier composant est celui qui est chargé d’extraire un fragment, une bribe aussi compacte que possible, de lui assigner un score pour pouvoir comparer cette réponse éventuelle à d’autres hypothèses potentielles. Si, a priori, rien ne s’oppose à ce que des mécanismes de compréhension du langage interviennent à chacun de ces quatre niveaux, force est de constater, comme le fait [SPA 03], que la tâche de Recherche Documentaire (RD) entretient des relations plutôt faibles avec ce qui relève du traitement de la langue naturelle. Mais ce constat négatif ne pèse pas sur la globalité de tel ou tel système de QR du fait qu’il inclut toujours d’autres composants plus élaborés que celui qui est dédié à la seule RD. Dans les sections qui suivent, nous allons nous intéresser à ceux d’entre eux qui font le plus appel à des mécanismes qu’il est possible d’assimiler à de la compréhension automatique. 1.2.1. Questionner un texte : ce qui est en jeu Dans un de ses articles fameux [BEN 58], l’éminent linguiste qu’a été Émile Benveniste s’est interrogé sur les rapports qu’entretiennent les catégories de langue et de pensée. « Aristote pose ainsi la totalité des prédicats que l'on peut affirmer de l'être, et il vise à définir le statut logique de chacun d'eux. Or, il nous semble – (…) que ces distinctions sont d'abord des catégories de langue, et qu'en fait Aristote, raisonnant d'une manière absolue, retrouve simplement certaines des catégories fondamentales de la langue dans laquelle il pense » Pour Aristote, les catégories représentent tout ce qu’il est possible d’attribuer à un objet du monde, autrement dit un jeu de prédicats médiatisés par le langage. Ainsi, Aristote est amené à proposer un système à dix catégories (substance, quantité, qualité, lieu, temps, possession etc.), qui constituent à l’évidence un inventaire des prédications possibles dans sa langue. Pour Benveniste, ces catégories ne sont rien d’autres que le reflet parfait des questions qu’il est possible de se poser dans cette langue sur un objet ou un être donné. Le découpage de la pensée selon ce 20 Systèmes de Questions Réponses schéma catégoriel est mis en relation directe avec des classes de pronoms interrogatifs6. Dans le cadre des systèmes de QR, l’analyse des questions revient à trouver quel est le type de la question posée par un utilisateur, et ce sur quoi elle porte. Parallèlement, une étape d’annotation en catégories (les EN) aura été effectuée sur un nombre limité de documents, jugés proche de la requête issue de la question. Mettre en adéquation le type de la question et les EN repérées dans les textes, n’est pas étranger à la relation liant les catégories de langue et de pensée. Ce mécanisme joue un rôle déterminant dans la recherche d’éléments textuels de réponse à une question donnée. Un renversement de la procédure consisterait à détecter dans un texte les questions auxquelles le document est censé répondre. Cette vision inversée suppose toutefois que si l’on ne peut faire l’économie d’un agent important, l’utilisateur, il est indispensable de savoir simuler certains de ses comportements. 1.2.2. Analyse des questions Il est essentiel qu’une question soit analysée aussi finement que possible pour qu’une réponse correcte lui soit apportée. Bien que cela soit essentiel, il ne s’agit pas seulement de déterminer le type de la question qui est posée. Une fois le type de la question identifié, il convient de sélectionner dans le jeu d’EN, celle(s) dont il faudra ensuite rechercher les différentes occurrences dans les textes. Un calcul de collocations permettra, par exemple, de déterminer quels sont les termes qui composent la question. Par exemple, quand il est demandé (comme c’était le cas dans le jeu de TREC9) : Où Bill Gates a-t-il fait ses études supérieures ?, on arrivera plus facilement à répondre correctement Harvard, si on a identifié Bill et Gates comme formant un tout référant à une seule et même personne rarement dénommée autrement que « Bill Gates ». Dans ce cas, la question peut être vue comme une simple équation avec une inconnue et des paramètres. À un niveau supérieur, on peut imaginer de représenter des questions légèrement plus compliquées comme des équations à deux inconnues. Supposons que l’on ait à traiter à présent la question suivante : Quelle est la nationalité de la femme de Bill Gates ? Deux stratégies sont envisageables. Dans une optique de décomposition, on peut considérer qu’il faut passer par une question intermédiaire, à savoir comment s’appelle la femme de Bill Gates, et dans un second temps rechercher quelle est la nationalité de Melinda French avec la possibilité de tomber dans un piège lié à l’ambiguïté inhérente à la réponse. Une autre façon de faire consiste à rechercher un 6 Cette proposition a marqué de façon profonde et durable les Sciences humaines. Par exemple, l’ethnologie jusque dans les années 1980 était enseignée comme savoir décrire « qui fait quoi avec qui, où, quand et comment … » Titre du chapitre en Times NR, corps 9 21 bout de texte donnant directement la réponse sans même aller chercher, ici ou là, le nom de celle avec qui le fondateur de Microsoft s’est marié en 1994. Aussi étrange que cela puisse paraître, la première stratégie n’implique pas davantage de « compréhension » que la seconde dans les phases postérieures. Une analyse syntaxique de la question appropriée permet simplement de dédoubler l’appel des mêmes procédures que celles employées par la deuxième stratégie. Les questions sont en général assez courtes. Il ne faut rien négliger de ce point d’appui assez ténu, pour pouvoir exploiter au maximum l’ensemble des contenus qu’il véhicule. Comme toute production langagière, une question peut être ambiguë. S’il est demandé de citer les trois plus grandes villes d’un pays, qu’entend-on par grandes ? Les plus peuplées, ou celles qui occupent la plus grande surface au sol ? L’ambiguïté peut provenir d’un manque de précision dans le choix d’un qualificatif, ou plus généralement du fait que les termes de l’énoncé ne sont pas assez circonstanciés. Si l’interrogation porte sur la population d’une ville, à supposer que l’on veuille savoir combien de personnes habitent cette ville, (et pas le nom de ses habitants) il est indispensable parfois de préciser de quelle ville il s’agit (plusieurs villes pouvant porter le même nom). Par ailleurs, il n’est certainement pas inutile de clarifier si on s’intéresse à la seule population de la ville, ou plus largement à la communauté urbaine qui l’entoure. Enfin, on ne peut ignorer le fait que l’on va trouver dans les textes des réponses différentes selon la date où un recensement a été réalisé. Qui plus est, ces quantités seront exprimées avec un niveau de précision éminemment variable. Nous entrevoyons là une des limites des systèmes qui ne traitent que des questions isolées, alors qu’il faudrait entamer un véritable dialogue avec l’utilisateur pour délimiter plus précisément le contexte dans lequel s’inscrit chacune de ces questions. 1.2.3. Recours à des Bases de Connaissances Pour un pourcentage de questions, si faible soit-il, il est possible de recourir à des Bases de Connaissances (BC). On peut inclure dans ce lot les questions les plus fréquentes, pour lesquelles a été archivée une liste de réponses associées. Pour l’ensemble de ces questions, la chaîne de traitement se trouve simplifiée. Nul besoin de passer par le biais des EN. Il suffit de faire une recherche sur le texte non annoté du fragment où se trouvent rassemblés de la façon la plus ramassée, dense ou compacte, les termes de la question et une des formes de la réponse attendue. Bien entendu, un simple calcul de compacité aura comme résultat de positionner en tête des hypothèses, si elle existe, une fenêtre centrée autour de la réponse et contenant tous les mots de la question et rien qu’eux. Toutefois, l’ordre des mots n’aura pas été pris en compte, et si par un simple rejet des mots vides, les adverbes de négation ont été rejetés, on risque d’aboutir à de véritables contresens en faisant dire à un bout de texte le contraire de ce qu’il signifie. Nous indiquerons un peu plus loin, dans la 22 Systèmes de Questions Réponses section consacrée aux questions booléennes, quelques propositions pour résoudre cette difficulté. Il convient néanmoins de dire qu’il faudrait, dans le cas de questions factuelles7, un mauvais concours de circonstances, pour que la base de connaissances soit erronée et que le contenu du texte soit interprété à l’opposé de ce qu’il signifie. La représentation du monde que l’on peut coder au travers d’une base de connaissances est un ensemble de relations instanciées de façon assez schématique au détriment de toutes les finesses et nuances que la langue permet d’introduire quand cette relation est exprimée dans un texte par le biais d’une langue naturelle. L’objectif assigné aux systèmes de QR est de retrouver dans un texte une expression de cette relation. Or l’architecture des systèmes développés actuellement montre une certaine inadéquation du second composant, celui qui est en charge de la phase de recherche documentaire. Une vision plus appropriée de cette étape consisterait à introduire dans l’étape préalable d’indexation des documents, des éléments susceptibles de mieux cadrer avec l’objectif global. Les textes pourraient être vus au travers d’un prisme particulier : quelles sont les questions auxquelles ils sont censés répondre ? Une telle orientation permettrait de déboucher sur deux phases de prétraitement des collections de textes : indexation de ces textes avec un jeu de questions qui ne sont rien d’autres que les relations entretenues entre des entités nommées, et au-delà une extraction automatique de Bases de Connaissance à partir de textes. 1.3. Le cas particulier des questions booléennes Dans le cadre de notre interrogation sur les capacités d’un système de QR à parvenir à la compréhension de ce qui est dit dans un texte, il nous a paru intéressant d’accorder une mention spéciale au cas particulier des questions booléennes. En effet, nous allons voir en quoi ces questions se distinguent des autres, quant à leur nature, leur traitement et leur évaluation. Remarquons au passage, que le projet EQueR [AYA 05] a fait œuvre d’innovation en intégrant ce type de questions dans la campagne d’évaluation 2004. Le rapport précité mentionne que la présence de ces questions a été vivement appréciée par les participants. Nous nous proposons d’analyser ici les raisons de cet intérêt d’un point de vue scientifique. 7 Les questions factuelles sont analogues à celles que l’on trouve majoritairement dans le jeu de société Trivial Pursuit. Par exemple : When was Shakespeare born ? When was John Fitzerald Kennedy assassinated ? Who made the film "Jurassic Park" ? In what team does Michael Jordan play ? Titre du chapitre en Times NR, corps 9 23 1.3.1. Originalité des questions booléennes Prenons en exemple une question booléenne simple : Le chanteur Jim Morisson est-il enterré au Père Lachaise ? Pour éviter tout risque de confusion pouvant découler des qualificatifs8 accolés à ce type de question, il est important de préciser que la réponse attendue ne prend pas ses valeurs dans l’ensemble {vrai, faux}, mais plutôt dans l’ensemble {oui, non}. Comme pour les autres questions9, on n’est pas à la recherche d’une vérité absolue. Dans le cas présent, il ne s’agit pas de savoir s’il est vrai que telle jeune star des années 1970 est bel et bien morte et enterrée en tel ou tel endroit. Le but est de trouver un extrait de texte permettant de valider ou d’invalider une affirmation. L’architecture du système présentée en figure 3.3.1 n’est probablement pas la plus à même de traiter, telle quelle, une question de ce type. Certes, on peut effectuer une partie de l’analyse de la question comme s’il s’agissait de n’importe quelle autre question. Par exemple, une recherche de collocations ou la consultation de listes prédéfinies permettra de considérer Jim_Morisson et Père_Lachaise comme des termes à part entière. En revanche, le processus qui est chargé de typer la question risque d’être pris en défaut. Et surtout, la phase d’extraction de la question qui consiste en général à rechercher une EN attendue, eu égard au type de la question, risque de n’aboutir nulle part. Quelle EN rechercher dans les segments ? Bien plus, à supposer que l’on connaisse la réponse, qu’elle soit oui ou non, aucun de ces deux termes n’apparaîtra probablement dans le support que le système devra fournir pour étayer sa décision finale. 1.3.2. Feu roulant de questions dérivées Pour pouvoir nous ramener au cas de figure classique, il suffit de produire l’ensemble des questions sous-jacentes à une question booléenne. Ainsi, en masquant tour à tour, chacun des mots pleins de la question booléenne, on est à même d’engendrer l’ensemble des questions factuelles suivant : 1. Quel est le métier de Jim Morisson (enterré au Père Lachaise) ? 2. Citer le nom d’un chanteur enterré au Père Lachaise. 3. Dans quel cimetière est enterré le chanteur Jim Morisson ? 8 Qu’on les appelle questions booléennes ou binaires, ne change rien à l’affaire. En effet, les campagnes d’évaluation posent un certain nombre de contraintes variables d’une année à l’autre. Mais s’il y a une règle que l’on retrouve de façon systématique, c’est bien la nécessité de produire un support à la réponse. Aussi une question posée comme « Quelle est la capitale de la Grande Kabylie ? » doit être comprise comme : Nommer cette ville (Tizi-Ouzou en l’occurrence) s’il se trouve un passage disant quelle est la capitale de cette région de l’Algérie, et exhiber ce passage ou tout au moins le document qui le contient. 9 24 Systèmes de Questions Réponses 4. Quel est le lien entre le Père Lachaise et le chanteur Jim Morisson ? Ce procédé est souvent utilisé, de façon parfois artificielle, par les auteurs de romans policiers, pour suggérer, avec plus ou moins de réussite, au lecteur, qu’il se trouve à un moment crucial de l’enquête. On lui donne par la même occasion, quelques indications pour pouvoir faire progresser l’enquête, (cf. l’exemple que nous donnions en fin d’introduction de ce chapitre). Il est à noter que, pour engendrer automatiquement les questions figurant dans la liste ci-dessus, il n’est pas nécessaire de posséder un système de synthèse élaboré car ces questions sous-jacentes ne sont pas destinées à être lues. Le style importe peu, on souhaite tout simplement alimenter un système de QR classique, dans l’intention de tester si une hypothèse de réponse (l’élément retiré) peut constituer une réponse valide. Toutefois, si on examine de près la formulation de la première question, on peut remarquer qu’elle ne peut être engendrée sans que le système sache que chanteur est une profession. Un raisonnement analogue nous amènerait à constater que la production de la troisième question suppose que le système sache faire l’adéquation entre le Père Lachaise et un cimetière, ce qui ne va pas de soi. Dans ce cas précis, une formulation plus simple peut être envisagée : Où est enterré le chanteur Jim Morisson ? 1.3.3. Traitement des questions sous-jacentes Il suffit à présent de dérouler une procédure simple. Supposons que l’affirmation suivante soit exacte : Le chanteur Jim Morisson est enterré au Père Lachaise. On se trouve à présent dans un cas identique à celui qu’on est amené à traiter quand on emploie une BC. Pour chacune des questions dérivées, on connaît la réponse : elle est contenue dans la question d’origine. Pas besoin de relancer à chaque fois l’étape de recherche documentaire. Comme cela a été déjà mentionné en section 1.2.3, nul besoin d’avoir étiqueté le texte en termes d’EN. Méthode symbolique ou numérique ? Peu importe le choix, chacun optera pour la méthode qui lui semble la plus appropriée pour identifier le meilleur segment textuel s et y localiser le site informatif adéquat. Ce qui nous intéresse ici, c’est qu’il reste enfin et surtout à répondre à la question q par oui ou par non. À cette fin, nous allons montrer, dans la section suivante, comment cet aspect peut être traité par des calculs de polarité et de parité. Titre du chapitre en Times NR, corps 9 25 1.3.4. Polarité et parité Il est rare que les termes d’une question apparaissent tels quels dans les différents segments textuels. Au-delà des moyens mis en œuvre pour faire face aux difficultés provenant des variations morphologiques, on a tout intérêt à déployer des moyens supplémentaires, comme recourir à des lexiques sémantiques (par ex. WordNet [FEL 98]), pour tenir compte d’un certain nombre de phénomènes liés à des relations linguistiques telles que la synonymie et l’antonymie. Dans la comparaison qui est faite entre la question q et le segment s, il ne suffit pas de faire le décompte des mots en commun, même si ce calcul intègre la notion de compacité. Il faut de toute évidence recourir à des listes de termes équivalents ou opposés, pour arriver à rapprocher les phrases suivantes : GB365 : Est-ce que Lounès a gagné son procès contre Ferhat Méhenni ? S1 : Lounès a perdu son procès contre Ferhat Méhenni. S2 : Lounès n’a pas gagné la procédure qui l’opposait à Ferhat Méhenni. Pour peu que l’on dispose d’une ressource lexicale appropriée, il n’est pas très difficile de coder ces équivalences et ces oppositions sous la forme d’expressions régulières, comme on peut le voir avec les quelques exemples donnés ci-après : • / refus/ versus / accept/ • / (pertes?|perdre)/ versus / (gain|gagn)/ • / (interdi|prohib|(pas permi))/ versus / (autoris|perm)/ Bien entendu, il faudra tenir un décompte précis des inversions de polarité dues à la présence de contraires. Il en va de même des négations qui influent sur le sens global par le jeu d’inversion. Ainsi puisque les négations doubles s’annulent, il convient de faire également un calcul de parité, afin de pouvoir finalement décider si s et q sont en phase ou en opposition de phase. Ces opérations sont délicates, et il faut contourner quelques pièges pour ne pas commettre d’erreur. Par exemple, la préposition sans correspond à une inversion de polarité qui doit être prise en compte dans le calcul de parité. Sa cooccurrence avec non, aboutit à une parité nulle. Mais, le redoublement de l’emploi de sans ne peut être traité de la même façon que non sans, comme le montre la question : Q GB364 : A-t-on prévenu l'artiste Guiffrey de la démolition de son œuvre place Besagne à Toulon ? Question à laquelle il convient de répondre par la négative, si l’on s’appuie sur le segment suivant : S3 : le maire de Toulon … vient en effet de faire raser au bulldozer la fontaine monumentale du plasticien René Guiffrey, sans prévenir l'artiste, sans prévenir le ministère de la culture. 26 Systèmes de Questions Réponses On peut ranger ce redoublement de sans dans une catégorie « liste de rejets », qui inclut également les constructions du type ni … ni. Si ce piège est assez facile à éviter, il en va autrement de phénomènes plus complexes, mettant en œuvre des mécanismes tels la dénégation, jouant dans un registre sémantique à prendre au propre ou figuré, comme c’est le cas du segment S4 retrouvé lors du traitement de la question concernant Jim Morisson : S4 : Huit mille visiteurs vont, en effet, se recueillir sur sa tombe parisienne, au Père-Lachaise, tous les jours depuis 1971. On se demande bien pourquoi, puisqu’il est toujours vivant. 1.3.5. Comment gérer deux difficultés : l’incomplétude et la contradiction Que faire si l’intégralité des mots pleins d’une question booléenne ne se retrouve pas dans l’un ou l’autre des syntagmes que contient la collection de textes ? Il serait risqué d’en déduire que la réponse, de ce fait, est forcément négative. Une troisième modalité doit être envisagée, que l’on peut matérialiser par trois lettres NIL auxquelles est accordé le sens suivant : il n’y a pas de bribe dans la base de texte qui permette d’apporter une réponse à la question posée. Quand une question comporte des noms de personne (prénom et nom de famille), comme c’est le cas de l’exemple GB365 donné plus haut, on peut trouver un document contenant une réponse sans pour autant décliner l’identité complète des deux protagonistes. À ce propos, notons qu’il y avait une dissymétrie dans l’énoncé même de la question. On peut également trouver des paraphrases qui impliquent des expressions de la réponse employant des variantes morphologiques que le système n’a pas su normaliser et ramener à une forme canonique. À l’opposé, une autre difficulté survient si l’on trouve au moins deux segments donnant des informations contradictoires. En consultant une source, en l’occurrence le journal Le Monde, qualifié à tort ou à raison, de quotidien de référence, on est confronté à ce cas de figure lorsqu’on tente de répondre à la question GB365 énoncée en section précédente : S5 : <LEMONDE97-41520> DIFFAMATION : Lounès Matoub a perdu en appel son procès contre Ferhat Méhenni. S6 : < LEMONDE97-43785> Contrairement à ce qui était indiqué dans nos éditions du 13 septembre, le chanteur algérien Lounès Matoub a gagné, jeudi 11 septembre, en appel, son procès contre Ferhat Mhenni, ancien président du Mouvement culturel berbère (MCB). Le Monde prie M. Matoub d'accepter ses excuses. Titre du chapitre en Times NR, corps 9 27 Que faire dans ce cas ? Si les segments proviennent de deux sources différentes, il est possible d’associer à l’un et l’autre un score reflétant la crédibilité accordée à chacune de ces sources. Éventuellement, on peut prendre en considération d’autres critères, comme par exemple, la réponse la plus fréquente, ou la plus récente. Toutefois, ces deux critères ne conduisent pas forcément à une prise de décision en accord avec le contenu de l’information traitée. Dans les médias, de nombreuses pratiques recouvrent mal la notion de fréquence : par exemple, un démenti, de façon générale, est moins répété que l’objet qui a motivé son énoncé. Quant au second critère, il semble convenir pour traiter le problème posé par les segments S5 et S6, mais il est clair que S6 « efface » S5 plus en raison de son contenu que de sa publication postérieure. Cet exemple illustre bien le chemin qu’il reste à accomplir pour analyser et comprendre (à un niveau méta) ce que dit S6 assez explicitement : « l’information donnée par S5 est fausse ». Pour être convaincu des limites d'une préférence donnée au plus récent, il suffit d’imaginer un segment S7 publié dans un tiers temps pour indiquer de façon elliptique que finalement S5 était correct. En attendant de savoir comment effectuer automatiquement de telles analyses, on n’a pas d’autre choix que de laisser les robots extraire les énoncés dans leur diversité et inviter l’utilisateur à résoudre les contradictions qu’ils contiennent. 1.4. Évaluation des systèmes de Questions-Réponses Il a été envisagé de construire des systèmes de QR dès l’apparition d’une activité en traitement automatique des langues naturelles. Pour se faire une petite idée de ce que de tels systèmes ont pu représenter dans l’imaginaire, on lira avec intérêt [SIM 65]. Dès les années 60, sont conçus essentiellement des systèmes faits pour interroger des Bases de Données en langue naturelle. L’objectif de construire un robot omniscient étant hors d’atteinte, les chercheurs des trois décennies concentrent leurs efforts pour développer des systèmes capables de répondre à des questions pointues dans un domaine de spécialité sportif, informatique ou … lunaire. Principalement, c’est l’introduction en 1999 d’une piste QR spécifique dans les campagnes TREC, qui va consacrer le double tournant pris par ce qui est présenté comme un nouveau domaine. La conférence TREC, sponsorisée à la fois par NIST (National Institute of Standards and Technology) et le Ministère américain de la défense, existe depuis 1992. Comme indiqué dans [VOO 02], les campagnes d’évaluation organisées dans ce cadre joue un rôle fondamental car elles permettent de forger une communauté, favoriser les transferts technologiques et faire avancer l’état de l’art. Depuis TREC-8, qui a eu lieu en 1999, l’évaluation des systèmes de QR a été reconduite chaque année de façon répétitive à quelques variantes près10 sur 28 Systèmes de Questions Réponses le nombre de questions posées (entre 200 et 700), la taille de la réponse, le nombre de réponses autorisées (entre 1 et 5), la taille de la collection de documents mise à disposition des participants. Il faut citer également l’existence de campagnes d’évaluation organisées depuis 2003 pour d’autres langues que l’anglais, comme NTCIR pour le japonais, CLEF pour les langues européennes, et plus récemment EQueR 2004 pour le français. Cette dernière a déjà été évoquée dans les sections précédentes. 1.4.1. Ce sur quoi peut porter l’évaluation d’un système de QR Comme il n’existe pas une seule façon de répondre en langue naturelle à une question posée en langue naturelle, la pratique de l’évaluation n’est pas quelque chose qui va de soi. De façon idéale, on devrait être capable de juger si la réponse apportée est juste, concise, complète, appropriée (en fonction d’un contexte particulier), rapide, détaillée, approfondie, étayée. Par ailleurs, il est clair qu’une évaluation portant sur une batterie de questions permettra de juger l’étendue des capacités des systèmes. Pour avoir un point de vue global, il est attendu de savoir comment agréger les performances obtenues dans les différentes dimensions évoquées ci-dessus, au travers de l’ensemble des questions posées. Lors de la campagne, TREC 11, une dimension supplémentaire a été introduite dans l’évaluation. Il était demandé aux participants de faire en sorte que leurs systèmes soient capables de mesurer la confiance qu’ils pouvaient accorder aux réponses données. Nous donnerons en section suivante, la formule qui a été utilisée pour évaluer cette capacité de porter un jugement sur soi-même, et nous dirons pourquoi cette approche a été (pour le moment ?) abandonnée. Analyse des Réponses par des juges humains Figure 3.3.2. Évaluation des systèmes de QR. 10 Un descriptif schématique des différentes campagnes TREC est donné en annexe du présent chapitre, pour un récapitulatif plus complet on se reportera à [GRA 04]. Mis en forme : Police :8 pt Titre du chapitre en Times NR, corps 9 29 Une des retombées fort appréciables des campagnes d’évaluation réside dans la constitution de données de référence. Celles-ci se révèlent fort utiles pour comparer différentes approches. Il y a toutefois un problème dans la manière dont ces références sont établies. En effet, étant donné la taille11 des collections de documents, il n’est pas possible de constituer ces références avant que la campagne ne se déroule. Les réponses des différents systèmes participants sont soumises à des juges qui décident a posteriori de la validité ou non de la réponse. Le schéma représenté en figure 3.3.2 montre que la production des références dépend des réponses apportées par les systèmes. De ce fait, elles présentent forcément des lacunes, notamment du point de vue de l’exhaustivité des supports12. Si, après la campagne, on veut évaluer un système qui n’a pas concouru il se peut que ce système donne des réponses correctes ne figurant pas dans les références établies par les évaluateurs. Ces réponses, confrontées aux références incomplètes, seront considérées (à tort) comme fausses. Il y a là un risque de sous estimation13 qu’il est bon de souligner. 1.4.2. Mesure stable La mesure qui est le plus largement adoptée est la Moyenne des Rangs Réciproques, que nous appellerons ici MIR pour Moyenne de l’Inverse du Rang14. Cette moyenne est définie de la façon suivante : MIR = Nq 1 1 × ∑q=1 Nq Rq [3.3.1] avec Nq, le nombre de questions et Rq le rang auquel le système a classé la réponse attendue pour la question q. Comme le nombre de réponse que le système peut donner pour une question est limité à un seuil donné ρ, il faut préciser ce qui est fait si jamais la réponse ne se trouve pas dans les ρ réponses. En général, ρ vaut 5. Aux questions pour lesquelles la réponse attendue fait totalement défaut, correspond un terme nul dans la sommation de la formule 3.3.1. 11 Quelques Gigaoctets de textes. Pointeurs vers les documents étayant (supportant) les réponses. Cette limite s’applique également en cas d’utilisation de ces données de référence pour réévaluer, quelque temps après la campagne, un système ayant concouru et évolué depuis. 14 Pour cette mesure que nous avons choisi d’appeler MIR, la dénomination couramment employée dans la littérature anglo-saxonne est MRR pour Mean Reciprocal Rank. 30 Systèmes de Questions Réponses 1.4.3. Évaluation des Questions Booléennes Pour le cas particulier des Questions Booléennes, une seule réponse était autorisée dans le cadre de la campagne d’évaluation EQueR. De ce fait, la formule 3.3.1 devient : MIR = Nq 1 × ∑q=1 Bq Nq [3.3.2] avec Nq, le nombre de questions et Bq valant 1 en cas de réponse correcte et supportée15, 0 dans le cas contraire. Ainsi, il n’est pas possible de développer des stratégies biaisant l’évaluation, par exemple en alternant oui et non sur des rangs pairs et impairs ayant un même support textuel, et permettant d’assurer ainsi un minimum d’un demi point si tant est que le support soit correct. Cette formule n’est pas qu’un cas particulier de la formule 3.3.1 avec ρ =1, elle est aussi plus sévère parce que la réponse est très courte (oui ou non), et ne doit pas être justifiée par un document mais par un passage de taille limitée. Dans le cadre d’EQuer 2004, l’ensemble des 500 questions portant sur le corpus général comportait 30 questions booléennes. Parmi les 200 questions portant sur le corpus médical, il y en avait 24. 1.4.4. Score de Confiance Pondérée En 2002, et seulement pour une année, une nouvelle mesure a été introduite dans le cadre de la campagne TREC-11, pour pouvoir évaluer la capacité des systèmes à estimer correctement la confiance qu’ils accordaient aux réponses données. Nous appelons cette mesure Score de Confiance Pondérée16 (SCP). SCP = Nq c 1 × ∑q=1 q Nq q [3.3.3] Nq est le nombre de questions ordonnées par le système en mettant en tête celle pour laquelle la confiance d’avoir fourni une réponse correcte est maximale, et en queue celle pour laquelle elle est minimale. cq est le nombre de réponses correctes du premier rang jusqu’au rang q. L’examen des résultats obtenus par les dix meilleurs systèmes ayant participé à TREC-11, fait apparaître que la valeur de SCP est toujours supérieure au pourcentage de réponses correct. Seulement, pour deux de 12 13 15 Rappelons que par réponse supportée, il faut entendre réponse accompagnée d’un pointeur vers un document (le support) justifiant cette réponse. 16 Pour cette mesure que nous avons choisi d’appeler SCP, la dénomination couramment employée dans la littérature anglo-saxonne est CWS pour Confidence Weighted Score. Titre du chapitre en Times NR, corps 9 31 ces systèmes, il y a interversion d’ordre entre le classement induit par l’un ou l’autre des deux critères. La mesure SCP a été abandonnée dans le cadre de TREC, car il a été observé [VOO 02] que de légers réajustements du jugement des assesseurs entraînaient une instabilité dans le classement des participants, du fait que les modifications pouvaient porter sur des questions classées en tête par certains des systèmes, et en queue par d’autres. Nous avons jugé bon néanmoins de citer cette mesure, car elle repose sur une idée intéressante. Dans les campagnes CLEF, il est toujours demandé aux participants de fournir une valeur de la confiance accordée à chaque réponse. Ceci a pour but d’étudier le niveau de corrélation entre ces estimations et l’exactitude des réponses 1.4.5. TREC 2004 : un nouveau tournant Lors de la treizième édition de TREC, en 2004, a été pris un nouveau tournant amorcé l’année précédente. Les questions ne sont plus isolées mais regroupées dans 65 séries. Les questions sont de trois types : questions factuelles (F), questions de listes (L), autres questions (O). 22 Franz Kafka 22.1 F Where was Franz Kafka born? 22.2 F When was he born? 22.3 F What is his ethnic background? 22.4 L What books did he author? 22.5 O Other Comme le montre l’exemple donné ci-dessus, les questions qui appartiennent à une même série ne sont pas indépendantes l’une de l’autre. Le jeu global compte 230 questions factuelles (F), 50 questions de liste (L) et 65 autres (O, une par série) que l’on peut assimiler à des questions informatives. Par exemple, pour la question 22.5 il est attendu de rapporter que Kafka, souffrait de tuberculose, qu’il est mort jeune (à l’âge de 40 ans), qu’une place à Prague porte son nom, etc. Pour évaluer les questions factuelles, un simple pourcentage de questions correctes est calculé, et pour les autres questions, est effectué un calcul de F-score, tenant compte à la fois du rappel (R) et de la précision (P). FS = (1 + β ) × P × R 1.4.6. Discussion Il est légitime de se demander à quel point les métriques utilisées à des fins d’évaluation sont naturelles. Dans la réflexion que nous menons, ce questionnement peut revêtir plusieurs formes. Si l’on souhaite savoir à quel point un calcul de Fscore (cf. formule 3.3.4) permet de mesurer le niveau de compréhension des textes traités par un système, on peut se dire que c’est la tâche QR qui est en cause plus que la métrique utilisée. Notons au passage que la tâche telle qu’elle est définie dans les campagnes d’évaluation des systèmes de QR s’apparente d’assez près à un commentaire de textes dirigé par des questions17. Dans cette optique, c’est le choix des questions dans leur diversité qui devient déterminant pour juger différentes capacités des systèmes comme celles d’analyse, ou de synthèse. On peut également se demander si les méthodes d’évaluation sont justes et impartiales. Comme il est fait appel à des humains (juges ou assesseurs) pour déterminer ce que sont les références, il est difficile de les qualifier d’objectives. Certes, chaque réponse est évaluée par plusieurs juges et un coefficient d’accord inter juges permet d’estimer l’homogénéité des jugements portés. Néanmoins, nous tenons à rappeler ici une limite que nous avons signalée en section 1.4.1. La constitution des références dépend en partie des réponses données par les systèmes évalués. Le manque d’exhaustivité défavorise tout système n’ayant pas été pris en compte dans le processus d’élaboration des références. Enfin, il est évident que le protocole expérimental actuel ne permet pas de mesurer la qualité des raisonnements logiques (s’ils existent) qui ont conduit un système à choisir telle ou telle réponse parmi plusieurs hypothèses. En eftet, il n’est pas demandé aux systèmes de faire état de la démarche empruntée pour aboutir à une réponse. Aussi, les critères n’ont pas été choisis en raison de leur aptitude à évaluer la faculté des systèmes à suivre ou produire un argumentaire, élaborer des raisonnements selon une logique plus ou moins fine, et de ce fait, ils peuvent paraître superficiels. Toutefois, l’exigence de fournir, en plus des réponses exactes, des pointeurs vers des documents ou des passages les justifiant donne un avantage certain aux systèmes ayant de telles capacités. 1.5. Perspectives 2 β2 ×P + R 32 Systèmes de Questions Réponses [3.3.4] Le paramètre β permet de régler l’importance accordée à P par rapport à R. Si β = 1, on se ramène à une moyenne harmonique. Le score global s’obtient en effectuant une combinaison linéaire entre les scores obtenus sur les trois types de questions. Dans le prolongement des lignes directrices esquissées par un groupe de réflexion [BUR 01], l’objectif du projet Aquaint18 n’était pas de développer un 17 Cet éclairage nous permet de voir le critère SCP (ou les alternatives proposées par CLEF) comme la mesure d’une capacité à l’auto-évaluation. http://www.ic-arda.org/InfoExploit/aquaint/ http://www.ai.sri.com/aquaint/ 18 Titre du chapitre en Times NR, corps 9 33 34 Systèmes de Questions Réponses système de questions réponses pour un jeu de questions factuelles, indépendantes les unes des autres, pour lesquelles la réponse peut être trouvée dans un seul document, ou à l’intérieur d’une chaîne unique, par exemple une fenêtre de taille limitée 50 (50 ou 250 caractères). Le plan était d’envisager un scénario élaboré tel qu’il soit possible de traiter un jeu de questions posées par un spécialiste sur un sujet pointu et entretenant des relations les unes avec les autres. On peut constater que le tournant pris en 2004 par TREC correspond à un tel objectif. 1.7. Bibliographie Cette vision élargie du problème a un impact sur les différents composants des systèmes de QR que l’on peut considérer comme appartenant à une première génération. La situation de communication envisagée se rapproche de celle d’un dialogue permettant de mieux définir le contexte. Il est important d’en tenir compte pour mieux comprendre le sens de chacune des questions. À l’autre bout de la chaîne, les éléments des réponses pouvant se trouver disséminés dans plusieurs fragments de textes, voire dans plusieurs textes, potentiellement dans des langues différentes, il devient indispensable de faire une synthèse des extraits qui peuvent soit converger soit diverger. Après avoir résolu les éventuels conflits, il convient de formuler une synthèse de la réponse. Une étape de génération vient donc s’ajouter au simple processus d’extraction qui était jusqu’à présent effectué. Afin de pouvoir relier ces deux extrémités, on ne se demande plus si on a le droit d’utiliser ou non des Bases de Données, mais comment les utiliser au mieux et surtout comment combiner les Connaissances qui s’y trouvent avec celles qui sont dérivées des textes. Cela suppose une représentation adéquate de concepts et surtout la capacité de les manier pour pouvoir enchaîner des raisonnements allant bien au-delà des mécanismes aussi simples que ceux décrits plus haut dans la section consacrée aux questions booléennes. [BUR 01] BURGER J., CARDIE C., CHAUDHRI V., GAIZAUSKAS R., HARABAGIU S., ISRAEL, D. JACQUEMIN C., LIN C.-Y., MAIORANO S., MILLER G., MOLDOVAN D., OGDEN B., PRAGER J., RILOFF E., SINGHAL A., SHRIHARI R., STRZALKOWSKI T., VOORHEES E., WEISHEDEL R., « Issues, Tasks and Program Structures to Roadmap Research in Question & Answering (Q&A) » http://www-nlpir.nist.gov/projects/duc/papers/qa.Roadmap-paper_v2.doc, 2001. 1.6. Conclusion Nous avons examiné, dans ce chapitre, le fonctionnement des systèmes de QR en nous demandant en quoi ils mettaient en œuvre des mécanismes de compréhension des textes. Par ailleurs, nous nous sommes demandé comment ces systèmes étaient évalués. Dans l’articulation qui existe entre ces deux angles de vue, nous avons accordé une importance particulière aux questions booléennes introduites en 2004 dans le cadre de la campagne d’évaluation EQueR. Ces questions se distinguent des autres car elles demandent en plus des traitements effectués de façon classique par les systèmes de QR de gérer les problèmes spécifiques posés par les antonymes et les adverbes de négation. Enfin, nous avons vu que les perspectives ambitieuses fixées par un groupe de réflexion commençaient à déboucher sur des réalités assez élaborées. Nous sommes peut-être à la veille de voir une machine répondre aux questions complexes qui découlent d’une inscription latine : Quis necavit equitem ? [AYA 05] AYACHE C., CHOUKRI K., GRAU B., « Campagne EVALDA / EQueR Evaluation en Question-Réponse », http://www.technolangue.net/IMG/pdf/rapport_EQueR_1.2.pdf, 2005. [BEN 58] BENVENISTE, É., « Catégories de pensée et catégories de langue », Les Études philosophiques, Paris, P.U.F. 4, 1958. Repris dans Problèmes de linguistique générale, Paris, Gallimard, p. 63-74, 1966. [FEL 98] FELLBAUM, C., « WordNet : An Electronic Lexical Database ». Mit Press, Cambridge, MA, 1998. [FER 01] FERRET, O., GRAU, B., HURAULT-PLANTET, M., ILLOUZ, G., MONCEAUX, L., ROBBA, I., VILNAT, A., « Finding an answer based on the recognition of the question focus ». In Proceedings of Text REtrieval Conference, Gaithersburg, USA, 2001. [GRA 04] GRAU, B., « L'évaluation des systèmes de question-réponse ». In L'évaluation des systèmes de traitement de l'information, publié par Stéphane CHAUDIRON, Hermès, 2004. [LAV 02] LAVENUS K., LAPALME G., « Évaluation des systèmes de question réponse, Aspects méthodologiques », In Traitement Automatique des Langues, Vol.43, N°3/2002, p. 181-208, 2002. [LEH 77] LEHNERT,W. « Human and computational question answering ». Cognitive Science, 1, p. 47–63, 1977. [LEH 79] LEHNERT, W., The process of question-answering, Lawrence Erlbaum Associates, 1979. [MON 94] MONCEAUX L., « Adaptation du niveau d'analyse des interventions dans un dialogue - Application à un système de question-réponse », Thèse en Informatique, soutenue le 13 décembre 2002 au LIMSI-CNRS (Université Paris XI, Orsay). [SOU 01] SOUBBOTIN, M. M., SOUBBOTIN, S. M., « Patterns of potential answer expressions as clues to the right answers ». In Proceedings of TREC, p. 175–182, 2001. [SIM 65] SIMMONS, R.F., « Answering English Questions by Computer: A survey ». Communication of the ACM. 8, 1, p. 53-70, 1965. [SPA 03] KAREN SPARCK JONES, « Is question answering a rational task? Questions and Answers: Theoretical and Applied Perspectives ». Ed. R. Barnardi and M. Moortgat, Utrecht Institute of Linguistics, p. 24-35, 2003. [STR 00] STRZALKOWSKI T., « Towards the Next Generation Information Retrieval », in Proceedings of the RIAO-2000, 6th International Conference on Intelligent Multimedia, Information Retrieval Systems and Management, Paris, April, 2000. Mis en forme : Anglais (Royaume-Uni) Titre du chapitre en Times NR, corps 9 35 [SWA 88] SWANSON, D.R., « Historical note: information retrieval and the future of an illusion ». Journal of the American Society for Information Science. 39, 2, p. 92-98, 1988. [VOO 03] VOORHEES E.M., « Evaluating the Evaluation: A Case Study Using the TREC 2002 Question Answering Track », Edmonton, Proceedings of HLT-NAACL, p. 181-188, maijuin 2003. 1.8. Annexe 1999, TREC-8 : 200 questions, formulées à partir du corpus ; rapporter jusque 5 réponses (réponse, docid) ; réponse sur 50 ou 250 octets ; mesure MIR. 2000, TREC-9 : 693 questions issues des logs de moteurs de recherche ; rapporter jusque 5 réponses, (réponse, docid) ; réponse sur 50 ou 250 octets ; mesure MIR. 2001, TREC-10 : 500 questions issues des logs de moteurs de recherche; rapporter 1 seule réponse, (réponse, docid) ; réponses sur 50 octets uniquement ; 25% des questions étaient des questions définitoires. 2002, TREC-11 : 500 questions issues des logs de moteurs de recherche ; pour chaque question, rapporter 1 seule réponse (réponse exacte, docid) ; les réponses devaient être ordonnées par confiance décroissante ; métrique SCP. 2003, TREC-12 : environ 400 questions factuelles (issues des logs de moteurs de recherche) réponses exactes requises ; métrique : % correctes ; environ 50 questions définitoires : des éléments informatifs clefs sur des concepts, des personnes, des organisations ; environ 50 questions de listes : listes de réponses exactes requises. 2004, TREC-13 : 65 séries de questions. 230 questions factuelles (pour chaque série, nombre indéteminé) ; métrique : % réponses exactes ; 65 questions autres (une par série) : des éléments informatifs clefs sur le thème de la série ; 56 questions de listes (0 à 2 par série) ; métrique F_score sur les réponses exactes.