Évaluation des systèmes de recherche d`information
Transcription
Évaluation des systèmes de recherche d`information
Évaluation des systèmes de recherche d’information Michel Beigbeder [email protected] 23 octobre 2006 – Typeset by FoilTEX – Modèle de RI txt d1 ps d2 pdf d3 indexation doc dn δ1 δ2 δ3 δn corpus U? base d’index requête q f (q, δi ) @dr(q,1) @dr(q,2) @dr(q,3) utilisateur mise en correspondance évaluation M. Beigbeder 2006/10/23 EARIA (Autrans) Évaluation des systèmes de recherche d’information 1 Modèle TREC de RI (1/2) Collection de test : documents, besoins d’informations, jugements de pertinence doc file txt d1 txt d2 txt d3 ➊ filtre ➋ δ1 δ2 δ3 indexation ➎ besoins d’informations 2006/10/23 base d’index requêtes q ➏ ✍ M. Beigbeder jugements de pertinence δn corpus ➌ ➍ ➑ f (q, δi ) ➐ runq @dr(q,1) @dr(q,2) @dr(q,3) évaluation ➒ précision rappel mise en correspondance EARIA (Autrans) Évaluation des systèmes de recherche d’information 2 Modèle TREC de RI (2/2) ➊ documents originaux ➋ les fichier(s) de la collection ➌ l’index des documents ➍ les besoins d’informations ➎ les requêtes ➏ l’index des requêtes ➐ les listes de réponses retournées par le système de recherche d’informations (run) ➑ les ensembles de documents jugés pertinents ➒ l’évaluation précision-rappel M. Beigbeder 2006/10/23 EARIA (Autrans) Évaluation des systèmes de recherche d’information 3 Un document de la collection adi Extrait du fichier ➊ adi/adi.all : Extrait de son index ➌ selon smart : [...] # docid concept_type .I 17 17 0 887 2.00000 .T 17 0 1061 1.00000 document recovery 17 0 1763 1.00000 .A 17 0 1877 1.00000 R. L. BIRCG 17 0 2802 1.00000 .W 17 0 4112 1.00000 the naming of journals and organizations : implications for 17 0 5991 1.00000 names are chosen for technical journals for societies often 17 0 8143 1.00000 incorporating factors which needlessly complicate filing and 17 0 9309 1.00000 recovery . changes of name also appear to often ignore the 17 0 9654 1.00000 effect on commonplace information retrieval procedures . 17 0 10370 1.00000 factors considered include ease of memory retention, 17 0 12640 1.00000 compatibility of wording and of layout of title pages with 17 0 13631 1.00000 filing systems used in offices, libraries, and bibliographies . 17 0 17726 1.00000 .I 18 17 0 18494 1.00000 .T 17 0 18943 1.00000 state-of-the-art : remote interrogation of stored documentary 17 0 19520 2.00000 material 17 0 19903 2.00000 .A 17 0 19911 1.00000 H. OHLMAN 17 0 20443 1.00000 [...] [...] M. Beigbeder 2006/10/23 EARIA (Autrans) concept_id weight term the implications offices effect chosen name layout information changes pages organizations also incorporating title in retention filing recovery ease technical Évaluation des systèmes de recherche d’information 4 Le premier besoin d’information de adi Le début du fichier ➍ adi/query.text : .I 1 .W What problems and concerns are there in making up descriptive titles? What difficulties are involved in automatically retrieving articles from approximate titles? What is the usual relevance of the content of articles to their titles? [...] Jugements de pertinence Un extrait du fichier ➑ adi/qrels.text : Les mêmes informations à une syntaxe correcte pour trec eval : # qid docid 1 17 0 1 46 0 1 62 0 2 12 0 2 71 0 [...] 0.000000 0.000000 0.000000 0.000000 0.000000 # qid 1 1 1 2 2 [...] M. Beigbeder 2006/10/23 EARIA (Autrans) 0 0 0 0 0 docid relevance level 17 1 46 1 62 1 12 1 71 1 Évaluation des systèmes de recherche d’information 5 Trois expériences sur la collection adi Trois runs : ➐ smart.nnn.nnn # qid docid 1 0 16 1 0 36 1 0 1 1 0 28 1 0 58 1 0 9 1 0 24 1 0 46 1 0 15 ... M. Beigbeder 0 0 0 0 0 0 0 0 0 score 56.0000 41.0000 39.0000 39.0000 39.0000 38.0000 37.0000 37.0000 34.0000 2006/10/23 run name nnn.nnn nnn.nnn nnn.nnn nnn.nnn nnn.nnn nnn.nnn nnn.nnn nnn.nnn nnn.nnn EARIA (Autrans) ➐ smart.lic.ann # qid docid 1 0 69 1 0 27 1 0 47 1 0 30 1 0 19 1 0 25 1 0 37 1 0 22 1 0 46 ... 0 0 0 0 0 0 0 0 0 score 0.4780 0.4526 0.3195 0.2820 0.2744 0.2508 0.2406 0.2305 0.2239 run name lic.ann lic.ann lic.ann lic.ann lic.ann lic.ann lic.ann lic.ann lic.ann ➐ zettair # qid 1 0 1 0 2 0 2 0 2 0 2 0 2 0 2 0 2 0 ... Évaluation des systèmes de recherche d’information docid 69 46 71 69 68 35 75 64 23 score 4.658154 3.451871 5.410110 4.658154 4.365011 3.736974 3.701425 3.615445 3.478283 0 0 0 0 0 0 0 0 0 6 Évaluation des SRI En supposant une pertinence binaire et que le SRI est un système entrée-sortie (pas d’interaction), on évalue sa capacité : – à retrouver les documents pertinents ; – à ne pas retourner les documents non pertinents. Précision et rappel |P ert ∩ Retr| Rappel = |P ert| |P ert ∩ Retr| P recision = |Retr| Un système retrouve des documents ➐. Les jugements de pertinence indiquent les documents pertinents ➑. Dans la liste triée, Rappel et P recision sont évalués à chaque rang en considérant l’ensemble des documents retournés avant ce rang. M. Beigbeder 2006/10/23 EARIA (Autrans) Évaluation des systèmes de recherche d’information 7 run name zettair zettair zettair zettair zettair zettair zettair zettair zettair decreasing score P= 0/1 = 0.0% P= 1/2 =50.0% P= 2/3 =66.7% P= 2/4 =50.0% P= 2/5 =40.0% P= 3/6 =50.0% P= 3/7 =42.9% P= 4/8 =50.0% P= 5/9 =55.6% P= 6/10=60.0% P= 6/11=54.5% P= 6/12=50.0% P= 7/13=53.8% P= 7/14=50.0% P= 8/15=53.3% P= 9/16=56.2% P= 9/17=52.9% P=10/18=55.6% P=11/19=57.9% P=12/20=60.0% P=13/21=61.9% COLL=adi.qrels RUN=zettair.adi.Q1.run precision (P) 100 27 80 60 40 20 0 0 20 40 60 80 100 recall (R) COLL=adi.qrels RUN=zettair.adi.Q1.run 100 precision (P) Query 27 33 relevant documents 66 retrieved documents sorted by − 65 R= 0/33= 0.0% + 48 R= 1/33= 3.0% + 30 R= 2/33= 6.1% − 58 R= 2/33= 6.1% − 67 R= 2/33= 6.1% + 22 R= 3/33= 9.1% − 28 R= 3/33= 9.1% + 61 R= 4/33=12.1% + 11 R= 5/33=15.2% + 2 R= 6/33=18.2% − 52 R= 6/33=18.2% − 43 R= 6/33=18.2% + 20 R= 7/33=21.2% − 50 R= 7/33=21.2% + 8 R= 8/33=24.2% + 41 R= 9/33=27.3% − 17 R= 9/33=27.3% + 70 R=10/33=30.3% + 66 R=11/33=33.3% + 57 R=12/33=36.4% + 6 R=13/33=39.4% ... 22 80 60 40 20 0 0 20 40 60 80 100 recall (R) M. Beigbeder 2006/10/23 EARIA (Autrans) Évaluation des systèmes de recherche d’information 8 Interpolation - Extrapolation COLL=adi.qrels RUN=zettair.adi.Q1.run 27 80 60 40 20 0 0 20 40 60 80 100 recall (R) COLL=adi.qrels RUN=zettair.adi.Q1.run 100 precision (P) On veut une précision pour tout point de rappel (autrement dit une application) : – interpolation entre 2 points – extrapolation vers R=0% Les 11 points de rappel standard : de 0% à 100% par pas de 10%. precision (P) 100 80 22 60 40 20 0 0 20 40 60 80 100 recall (R) M. Beigbeder 2006/10/23 EARIA (Autrans) Évaluation des systèmes de recherche d’information 9 Tous les topics COLL=adi.qrels RUN=zettair.adi.Q1.run precision (P) 100 80 60 0.7 40 0.6 20 0.5 tr.nnn.nnn tr.lic.ann zettair.adi.Q1 0 0.4 0 20 40 60 80 100 0.3 recall (R) 0.2 COLL=adi.qrels RUN=zettair.adi.Q1.run 0.1 100 precision (P) 0 0 80 0.2 0.4 0.6 0.8 1 60 40 20 0 0 20 40 60 80 100 recall (R) M. Beigbeder 2006/10/23 EARIA (Autrans) Évaluation des systèmes de recherche d’information 10 L’outil trec eval L’outil standard pour la construction des courbes rappel-précision est trec eval : http://trec.nist.gov/trec_eval/trec_eval.8.1.tar.gz En outre il fournit de nombreuses autres mesures : – précision à 5, 10, . . ., 1000 documents ; – R-Precision : précision à R (le nombre de documents pertinents pour le topic) – bpref – Reciprocal rank – ... M. Beigbeder 2006/10/23 EARIA (Autrans) Évaluation des systèmes de recherche d’information 11 Quelques collections de test historiques (1/2) Disponibles sur ftp://ftp.cs.cornell.edu/pub/smart/. – adi.all, 82 résumés d’articles présentés à une rencontre de l’American Documentation Institute en 1963, domaine des sciences de l’information. – cacm.all.Z, 3 204 documents avec le titre et les liens de citations bibliographiques, domaine de l’informatique. – cisi.all.Z, domaine des sciences de l’information. – med.all.Z, domaine médical. – npl.dat.Z, électronique, informatique et physique. – time/doc.text.Z, dépêches. M. Beigbeder 2006/10/23 EARIA (Autrans) Évaluation des systèmes de recherche d’information 12 Quelques collections de test historiques (2/2) adi cacm cisi cran med npl time M. Beigbeder 36 2.1 2.3 1.6 1.0 3.1 1.5 K M M M M M M 2006/10/23 82 docs 3204 docs 1460 docs 1400 docs 1033 docs 11429 docs 425 docs EARIA (Autrans) titre titre titre titre auteurs auteurs auteurs auteurs résumé résumé résumé résumé titre long dépêche citations citations Évaluation des systèmes de recherche d’information 35 requ. 64 requ. 112 requ. 225 requ. 30 requ. 93 requ. 83 requ. 13 Quelques outils Cf. http://www.emse.fr/~mbeig/IR/tools.html – – – – – – – – – – smart ftp://ftp.cs.cornell.edu/pub/smart/ mg (version 1.3g) http://www.nzdl.org/html/mg.html lucy/zettair http://www.seg.rmit.edu.au/zettair/ cheshire http://cheshire.lib.berkeley.edu/ dataparksearch engine http://www.dataparksearch.org/ lemur http://www.lemurproject.org/ lucene http://jakarta.apache.org/lucene/docs/index.html terrier http://ir.dcs.gla.ac.uk/terrier/ wumpus http://www.wumpus-search.org/ xapian http://www.xapian.org/ M. Beigbeder 2006/10/23 EARIA (Autrans) Évaluation des systèmes de recherche d’information 14 La conférence TREC Trec est «la» campagne d’évaluation annuelle de RI depuis 1992. 15ème édition en 2006. Le cycle : – le NIST propose des tâches et fournit des documents et des «topics» aux participants ; – chaque participant fait tourner son système sur ces données et fournit une liste de résultat pour chaque topic (1 000 premiers documents) (RUN ) ; – évaluation des RUN au NIST, envoi des performances obtenues par chaque RUN. – atelier en novembre au NIST. M. Beigbeder 2006/10/23 EARIA (Autrans) Évaluation des systèmes de recherche d’information 15 M. Beigbeder X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X Now VidTREC X X X X X X X X X X X X X X EARIA (Autrans) X X X 2006/10/23 2006 1999 X X X X 2005 1998 X X X X X X 2004 1997 X X X X X 2003 1996 X X 2002 1995 X X 2001 1994 X X 2000 1993 Adhoc, Robust Routing Filtering Interactive, HARD Spanish Chinese X→(X,Y,Z) OCR Speech Video VLC Web Terabyte Enterprise Blog Q&A Novelty Genome Legal Spam detection 1992 Les pistes (tracks) de TREC X X New X X New X Évaluation des systèmes de recherche d’information 16 Questions sur les collections de test – Critères sur le choix des documents ? – Représentativité par rapport à la tâche – Diversité des sujets, du vocabulaire – Texte intégral vs. résumé – ... – Quels et combien de topics ? – Comment identifier les documents pertinents pour chaque topic ? M. Beigbeder 2006/10/23 EARIA (Autrans) Évaluation des systèmes de recherche d’information 17 Caractéristiques des documents de TREC Chaque piste a ses documents et ses propres topics (généralement 50). – Documents issus de journaux et dépêches WSJ Wall Street Journal (1986–1992) 550 M 173252 docs AP Associate Press Newswire (1988–1989) 514 M 164597 docs ZIFF Ziff-Davis Publishing 493 M 132100 docs FR Federal Register (1988–1989) 469 M 45820 docs DOE abstracts from Dept. Energy reports 190 M 226087 docs – Documents issus du Web VLC 1997 HTML 100 G WT2G extrait de VLC HTML 2G WT10G extrait de VLC HTML 10 G .GOV extrait des sites .gov (2003) HTML, PDF, etc. 500 G W3C le site du W3C (2004) HTML, PDF, etc. ?G – Medline M. Beigbeder 2006/10/23 EARIA (Autrans) Évaluation des systèmes de recherche d’information 18 Exemple de document <DOC> <DOCNO> WSJ870324-0001 </DOCNO> <HL> John Blair Is Near Accord To Sell Unit, Sources Say </HL> <DD> 03/24/87</DD> <SO> WALL STREET JOURNAL (J) </SO> <IN> REL TENDER OFFERS, MERGERS, ACQUISITIONS (TNM) MARKETING, ADVERTISING (MKT) TELECOMMUNICATIONS, BROADCASTING, TELEPHONE, TELEGRAPH (TEL) </IN> <DATELINE> NEW YORK </DATELINE> <TEXT> John Blair & Co. is close to an agreement to sell its TV station advertising representation operation and program production unit to an investor group led by James H. Rosenfield, a former CBS Inc. executive, industry sources said. Industry sources put the value of the proposed acquisition at more than $100 million. ... </TEXT> </DOC> M. Beigbeder 2006/10/23 EARIA (Autrans) Évaluation des systèmes de recherche d’information 19 Quelques statistiques sur les collections mots/doc médiane CACM CISI WSJ-1 AP-1 ZIFF-1 FR-1 DOE WSJ-2 AP-2 ZIFF-2 FR-2 WT10G M. Beigbeder 2M 2M 267 M 254 M 242 M 260 M 184 M 242 M 237 M 175 M 209 M 10000 M 2006/10/23 3 204 docs 1 460 docs 98 732 docs 84 678 docs 75 180 docs 25 960 docs 226 087 docs 74 520 docs 79 919 docs 56 920 docs 19 860 docs 1 692 096 docs EARIA (Autrans) 245 446 200 391 111 301 438 182 396 mots/doc moyenne 40.1 104.9 434.0 473.9 473.0 1315.9 120.4 508.4 468.7 451.9 1378.1 Évaluation des systèmes de recherche d’information 20 Thème (Topic) – – – – Description d’un besoin d’information Donne des indications sur la pertinence Construit par un assesseur L’assesseur qui crée le «topic» identifie(ra) les documents pertinents pour ce topic M. Beigbeder 2006/10/23 EARIA (Autrans) Évaluation des systèmes de recherche d’information 21 Exemple de topic <top> <num> Number: 451 <title> What is a Bengals cat? <desc> Description: Provide information on the Bengal cat breed. <narr> Narrative: Item should include any information on the Bengal cat breed, including description, origin, characteristics, breeding program, names of breeders and catteries carrying bengals. References which discuss bengal clubs only are not relevant. Discussions of bengal tigers are not relevant. </top> Remarque : La requête doit être construite à partir du topic. M. Beigbeder 2006/10/23 EARIA (Autrans) Évaluation des systèmes de recherche d’information 22 Questions sur les topics – Quelles et combien de topics ? – Impact du nombre de topics (C. Buckley et E. Voorhees [SIGIR 2000]) – le nombre de topics doit être supérieur à 25 – 50 semble un bon compromis M. Beigbeder 2006/10/23 EARIA (Autrans) Évaluation des systèmes de recherche d’information 23 Jugement de pertinence Comment identifier les documents pertinents pour chaque topic ? Pour juger 800 000 documents, il faut 6500 heures par topic, si un document est jugé en 30 secondes... TREC utilise la technique de pooling. Questions sur les jugements de pertinence – Consistance – La pertinence est subjective et change selon la personne. – Que se passe-t-il si l’on change les assesseurs ? – Etude d’E. Voorhees [IPM 2000] – Complétude – Il existe des documents pertinents mais pas jugés – Ces documents sont considérés NON pertinents – Les systèmes qui n’ont pas contribué aux jugements sont-ils pénalisés ? – Etude de Zobel [SIGIR 1998] M. Beigbeder 2006/10/23 EARIA (Autrans) Évaluation des systèmes de recherche d’information 24 D’autres initiatives – NTCIR depuis 1997 sur documents en langues asiatiques (NII-NACSIS Test Collection for IR Systems) – CLEF http://clef.iei.pi.cnr.it:2002/, créé en 2000, et destiné à l’évaluation de RI multilingue (fr, en, es, it, de, g, sw, fi, etc.) Les documents ne sont accessibles qu’aux participants. – INEX http://www.is.informatik.uni-duisburg.de/projets/INEX03 lancée en 2002 pour la RI sur des documents structurés en XML. M. Beigbeder 2006/10/23 EARIA (Autrans) Évaluation des systèmes de recherche d’information 25 Retour sur la méthodologie Qu’est-ce qu’un document pertinent ? – Traditionnellement, celui qui est jugé tel (par un expert) – Plus proprement, celui qui aide l’utilisateur à résoudre son problème La pertinence est-elle : – binaire ? – indépendante du contexte ? – équivalente à l’utilité ? M. Beigbeder 2006/10/23 EARIA (Autrans) Évaluation des systèmes de recherche d’information 26