Évaluation des systèmes de recherche d`information

Transcription

Évaluation des systèmes de recherche d`information
Évaluation des systèmes de recherche
d’information
Michel Beigbeder
[email protected]
23 octobre 2006
– Typeset by FoilTEX –
Modèle de RI
txt
d1 ps
d2 pdf
d3
indexation
doc
dn
δ1
δ2
δ3
δn
corpus
U?
base d’index
requête q
f (q, δi )
@dr(q,1)
@dr(q,2)
@dr(q,3)
utilisateur
mise en correspondance
évaluation
M. Beigbeder
2006/10/23
EARIA (Autrans)
Évaluation des systèmes de recherche d’information
1
Modèle TREC de RI (1/2)
Collection de test : documents, besoins d’informations, jugements de pertinence
doc file
txt
d1 txt
d2 txt
d3
➊
filtre
➋
δ1
δ2
δ3
indexation
➎
besoins d’informations
2006/10/23
base d’index
requêtes q
➏
✍
M. Beigbeder
jugements de pertinence
δn
corpus
➌
➍
➑
f (q, δi )
➐ runq
@dr(q,1)
@dr(q,2)
@dr(q,3)
évaluation
➒
précision
rappel
mise en correspondance
EARIA (Autrans)
Évaluation des systèmes de recherche d’information
2
Modèle TREC de RI (2/2)
➊ documents originaux
➋ les fichier(s) de la collection
➌ l’index des documents
➍ les besoins d’informations
➎ les requêtes
➏ l’index des requêtes
➐ les listes de réponses retournées par le système de recherche d’informations (run)
➑ les ensembles de documents jugés pertinents
➒ l’évaluation précision-rappel
M. Beigbeder
2006/10/23
EARIA (Autrans)
Évaluation des systèmes de recherche d’information
3
Un document de la collection adi
Extrait du fichier ➊ adi/adi.all :
Extrait de son index ➌ selon smart :
[...]
# docid concept_type
.I 17
17 0 887
2.00000
.T
17 0 1061 1.00000
document recovery
17 0 1763 1.00000
.A
17 0 1877 1.00000
R. L. BIRCG
17 0 2802 1.00000
.W
17 0 4112 1.00000
the naming of journals and organizations : implications for
17 0 5991 1.00000
names are chosen for technical journals for societies often
17 0 8143 1.00000
incorporating factors which needlessly complicate filing and
17 0 9309 1.00000
recovery . changes of name also appear to often ignore the
17 0 9654 1.00000
effect on commonplace information retrieval procedures .
17 0 10370 1.00000
factors considered include ease of memory retention,
17 0 12640 1.00000
compatibility of wording and of layout of title pages with
17 0 13631 1.00000
filing systems used in offices, libraries, and bibliographies . 17 0 17726 1.00000
.I 18
17 0 18494 1.00000
.T
17 0 18943 1.00000
state-of-the-art : remote interrogation of stored documentary
17 0 19520 2.00000
material
17 0 19903 2.00000
.A
17 0 19911 1.00000
H. OHLMAN
17 0 20443 1.00000
[...]
[...]
M. Beigbeder
2006/10/23
EARIA (Autrans)
concept_id weight term
the
implications
offices
effect
chosen
name
layout
information
changes
pages
organizations
also
incorporating
title
in
retention
filing
recovery
ease
technical
Évaluation des systèmes de recherche d’information
4
Le premier besoin d’information de adi
Le début du fichier ➍ adi/query.text :
.I 1
.W
What problems and concerns are there in making up descriptive titles?
What difficulties are involved in automatically retrieving articles from approximate titles?
What is the usual relevance of the content of articles to their titles?
[...]
Jugements de pertinence
Un extrait du fichier
➑ adi/qrels.text :
Les mêmes informations à une syntaxe
correcte pour trec eval :
# qid docid
1
17
0
1
46
0
1
62
0
2
12
0
2
71
0
[...]
0.000000
0.000000
0.000000
0.000000
0.000000
# qid
1
1
1
2
2
[...]
M. Beigbeder
2006/10/23
EARIA (Autrans)
0
0
0
0
0
docid relevance level
17
1
46
1
62
1
12
1
71
1
Évaluation des systèmes de recherche d’information
5
Trois expériences sur la collection adi
Trois runs :
➐ smart.nnn.nnn
# qid
docid
1
0
16
1
0
36
1
0
1
1
0
28
1
0
58
1
0
9
1
0
24
1
0
46
1
0
15
...
M. Beigbeder
0
0
0
0
0
0
0
0
0
score
56.0000
41.0000
39.0000
39.0000
39.0000
38.0000
37.0000
37.0000
34.0000
2006/10/23
run name
nnn.nnn
nnn.nnn
nnn.nnn
nnn.nnn
nnn.nnn
nnn.nnn
nnn.nnn
nnn.nnn
nnn.nnn
EARIA (Autrans)
➐ smart.lic.ann
# qid
docid
1
0
69
1
0
27
1
0
47
1
0
30
1
0
19
1
0
25
1
0
37
1
0
22
1
0
46
...
0
0
0
0
0
0
0
0
0
score
0.4780
0.4526
0.3195
0.2820
0.2744
0.2508
0.2406
0.2305
0.2239
run name
lic.ann
lic.ann
lic.ann
lic.ann
lic.ann
lic.ann
lic.ann
lic.ann
lic.ann
➐ zettair
# qid
1
0
1
0
2
0
2
0
2
0
2
0
2
0
2
0
2
0
...
Évaluation des systèmes de recherche d’information
docid
69
46
71
69
68
35
75
64
23
score
4.658154
3.451871
5.410110
4.658154
4.365011
3.736974
3.701425
3.615445
3.478283
0
0
0
0
0
0
0
0
0
6
Évaluation des SRI
En supposant une pertinence binaire et que le SRI est un système entrée-sortie
(pas d’interaction), on évalue sa capacité :
– à retrouver les documents pertinents ;
– à ne pas retourner les documents non pertinents.
Précision et rappel
|P ert ∩ Retr|
Rappel =
|P ert|
|P ert ∩ Retr|
P recision =
|Retr|
Un système retrouve des documents ➐.
Les jugements de pertinence indiquent les documents pertinents ➑.
Dans la liste triée, Rappel et P recision sont évalués à chaque rang en considérant l’ensemble des documents retournés avant ce rang.
M. Beigbeder
2006/10/23
EARIA (Autrans)
Évaluation des systèmes de recherche d’information
7
run name
zettair
zettair
zettair
zettair
zettair
zettair
zettair
zettair
zettair
decreasing score
P= 0/1 = 0.0%
P= 1/2 =50.0%
P= 2/3 =66.7%
P= 2/4 =50.0%
P= 2/5 =40.0%
P= 3/6 =50.0%
P= 3/7 =42.9%
P= 4/8 =50.0%
P= 5/9 =55.6%
P= 6/10=60.0%
P= 6/11=54.5%
P= 6/12=50.0%
P= 7/13=53.8%
P= 7/14=50.0%
P= 8/15=53.3%
P= 9/16=56.2%
P= 9/17=52.9%
P=10/18=55.6%
P=11/19=57.9%
P=12/20=60.0%
P=13/21=61.9%
COLL=adi.qrels
RUN=zettair.adi.Q1.run
precision (P)
100
27
80
60
40
20
0
0 20 40 60 80 100
recall (R)
COLL=adi.qrels
RUN=zettair.adi.Q1.run
100
precision (P)
Query 27
33 relevant documents
66 retrieved documents sorted by
−
65
R= 0/33= 0.0%
+
48
R= 1/33= 3.0%
+
30
R= 2/33= 6.1%
−
58
R= 2/33= 6.1%
−
67
R= 2/33= 6.1%
+
22
R= 3/33= 9.1%
−
28
R= 3/33= 9.1%
+
61
R= 4/33=12.1%
+
11
R= 5/33=15.2%
+
2
R= 6/33=18.2%
−
52
R= 6/33=18.2%
−
43
R= 6/33=18.2%
+
20
R= 7/33=21.2%
−
50
R= 7/33=21.2%
+
8
R= 8/33=24.2%
+
41
R= 9/33=27.3%
−
17
R= 9/33=27.3%
+
70
R=10/33=30.3%
+
66
R=11/33=33.3%
+
57
R=12/33=36.4%
+
6
R=13/33=39.4%
...
22
80
60
40
20
0
0 20 40 60 80 100
recall (R)
M. Beigbeder
2006/10/23
EARIA (Autrans)
Évaluation des systèmes de recherche d’information
8
Interpolation - Extrapolation
COLL=adi.qrels
RUN=zettair.adi.Q1.run
27
80
60
40
20
0
0 20 40 60 80 100
recall (R)
COLL=adi.qrels
RUN=zettair.adi.Q1.run
100
precision (P)
On veut une précision pour tout
point de rappel (autrement dit
une application) :
– interpolation entre 2 points
– extrapolation vers R=0%
Les 11 points de rappel standard : de 0% à 100% par pas de
10%.
precision (P)
100
80
22
60
40
20
0
0 20 40 60 80 100
recall (R)
M. Beigbeder
2006/10/23
EARIA (Autrans)
Évaluation des systèmes de recherche d’information
9
Tous les topics
COLL=adi.qrels
RUN=zettair.adi.Q1.run
precision (P)
100
80
60
0.7
40
0.6
20
0.5
tr.nnn.nnn
tr.lic.ann
zettair.adi.Q1
0
0.4
0 20 40 60 80 100
0.3
recall (R)
0.2
COLL=adi.qrels
RUN=zettair.adi.Q1.run
0.1
100
precision (P)
0
0
80
0.2
0.4
0.6
0.8
1
60
40
20
0
0 20 40 60 80 100
recall (R)
M. Beigbeder
2006/10/23
EARIA (Autrans)
Évaluation des systèmes de recherche d’information
10
L’outil trec eval
L’outil standard pour la construction des courbes rappel-précision est
trec eval : http://trec.nist.gov/trec_eval/trec_eval.8.1.tar.gz
En outre il fournit de nombreuses autres mesures :
– précision à 5, 10, . . ., 1000 documents ;
– R-Precision : précision à R (le nombre de documents pertinents pour le
topic)
– bpref
– Reciprocal rank
– ...
M. Beigbeder
2006/10/23
EARIA (Autrans)
Évaluation des systèmes de recherche d’information
11
Quelques collections de test historiques (1/2)
Disponibles sur ftp://ftp.cs.cornell.edu/pub/smart/.
– adi.all, 82 résumés d’articles présentés à une rencontre de l’American
Documentation Institute en 1963, domaine des sciences de l’information.
– cacm.all.Z, 3 204 documents avec le titre et les liens de citations bibliographiques, domaine de l’informatique.
– cisi.all.Z, domaine des sciences de l’information.
– med.all.Z, domaine médical.
– npl.dat.Z, électronique, informatique et physique.
– time/doc.text.Z, dépêches.
M. Beigbeder
2006/10/23
EARIA (Autrans)
Évaluation des systèmes de recherche d’information
12
Quelques collections de test historiques (2/2)
adi
cacm
cisi
cran
med
npl
time
M. Beigbeder
36
2.1
2.3
1.6
1.0
3.1
1.5
K
M
M
M
M
M
M
2006/10/23
82 docs
3204 docs
1460 docs
1400 docs
1033 docs
11429 docs
425 docs
EARIA (Autrans)
titre
titre
titre
titre
auteurs
auteurs
auteurs
auteurs
résumé
résumé
résumé
résumé
titre long
dépêche
citations
citations
Évaluation des systèmes de recherche d’information
35 requ.
64 requ.
112 requ.
225 requ.
30 requ.
93 requ.
83 requ.
13
Quelques outils
Cf. http://www.emse.fr/~mbeig/IR/tools.html
–
–
–
–
–
–
–
–
–
–
smart ftp://ftp.cs.cornell.edu/pub/smart/
mg (version 1.3g) http://www.nzdl.org/html/mg.html
lucy/zettair http://www.seg.rmit.edu.au/zettair/
cheshire http://cheshire.lib.berkeley.edu/
dataparksearch engine http://www.dataparksearch.org/
lemur http://www.lemurproject.org/
lucene http://jakarta.apache.org/lucene/docs/index.html
terrier http://ir.dcs.gla.ac.uk/terrier/
wumpus http://www.wumpus-search.org/
xapian http://www.xapian.org/
M. Beigbeder
2006/10/23
EARIA (Autrans)
Évaluation des systèmes de recherche d’information
14
La conférence TREC
Trec est «la» campagne d’évaluation annuelle de RI depuis 1992. 15ème
édition en 2006. Le cycle :
– le NIST propose des tâches et fournit des documents et des «topics» aux
participants ;
– chaque participant fait tourner son système sur ces données et fournit une
liste de résultat pour chaque topic (1 000 premiers documents) (RUN ) ;
– évaluation des RUN au NIST, envoi des performances obtenues par chaque
RUN.
– atelier en novembre au NIST.
M. Beigbeder
2006/10/23
EARIA (Autrans)
Évaluation des systèmes de recherche d’information
15
M. Beigbeder
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
Now VidTREC
X
X
X
X
X
X
X
X
X
X
X
X
X
X
EARIA (Autrans)
X
X
X
2006/10/23
2006
1999
X
X
X
X
2005
1998
X
X
X
X
X
X
2004
1997
X
X
X
X
X
2003
1996
X
X
2002
1995
X
X
2001
1994
X
X
2000
1993
Adhoc, Robust
Routing
Filtering
Interactive, HARD
Spanish
Chinese
X→(X,Y,Z)
OCR
Speech
Video
VLC
Web
Terabyte
Enterprise
Blog
Q&A
Novelty
Genome
Legal
Spam detection
1992
Les pistes (tracks) de TREC
X
X
New
X
X
New
X
Évaluation des systèmes de recherche d’information
16
Questions sur les collections de test
– Critères sur le choix des documents ?
– Représentativité par rapport à la tâche
– Diversité des sujets, du vocabulaire
– Texte intégral vs. résumé
– ...
– Quels et combien de topics ?
– Comment identifier les documents pertinents pour chaque topic ?
M. Beigbeder
2006/10/23
EARIA (Autrans)
Évaluation des systèmes de recherche d’information
17
Caractéristiques des documents de TREC
Chaque piste a ses documents et ses propres topics (généralement 50).
– Documents issus de journaux et dépêches
WSJ Wall Street Journal (1986–1992)
550 M 173252 docs
AP
Associate Press Newswire (1988–1989) 514 M 164597 docs
ZIFF Ziff-Davis Publishing
493 M 132100 docs
FR
Federal Register (1988–1989)
469 M 45820 docs
DOE abstracts from Dept. Energy reports
190 M 226087 docs
– Documents issus du Web
VLC
1997
HTML
100 G
WT2G
extrait de VLC
HTML
2G
WT10G extrait de VLC
HTML
10 G
.GOV
extrait des sites .gov (2003) HTML, PDF, etc. 500 G
W3C
le site du W3C (2004)
HTML, PDF, etc.
?G
– Medline
M. Beigbeder
2006/10/23
EARIA (Autrans)
Évaluation des systèmes de recherche d’information
18
Exemple de document
<DOC>
<DOCNO> WSJ870324-0001 </DOCNO>
<HL> John Blair Is Near Accord To Sell Unit, Sources Say </HL>
<DD> 03/24/87</DD>
<SO> WALL STREET JOURNAL (J) </SO>
<IN> REL TENDER OFFERS, MERGERS, ACQUISITIONS (TNM)
MARKETING, ADVERTISING (MKT) TELECOMMUNICATIONS,
BROADCASTING, TELEPHONE, TELEGRAPH (TEL) </IN>
<DATELINE> NEW YORK </DATELINE>
<TEXT>
John Blair & Co. is close to an agreement to sell its TV station
advertising representation operation and program production unit to an
investor group led by James H. Rosenfield, a former CBS Inc.
executive, industry sources said. Industry sources put the value of the
proposed acquisition at more than $100 million. ...
</TEXT>
</DOC>
M. Beigbeder
2006/10/23
EARIA (Autrans)
Évaluation des systèmes de recherche d’information
19
Quelques statistiques sur les collections
mots/doc
médiane
CACM
CISI
WSJ-1
AP-1
ZIFF-1
FR-1
DOE
WSJ-2
AP-2
ZIFF-2
FR-2
WT10G
M. Beigbeder
2M
2M
267 M
254 M
242 M
260 M
184 M
242 M
237 M
175 M
209 M
10000 M
2006/10/23
3 204 docs
1 460 docs
98 732 docs
84 678 docs
75 180 docs
25 960 docs
226 087 docs
74 520 docs
79 919 docs
56 920 docs
19 860 docs
1 692 096 docs
EARIA (Autrans)
245
446
200
391
111
301
438
182
396
mots/doc
moyenne
40.1
104.9
434.0
473.9
473.0
1315.9
120.4
508.4
468.7
451.9
1378.1
Évaluation des systèmes de recherche d’information
20
Thème (Topic)
–
–
–
–
Description d’un besoin d’information
Donne des indications sur la pertinence
Construit par un assesseur
L’assesseur qui crée le «topic» identifie(ra) les documents pertinents pour
ce topic
M. Beigbeder
2006/10/23
EARIA (Autrans)
Évaluation des systèmes de recherche d’information
21
Exemple de topic
<top>
<num> Number: 451
<title> What is a Bengals cat?
<desc> Description:
Provide information on the Bengal cat breed.
<narr> Narrative:
Item should include any information on the Bengal cat breed,
including description, origin, characteristics, breeding program,
names of breeders and catteries carrying bengals.
References which discuss bengal clubs only are not relevant.
Discussions of bengal tigers are not relevant.
</top>
Remarque : La requête doit être construite à partir du topic.
M. Beigbeder
2006/10/23
EARIA (Autrans)
Évaluation des systèmes de recherche d’information
22
Questions sur les topics
– Quelles et combien de topics ?
– Impact du nombre de topics (C. Buckley et E. Voorhees [SIGIR 2000])
– le nombre de topics doit être supérieur à 25
– 50 semble un bon compromis
M. Beigbeder
2006/10/23
EARIA (Autrans)
Évaluation des systèmes de recherche d’information
23
Jugement de pertinence
Comment identifier les documents pertinents pour chaque topic ? Pour juger
800 000 documents, il faut 6500 heures par topic, si un document est jugé en 30
secondes... TREC utilise la technique de pooling.
Questions sur les jugements de pertinence
– Consistance
– La pertinence est subjective et change selon la personne.
– Que se passe-t-il si l’on change les assesseurs ?
– Etude d’E. Voorhees [IPM 2000]
– Complétude
– Il existe des documents pertinents mais pas jugés
– Ces documents sont considérés NON pertinents
– Les systèmes qui n’ont pas contribué aux jugements sont-ils pénalisés ?
– Etude de Zobel [SIGIR 1998]
M. Beigbeder
2006/10/23
EARIA (Autrans)
Évaluation des systèmes de recherche d’information
24
D’autres initiatives
– NTCIR depuis 1997 sur documents en langues asiatiques (NII-NACSIS
Test Collection for IR Systems)
– CLEF http://clef.iei.pi.cnr.it:2002/, créé en 2000, et destiné à
l’évaluation de RI multilingue (fr, en, es, it, de, g, sw, fi, etc.)
Les documents ne sont accessibles qu’aux participants.
– INEX http://www.is.informatik.uni-duisburg.de/projets/INEX03
lancée en 2002 pour la RI sur des documents structurés en XML.
M. Beigbeder
2006/10/23
EARIA (Autrans)
Évaluation des systèmes de recherche d’information
25
Retour sur la méthodologie
Qu’est-ce qu’un document pertinent ?
– Traditionnellement, celui qui est jugé tel (par un expert)
– Plus proprement, celui qui aide l’utilisateur à résoudre son problème
La pertinence est-elle :
– binaire ?
– indépendante du contexte ?
– équivalente à l’utilité ?
M. Beigbeder
2006/10/23
EARIA (Autrans)
Évaluation des systèmes de recherche d’information
26

Documents pareils