S - TU Chemnitz

Transcription

S - TU Chemnitz
04_Evaluation
Übung
Medienretrieval WS 07/08
Thomas Wilhelm, Medieninformatik, TU Chemnitz
Übung Medienretrieval WS 07/08
CLEF
Cross Language Evaluation Forum
■ Hervorgegangen aus dem Cross-Language Information
Retrieval Task der Text Retrieval Conference (TREC)
■ Seit 2000 eigenständig organisiert und durchgeführt
■ Es werden jährlich neue Test-Szenarien für
unterschiedliche Aufgabebereiche (Tracks) angeboten
■ Für die einzelnen Tracks werden die Korpora, die
Themenstellungen und nach Durchführung der
Evaluation auch die Relevanz-Bewertungen zur
Verfügung gestellt
■ Jedes Jahr wird ein Workshop abgehalten, auf dem die
Teilnehmer ihre Ergebnisse vergleichen und diskutieren
können
2
Übung Medienretrieval WS 07/08
CLEF: Tracks 2007
■ Multilingual Document Retrieval on News Collections
(Ad-Hoc)
■ Scientific Data Retrieval (Domain-Specific)
■ Interactive Cross-Language Information Retrieval (iCLEF)
■ Multiple Language Question Answering (QA@CLEF)
■ Cross-Language Image Retrieval (ImageCLEF)
■ Cross-Language Speech Retrieval (CL-SR)
■ CLEF Web Track (WebCLEF)
■ Cross-Language Geographical Information Retrieval
(GeoCLEF)
3
Übung Medienretrieval WS 07/08
ImageCLEF: Tasks 2007
■ Allgemeine Fotografien
● ImageCLEFphoto (20.000 Fotografien mit semi-strukturierten
Beschriftungen)
● Object retrieval task
■ ImageCLEFmed
● Medical image retrieval (ca. 70.000 Aufnahmen mit
mehrsprachigen Notizen zu den Krankheitsfällen)
● Automatic annotation task for medical images (hierarchische
Annotation von medizinischen Röntgenbildern in Englisch und
Deutsch)
4
Übung Medienretrieval WS 07/08
ImageCLEFphoto 2007
Data Collection
■ IAPR TC-12 Benchmark
● 20.000 Fotos von Menschen, Tieren, Gebäuden, Städten,
Landschaften, ...
● Annotationen in 3 unterschiedlichen Sprachen:
❍ Deutsch
❍ Englisch
❍ Spanisch
5
Übung Medienretrieval WS 07/08
ImageCLEFphoto 2007
Data Collection – Beispiel
Image ID: annotations/00/25.eng
Title: Plaza de Armas
Description: a yellow building
with white columns in the
background; two palm trees in
front of the house; cars are
parking in front of the house;
a woman and a child are
walking over the square;
Notes: The Plaza de Armas is one
of the most visited places in
Cochabamba. The locals are
very proud of the colourful
buildings.
Location: Cochabamba, Bolivia
Date: 1 February 2002
6
Übung Medienretrieval WS 07/08
ImageCLEFphoto 2007
Query Topics
■ Die Topics wurden auf der Basis unterschiedlicher
Quellen und Kriterien zusammengestellt:
● Analyse von Log-Dateien
● Wissen über den Inhalt der Bilder
● Unterschiedliche Arten von linguistischen und bildhaften
Eigenschaften, wie z.B. visuell / semantik, spezielle / allgemeine
Objekte, Verwendung korrekter Namen
● Geschätze Schwierigkeit der Topic
■ Sprachen:
● Englisch (EN), Deutsch (DE), Französisch (FR), Portugiesisch (PT),
Spanisch (ES), Italienisch (IT), Finnisch (FI), Japanisch (JA),
Chinesisch vereinfacht (ZHS), Chinesisch traditionell (ZHT),
Polnisch (PL), Norwegisch (NO), Schwedisch (SV), Russisch (RU),
Dänisch (DA) und Holländisch (NL).
7
Übung Medienretrieval WS 07/08
ImageCLEFphoto 2007
Query Topics – Beispiel 1
<top>
<num> Number: 1 </num>
<title> Unterkunft mit
Schwimmbecken </title>
<narr>
</narr>
<image> topics/01/3793.jpg </image>
<image> topics/01/6321.jpg </image>
<image> topics/01/6395.jpg </image>
</top>
8
Übung Medienretrieval WS 07/08
ImageCLEFphoto 2007
Query Topics – Beispiel 2
<top>
<num> Number: 2 </num>
<title> 塔が3本以上ある教会
</title>
<narr>
</narr>
<image> topics/02/16432.jpg
</image>
<image> topics/02/37395.jpg
</image>
<image> topics/02/40498.jpg
</image>
</top>
9
Übung Medienretrieval WS 07/08
ImageCLEFphoto 2007
Evaluation (1)
■ Kategorisierung:
●
●
●
●
●
Sprache der verwendeten Annotationen (EN, DE, ES)
Sprache der verwendeten Topics (EN, DE, ES, ...)
„Query/run type“: Automatisch (AUTO), Manuell (MAN)
Feedback / Query Expansion (FB, QE, FBQE, NOFB)
Modalität: nur Bilder (IMG), nur Text (TXT), gemischt (TXTIMG)
■ Übermittlung der Ergebnisse:
● Im TREC-Format, siehe Richtlinien
● Beispiel:
topic "1" docno rank score run-id
25 1 00/99 0 4238 xyzT10af5
25 1 00/11 1 4223 xyzT10af5
25 1 16/16998 2 4207 xyzT10af5
10
Übung Medienretrieval WS 07/08
ImageCLEFphoto
Evaluation (2)
■ „Relevance Assessments“
● Durch Pooling und interaktives Suchen und Bewerten
● Einige Topics können nicht allein anhand des Bildes bewertet
werden, dafür werden die erweiterten Topics mit vollständigem
<narr>-Tag verwendet, der eine detailiertere Beschreibung des
Informationsbedürfnisses enthält
● Es wurde ein ternäres Bewertungssystem verwendet (relevant,
teilweise relevant, nicht relevant) und im späteren Verlauf in die
verfügbaren QRELS kombiniert
■ Beispiel QRELS:
topic iteration docno relevant
1 0 01/1401 1
1 0 01/1388 1
1 0 01/1354 1
11
Übung Medienretrieval WS 07/08
Precision & Recall (1)
■ Zur genauen Beschreibung von Precision und Recall
werden folgende Mengen definiert:
● R ist die Menge aller relevanten Dokumenten und die
komplementäre Menge.
● S ist die Menge der gefundenen Dokumente und die
komplementäre Menge.
● t = R ∩ S ist die Menge gefundener, relevanter Dokumente.
■ Die Precision gibt Auskunft über die Genauigkeit des
Suchergebnisses und ist definiert durch:
● Precision = |t| / |S|
■ Der Recall gibt die Vollständigkeit des Suchergebnisses
an, also wie viele der relevanten Dokumente gefunden
wurden, und wird durch folgende Formel beschrieben.
● Recall = |t| / |R|
12
Übung Medienretrieval WS 07/08
Precision & Recall (2)
Bewertung durch
Juror
vom System...
relevant
nicht-relevant
Summe
...nachgewiesen
t
b
S
...nicht nachgewiesen
v
u
S*
Summe
R
R*
N
t
Vollständigkeit: recall =
R
R*
S*
R
Genauigkeit: precision =
v
t
b
N
S u
t
S
13
Übung Medienretrieval WS 07/08
Precision & Recall (3)
■ Extremwerte:
● recall = precision = 1
(alle gefundenen Dokumente sind
relevant und alle relevanten
Dokumente wurden gefunden)
t=S=R
● recall = precision = 0
(keines der gefundenen
Dokumente ist relevant)
R
S
14
Übung Medienretrieval WS 07/08
Precision & Recall (4)
■ Aus Precision und Recall können nun weitere
Kennzahlen abgeleitet werden.
● Die „Precision at n“ (Pn) gibt die Precision bei einer
Ergebnismenge mit n gefundenen Dokumenten an, also |S|=n.
❍ Bevorzugte Werte für n sind:
• n=20 (P20), in Anlehnung an die Ergebnis-Präsentation von
Google, da auf der ersten Ergebnis-Seite bei Google bei
Standardkonfiguration maximal 20 Ergebnisse angezeigt
werden.
• n=|R|, bei der sogenannten R-Precision wird die Anzahl der
relevanten Dokumente als verwendet.
● Die „Average Precision“ (AP) ist der Durchschnitt der Precision
über alle Recall-Werte. Wenn nicht alle relevanten Dokumente
in der Menge der gefundenen Dokumente vorhanden sind,
wird für diese Recall-Werte eine Precision von 0 angenommen.
15
Übung Medienretrieval WS 07/08
Precision & Recall (5)
Recall
Precision
0,1
1,000
0,2
0,500
0,3
0,600
0,4
0,667
0,5
0,556
Weitere Werte:
Average Precision (AP) = 0,332
Precision at 20 (P20) = 0,250
R-Precision (RP) = 0,500
1
0,8
0,6
0,4
0,2
0
0
0,2
0,4
0,6
0,8
1
16
Übung Medienretrieval WS 07/08
Precision & Recall (6)
■ Mean Average Precision (MAP) - the leading measure
like in previous evaluations (for comparison)
■ Geometric Mean Average Precision (GMAP) - to avoid
that easy topics mask the bad performance of hard
topics
■ Precision at 20 documents retrieved (P20) - most
internet search engines show 20 images on their first
page
■ Binary Preference (BPREF) - to verify the completeness
of the relevance assessments
1
MAP= ⋅∑ APq
∣Q∣ q ∈Q
APq
∏

∣Q∣
GMAP=
q ∈Q
17
Übung Medienretrieval WS 07/08
Aufgaben
■ Projekt in Eclipse importieren.
■ TODOs abarbeiten (Window -> Show View -> Tasks)
■ Ziel ist es für eine Ergebnisliste Precision, Recall und
Average Precision zu berechnen und anzuzeigen.
■ Die Topic kann selbst gewählt werden.
■ Weitere Tipps im Quellcode.
■ Zusatz: R-Precision und/oder Precision at 20 berechnen.
18

Documents pareils