S - TU Chemnitz
Transcription
S - TU Chemnitz
04_Evaluation Übung Medienretrieval WS 07/08 Thomas Wilhelm, Medieninformatik, TU Chemnitz Übung Medienretrieval WS 07/08 CLEF Cross Language Evaluation Forum ■ Hervorgegangen aus dem Cross-Language Information Retrieval Task der Text Retrieval Conference (TREC) ■ Seit 2000 eigenständig organisiert und durchgeführt ■ Es werden jährlich neue Test-Szenarien für unterschiedliche Aufgabebereiche (Tracks) angeboten ■ Für die einzelnen Tracks werden die Korpora, die Themenstellungen und nach Durchführung der Evaluation auch die Relevanz-Bewertungen zur Verfügung gestellt ■ Jedes Jahr wird ein Workshop abgehalten, auf dem die Teilnehmer ihre Ergebnisse vergleichen und diskutieren können 2 Übung Medienretrieval WS 07/08 CLEF: Tracks 2007 ■ Multilingual Document Retrieval on News Collections (Ad-Hoc) ■ Scientific Data Retrieval (Domain-Specific) ■ Interactive Cross-Language Information Retrieval (iCLEF) ■ Multiple Language Question Answering (QA@CLEF) ■ Cross-Language Image Retrieval (ImageCLEF) ■ Cross-Language Speech Retrieval (CL-SR) ■ CLEF Web Track (WebCLEF) ■ Cross-Language Geographical Information Retrieval (GeoCLEF) 3 Übung Medienretrieval WS 07/08 ImageCLEF: Tasks 2007 ■ Allgemeine Fotografien ● ImageCLEFphoto (20.000 Fotografien mit semi-strukturierten Beschriftungen) ● Object retrieval task ■ ImageCLEFmed ● Medical image retrieval (ca. 70.000 Aufnahmen mit mehrsprachigen Notizen zu den Krankheitsfällen) ● Automatic annotation task for medical images (hierarchische Annotation von medizinischen Röntgenbildern in Englisch und Deutsch) 4 Übung Medienretrieval WS 07/08 ImageCLEFphoto 2007 Data Collection ■ IAPR TC-12 Benchmark ● 20.000 Fotos von Menschen, Tieren, Gebäuden, Städten, Landschaften, ... ● Annotationen in 3 unterschiedlichen Sprachen: ❍ Deutsch ❍ Englisch ❍ Spanisch 5 Übung Medienretrieval WS 07/08 ImageCLEFphoto 2007 Data Collection – Beispiel Image ID: annotations/00/25.eng Title: Plaza de Armas Description: a yellow building with white columns in the background; two palm trees in front of the house; cars are parking in front of the house; a woman and a child are walking over the square; Notes: The Plaza de Armas is one of the most visited places in Cochabamba. The locals are very proud of the colourful buildings. Location: Cochabamba, Bolivia Date: 1 February 2002 6 Übung Medienretrieval WS 07/08 ImageCLEFphoto 2007 Query Topics ■ Die Topics wurden auf der Basis unterschiedlicher Quellen und Kriterien zusammengestellt: ● Analyse von Log-Dateien ● Wissen über den Inhalt der Bilder ● Unterschiedliche Arten von linguistischen und bildhaften Eigenschaften, wie z.B. visuell / semantik, spezielle / allgemeine Objekte, Verwendung korrekter Namen ● Geschätze Schwierigkeit der Topic ■ Sprachen: ● Englisch (EN), Deutsch (DE), Französisch (FR), Portugiesisch (PT), Spanisch (ES), Italienisch (IT), Finnisch (FI), Japanisch (JA), Chinesisch vereinfacht (ZHS), Chinesisch traditionell (ZHT), Polnisch (PL), Norwegisch (NO), Schwedisch (SV), Russisch (RU), Dänisch (DA) und Holländisch (NL). 7 Übung Medienretrieval WS 07/08 ImageCLEFphoto 2007 Query Topics – Beispiel 1 <top> <num> Number: 1 </num> <title> Unterkunft mit Schwimmbecken </title> <narr> </narr> <image> topics/01/3793.jpg </image> <image> topics/01/6321.jpg </image> <image> topics/01/6395.jpg </image> </top> 8 Übung Medienretrieval WS 07/08 ImageCLEFphoto 2007 Query Topics – Beispiel 2 <top> <num> Number: 2 </num> <title> 塔が3本以上ある教会 </title> <narr> </narr> <image> topics/02/16432.jpg </image> <image> topics/02/37395.jpg </image> <image> topics/02/40498.jpg </image> </top> 9 Übung Medienretrieval WS 07/08 ImageCLEFphoto 2007 Evaluation (1) ■ Kategorisierung: ● ● ● ● ● Sprache der verwendeten Annotationen (EN, DE, ES) Sprache der verwendeten Topics (EN, DE, ES, ...) „Query/run type“: Automatisch (AUTO), Manuell (MAN) Feedback / Query Expansion (FB, QE, FBQE, NOFB) Modalität: nur Bilder (IMG), nur Text (TXT), gemischt (TXTIMG) ■ Übermittlung der Ergebnisse: ● Im TREC-Format, siehe Richtlinien ● Beispiel: topic "1" docno rank score run-id 25 1 00/99 0 4238 xyzT10af5 25 1 00/11 1 4223 xyzT10af5 25 1 16/16998 2 4207 xyzT10af5 10 Übung Medienretrieval WS 07/08 ImageCLEFphoto Evaluation (2) ■ „Relevance Assessments“ ● Durch Pooling und interaktives Suchen und Bewerten ● Einige Topics können nicht allein anhand des Bildes bewertet werden, dafür werden die erweiterten Topics mit vollständigem <narr>-Tag verwendet, der eine detailiertere Beschreibung des Informationsbedürfnisses enthält ● Es wurde ein ternäres Bewertungssystem verwendet (relevant, teilweise relevant, nicht relevant) und im späteren Verlauf in die verfügbaren QRELS kombiniert ■ Beispiel QRELS: topic iteration docno relevant 1 0 01/1401 1 1 0 01/1388 1 1 0 01/1354 1 11 Übung Medienretrieval WS 07/08 Precision & Recall (1) ■ Zur genauen Beschreibung von Precision und Recall werden folgende Mengen definiert: ● R ist die Menge aller relevanten Dokumenten und die komplementäre Menge. ● S ist die Menge der gefundenen Dokumente und die komplementäre Menge. ● t = R ∩ S ist die Menge gefundener, relevanter Dokumente. ■ Die Precision gibt Auskunft über die Genauigkeit des Suchergebnisses und ist definiert durch: ● Precision = |t| / |S| ■ Der Recall gibt die Vollständigkeit des Suchergebnisses an, also wie viele der relevanten Dokumente gefunden wurden, und wird durch folgende Formel beschrieben. ● Recall = |t| / |R| 12 Übung Medienretrieval WS 07/08 Precision & Recall (2) Bewertung durch Juror vom System... relevant nicht-relevant Summe ...nachgewiesen t b S ...nicht nachgewiesen v u S* Summe R R* N t Vollständigkeit: recall = R R* S* R Genauigkeit: precision = v t b N S u t S 13 Übung Medienretrieval WS 07/08 Precision & Recall (3) ■ Extremwerte: ● recall = precision = 1 (alle gefundenen Dokumente sind relevant und alle relevanten Dokumente wurden gefunden) t=S=R ● recall = precision = 0 (keines der gefundenen Dokumente ist relevant) R S 14 Übung Medienretrieval WS 07/08 Precision & Recall (4) ■ Aus Precision und Recall können nun weitere Kennzahlen abgeleitet werden. ● Die „Precision at n“ (Pn) gibt die Precision bei einer Ergebnismenge mit n gefundenen Dokumenten an, also |S|=n. ❍ Bevorzugte Werte für n sind: • n=20 (P20), in Anlehnung an die Ergebnis-Präsentation von Google, da auf der ersten Ergebnis-Seite bei Google bei Standardkonfiguration maximal 20 Ergebnisse angezeigt werden. • n=|R|, bei der sogenannten R-Precision wird die Anzahl der relevanten Dokumente als verwendet. ● Die „Average Precision“ (AP) ist der Durchschnitt der Precision über alle Recall-Werte. Wenn nicht alle relevanten Dokumente in der Menge der gefundenen Dokumente vorhanden sind, wird für diese Recall-Werte eine Precision von 0 angenommen. 15 Übung Medienretrieval WS 07/08 Precision & Recall (5) Recall Precision 0,1 1,000 0,2 0,500 0,3 0,600 0,4 0,667 0,5 0,556 Weitere Werte: Average Precision (AP) = 0,332 Precision at 20 (P20) = 0,250 R-Precision (RP) = 0,500 1 0,8 0,6 0,4 0,2 0 0 0,2 0,4 0,6 0,8 1 16 Übung Medienretrieval WS 07/08 Precision & Recall (6) ■ Mean Average Precision (MAP) - the leading measure like in previous evaluations (for comparison) ■ Geometric Mean Average Precision (GMAP) - to avoid that easy topics mask the bad performance of hard topics ■ Precision at 20 documents retrieved (P20) - most internet search engines show 20 images on their first page ■ Binary Preference (BPREF) - to verify the completeness of the relevance assessments 1 MAP= ⋅∑ APq ∣Q∣ q ∈Q APq ∏ ∣Q∣ GMAP= q ∈Q 17 Übung Medienretrieval WS 07/08 Aufgaben ■ Projekt in Eclipse importieren. ■ TODOs abarbeiten (Window -> Show View -> Tasks) ■ Ziel ist es für eine Ergebnisliste Precision, Recall und Average Precision zu berechnen und anzuzeigen. ■ Die Topic kann selbst gewählt werden. ■ Weitere Tipps im Quellcode. ■ Zusatz: R-Precision und/oder Precision at 20 berechnen. 18