Handout

Transcription

Handout

Internet-Suchmaschinen
Probabilistische Retrievalmodelle
Notationen
Norbert Fuhr
1 / 41
Notationen
Q
R
αQ
Q
βQ
QD
ρ
rel.
Binary-Independence-Retrieval-Modell
IR
judg.
D
αD
D
q ∈ Q Anfrage/Info-bed.
βD
DD
dm ∈ D Dokument
q ∈ Q Anfragerepräs.
d ∈ D Dokumentrepräs.
q D ∈ Q D Anfragebeschr.
D ∈ D D Dokumentbeschr.
dm
R Relevanzskala
Retrievalfunktionen für binäre Indexierung
Probabilistische Grundlagen des BIR-Modells
Anwendung des BIR-Modells
% Retrievalfunktion
IR Retrievalwert
3 / 41
Retrievalfunktionen für binäre Indexierung
Probabilistische Grundlagen des BIR-Modells
Grundlegende mathematische Techniken zur Herleitung der
probabilistischen Retrievalmodelle:
repräsentiere Anfragen und Dokumente als Mengen von Termen
T = {t1 , . . . , tn } Menge der Terme in einer Kollektion
q ∈ Q: Anfragerepräsentation
dm ∈ D:
q T : Menge von
Fragetermen
1. Benutzung von Chancen statt Wahrscheinlichkeiten, wobei
T : Menge von
dm
Dokumenttermen
Dokumentrepräsentation
einfache Retrievalfunktion: Coordination level match
O(y ) =
P(y )
P(y )
=
.
P(ȳ )
1 − P(y )
2. Anwendung des Bayes’schen Theorems:
T
|
%COORD (q, dm ) = |q T ∩ dm
P(a|b) =
Binary-Independence-Retrieval-Modell (BIR):
weise Fragetermen Gewichte zu
X
%BIR (q, dm ) =
ci
P(b|a) · P(a)
P(a, b)
=
,
P(b)
P(b)
T
ti ∈q T ∩dm
6 / 41
5 / 41
Herleitung des BIR-Modells
T)
Abschätzung von O(R|dm
T
= Chance, dass ein Dokument mit einer Menge von Termen dm
relevant zur Anfrage q ist
Repräsentation des Dokumentes dm als binären Vektor
~x = (x1 , . . . , xn )
mit
T
O(R|dm
) = O(R|~x ) =
xi =
T
1, falls ti ∈ dm
0, sonst
P(R|~x )
P(R̄|~x )
Szene aus The Big Bang Theory“ S04E02
”
8 / 41
Beispiel
Anwenden des Bayes’schen Theorems
O(R|~x ) =
P(R|~x )
P(R̄|~x )
=
dm
d1
d2
d3
d4
d5
d6
d7
d8
d9
d10
d11
P(R) P(~x |R) P(~x )
·
·
P(R̄) P(~x |R̄) P(~x )
P(R) W., dass ein arbiträres Dokument relevant ist zur
Anfrage
P(~x |R) W., dass ein arbiträres, relevantes Dokument den
Termvektor ~x besitzt
P(~x |R̄) W., dass ein arbiträres, nicht-relevantes Dokument
den Termvektor ~x besitzt
r (dm )
R
R
R
R
N
R
R
R
R
N
N
P(R) =
x1
1
1
1
1
1
1
1
1
1
1
1
x2
1
1
1
1
1
0
0
0
0
0
0
12
20
P(R|~x )
0.80
0.67
P(1, 1|R) =
dm
d12
d13
d14
d15
d16
d17
d18
d19
d20
4
12
r (dm )
R
R
R
N
N
N
R
N
N
x1
0
0
0
0
0
0
0
0
0
P(1, 1|R̄) =
x2
1
1
1
1
1
1
0
0
0
P(R|~x )
0.50
0.33
1
8
9 / 41
Annahme, dass pi = si für alle ti ∈
/ qT
Y pi
T
O(R|dm
) = O(R)
·
si
T
T
Annahme der “Linked dependence”:
P(~x |R)
P(~x |R̄)
n
Y
P(xi |R)
≈
P(x
i |R̄)
i=1
O(R|~x ) =
P(R) P(~x |R)
·
P(R̄) P(~x |R̄)
ti dm ∩q
Y
= O(R)
≈ O(R)
T ∩q T
ti dm
n
Y
P(xi |R)
·
P(xi |R̄)
i=1
Y
T ∩q T
ti dm
Aufteilen nach Vorkommen/Fehlen von Termen im aktuellen
Dokument:
Y P(xi =1|R) Y P(xi =0|R)
O(R|~x ) = O(R)
·
.
P(xi =1|R̄) x =0 P(xi =0|R̄)
x =1
i
10 / 41
= O(R)
pi
·
si
1 − pi
·
1 − si
Y
T ∩q T
ti dm
1 − pi
1 − si
Y
T
ti q T \dm
Y
T ∩q T
ti dm
Y
T
ti q T \dm
(1)
1 − si
1 − pi
1 − pi
1 − si
pi (1 − si ) Y 1 − pi
·
si (1 − pi )
1 − si
T
ti q
Nur das erste Produkt ist bezüglich einer gegebenen Anfrage q für
unterschiedliche Dokumente nicht konstant −→
Betrachte daher nur dieses Produkt für das Ranking
i
pi = P(xi =1|R) Wahrscheinlichkeit, dass ti in einem arbiträren
relevanten Dokument vorkommt
si = P(xi =1|R̄) Wahrscheinlichkeit, dass ti in einem arbiträren
nicht-relevanten Dokument vorkommt
11 / 41
12 / 41
Anwendung des BIR-Modells
Parameterabschätzung für si
Y
T
O(R|dm
) = O(R)
T ∩q T
ti dm
pi (1 − si ) Y 1 − pi
·
si (1 − pi )
1 − si
T
ti q
si = P(xi =1|R̄):
(Wahrscheinlichkeit, dass ti in einem arbiträren nicht-relevanten
Dokument vorkommt)
Übergang zum Logarithmus (ordnungserhaltend):
ci = log
pi (1 − si )
si (1 − pi )
Annahme:
Anzahl der nicht-relevanten Dokumente ≈ Größe der Kollektion
Retrievalfunktion:
%BIR (q, dm ) =
X
N – Kollektionsgröße
ni – # Dokumente mit dem Term ti
si = nNi
ci
T ∩q T
ti dm
14 / 41
13 / 41
Parameterabschätzung für pi
2. Relevance Feedback:
initiale Rangordnung nach IDF-Formel
präsentiere höchstgerankte Dokumente dem Benutzer
(etwa 10 . . . 20)
Benutzer gibt binäre Relevanzurteile ab: relevant/nicht-relevant
pi = P(xi =1|R):
(Wahrscheinlichkeit, dass ti in einem arbiträren relevanten
Dokument vorkommt)
1. benutze globalen Wert p für alle pi s
−→ Termgewichtung nach inverser Dokumentenhäufigkeit (IDF)
r : # als relevant beurteilte Dokumente zur Anfrage q
ri : # relevante Dokumente mit dem Term ti
ci
pi = P(ti |R) ≈
p
1 − si
= log
+ log
1−p
si
N − ni
= cp + log
ni
%IDF (q, dm ) =
P
T (cp
ti ∈q T ∩dm
ri
r
verbesserte Abschätzungen:
pi ≈
ri + 0.5
r +1
i
+ log N−n
ni )
oft benutzt: p = 0.5 −→ cp = 0
15 / 41
16 / 41
Beispiel für BIR
dm
d1
d2
d3
d4
d5
d6
d7
d8
d9
d10
d11
r (dm )
R
R
R
R
N
R
R
R
R
N
N
x1
1
1
1
1
1
1
1
1
1
1
1
x2
1
1
1
1
1
0
0
0
0
0
0
BIR Example
P(R|~x )
0.80
0.67
BIR
0.76
0.69
dm
d12
d13
d14
d15
d16
d17
d18
d19
d20
r (dm )
R
R
R
N
N
N
R
N
N
x1
0
0
0
0
0
0
0
0
0
x2
1
1
1
1
1
1
0
0
0
P(R|~x )
BIR
0.50
0.48
0.33
0.40
For the example collection above,
T ) via eqn. 1,
compute the values of O(R|dm
estimating the parameters directly as relative frequencies.
17 / 41
18 / 41
BM25
BM25
heuristische Erweiterung des BIR-Modells
von binärer auf gewichtete Indexierung
(Berücksichtigung der Vorkommenshäufigkeit tf )
umi
1
tfmi
20 / 41
Übergang zu gewichteter Indexierung
lm
al
tfmi :
b
k
Einfluss von k
Dokumentlänge (# laufende Wörter in dm )
durchschnittliche Dokumentlänge in D
Vorkommenshäufigkeit (Vkh) von ti in dm .
Gewichtung der Längennormalisierung, 0 ≤ b ≤ 1
Gewichtung der Vorkommenshäufigkeit
Längennormalisierung:
lm
B = (1 − b) + b
al
normalisierte Vorkommenshäufigkeit: ntfmi = tfmi /B
BM25-Gewicht:
umi
=
ntfmi
k + ntfmi
=
tfmi
k (1 − b) + b lalm + tfmi
21 / 41
Einfluss von B
22 / 41
BM25-Retrievalfunktion
%BM25 (q, dm ) =
X
umi · ci
T ∩q T
ti dm
=
X
T ∩q T
ti dm
23 / 41
tfmi
pi (1 − si )
log
lm
si (1 − pi )
k((1 − b) + b al ) + tfmi
24 / 41
Statistische Sprachmodelle
Nachteil bisher vorgestellter Modelle:
keine theoretisch fundierte Berechnung der Indexierungsgewichte
Statistische Sprachmodelle:
Statistische Sprachmodelle
I
betrachten Sprache (Folge von Wörtern) als statistischen
Prozess
I
Sprachmodell θ ist definiert als Wahrscheinlichkeitsverteilung
X
θ = {(ti , P(ti |θ)|ti ∈ T )} mit
P(ti |θ) = 1
Sprachmodell von Zhai und Lafferty
Ähnlichkeit von Wahrscheinlichkeitsverteilungen
ti ∈T
I
Wahrscheinlichkeit
Q für einen Dokumenttext d = t1 t2 t3 . . . tl :
P(d|θ) = lj=1 P(tj |θ)
I
Retrievalfunktion: betrachte Wahrscheinlichkeit, dass Frage
und Dokument vom selben Sprachmodell generiert wurden
26 / 41
Sprachmodell von Zhai und Lafferty
Parameterschätzung:
Schätzung von Ps (ti |dm ): Problem aufgrund spärlicher Daten
L Anzahl Token der Kollektion
tfim Vorkommenshäufigkeit von ti in dm
lm Dokumentlänge (Anzahl Token) von dm
cfi Kollektionshäufigkeit von ti (# Vorkommen)
W., dass Anfrage vom Sprachmodell des Dokumentes generiert
wurde:
P(q|dm ) ≈
Y
P(ti |θdm )
ti ⊆q T
=
Y
T
ti ∈q T ∩dm
=
Y
T
ti ∈q T ∩dm
Ps (ti |dm )
Y
Pavg (ti ) =
Pu (ti |dm )
T
ti ∈q T −dm
PML (ti |dm ) =
tfim
lm
schätze
Ps (ti |dm ) Y
Pu (ti |dm )
Pu (ti |dm )
T
Ps (ti |dm ) = (1 − λ)PML (ti |dm ) + λPavg (ti )
ti ∈q
Pu (ti |dm ) = αm Pavg (ti )
Ps (ti |dm ) W. dass das Dokument über ti ist, falls ti ∈ d T
Pu (ti |dm ) W. dass das Dokument über ti ist, falls ti ∈
/
cfi
L
0 ≤ λ ≤ 1: Glättungsfaktor (Jelinek-Mercer)
P
1 − ti ∈qT ∩dmT Pavg (ti )
P
αm =
1 − ti ∈qT ∩dmT PML (ti |dm )
dT
P(ti |θdm ) = Ps (ti |d), falls ti ∈ d T , =Pu (ti |d) sonst
27 / 41
28 / 41
Exercise for the Zhai-Lafferty Model
Ähnlichkeit von Wahrscheinlichkeitsverteilungen
alternative Retrievalfunktion: Kullback-Leibler Divergence
misst die Unähnlichkeit zweier statistischer Sprachmodelle
Given the following collection of documents:
I
d1 = (t1 , t1 , t1 , t2 )
I
d2 = (t1 , t1 , t3 , t3 )
I
d3 = (t1 , t2 , t2 )
I
d4 = (t2 )
I
Dokument-Sprachmodell θd (wie oben)
I
Anfrage-Sprachmodell θq (z.B. als PML (t|q))
Idee: messe relative Information
Information eines Terms: − log P(t|θ)
P(t|θ )
Differenz der Information: log P(t|θq ) − log P(t|θd ) = log P(t|θdq )
Now consider the query q = (t1 , t2 ).
Compute the language model probabilities according to the
Zhai-Lafferty model.
Let λ = 0.5 and assume αd = 1
anschließend Gewichtung entsprechend der relativen Häufigkeit des
Terms:
X
P(ti |θq )
D(θq ||θd ) =
P(ti |θq ) log
P(ti |θd )
T
ti ∈q
29 / 41
30 / 41
Das Probability-Ranking-Principle (PRP)
Das Probability-Ranking-Principle (PRP)
Entscheidungstheoretische Rechtfertigung des PRP
Rechtfertigung in Bezug auf Qualitätsmaße
Perfektes Retrieval:
ordne alle relevanten Dokumenten vor allen nicht-relevanten an
bezieht sich auf die Retrievalobjekte selbst, und ist nur bei
vollständiger Relevanzbeurteilung der Kollektion moglich
Optimales Retrieval:
bezieht sich auf die Repräsentationen (wie jedes IR-System)
Probability Ranking Principle (PRP)
definiert optimales Retrieval für probabilistische Modelle:
ordne die Dokumente nach der absteigenden Wahrscheinlichkeit
der Relevanz
32 / 41
Entscheidungstheoretische Rechtfertigung des PRP
Minimierung der Gesamtkosten
C̄ : Kosten für Retrieval eines nicht-relevanten Dokumentes
C : Kosten für Retrieval eines relevanten Dokumentes
erwartete Kosten für das Retrieval eines Dokuments dj :
EC (q, dj ) = C · P(R|q, dj ) + C̄ (1 − P(R|q, dj ))
Gesamtkosten für das Retrieval:
(angenommen, der Benutzer betrachtet die ersten l Dokumente,
wobei l nicht im Voraus bekannt ist)
r (i): Ranking-Funktion, bestimmt den Index des Dokuments für
den Rang i
EC (q, l) = EC (q, dr (1) , dr (2) , . . . , dr (l) )
=
l
X
EC (q, dr (i) )
i=1
P
Mimimale Gesamtkosten → minimiere li=1 EC (q, dr (i) ) →
r (i) sollte Dokumente nach aufsteigenden Kosten sortieren
33 / 41
Entscheidungstheoretische Regel:
34 / 41
PRP-Beispiel
EC (q, dr (i) ) ≤ EC (q, dr (i+1) )
System berechnet folgende Relevanzwahrscheinlichkeiten
P(R|q, d):
(0.9, 0.8, 0.5, 0.4, 0.35, 0.3, 0.25, 0.2, 0.15, 0.1, 0.05, 0.0)
Benutzer schaut sich nur die ersten drei Dokumente an
1. Sei C = 0 und C̄ = 2.
Wie hoch sind die erwarteten Kosten für den Nutzer?
⇐⇒ C · P(R|q, dr (i) ) + C̄ (1 − P(R|q, dr (i) )) ≤
C · P(R|q, dr (i+1) ) + C̄ 1 − P(R|q, dr (i+1) )
⇐⇒ P(R|q, dr (i) ) C − C̄ + C̄ ≤
P(R|q, dr (i+1) ) C − C̄ + C̄
2. Erwartete Precision?
3. Erwarteter Recall?
⇐⇒ (da C < C̄ ): P(R|q, dr (i) ) ≥ P(R|q, dr (i+1) ).
ordne Dokumente nach der absteigenden Wahrscheinlichkeit der
Relevanz!
1. EC (q, d) = C · P(R|q, d) + C̄ (1 − P(R|q, d)) =
2 · (1 − P(R|q, d))
EC (q) = 2 · 0.1 + 2 · 0.2 + 2 · 0.5 = 1.6
2. p = (0.9 + 0.8 + 0.5)/3 = 0.73
P
3.
r = (0.9 + 0.8 + 0.5)/4 = 0.55
i P(R|q, di ) = 4,
35 / 41
36 / 41
Rechtfertigung in Bezug auf Qualitätsmaße
Zusammenfassung PRP
I
Minimale Kosten bei Ordnung nach fallender
Relevanzwahrscheinlichkeit
I
(Kosten als Optimierungskriterium für Retrieval)
1. vorgegebene Anzahl gefundener Dokumente
PRP maximiert erwarteten Recall und erwartete Precision
I
PRP: Ordnung nach fallender Relevanzwahrscheinlichkeit
liefert optimales Retrieval
2. vorgegebener Recall
PRP maximiert erwartete Precision
I
Dadurch theoretische Rechtfertigung für probabilistisches
Retrieval
I
Für andere Modelle lässt sich dieser Zusammenhang nicht
beweisen
(z.B. bei Ranking nach fallender Ähnlichkeit beim VRM oder
optimales Relevance Feedback“ gibt es keinen direkten
”
Zusammenhang mit Retrievalqualität)
37 / 41
BIR Exercise
38 / 41
Exercise for the Zhai-Lafferty Model
T ) via eqn. 1, estimating the
Compute the values of O(R|dm
parameters directly as relative frequencies.
p1 =
s1 =
8
2
=
12
3
3
8
p2 =
s2 =
7
12
4
1
=
8
2
Given the following collection of documents:
12
3
O(R) =
=
8
2
p1 p2
28
=
s1 s2
9
28
O(R|(1, 1))
=
≈ 0.76
1 + O(R|(1, 1))
37
O(R|(1, 1)) = O(R)
P(R|(1, 1)) =
d1 = (t1 , t1 , t1 , t2 )
I
d2 = (t1 , t1 , t3 , t3 )
I
d3 = (t1 , t2 , t2 )
I
d4 = (t2 )
Now consider the query q = (t1 , , t2 ).
Compute the language model probabilities according to the
Zhai-Lafferty model.
Let λ = 0.5 and assume αd = 1
p1 1 − p2
20
=
s1 1 − s2
9
O(R|(1, 0))
20
=
≈ 0.69
1 + O(R|(1, 0))
29
O(R|(1, 0)) = O(R)
P(R|(1, 0)) =
I
39 / 41
40 / 41
Exercise for the Zhai-Lafferty Model (2)
4
1
=
12
3
3 1
0.5(PML (t1 |d1 ) + Pavg (t1 )) = 0.5( + ) =
4 2
1 1
0.5(PML (t2 |d1 ) + Pavg (t2 )) = 0.5( + ) =
4 3
35
P(t1 |d1 )P(t2 |d1 ) =
≈ 0.18
192
1
Pavg (t2 ) =
3
Pavg (t1 ) =
P(t1 |d1 ) =
P(t2 |d1 ) =
P(q|d1 ) =
P(t2 |d2 ) =
P(q|d1 ) =
P(q|d2 ) =
1
6
=
12
2
Pavg (t2 ) =
35
≈ 0.18 P(q|d ) =
3
192
1
≈ 0.17
P(q|d4 ) =
6
5
8
7
24
5
≈ 0.21
24
1
≈ 0.33
3
41 / 41

Handout

Transcription

Documents pareils

2015 Informationen zur Zentralen Klassenarbeit, 2016

Original Zippo Benzinfeuerzeug mit Lasergravur

2014_08_22-Goezlerimizi_Haramdan_Korumak

orıentrock that lınks the heart of europe wıth the edge of asıa

istanbul türkiye

Turkin kielen opas. Jorma Atilla, Yliopistopaino ReIsinki University

Wann bekomme ich meine Rechnung oder Quittung für mein online

CS PortfolioReal

Checkliste - Druckerei Simonowski

Information Retrieval

Das Wesentliche auf einen Blick

Auslesen von SAS Systeminformationen über die aktuelle Log

Ueber die Anzahl der Primzahlen unter einer gegebenen Grösse

Generalisierte Lineare Modelle

Skript - Institut für Informatik