Handout

Transcription

Handout
Internet-Suchmaschinen
Probabilistische Retrievalmodelle
Notationen
Norbert Fuhr
1 / 41
Notationen
Q
R
αQ
Q
βQ
QD
ρ
rel.
Binary-Independence-Retrieval-Modell
IR
judg.
D
αD
D
q ∈ Q Anfrage/Info-bed.
βD
DD
dm ∈ D Dokument
q ∈ Q Anfragerepräs.
d ∈ D Dokumentrepräs.
q D ∈ Q D Anfragebeschr.
D ∈ D D Dokumentbeschr.
dm
R Relevanzskala
Retrievalfunktionen für binäre Indexierung
Probabilistische Grundlagen des BIR-Modells
Anwendung des BIR-Modells
% Retrievalfunktion
IR Retrievalwert
3 / 41
Retrievalfunktionen für binäre Indexierung
Probabilistische Grundlagen des BIR-Modells
Grundlegende mathematische Techniken zur Herleitung der
probabilistischen Retrievalmodelle:
repräsentiere Anfragen und Dokumente als Mengen von Termen
T = {t1 , . . . , tn } Menge der Terme in einer Kollektion
q ∈ Q: Anfragerepräsentation
dm ∈ D:
q T : Menge von
Fragetermen
1. Benutzung von Chancen statt Wahrscheinlichkeiten, wobei
T : Menge von
dm
Dokumenttermen
Dokumentrepräsentation
einfache Retrievalfunktion: Coordination level match
O(y ) =
P(y )
P(y )
=
.
P(ȳ )
1 − P(y )
2. Anwendung des Bayes’schen Theorems:
T
|
%COORD (q, dm ) = |q T ∩ dm
P(a|b) =
Binary-Independence-Retrieval-Modell (BIR):
weise Fragetermen Gewichte zu
X
%BIR (q, dm ) =
ci
P(b|a) · P(a)
P(a, b)
=
,
P(b)
P(b)
T
ti ∈q T ∩dm
6 / 41
5 / 41
Herleitung des BIR-Modells
T)
Abschätzung von O(R|dm
T
= Chance, dass ein Dokument mit einer Menge von Termen dm
relevant zur Anfrage q ist
Repräsentation des Dokumentes dm als binären Vektor
~x = (x1 , . . . , xn )
mit
T
O(R|dm
) = O(R|~x ) =
xi =
T
1, falls ti ∈ dm
0, sonst
P(R|~x )
P(R̄|~x )
Szene aus The Big Bang Theory“ S04E02
”
8 / 41
Beispiel
Anwenden des Bayes’schen Theorems
O(R|~x ) =
P(R|~x )
P(R̄|~x )
=
dm
d1
d2
d3
d4
d5
d6
d7
d8
d9
d10
d11
P(R) P(~x |R) P(~x )
·
·
P(R̄) P(~x |R̄) P(~x )
P(R) W., dass ein arbiträres Dokument relevant ist zur
Anfrage
P(~x |R) W., dass ein arbiträres, relevantes Dokument den
Termvektor ~x besitzt
P(~x |R̄) W., dass ein arbiträres, nicht-relevantes Dokument
den Termvektor ~x besitzt
r (dm )
R
R
R
R
N
R
R
R
R
N
N
P(R) =
x1
1
1
1
1
1
1
1
1
1
1
1
x2
1
1
1
1
1
0
0
0
0
0
0
12
20
P(R|~x )
0.80
0.67
P(1, 1|R) =
dm
d12
d13
d14
d15
d16
d17
d18
d19
d20
4
12
r (dm )
R
R
R
N
N
N
R
N
N
x1
0
0
0
0
0
0
0
0
0
P(1, 1|R̄) =
x2
1
1
1
1
1
1
0
0
0
P(R|~x )
0.50
0.33
1
8
9 / 41
Annahme, dass pi = si für alle ti ∈
/ qT
Y pi
T
O(R|dm
) = O(R)
·
si
T
T
Annahme der “Linked dependence”:
P(~x |R)
P(~x |R̄)
n
Y
P(xi |R)
≈
P(x
i |R̄)
i=1
O(R|~x ) =
P(R) P(~x |R)
·
P(R̄) P(~x |R̄)
ti dm ∩q
Y
= O(R)
≈ O(R)
T ∩q T
ti dm
n
Y
P(xi |R)
·
P(xi |R̄)
i=1
Y
T ∩q T
ti dm
Aufteilen nach Vorkommen/Fehlen von Termen im aktuellen
Dokument:
Y P(xi =1|R) Y P(xi =0|R)
O(R|~x ) = O(R)
·
.
P(xi =1|R̄) x =0 P(xi =0|R̄)
x =1
i
10 / 41
= O(R)
pi
·
si
1 − pi
·
1 − si
Y
T ∩q T
ti dm
1 − pi
1 − si
Y
T
ti q T \dm
Y
T ∩q T
ti dm
Y
T
ti q T \dm
(1)
1 − si
1 − pi
1 − pi
1 − si
pi (1 − si ) Y 1 − pi
·
si (1 − pi )
1 − si
T
ti q
Nur das erste Produkt ist bezüglich einer gegebenen Anfrage q für
unterschiedliche Dokumente nicht konstant −→
Betrachte daher nur dieses Produkt für das Ranking
i
pi = P(xi =1|R) Wahrscheinlichkeit, dass ti in einem arbiträren
relevanten Dokument vorkommt
si = P(xi =1|R̄) Wahrscheinlichkeit, dass ti in einem arbiträren
nicht-relevanten Dokument vorkommt
11 / 41
12 / 41
Anwendung des BIR-Modells
Parameterabschätzung für si
Y
T
O(R|dm
) = O(R)
T ∩q T
ti dm
pi (1 − si ) Y 1 − pi
·
si (1 − pi )
1 − si
T
ti q
si = P(xi =1|R̄):
(Wahrscheinlichkeit, dass ti in einem arbiträren nicht-relevanten
Dokument vorkommt)
Übergang zum Logarithmus (ordnungserhaltend):
ci = log
pi (1 − si )
si (1 − pi )
Annahme:
Anzahl der nicht-relevanten Dokumente ≈ Größe der Kollektion
Retrievalfunktion:
%BIR (q, dm ) =
X
N – Kollektionsgröße
ni – # Dokumente mit dem Term ti
si = nNi
ci
T ∩q T
ti dm
14 / 41
13 / 41
Parameterabschätzung für pi
2. Relevance Feedback:
initiale Rangordnung nach IDF-Formel
präsentiere höchstgerankte Dokumente dem Benutzer
(etwa 10 . . . 20)
Benutzer gibt binäre Relevanzurteile ab: relevant/nicht-relevant
pi = P(xi =1|R):
(Wahrscheinlichkeit, dass ti in einem arbiträren relevanten
Dokument vorkommt)
1. benutze globalen Wert p für alle pi s
−→ Termgewichtung nach inverser Dokumentenhäufigkeit (IDF)
r : # als relevant beurteilte Dokumente zur Anfrage q
ri : # relevante Dokumente mit dem Term ti
ci
pi = P(ti |R) ≈
p
1 − si
= log
+ log
1−p
si
N − ni
= cp + log
ni
%IDF (q, dm ) =
P
T (cp
ti ∈q T ∩dm
ri
r
verbesserte Abschätzungen:
pi ≈
ri + 0.5
r +1
i
+ log N−n
ni )
oft benutzt: p = 0.5 −→ cp = 0
15 / 41
16 / 41
Beispiel für BIR
dm
d1
d2
d3
d4
d5
d6
d7
d8
d9
d10
d11
r (dm )
R
R
R
R
N
R
R
R
R
N
N
x1
1
1
1
1
1
1
1
1
1
1
1
x2
1
1
1
1
1
0
0
0
0
0
0
BIR Example
P(R|~x )
0.80
0.67
BIR
0.76
0.69
dm
d12
d13
d14
d15
d16
d17
d18
d19
d20
r (dm )
R
R
R
N
N
N
R
N
N
x1
0
0
0
0
0
0
0
0
0
x2
1
1
1
1
1
1
0
0
0
P(R|~x )
BIR
0.50
0.48
0.33
0.40
For the example collection above,
T ) via eqn. 1,
compute the values of O(R|dm
estimating the parameters directly as relative frequencies.
17 / 41
18 / 41
BM25
BM25
heuristische Erweiterung des BIR-Modells
von binärer auf gewichtete Indexierung
(Berücksichtigung der Vorkommenshäufigkeit tf )
umi
1
tfmi
20 / 41
Übergang zu gewichteter Indexierung
lm
al
tfmi :
b
k
Einfluss von k
Dokumentlänge (# laufende Wörter in dm )
durchschnittliche Dokumentlänge in D
Vorkommenshäufigkeit (Vkh) von ti in dm .
Gewichtung der Längennormalisierung, 0 ≤ b ≤ 1
Gewichtung der Vorkommenshäufigkeit
Längennormalisierung:
lm
B = (1 − b) + b
al
normalisierte Vorkommenshäufigkeit: ntfmi = tfmi /B
BM25-Gewicht:
umi
=
ntfmi
k + ntfmi
=
tfmi
k (1 − b) + b lalm + tfmi
21 / 41
Einfluss von B
22 / 41
BM25-Retrievalfunktion
%BM25 (q, dm ) =
X
umi · ci
T ∩q T
ti dm
=
X
T ∩q T
ti dm
23 / 41
tfmi
pi (1 − si )
log
lm
si (1 − pi )
k((1 − b) + b al ) + tfmi
24 / 41
Statistische Sprachmodelle
Nachteil bisher vorgestellter Modelle:
keine theoretisch fundierte Berechnung der Indexierungsgewichte
Statistische Sprachmodelle:
Statistische Sprachmodelle
I
betrachten Sprache (Folge von Wörtern) als statistischen
Prozess
I
Sprachmodell θ ist definiert als Wahrscheinlichkeitsverteilung
X
θ = {(ti , P(ti |θ)|ti ∈ T )} mit
P(ti |θ) = 1
Sprachmodell von Zhai und Lafferty
Ähnlichkeit von Wahrscheinlichkeitsverteilungen
ti ∈T
I
Wahrscheinlichkeit
Q für einen Dokumenttext d = t1 t2 t3 . . . tl :
P(d|θ) = lj=1 P(tj |θ)
I
Retrievalfunktion: betrachte Wahrscheinlichkeit, dass Frage
und Dokument vom selben Sprachmodell generiert wurden
26 / 41
Sprachmodell von Zhai und Lafferty
Parameterschätzung:
Schätzung von Ps (ti |dm ): Problem aufgrund spärlicher Daten
L Anzahl Token der Kollektion
tfim Vorkommenshäufigkeit von ti in dm
lm Dokumentlänge (Anzahl Token) von dm
cfi Kollektionshäufigkeit von ti (# Vorkommen)
W., dass Anfrage vom Sprachmodell des Dokumentes generiert
wurde:
P(q|dm ) ≈
Y
P(ti |θdm )
ti ⊆q T
=
Y
T
ti ∈q T ∩dm
=
Y
T
ti ∈q T ∩dm
Ps (ti |dm )
Y
Pavg (ti ) =
Pu (ti |dm )
T
ti ∈q T −dm
PML (ti |dm ) =
tfim
lm
schätze
Ps (ti |dm ) Y
Pu (ti |dm )
Pu (ti |dm )
T
Ps (ti |dm ) = (1 − λ)PML (ti |dm ) + λPavg (ti )
ti ∈q
Pu (ti |dm ) = αm Pavg (ti )
Ps (ti |dm ) W. dass das Dokument über ti ist, falls ti ∈ d T
Pu (ti |dm ) W. dass das Dokument über ti ist, falls ti ∈
/
cfi
L
0 ≤ λ ≤ 1: Glättungsfaktor (Jelinek-Mercer)
P
1 − ti ∈qT ∩dmT Pavg (ti )
P
αm =
1 − ti ∈qT ∩dmT PML (ti |dm )
dT
P(ti |θdm ) = Ps (ti |d), falls ti ∈ d T , =Pu (ti |d) sonst
27 / 41
28 / 41
Exercise for the Zhai-Lafferty Model
Ähnlichkeit von Wahrscheinlichkeitsverteilungen
alternative Retrievalfunktion: Kullback-Leibler Divergence
misst die Unähnlichkeit zweier statistischer Sprachmodelle
Given the following collection of documents:
I
d1 = (t1 , t1 , t1 , t2 )
I
d2 = (t1 , t1 , t3 , t3 )
I
d3 = (t1 , t2 , t2 )
I
d4 = (t2 )
I
Dokument-Sprachmodell θd (wie oben)
I
Anfrage-Sprachmodell θq (z.B. als PML (t|q))
Idee: messe relative Information
Information eines Terms: − log P(t|θ)
P(t|θ )
Differenz der Information: log P(t|θq ) − log P(t|θd ) = log P(t|θdq )
Now consider the query q = (t1 , t2 ).
Compute the language model probabilities according to the
Zhai-Lafferty model.
Let λ = 0.5 and assume αd = 1
anschließend Gewichtung entsprechend der relativen Häufigkeit des
Terms:
X
P(ti |θq )
D(θq ||θd ) =
P(ti |θq ) log
P(ti |θd )
T
ti ∈q
29 / 41
30 / 41
Das Probability-Ranking-Principle (PRP)
Das Probability-Ranking-Principle (PRP)
Entscheidungstheoretische Rechtfertigung des PRP
Rechtfertigung in Bezug auf Qualitätsmaße
Perfektes Retrieval:
ordne alle relevanten Dokumenten vor allen nicht-relevanten an
bezieht sich auf die Retrievalobjekte selbst, und ist nur bei
vollständiger Relevanzbeurteilung der Kollektion moglich
Optimales Retrieval:
bezieht sich auf die Repräsentationen (wie jedes IR-System)
Probability Ranking Principle (PRP)
definiert optimales Retrieval für probabilistische Modelle:
ordne die Dokumente nach der absteigenden Wahrscheinlichkeit
der Relevanz
32 / 41
Entscheidungstheoretische Rechtfertigung des PRP
Minimierung der Gesamtkosten
C̄ : Kosten für Retrieval eines nicht-relevanten Dokumentes
C : Kosten für Retrieval eines relevanten Dokumentes
erwartete Kosten für das Retrieval eines Dokuments dj :
EC (q, dj ) = C · P(R|q, dj ) + C̄ (1 − P(R|q, dj ))
Gesamtkosten für das Retrieval:
(angenommen, der Benutzer betrachtet die ersten l Dokumente,
wobei l nicht im Voraus bekannt ist)
r (i): Ranking-Funktion, bestimmt den Index des Dokuments für
den Rang i
EC (q, l) = EC (q, dr (1) , dr (2) , . . . , dr (l) )
=
l
X
EC (q, dr (i) )
i=1
P
Mimimale Gesamtkosten → minimiere li=1 EC (q, dr (i) ) →
r (i) sollte Dokumente nach aufsteigenden Kosten sortieren
33 / 41
Entscheidungstheoretische Regel:
34 / 41
PRP-Beispiel
EC (q, dr (i) ) ≤ EC (q, dr (i+1) )
System berechnet folgende Relevanzwahrscheinlichkeiten
P(R|q, d):
(0.9, 0.8, 0.5, 0.4, 0.35, 0.3, 0.25, 0.2, 0.15, 0.1, 0.05, 0.0)
Benutzer schaut sich nur die ersten drei Dokumente an
1. Sei C = 0 und C̄ = 2.
Wie hoch sind die erwarteten Kosten für den Nutzer?
⇐⇒ C · P(R|q, dr (i) ) + C̄ (1 − P(R|q, dr (i) )) ≤
C · P(R|q, dr (i+1) ) + C̄ 1 − P(R|q, dr (i+1) )
⇐⇒ P(R|q, dr (i) ) C − C̄ + C̄ ≤
P(R|q, dr (i+1) ) C − C̄ + C̄
2. Erwartete Precision?
3. Erwarteter Recall?
⇐⇒ (da C < C̄ ): P(R|q, dr (i) ) ≥ P(R|q, dr (i+1) ).
ordne Dokumente nach der absteigenden Wahrscheinlichkeit der
Relevanz!
1. EC (q, d) = C · P(R|q, d) + C̄ (1 − P(R|q, d)) =
2 · (1 − P(R|q, d))
EC (q) = 2 · 0.1 + 2 · 0.2 + 2 · 0.5 = 1.6
2. p = (0.9 + 0.8 + 0.5)/3 = 0.73
P
3.
r = (0.9 + 0.8 + 0.5)/4 = 0.55
i P(R|q, di ) = 4,
35 / 41
36 / 41
Rechtfertigung in Bezug auf Qualitätsmaße
Zusammenfassung PRP
I
Minimale Kosten bei Ordnung nach fallender
Relevanzwahrscheinlichkeit
I
(Kosten als Optimierungskriterium für Retrieval)
1. vorgegebene Anzahl gefundener Dokumente
PRP maximiert erwarteten Recall und erwartete Precision
I
PRP: Ordnung nach fallender Relevanzwahrscheinlichkeit
liefert optimales Retrieval
2. vorgegebener Recall
PRP maximiert erwartete Precision
I
Dadurch theoretische Rechtfertigung für probabilistisches
Retrieval
I
Für andere Modelle lässt sich dieser Zusammenhang nicht
beweisen
(z.B. bei Ranking nach fallender Ähnlichkeit beim VRM oder
optimales Relevance Feedback“ gibt es keinen direkten
”
Zusammenhang mit Retrievalqualität)
37 / 41
BIR Exercise
38 / 41
Exercise for the Zhai-Lafferty Model
T ) via eqn. 1, estimating the
Compute the values of O(R|dm
parameters directly as relative frequencies.
p1 =
s1 =
8
2
=
12
3
3
8
p2 =
s2 =
7
12
4
1
=
8
2
Given the following collection of documents:
12
3
O(R) =
=
8
2
p1 p2
28
=
s1 s2
9
28
O(R|(1, 1))
=
≈ 0.76
1 + O(R|(1, 1))
37
O(R|(1, 1)) = O(R)
P(R|(1, 1)) =
d1 = (t1 , t1 , t1 , t2 )
I
d2 = (t1 , t1 , t3 , t3 )
I
d3 = (t1 , t2 , t2 )
I
d4 = (t2 )
Now consider the query q = (t1 , , t2 ).
Compute the language model probabilities according to the
Zhai-Lafferty model.
Let λ = 0.5 and assume αd = 1
p1 1 − p2
20
=
s1 1 − s2
9
O(R|(1, 0))
20
=
≈ 0.69
1 + O(R|(1, 0))
29
O(R|(1, 0)) = O(R)
P(R|(1, 0)) =
I
39 / 41
40 / 41
Exercise for the Zhai-Lafferty Model (2)
4
1
=
12
3
3 1
0.5(PML (t1 |d1 ) + Pavg (t1 )) = 0.5( + ) =
4 2
1 1
0.5(PML (t2 |d1 ) + Pavg (t2 )) = 0.5( + ) =
4 3
35
P(t1 |d1 )P(t2 |d1 ) =
≈ 0.18
192
1
Pavg (t2 ) =
3
Pavg (t1 ) =
P(t1 |d1 ) =
P(t2 |d1 ) =
P(q|d1 ) =
P(t2 |d2 ) =
P(q|d1 ) =
P(q|d2 ) =
1
6
=
12
2
Pavg (t2 ) =
35
≈ 0.18 P(q|d ) =
3
192
1
≈ 0.17
P(q|d4 ) =
6
5
8
7
24
5
≈ 0.21
24
1
≈ 0.33
3
41 / 41