Handout
Transcription
Handout
Internet-Suchmaschinen Probabilistische Retrievalmodelle Notationen Norbert Fuhr 1 / 41 Notationen Q R αQ Q βQ QD ρ rel. Binary-Independence-Retrieval-Modell IR judg. D αD D q ∈ Q Anfrage/Info-bed. βD DD dm ∈ D Dokument q ∈ Q Anfragerepräs. d ∈ D Dokumentrepräs. q D ∈ Q D Anfragebeschr. D ∈ D D Dokumentbeschr. dm R Relevanzskala Retrievalfunktionen für binäre Indexierung Probabilistische Grundlagen des BIR-Modells Anwendung des BIR-Modells % Retrievalfunktion IR Retrievalwert 3 / 41 Retrievalfunktionen für binäre Indexierung Probabilistische Grundlagen des BIR-Modells Grundlegende mathematische Techniken zur Herleitung der probabilistischen Retrievalmodelle: repräsentiere Anfragen und Dokumente als Mengen von Termen T = {t1 , . . . , tn } Menge der Terme in einer Kollektion q ∈ Q: Anfragerepräsentation dm ∈ D: q T : Menge von Fragetermen 1. Benutzung von Chancen statt Wahrscheinlichkeiten, wobei T : Menge von dm Dokumenttermen Dokumentrepräsentation einfache Retrievalfunktion: Coordination level match O(y ) = P(y ) P(y ) = . P(ȳ ) 1 − P(y ) 2. Anwendung des Bayes’schen Theorems: T | %COORD (q, dm ) = |q T ∩ dm P(a|b) = Binary-Independence-Retrieval-Modell (BIR): weise Fragetermen Gewichte zu X %BIR (q, dm ) = ci P(b|a) · P(a) P(a, b) = , P(b) P(b) T ti ∈q T ∩dm 6 / 41 5 / 41 Herleitung des BIR-Modells T) Abschätzung von O(R|dm T = Chance, dass ein Dokument mit einer Menge von Termen dm relevant zur Anfrage q ist Repräsentation des Dokumentes dm als binären Vektor ~x = (x1 , . . . , xn ) mit T O(R|dm ) = O(R|~x ) = xi = T 1, falls ti ∈ dm 0, sonst P(R|~x ) P(R̄|~x ) Szene aus The Big Bang Theory“ S04E02 ” 8 / 41 Beispiel Anwenden des Bayes’schen Theorems O(R|~x ) = P(R|~x ) P(R̄|~x ) = dm d1 d2 d3 d4 d5 d6 d7 d8 d9 d10 d11 P(R) P(~x |R) P(~x ) · · P(R̄) P(~x |R̄) P(~x ) P(R) W., dass ein arbiträres Dokument relevant ist zur Anfrage P(~x |R) W., dass ein arbiträres, relevantes Dokument den Termvektor ~x besitzt P(~x |R̄) W., dass ein arbiträres, nicht-relevantes Dokument den Termvektor ~x besitzt r (dm ) R R R R N R R R R N N P(R) = x1 1 1 1 1 1 1 1 1 1 1 1 x2 1 1 1 1 1 0 0 0 0 0 0 12 20 P(R|~x ) 0.80 0.67 P(1, 1|R) = dm d12 d13 d14 d15 d16 d17 d18 d19 d20 4 12 r (dm ) R R R N N N R N N x1 0 0 0 0 0 0 0 0 0 P(1, 1|R̄) = x2 1 1 1 1 1 1 0 0 0 P(R|~x ) 0.50 0.33 1 8 9 / 41 Annahme, dass pi = si für alle ti ∈ / qT Y pi T O(R|dm ) = O(R) · si T T Annahme der “Linked dependence”: P(~x |R) P(~x |R̄) n Y P(xi |R) ≈ P(x i |R̄) i=1 O(R|~x ) = P(R) P(~x |R) · P(R̄) P(~x |R̄) ti dm ∩q Y = O(R) ≈ O(R) T ∩q T ti dm n Y P(xi |R) · P(xi |R̄) i=1 Y T ∩q T ti dm Aufteilen nach Vorkommen/Fehlen von Termen im aktuellen Dokument: Y P(xi =1|R) Y P(xi =0|R) O(R|~x ) = O(R) · . P(xi =1|R̄) x =0 P(xi =0|R̄) x =1 i 10 / 41 = O(R) pi · si 1 − pi · 1 − si Y T ∩q T ti dm 1 − pi 1 − si Y T ti q T \dm Y T ∩q T ti dm Y T ti q T \dm (1) 1 − si 1 − pi 1 − pi 1 − si pi (1 − si ) Y 1 − pi · si (1 − pi ) 1 − si T ti q Nur das erste Produkt ist bezüglich einer gegebenen Anfrage q für unterschiedliche Dokumente nicht konstant −→ Betrachte daher nur dieses Produkt für das Ranking i pi = P(xi =1|R) Wahrscheinlichkeit, dass ti in einem arbiträren relevanten Dokument vorkommt si = P(xi =1|R̄) Wahrscheinlichkeit, dass ti in einem arbiträren nicht-relevanten Dokument vorkommt 11 / 41 12 / 41 Anwendung des BIR-Modells Parameterabschätzung für si Y T O(R|dm ) = O(R) T ∩q T ti dm pi (1 − si ) Y 1 − pi · si (1 − pi ) 1 − si T ti q si = P(xi =1|R̄): (Wahrscheinlichkeit, dass ti in einem arbiträren nicht-relevanten Dokument vorkommt) Übergang zum Logarithmus (ordnungserhaltend): ci = log pi (1 − si ) si (1 − pi ) Annahme: Anzahl der nicht-relevanten Dokumente ≈ Größe der Kollektion Retrievalfunktion: %BIR (q, dm ) = X N – Kollektionsgröße ni – # Dokumente mit dem Term ti si = nNi ci T ∩q T ti dm 14 / 41 13 / 41 Parameterabschätzung für pi 2. Relevance Feedback: initiale Rangordnung nach IDF-Formel präsentiere höchstgerankte Dokumente dem Benutzer (etwa 10 . . . 20) Benutzer gibt binäre Relevanzurteile ab: relevant/nicht-relevant pi = P(xi =1|R): (Wahrscheinlichkeit, dass ti in einem arbiträren relevanten Dokument vorkommt) 1. benutze globalen Wert p für alle pi s −→ Termgewichtung nach inverser Dokumentenhäufigkeit (IDF) r : # als relevant beurteilte Dokumente zur Anfrage q ri : # relevante Dokumente mit dem Term ti ci pi = P(ti |R) ≈ p 1 − si = log + log 1−p si N − ni = cp + log ni %IDF (q, dm ) = P T (cp ti ∈q T ∩dm ri r verbesserte Abschätzungen: pi ≈ ri + 0.5 r +1 i + log N−n ni ) oft benutzt: p = 0.5 −→ cp = 0 15 / 41 16 / 41 Beispiel für BIR dm d1 d2 d3 d4 d5 d6 d7 d8 d9 d10 d11 r (dm ) R R R R N R R R R N N x1 1 1 1 1 1 1 1 1 1 1 1 x2 1 1 1 1 1 0 0 0 0 0 0 BIR Example P(R|~x ) 0.80 0.67 BIR 0.76 0.69 dm d12 d13 d14 d15 d16 d17 d18 d19 d20 r (dm ) R R R N N N R N N x1 0 0 0 0 0 0 0 0 0 x2 1 1 1 1 1 1 0 0 0 P(R|~x ) BIR 0.50 0.48 0.33 0.40 For the example collection above, T ) via eqn. 1, compute the values of O(R|dm estimating the parameters directly as relative frequencies. 17 / 41 18 / 41 BM25 BM25 heuristische Erweiterung des BIR-Modells von binärer auf gewichtete Indexierung (Berücksichtigung der Vorkommenshäufigkeit tf ) umi 1 tfmi 20 / 41 Übergang zu gewichteter Indexierung lm al tfmi : b k Einfluss von k Dokumentlänge (# laufende Wörter in dm ) durchschnittliche Dokumentlänge in D Vorkommenshäufigkeit (Vkh) von ti in dm . Gewichtung der Längennormalisierung, 0 ≤ b ≤ 1 Gewichtung der Vorkommenshäufigkeit Längennormalisierung: lm B = (1 − b) + b al normalisierte Vorkommenshäufigkeit: ntfmi = tfmi /B BM25-Gewicht: umi = ntfmi k + ntfmi = tfmi k (1 − b) + b lalm + tfmi 21 / 41 Einfluss von B 22 / 41 BM25-Retrievalfunktion %BM25 (q, dm ) = X umi · ci T ∩q T ti dm = X T ∩q T ti dm 23 / 41 tfmi pi (1 − si ) log lm si (1 − pi ) k((1 − b) + b al ) + tfmi 24 / 41 Statistische Sprachmodelle Nachteil bisher vorgestellter Modelle: keine theoretisch fundierte Berechnung der Indexierungsgewichte Statistische Sprachmodelle: Statistische Sprachmodelle I betrachten Sprache (Folge von Wörtern) als statistischen Prozess I Sprachmodell θ ist definiert als Wahrscheinlichkeitsverteilung X θ = {(ti , P(ti |θ)|ti ∈ T )} mit P(ti |θ) = 1 Sprachmodell von Zhai und Lafferty Ähnlichkeit von Wahrscheinlichkeitsverteilungen ti ∈T I Wahrscheinlichkeit Q für einen Dokumenttext d = t1 t2 t3 . . . tl : P(d|θ) = lj=1 P(tj |θ) I Retrievalfunktion: betrachte Wahrscheinlichkeit, dass Frage und Dokument vom selben Sprachmodell generiert wurden 26 / 41 Sprachmodell von Zhai und Lafferty Parameterschätzung: Schätzung von Ps (ti |dm ): Problem aufgrund spärlicher Daten L Anzahl Token der Kollektion tfim Vorkommenshäufigkeit von ti in dm lm Dokumentlänge (Anzahl Token) von dm cfi Kollektionshäufigkeit von ti (# Vorkommen) W., dass Anfrage vom Sprachmodell des Dokumentes generiert wurde: P(q|dm ) ≈ Y P(ti |θdm ) ti ⊆q T = Y T ti ∈q T ∩dm = Y T ti ∈q T ∩dm Ps (ti |dm ) Y Pavg (ti ) = Pu (ti |dm ) T ti ∈q T −dm PML (ti |dm ) = tfim lm schätze Ps (ti |dm ) Y Pu (ti |dm ) Pu (ti |dm ) T Ps (ti |dm ) = (1 − λ)PML (ti |dm ) + λPavg (ti ) ti ∈q Pu (ti |dm ) = αm Pavg (ti ) Ps (ti |dm ) W. dass das Dokument über ti ist, falls ti ∈ d T Pu (ti |dm ) W. dass das Dokument über ti ist, falls ti ∈ / cfi L 0 ≤ λ ≤ 1: Glättungsfaktor (Jelinek-Mercer) P 1 − ti ∈qT ∩dmT Pavg (ti ) P αm = 1 − ti ∈qT ∩dmT PML (ti |dm ) dT P(ti |θdm ) = Ps (ti |d), falls ti ∈ d T , =Pu (ti |d) sonst 27 / 41 28 / 41 Exercise for the Zhai-Lafferty Model Ähnlichkeit von Wahrscheinlichkeitsverteilungen alternative Retrievalfunktion: Kullback-Leibler Divergence misst die Unähnlichkeit zweier statistischer Sprachmodelle Given the following collection of documents: I d1 = (t1 , t1 , t1 , t2 ) I d2 = (t1 , t1 , t3 , t3 ) I d3 = (t1 , t2 , t2 ) I d4 = (t2 ) I Dokument-Sprachmodell θd (wie oben) I Anfrage-Sprachmodell θq (z.B. als PML (t|q)) Idee: messe relative Information Information eines Terms: − log P(t|θ) P(t|θ ) Differenz der Information: log P(t|θq ) − log P(t|θd ) = log P(t|θdq ) Now consider the query q = (t1 , t2 ). Compute the language model probabilities according to the Zhai-Lafferty model. Let λ = 0.5 and assume αd = 1 anschließend Gewichtung entsprechend der relativen Häufigkeit des Terms: X P(ti |θq ) D(θq ||θd ) = P(ti |θq ) log P(ti |θd ) T ti ∈q 29 / 41 30 / 41 Das Probability-Ranking-Principle (PRP) Das Probability-Ranking-Principle (PRP) Entscheidungstheoretische Rechtfertigung des PRP Rechtfertigung in Bezug auf Qualitätsmaße Perfektes Retrieval: ordne alle relevanten Dokumenten vor allen nicht-relevanten an bezieht sich auf die Retrievalobjekte selbst, und ist nur bei vollständiger Relevanzbeurteilung der Kollektion moglich Optimales Retrieval: bezieht sich auf die Repräsentationen (wie jedes IR-System) Probability Ranking Principle (PRP) definiert optimales Retrieval für probabilistische Modelle: ordne die Dokumente nach der absteigenden Wahrscheinlichkeit der Relevanz 32 / 41 Entscheidungstheoretische Rechtfertigung des PRP Minimierung der Gesamtkosten C̄ : Kosten für Retrieval eines nicht-relevanten Dokumentes C : Kosten für Retrieval eines relevanten Dokumentes erwartete Kosten für das Retrieval eines Dokuments dj : EC (q, dj ) = C · P(R|q, dj ) + C̄ (1 − P(R|q, dj )) Gesamtkosten für das Retrieval: (angenommen, der Benutzer betrachtet die ersten l Dokumente, wobei l nicht im Voraus bekannt ist) r (i): Ranking-Funktion, bestimmt den Index des Dokuments für den Rang i EC (q, l) = EC (q, dr (1) , dr (2) , . . . , dr (l) ) = l X EC (q, dr (i) ) i=1 P Mimimale Gesamtkosten → minimiere li=1 EC (q, dr (i) ) → r (i) sollte Dokumente nach aufsteigenden Kosten sortieren 33 / 41 Entscheidungstheoretische Regel: 34 / 41 PRP-Beispiel EC (q, dr (i) ) ≤ EC (q, dr (i+1) ) System berechnet folgende Relevanzwahrscheinlichkeiten P(R|q, d): (0.9, 0.8, 0.5, 0.4, 0.35, 0.3, 0.25, 0.2, 0.15, 0.1, 0.05, 0.0) Benutzer schaut sich nur die ersten drei Dokumente an 1. Sei C = 0 und C̄ = 2. Wie hoch sind die erwarteten Kosten für den Nutzer? ⇐⇒ C · P(R|q, dr (i) ) + C̄ (1 − P(R|q, dr (i) )) ≤ C · P(R|q, dr (i+1) ) + C̄ 1 − P(R|q, dr (i+1) ) ⇐⇒ P(R|q, dr (i) ) C − C̄ + C̄ ≤ P(R|q, dr (i+1) ) C − C̄ + C̄ 2. Erwartete Precision? 3. Erwarteter Recall? ⇐⇒ (da C < C̄ ): P(R|q, dr (i) ) ≥ P(R|q, dr (i+1) ). ordne Dokumente nach der absteigenden Wahrscheinlichkeit der Relevanz! 1. EC (q, d) = C · P(R|q, d) + C̄ (1 − P(R|q, d)) = 2 · (1 − P(R|q, d)) EC (q) = 2 · 0.1 + 2 · 0.2 + 2 · 0.5 = 1.6 2. p = (0.9 + 0.8 + 0.5)/3 = 0.73 P 3. r = (0.9 + 0.8 + 0.5)/4 = 0.55 i P(R|q, di ) = 4, 35 / 41 36 / 41 Rechtfertigung in Bezug auf Qualitätsmaße Zusammenfassung PRP I Minimale Kosten bei Ordnung nach fallender Relevanzwahrscheinlichkeit I (Kosten als Optimierungskriterium für Retrieval) 1. vorgegebene Anzahl gefundener Dokumente PRP maximiert erwarteten Recall und erwartete Precision I PRP: Ordnung nach fallender Relevanzwahrscheinlichkeit liefert optimales Retrieval 2. vorgegebener Recall PRP maximiert erwartete Precision I Dadurch theoretische Rechtfertigung für probabilistisches Retrieval I Für andere Modelle lässt sich dieser Zusammenhang nicht beweisen (z.B. bei Ranking nach fallender Ähnlichkeit beim VRM oder optimales Relevance Feedback“ gibt es keinen direkten ” Zusammenhang mit Retrievalqualität) 37 / 41 BIR Exercise 38 / 41 Exercise for the Zhai-Lafferty Model T ) via eqn. 1, estimating the Compute the values of O(R|dm parameters directly as relative frequencies. p1 = s1 = 8 2 = 12 3 3 8 p2 = s2 = 7 12 4 1 = 8 2 Given the following collection of documents: 12 3 O(R) = = 8 2 p1 p2 28 = s1 s2 9 28 O(R|(1, 1)) = ≈ 0.76 1 + O(R|(1, 1)) 37 O(R|(1, 1)) = O(R) P(R|(1, 1)) = d1 = (t1 , t1 , t1 , t2 ) I d2 = (t1 , t1 , t3 , t3 ) I d3 = (t1 , t2 , t2 ) I d4 = (t2 ) Now consider the query q = (t1 , , t2 ). Compute the language model probabilities according to the Zhai-Lafferty model. Let λ = 0.5 and assume αd = 1 p1 1 − p2 20 = s1 1 − s2 9 O(R|(1, 0)) 20 = ≈ 0.69 1 + O(R|(1, 0)) 29 O(R|(1, 0)) = O(R) P(R|(1, 0)) = I 39 / 41 40 / 41 Exercise for the Zhai-Lafferty Model (2) 4 1 = 12 3 3 1 0.5(PML (t1 |d1 ) + Pavg (t1 )) = 0.5( + ) = 4 2 1 1 0.5(PML (t2 |d1 ) + Pavg (t2 )) = 0.5( + ) = 4 3 35 P(t1 |d1 )P(t2 |d1 ) = ≈ 0.18 192 1 Pavg (t2 ) = 3 Pavg (t1 ) = P(t1 |d1 ) = P(t2 |d1 ) = P(q|d1 ) = P(t2 |d2 ) = P(q|d1 ) = P(q|d2 ) = 1 6 = 12 2 Pavg (t2 ) = 35 ≈ 0.18 P(q|d ) = 3 192 1 ≈ 0.17 P(q|d4 ) = 6 5 8 7 24 5 ≈ 0.21 24 1 ≈ 0.33 3 41 / 41