Information Retrieval

Transcription

Information Retrieval
Kapitel 4
Geschichte des Information
Retrieval
HHU Düsseldorf, WS 2008/09
Information Retrieval
55
4. Geschichte des Information Retrieval
Memex
•
Vision von Vannevar Bush (1945):
maschinelle Bereitstellung des
Wissens
•
nicht mittels eindimensionaler
Klassifikationssysteme (wie derzeit
in Bibliotheken üblich), sondern
über assoziative Verbindungen
(„trails“)
Bush, V. (1945): As we may think. – In: The Atlantic Monthly 176(1), S. 101-108.
HHU Düsseldorf, WS 2008/09
Information Retrieval
56
4. Geschichte des Information Retrieval
Memex
•
„The lawyer has at his touch the associated opinions and
decisions of his whole experience, and of the experience of
friends and authorities. The patent attorney has on call the
millions of issued patents, with familiar trails to every point of
his client's interest. The physician, puzzled by its patient's
reactions, strikes the trail established in studying an earlier
similar case, and runs rapidly through analogous case
histories, with side references to the classics for the pertinent
anatomy and histology. …“ (S. 108).
HHU Düsseldorf, WS 2008/09
Information Retrieval
57
4. Geschichte des Information Retrieval
1950
Erstes Auftreten des
Wortes „Information
Retrieval“ bei Calvin N.
Mooers
Mooers, C.N. (1950): Information retrieval viewed as temporal signaling. –
In: Proceedings of the International Congress of Mathematicians. Vol. 1, S. 572-573.
HHU Düsseldorf, WS 2008/09
Information Retrieval
58
4. Geschichte des Information Retrieval
Frühe Forschungen
Hans-Peter Luhn:
„machine talents“ entdecken!
Textstatistik
Automatisches Abstracting
SDI
KWIC
Luhn, H.P. (1957): A statistical approach to mechanized encoding and searching of literary information. –
In: IBM Journal 1(4), S. 309-317.
Luhn, H.P. (1958): The automatic creation of literature abstracts. – In: IBM Journal 2(2), S. 159-165.
Luhn, H.P. (1961): The automatic derivation of information retrieval encodements from machine-readable texts. –
In: A. Kent (Hrsg.): Information Retrieval and Machine Translation, Vol. 3, Part 2. –
New York: Interscience, S. 1021-1028.
HHU Düsseldorf, WS 2008/09
Information Retrieval
59
4. Geschichte des Information Retrieval
Der Sputnik-Schock
•
•
•
4.10.1957: Start von
Sputnik1
Schock 1: der Westen kann
nichts Vergleichbares;
Folge: Apollo-Programm
Schock 2: die Signale
können nicht entschlüsselt
werden, obwohl die
entsprechende Publikation
(in englisch!) vorliegt;
Folge: staatliches Interesse
am Informations- und
Dokumentationswesen
HHU Düsseldorf, WS 2008/09
Information Retrieval
60
4. Geschichte des Information Retrieval
Weinberg-Bericht
„Informationsexplosion“
erkannt
Aus Informationsüberfluss
kann Informationsmangel
entstehen
Gegenmittel: Informationswissenschaft (besonders:
Information Retrieval)
Der Weinberg-Bericht hatte
große Wirkung (Vorwort von
John F. Kennedy)
Alvin M. Weinberg
Weinberg, A.M. (1964): Wissenschaft, Regierung und Information. Genehmigte deutsche Übersetzung des
Weinberg-Berichtes vom 10. Januar 1963. – Frankfurt/M.: Deutsche Gesellschaft für Dokumentation. –
(Beiheft zu den Nachrichten für Dokumentation; 12). – (Original: 1963).
HHU Düsseldorf, WS 2008/09
Information Retrieval
61
4. Geschichte des Information Retrieval
Vektorraummodell
– Experimente mit natürlichsprachigen
Systemen: Gerard Salton
– Dokumente und Suchanfragen sind
Vektoren in einem n-dimensionalen
Raum
– SMART (System for the Mechanical
Analysis and Retrieval of Text)
Salton, G. (1968): Automatic Information Organization and Retrieval. – New York: McGraw-Hill.
Salton, G., Hrsg. (1971): The SMART Retrieval System – Experiments in Automatic Document Processing. –
Englewood Cliffs, N.J.: Prentice Hall.
Salton, G.; McGill, M.J. (1983): Information Retrieval – Grundlegendes für Informationswissenschaftler. –
Hamburg [u.a.]: McGraw-Hill.
HHU Düsseldorf, WS 2008/09
Information Retrieval
62
4. Geschichte des Information Retrieval
Probabilistisches Modell
– Ein Dokument ist mehr oder weniger
relevant in bezug auf eine Suchanfrage
– bedingte Wahrscheinlichkeit (Relevanz
unter der Bedingung der Query)
– Relevance Ranking
– 1960: Maron & Kuhns
– ausgearbeitet vor allem von Cornelis
Joost van Rijsbergen
C.J van Rijsbergen
Maron, M.E.; Kuhns, J.L. (1960): On relevance, probabilistic indexing and information retrieval. –
In: Journal of the ACM 7, S. 216-244.
van Rijsbergen, C.J. (1979): Information Retrieval. – London: Butterworths, 2. Aufl. –
(Kap. 6: Probabilistic retrieval).
HHU Düsseldorf, WS 2008/09
Information Retrieval
63
4. Geschichte des Information Retrieval
Zitationsdatenbanken
•
Eugene Garfield gründet 1960 das „Institute
for Scientific Information“
•
Vermarktung von Fußnoten akademischer
Zeitschriften („Science Citation Index“)
•
Vertrieb von Inhaltsverzeichnissen der
Zeitschriften als „Current Contents“
•
Erarbeitung von Kennwerten für den
Einfluss der Zeitschriften („impact factor“)
Garfield, E. (1955): Citation Indexes for Science. – In: Science 122(3159), S. 108-111.
Garfield, E. (1979): Citation Indexing. – New York [u.a.]: Wiley.
Cawkell, T.; Garfield, E. (2001): Institute for Scientific Information. –
In: Information Services & Use 21, S. 79-86.
HHU Düsseldorf, WS 2008/09
Information Retrieval
64
4. Geschichte des Information Retrieval
Online-Hosts
Vorarbeiten kommerzieller OnlineSysteme:
– Roger Kent Summit DIALOG (FuE ab ca.
1960, online seit 1972)
– Carlos A. Cuadra: SDC, später ORBIT
(Start: 1962; online: 1972)
Summit
– Richard H. Giering: Data Central, später:
Lexis (Start: Ende der 60er Jahre; online:
1973)
Bourne, C.P.; Hahn, T.B. (2003): A History of Online Information Services, 1963-1976. –
Cambridge, Mass.; London: MIT Press.
HHU Düsseldorf, WS 2008/09
Information Retrieval
65
4. Geschichte des Information Retrieval
Ausarbeitung des probabilistischen Modells
(1970er Jahre)
•
Robertson – Sparck-Jones - Formel
Stephen E.
Robertson
Karen Sparck-Jones
Robertson, S.E.; Sparck-Jones, K. (1976): Relevance weighting of search terms. – In:
Journal
of the American Society
für Information
HHU Düsseldorf, WS
2008/09
Information
RetrievalScience, 27, S. 129-146.
66
4. Geschichte des Information Retrieval
Erfolg der kommerziellen elektronischen
Informationsdienste (ab 1980er Jahre)
Internationale Online-Hosts
Deutsche Online-Hosts
HHU Düsseldorf, WS 2008/09
Information Retrieval
67
4. Geschichte des Information Retrieval
Boom durch Suchwerkzeuge im Word Wide Web
(ab 1990er Jahre)
•
Suchmaschinen der ersten Generation: textorientiert (z.B.
AltaVista)
•
Suchmaschinen der zweiten Generation: zusätzlich an der
Webstruktur orientiert (z.B. Google)
Sergej Brin (li.)
Larry Page
Louis Monier
HHU Düsseldorf, WS 2008/09
Information Retrieval
68
4. Geschichte des Information Retrieval
Ausarbeitung linktopologischer Modelle
•
PageRank (von Brin und Page)
•
Kleinberg-Algorithmus (von Jon M. Kleinberg)
Jon M.
Kleinberg
Brin, S.; Page, L. (1998): The anatomy of a large-scale hypertextual Web search engine. – In: Computer
Networks and ISDN Systems, 30, S. 107-117.
Page, L. (1998): Method for node ranking in a linked database. – Patent Nr. US 6,285,999. –
Priorität: 9.1.1998. – Patentinhaber: The Board of Trustees of the Leland Stanford Junior University.
Kleinberg, J.M. (1999): Authoritative sources in a hyperlinked environment. – In: Journal of the ACM,
46 (1999),
S. 604-632.
HHU Düsseldorf, WS 2008/09
Information
Retrieval
69
4. Geschichte des Information Retrieval
Web 2.0
•
Kollaborative Dienste
•
„Web 2.0“ Begriff geprägt von Tim O‘Reilly
•
Wissensrepräsentation durch „tagging“ und
„folksonomies“
O‘Reilly, T. (2005): What is the Web 2.0?
www.oreillynet.com/pub/a/oreilly/tim/news/2005/09/30/what-is-web-20.html
HHU Düsseldorf,
WS 2008/09
Information Retrieval
70

Documents pareils