Arbeitsbericht WI - 2008 – 05 - Lehrstuhl für Wirtschaftsinformatik

Transcription

Universität Potsdam
Univ.-Prof. Dr.-Ing. habil. Norbert Gronau
Lehrstuhl für Wirtschaftsinformatik
und Electronic Government
Universität Potsdam
August-Bebel-Str. 89; 14482 Potsdam
Tel. ++49 331/ 977-3322, Fax -3406
http://wi.uni-potsdam.de
E-Mail: [email protected]
Arbeitsbericht WI - 2008 – 05
Gronau, Norbert; Bahrs, Julian
Zentraler Informationszugang im Unternehmen:
Selbstlernende Suchmaschine für profil- und
kontextorientierte Suche
Zitierhinweis:
Gronau, N.; Bahrs, J.: Zentraler Informationszugang im Unternehmen –
Selbstlernende Suchmaschine für profil- und kontextorientierte Suche.
In: Scholz-Reiter, B. (Hrsg.): Technologiegetriebene Veränderungen der
Arbeitswelt, Gito (Berlin) 2008, S. 99-121.
Zentraler Informationszugang im Unternehmen durch
profil- und kontextspezifische Suche
Norbert Gronau und Julian Bahrs, Universität Potsdam,Wirtschafts- und
Sozialwissenschaftliche Fakultät, Lehrstuhl für Wirtschaftsinformatik und
Electronic Government, August-Bebel-Straße 89, 14489 Potsdam, {ngronau,
jbahrs}@wi.uni-potsdam.de
1
Einleitung
Eine Suchmaschine ist ein System das dazu befähigen soll, aus einer
Sammlung von Information relevante Information zu einem zuvor als
Suchanfrage formulierten Informationsbedarf herauszufiltern. Suchmaschinen
können sowohl explorativ als auch zum Wiederabruf bereits bekannter
Information verwendet werden und eignen sich sowohl zur Navigation als
auch zur Selektion in bekannten und unbekannten Informationssammlungen.
Suchmaschinen stellen typischerweise einen Zugang zu einer
Informationssammlung dar.
Vor der weitgehenden Digitalisierung der Information war der
Informationsabruf nur über Personen, z.ԜB. denjenigen der letztendlich die
Information in einem Aktenordner verwahrt, möglich. Professionalisiert
wurde dies beispielsweise in Bibliotheken und Archiven, in denen ein Katalog
der Objekte erstellt wurde und so das Nachschlagen und Suchen beschleunigt.
Durch die Digitalisierung der Information ist es nicht nur leichter, diesen
Katalog nach mehreren unterschiedlichen Kriterien zu sortieren, sondern auch
möglich die Einordnung in den Katalog vollständig (z.ԜB. ein gesamtes
Dokument ist Bestandteil des Kataloges) und automatisiert vorzunehmen. Für
Unternehmen ergibt sich hieraus erstmals die Chance, die vorhandene digitale
Informationssammlung besser zu nutzen, ohne dafür zunächst aufwendige
Archive anzulegen. Für die Wettbewerbsfähigkeit von Unternehmen sind die
Wiederverwendung und der schnelle Zugriff auf Information aus zwei
Gründen erforderlich:
2
N. Gronau und J. Bahrs
•
Effizienz: Die Suche nach Information im Unternehmen ist
zeitintensiv und daher teuer. Studien gehen von 15Ԝ% bis zu 35Ԝ%
der Arbeitszeit aus. Bei Wissensarbeitern wird dieser Anteil noch
deutlich höher eingeschätzt (Feldmann 2004). Darüber hinaus
enden rund 50Ԝ% der Suchanfragen erfolglos; die Information
müssen neu erarbeitet werden.
Erhaltung von Handlungsspielräumen: Um auf Chancen am Markt
reagieren zu können und die Entscheidungsfähigkeit zu bewahren,
muss die Informationsbasis zugreifbar und flexibel auswertbar
sein.
Die Menge der in digitaler Form zur Verfügung stehenden Information steigt
stetig. Dazu tragen die gestiegene Reife und Verbreitung betrieblicher
Informationssysteme (ERP, CRM) durch das Vorhalten strukturierter Daten
bei. Die Verlagerung der Kommunikation hin zu elektronischen Medien wie
E-Mail und Internet sowie die Verbreitung von typischen
Bürosoftwarelösungen erzeugen große Mengen unstrukturierter Information.
Telefax und klassische, papiergebundene Postsendungen werden heute oft
digitalisiert und entsprechend weiterverarbeitet. In der Kommunikation
•
zwischen Unternehmen werden digitale Formate, z.ԜB. EDI und XML, zur
Informationsübermittlung genutzt. Daher ist mit einer weiter steigenden
Bedeutung der Suchinstrumente zu rechnen. Auch innerhalb des
Wissensmanagements ist die Suche von Information oder Expertise mit Hilfe
von Suchmaschinen ein wesentlicher Baustein.
Die steigende Menge der digital vorhandenen Information führt jedoch
nicht zu einer besseren Ausnutzung dieser Information (Feldmann 2004).
Eine geeignete Infrastruktur zur Verwaltung und Auswertung der Information
fehlt in vielen Unternehmen. Entsprechend werden bei der Suche nach
Information im Unternehmen bisher oft unbefriedigende Ergebnisse erzielt,
mit zeitund kostenintensiven Folgen. Diese Situation wird in Abschnitt 2 auf
Basis einer empirischen Untersuchung bei rund 140 Unternehmen im
Zentraler Informationszugang im Unternehmen durch profil- und kontextspezifische Suche
3
deutschsprachigen Raum konkretisiert. Das Ergebnis überrascht, da die
Nutzung von Suchmaschinen durch das Internet für immer weitere
Anwenderkreise
alltäglich
wird
und
„im
Internet“
größere
Informationsmengen als im Unternehmen erschlossen werden. Ein direkter
Transfer der mit dem Internet gereiften Technologie in die Unternehmen
scheint nicht möglich. Die Ursachen liegen unter anderem an den
andersartigen Anforderungen an die Suchinstrumente durch die
Informationslandschaft im Unternehmen (Abschnitt 2.2). Wesentliche
Herausforderungen bei Enterprise Search sind die Notwendigkeit,
Zugriffsrechte zu berücksichtigen sowie die heterogene Struktur der
Informationsquellen im Unternehmen. In Abschnitt 2.3 werden bisherige
Lösungskonzepte für Enterprise Search und deren konzeptionelle
Schwierigkeiten vorgestellt.
Ein System kooperierender Suchmaschinen ist nach dieser Analyse ein
erfolgversprechender
Ansatz,
der
den
Anforderungen
der
Informationslandschaft gerecht wird. Aus diesem Grund wird dieser Ansatz
und die dabei auftretenden Herausforderungen in Abschnitt 3 detaillierter
vorgestellt. Die dargestellte Situation ist Ausgangspunkt für die Entwicklung
eines neuartigen selbstlernenden Rankingverfahrens: Im AIF-Projekt
„Selbstlernende Suchmaschine für die profil- und kontextorientierte Suche in
Unternehmen“ 1 wird ein auf Case Based Reasoning (CBR) basierender
Ansatz zur Suche in heterogenen Informationsquellen entwickelt. Im Projekt
wird ein System implementiert, das Kenntnisse über die Suchenden und den
Kontext, in dem die Suchanfrage gestellt wird, mit Kenntnissen über die
Informationsquellen und zuvor gesammelten Bewertungen in Beziehung setzt.
Wie dies dazu beitragen soll, ein besseres Ranking und einen zentralen
Informationszugang zu erreichen, wird in Abschnitt 4 dargestellt. In Abschnitt
5 werden abschließend der aktuelle Implementierungsstatus sowie ein
Ausblick auf die Validierung gegeben.
2
Ausgangssituation Enterprise Search
Ansätze zur Suche für Unternehmen werden im Forschungsfeld Enterprise
Search behandelt. Enterprise Search umfasst die Suche über alle Textinhalte 2 ,
die in digitaler Form im Intranet und auf den Webseiten eines Unternehmens,
in Datenbanken, E-Mails, Dokumenten usw. vorzufinden sind (Hawking
2004). Dabei wird ein zentraler Informationszugang impliziert. Die
Zielstellung lautet, ein möglichst gutes Suchergebnis unter Berücksichtigung
möglichst großer Teile der Informationssammlung des Unternehmens zu
erreichen. Ein gutes Suchergebnis erfüllt genau den Informationsbedarf des
1
2
Förderkennzeichen 15130 BR/1, Mittelgeber BMWi
Die Suche in Bildern und Multimediainhalten werden in diesem Beitrag ausgeklammert.
4
Anwenders, so dass dieser die Handlung, die den Informationsbedarf
ausgelöst hat, ausführen kann, ohne unnötige Information zu erhalten (Stock
2006). Die Qualität von Suchergebnissen wird stets vom Anwenderbedarf
abgeleitet. Übertragen auf die Anwendung von Suchmaschinen im
Unternehmen liegen die Nutzeffekte in der Wiederverwendung vorhandener
Information sowie der gesteigerten Auskunfts- und damit Handlungsfähigkeit.
2.1
Verbreitung aktueller Lösungsansätze für die Suche im Unternehmen
Die empirische Untersuchung bei 140 Unternehmen im deutschsprachigen
Raum zeigt erhebliche Unzufriedenheit mit den Ergebnissen und
Möglichkeiten zur Suche in den Informationsbeständen der Unternehmen
(Bahrs etԜal. 2007). Die Umfrage wurde mit einem öffentlich im Internet
verfügbaren Fragebogen durchgeführt. Der Fragebogen wurde durch
verschiedene Publikationen und Hinweise auf Konferenzen und in
Newslettern bekannt gemacht. Die Befragung wurde ohne Ausrichtung auf
einen Wirtschaftszweig durchgeführt.
Die Untersuchung zeigt, dass die Mehrzahl (rund 70Ԝ%) der Unternehmen
zwar Suchmaschinen einsetzen, diese jedoch nur Teile der im Unternehmen
verfügbaren Informationsrepositories erschließen (vgl. Abbildung 1). Einen
zentralen Informationszugang gibt es kaum (17Ԝ%).
Nur rund 20Ԝ% der Befragten, bei denen Suchmaschinen vorhanden sind,
gehen davon aus, dass im Unternehmen vorhandene Information zu einem
5
Thema durch eine Suchmaschine gefunden werden können. Rund 60Ԝ%
vermuten dies, es besteht jedoch ein erhebliches Misstrauen gegenüber den
Suchergebnissen. Die verbleibenden 20Ԝ% erwarten gar nicht, dass diese
Information aufgefunden werden können. Noch deutlicher ist dies ausgeprägt,
wenn nach Experten im Unternehmen gesucht wird. Über 50Ԝ% gehen davon
aus, dass diese nicht mit Hilfe der Suchmaschine gefunden werden können.
22; 17%
Ja, eine Suchmaschine erfasst alle
Inhalte im Unternehmen
41; 31%
Ja, aber die vorhandenen
Informationen werden nur teilweise
erschlossen
Ja, mehrere Suchmaschinen
erfassen jeweils Teile der
vorhandenen Information
49; 37%
Nein, es wird keine Suchmaschine
eingesetzt
20; 15%
Abbildung 1: Erschließung von Information in Unternehmen durch Suchmaschinen
Diese Erwartungshaltung gegenüber den Unternehmenssuchmaschinen
spiegelt sich auch in ihrer Nutzungsfrequenz wieder. Die externen
Suchinstrumente werden wesentlich häufiger genutzt als die
unternehmensinternen (vgl. Abbildung 2).
6
intern
17
13
extern
20
18
84
0%
20%
14
20
40%
60%
14
9
9
2 5
80%
öfter
bis zu 1 Mal täglich
bis zu 3 Mal pro Woche
bis zu 1 Mal pro Woche
bis zu 1 Mal im Monat
gar nicht
100%
Abbildung 2: Nutzungshäufigkeit von unternehmensinternen und -externen
Suchmaschinen
Trotz der geringeren Nutzungsfrequenz wird der Nutzen von Suchmaschinen
im Unternehmen im Vergleich zu anderen typischen Infrastrukturen zur
Verwaltung von unstrukturierten Information von den Anwendern als hoch
bewertet. Beim Vergleich der angegebenen Nutzwerte von Anwendern mit
und ohne Personalisierung, weisen die Instrumente mit Personalisierung einen
höheren Nutzwert auf. Jedoch sind weniger als 25Ԝ% der Suchmaschinen mit
Mechanismen zur Personalisierung ausgestattet.
2.2
Anforderungen aus der Informationslandschaft im Unternehmen
Die Gründe für diese unbefriedigende Situation leiten sich aus dem für
Suchmaschinen schwierigen Suchraum in Unternehmen ab. Der Suchraum
umfasst alle von der Suchmaschine indexierten Information (Schmalz 2005).
Bei klassischen Information Retrieval Systemen ist der Suchraum zumeist auf
eine schmale Domäne eingegrenzt. In der Regel können die Quellen
vollständig indexiert werden, z. B. bei einer Sammlung von Fachartikeln. Im
Internet haben jedoch selbst die großen Suchmaschinen derzeit nur bis zu
34Ԝ% der Websites indexiert (Lewandowski 2005). Enterprise Search soll die
Information im Unternehmen erschließen. Wie in Abschnitt 2.1 gezeigt, ist
eine vollständige Indexierung unüblich, eher werden einzelne
Informationssammlungen indexiert. Dies führt zu einem fragmentierten
Suchraum mit zum Teil redundanten, zum Teil unvollständigen
7
Suchinstrumenten. Für einen zentralen Informationszugang müssen diese
verteilten Instrumente wieder zusammengeführt werden.
Weiterhin gibt es kein einheitliches Format oder Struktur, mit der
Information gespeichert werden, wie dies zum Beispiel bei Webseiten im
Internet oder einer Fachdatenbank der Fall ist. So können etwa bei einer
Fachdatenbank
inhaltsspezifische
Suchanfragen
formuliert
und
Informationsarten unterschiedlich gewichtet werden. Im Internet wird dies
durch
die
weitreichende
Verwendung
von
Standards
zur
Informationsdarstellung für die Informationsquellen im Internet (HTML,
PDF, usw.) eingeschränkt sichergestellt. Hier kann daher neben den expliziten
Metadaten auch die Formatierung (z.ԜB. Überschriften) und die Vernetzung
von Webseiten für die Suchanfragen ausgewertet werden (Page etԜal. 1998).
In Unternehmen werden jedoch vielfältige applikationsspezifische
Dokumentenformate, Intranet Webseiten, diverse proprietäre Systeme und
Datenbanken verwendet. Jede dieser Quellen hat eine eigene Struktur und
Charakteristik. Auch die Auswertung der Vernetzungsstruktur entfällt, da
viele Inhalte nicht vernetzt sind und die kritische Menge der Verweise nicht
erreicht wird.
Weiterhin werden im Unternehmen in der Regel Zugriffsrechte
beschränkt. Im Internet erschließen die populären Suchmaschinen das nicht
sogenannte Deep Web, also beispielsweise Information aus Fachdatenbanken,
die nur durch die Nutzung von Formularen zugänglich sind oder Information
aus nicht öffentlichen Bereichen. In Unternehmen ist jedoch der
überwiegende Teil der Information nur mit entsprechenden Zugriffsrechten
erreichbar. Auch die Vereinheitlichung des Identitätsmanagements hat bisher
noch keine umfassende Verbreitung gefunden. Ein zur Suche genutzter Index
muss daher die Zugriffsrechte abbilden können, um bei Suchanfragen nur
erlaubte Ergebnisse auszugeben. Dies ist bei Dokumenten aus einem
Dateisystem einfach, wird jedoch bei Datenbankstrukturen, wo ggf. einzelne
Attribute gesondert geschützt werden, komplex.
Zusammengefasst sind für Enterprise Search die Größe des Suchraumes
und Abdeckung der Informationsquellen, (Reichweite), die Berücksichtigung
der heterogenen Quellencharakteristik, die Berücksichtigung von
Zugriffsrechten und erwarteter Administrationsaufwand relevant.
8
2.3
Konzeptionelle Ansätze zu Enterprise Search
Zur Lösung von Suchproblemen im Unternehmen existieren vielfältige
Ansätze (BahrsԜ/ԜSchmid 2005). Einzelne Merkmale oder Funktionen werden
nur in einem Produkt eines Herstellers genutzt. Dies kann als Zeichen für die
Entwicklungsfähigkeit der Produkte gewertet werden, aber auch auf die
Verschiedenartigkeit der Aufgaben, die mit entsprechenden Produkten
bearbeitet werden, hindeuten. Die Gartner Group fasst entsprechende
Lösungen daher auch unter dem Begriff „Information Access Technology“
zusammen, wobei dies über den klassischen Aufbau eines Index und der
Suche mit einem Suchterm hinausgeht. Laut Gartner umfasst das Segment
auch automatische und manuelle Klassifikation, Taxonomieaufbau und verwaltung, Informationsextraktion und Visualisierung von Information. Im
Folgenden wird auf Ansätze fokussiert, die automatisch einen Index erstellen
und aus diesem Suchergebnisse zu Suchanfragen präsentieren. Nicht vertieft
werden entsprechend Ansätze zur manuellen oder automatischen
Klassifikation (inkl. Erstellen der Klassen) und anschließender Navigation
sowie zur Informationsextraktion ohne Indexierung.
So fokussiert, können Typen von Suchmaschinen definiert werden. Bei
einer Analyse wurden Intranet-Suchmaschinen, Client-Server-Suchmaschinen
und Suchmaschinen in Enterprise Content Management Systemen sowie
anwendungsspezifische Suchmaschinen, Desktop-Suchmaschinen, Peer-toPeer-Suchmaschinen und Meta-Suchmaschinen für die Eignung als zentraler
Informationszugang im Unternehmen untersucht.
Dabei entspricht die Intranet Suchmaschine einer direkten Überführung
des Ansatzes der Internetsuchmaschine in ein Unternehmen. Wie im Internet
werden alle frei verfügbaren Intranetseiten mit Hilfe eines Crawlers
erschlossen und in einem zentralen Index gespeichert. Für Enterprise Search
greift dieser Ansatz deutlich zu kurz. Weiterentwicklungen berücksichtigen
daher Zugriffsrechte und integrieren mehrere Informationsquellen mit Hilfe
von Konnektoren in einem zentralen Index. Dieser Typ Suchmaschine,
bezeichnet als Client-Server Ansatz, stößt durch die Verfügbarkeit von
Konnektoren und Berücksichtigung von Quellstrukturen und Metadaten
sowie durch unterschiedliche Systeme zur Zugriffsverwaltung bei vielen
Quellsystemen an Grenzen. Daher wurde eine weitergehende Integration mit
9
den Systemen zur Inhaltserstellung und -speicherung z.ԜB. durch die in
Enterprise Content Management Systemen integrierte Suchmaschine verfolgt.
Diese Systeme verfügen über integrierte Suchinstrumente, die heute häufig
über große Erschließungsreichweiten im Unternehmen verfügen. Sie
erreichen dies durch die Vereinheitlichung von Zugriffsrechten und
Metadaten sowie durch quellenübergreifende Ordnungssysteme (Eggert
2007). Diese Systeme wurden zum Teil auch so weiterentwickelt, dass
mehrere Quellen eingebunden werden können, wobei dann wieder die
Problematik der Client-Server Suche besteht.
Die anwendungsspezifische Suche ist das Suchwerkzeug, das in eine
Anwendung, wie einem E-Mail-Programm, integriert ist. Durch die
Konzentration auf einen kleinen Suchraum mit homogener (oder zumindest
bekannter) Informationsstruktur werden sehr gezielte Abfragen mit
spezifischen Abfrageparametern unter Berücksichtigung spezifischer
Zugriffsrechte, und auch spezifischer Verfeinerungsmechanismen möglich.
Im Grunde ist hier das gesamte Methodenspektrum des Information Retrieval,
von der Datenbankanfrage bis zur Applikationsentwicklung, anwendbar
(White 2007). Beim Beispiel der Suchmaschine im E-Mail-Programm können
etwa alle Mails mit dem Betreff „Suchmaschine“ von einem bestimmten
Absender gefunden werden. Bei Lösungen dieser Art entfällt die Verwaltung
der Zugriffsrechte, wenn nur ein Anwender den jeweiligen Index nutzt, da nur
indexiert wird, was mit den Zugriffsrechten des Anwenders auch zugänglich
ist. Die Anzahl der Indizes (und der Indexierungsvorgänge) steigt mit der
Anwenderanzahl.
Ein ähnliches Konzept verfolgen Desktopsuchmaschinen, jedoch als
eigenständige Anwendung mit Importfiltern für unterschiedliche
Informationstypen. Der Ansatz der Desktop Suchmaschine adressiert einen
typischen blinden Fleck anderer Suchmaschinen. Der Ansatz ist jedoch für die
unternehmensweite Suche auf Grund seiner redundanten Indexierung (z.ԜB.
von Netzlaufwerken) und der damit verbundenen Belastung zentraler Systeme
im Unternehmen nur bis zu einer begrenzten Anzahl von Arbeitsplätzen
praktikabel einsetzbar.
Die Peer-to-Peer Suchmaschine erlaubt beteiligten Peers den Zugriff auch
auf andere Indizes. Dadurch kann der Suchraum erweitert werden, jedoch
10
müssen die Zugriffsrechte entweder manuell gepflegt werden (BahrsԜ/ԜSchmid
2005) oder aus den Quellen übernommen werden. Hierbei kann es zu
redundanter Indexierung kommen, wenn zwei Peers eine gleiche Quelle
indexieren. Ferner nehmen die Anforderungen an die Netzwerke und
Rechenleistung mit der Anzahl der Peers bzw. Suchanfragen zu.
Eine Meta-Suchmaschine hingegen verfügt über keinen eigenen Index,
vielmehr werden andere Suchmaschinen abgefragt und die Ergebnisse
zusammengefasst. Entsprechend ist die Aufgabe der Zugriffsrechteverwaltung
auf durch die abgefragten Suchquellen zu übernehmen. Mit Hilfe der
Metasuche werden mehrere verschiedene Suchmaschinen vereint. Ein Vorteil
ist der große Suchraum (Meng etԜal. 2002). Nachteilig ist jedoch, dass ein
Reranking der Ergebnisse erfolgt. Dies wird in Abschnitt 3 vertieft.
Die Vor- und Nachteile der jeweiligen Lösungen in Bezug auf Enterprise
Search sind in Tabelle 1 zusammengefasst.
Tabelle 1: Architekturen für Enterprise Search im Vergleich.
Suchansatz
Reichweite
Quellencharakteristik
Zugriffsrechte
Intranet
o
o
-
Client-Server
o
o
o (bei vielen Quellen -)
Enterprise Content
Management System
+
+
+
Anwendungsspezifisc
h
-
+
+
Desktop
o
o
+
Peer-to-Peer
o
-
o
Meta
+
-
+
11
Zusammenfassend werden grundsätzlich zwei Strategien verfolgt (Kehoe
2007; MukherjeeԜ/ԜMao 2004):
•
Die Integration in einen zentralen Index und das Ausführen von
Suchanfragen auf diesem Index.
• Dezentrale Indizes und die Verteilung der Suchanfrage und die
Integration der Ergebnisse zum Zeitpunkt der Suche.
Der erste Ansatz erfordert von den Unternehmen erhebliche Anpassung der
Prozesse und Systemlandschaft, etwa der Einführung eines Enterprise Content
Management Systems zur Speicherung, um einen großen Suchraum zu
erschließen. Ferner müssen quellsystemspezifische Konnektoren die
Information erschließen und Zugriffsrechte im Index vollständig abgebildet
werden. Dies gelingt jedoch bisher nur begrenzt. Schließlich werden auch
vertrauliche Daten neben der originären Speicherung zusätzlich in einem
Index vorgehalten, was rechtlich und aus Sicherheitsgründen schwierig sein
kann.
Der Ansatz der dezentralen Indizes bedeutet für Unternehmen zunächst
keine Änderungen der Informationsrepositories und Prozesse. Die
erforderlichen Konnektoren sind weniger komplex. Prinzipiell kann auch der
größere Suchraum erschlossen werden. Ferner können ggf. lokale Lösungen,
vor allem Fachanwendungen, die zur Deckung von als relevant identifizierten
Informationsbedarf beschafft und eingesetzt wurden, weitergenutzt werden.
In diesem Fällen ist kein zusätzliches Indexieren, das Systemlast erzeugt,
erforderlich.
3
Kooperierende Suchmaschinen
Nach obiger Analyse ist für einen zentralen Informationszugang im Sinne des
Enterprise Search eine dezentrale Lösung mit kooperierenden Suchmaschinen
sinnvoll. Dies gilt insbesondere dann, wenn dezentrale Lösungen mit
angepassten und leistungsfähigen Such- und Rankingmechanismen bereits
vorhanden sind. Diese originären Informationsrepositories, die einen
Suchdienst anbieten, werden in diesem Beitrag als Informationsquelle
bezeichnet. Diese werden von einer Meta-Suchmaschine bzw. Federator, hier
als Suchzentrale bezeichnet, abgefragt.
Die Aufgaben der Suchzentrale bei kooperierenden Suchmaschinen
bestehen in der Anpassung und Verteilung der Suchanfrage an dezentrale
Suchmaschinen, dem Zusammenführen der Ergebnisse und der Eliminierung
von Dubletten sowie der Bereitstellung eines übergeordneten
12
Relevanzrankings (Jascó 2004). Das Ranking ist für den Erfolg der
Suchmaschine von herausragender Bedeutung, da die Suchenden in der Regel
nur
die
ersten
Ergebnisse
betrachten
(JoachimsԜ/ԜRadlinski
2007).
Anforderungen an Meta-Suchmaschinen sind die parallele Suche, die
Zusammenführung der Ergebnisse, die Eliminierung von Dubletten in den
Ergebnissen, die Verfügbarkeit und Weitergabe logischer Operatoren AND
oder OR, der Ausschluss von Informationsverlust bei den Ergebnissen,
Search Engine Hiding (die Eigenschaften der Informationsquellen dürfen
keinen Einfluss auf den Benutzer haben) und die vollständige Suche, die alle
Ergebnisse durchreicht (Koch 2007).
In der Literatur werden die Begriffe Federated Search (kooperierende
Suchmaschinen) und Meta-Suchmaschine unterschiedlich verwendet. Nach
(Jascó 2004) geht Federated Search dabei über die Metasuche hinaus, er nennt
jedoch keine Abgrenzungsmerkmale. Andere, wie z.ԜB. die NISO (National
Information Standards Organization der USA) verwenden die Begriffe
Metasearch, parallel search, federated search, broadcast search und crossdatabase search synonym (NISO 2005). Dabei wird Federated Search eher für
Anwendungsfälle mit nicht öffentlichen und in der Regel kostenpflichtigen
Inhalten und einem nicht öffentlichen Nutzerkreis in Abgrenzung zur
Metasuche, die für die öffentlich verfügbare parallele Suche in öffentlich
verfügbaren Websuchmaschinen steht, interpretiert (Fryer 2004). Dies trifft
auch auf die in diesem Beitrag antizipierte Verwendung zu. Daher wird im
Folgenden der Begriff kooperierende Suchmaschinen anstelle der MetaSuchmaschine genutzt.
Vorteile der kooperierenden Suchmaschinen bestehen durch die
Integrationsmöglichkeiten
von
bisher
unerschlossenen
Informationsrepositories. Auf der Ebene der Informationsquellen, die aus
einem Informationsrepository und einer Suchmaschine bestehen, ergeben sich
die für die anwendungsspezifische Suche beschriebenen Vorteile (vgl.
Abschnitt 2.3). So können zum Beispiel Push-Funktionen zur Aktualisierung
des Index bei bestimmten Ereignissen anstelle von zeitgesteuerter (Pull)
13
Aktualisierung verwendet werden (MukherjeeԜ/ԜMao 2004). Dies führt dazu,
unnötige Indexierungslast zu vermeiden. Weiterhin ist die Einheitlichkeit des
Authentifikationssystems und Zugriffsverwaltung gewährt (Kehoe 2007).
Schließlich
kann
ein
Ranking-Algorithmus
mit
spezifischen
Abfragemöglichkeiten speziell für eine homogene Informationssammlung
entwickelt werden. In diesem Beitrag wird die Entwicklung der
Suchmaschine der Informationsquelle jedoch nicht weiter ausgeführt. Der
Fokus dieses Beitrags liegt bei den Aufgaben der Suchzentrale.
Eine Aufgabe der Suchzentrale besteht in der Notwendigkeit, die gestellte
Suchanfrage an den Syntax der Suche der jeweiligen Informationsquellen
anzupassen. Durch die Standardisierung der Suchanfrage gehen jedoch
spezifische Abfragemerkmale verloren, die dann nicht genutzt werden können
und die Nutzbarkeit für Profisucher einschränken (Fryer 2004). Vorhandene
Ansätze zeigen aber, dass mit Hilfe von Regeln die Syntax einfacher
Anfragen angepasst werden kann, z.ԜB. in (Coiera etԜal. 2005).
Um Ergebnislisten gemäß den Zugriffsrechten des Suchenden auszugeben,
muss der Informationsquelle die Identität des Suchenden übermittelt werden.
In der Regel ist daher vor der Suche eine Authentifikation gegenüber der
Suchzentrale erforderlich, die wiederum für die Informationsquelle autorisiert
ist. Sind die Zugriffsrechte für die Informationsquelle jedoch für die Nutzer
der Suchzentrale unterschiedlich, empfiehlt sich die Nutzung von
Verzeichnisdiensten wie LDAP zum Durchreichen der Identität des
Suchenden (NISO 2005). Ist deren Verwendung bei einer Informationsquelle
nicht möglich, könnte die notwendige Login-Information jedoch auch bei der
Zentralinstanz verwaltet werden. Die Aufgabe die Zugriffsrechte zu wahren,
liegt bei den Informationsquellen.
Ein typisches Problem kooperierender Suchmaschinen sind Dubletten in
den Ergebnissen verschiedener Informationsquellen. Zwei Arten von
Dubletten können auftreten: inhaltsgleiche Objekte an unterschiedlichen
Speicherorten
(z.ԜB.
ein
Textdokument
das
in
unterschiedlichen
Verzeichnissen gespeichert ist) und solche, die aus der mehrfachen
14
Indexierung eines Informationsrepositories stammen. Letztere können durch
die disjunkte Gestaltung der Informationsquellen im Vorfeld verhindert oder
im Nachhinein durch die Filterung identischer Objektadressen in der
Ergebnisliste gefiltert werden. Problematisch ist hierbei jedoch, dass aus
Geschwindigkeitsgründen nur die höchstgerankten Ergebnisse einer jeden
Informationsquelle abgefragt werden und daher das Entfernen der Dubletten
nur für diesen Teil der Ergebnisse angewendet werden kann. Um auch
Dubletten aus der mehrfachen Speicherung identischer Dokumente zu
entfernen, müsste die Suchzentrale die Ergebnisse vollständig herunterladen
(Hane 2003). Einige Suchmaschinenanbieter führen die zeitaufwendige
Entfernung der Dubletten daher erst nach Anforderung durch den Anwender
durch (Fryer 2004) (vgl. Abschnitt 3.1).
Die größte Herausforderung besteht darin, über mehrere heterogene
Informationsquellen einen einheitlichen Relevanzfaktor zu ermitteln
(Hawking 2004). Im Falle eines integrierten Index kann dies mit einem
Algorithmus erfolgen. Bei verteilten Suchmaschinen werden unterschiedliche
Methoden genutzt, die dazu auch nicht offen gelegt sind. Es ist daher
schwierig abzuwägen, ob die ersten Ergebnisse der Informationsquelle A
relevanter als die ersten 20 der Informationsquelle B sind (Kehoe 2007).
3.1
Methoden für das Zusammenführen der Ergebnisse mehrerer
Informationsquellen
Zwei Gruppen von Methoden für das Zusammenführen der Ergebnisse
existieren: die Integrierten, welche Information der Informationsquelle zu den
Objekten verwenden und diese lokalen Rankings anpassen und die Isolierten,
welche unabhängig vom Ranking in den Informationsquellen sind und ein
eigenständiges Ranking auf Ebene der Suchzentrale erzeugen (Craswell etԜal.
1999; Meng etԜal. 2002).
Die Integrierten Zusammenführungsstrategien gehen davon aus, dass in
den Informationsquellen bereits wirkungsvolle Rankingmechanismen
verwendet werden. Dazu wird vor allem der Rankingwert oder der Rang im
15
Ranking der Informationsquelle genutzt (Liu etԜal. 2007). Da die
Informationsquellen unterschiedliche Verfahren zur Ermittlung der Relevanz
einsetzen, sind die Rankingwerte nicht direkt vergleichbar. Dies gilt auch
dann, wenn die verwendete Skala auf einen Wertebereich normalisiert wird.
Eine einfache Zusammenführungsstrategie, die sich am Rang der
Suchergebnisse orientiert, sieht vor, die nach Relevanz absteigend sortierten
Ergebnislisten der Informationsquellen durchzugehen, zunächst alle
Ergebnisse des ersten Ranges und dann sukzessiv die Ergebnisse der
nachfolgenden Ränge auszugeben. Problematisch ist dabei jedoch, dass keine
Sortierung der Informationsquellen vorliegt.
Bei überwiegend nicht disjunkten Informationsquellen können auch
Durchschnittsrankingwerte oder von mehreren Rankingverfahren bevorzugte
Ergebnisse im globalen Ranking höher positioniert werden. Dieser Ansatz ist
vor allem bei Metasuchmaschinen im Internet verbreitet, da diese einen
weitgehend übereinstimmenden Suchraum erschließen. Beim hier
angestrebten Verwendungszweck ist mit weitgehend disjunkten
Informationsquellen zu rechnen.
Ein Ansatz zum Ausgleich der unterschiedlichen Rankingwerte ist, die
Informationsquellen mit unterschiedlichen Gewichten zu versehen. Dies kann
manuell z.ԜB. durch den Anwender direkt oder durch statische Vorgabewerte,
die zuvor festgelegt werden müssen, erfolgen. Es setzt jedoch die Kenntnis
aller Informationsquellen voraus. Darüber hinaus ist eine solche statische
Präferenzbildung unabhängig von der Suchanfrage. Dynamische Ansätze
nehmen diese Gewichtung auf der Basis einer Beschreibung der
Informationsquellen vor. Die Beschreibung wird dann vor der Weiterleitung
der Suchanfrage durchsucht (Meng etԜal. 2002). Für die Beschreibungen und
Vorselektion der Informationsquellen können wiederum manuelle (z.ԜB.
16
Beschreibung mit Schlüsselwörtern), automatische (z.ԜB. Extraktion von
Schlüsselwörtern) und lernende Verfahren (z.ԜB. Sammeln der erfolgreichen
Suchterme) genutzt werden. Die Beschreibung kann jedoch nur einen Auszug
der potenziellen Ergebnisse enthalten. Jede Suchanfrage muss hinsichtlich der
Übereinstimmung mit der Informationsquellenbeschreibung bewertet werden,
um entsprechende Präferenzen für die Informationsquellen zu ermitteln.
Daher wird ein lernendes Verfahren vorgeschlagen, das ohne eine fachliche
Beschreibung der Informationsquelle auskommt.
Eine weitere Möglichkeit der Zusammenführung stellt das isolierte
Reranking auf Basis der Information in der Ergebnisliste dar. Dies ist insofern
schwieriger als normales Relevanzranking, da die Bewertung der Ergebnisse
auf Basis der wenigen Information der Ergebnisliste, wie z.ԜB. Ergebnistitel
und Snippet (Kurzbeschreibung des Ergebnisses), erfolgen muss und daher
recht ungenau ist (Hawking 2004). Durch unterschiedliche Verfahren zur
Relevanzermittlung kann jedoch der Fall entstehen, dass die lokale Relevanz
eines Dokumentes niedrig ist (Ebene der Informationsquelle), die globale
Relevanz jedoch hoch ist (Ebene der Suchzentrale). Dies kann durch isoliertes
Reranking auf globaler Ebene vermieden werden. Diese setzen jedoch den
Download (Fetching) und Verarbeitung der Ergebnisse zur Suchzeit voraus.
Ein Problem dabei ist, das die Anzahl der abgerufenen Ergebnisobjekte, insbesondere bei isolierten Zusammenführungsstrategien mit Fetching, aus Zeitund Kostengründen begrenzt werden muss. Aus diesem Grund werden
isolierte Ansätze des Reranking nicht weiter verfolgt.
Für das integrierte Zusammenführen der Ergebnisse existieren Lösungen,
die am Rankingwert oder Rang, welche durch die Informationsquellen
ermittelt wird, ansetzen. Diese berücksichtigen zwar die Suchanfrage, aber
Eigenschaften des Suchenden oder des Suchkontextes fließen bisher nicht,
oder nur auf Ebene der Informationsquelle, ein.
3.2
17
Bewertung von Suchergebnissen und Feedback
Verfahren zur Bewertung der Ergebnisse nach der Suchanfrage können
genutzt werden, um auf Basis einer Qualitätsaussage ein Lernen der
Suchmaschine auszulösen. Die Ansätze zur Ergebnisbewertung unterteilen
sich in explizites und implizites Feedback.
Explizites Feedback erfordert die Aktivität des Anwenders in Form einer
bewusst und aktiv ausgeführten, Bewertung. Dabei wird in der Regel eine
Bewertung zum Beispiel mit einem Fragebogen vorgenommen. Die
Benutzerakzeptanz des zusätzlichen Schrittes ist jedoch gering
(KellyԜ/ԜTeevan 2003).
Implizites Feedback wird aus der Beobachtung und Analyse der
Aktivitäten des Anwenders gewonnen und daraus Rückschlüsse auf die
Ergebnisqualität gezogen. Die implizite Bewertung ist meist verrauscht
(JoachimsԜ/ԜRadlinski 2007) und muss interpretiert werden. Studien zeigen
jedoch am Einzelfall, dass keine prinzipiellen Unterschiede in der
Aussagequalität bestehen (White etԜal. 2002). Beispiele für beobachtbares
Verhalten sind die Auswahl von Ergebnissen, das Modifizieren der Anfrage
oder das Abbrechen der Suche.
Mit Hilfe der Ergebnisbewertung können auch Rückschlüsse auf die
Qualität der Ergebnisse der Informationsquellen ermittelt werden. Die
Qualität ist vom jeweiligen Ziel und vom Suchenden abhängig. Auf Ebene
der Suchzentrale kann dies durch eine statische Gewichtung der
Informationsquellen nicht berücksichtigt werden. Ebenso ist ein dynamischer
Ansatz auf Basis von Klassifikation der Informationsquellen und
Suchanfragen unzureichend.
18
3.3
Personalisierung
Die Personalisierung des Rankings stellt eine Möglichkeit zur Verbesserung
der Suchergebnisse dar (RiemerԜ/ԜBrüggemann 2007). Dabei werden in der
Praxis oft thematische Interessenprofile genutzt, was wiederum eine
Klassifikation der Suchanfragen und Ergebnisse voraussetzt. Die
Interessensprofile können vor der Suchanfrage festgelegt werden. Andere
Ansätze extrahieren diese aus der Suchhistorie und dem erhobenen Feedback
und speichern diese auch über mehrere Suchsitzungen hinweg
(KeenoyԜ/ԜLevene 2005). Bei der Personalisierung von Suchergebnissen
werden die Suchergebnisse anders sortiert (reranking), gefiltert oder, analog
zum Relevance Feedback, die Suchanfrage erweitert bzw. modifiziert. Dies
erfolgt auf Basis von Eigenschaften eines Profils des Suchenden (oder der
einer Gruppe von Suchenden die der Suchende zugeordnet ist), die in der
Suchanfrage berücksichtigt werden. Dies kann z.ԜB. durch die Einbeziehung
des Standorts des Suchenden (regionale Nähe) oder von Interessensprofilen
erfolgen (Lewandowski 2004). Ein Beispiel im Internet ist Google’s
personalized web search, bei der es dem Benutzer erlaubt ist,
Interessenkategorien für die Suche im Vorfeld festzulegen (Sun etԜal. 2005).
Überwiegend werden für die Personalisierung Ansätze zur Klassifikation der
Ergebnisobjekte,
zum
Beispiel
Verzeichnisdienste
oder
Textklassifikationsalgorithmen, genutzt (Liu etԜal. 2004). Die so klassifizierten
19
Ergebnisse werden einem Modell der Anwenderinteressen gegenübergestellt,
und präferierte Themen entsprechend höher im Ranking berücksichtigt.
Die Klassifikation der Elemente ist auf Ebene der Informationsquelle
möglich, da hier Transparenz über alle Objekte im Suchraum vorhanden ist.
Auf Ebene der Suchzentrale müsste hierzu eine Beschreibung der
Informationsquelle genutzt werden, die jedoch nur einen Auszug der
potenziellen Treffer abbilden kann und daher unscharf wird. In unserem
Ansatz wird daher die Präferenz für Informationsquellen spezifisch für den
Suchenden aus dem Feedback ermittelt. Durch den breiten
Anwendungsbereich der angestrebten kooperierenden Suchmaschine als
zentraler Informationszugang im Unternehmen ist jedoch zu erwarten, dass
eine weitere, jeweils auf das Ziel ausgerichtete Unterteilung in
Suchsituationen erforderlich ist.
4
Konzept der Selbstlernenden Suchmaschine
Die im vorherigen Abschnitt angestellten Überlegungen sind in das Design
der „Selbstlernenden Suchmaschine für die profil- und kontextorientierte
Suche in Unternehmen“ eingeflossen. Verfolgt wird ein Ansatz zur Suche in
heterogenen Informationsquellen, der basierend auf Feedback durch den
Suchenden Anwenderpräferenzen zur Verbesserung des Rankings der
Suchergebnisse lernt. Dazu wird ein CBR-System vorgeschlagen. Das
Konzept auf Ebene der Suchzentrale wird im Folgenden vorgestellt. Auf
Ebene der Informationsquellen sollen unterschiedliche Rankingverfahren
ermöglicht werden. Dies wird jedoch nur insoweit erörtert, als das eine
Anwendung unterschiedlicher Verfahren, z.ԜB. einer Personalisierung der
Suchergebnisse, nicht blockiert wird.
4.1
Das Konzept der Selbstlernenden Suchmaschine
Das Reranking der Ergebnisse erfolgt auf Basis von Profil und Kontext sowie
den zuvor gesammelten Bewertungen der Suchergebnisse. Bei der
Anwendung im Unternehmen ist es vorteilhaft, dass bereits zum Zeitpunkt der
Initialisierung die Anwender und einige ihrer Eigenschaften bekannt sind. Ein
Profil wird dabei auf Ebene einer Gruppe, zum Beispiel der Zugehörigkeit zu
einer Organisationseinheit wie Abteilung oder Team vergeben. Es ist
möglich, bereits zur Initialisierung Präferenzen zu hinterlegen, jedoch ist dies
nicht erforderlich. Während der Laufzeit werden die erlernten Präferenzen
gemeinsam für alle Inhaber eines Profils genutzt.
20
Da jedoch die Zwecke bzw. Ziele der Suchanfragen auch innerhalb eines
Profils stark differieren, wird als zweiter Ansatz die Kontextualisierung
verfolgt. Im System können zur Initialisierung Kontexte sowie Präferenzen
angelegt werden. Dies kann durch eine Analyse der Informationsbedarfe, wie
sie zum Beispiel durch die Aktivitätssicht der KMDL (GronauԜ/ԜFröming
2006) dargestellt werden, erfolgen. Das System ist jedoch grundsätzlich so
ausgelegt, dass die Kontexte auch während der Laufzeit von den Anwendern
angelegt werden können. Ein Kontext hat zunächst vor allem einen
Bezeichner und erlernt die Präferenzen durch die Bewertung während der
Nutzung. Die Kontexte werden zwischen den Inhabern eines Profils geteilt.
Das hat den Vorteil, dass Erlerntes übertragbar ist, und so auch bei
Mitarbeiterwechsel bzw. für neue Mitarbeiter zur Verfügung steht. Der
Kontext muss beim Stellen der Suchanfrage angegeben werden.
Die Aufgabe des Systems ist es nun, die Informationspräferenzen auf
Basis des Feedbacks zu erlernen. Weiterhin ist bei Änderungen in der
Organisation oder den genutzten Informationsquellen eine dynamische
Anpassung dieser Präferenzen erforderlich. Eine Klassifikation der
Informationsquellen oder Suchanfragen ist nicht vorgesehen.
Bei der Benutzung der Selbstlernenden Suchmaschine muss sich der
Anwender zunächst gegenüber der Suchzentrale identifizieren. Beim Stellen
einer Suchanfrage muss ein Kontext aus den für sein Profil verfügbaren
Kontexten ausgewählt oder ein neuer hinzugefügt werden. Als Ergebnis erhält
er eine zusammengefasst gerankte Liste der Ergebnisse. Durch weitere
Aktionen, wie Selektion einzelner Ergebnisse und explizite Bewertung sowie
durch implizites Feedback wird für einzelne Ergebnisse positives oder
negatives Feedback übermittelt.
4.2
Architektur
Die Selbstlernende Suchmaschine ist modular aufgebaut und stützt sich auf
Webservices, die von Informationsquellen angeboten werden. Eine
Informationsquelle bezeichnet dabei eine Suchmaschine für eine spezifische
Domäne, die minimal für jedes Suchresultat folgende Information
bereitstellen muss: einen uniform Resource Identifier (URI) (Berners-Lee
etԜal. 2005), einen Ranking-Wert, optional eine kurze Beschreibung des
21
Treffers sowie optional eine Information über die Quelle des Treffers. Durch
die Anbindung von Informationsquellen als Webservices kann das System
beliebig erweitert werden. Auch können ältere Anwendungen durch Wrapper
eingebunden werden, zum Beispiel für die Suche in Internetportalen
(Graupmann etԜal. 2003).
An die Informationsquellen wird die Suchanfrage gemeinsam mit der
Identität des Suchenden und optional den Kontext weitergeleitet und die
Ergebnisse sowie ggf. quellenspezifische Relevanzwerte werden
zurückgegeben. Hierbei ist auch die Anpassung der Syntax der Suchanfrage
vorgesehen. Als Antwort wird eine Gesamtrangfolge der Ergebnisse erstellt,
in die die zuvor erlernten Präferenzen des Suchenden einfließen.
Die Architektur der Selbstlernenden Suchmaschine in Abbildung 3 ist mit
Hilfe der Fundamental Modeling Concepts (FMC) modelliert (Knöpfel etԜal.
2005). Dargestellt ist die Kompositionsstruktur als Blockdiagramm mit
aktiven und passiven Komponenten. Aktive Komponenten sind Agenten, die
als Rechteck modelliert werden. Passive Elemente sind Speicher, dargestellt
als abgerundete Form, und Kommunikationskanäle, im Modell markiert mit
Kreisen. Passive Komponenten speichern oder transportieren Information.
Das Blockdiagramm beschreibt somit, welche Agenten Zugriff auf welche
Daten haben und wie sie untereinander über Kommunikationskanäle oder
gemeinsam genutzte Speicher kommunizieren.
22
Abbildung 3: Architektur des Prototyps der Selbstlernenden Suchmaschine.
Die Selbstlernende Suchmaschine besteht aus einer Kernanwendung, die eine
webbasierte grafische Benutzerschnittstelle anbietet. Dem Nutzer wird
ermöglicht, Anmeldedaten einzugeben, die an die Informationsquellen
weitergereicht werden. Weiterhin wird ihm die Möglichkeit geboten, zu einer
Suchanfrage einen Kontext auszuwählen oder einen neuen anzulegen. Die
Kernanwendung leitet diese Information zu einer Ranking-Komponente, die
wiederum eine Integration Factory nutzt, um Konnektoren zu den einzelnen
Webservices zu instanziieren. Die Ranking-Komponente sammelt die
Suchergebnisse der einzelnen Webservice und fasst diese in einer Liste
zusammen. Dabei werden die Rankingwerte durch die von der Quell-CBR-
23
Komponente ermittelten Werte modifiziert. Diese Quell-CBR-Komponente
nutzt die (standardisierten) originären Ranking-Werte, welche durch die
Webservices der zugrundeliegenden Suchmaschinen übermittelt werden und
die erinnerten Fälle um den endgültigen Ranking-Wert zu berechnen (vgl.
Abschnitt 4.3). Die Ergebnisliste wird dem Nutzer präsentiert, welcher
Feedback in Form von Evaluationen einzelner Treffer geben kann. Dieses
Feedback wird an die Quell-CBR-Komponente weitergeleitet. Eine weitere
Term-CBR-Komponente speichert diejenigen Suchanfragen, die zu einem
positiv evaluierten Treffer geführt haben. Diese werden benutzt, um einem
weiteren Nutzer des Systems mit ähnlicher Suchanfrage eine Liste mit
potenziell erfolgreichen, alternativen Suchanfragen zu präsentieren
(GronauԜ/ԜLaskowski 2003).
Die Konnektoren sind variabel in der Implementierung. Beispielsweise
stellt der „Meta index connector“ eine Verbindung zu einem Webservice her,
der mehr als eine Quelle durchsucht. Dies erlaubt es, große
Informationssammlungen, wie z.ԜB. MS SharePoint, weiter zu zerteilen, um
eine genauere Bewertung durch die CBR-Komponente zu ermöglichen.
4.3
Das CBR System und die Fallbasis
Für das Reranking wird ein CBR-System genutzt, das Fälle mit
Problemstellung und Lösung aufzeichnet. Dabei wird zugrunde gelegt, dass
ähnliche Probleme auch ähnliche Lösungen erfordern (Schank 1982). Die
Problemstellung stellt dabei die Suchanfrage, das Profil und den Kontext dar.
Lösungen sind Präferenzen für Informationsquellen in Form eines
Präferenzwertes, mit dem Ergebnisse der Informationsquellen jeweils höher
oder niedriger im Gesamtranking platziert werden.
Bei einer Suchanfrage wird das Ranking mit Hilfe der erlernten
Präferenzen für die Kombination aus Profil und Kontext genutzt. Nach jeder
Suchanfrage können einzelne Ergebnisse positiv oder negativ bewertet
werden, so dass ein neuer Fall erlernt wird bzw. die Lösungen angepasst wird.
Die Lösungen werden sukzessive unter Berücksichtigung der Zeit (Dynamik)
auch bei widersprüchlichen Bewertungen angepasst.
Die CBR-Komponente beeinflusst die Zusammenstellung der
Suchergebnisse aus den einzelnen Informationsquellen, indem sie deren
24
Ranking-Werte modifiziert. Es wird davon ausgegangen, dass die einzelnen
Informationsquellen spezialisierte Suchlösungen nutzen, die bereits qualitativ
hochwertige Ergebnislisten für die Einträge innerhalb der Suchquelle liefern.
Zur Steigerung der Qualität der Suchergebnisse innerhalb einer
Informationsquelle können alle bekannten Methoden einschließlich einer
erneuten Personalisierung und fallbasiertem Schließen verwendet werden.
Aus diesem Grund werden sowohl die Identität als auch das Profil an die
Informationsquelle weitergereicht.
Weiterhin wird davon ausgegangen, dass die Inhalte der verschiedenen
Informationsquellen zwar nicht komplett disjunkt sind, aber dennoch
unterschiedliche Aufgaben erfüllen und Inhalte zu unterschiedlichen Zwecken
enthalten. Unser Ansatz sieht nun vor, für jede Anfrage die relevanten
Informationsquellen zu identifizieren, d.Ԝh. die Informationsquellen mit der
Intention hinter der Anfrage entsprechenden Inhalten, und die entsprechenden
Ergebnisse im Ranking zu bevorzugen.
Aufgrund der Dynamik in Unternehmen können sich die
Informationsquellen und die Aufgaben im Unternehmen ändern. Somit
müssen auch die ermittelten Relevanzen ständig überdacht werden. Deshalb
wird das maschinelle Lernverfahren des fallbasierten Schließens für die
Ermittlung der relevanten Informationsquellen herangezogen.
Als fallbasiertes Schließen bzw. CBR wird das Lösen von Problem mit
Hilfe von Erfahrungen aus ähnlichen Situationen bezeichnet. Roger Schank
beschreibt die zentrale Rolle von Erfahrungen mit früheren Situationen für die
Fähigkeit des Menschen zu Denken und zu Lernen (Schank 1982).
Erfahrungen werden in Form von Fällen bestehend aus einer
Problembeschreibung, seiner Lösung und einer Bewertung der Lösung
gespeichert. Die Grundidee von CBR ist, dass für ähnliche Probleme ähnliche
Lösungen existieren (Kolodner 1992; Leake 1996).
Das Lösen von Problem mit Hilfe von CBR kann in vier Schritte unterteilt
werden (illustriert durch den CBR-Zyklus (AamodtԜ/ԜPlaza 1994) innerhalb
der Abbildung 3): Wieder auffinden ähnlicher Fälle in der Falldatenbasis.
Anpassung der Lösungen an den neuen Fall. Überprüfung der
vorgeschlagenen Lösung und Akquisition des gelernten Falles.
25
Die CBR-Komponente lernt aus den gesammelten Erfahrungen, welche
Informationsquellen für welche Anfragen relevant sind, durch die Erinnerung
an einen ähnlichen Fall und die dort relevanten Quellen. Die Anfrage wird
durch eine Kombination aus Profil und Kontext beschrieben. Das Profil
umfasst die generellen Aufgaben eines Mitarbeiters und die generelle
Intention hinter seinen Anfragen. Profile werden während der Initialisierung
angelegt. Sie können zum Beispiel aus der Aufbauorganisation des
Unternehmens abgeleitet werden. Das Profil ist rollenorientiert, daher kann
mehreren Mitarbeitern das gleiche Profil zugeordnet sein. Der Kontext
spezifiziert die Intention einer Anfrage und verfeinert damit das Profil.
Kontexte können von allen Mitarbeitern mit dem gleichen Profil angelegt und
getauscht werden. Für jede Anfrage wählt der Suchende einen angelegten
Kontext aus. Profil und Kontext bilden zusammen die Beschreibung des Problems, d.Ԝh. die Intention des Suchenden, und identifizieren damit einen Fall
in der Falldatenbasis.
Selbstlernen zur
Verfeinerung
der Suchergebnisse
Benutzerverhalten
Suchanfrage
stellen
implizite
Trefferbewertung
Trefferauswahl und bewertung
Informationssuche
Gesamtbewertung
explizite
Trefferbewertung
Problem
Suchmaschine
Wie
auff der
inde
n
neuer
Fall
Suchender
Suchquellen
Suchender
Gelernter
Fall
Gefundener Neuer
Fall
Fall
Fallakquisition
Falldatenbasis
Lö
anp sungs
ass ung
Generelles
Wissen
Getesteter
Fall
Lösu
n
überp gsrüfun
g
Überprüfte
Lösung
Gelöster
Fall
Vorgeschlagene
Lösung
CBR-System
Integration der neuen Suchbewertung
26
Abbildung 4: Selbst lernender Suchprozess.
Um zu erlernen welche Informationsquellen bevorzugt werden sollten,
benötigt die CBR-Komponente Feedback über die Qualität der präsentierten
Suchergebnisse. In jedem Fall wird jeder Informationsquelle ein Koeffizient
zur Beeinflussung des Rankingwertes der Einträge der entsprechenden Quelle
zugeordnet. Wird für ein Suchergebnis positives Feedback gegeben, so wird
der Koeffizient der entsprechenden Quelle erhöht. In der nächsten Anfrage im
gleichen Fall, d.Ԝh. unter der gleichen Kombination aus Profil und Kontext,
wird das Ranking für Ergebnisse dieser Quelle entsprechend des
Koeffizienten erhöht. Bei negativem Feedback wird entsprechend der
zugehörige Koeffizient verkleinert.
Die Voraussetzung hierzu sind die auf einen Wertebereich normalisierten
Rankingwerte der einzelnen Informationsquellen. Durch das Anpassen der
Gewichte der Informationsquellen auf Basis der Benutzerbewertungen
können
Niveauunterschiede
im
Rankingwert
durch
erlernte
Quellenkoeffizienten ausgeglichen werden.
Die Fallbasis, welche bei Nutzung der Selbstlernenden Suchmaschine
entsteht, kann zur weiteren Analyse genutzt werden. So können zum Beispiel
Analogien im Informationsbedarf sowie die Relevanz der verschiedenen
Informationsquellen ermittelt werden. Auch ungedeckte Informationsbedarfe
können ermittelt werden. Diese liegen vor, wenn für die Informationsquellen
überwiegend negative Bewertungen eingehen. Kontexte und Profile, die über
einen längeren Zeitraum eine stark ähnliche Lösung haben, können
zusammengeführt werde, so dass eine Bereinigung des Systems erfolgt. Bei
dauerhaft widersprüchlichen Bewertungen kann eine Teilung der Kontexte
bzw. Profile vorgeschlagen werden.
Die Gewichtung der Informationsquellen ist Kontext- und Sucherbezogen
dynamisch, jedoch in der derzeit vorgesehenen Ausbaustufe statisch in Bezug
auf den Suchterm. Durch die Log-Funktion werden jedoch Suchanfragen und
Bewertungen zu Informationsquellen gesammelt. Eine entsprechende weitere
Anpassung des Informationsquellenkoeffizienten ist für spätere Ausbaustufen
vorgesehen.
5
Aktueller Status und Ausblick
Der vorgestellte Ansatz passt sich an Umgebungen mit heterogenen
Informationsquellen durch die Gewichtung der Informationsquellen an. Die
Personalisierung und Kontextualisierung führt zu einer selbstlernenden
27
Verbesserung des Gesamtrankings durch die dynamische Anpassung der
Gewichtung der Informationsquellen. Durch das kontinuierliche Lernen passt
sich das System fortlaufend veränderten Umgebungen an. Durch die
Bewertungen werden außerdem Niveauunterschiede in den Rankingwerten
einzelner
Informationsquellen
nivelliert.
Eine
Ermittlung
der
Informationsbedarfe zur Initialisierung ist nicht erforderlich. Durch die
Ähnlichkeitsanalyse kann das System eine Selbstbereinigung durchführen.
Das System ist geeignet um einen zentralen Informationszugang in
Unternehmen darzustellen und dabei einen erweiterbaren und großen
Suchraum mit heterogenen Informationsrepositories abzudecken.
Derzeit wird an einer prototypischen Implementierung und Validierung
des Systems gearbeitet. Diese erfolgt auf Basis einer existierenden,
quelloffenen Metasuchmaschine. In einem Piloteinsatz wird der Prototyp in
verschiedenen Stufen der Entwicklung getestet. Gleichzeitig wird ein
Protokoll über sämtliche Aktionen der Benutzer erhoben. Die
Entwicklungsstufen
umfassen
den
normalen
Einsatz
als
1.
Metasuchmaschine, 2. mit expliziter Bewertung der geöffneten Ergebnisse, 3.
mit Personalisierung über eine Nutzerauthentifikation und 4. mit Auswahl des
Suchkontextes sowie über die CBR-Komponente geändertem Ranking.
Mittels der gesammelten Daten soll eine Effizienzsteigerung durch einen
vorher nachher Vergleich bei der Suche nachgewiesen werden.
Zu einem späteren Zeitpunkt kann die entstehende Fallbasis für weitere
Untersuchungen, wie die Identifikation ungedeckter Informationsbedürfnisse
bei anhaltend negativer Ergebnisbewertung, genutzt werden.
Literatur
Aamodt, A.; Plaza, E. (1994): Case-Based Reasoning: Foundational Issues, Methodogical
Variations and System Approaches.
Bahrs, J.; Schmid, S. (2005): Anwendungen und Systeme für das Wissensmanagement - Ein
aktueller Überblick. In: Gronau, N. (Hrsg.): Anwendungen und Systeme für das
Wissensmanagement - Ein aktueller Überblick. Gito (Berlin).
Bahrs, J.; Schmid, S.; Müller, C.; Fröming, J. (2007): Wissensmanagement in der Praxis Empirische Untersuchung. Gito (Berlin).
Berners-Lee, T.; Fielding, R.; Masinter, L. (2005): RFC 3986 - Uniform Resource Identifier
(URI): Generic Syntax. The Internet Society, IETF, January.
Coiera, E.; Walther, M.; Nguyen, K.; Lovell, N. H. (2005): Architecture for Knowledge-Based
and Federated Search of Online Clinical Evidence. In: Journal of Medical Internet Research:
7, 5.
Craswell, N.; Hawking, D.; Thistlewaite, P. B. (1999): Merging Results from Isolated Search
Engines. In: Astralasien Database Conference, S. 189-200.
Eggert, S. (2007): Enterprise Content Management. Gito (Berlin).
Feldmann, S. (2004): The high cost of not finding information. http://www.kmworld.com/Articles/ReadArticle.aspx?ArticleID=9534 (Abruf am: 21.11.2007).
Fryer, D. (2004): Federated Search Engines. In: Online: 28, 2, S. 16-19.
28
Graupmann, J.; Biwer, M.; Zimmer, P. (2003): Towards Federated Search Based on Web
Services. BTW Conference.
Gronau, N.; Fröming, J. (2006): KMDL – Eine semiformale Beschreibungssprache zur
Modellierung von Wissenskonversionen. In: Wirtschaftsinformatik: 48, 5, S. 349-360.
Gronau, N.; Laskowski, F. (2003): Using Case-Based Reasoning to Improve Information
Retrieval in Knowledge Management Systems. In: Menasalvas, E.; Segovia, J.; Szczepaniak,
P. (Hrsg.): Advances in Web Intelligence. Proc. of the First International Atlantic Web
Intellingence Conference, AWIC 2003, Madrid, May 2003, S. 94-102.
Hane, P. J. (2003): The Truth About Federated Searching. In: Information Today: 20, 10, S. 24.
Hawking, D. (2004): Challenges in enterprise search. In: Schewe, K.-D.; Williams, H. (Hrsg.):
Proceedings Fifteenth Australasian Database Conference, Volume 27. Australian Computer
Society, Inc. (Dunedin, New Zealand), S. 25-24.
Jascó, P. (2004): Thoughts on Federated Searching. In: Information Today: 21, 9, S. 17.
Joachims, T.; Radlinski, F. (2007): Search Engines that Learn from Implicit Feedback. In:
Computer, August 2007, S. 34-40.
Keenoy, K.; Levene, M. (2005): Personalisation of Web Search. In: Intelligent Techniques for
Web Personalization - IJCAI 2003 Workshop, ITWP 2003, Acapulco, Mexico, August 11,
2003, Revised Selected Papers. Springer (Berlin), S. 201-228.
Kehoe, M. (2007): What's in a name: Federated Search. http://www.ideaeng.com/pub/entsrch/
v4n4/article02.html (Abruf am: 24.07.2008).
Kelly, D.; Teevan, J. (2003): Implicit feedback for inferring user preference: a bibliography. In:
ACM SIGIR Forum: 37, 2, S. 18-28.
Knöpfel, A.; Gröne, B.; Tabeling, P. (2005): Fundamental Modeling Concepts. Effective
Communication of IT Systems. John Wiley & Sons (Chichester).
Koch, D. (2007): Suchmaschinenoptimierung: Website Marketing für Entwickler. AddisonWesley (München).
Kolodner, J. (1992): An introduction to case-based reasoning. In: Artificial Intelligence Review:
6, 1, S. 3-34.
Leake, D. (1996): CBR in Contect: The Present and Future. Case-Based Reasoning: Experiences,
Lessons, and Future Directions.
Lewandowski, D. (2004): Technologie-Trends im Bereich der WWW-Suchmaschinen. In:
Information Professional 2011: 26. Online-Tagung der DGI (Frankfurt am Main), S. 183-195.
Lewandowski, D. (2005): Web Information Retrieval: Technologien zur Informationssuche im
Internet. DGI (Frankfurt am Main).
Liu, F.; Yu, C.; Meng, W. (2004): Personalized Web Search For Improving Retrieval
Effectiveness. In: IEEE Transactions on Knowledge and Data Engineering: 16, 1, S. 28-40.
Liu, Y.-T.; Liu, T.-Y.; Qin, T.; Ma, Z.-M.; Li, H. (2007): Supervised Rank Aggregation. In:
International World Wide Web Conference - Proceedings of the 16th international conference
on World Wide Web. ACM (New York, USA), S. 481-490.
Meng, W.; Yu, C.; Liu, K.-L. (2002): Building Efficient and Effective Metasearch Engines. In:
ACM Computing Surveys: 34, 1 (March 2002), S. 48-89.
Mukherjee, R.; Mao, J. (2004): Enterprise Search: Tough Stuff. In: ACM Queue: 2, 2Ԝ/ԜApril
2004, S. 36-46.
NISO (2005): NISO Metasearch Initiative. http://www.niso.org/workrooms/mi (Abruf am:
24.07.2008).
Page, L.; Brin, S.; Motwani, R.; Winograd, T. (1998): The PageRank Citation Ranking: Bringing
Order to the Web. http://dbpubs.stanford.edu:8090/pub/1999-66 (Abruf am: 10.12.2007).
Riemer, K., Brüggemann, F. (2007) : Personalization of internet search – techniques and market
overview. In: Wirtschaftsinformatik: 49, 2, S. 116-126.
29
Schank, R. (1982): Dynamic Memory: “A Theory of Reminding and Learning in Computers and
People”. Cambridge University Press (New York, USA).
Schmalz, R. (2005): IT-Unterstützung für das Wissensmanagement in Kooperationen.
Universitätsverlag Göttingen (Göttingen).
Stock, W. G. (2006): Information Retrieval - Informationen suchen und finden. Oldenbourg
(München).
Sun, J.-T.; Zeng, H.-J.; Liu, H.; Lu, Y.; Chen, Z. (2005): CubeSVD: A Novel Approach to
Personalized Web Search. In: Proceedings of the 14th international conference on World
Wide Web. ACM Press (Chiba, Japan), S. 382-390.
White, C. (2007): What is the Difference Between Querying and Browsing Data? http://www.b(Abruf
eye-network.com/blogs/business_integration/archives/2007/09/what_is_the_dif.php
am: 13.09.2007).
White, R. W.; Ruthven, I.; Jose, J. M. (2002): The use of implicit evidence for relevance feedback
in web retrieval. In: Proceedings of 24th BCS-IRSG European Colloquium on IR Research.
Lecture notes in Computer Science 2291. Springer (Berlin), S. 93-109.

Arbeitsbericht WI - 2008 – 05 - Lehrstuhl für Wirtschaftsinformatik

Transcription

Documents pareils

Analytics oder WebAnalyticsProgramm - Digital

Treffsicher recherchieren – Suchmaschinen, die Sie

Vor Google - transcript Verlag

www.autogas-forum.de www.erdgasfahrzeug

Keine schönere Suchmaschine in der ganzen Milchstraße: Ms. Dewey

Deutsche Suchmaschine versteht Türkisch und Polnisch

Internetquellen: Allgemeine Suche

Was ist YaCy

Informationsquellen für Logistiker

14-Kanuwandern auf der Leine - Samtgemeinde Gronau