Arbeitsbericht WI - 2008 – 05 - Lehrstuhl für Wirtschaftsinformatik
Transcription
Arbeitsbericht WI - 2008 – 05 - Lehrstuhl für Wirtschaftsinformatik
Universität Potsdam Univ.-Prof. Dr.-Ing. habil. Norbert Gronau Lehrstuhl für Wirtschaftsinformatik und Electronic Government Universität Potsdam August-Bebel-Str. 89; 14482 Potsdam Tel. ++49 331/ 977-3322, Fax -3406 http://wi.uni-potsdam.de E-Mail: [email protected] Arbeitsbericht WI - 2008 – 05 Gronau, Norbert; Bahrs, Julian Zentraler Informationszugang im Unternehmen: Selbstlernende Suchmaschine für profil- und kontextorientierte Suche Zitierhinweis: Gronau, N.; Bahrs, J.: Zentraler Informationszugang im Unternehmen – Selbstlernende Suchmaschine für profil- und kontextorientierte Suche. In: Scholz-Reiter, B. (Hrsg.): Technologiegetriebene Veränderungen der Arbeitswelt, Gito (Berlin) 2008, S. 99-121. Zentraler Informationszugang im Unternehmen durch profil- und kontextspezifische Suche Norbert Gronau und Julian Bahrs, Universität Potsdam,Wirtschafts- und Sozialwissenschaftliche Fakultät, Lehrstuhl für Wirtschaftsinformatik und Electronic Government, August-Bebel-Straße 89, 14489 Potsdam, {ngronau, jbahrs}@wi.uni-potsdam.de 1 Einleitung Eine Suchmaschine ist ein System das dazu befähigen soll, aus einer Sammlung von Information relevante Information zu einem zuvor als Suchanfrage formulierten Informationsbedarf herauszufiltern. Suchmaschinen können sowohl explorativ als auch zum Wiederabruf bereits bekannter Information verwendet werden und eignen sich sowohl zur Navigation als auch zur Selektion in bekannten und unbekannten Informationssammlungen. Suchmaschinen stellen typischerweise einen Zugang zu einer Informationssammlung dar. Vor der weitgehenden Digitalisierung der Information war der Informationsabruf nur über Personen, z.ԜB. denjenigen der letztendlich die Information in einem Aktenordner verwahrt, möglich. Professionalisiert wurde dies beispielsweise in Bibliotheken und Archiven, in denen ein Katalog der Objekte erstellt wurde und so das Nachschlagen und Suchen beschleunigt. Durch die Digitalisierung der Information ist es nicht nur leichter, diesen Katalog nach mehreren unterschiedlichen Kriterien zu sortieren, sondern auch möglich die Einordnung in den Katalog vollständig (z.ԜB. ein gesamtes Dokument ist Bestandteil des Kataloges) und automatisiert vorzunehmen. Für Unternehmen ergibt sich hieraus erstmals die Chance, die vorhandene digitale Informationssammlung besser zu nutzen, ohne dafür zunächst aufwendige Archive anzulegen. Für die Wettbewerbsfähigkeit von Unternehmen sind die Wiederverwendung und der schnelle Zugriff auf Information aus zwei Gründen erforderlich: 2 N. Gronau und J. Bahrs • Effizienz: Die Suche nach Information im Unternehmen ist zeitintensiv und daher teuer. Studien gehen von 15Ԝ% bis zu 35Ԝ% der Arbeitszeit aus. Bei Wissensarbeitern wird dieser Anteil noch deutlich höher eingeschätzt (Feldmann 2004). Darüber hinaus enden rund 50Ԝ% der Suchanfragen erfolglos; die Information müssen neu erarbeitet werden. Erhaltung von Handlungsspielräumen: Um auf Chancen am Markt reagieren zu können und die Entscheidungsfähigkeit zu bewahren, muss die Informationsbasis zugreifbar und flexibel auswertbar sein. Die Menge der in digitaler Form zur Verfügung stehenden Information steigt stetig. Dazu tragen die gestiegene Reife und Verbreitung betrieblicher Informationssysteme (ERP, CRM) durch das Vorhalten strukturierter Daten bei. Die Verlagerung der Kommunikation hin zu elektronischen Medien wie E-Mail und Internet sowie die Verbreitung von typischen Bürosoftwarelösungen erzeugen große Mengen unstrukturierter Information. Telefax und klassische, papiergebundene Postsendungen werden heute oft digitalisiert und entsprechend weiterverarbeitet. In der Kommunikation • zwischen Unternehmen werden digitale Formate, z.ԜB. EDI und XML, zur Informationsübermittlung genutzt. Daher ist mit einer weiter steigenden Bedeutung der Suchinstrumente zu rechnen. Auch innerhalb des Wissensmanagements ist die Suche von Information oder Expertise mit Hilfe von Suchmaschinen ein wesentlicher Baustein. Die steigende Menge der digital vorhandenen Information führt jedoch nicht zu einer besseren Ausnutzung dieser Information (Feldmann 2004). Eine geeignete Infrastruktur zur Verwaltung und Auswertung der Information fehlt in vielen Unternehmen. Entsprechend werden bei der Suche nach Information im Unternehmen bisher oft unbefriedigende Ergebnisse erzielt, mit zeit- und kostenintensiven Folgen. Diese Situation wird in Abschnitt 2 auf Basis einer empirischen Untersuchung bei rund 140 Unternehmen im Zentraler Informationszugang im Unternehmen durch profil- und kontextspezifische Suche 3 deutschsprachigen Raum konkretisiert. Das Ergebnis überrascht, da die Nutzung von Suchmaschinen durch das Internet für immer weitere Anwenderkreise alltäglich wird und „im Internet“ größere Informationsmengen als im Unternehmen erschlossen werden. Ein direkter Transfer der mit dem Internet gereiften Technologie in die Unternehmen scheint nicht möglich. Die Ursachen liegen unter anderem an den andersartigen Anforderungen an die Suchinstrumente durch die Informationslandschaft im Unternehmen (Abschnitt 2.2). Wesentliche Herausforderungen bei Enterprise Search sind die Notwendigkeit, Zugriffsrechte zu berücksichtigen sowie die heterogene Struktur der Informationsquellen im Unternehmen. In Abschnitt 2.3 werden bisherige Lösungskonzepte für Enterprise Search und deren konzeptionelle Schwierigkeiten vorgestellt. Ein System kooperierender Suchmaschinen ist nach dieser Analyse ein erfolgversprechender Ansatz, der den Anforderungen der Informationslandschaft gerecht wird. Aus diesem Grund wird dieser Ansatz und die dabei auftretenden Herausforderungen in Abschnitt 3 detaillierter vorgestellt. Die dargestellte Situation ist Ausgangspunkt für die Entwicklung eines neuartigen selbstlernenden Rankingverfahrens: Im AIF-Projekt „Selbstlernende Suchmaschine für die profil- und kontextorientierte Suche in Unternehmen“ 1 wird ein auf Case Based Reasoning (CBR) basierender Ansatz zur Suche in heterogenen Informationsquellen entwickelt. Im Projekt wird ein System implementiert, das Kenntnisse über die Suchenden und den Kontext, in dem die Suchanfrage gestellt wird, mit Kenntnissen über die Informationsquellen und zuvor gesammelten Bewertungen in Beziehung setzt. Wie dies dazu beitragen soll, ein besseres Ranking und einen zentralen Informationszugang zu erreichen, wird in Abschnitt 4 dargestellt. In Abschnitt 5 werden abschließend der aktuelle Implementierungsstatus sowie ein Ausblick auf die Validierung gegeben. 2 Ausgangssituation Enterprise Search Ansätze zur Suche für Unternehmen werden im Forschungsfeld Enterprise Search behandelt. Enterprise Search umfasst die Suche über alle Textinhalte 2 , die in digitaler Form im Intranet und auf den Webseiten eines Unternehmens, in Datenbanken, E-Mails, Dokumenten usw. vorzufinden sind (Hawking 2004). Dabei wird ein zentraler Informationszugang impliziert. Die Zielstellung lautet, ein möglichst gutes Suchergebnis unter Berücksichtigung möglichst großer Teile der Informationssammlung des Unternehmens zu erreichen. Ein gutes Suchergebnis erfüllt genau den Informationsbedarf des 1 2 Förderkennzeichen 15130 BR/1, Mittelgeber BMWi Die Suche in Bildern und Multimediainhalten werden in diesem Beitrag ausgeklammert. 4 N. Gronau und J. Bahrs Anwenders, so dass dieser die Handlung, die den Informationsbedarf ausgelöst hat, ausführen kann, ohne unnötige Information zu erhalten (Stock 2006). Die Qualität von Suchergebnissen wird stets vom Anwenderbedarf abgeleitet. Übertragen auf die Anwendung von Suchmaschinen im Unternehmen liegen die Nutzeffekte in der Wiederverwendung vorhandener Information sowie der gesteigerten Auskunfts- und damit Handlungsfähigkeit. 2.1 Verbreitung aktueller Lösungsansätze für die Suche im Unternehmen Die empirische Untersuchung bei 140 Unternehmen im deutschsprachigen Raum zeigt erhebliche Unzufriedenheit mit den Ergebnissen und Möglichkeiten zur Suche in den Informationsbeständen der Unternehmen (Bahrs etԜal. 2007). Die Umfrage wurde mit einem öffentlich im Internet verfügbaren Fragebogen durchgeführt. Der Fragebogen wurde durch verschiedene Publikationen und Hinweise auf Konferenzen und in Newslettern bekannt gemacht. Die Befragung wurde ohne Ausrichtung auf einen Wirtschaftszweig durchgeführt. Die Untersuchung zeigt, dass die Mehrzahl (rund 70Ԝ%) der Unternehmen zwar Suchmaschinen einsetzen, diese jedoch nur Teile der im Unternehmen verfügbaren Informationsrepositories erschließen (vgl. Abbildung 1). Einen zentralen Informationszugang gibt es kaum (17Ԝ%). Nur rund 20Ԝ% der Befragten, bei denen Suchmaschinen vorhanden sind, gehen davon aus, dass im Unternehmen vorhandene Information zu einem Zentraler Informationszugang im Unternehmen durch profil- und kontextspezifische Suche 5 Thema durch eine Suchmaschine gefunden werden können. Rund 60Ԝ% vermuten dies, es besteht jedoch ein erhebliches Misstrauen gegenüber den Suchergebnissen. Die verbleibenden 20Ԝ% erwarten gar nicht, dass diese Information aufgefunden werden können. Noch deutlicher ist dies ausgeprägt, wenn nach Experten im Unternehmen gesucht wird. Über 50Ԝ% gehen davon aus, dass diese nicht mit Hilfe der Suchmaschine gefunden werden können. 22; 17% Ja, eine Suchmaschine erfasst alle Inhalte im Unternehmen 41; 31% Ja, aber die vorhandenen Informationen werden nur teilweise erschlossen Ja, mehrere Suchmaschinen erfassen jeweils Teile der vorhandenen Information 49; 37% Nein, es wird keine Suchmaschine eingesetzt 20; 15% Abbildung 1: Erschließung von Information in Unternehmen durch Suchmaschinen Diese Erwartungshaltung gegenüber den Unternehmenssuchmaschinen spiegelt sich auch in ihrer Nutzungsfrequenz wieder. Die externen Suchinstrumente werden wesentlich häufiger genutzt als die unternehmensinternen (vgl. Abbildung 2). 6 N. Gronau und J. Bahrs intern 17 13 extern 20 18 84 0% 20% 14 20 40% 60% 14 9 9 2 5 80% öfter bis zu 1 Mal täglich bis zu 3 Mal pro Woche bis zu 1 Mal pro Woche bis zu 1 Mal im Monat gar nicht 100% Abbildung 2: Nutzungshäufigkeit von unternehmensinternen und -externen Suchmaschinen Trotz der geringeren Nutzungsfrequenz wird der Nutzen von Suchmaschinen im Unternehmen im Vergleich zu anderen typischen Infrastrukturen zur Verwaltung von unstrukturierten Information von den Anwendern als hoch bewertet. Beim Vergleich der angegebenen Nutzwerte von Anwendern mit und ohne Personalisierung, weisen die Instrumente mit Personalisierung einen höheren Nutzwert auf. Jedoch sind weniger als 25Ԝ% der Suchmaschinen mit Mechanismen zur Personalisierung ausgestattet. 2.2 Anforderungen aus der Informationslandschaft im Unternehmen Die Gründe für diese unbefriedigende Situation leiten sich aus dem für Suchmaschinen schwierigen Suchraum in Unternehmen ab. Der Suchraum umfasst alle von der Suchmaschine indexierten Information (Schmalz 2005). Bei klassischen Information Retrieval Systemen ist der Suchraum zumeist auf eine schmale Domäne eingegrenzt. In der Regel können die Quellen vollständig indexiert werden, z. B. bei einer Sammlung von Fachartikeln. Im Internet haben jedoch selbst die großen Suchmaschinen derzeit nur bis zu 34Ԝ% der Websites indexiert (Lewandowski 2005). Enterprise Search soll die Information im Unternehmen erschließen. Wie in Abschnitt 2.1 gezeigt, ist eine vollständige Indexierung unüblich, eher werden einzelne Informationssammlungen indexiert. Dies führt zu einem fragmentierten Suchraum mit zum Teil redundanten, zum Teil unvollständigen Zentraler Informationszugang im Unternehmen durch profil- und kontextspezifische Suche 7 Suchinstrumenten. Für einen zentralen Informationszugang müssen diese verteilten Instrumente wieder zusammengeführt werden. Weiterhin gibt es kein einheitliches Format oder Struktur, mit der Information gespeichert werden, wie dies zum Beispiel bei Webseiten im Internet oder einer Fachdatenbank der Fall ist. So können etwa bei einer Fachdatenbank inhaltsspezifische Suchanfragen formuliert und Informationsarten unterschiedlich gewichtet werden. Im Internet wird dies durch die weitreichende Verwendung von Standards zur Informationsdarstellung für die Informationsquellen im Internet (HTML, PDF, usw.) eingeschränkt sichergestellt. Hier kann daher neben den expliziten Metadaten auch die Formatierung (z.ԜB. Überschriften) und die Vernetzung von Webseiten für die Suchanfragen ausgewertet werden (Page etԜal. 1998). In Unternehmen werden jedoch vielfältige applikationsspezifische Dokumentenformate, Intranet Webseiten, diverse proprietäre Systeme und Datenbanken verwendet. Jede dieser Quellen hat eine eigene Struktur und Charakteristik. Auch die Auswertung der Vernetzungsstruktur entfällt, da viele Inhalte nicht vernetzt sind und die kritische Menge der Verweise nicht erreicht wird. Weiterhin werden im Unternehmen in der Regel Zugriffsrechte beschränkt. Im Internet erschließen die populären Suchmaschinen das nicht sogenannte Deep Web, also beispielsweise Information aus Fachdatenbanken, die nur durch die Nutzung von Formularen zugänglich sind oder Information aus nicht öffentlichen Bereichen. In Unternehmen ist jedoch der überwiegende Teil der Information nur mit entsprechenden Zugriffsrechten erreichbar. Auch die Vereinheitlichung des Identitätsmanagements hat bisher noch keine umfassende Verbreitung gefunden. Ein zur Suche genutzter Index muss daher die Zugriffsrechte abbilden können, um bei Suchanfragen nur erlaubte Ergebnisse auszugeben. Dies ist bei Dokumenten aus einem Dateisystem einfach, wird jedoch bei Datenbankstrukturen, wo ggf. einzelne Attribute gesondert geschützt werden, komplex. Zusammengefasst sind für Enterprise Search die Größe des Suchraumes und Abdeckung der Informationsquellen, (Reichweite), die Berücksichtigung der heterogenen Quellencharakteristik, die Berücksichtigung von Zugriffsrechten und erwarteter Administrationsaufwand relevant. 8 2.3 N. Gronau und J. Bahrs Konzeptionelle Ansätze zu Enterprise Search Zur Lösung von Suchproblemen im Unternehmen existieren vielfältige Ansätze (BahrsԜ/ԜSchmid 2005). Einzelne Merkmale oder Funktionen werden nur in einem Produkt eines Herstellers genutzt. Dies kann als Zeichen für die Entwicklungsfähigkeit der Produkte gewertet werden, aber auch auf die Verschiedenartigkeit der Aufgaben, die mit entsprechenden Produkten bearbeitet werden, hindeuten. Die Gartner Group fasst entsprechende Lösungen daher auch unter dem Begriff „Information Access Technology“ zusammen, wobei dies über den klassischen Aufbau eines Index und der Suche mit einem Suchterm hinausgeht. Laut Gartner umfasst das Segment auch automatische und manuelle Klassifikation, Taxonomieaufbau und verwaltung, Informationsextraktion und Visualisierung von Information. Im Folgenden wird auf Ansätze fokussiert, die automatisch einen Index erstellen und aus diesem Suchergebnisse zu Suchanfragen präsentieren. Nicht vertieft werden entsprechend Ansätze zur manuellen oder automatischen Klassifikation (inkl. Erstellen der Klassen) und anschließender Navigation sowie zur Informationsextraktion ohne Indexierung. So fokussiert, können Typen von Suchmaschinen definiert werden. Bei einer Analyse wurden Intranet-Suchmaschinen, Client-Server-Suchmaschinen und Suchmaschinen in Enterprise Content Management Systemen sowie anwendungsspezifische Suchmaschinen, Desktop-Suchmaschinen, Peer-toPeer-Suchmaschinen und Meta-Suchmaschinen für die Eignung als zentraler Informationszugang im Unternehmen untersucht. Dabei entspricht die Intranet Suchmaschine einer direkten Überführung des Ansatzes der Internetsuchmaschine in ein Unternehmen. Wie im Internet werden alle frei verfügbaren Intranetseiten mit Hilfe eines Crawlers erschlossen und in einem zentralen Index gespeichert. Für Enterprise Search greift dieser Ansatz deutlich zu kurz. Weiterentwicklungen berücksichtigen daher Zugriffsrechte und integrieren mehrere Informationsquellen mit Hilfe von Konnektoren in einem zentralen Index. Dieser Typ Suchmaschine, bezeichnet als Client-Server Ansatz, stößt durch die Verfügbarkeit von Konnektoren und Berücksichtigung von Quellstrukturen und Metadaten sowie durch unterschiedliche Systeme zur Zugriffsverwaltung bei vielen Quellsystemen an Grenzen. Daher wurde eine weitergehende Integration mit Zentraler Informationszugang im Unternehmen durch profil- und kontextspezifische Suche 9 den Systemen zur Inhaltserstellung und -speicherung z.ԜB. durch die in Enterprise Content Management Systemen integrierte Suchmaschine verfolgt. Diese Systeme verfügen über integrierte Suchinstrumente, die heute häufig über große Erschließungsreichweiten im Unternehmen verfügen. Sie erreichen dies durch die Vereinheitlichung von Zugriffsrechten und Metadaten sowie durch quellenübergreifende Ordnungssysteme (Eggert 2007). Diese Systeme wurden zum Teil auch so weiterentwickelt, dass mehrere Quellen eingebunden werden können, wobei dann wieder die Problematik der Client-Server Suche besteht. Die anwendungsspezifische Suche ist das Suchwerkzeug, das in eine Anwendung, wie einem E-Mail-Programm, integriert ist. Durch die Konzentration auf einen kleinen Suchraum mit homogener (oder zumindest bekannter) Informationsstruktur werden sehr gezielte Abfragen mit spezifischen Abfrageparametern unter Berücksichtigung spezifischer Zugriffsrechte, und auch spezifischer Verfeinerungsmechanismen möglich. Im Grunde ist hier das gesamte Methodenspektrum des Information Retrieval, von der Datenbankanfrage bis zur Applikationsentwicklung, anwendbar (White 2007). Beim Beispiel der Suchmaschine im E-Mail-Programm können etwa alle Mails mit dem Betreff „Suchmaschine“ von einem bestimmten Absender gefunden werden. Bei Lösungen dieser Art entfällt die Verwaltung der Zugriffsrechte, wenn nur ein Anwender den jeweiligen Index nutzt, da nur indexiert wird, was mit den Zugriffsrechten des Anwenders auch zugänglich ist. Die Anzahl der Indizes (und der Indexierungsvorgänge) steigt mit der Anwenderanzahl. Ein ähnliches Konzept verfolgen Desktopsuchmaschinen, jedoch als eigenständige Anwendung mit Importfiltern für unterschiedliche Informationstypen. Der Ansatz der Desktop Suchmaschine adressiert einen typischen blinden Fleck anderer Suchmaschinen. Der Ansatz ist jedoch für die unternehmensweite Suche auf Grund seiner redundanten Indexierung (z.ԜB. von Netzlaufwerken) und der damit verbundenen Belastung zentraler Systeme im Unternehmen nur bis zu einer begrenzten Anzahl von Arbeitsplätzen praktikabel einsetzbar. Die Peer-to-Peer Suchmaschine erlaubt beteiligten Peers den Zugriff auch auf andere Indizes. Dadurch kann der Suchraum erweitert werden, jedoch 10 N. Gronau und J. Bahrs müssen die Zugriffsrechte entweder manuell gepflegt werden (BahrsԜ/ԜSchmid 2005) oder aus den Quellen übernommen werden. Hierbei kann es zu redundanter Indexierung kommen, wenn zwei Peers eine gleiche Quelle indexieren. Ferner nehmen die Anforderungen an die Netzwerke und Rechenleistung mit der Anzahl der Peers bzw. Suchanfragen zu. Eine Meta-Suchmaschine hingegen verfügt über keinen eigenen Index, vielmehr werden andere Suchmaschinen abgefragt und die Ergebnisse zusammengefasst. Entsprechend ist die Aufgabe der Zugriffsrechteverwaltung auf durch die abgefragten Suchquellen zu übernehmen. Mit Hilfe der Metasuche werden mehrere verschiedene Suchmaschinen vereint. Ein Vorteil ist der große Suchraum (Meng etԜal. 2002). Nachteilig ist jedoch, dass ein Reranking der Ergebnisse erfolgt. Dies wird in Abschnitt 3 vertieft. Die Vor- und Nachteile der jeweiligen Lösungen in Bezug auf Enterprise Search sind in Tabelle 1 zusammengefasst. Tabelle 1: Architekturen für Enterprise Search im Vergleich. Suchansatz Reichweite Quellencharakteristik Zugriffsrechte Intranet o o - Client-Server o o o (bei vielen Quellen -) Enterprise Content Management System + + + Anwendungsspezifisc h - + + Desktop o o + Peer-to-Peer o - o Meta + - + Zentraler Informationszugang im Unternehmen durch profil- und kontextspezifische Suche 11 Zusammenfassend werden grundsätzlich zwei Strategien verfolgt (Kehoe 2007; MukherjeeԜ/ԜMao 2004): • Die Integration in einen zentralen Index und das Ausführen von Suchanfragen auf diesem Index. • Dezentrale Indizes und die Verteilung der Suchanfrage und die Integration der Ergebnisse zum Zeitpunkt der Suche. Der erste Ansatz erfordert von den Unternehmen erhebliche Anpassung der Prozesse und Systemlandschaft, etwa der Einführung eines Enterprise Content Management Systems zur Speicherung, um einen großen Suchraum zu erschließen. Ferner müssen quellsystemspezifische Konnektoren die Information erschließen und Zugriffsrechte im Index vollständig abgebildet werden. Dies gelingt jedoch bisher nur begrenzt. Schließlich werden auch vertrauliche Daten neben der originären Speicherung zusätzlich in einem Index vorgehalten, was rechtlich und aus Sicherheitsgründen schwierig sein kann. Der Ansatz der dezentralen Indizes bedeutet für Unternehmen zunächst keine Änderungen der Informationsrepositories und Prozesse. Die erforderlichen Konnektoren sind weniger komplex. Prinzipiell kann auch der größere Suchraum erschlossen werden. Ferner können ggf. lokale Lösungen, vor allem Fachanwendungen, die zur Deckung von als relevant identifizierten Informationsbedarf beschafft und eingesetzt wurden, weitergenutzt werden. In diesem Fällen ist kein zusätzliches Indexieren, das Systemlast erzeugt, erforderlich. 3 Kooperierende Suchmaschinen Nach obiger Analyse ist für einen zentralen Informationszugang im Sinne des Enterprise Search eine dezentrale Lösung mit kooperierenden Suchmaschinen sinnvoll. Dies gilt insbesondere dann, wenn dezentrale Lösungen mit angepassten und leistungsfähigen Such- und Rankingmechanismen bereits vorhanden sind. Diese originären Informationsrepositories, die einen Suchdienst anbieten, werden in diesem Beitrag als Informationsquelle bezeichnet. Diese werden von einer Meta-Suchmaschine bzw. Federator, hier als Suchzentrale bezeichnet, abgefragt. Die Aufgaben der Suchzentrale bei kooperierenden Suchmaschinen bestehen in der Anpassung und Verteilung der Suchanfrage an dezentrale Suchmaschinen, dem Zusammenführen der Ergebnisse und der Eliminierung von Dubletten sowie der Bereitstellung eines übergeordneten 12 N. Gronau und J. Bahrs Relevanzrankings (Jascó 2004). Das Ranking ist für den Erfolg der Suchmaschine von herausragender Bedeutung, da die Suchenden in der Regel nur die ersten Ergebnisse betrachten (JoachimsԜ/ԜRadlinski 2007). Anforderungen an Meta-Suchmaschinen sind die parallele Suche, die Zusammenführung der Ergebnisse, die Eliminierung von Dubletten in den Ergebnissen, die Verfügbarkeit und Weitergabe logischer Operatoren AND oder OR, der Ausschluss von Informationsverlust bei den Ergebnissen, Search Engine Hiding (die Eigenschaften der Informationsquellen dürfen keinen Einfluss auf den Benutzer haben) und die vollständige Suche, die alle Ergebnisse durchreicht (Koch 2007). In der Literatur werden die Begriffe Federated Search (kooperierende Suchmaschinen) und Meta-Suchmaschine unterschiedlich verwendet. Nach (Jascó 2004) geht Federated Search dabei über die Metasuche hinaus, er nennt jedoch keine Abgrenzungsmerkmale. Andere, wie z.ԜB. die NISO (National Information Standards Organization der USA) verwenden die Begriffe Metasearch, parallel search, federated search, broadcast search und crossdatabase search synonym (NISO 2005). Dabei wird Federated Search eher für Anwendungsfälle mit nicht öffentlichen und in der Regel kostenpflichtigen Inhalten und einem nicht öffentlichen Nutzerkreis in Abgrenzung zur Metasuche, die für die öffentlich verfügbare parallele Suche in öffentlich verfügbaren Websuchmaschinen steht, interpretiert (Fryer 2004). Dies trifft auch auf die in diesem Beitrag antizipierte Verwendung zu. Daher wird im Folgenden der Begriff kooperierende Suchmaschinen anstelle der MetaSuchmaschine genutzt. Vorteile der kooperierenden Suchmaschinen bestehen durch die Integrationsmöglichkeiten von bisher unerschlossenen Informationsrepositories. Auf der Ebene der Informationsquellen, die aus einem Informationsrepository und einer Suchmaschine bestehen, ergeben sich die für die anwendungsspezifische Suche beschriebenen Vorteile (vgl. Abschnitt 2.3). So können zum Beispiel Push-Funktionen zur Aktualisierung des Index bei bestimmten Ereignissen anstelle von zeitgesteuerter (Pull) Zentraler Informationszugang im Unternehmen durch profil- und kontextspezifische Suche 13 Aktualisierung verwendet werden (MukherjeeԜ/ԜMao 2004). Dies führt dazu, unnötige Indexierungslast zu vermeiden. Weiterhin ist die Einheitlichkeit des Authentifikationssystems und Zugriffsverwaltung gewährt (Kehoe 2007). Schließlich kann ein Ranking-Algorithmus mit spezifischen Abfragemöglichkeiten speziell für eine homogene Informationssammlung entwickelt werden. In diesem Beitrag wird die Entwicklung der Suchmaschine der Informationsquelle jedoch nicht weiter ausgeführt. Der Fokus dieses Beitrags liegt bei den Aufgaben der Suchzentrale. Eine Aufgabe der Suchzentrale besteht in der Notwendigkeit, die gestellte Suchanfrage an den Syntax der Suche der jeweiligen Informationsquellen anzupassen. Durch die Standardisierung der Suchanfrage gehen jedoch spezifische Abfragemerkmale verloren, die dann nicht genutzt werden können und die Nutzbarkeit für Profisucher einschränken (Fryer 2004). Vorhandene Ansätze zeigen aber, dass mit Hilfe von Regeln die Syntax einfacher Anfragen angepasst werden kann, z.ԜB. in (Coiera etԜal. 2005). Um Ergebnislisten gemäß den Zugriffsrechten des Suchenden auszugeben, muss der Informationsquelle die Identität des Suchenden übermittelt werden. In der Regel ist daher vor der Suche eine Authentifikation gegenüber der Suchzentrale erforderlich, die wiederum für die Informationsquelle autorisiert ist. Sind die Zugriffsrechte für die Informationsquelle jedoch für die Nutzer der Suchzentrale unterschiedlich, empfiehlt sich die Nutzung von Verzeichnisdiensten wie LDAP zum Durchreichen der Identität des Suchenden (NISO 2005). Ist deren Verwendung bei einer Informationsquelle nicht möglich, könnte die notwendige Login-Information jedoch auch bei der Zentralinstanz verwaltet werden. Die Aufgabe die Zugriffsrechte zu wahren, liegt bei den Informationsquellen. Ein typisches Problem kooperierender Suchmaschinen sind Dubletten in den Ergebnissen verschiedener Informationsquellen. Zwei Arten von Dubletten können auftreten: inhaltsgleiche Objekte an unterschiedlichen Speicherorten (z.ԜB. ein Textdokument das in unterschiedlichen Verzeichnissen gespeichert ist) und solche, die aus der mehrfachen 14 N. Gronau und J. Bahrs Indexierung eines Informationsrepositories stammen. Letztere können durch die disjunkte Gestaltung der Informationsquellen im Vorfeld verhindert oder im Nachhinein durch die Filterung identischer Objektadressen in der Ergebnisliste gefiltert werden. Problematisch ist hierbei jedoch, dass aus Geschwindigkeitsgründen nur die höchstgerankten Ergebnisse einer jeden Informationsquelle abgefragt werden und daher das Entfernen der Dubletten nur für diesen Teil der Ergebnisse angewendet werden kann. Um auch Dubletten aus der mehrfachen Speicherung identischer Dokumente zu entfernen, müsste die Suchzentrale die Ergebnisse vollständig herunterladen (Hane 2003). Einige Suchmaschinenanbieter führen die zeitaufwendige Entfernung der Dubletten daher erst nach Anforderung durch den Anwender durch (Fryer 2004) (vgl. Abschnitt 3.1). Die größte Herausforderung besteht darin, über mehrere heterogene Informationsquellen einen einheitlichen Relevanzfaktor zu ermitteln (Hawking 2004). Im Falle eines integrierten Index kann dies mit einem Algorithmus erfolgen. Bei verteilten Suchmaschinen werden unterschiedliche Methoden genutzt, die dazu auch nicht offen gelegt sind. Es ist daher schwierig abzuwägen, ob die ersten Ergebnisse der Informationsquelle A relevanter als die ersten 20 der Informationsquelle B sind (Kehoe 2007). 3.1 Methoden für das Zusammenführen der Ergebnisse mehrerer Informationsquellen Zwei Gruppen von Methoden für das Zusammenführen der Ergebnisse existieren: die Integrierten, welche Information der Informationsquelle zu den Objekten verwenden und diese lokalen Rankings anpassen und die Isolierten, welche unabhängig vom Ranking in den Informationsquellen sind und ein eigenständiges Ranking auf Ebene der Suchzentrale erzeugen (Craswell etԜal. 1999; Meng etԜal. 2002). Die Integrierten Zusammenführungsstrategien gehen davon aus, dass in den Informationsquellen bereits wirkungsvolle Rankingmechanismen verwendet werden. Dazu wird vor allem der Rankingwert oder der Rang im Zentraler Informationszugang im Unternehmen durch profil- und kontextspezifische Suche 15 Ranking der Informationsquelle genutzt (Liu etԜal. 2007). Da die Informationsquellen unterschiedliche Verfahren zur Ermittlung der Relevanz einsetzen, sind die Rankingwerte nicht direkt vergleichbar. Dies gilt auch dann, wenn die verwendete Skala auf einen Wertebereich normalisiert wird. Eine einfache Zusammenführungsstrategie, die sich am Rang der Suchergebnisse orientiert, sieht vor, die nach Relevanz absteigend sortierten Ergebnislisten der Informationsquellen durchzugehen, zunächst alle Ergebnisse des ersten Ranges und dann sukzessiv die Ergebnisse der nachfolgenden Ränge auszugeben. Problematisch ist dabei jedoch, dass keine Sortierung der Informationsquellen vorliegt. Bei überwiegend nicht disjunkten Informationsquellen können auch Durchschnittsrankingwerte oder von mehreren Rankingverfahren bevorzugte Ergebnisse im globalen Ranking höher positioniert werden. Dieser Ansatz ist vor allem bei Metasuchmaschinen im Internet verbreitet, da diese einen weitgehend übereinstimmenden Suchraum erschließen. Beim hier angestrebten Verwendungszweck ist mit weitgehend disjunkten Informationsquellen zu rechnen. Ein Ansatz zum Ausgleich der unterschiedlichen Rankingwerte ist, die Informationsquellen mit unterschiedlichen Gewichten zu versehen. Dies kann manuell z.ԜB. durch den Anwender direkt oder durch statische Vorgabewerte, die zuvor festgelegt werden müssen, erfolgen. Es setzt jedoch die Kenntnis aller Informationsquellen voraus. Darüber hinaus ist eine solche statische Präferenzbildung unabhängig von der Suchanfrage. Dynamische Ansätze nehmen diese Gewichtung auf der Basis einer Beschreibung der Informationsquellen vor. Die Beschreibung wird dann vor der Weiterleitung der Suchanfrage durchsucht (Meng etԜal. 2002). Für die Beschreibungen und Vorselektion der Informationsquellen können wiederum manuelle (z.ԜB. 16 N. Gronau und J. Bahrs Beschreibung mit Schlüsselwörtern), automatische (z.ԜB. Extraktion von Schlüsselwörtern) und lernende Verfahren (z.ԜB. Sammeln der erfolgreichen Suchterme) genutzt werden. Die Beschreibung kann jedoch nur einen Auszug der potenziellen Ergebnisse enthalten. Jede Suchanfrage muss hinsichtlich der Übereinstimmung mit der Informationsquellenbeschreibung bewertet werden, um entsprechende Präferenzen für die Informationsquellen zu ermitteln. Daher wird ein lernendes Verfahren vorgeschlagen, das ohne eine fachliche Beschreibung der Informationsquelle auskommt. Eine weitere Möglichkeit der Zusammenführung stellt das isolierte Reranking auf Basis der Information in der Ergebnisliste dar. Dies ist insofern schwieriger als normales Relevanzranking, da die Bewertung der Ergebnisse auf Basis der wenigen Information der Ergebnisliste, wie z.ԜB. Ergebnistitel und Snippet (Kurzbeschreibung des Ergebnisses), erfolgen muss und daher recht ungenau ist (Hawking 2004). Durch unterschiedliche Verfahren zur Relevanzermittlung kann jedoch der Fall entstehen, dass die lokale Relevanz eines Dokumentes niedrig ist (Ebene der Informationsquelle), die globale Relevanz jedoch hoch ist (Ebene der Suchzentrale). Dies kann durch isoliertes Reranking auf globaler Ebene vermieden werden. Diese setzen jedoch den Download (Fetching) und Verarbeitung der Ergebnisse zur Suchzeit voraus. Ein Problem dabei ist, das die Anzahl der abgerufenen Ergebnisobjekte, insbesondere bei isolierten Zusammenführungsstrategien mit Fetching, aus Zeitund Kostengründen begrenzt werden muss. Aus diesem Grund werden isolierte Ansätze des Reranking nicht weiter verfolgt. Für das integrierte Zusammenführen der Ergebnisse existieren Lösungen, die am Rankingwert oder Rang, welche durch die Informationsquellen ermittelt wird, ansetzen. Diese berücksichtigen zwar die Suchanfrage, aber Eigenschaften des Suchenden oder des Suchkontextes fließen bisher nicht, oder nur auf Ebene der Informationsquelle, ein. Zentraler Informationszugang im Unternehmen durch profil- und kontextspezifische Suche 3.2 17 Bewertung von Suchergebnissen und Feedback Verfahren zur Bewertung der Ergebnisse nach der Suchanfrage können genutzt werden, um auf Basis einer Qualitätsaussage ein Lernen der Suchmaschine auszulösen. Die Ansätze zur Ergebnisbewertung unterteilen sich in explizites und implizites Feedback. Explizites Feedback erfordert die Aktivität des Anwenders in Form einer bewusst und aktiv ausgeführten, Bewertung. Dabei wird in der Regel eine Bewertung zum Beispiel mit einem Fragebogen vorgenommen. Die Benutzerakzeptanz des zusätzlichen Schrittes ist jedoch gering (KellyԜ/ԜTeevan 2003). Implizites Feedback wird aus der Beobachtung und Analyse der Aktivitäten des Anwenders gewonnen und daraus Rückschlüsse auf die Ergebnisqualität gezogen. Die implizite Bewertung ist meist verrauscht (JoachimsԜ/ԜRadlinski 2007) und muss interpretiert werden. Studien zeigen jedoch am Einzelfall, dass keine prinzipiellen Unterschiede in der Aussagequalität bestehen (White etԜal. 2002). Beispiele für beobachtbares Verhalten sind die Auswahl von Ergebnissen, das Modifizieren der Anfrage oder das Abbrechen der Suche. Mit Hilfe der Ergebnisbewertung können auch Rückschlüsse auf die Qualität der Ergebnisse der Informationsquellen ermittelt werden. Die Qualität ist vom jeweiligen Ziel und vom Suchenden abhängig. Auf Ebene der Suchzentrale kann dies durch eine statische Gewichtung der Informationsquellen nicht berücksichtigt werden. Ebenso ist ein dynamischer Ansatz auf Basis von Klassifikation der Informationsquellen und Suchanfragen unzureichend. 18 3.3 N. Gronau und J. Bahrs Personalisierung Die Personalisierung des Rankings stellt eine Möglichkeit zur Verbesserung der Suchergebnisse dar (RiemerԜ/ԜBrüggemann 2007). Dabei werden in der Praxis oft thematische Interessenprofile genutzt, was wiederum eine Klassifikation der Suchanfragen und Ergebnisse voraussetzt. Die Interessensprofile können vor der Suchanfrage festgelegt werden. Andere Ansätze extrahieren diese aus der Suchhistorie und dem erhobenen Feedback und speichern diese auch über mehrere Suchsitzungen hinweg (KeenoyԜ/ԜLevene 2005). Bei der Personalisierung von Suchergebnissen werden die Suchergebnisse anders sortiert (reranking), gefiltert oder, analog zum Relevance Feedback, die Suchanfrage erweitert bzw. modifiziert. Dies erfolgt auf Basis von Eigenschaften eines Profils des Suchenden (oder der einer Gruppe von Suchenden die der Suchende zugeordnet ist), die in der Suchanfrage berücksichtigt werden. Dies kann z.ԜB. durch die Einbeziehung des Standorts des Suchenden (regionale Nähe) oder von Interessensprofilen erfolgen (Lewandowski 2004). Ein Beispiel im Internet ist Google’s personalized web search, bei der es dem Benutzer erlaubt ist, Interessenkategorien für die Suche im Vorfeld festzulegen (Sun etԜal. 2005). Überwiegend werden für die Personalisierung Ansätze zur Klassifikation der Ergebnisobjekte, zum Beispiel Verzeichnisdienste oder Textklassifikationsalgorithmen, genutzt (Liu etԜal. 2004). Die so klassifizierten Zentraler Informationszugang im Unternehmen durch profil- und kontextspezifische Suche 19 Ergebnisse werden einem Modell der Anwenderinteressen gegenübergestellt, und präferierte Themen entsprechend höher im Ranking berücksichtigt. Die Klassifikation der Elemente ist auf Ebene der Informationsquelle möglich, da hier Transparenz über alle Objekte im Suchraum vorhanden ist. Auf Ebene der Suchzentrale müsste hierzu eine Beschreibung der Informationsquelle genutzt werden, die jedoch nur einen Auszug der potenziellen Treffer abbilden kann und daher unscharf wird. In unserem Ansatz wird daher die Präferenz für Informationsquellen spezifisch für den Suchenden aus dem Feedback ermittelt. Durch den breiten Anwendungsbereich der angestrebten kooperierenden Suchmaschine als zentraler Informationszugang im Unternehmen ist jedoch zu erwarten, dass eine weitere, jeweils auf das Ziel ausgerichtete Unterteilung in Suchsituationen erforderlich ist. 4 Konzept der Selbstlernenden Suchmaschine Die im vorherigen Abschnitt angestellten Überlegungen sind in das Design der „Selbstlernenden Suchmaschine für die profil- und kontextorientierte Suche in Unternehmen“ eingeflossen. Verfolgt wird ein Ansatz zur Suche in heterogenen Informationsquellen, der basierend auf Feedback durch den Suchenden Anwenderpräferenzen zur Verbesserung des Rankings der Suchergebnisse lernt. Dazu wird ein CBR-System vorgeschlagen. Das Konzept auf Ebene der Suchzentrale wird im Folgenden vorgestellt. Auf Ebene der Informationsquellen sollen unterschiedliche Rankingverfahren ermöglicht werden. Dies wird jedoch nur insoweit erörtert, als das eine Anwendung unterschiedlicher Verfahren, z.ԜB. einer Personalisierung der Suchergebnisse, nicht blockiert wird. 4.1 Das Konzept der Selbstlernenden Suchmaschine Das Reranking der Ergebnisse erfolgt auf Basis von Profil und Kontext sowie den zuvor gesammelten Bewertungen der Suchergebnisse. Bei der Anwendung im Unternehmen ist es vorteilhaft, dass bereits zum Zeitpunkt der Initialisierung die Anwender und einige ihrer Eigenschaften bekannt sind. Ein Profil wird dabei auf Ebene einer Gruppe, zum Beispiel der Zugehörigkeit zu einer Organisationseinheit wie Abteilung oder Team vergeben. Es ist möglich, bereits zur Initialisierung Präferenzen zu hinterlegen, jedoch ist dies nicht erforderlich. Während der Laufzeit werden die erlernten Präferenzen gemeinsam für alle Inhaber eines Profils genutzt. 20 N. Gronau und J. Bahrs Da jedoch die Zwecke bzw. Ziele der Suchanfragen auch innerhalb eines Profils stark differieren, wird als zweiter Ansatz die Kontextualisierung verfolgt. Im System können zur Initialisierung Kontexte sowie Präferenzen angelegt werden. Dies kann durch eine Analyse der Informationsbedarfe, wie sie zum Beispiel durch die Aktivitätssicht der KMDL (GronauԜ/ԜFröming 2006) dargestellt werden, erfolgen. Das System ist jedoch grundsätzlich so ausgelegt, dass die Kontexte auch während der Laufzeit von den Anwendern angelegt werden können. Ein Kontext hat zunächst vor allem einen Bezeichner und erlernt die Präferenzen durch die Bewertung während der Nutzung. Die Kontexte werden zwischen den Inhabern eines Profils geteilt. Das hat den Vorteil, dass Erlerntes übertragbar ist, und so auch bei Mitarbeiterwechsel bzw. für neue Mitarbeiter zur Verfügung steht. Der Kontext muss beim Stellen der Suchanfrage angegeben werden. Die Aufgabe des Systems ist es nun, die Informationspräferenzen auf Basis des Feedbacks zu erlernen. Weiterhin ist bei Änderungen in der Organisation oder den genutzten Informationsquellen eine dynamische Anpassung dieser Präferenzen erforderlich. Eine Klassifikation der Informationsquellen oder Suchanfragen ist nicht vorgesehen. Bei der Benutzung der Selbstlernenden Suchmaschine muss sich der Anwender zunächst gegenüber der Suchzentrale identifizieren. Beim Stellen einer Suchanfrage muss ein Kontext aus den für sein Profil verfügbaren Kontexten ausgewählt oder ein neuer hinzugefügt werden. Als Ergebnis erhält er eine zusammengefasst gerankte Liste der Ergebnisse. Durch weitere Aktionen, wie Selektion einzelner Ergebnisse und explizite Bewertung sowie durch implizites Feedback wird für einzelne Ergebnisse positives oder negatives Feedback übermittelt. 4.2 Architektur Die Selbstlernende Suchmaschine ist modular aufgebaut und stützt sich auf Webservices, die von Informationsquellen angeboten werden. Eine Informationsquelle bezeichnet dabei eine Suchmaschine für eine spezifische Domäne, die minimal für jedes Suchresultat folgende Information bereitstellen muss: einen uniform Resource Identifier (URI) (Berners-Lee etԜal. 2005), einen Ranking-Wert, optional eine kurze Beschreibung des Zentraler Informationszugang im Unternehmen durch profil- und kontextspezifische Suche 21 Treffers sowie optional eine Information über die Quelle des Treffers. Durch die Anbindung von Informationsquellen als Webservices kann das System beliebig erweitert werden. Auch können ältere Anwendungen durch Wrapper eingebunden werden, zum Beispiel für die Suche in Internetportalen (Graupmann etԜal. 2003). An die Informationsquellen wird die Suchanfrage gemeinsam mit der Identität des Suchenden und optional den Kontext weitergeleitet und die Ergebnisse sowie ggf. quellenspezifische Relevanzwerte werden zurückgegeben. Hierbei ist auch die Anpassung der Syntax der Suchanfrage vorgesehen. Als Antwort wird eine Gesamtrangfolge der Ergebnisse erstellt, in die die zuvor erlernten Präferenzen des Suchenden einfließen. Die Architektur der Selbstlernenden Suchmaschine in Abbildung 3 ist mit Hilfe der Fundamental Modeling Concepts (FMC) modelliert (Knöpfel etԜal. 2005). Dargestellt ist die Kompositionsstruktur als Blockdiagramm mit aktiven und passiven Komponenten. Aktive Komponenten sind Agenten, die als Rechteck modelliert werden. Passive Elemente sind Speicher, dargestellt als abgerundete Form, und Kommunikationskanäle, im Modell markiert mit Kreisen. Passive Komponenten speichern oder transportieren Information. Das Blockdiagramm beschreibt somit, welche Agenten Zugriff auf welche Daten haben und wie sie untereinander über Kommunikationskanäle oder gemeinsam genutzte Speicher kommunizieren. 22 N. Gronau und J. Bahrs Abbildung 3: Architektur des Prototyps der Selbstlernenden Suchmaschine. Die Selbstlernende Suchmaschine besteht aus einer Kernanwendung, die eine webbasierte grafische Benutzerschnittstelle anbietet. Dem Nutzer wird ermöglicht, Anmeldedaten einzugeben, die an die Informationsquellen weitergereicht werden. Weiterhin wird ihm die Möglichkeit geboten, zu einer Suchanfrage einen Kontext auszuwählen oder einen neuen anzulegen. Die Kernanwendung leitet diese Information zu einer Ranking-Komponente, die wiederum eine Integration Factory nutzt, um Konnektoren zu den einzelnen Webservices zu instanziieren. Die Ranking-Komponente sammelt die Suchergebnisse der einzelnen Webservice und fasst diese in einer Liste zusammen. Dabei werden die Rankingwerte durch die von der Quell-CBR- Zentraler Informationszugang im Unternehmen durch profil- und kontextspezifische Suche 23 Komponente ermittelten Werte modifiziert. Diese Quell-CBR-Komponente nutzt die (standardisierten) originären Ranking-Werte, welche durch die Webservices der zugrundeliegenden Suchmaschinen übermittelt werden und die erinnerten Fälle um den endgültigen Ranking-Wert zu berechnen (vgl. Abschnitt 4.3). Die Ergebnisliste wird dem Nutzer präsentiert, welcher Feedback in Form von Evaluationen einzelner Treffer geben kann. Dieses Feedback wird an die Quell-CBR-Komponente weitergeleitet. Eine weitere Term-CBR-Komponente speichert diejenigen Suchanfragen, die zu einem positiv evaluierten Treffer geführt haben. Diese werden benutzt, um einem weiteren Nutzer des Systems mit ähnlicher Suchanfrage eine Liste mit potenziell erfolgreichen, alternativen Suchanfragen zu präsentieren (GronauԜ/ԜLaskowski 2003). Die Konnektoren sind variabel in der Implementierung. Beispielsweise stellt der „Meta index connector“ eine Verbindung zu einem Webservice her, der mehr als eine Quelle durchsucht. Dies erlaubt es, große Informationssammlungen, wie z.ԜB. MS SharePoint, weiter zu zerteilen, um eine genauere Bewertung durch die CBR-Komponente zu ermöglichen. 4.3 Das CBR System und die Fallbasis Für das Reranking wird ein CBR-System genutzt, das Fälle mit Problemstellung und Lösung aufzeichnet. Dabei wird zugrunde gelegt, dass ähnliche Probleme auch ähnliche Lösungen erfordern (Schank 1982). Die Problemstellung stellt dabei die Suchanfrage, das Profil und den Kontext dar. Lösungen sind Präferenzen für Informationsquellen in Form eines Präferenzwertes, mit dem Ergebnisse der Informationsquellen jeweils höher oder niedriger im Gesamtranking platziert werden. Bei einer Suchanfrage wird das Ranking mit Hilfe der erlernten Präferenzen für die Kombination aus Profil und Kontext genutzt. Nach jeder Suchanfrage können einzelne Ergebnisse positiv oder negativ bewertet werden, so dass ein neuer Fall erlernt wird bzw. die Lösungen angepasst wird. Die Lösungen werden sukzessive unter Berücksichtigung der Zeit (Dynamik) auch bei widersprüchlichen Bewertungen angepasst. Die CBR-Komponente beeinflusst die Zusammenstellung der Suchergebnisse aus den einzelnen Informationsquellen, indem sie deren 24 N. Gronau und J. Bahrs Ranking-Werte modifiziert. Es wird davon ausgegangen, dass die einzelnen Informationsquellen spezialisierte Suchlösungen nutzen, die bereits qualitativ hochwertige Ergebnislisten für die Einträge innerhalb der Suchquelle liefern. Zur Steigerung der Qualität der Suchergebnisse innerhalb einer Informationsquelle können alle bekannten Methoden einschließlich einer erneuten Personalisierung und fallbasiertem Schließen verwendet werden. Aus diesem Grund werden sowohl die Identität als auch das Profil an die Informationsquelle weitergereicht. Weiterhin wird davon ausgegangen, dass die Inhalte der verschiedenen Informationsquellen zwar nicht komplett disjunkt sind, aber dennoch unterschiedliche Aufgaben erfüllen und Inhalte zu unterschiedlichen Zwecken enthalten. Unser Ansatz sieht nun vor, für jede Anfrage die relevanten Informationsquellen zu identifizieren, d.Ԝh. die Informationsquellen mit der Intention hinter der Anfrage entsprechenden Inhalten, und die entsprechenden Ergebnisse im Ranking zu bevorzugen. Aufgrund der Dynamik in Unternehmen können sich die Informationsquellen und die Aufgaben im Unternehmen ändern. Somit müssen auch die ermittelten Relevanzen ständig überdacht werden. Deshalb wird das maschinelle Lernverfahren des fallbasierten Schließens für die Ermittlung der relevanten Informationsquellen herangezogen. Als fallbasiertes Schließen bzw. CBR wird das Lösen von Problem mit Hilfe von Erfahrungen aus ähnlichen Situationen bezeichnet. Roger Schank beschreibt die zentrale Rolle von Erfahrungen mit früheren Situationen für die Fähigkeit des Menschen zu Denken und zu Lernen (Schank 1982). Erfahrungen werden in Form von Fällen bestehend aus einer Problembeschreibung, seiner Lösung und einer Bewertung der Lösung gespeichert. Die Grundidee von CBR ist, dass für ähnliche Probleme ähnliche Lösungen existieren (Kolodner 1992; Leake 1996). Das Lösen von Problem mit Hilfe von CBR kann in vier Schritte unterteilt werden (illustriert durch den CBR-Zyklus (AamodtԜ/ԜPlaza 1994) innerhalb der Abbildung 3): Wieder auffinden ähnlicher Fälle in der Falldatenbasis. Anpassung der Lösungen an den neuen Fall. Überprüfung der vorgeschlagenen Lösung und Akquisition des gelernten Falles. Zentraler Informationszugang im Unternehmen durch profil- und kontextspezifische Suche 25 Die CBR-Komponente lernt aus den gesammelten Erfahrungen, welche Informationsquellen für welche Anfragen relevant sind, durch die Erinnerung an einen ähnlichen Fall und die dort relevanten Quellen. Die Anfrage wird durch eine Kombination aus Profil und Kontext beschrieben. Das Profil umfasst die generellen Aufgaben eines Mitarbeiters und die generelle Intention hinter seinen Anfragen. Profile werden während der Initialisierung angelegt. Sie können zum Beispiel aus der Aufbauorganisation des Unternehmens abgeleitet werden. Das Profil ist rollenorientiert, daher kann mehreren Mitarbeitern das gleiche Profil zugeordnet sein. Der Kontext spezifiziert die Intention einer Anfrage und verfeinert damit das Profil. Kontexte können von allen Mitarbeitern mit dem gleichen Profil angelegt und getauscht werden. Für jede Anfrage wählt der Suchende einen angelegten Kontext aus. Profil und Kontext bilden zusammen die Beschreibung des Problems, d.Ԝh. die Intention des Suchenden, und identifizieren damit einen Fall in der Falldatenbasis. Selbstlernen zur Verfeinerung der Suchergebnisse Benutzerverhalten Suchanfrage stellen implizite Trefferbewertung Trefferauswahl und bewertung Informationssuche Gesamtbewertung explizite Trefferbewertung Problem Suchmaschine Wie auff der inde n neuer Fall Suchender Suchquellen Suchender Gelernter Fall Gefundener Neuer Fall Fall Fallakquisition Falldatenbasis Lö anp sungs ass ung Generelles Wissen Getesteter Fall Lösu n überp gsrüfun g Überprüfte Lösung Gelöster Fall Vorgeschlagene Lösung CBR-System Integration der neuen Suchbewertung 26 N. Gronau und J. Bahrs Abbildung 4: Selbst lernender Suchprozess. Um zu erlernen welche Informationsquellen bevorzugt werden sollten, benötigt die CBR-Komponente Feedback über die Qualität der präsentierten Suchergebnisse. In jedem Fall wird jeder Informationsquelle ein Koeffizient zur Beeinflussung des Rankingwertes der Einträge der entsprechenden Quelle zugeordnet. Wird für ein Suchergebnis positives Feedback gegeben, so wird der Koeffizient der entsprechenden Quelle erhöht. In der nächsten Anfrage im gleichen Fall, d.Ԝh. unter der gleichen Kombination aus Profil und Kontext, wird das Ranking für Ergebnisse dieser Quelle entsprechend des Koeffizienten erhöht. Bei negativem Feedback wird entsprechend der zugehörige Koeffizient verkleinert. Die Voraussetzung hierzu sind die auf einen Wertebereich normalisierten Rankingwerte der einzelnen Informationsquellen. Durch das Anpassen der Gewichte der Informationsquellen auf Basis der Benutzerbewertungen können Niveauunterschiede im Rankingwert durch erlernte Quellenkoeffizienten ausgeglichen werden. Die Fallbasis, welche bei Nutzung der Selbstlernenden Suchmaschine entsteht, kann zur weiteren Analyse genutzt werden. So können zum Beispiel Analogien im Informationsbedarf sowie die Relevanz der verschiedenen Informationsquellen ermittelt werden. Auch ungedeckte Informationsbedarfe können ermittelt werden. Diese liegen vor, wenn für die Informationsquellen überwiegend negative Bewertungen eingehen. Kontexte und Profile, die über einen längeren Zeitraum eine stark ähnliche Lösung haben, können zusammengeführt werde, so dass eine Bereinigung des Systems erfolgt. Bei dauerhaft widersprüchlichen Bewertungen kann eine Teilung der Kontexte bzw. Profile vorgeschlagen werden. Die Gewichtung der Informationsquellen ist Kontext- und Sucherbezogen dynamisch, jedoch in der derzeit vorgesehenen Ausbaustufe statisch in Bezug auf den Suchterm. Durch die Log-Funktion werden jedoch Suchanfragen und Bewertungen zu Informationsquellen gesammelt. Eine entsprechende weitere Anpassung des Informationsquellenkoeffizienten ist für spätere Ausbaustufen vorgesehen. 5 Aktueller Status und Ausblick Der vorgestellte Ansatz passt sich an Umgebungen mit heterogenen Informationsquellen durch die Gewichtung der Informationsquellen an. Die Personalisierung und Kontextualisierung führt zu einer selbstlernenden Zentraler Informationszugang im Unternehmen durch profil- und kontextspezifische Suche 27 Verbesserung des Gesamtrankings durch die dynamische Anpassung der Gewichtung der Informationsquellen. Durch das kontinuierliche Lernen passt sich das System fortlaufend veränderten Umgebungen an. Durch die Bewertungen werden außerdem Niveauunterschiede in den Rankingwerten einzelner Informationsquellen nivelliert. Eine Ermittlung der Informationsbedarfe zur Initialisierung ist nicht erforderlich. Durch die Ähnlichkeitsanalyse kann das System eine Selbstbereinigung durchführen. Das System ist geeignet um einen zentralen Informationszugang in Unternehmen darzustellen und dabei einen erweiterbaren und großen Suchraum mit heterogenen Informationsrepositories abzudecken. Derzeit wird an einer prototypischen Implementierung und Validierung des Systems gearbeitet. Diese erfolgt auf Basis einer existierenden, quelloffenen Metasuchmaschine. In einem Piloteinsatz wird der Prototyp in verschiedenen Stufen der Entwicklung getestet. Gleichzeitig wird ein Protokoll über sämtliche Aktionen der Benutzer erhoben. Die Entwicklungsstufen umfassen den normalen Einsatz als 1. Metasuchmaschine, 2. mit expliziter Bewertung der geöffneten Ergebnisse, 3. mit Personalisierung über eine Nutzerauthentifikation und 4. mit Auswahl des Suchkontextes sowie über die CBR-Komponente geändertem Ranking. Mittels der gesammelten Daten soll eine Effizienzsteigerung durch einen vorher nachher Vergleich bei der Suche nachgewiesen werden. Zu einem späteren Zeitpunkt kann die entstehende Fallbasis für weitere Untersuchungen, wie die Identifikation ungedeckter Informationsbedürfnisse bei anhaltend negativer Ergebnisbewertung, genutzt werden. Literatur Aamodt, A.; Plaza, E. (1994): Case-Based Reasoning: Foundational Issues, Methodogical Variations and System Approaches. Bahrs, J.; Schmid, S. (2005): Anwendungen und Systeme für das Wissensmanagement - Ein aktueller Überblick. In: Gronau, N. (Hrsg.): Anwendungen und Systeme für das Wissensmanagement - Ein aktueller Überblick. Gito (Berlin). Bahrs, J.; Schmid, S.; Müller, C.; Fröming, J. (2007): Wissensmanagement in der Praxis Empirische Untersuchung. Gito (Berlin). Berners-Lee, T.; Fielding, R.; Masinter, L. (2005): RFC 3986 - Uniform Resource Identifier (URI): Generic Syntax. The Internet Society, IETF, January. Coiera, E.; Walther, M.; Nguyen, K.; Lovell, N. H. (2005): Architecture for Knowledge-Based and Federated Search of Online Clinical Evidence. In: Journal of Medical Internet Research: 7, 5. Craswell, N.; Hawking, D.; Thistlewaite, P. B. (1999): Merging Results from Isolated Search Engines. In: Astralasien Database Conference, S. 189-200. Eggert, S. (2007): Enterprise Content Management. Gito (Berlin). Feldmann, S. (2004): The high cost of not finding information. http://www.kmworld.com/Articles/ReadArticle.aspx?ArticleID=9534 (Abruf am: 21.11.2007). Fryer, D. (2004): Federated Search Engines. In: Online: 28, 2, S. 16-19. 28 N. Gronau und J. Bahrs Graupmann, J.; Biwer, M.; Zimmer, P. (2003): Towards Federated Search Based on Web Services. BTW Conference. Gronau, N.; Fröming, J. (2006): KMDL – Eine semiformale Beschreibungssprache zur Modellierung von Wissenskonversionen. In: Wirtschaftsinformatik: 48, 5, S. 349-360. Gronau, N.; Laskowski, F. (2003): Using Case-Based Reasoning to Improve Information Retrieval in Knowledge Management Systems. In: Menasalvas, E.; Segovia, J.; Szczepaniak, P. (Hrsg.): Advances in Web Intelligence. Proc. of the First International Atlantic Web Intellingence Conference, AWIC 2003, Madrid, May 2003, S. 94-102. Hane, P. J. (2003): The Truth About Federated Searching. In: Information Today: 20, 10, S. 24. Hawking, D. (2004): Challenges in enterprise search. In: Schewe, K.-D.; Williams, H. (Hrsg.): Proceedings Fifteenth Australasian Database Conference, Volume 27. Australian Computer Society, Inc. (Dunedin, New Zealand), S. 25-24. Jascó, P. (2004): Thoughts on Federated Searching. In: Information Today: 21, 9, S. 17. Joachims, T.; Radlinski, F. (2007): Search Engines that Learn from Implicit Feedback. In: Computer, August 2007, S. 34-40. Keenoy, K.; Levene, M. (2005): Personalisation of Web Search. In: Intelligent Techniques for Web Personalization - IJCAI 2003 Workshop, ITWP 2003, Acapulco, Mexico, August 11, 2003, Revised Selected Papers. Springer (Berlin), S. 201-228. Kehoe, M. (2007): What's in a name: Federated Search. http://www.ideaeng.com/pub/entsrch/ v4n4/article02.html (Abruf am: 24.07.2008). Kelly, D.; Teevan, J. (2003): Implicit feedback for inferring user preference: a bibliography. In: ACM SIGIR Forum: 37, 2, S. 18-28. Knöpfel, A.; Gröne, B.; Tabeling, P. (2005): Fundamental Modeling Concepts. Effective Communication of IT Systems. John Wiley & Sons (Chichester). Koch, D. (2007): Suchmaschinenoptimierung: Website Marketing für Entwickler. AddisonWesley (München). Kolodner, J. (1992): An introduction to case-based reasoning. In: Artificial Intelligence Review: 6, 1, S. 3-34. Leake, D. (1996): CBR in Contect: The Present and Future. Case-Based Reasoning: Experiences, Lessons, and Future Directions. Lewandowski, D. (2004): Technologie-Trends im Bereich der WWW-Suchmaschinen. In: Information Professional 2011: 26. Online-Tagung der DGI (Frankfurt am Main), S. 183-195. Lewandowski, D. (2005): Web Information Retrieval: Technologien zur Informationssuche im Internet. DGI (Frankfurt am Main). Liu, F.; Yu, C.; Meng, W. (2004): Personalized Web Search For Improving Retrieval Effectiveness. In: IEEE Transactions on Knowledge and Data Engineering: 16, 1, S. 28-40. Liu, Y.-T.; Liu, T.-Y.; Qin, T.; Ma, Z.-M.; Li, H. (2007): Supervised Rank Aggregation. In: International World Wide Web Conference - Proceedings of the 16th international conference on World Wide Web. ACM (New York, USA), S. 481-490. Meng, W.; Yu, C.; Liu, K.-L. (2002): Building Efficient and Effective Metasearch Engines. In: ACM Computing Surveys: 34, 1 (March 2002), S. 48-89. Mukherjee, R.; Mao, J. (2004): Enterprise Search: Tough Stuff. In: ACM Queue: 2, 2Ԝ/ԜApril 2004, S. 36-46. NISO (2005): NISO Metasearch Initiative. http://www.niso.org/workrooms/mi (Abruf am: 24.07.2008). Page, L.; Brin, S.; Motwani, R.; Winograd, T. (1998): The PageRank Citation Ranking: Bringing Order to the Web. http://dbpubs.stanford.edu:8090/pub/1999-66 (Abruf am: 10.12.2007). Riemer, K., Brüggemann, F. (2007) : Personalization of internet search – techniques and market overview. In: Wirtschaftsinformatik: 49, 2, S. 116-126. Zentraler Informationszugang im Unternehmen durch profil- und kontextspezifische Suche 29 Schank, R. (1982): Dynamic Memory: “A Theory of Reminding and Learning in Computers and People”. Cambridge University Press (New York, USA). Schmalz, R. (2005): IT-Unterstützung für das Wissensmanagement in Kooperationen. Universitätsverlag Göttingen (Göttingen). Stock, W. G. (2006): Information Retrieval - Informationen suchen und finden. Oldenbourg (München). Sun, J.-T.; Zeng, H.-J.; Liu, H.; Lu, Y.; Chen, Z. (2005): CubeSVD: A Novel Approach to Personalized Web Search. In: Proceedings of the 14th international conference on World Wide Web. ACM Press (Chiba, Japan), S. 382-390. White, C. (2007): What is the Difference Between Querying and Browsing Data? http://www.b(Abruf eye-network.com/blogs/business_integration/archives/2007/09/what_is_the_dif.php am: 13.09.2007). White, R. W.; Ruthven, I.; Jose, J. M. (2002): The use of implicit evidence for relevance feedback in web retrieval. In: Proceedings of 24th BCS-IRSG European Colloquium on IR Research. Lecture notes in Computer Science 2291. Springer (Berlin), S. 93-109.