Information Search and Retrieval - Das IICM
Transcription
Information Search and Retrieval - Das IICM
Information Search and Retrieval WS 2011 LV-Nr.: 506.418 Automatic Question Answering Group 09: Denis Andrasec Jakob Pöllitsch Jürgen Zernig Content 1 Abstract ........................................................................................................................................... 3 2 Einleitung ......................................................................................................................................... 3 2.1 Aufgabenstellung und Darstellung des Problems ................................................................... 3 2.2 Motivation ............................................................................................................................... 3 3 Einführung ....................................................................................................................................... 4 3.1 Was ist eine Frage?.................................................................................................................. 4 3.2 Was ist eine Antwort? ............................................................................................................. 4 3.3 Von der Frage zur Antwort ...................................................................................................... 4 3.4 Historische Entwicklung .......................................................................................................... 5 4 Natural Language Processing .......................................................................................................... 5 5 Document Retrieval ......................................................................................................................... 6 5.1 Die Menge der Dokumente ..................................................................................................... 6 5.2 Verarbeitung der Originaldokumente ..................................................................................... 6 5.3 Das Internet als Dokumentsammlung ..................................................................................... 7 6 Antworten Finden............................................................................................................................ 7 6.1 Semantische Typ Extraktion .................................................................................................... 7 6.2 Learning Pattern Sets .............................................................................................................. 8 7 Aktuelle Anwendungsbeispiele ....................................................................................................... 9 7.1 Siri ............................................................................................................................................ 9 7.2 Wolfram Alpha ...................................................................................................................... 10 8 Lessons Learned ............................................................................................................................ 12 9 Zusammenfassung und Ausblick ................................................................................................... 12 10 Anhang....................................................................................................................................... 12 10.1 Literaturverzeichnis ............................................................................................................... 12 10.2 Abbildungsverzeichnis ........................................................................................................... 14 1 Abstract Abstract (deutsch) Automatic Question Answering hat zum Ziel, Techniken zu entwicklen, um Fragen in natürlicher Sprache wie "Wie hoch ist der Mount Everest?" exakt zu beantworten und so die menschliche Interaktion nachzubilden. Dieser Artikel bietet einen Überblick über das Themengebiet und dessen historische Entwicklung. Es werden verwendete Techniken zusammengefasst und Anwendungsbeispiele vorgestellt. Abstract (english) Automatic Question Answering aims at technics, which make it possible to answer questions in natural language, like "What is the height of the Mount Everest?" exactly to imitate human interaction. This article provides an overview of the topic and its history. It summarizes used technics and presents current applications. 2 Einleitung 2.1 Aufgabenstellung und Darstellung des Problems Die Aufgabe von herkömmlichen Information Retrieval Systemen ist es, zu einem formulierten Informationsbedürfnis eine Menge an relevanten Dokumenten zu finden. Das bedeutet für den Benutzer aber auch mehrere Hürden, bis er seine gewünschte Information erhält. Beispiele hierfür sind die richtige Formulierung der Query oder auch die anschließende Suche der gewünschten Informationen aus der Menge der relevanten Dokumente. Im Gegensatz dazu besteht die Aufgabe eines Question Answering Systems darin, dass zu einer bestimmten Frage eine exakte und korrekte Antwort geliefert wird. Zusätzlich sollen sowohl Frage als auch Antwort in natürlicher Sprache verfasst sein. 2.2 Motivation Es soll dem Nutzer schnell und in einfach zu verstehender Form, genau jene Information vermittelt werden, die seine Frage beantwortet ohne das er sich mit dahinterliegenden, immer weiter zunehmenden, Informationsflut selbst befassen muss. Weiters soll dieser Vorgang ohne zusätzlichen Aufwand, hervorgerufen durch z.B. spezielle Queryformulierung oder anschließende Extraktion aus der Dokumentensammlung, intuitiv ermöglicht werden. Dadurch soll die Informationsbeschaffung über ein Informationssystem an die gewohnte, natürliche Interaktion des Menschen angepasst und so einem erweitertem Nutzerkreis vereinfacht bzw überhaupt erst ermöglicht werden. 3 Einführung 3.1 Was ist eine Frage? Eine Frage kann definiert werden als formuliertes Informationsbedürfnis. Allerdings kann unter Verwendung natürlicher Sprache ein einzelnes Informationsbedürfnis auf verschiedenste Arten formuliert werden. Menschen verlassen sich dabei auf ihre natürliche Fähigkeit, Bedeutungen (Semantik) unterschiedlich aufgebauter Sprache (Syntax) korrekt untereinander zu erkennen. Im Gegensatz dazu muss einem Computersystem mühsam beigebracht werden, dass z.B. „Wieviele Studenten studieren an der TU Graz“ und „Nenne die Anzahl der Studenten an der TU Graz.“ ein identisches Informationsbedürfnis beschreiben und letzteres zusätzlich sogar ohne Verwendung eines Fragezeichens. Zusätzlich können Fragen je nach erwarteter Antwort in verschiedene Gruppen eingeteilt werden: Ja/Nein Fragen: werden mit ja oder nein beantwortet. „Sind in Graz an der TU mehr Studenten inskribiert als an der KF Universität?“ Faktum Fragen: Fragen nach einem einzelnen Faktum. „Wie heißt die steirische Landeshauptstadt?“ Listen Frage: Ähnlich den Faktum Fragen, allerdings mit mehreren Fakten als Antwort. „Wie lauten die Bezirke der Steiermark?“ Erklärungsfragen: „Warum fliegt ein Flugzeug?“ Definitionsfragen: Vergleichbar mit einer Enzyklopädie. „Was ist ein Papagei?“ (Greenwood, 2006) 3.2 Was ist eine Antwort? Eine Antwort ist die Reaktion auf eine Frage mit der Absicht das zugehörige Informationsbedürfnis zu befriedigen.Wie auch bei der Formulierung der Frage, kann auch eine korrekte Antwort auf verschiedenste Arten formuliert werden. Gleichzeitig spielt dabei auch der Kontext der Frage und des Fragestellers eine wichtige Rolle. So unterscheiden sich die erhofften Antworten auf die Frage nach Informationen über Automatic Question Answering wahrscheinlich erheblich, je nachdem ob sie von einem fachkundigem Benutzer oder einem Laien auf dem Gebiet gestellt wird. Bei der TREC 2003 wurde eine Reaktion als korrekt eingestuft, wenn sie “...consists of exactly a right answer and that answer is supported by the document returned.” (Voorhees, 2003) 3.3 Von der Frage zur Antwort Der Prozess der Beantwortung einer Frage läuft beim Automatic Question Answering, übertragen in die natürlichen Interaktion zwischen Menschen, folgendermaßen ab: Eine Person stellt eine Frage an einen Experten da sie selbst die zugehörige Antwort nicht kennt und erwartet sich im Gegenzug die benötigte Antwort oder einen Verweis darauf. Das momentan übliche Verfahren des Information Retrieval von z.B. Web Suchmaschinen würde aber analog dazu eher bedeuten, dass der Experte eine Anzahl von Büchern überreicht, mit dem Hinweis, dass wahrscheinlich in diesen die Antwort auf die Frage zu finden ist. Die drei wesentlichen Stufen im Prozess der Beantwortung einer Frage durch ein AQA System beschreiben auch gut die Schwierigkeiten dieses Gebiets. 1. Natural Language Processing Die Frage in natürlicher Sprache muss „verstanden“ und in ein Informationsbedürfnis umgewandelt werden. Dabei muss aus verschiedenen syntaktischen Möglichkeiten die richtige Semantik in Bezug auf den jeweiligen Kontext gefunden werden. 2. Document Retrieval Anhand des zuvor gefundenen Informationsbedürfnisses muss eine Auswahl an relevanten Dokumenten aus den zur Verfügung stehenden Informationen getroffen werden. Dies ist vergleichbar mit dem klassischen Information Retrieval z.b. einer WebSuchmaschine. 3. Answer Finding Aus den ausgewählten relevanten Dokumenten muss abschließend eine konkrete Antwort ausgewählt und in natürlicher Sprache formuliert werden. 3.4 Historische Entwicklung Seit der Entwicklung erster Computersysteme besteht großes Interesse an automatischer Wissensverwaltung und Präsentation mittels künstlicher Intelligenz (AI). Häufig genannt als frühe QASysteme werden BASEBALL (Green et al. 1961) und LUNAR (Woods, 1973). BASEBALL konnte Fragen über die Spiele der American Baseball League beantworten. LUNAR wurde entwickelt “...to enable a lunar geologist to conveniently access, compare and evaluate the chemical analysis data on lunar rock and soil composition that was accumulating as a result of the Apollo moon mission” (Woods, 1973). Beide waren, wie viele dieser frühen Systeme, auf ein sehr spezifisches Einsatzgebiet (limited domain) ausgelegt, erzielten in diesen aber gute Ergebnisse. Während der 1970er und 1980er Jahre führten Fortschritte in der Theorie der computational linguistics zu QA Systemen die weit komplexere Einsatzgebiete abdecken konnten. Ein Beispiel hierfür ist der Berkeley Unix Consultant (Wilensky et al. 1994), ein Hilfesystem das Antworten auch an die Zielsetzung und Erfahrung des Nutzers anpassen konnte. Um das Jahr 2000 wurde eine neue Perspektive in der QA Forschung aus Sicht des Information Retrieval, im Gegensatz der ursprünglichen Richtung aus der künstlichen Intelligenz, populär. Das führte zu Entwicklung von Einsatzgebiet unabhängigen Methoden, dem sogenannten open-domain question answering. (Molla, Vicedo, 2007) 4 Natural Language Processing Die Aufgabe des Natural Language Processing besteht darin, die gestellte Frage in eine Repräsentation umzuwandeln, die von den weiteren Teilen des QA Systems verwendet werden kann. Dies kann ein Query für das Document Retrieval oder eine semantische Analyse für das Answer Finding sein. Diese Verarbeitung besteht wiederum aus mehreren Stufen, die startend von morphologischer über syntaktische und semantische bis zur Kontextanalyse. Im ersten Schritt werden dabei z.B. Personalformen extrahiert bzw. Wörter auf ihre Stammformen zurückgeführt. Ein Beispiel dafür wäre der Porterstemmer (Porter, 1980). Die syntaktische Analyse weist Wörtern eine Funktion (Objekt, Subjekt, Artikel, etc.) zu. In der semantischen Analyse wird versucht die Bedeutung von Wörtern und Satzteilen zu erfassen. Die Kontextanalyse behandelt dann die Beziehung der Unterschiedlichen Teile bzw. aufeinander folgender Fragen. In der jüngeren Forschung werden Ebenen häufiger durch Einsatz von maschinellen Lernverfahren ersetzt, welche sich auf statistische Regelmäßigkeiten stützen. 5 Document Retrieval Das Finden von genauen Antworten auf neue, noch nicht kategorisierte Fragen erfordert die detaillierte Verarbeitung von Freitext. Die Dokumentensammlungen, über die Automatic Question Answering Systeme betrieben werden sind in der Regel so groß, dass eine Durchführung einer derartigen Suche nach der Antwort auf die Frage durch alle Dokumente in der Sammlung nicht möglich ist (Greenwood, 2006). 5.1 Die Menge der Dokumente Dies hat dazu geführt, dass die meisten Forscher mit off-the-shelf Retrievalsystemen arbeiten. Diese verringern die Gesamtheit der Dokumente auf eine Untermenge, die dann detailliert bearbeitet werden. Die Extrahierung ist hierbei Bestandteil der Automatic Question Answering Systeme. Es ist natürlich möglich, neue Dokumente in einem Automatic Question Answering System zur Erhöhung der Qualität hinzuzufügen, vor allem wenn sie sich in recht großen geschlossenen Sammlungen befinden. Die Arbeit mit geschlossenen Dokument-Sammlungen macht es möglich, verschiedene Ansätze zur Indexierung und Abfrage-Formulierung zu erproben. Dafür geeignet ist zum Beispiel die Lucene IR Engine (Greenwood, 2006). Lucene ist eine offene boolsche Suchmaschine mit Unterstützung für gereihte Retrievalergebnisse mit der Basis eines Vektorraum-Modells. Einer der wichtigsten Vorteile der Verwendung von Lucene ist, dass man es relativ gut erweitern kann um den Anforderungen gerecht zu werden. Es ermöglicht Experimente mit verschiedenen Retrieval-Modellen oder RankingAlgorithmen. 5.2 Verarbeitung der Originaldokumente Die Originaldokumente müssen auf der Wortebene verarbeitet werden, um einen repräsentativen Index der Sammlung erzeugen zu können damit man sie mit einer beliebigen Anzahl von Algorithmen weiterverarbeiten kann. Stoppwörter werden in der Regel nicht in den Index aufgenommen, da sie kaum Information beinhalten. Eine weitere Frage ist, ob man die Varianten eines Wortes oder Begriffes normalisieren soll, damit man alle Varianten eines Begriffes verarbeiten kann. Hierbei verwenden viele Systeme Wortstammerkennungen, wie zum Beispiel die „Porter Wortstammerkennung“ (1980). Diese verschmelzt morphologische Varianten zu einem Wort unter einem Indexeintrag. Es wird behauptet, dass die Durchführung der Verschmelzung, die Fähigkeit relevante Dokumente abzurufen reduziert (Bilotti, 2004). Deswegen wird vorgeschlagen, dass IRAbfragen um alle morphologischen Varianten erweitert werden sollten. Eine der wichtigsten Überlegungen beim Abrufen von Dokumenten für die Qualitätssicherung ist die Menge des zu analysierenden Textes für eine zu beantwortende Frage. Idealerweise sollte das System einen Text abrufen, der genau so groß ist, dass er daraus eine Antwort für alle Fragen der jeweiligen Instanz extrahieren kann. Optimal wäre eventuell auch ein etwas längerer Text, welcher genug Informationen beinhaltet um die extrahierte Antwort rechtfertigen zu können. In diesem Verarbeitungsschritt arbeitet das IR System wie ein Filter zwischen den Dokumentensammlungen und der extrahierten Antwort. Dieser Filter agiert dann so, dass er durch Abrufen und Weiterverarbeiten einer relativ kleinen Auswahl von Textteilen (keine vollständigen Dokumente) aus der Dokumentensammlung für weitere, detailliertere Antworten sorgt. 5.3 Das Internet als Dokumentsammlung Wegen dem gewaltigen Wachstum von elektronischem Text im Internet versuchen immer mehr Forscher Automatic Question Answering Systeme so aufzubauen, dass das gesamte Internet die geschlossene Dokumentensammlung ist. Für die meisten Forscher ist die Indizierung des gesamten Internets wegen der unterschiedlichen Herangehensweise, zum Beispiel Indexierung von Nominalphrasen, undenkbar. Automatic Question Answering Systeme die das Internet als Dokumentensammlung definiert haben, benutzen bestehende Web-Suchsysteme die den Datensatz auf ein Minimum reduzieren um dann daraus die Antwort zu extrahieren. Das bedeutet, dass der „Fragen Analyse“ - Bestandteil des Automatic Question Answering Systems die Ergebnisse einer spezifischen Web-Suchmaschine verwendet und somit das IR-System wie eine Black-BoxKomponente behandelt wird (Agichtein, 2001). 6 Antworten Finden Die letzte, und wohl auch die wichtigste, Stufe in einem Automatic Question Answering System ist, die Antworten zu extrahieren und zu präsentieren. (Greenwood,2006) 6.1 Semantische Typ Extraktion Ein naiver Ansatz zur Beantwortung von gestellten Fragen wäre, nach dem Zufallsprinzip ein Wort oder eine Phrase auszuwählen und das als Antwort zu präsentieren. Dieses einfache System würde sehr unwahrscheinlich korrekte Antworten zurückliefern. (Greenwood,2006) Ein weiterer prinzipieller Ansatz ist die semantische Typ Extraktion, die alle Informationen eines bestimmten Typs aus dem Antwort-Text nimmt und sie entsprechend der Häufigkeit ihres Auftretens innerhalb der relevanten Dokumente ordnet. In der einfachsten Form ist die semantische Typ Extraktion nur geringfügig komplexer als ein zufällig gewähltes Wort oder Phrase. Zwei Antworten können als gleichwertig betrachtet werden, wenn sie entweder identisch sind (Groß- Kleinschreibung ignorieren), oder wenn die beiden Antworten mit dem folgenden Satz von Brill in Einklang stehen (Brill, 2001). „Zwei Antworten sind äquivalent, wenn und nur wenn, alle Stoppwörter in einer Antwort auch in der anderen präsent sind oder vice-versa.“ Die neuerliche Auswertung der Antworten durch eine Antwort-Extraktions-Komponente beinhaltet nicht nur die Antworten, sondern auch Dokumente welche die Antwort untermauern. Das Ergebnis, welches das System zurückgibt ist jene Antwort mit den größten Überschneidungen in Dokumenten und Phrasen die Teile der Frage beinhalten. Wenn zwei Sätze gleich wahrscheinlich die Antwort sein könnten (das heisst die Überlappung zwischen der Frage und den beiden Sätze ist gleich), dann ist der kleinste Teil, der sowohl die Antwort als auch die Frage beinhaltet, der relevantere. Die Idee der Verwendung des kleinsten Teiles, wurde inspiriert von der minimalen Spannbaum Theorie (Monz, 2004). Die Idee wird aber nur in derartigen Grenzfällen angewandt. 6.2 Learning Pattern Sets Eine weitere Methode um Antworten zu finden sind „Learning Pattern Sets“. Jede Frage erfordert ein anderes Muster um eine Antwort zu finden. „Learning generalised surface matching text patterns“ ist ein zweistufiger Prozess der Erfassung und Analyse. Der einfachste Weg, um beide Phasen des Prozesses zu beschreiben, ist folgendes Beispiel (Soubbotin und Soubbotin, 2001; Ravichandran und Hovy, 2002): "Wann wurde X geboren". Für dieses Beispiel funktioniert der Erfassungs-Algorithmus wie folgt: 1. Eine Sammlung von 20 Beispielfragen des richtigen Typs und die damit verbundenen Antworten werden erstellt. 2. Für jede der Beispielfragen wird ein Paar bestehend aus Termen der Frage und Termen der Antwort produziert. Zum Beispiel "Abraham Lincoln" - "1809". 3. Für jedes Beispiel werden die Frage- und Antwortbegriffe bei Google als einzelne Abfrage eingegeben, und die Top-10 Dokumente werden runter geladen und zwar aus dem Google Cache, um zu garantieren dass die richtige Seite indiziert ist. 4. Bei jedem abgerufenen Dokument wird dann der Fragen Term, durch ein Token ersetzt AnCHoR. 5. Je nach Fragetyp werden andere Terme ersetzt. In diesem Beispiel werden: Datum, Orte, Organisationen und Namen von Personen repräsentative Tags ersetzt. DatE, LocatioN, OrganizatioN und PersoN. Für andere Fragetypen werden natürlich andere relevantere Tags gesetzt. Wenn eines der Tags einen Text der Antwort ersetzt, dann wird der Tag mit „Answer“ kombiniert: AnSWeRDatE 6. Alle übrigen Instanzen des Antwort Terms werden dann durch AnSWeR ersetzt. 7. Satzgrenzen werden ermittelt und diejenigen Sätze, die sowohl AnCHoR als auch AnSWeR beinhalten werden behalten. 8. Ein Suffix-Baum (Ukkonen, 1995) wird unter Verwendung der verbliebenen Sätze und alle wiederholten Teilstrings, die sowohl AnCHoR und AnSWeR enthalten extrahiert. Dies ergibt eine Menge von Patterns, die spezifisch zur Frage passen. Leider enthalten diese Patterns keine Informationen darüber, wie genau sie sind. Um neue Fragen beantworten zu können, kommt es zur zweiten Stufe – der Analyse, welche die weniger relevanten Patterns löscht. Der Analyse-Algorithmus ist wie folgt aufgebaut: 1. Eine zweite Sammlung von 20 Beispielfragen werden erstellt und jede Frage wird wieder als einzelne Abfrage zu Google gesendet und die Top-10 Dokumente werden heruntergeladen. 2. In jedem Dokument wird der Frage Term durch AnCHoR. ersetzt. 3. Schritt Nr. 5 vom Erfassungsalgorithmus wird angewandt 4. Jedes der zuvor erzeugten Muster wird in einen reguläre Ausdruck umgewandelt, welcher es ohne große Umstände erlaubt die einzelnen Token die auf AnSWeR oder AnSWeRDatE matchen zu übergeben. 5. Jedes der zuvor generierten Muster wird dann gegen jeden Satz mit dem AnCHoR Tag gematched. Zusammen mit jedem Muster, P, werden zwei Werte gehalten: CP(a) … speichert die Gesamtzahl der Muster die auf den Text gematched haben CP(c) … speichert die Anzahl der Matches, welche die korrekte Antwort, oder ein Tag welches auf die Antwort ausgeweitet werden kann beinhaltet. 6. Nach einem Muster, hat sich P gegen alle Sätze gematched, und wenn CP(c) kleiner als 5 ist wird es verworfen. Den übrigen Mustern wird ein Präzisions-Score zugeordnet der durch CP(c)/CP(a) berechnet wird. Wenn der Präzisions-Score kleiner gleich 0.1 ist, wird das Muster ebenfalls verworfen. Die restlichen Patterns können nun verwendet werden um eine Antwort auf die neue Frage zu finden. (Greenwood,2006) 7 Aktuelle Anwendungsbeispiele 7.1 Siri Apple stellte am 4. Oktober 2011 mit Siri einen Sprachassistenten an welcher mittels Spracherkennung Fragen entgegen nimmt und diese auch beantworten kann (Apple, 2011). Siri ist jedoch keine Eigenentwicklung, sondern wurde im Jahre 2010 gekauft. Ursprünglich wurde es von der Defense Advanced Research Projects Agency als Forschungsprojekt unter dem Namen CALO entwickelt, bei welchem Forscher der Computerwissenschaften in den Bereichen maschinelles Lernen und Wissensbasierte Systeme mitgearbeitet haben (Marti 2011). Die Software kann mit den Sprachen Englisch, Deutsch und Französisch umgehen. Mittels der Sprache kann man Fragen wie zum Beispiel: „Wird es heute Regnen?“ stellen (Abb. 1) , Erinnerungen zu Kalendern hinzufügen, Wegbeschreibungen einholen sowie auf Wikipedia und Wolfram Alpha suchen. Dabei nutzt Siri Wolfram Alpha ähnlich wie die Seite selbst, nur mit dem Unterschied das man seine Frage mittels natürlicher Sprache stellt anstatt eine Query einzugeben. Somit unterstütz Siri neben dem beantworten von Fragen auch Befehle mit denen man die verschiedensten Funktionen seines Mobiltelefons steuern lässt. Dadurch ist der Assistent nicht ausschließlich ein Question Answering System. Figure 1. Siri - Antwort auf die Frage: „How’s the Weather today?“ Retrieved from www.engadget.com Die Kombination von verschiedenen Wissenschaftlichen Disziplinen wie „Natural Language Processing“, „Spracherkennung“ und „Question Answering“ machen Siri dabei besonders Innovativ. Dies kann jedoch auch Probleme aufwerfen. So sagt Phil Blunson, welcher maschinelles Lernen an der Universität von Oxford erforscht: „Die Schwierigkeit liegt darin, dass jedes dieser Systeme Fehler macht. Wenn diese Systeme zusammenarbeiten multiplizieren sich auch deren Fehler.“ (Aron, 2011) Weiters stellt Aron (2011) in seinem Artikel dar wie die unterliegende Technologie von Siri funktioniert. Apple veröffentlicht keine Details zur genauen Funktionsweise der Software, jedoch gibt es einen Patenteintrag von 2011 welcher Beschreibt wie mit den oben genannten Fehlern umgegangen wird. Queries werden einfach auf bestimmte Bereiche wie Wetter und Essensmöglichkeiten beschränkt. Diese werden „Themes“ (Themen) genannt und Siri besitzt einen Datenbankzugang auf Informationen („Active Ontologies“). Zum Beispiel besitzt die Ontologie Essensmöglichkeiten Datenbanken von Restaurants und Menüs zusätzlich zum Konzept einer Mahlzeit, welches definiert dass an Mahlzeiten eine oder mehrere Personen teilnehmen können. Die Idee dieser Ontologin ist nicht neu und wurden bereits im Jahr 1995 von Tom Gruber, einem der Miterfinder von Siri, formal definiert. 7.2 Wolfram Alpha Wolfram Alpha basiert auf der Software Mathematica der Unternehmens Wolfram Research. Im Gegensatz zu Suchmaschinen wie Google präsentiert Wolfram Alpha nicht eine lange Liste von Suchergebnissen zu einer Anfrage, sondern eine Antwort in form von Text und Grafiken. Dabei versucht die Software die Anfrage zu Verstehen, sucht alle Daten zusammen und berechnet wie sie am besten dargestellt werden können. Es wird also nicht nur gespeichertes Wissen in Form von Webseiten dargestellt, sondern bei jeder neuen Abfrage wird Wissen erzeugt (Rucker, 2009). Führ man eine Suchanfrage aus, wird die Interpretation von dieser zusammen mit den Dazugehörigen Daten angezeigt. Das Ergebnis zu der Frage „How many people smoke in Austria?“ ist Beispielsweise der Prozentsatz von erwachsenen Rauchern und weitere Gesundheitsdaten (Abb. 2). Figure 2. Raucher in Österreich. Retrieved from www.wolframalpha.com 8 Lessons Learned Großen Einfluss auf den Fortschritt solcher Systeme hat die Entwicklung neuronaler Netze und Lernalgorithmen. Durch diese werden die Systeme, welche für das Verstehen der Query und Finden der Antwort zuständig sind, immer besser. Aktuelle Question Answering Systeme liefern heutzutage schon ausgezeichnet Ergebnisse, solange diese sich innerhalb einer bestimmten Domäne bewegen, wie am Beispiel von Siri gezeigt wurde. 9 Zusammenfassung und Ausblick Automatic Question Answering Systeme können in drei Bereiche Aufgeteilt werden: Verarbeitung der Frage und Umwandlung in eine Form welche Computer verstehen. Finden von relevanten Dokumenten. Extrahieren einer Antwort aus den relevanten Dokumenten und die Repräsentation selbiger. Zusammenfassend kann man sagen, dass es ein schwieriges Problem ist Computern Dinge, wie das Verstehen und Beantworten von Fragen, beizubringen. In Zukunft werden vor allem Systeme gefragt sein, welche nicht an bestimmte Domäne gebunden sind innerhalb welcher sie Fragen beantworten. Weiters sollen sie nicht nur bekannte Antworten liefern, sondern auch in der Lage sein ganz neues Wissen zu erzeugen indem Lösungen zu bisher unbeantworteten Fragen gefunden werden. 10 Anhang 10.1 Literaturverzeichnis Agichtein, E., & Burges, C., & Brill, E., (2007). Question Answering over Implicitly Structured Web Content. Web Intelligence, IEEE/WIC/ACM International Conference. Apple, (2011). Apple Launches iPhone 4S, iOS 5 & iCloud - Press Release. CUPERTINO, California— October 4. Retrieved from http://www.apple.com/pr/library/2011/10/04Apple-Launches-iPhone-4SiOS-5-iCloud.html. Aron, J., (2011). How innovative is Apple's new voice assistant, Siri? The New Scientist. 212, 2836, 24. Greenwood, M. A., (2005). Open-Domain Question Answering. University of Sheffield Gunawardena, T., & Lokuhetti, M., & Pathirana, N., & Ragel, R., & Deegalla, S., (2010). An automatic answering system with template matching for natural language questions. 5th International Conference on Information and Automation for Sustainability (ICIAFs). Jinzhong, X., & Keliang, J., & Jibin, F., (2008). Research of Automatic Question Answering System in Network Teaching. The 9th International Conference for Young Computer Scientists, ICYCS 2008. Ligozat, A., & Grau, B., & Vilnat, A., & Robba, I., & Grappy, A., (2007). Towards an Automatic Validation of Answers in Question Answering. Tools with Artificial Intelligence. ICTAI 2007. 19th IEEE International Conference. Marti, A., (2011). 'Natural' search user interfaces. Communications of the ACM. 54, 11. Min-Kyoung, K., & Han-Joon, K., (2008). Design of Question Answering System with Automated Question Generation. Networked Computing and Advanced Information Management, 2008. NCM '08. Fourth International Conference, 365-368 Moll, D., & Vicedo, L., (2007). Question Answering in Restricted Domains: An Overview. Comput. Linguist. 33, 1 (March 2007), 41-61. Qinglin, G., & Kehe, W., & Wei, L., (2007). The Research and Realization about Question Answer System based on Natural Language Processing. Innovative Computing, Information and Control. ICICIC '07. Second International Conference Qinglin, G., (2008). Question answering system based on Ontology. Intelligent Control and Automation, 2008. WCICA 2008. 7th World Congress, 3347-3352 Ray, S.K., & Singh, S., & Joshi, B.P., (2009). World Wide Web based Question Answering System - a relevance feedback framework for automatic answer validation. Applications of Digital Information and Web Technologies. ICADIWT '09. Second International Conference. Rucker, R., (2009). Wolfram|Alpha: Searching for Truth. HPlus Magazine Online. Retrieved from http://hplusmagazine.com/2009/04/06/wolframalpha-searching-truth/ Varathan, K.D., & Sembok, T.M.T., & Kadir, R.A. (2010). Automatic Lexicon Generator for Logic Based Question Answering System. Computer Engineering and Applications (ICCEA), vol.2, 349-353 Wang, B. & Li, Y., (2009). Research on the Design of the Ontology-Based Automatic Question Answering System. International Conference on Computer Engineering and Technology. ICCET '09. Wanpeng, S., & Min, F., & Naijie, G., & Liu, W., (2009) Question Similarity Calculation for FAQ Answering. Semantics, Knowledge and Grid, Third International Conference. Yaoyun, Z., & Xuan, W., & Xiaolong, W., & Shixi, F., & Daoxu, Z., (2009). Using question classification to model user intentions of different levels. Applications of Digital Information and Web Technologies. ICADIWT '09. Second International Conference. 10.2 Abbildungsverzeichnis Figure 1. Siri - Antwort auf die Frage: „How’s the Weather today?“. Retrieved from www.engadget.com Figure 2. Wolfram Alpha - Raucher in Österreich. Retrieved from www.wolframalpha.com