Schlu bericht
Transcription
Schlu bericht
Schlubericht des Berliner Projekts der EUROTRA-D-Begleitforschung \Anapherninterpretation in der Maschinellen U bersetzung" Lone Beheshty Guido Dunker Christa Hauenschild Bernd Mahr Susanne Preu Matthew Rickard Birte Schmitz Carla Umbach Wilhelm Weisweber Christian Werner-Meier Erich Ziegler Inhaltsverzeichnis 1 Einleitung 2 Das Berliner MU -System am Beispiel 3 Anaphernresolution 3.1 Duale Textreprasentation : : : : : : : : : : : : 3.2 Faktoren zur Anaphernresolution : : : : : : : 3.2.1 Nahe und Bindung : : : : : : : : : : : 3.2.2 Praferenz fur das semantische Subjekt 3.2.3 Praferenz fur das Satzthema : : : : : : 3.2.4 Negative Praferenz fur freie Adjunkte : 3.2.5 Kongruenz : : : : : : : : : : : : : : : : 3.2.6 Rollenidentitat : : : : : : : : : : : : : 3.2.7 Konzeptuelle Konsistenz : : : : : : : : 3.3 Verfahren zur Anaphernresolution : : : : : : : 3.4 Ergebnisse : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : 1 5 17 19 22 22 26 27 27 27 27 28 29 31 4 Das Lexikon - Ein Konsistenzproblem 32 5 Formale Fundierung des MU -Systems 6 Termersetzung 7 Das Berliner MU -System 40 47 50 4.1 Das Lexikon im MU -System : : : : : : : : : : : : : : : : : : : : : : : : 32 4.2 Modellierung des Lexikons : : : : : : : : : : : : : : : : : : : : : : : : : 33 4.3 Ergebnisse : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : 38 7.1 Reprasentationsformalismen : : : : : : : : : : : : : 7.1.1 Generalisierte Phrasenstrukturgrammatiken 7.1.2 Funktor-Argument-Strukturen : : : : : : : : 7.1.3 Die referentielle Textreprasentation : : : : : 7.2 Strukturubergange : : : : : : : : : : : : : : : : : : 7.2.1 Syntaktische Analyse : : : : : : : : : : : : : 7.2.2 Semantische Analyse : : : : : : : : : : : : : 7.2.3 Konzeptuelle Analyse : : : : : : : : : : : : : 7.2.4 Transfer : : : : : : : : : : : : : : : : : : : : 7.2.5 Generierung : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : 8 Perspektiven fur zukunftige Forschung im Bereich MU Publikationen Weitere Literaturangaben ii : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : 52 53 54 57 60 60 62 63 65 67 69 74 78 Analyse Transfer AS-Text Syntaktische Strukturen .. der AS-Satze Semantische .. Reprasentationen ZS-Text Syntaktischer Transfer Satzsemantischer Transfer des AS-Textes Inhalts.. reprasentation des AS-Textes Synthese Syntaktische Strukturen .. der ZS-Satze Semantische .. Reprasentationen des ZS-Textes Konzeptueller Transfer Inhalts.. reprasentation des ZS-Textes Thematische und Argumentative Textstruktur Abbildung 1: Das MU -Modell im Projekt KIT-FAST 1 Einleitung Das Projekt KIT-FAST war ein Forschungsprojekt zur Maschinellen U bersetzung (MU ) im Rahmen der Begleitforschung zu EUROTRA-D, dem deutschen Teil des EG-weiten MU -Projekts EUROTRA. Die Begleitforschung zu EUROTRA-D hatte die Aufgabe, neuere Forschungsergebnisse aus Linguistik und Informatik fur die Maschinelle U bersetzung verwertbar zu machen und Methoden und Verfahren zur exemplarischen Losung von MU -Problemen am Beispiel der Sprachpaare Deutsch-Englisch und Deutsch-Franzosisch zu entwickeln. Die zentralen Themen der Begleitforschung waren die Frage der Tauglichkeit von Unikationsgrammatiken fur die MU , die Einbeziehung zusatzlicher Informationstypen in den U bersetzungsproze und der Einstieg in die U bersetzung von Texten statt von Einzelsatzen. Das Berliner Projekt KIT-FAST hat ein Mehrebenenmodell der MU entwickelt, das sich an den von der U bersetzungstheorie vorgeschlagenen unterschiedlichen Typen von U bersetzungsaquivalenz orientiert (s. Abbildung 1). Auf dieser Grundlage wurde stufenweise ein experimentelles MU -System entwickelt und die Annahmen des Modells uberpruft. In der ersten Projektphase (\Neue Analyse- und Syntheseverfahren 1 zur maschinellen U bersetzung", 1985-1987) wurde die Generalisierte Phrasenstrukturgrammatik (GPSG) fur die Analyse und Synthese naturlicher Sprache im Rahmen der MU nutzbar gemacht, indem aus der axiomatischen Form der GPSG eine konstruktive Version entwickelt und entsprechende Analyse- und Syntheseverfahren implementiert wurden. Entsprechend wurden GPSG-Grammatiken fur Fragmente des Deutschen und Englischen erstellt. Zu den Arbeiten der ersten Projektphase siehe z.B. [Hauenschild 86], [Preu 87] und [Busemann/Hauenschild 88a]. In der zweiten Phase (\Transfer und Generierung auf satzsemantischer Basis", 19871990) entwickelte KIT-FAST die Funktor-Argument-Struktur (FAS) als satzsemantische Reprasentationsebene fur Transfer und Generierung. Die FAS entspricht einer mittleren Ebene des MU -Modells, d.h. einer Analysetiefe zwischen Oberachensyntax und inhaltsbezogener Reprasentation. Deshalb kann man die FAS auch als abstrakte Syntax, angereichert mit semantischen Merkmalen, betrachten. Die Analysetiefe der FAS erwies sich als gut geeignet fur Generalisierungen hinsichtlich der Transferregeln. Um die verschiedenen Reprasentationsebenen zu integrieren, wurde ein allgemeines Strukturabbildungsverfahren auf der Basis von Termersetzung entwickelt, mit dem zunachst die Analyse von FAS-Strukturen aus GPSG-Strukturen und der Transfer realisiert wurde. Daneben wurde ein speziell an GPSG orientiertes Generierungsverfahren entwickelt. Die Ergebnisse der zweiten Projektphase sind u.a. in [KIT-FAST 91] dokumentiert. In der letzten, bis 1992 laufenden Phase hat sich KIT-FAST mit Anaphernresolution in der Maschinellen U bersetzung beschaftigt. Dieses Problem beinhaltet mehrere Aspekte, die fur die MU dringlich sind: die U bersetzung von Texten statt einzelner Satze, die Behandlung von Mehrdeutigkeiten, die Einbeziehung von Hintergrundwissen, die Einbindung eines Wissensreprasentationssystems, die Entwicklung von Losungsstrategien auf der Basis von Wissen, das nicht als gesichert angesehen werden kann. Das in KIT-FAST entwickelte Verfahren zur Anaphernresolution integriert unterschiedliche Kriterien, die fur die Bestimmung des Antezedens einer pronominalen Anapher und fur deren U bersetzung relevant sind (morphologische, syntaktische, semantische usw.). Das Verfahren legt eine duale Reprasentation des Texts, der strukturellen Aspekte einerseits und der referentiellen Aspekte andererseits, zugrunde. Die strukturelle Textreprasentation erfolgt auf der Basis der Funktor-Argument-Struktur. Die referentielle Textreprasentation wurde durch Einbindung des Wissensreprasentationssystems BACK realisiert, eines hybriden Systems auf der Grundlage Terminologischer Logik, das im Nachbarprojekt KIT-BACK entwickelt wurde. Alle fur die Anaphernresolution relevanten Kriterien werden im Sinne von Praferenzregeln behandelt, d.h. sie stellen kein gesichertes Wissen dar, sondern sprechen nur mehr oder weniger stark fur oder gegen ein mogliches Antezedens. Um in die komplexe Problematik anaphorischer Bezuge einzusteigen, wurden die Anaphern eingeschrankt auf Personal- und Possessivpronomina, die sich auf Objekte im weitesten Sinne beziehen und die mit ihrem Antezedens referentiell identisch sind. Dabei ist es gelungen, Personal- und Possessivpronomen gleich zu behandeln. 2 Neben dem zentralen Problem der Anaphernresolution wurden in der letzten Projektphase weitere eng damit verknupfte Themen bearbeitet: die duale Reprasentation des Textes, die eine direkte Voraussetzung fur das Resolutionsverfahren bildet; Konsistenzprobleme des Lexikons, die hier durch die Integration der Wissensreprasentation verscharft auftreten; die formale Fundierung des MU -Systems, die grundlegende Fragen der Integration verschiedenartiger Reprasentationen anschneidet; das Termersetzungsverfahren, das zur Strukturabbildung verwendet wird und an das durch die Integration einer Wissensreprasentationskomponente erhohte Anforderungen gestellt werden. Der vorliegende Bericht enthalt als erstes einen U berblick uber das MU -System und das Anaphernresolutionsverfahren anhand eines kurzen Beispiels. Es wird gezeigt, wie ein Beispieltext in den verschiedenen Reprasentationen aussieht, wie die darin auftretenden anaphorischen Bezuge aufgelost werden und wie der Text ubersetzt wird. Im zweiten Kapitel werden die Ergebnisse zur Anaphernresolution vorgestellt. Dazu wird die duale Textreprasentation beschrieben, dann die zur Resolution verwendeten Faktoren erlautert und das Verfahren dargestellt, und abschlieend die erzielten Ergebnisse diskutiert. In den beiden folgenden Kapiteln werden die Arbeiten im Projekt zu Problemen des Lexikons und zur formalen Fundierung des MU -Systems dargestellt. Im vorletzten Kapitel werden die Reprasentationen und Strukturubergange des gesamten Berliner MU -System im Detail beschrieben. Im letzten Kapitel gehen wir auf Perspektiven fur eine zukunftige MU -Forschung ein. Die jeweiligen Kapitel sind verhaltnismaig eigenstandig, was insgesamt eine gewisse Redundanz bedingt. Wir hoen aber, damit auch unterschiedlichen Leserinteressen gerecht zu werden. Von diesem Abschlubericht kann kein Resume der gesamten Projektlaufzeit von fast acht Jahren erwartet werden. Zwar stellt man sich die Frage nach Erfolg und Zukunft des Unternehmens, aber eine systematische Auswertung ist schwierig, schon deshalb, weil bedingt durch die Forderungsstruktur die Arbeitszusammenhange sich nach Beendigung eines Projekts sehr schnell losen. Sicher ist aber fur eine Bewertung ein gewisser Abstand notwendig. Die Aufgabe in der ersten Phase der Begleitforschung war konkurrierend angelegt: es sollte die Brauchbarkeit von Unikationsgrammatiken fur die MU untersucht werden, wobei die Stuttgarter Gruppe von der Lexical Functional Grammar (LFG) und die Berliner Gruppe von GPSG ausging. Da Unikationsgrammatiken tauglich sind, ist keine Frage mehr: sie sind inzwischen state of the art in der Verarbeitung naturlicher Sprache. Die Frage, ob nun GPSG oder LFG geeigneter ist, ist inzwischen obsolet geworden; denn es hat in den letzten Jahren eine deutlich konvergierende Entwicklung im Bereich der Unikationsgrammatiken gegeben, mit der Tendenz, Grammatiktheorie und Formalismus, die in GPSG wie LFG eng verwoben sind, voneinander zu losen. Formal sind Unikationsgrammatiken universeller geworden, etwa in Form von Feature Logic, und gleichen sich an Terminologische Logiken, d.h. allgemeine Wissensreprasentation an. Inhaltlich ist man oensichtlich liberaler geworden: Der inzwischen favorisierte Ansatz 3 der Head-Driven Phrase Structure Grammar (HPSG) geht durchaus eklektisch vor. Die HPSG geht von den wesentlichen Generalisierungen der GPSG aus (bes. Merkmalinstantiierungsprinzipien und eine modizierte Version des ID/LP-Formats). Dazu kommen wichtige Aspekte der LFG (bes. die Lexikonzentriertheit) und anderer Unikationsgrammatiken. Die bereits in der GPSG angelegte Tendenz zur U bernahme von Ideen aus der Government-Binding-Theorie bzw. aus der Prinzipien-und-ParameterTheorie wird konsequent fortgesetzt (vgl. etwa das Subkategorisierungsprinzip). Insgesamt hat sich die Diskussion innerhalb der Computerlinguistik deutlich verschoben. Man streitet nicht mehr daruber, welche Version einer Unikationsgrammatik genau gewahlt werden soll, der eklektische Zugang hat sich praktisch uberall durchgesetzt. Wichtiger sind zur Zeit die Fragen, wie Unikationsgrammatiken ezient implementiert werden konnen und wie sie auch fur nicht wohlgeformten Input adaptiert werden konnen, was besonders fur die Verarbeitung gesprochener Sprache relevant ist. Auerdem haben sich neue Themenschwerpunkte in den Bereichen Semantik und Systemarchitektur herausgebildet, letzteres gilt besonders fur den Bereich der experimentellen MU -Systeme. Zu den derzeit aktuellen Fragen haben EUROTRA-D und Begleitforschung bereits einige Beitrage geleistet. Darauf kommen wir im Schlukapitel dieses Berichts zuruck, in dem wir Perspektiven fur zukunftige MU -Forschung aufzeigen wollen. 4 Die USA und Japan ergreifen neue Initiativen. Sie erhöhen ihre Investitionen. Abbildung 2: Theoretische Kombinationsmoglichkeiten 2 Das Berliner MU -System am Beispiel Im folgenden soll das Berliner MU -System im U berblick vorgestellt werden. Dazu wird ein kurzes Textbeispiel auf seinem Weg durch das System begleitet, wobei die einzelnen Stadien der Verarbeitung und deren wesentliche Eigenschaften besprochen werden. Einzelheiten der zugrundeliegenden theoretischen U berlegungen oder der Reprasentationsformalismen spielen dabei eine untergeordnete Rolle. Der Beispieltext besteht aus zwei Satzen und zeigt Phanomene, die fur das Berliner Anaphernresolutionsverfahren besonders interessant sind: satzubergreifende anaphorische Bezuge koordinierte Antezedenten Gleichbehandlung von Personal- und Possessivpronomina Als Beispiel wurde ausgewahlt: Die USA und Japan ergreifen neue Initiativen. Sie erhohen ihre Investitionen. Fur die Pronomen sie und ihre gibt es mehrere Interpretationsmoglichkeiten. Wenn man voraussetzt, da die Antezedenten im Text zu nden sind, d.h. von deiktischen Interpretationen absieht, kommen im Prinzip alle Nominalphrasen in Frage (s. Abbildung 2), solange noch keine Beschrankungen und Praferenzen fur Antezedenten berucksichtigt werden. Die Auosung der anaphorischen Bezuge von Personal- und Possessivpronomina ist aus zwei Grunden fur die U bersetzung relevant: Erstens mussen die Pronomen entsprechend dem zielsprachlichen Genus und Numerus des Antezedens ubersetzt werden. Wenn z.B. das Pronomen sie in unserem Beispiel auf ein Antezedens referieren wurde, dessen Ubersetzung im Englischen singular neutrum ware, dann mute sie durch it ubersetzt werden. Zweitens ist generell die U bersetzung der Pradikate abhangig von den jeweiligen Argumenten und deshalb mu fur die U bersetzung geklart sein, auf welches Argument ein Pronomen referiert. So mu man z.B. eine U bersetzung des Pradikats erhohen wahlen, die auch abstrakte Agenten zulat. Im folgenden wird die Architektur des Berliner MU -Systems zugrunde gelegt (s. Abbildung 3). Sie beruht auf einem Transfermodell der Maschinellen Ubersetzung und beinhaltet drei Reprasentationsebenen: 5 ANALYSE AS Text Oberflächensyntax der AS Sätze GPSG Desambiguierung der anaphorischen Bezüge konzeptuelles Wissen BACK−TBox strukturelle Repräsentation des AS−Textes FAS referentielle Repräsentation des AS−Textes BACK−ABox TRANSFER SYNTHESE ZS Text Oberflächensyntax der ZS Sätze GPSG strukturelle Repräsentation des ZS−Textes FAS AS: Ausgangssprache ZS: Zielsprache Abbildung 3: Architektur des Berliner MU -Systems die Oberachensyntax, auf der Basis von GPSG (Generalisierte Phrasenstruktur- grammatik); die strukturelle Textreprasentation, auf der Basis von FAS (Funktor-ArgumentStruktur); die referentielle Textreprasentation, auf der Basis des Wissensreprasentationssystems BACK. Strukturelle und referentielle Textreprasentation bilden zusammen die duale Textreprasentation, auf der die Anaphernresolutionskomponente arbeitet. Die strukturelle Textreprasentation dient auerdem als Transferebene. Nahere Erklarungen zum Aufbau des Systems nden sich in Kapitel 7. Aus Grunden der Anschaulichkeit werden die Reprasentationen in den Abbildungen hier in 'abgemagerter' Version gezeigt, ausfuhrliche Beschreibungen der Reprasentationen nden sich ebenfalls in Kapitel 7. Oberachensyntax der deutschen Satze Das Berliner MU -System arbeitet mit einem Stammformenlexikon. Deshalb wird vor der syntaktischen Analyse eine morphologische Analyse der Eingabe durchfuhrt. Die syntaktische Analyse beruht auf der Generalized Phrase Structure Grammar (GPSG). Sie geht satzweise vor, d.h. man erhalt fur den Beispieltext zwei GPSG-Strukturbaume (s. Abbildung 4). Wichtige Eigenschaften der deutschen GPSG-Grammatik sind: Flache Satzstruktur; dabei wird von einer Grundstellung ausgegangen, bei der das nite Verb je nach Satztyp am Anfang oder am Ende steht. 6 S(v−form: fin) s(v−form: fin) / dp(cas: nom) dp(cas: nom) dp(cas: nom) d1 conj dp(cas: nom) v(sub: nom_akk) dp(cas: akk) und d1 ergreifen d1 d np np die n n USA Japan np ap np a n neue Initiativen S(v−form: fin) dp(cas: nom) s(v−form: fin) / dp(cas: nom) sie v(sub: nom_akk) erhöhen dp(cas: akk) ihre Investitionen Die USA und Japan ergreifen neue Initiativen. Sie erhöhen ihre Investitionen. Abbildung 4: GPSG-Strukturen im Deutschen 7 Topikalisierung bzw. Extraposition; durch die Topikalisierung oder Extraposition werden aus der Grundstellung andere Satzstellungen, z.B. die Verbzweitstellung, erzeugt. Die Topikalisierung und Extraposition werden mit Hilfe unterschiedlicher slash-Merkmale realisiert. Determiner-Phrase-Analyse; die dp-Analyse erfolgt in Anlehnung an die GBTheorie. Koordination. Strukturelle Reprasentation des deutschen Textes Die GPSG-Strukturen werden durch die Semantische Analyse in Funktor-ArgumentStrukturen (FAS) uberfuhrt. Dieser Verarbeitungsschritt ist mithilfe eines speziellen Termersetzungsverfahrens, das im Projekt entwickelt wurde, realisiert (siehe Kapitel 6). Die FAS-Ausdrucke werden als Liste zusammengefat und bilden die strukturelle Textreprasentation. So konnen auch satzubergreifende anaphorische Beziehungen behandelt werden. Die Funktor-Argument-Struktur bildet auch die Transfer-Ebene des Berliner MU -Systems und mu alle fur den Transfer benotigten Informationen enthalten. Deshalb ist sie mit semantischen Merkmalen angereichert. Die Liste der FAS-Ausdrucke fur den Beispieltext enthalt demzufolge zwei Strukturen. Sie wird in vereinfachter Form in Abbildung 5 gezeigt. In den dort abgebildeten FAS-Strukturen sind die anaphorischen Bezuge der Pronomina noch nicht aufgelost, deshalb ist ihr ref-Wert (s.u.) variabel speziziert. Wichtige Aspekte der FAS sind: Formal ist die FAS eine merkmalbasierte Phrasenstruktur-Grammatik. Die Kategorien bestehen aus Hauptkategorien und Listen von Merkmal-Wert-Spezikationen, wobei die vorkommenden Merkmale durch die jeweilige Hauptkategorie festgelegt sind. Die FAS-Struktur stellt pradikative Komplexe, die ein Verb, Nomen oder Adjektiv als Kopf haben, als Funktor-Argument-Beziehungen dar, d.h. Verben, Nomen und Adjektive bilden Funktoren, die Argumente nehmen konnen. Verbale Funktoren sind durch die Hauptkategorie v pred gekennzeichnet, nominale durch n pred und adjektivische durch a pred. Argumente werden durch die Hauptkategorie term reprasentiert. Den Argumenten werden Rollen zugewiesen (s. Merkmal role), entsprechend den Kongurationen ihrer Funktoren (s. Merkmal conf). Die thematische Struktur des Satzes wird { hier vorlaug nur analog zur Oberachenreihenfolge { gekennzeichnet. Das ist fur die Anaphernresolution und fur den Transfer von Bedeutung. Die thematische Stuktur ist aus dem skalaren Merkmal them ersichtlich. Satzinterne und satzubergreifende anaphorische Bezuge von Personal- und Possessivpronomina werden ebenfalls gekennzeichnet. Das geschieht durch das Merkmal ref. Der ref-Wert in der FAS verweist dabei auf das Referenzobjekt des Antezedens in der refentiellen Textreprasentation (s.u.). 8 fas illoc clausefin clause fin assertion pres_ind v_pred term term conf: ag_af them: 2 ref: uc_1 role: agent them: 1 ref: uc_4 role: affected them: 3 ref: uc_5 ergreifen term role: agent ref: uc_2 coord term role: agent ref: uc_3 neue Initiativen und fas illoc fin Japan die USA clausefin clause assertion pres_ind v_pred conf: ag_af them: 2 ref: uc_7 term role: agent them: 1 ref: x erhöhen sie term role: affected them: 3 ref: uc_8 det * Die USA und Japan ergreifen neue Initiativen. Sie erhöhen ihre Investitionen. nom n_pred conf: ag ref: uc_8 Investition Abbildung 5: FAS-Reprasentationen im Deutschen 9 term role: agent ref: y ihr anything event object ... ... ag_af_event erhöhen property ag_object . . . . . investition Abbildung 6: TBox-Ausschnitt Die Koordination von Satzen, Nominalphrasen und von Adjektiven wird ebenfalls als Funktor-Argument-Struktur reprasentiert. Dabei bildet die Koordination den Funktor und die Konjunkte dessen Argumente. Referentielle Reprasentation des deutschen Textes Die strukturelle Reprasentation des Textes wird durch die konzeptuelle Analyse, die genau wie die semantische Analyse auf Termersetzung beruht, in eine referentielle Textreprasentation uberfuhrt. Die referentielle Textreprasentation basiert auf konzeptuellem Wissen und wird durch das Wissensreprasentationssystem BACK, das im Nachbarprojekt KIT-BACK entwickelt wurde, realisiert. Das Wissen im BACK-System wird unterschieden in denitorisches Wissen (TBox) und assertionales Wissen (ABox). Die TBox im Berliner MU -System (s. Abbildung 6) besteht aus einer Konzepthierarchie. Die Konzepte konnen vom Typ object, event oder property sein und werden durch Rollenrestriktionen weiter speziziert. Die ABox besteht aus Diskursobjekten, die Instanzen der Konzepte in der TBox sind. Nominale, verbale und adjektivische Pradikationen bilden Diskursobjekte vom entsprechenden Typ und sind uber Rollen mit anderen Diskursobjekten verbunden. So stellt das Verb ergreifen ein Diskursobjekt vom Typ event dar, das uber die Rollen agent und aected mit den Objekten USA und Japan und Initiativen verbunden ist. In der Abbildung 7 ist auch zu erkennen, da die USA und Japan aufgrund der Koordination ein Diskursobjekt darstellen, das auf die einzelnen Bestandteile der Koordination aufbaut (USA bzw. Japan). Die gestrichelten Relationen in Abbildung 7 werden durch anaphorische Bezuge hergestellt. Der Zusammenhang zwischen FAS-Ausdrucken und den Diskursobjekten, auf die sie referieren, wird durch das FAS-Merkmal ref hergestellt, das als Wert die Kennzeichnung des entsprechenden Diskursobjekts enthalt (uc i). Abbildung 8 zeigt die Verbindung an einem einfachen Beispiel. Personal- und Possessivpronomina referieren auf dieselben Diskursobjekte wie ihre Antezedenten. So verweisen nach der Anaphernresolution die ref-Werte der FAS-Terme von USA und Japan, sie und ihre gleichermaen auf das Diskursobjekt uc 4. 10 USA ergreifen Initiativen affected uc_2 uc_5 uc_1 and modifier agent USA + Japan uc_4 uc_6 agen t agent and uc_8 uc_7 uc_3 neu affected Investitionen erhöhen Japan (Die gestrichelten Relationen werden erst durch die anaphorischen Bezüge hergestellt) Abbildung 7: ABox-Reprasentation . . . clause ref: uc_1 v_pred ref: uc_1 term ref: uc_2 ... erhöhen FAS Struktur: nom ref: uc_2 term ref: uc_3 ... nom ref: uc_3 n_pred n_pred ref: uc_2 ref: uc_3 strukturelle Textrepräsentation USA ABox: referentielle Textrepräsentation USA erhöhen uc_1 investitionen agent uc_2 affected uc_3 investitionen Abbildung 8: Zusammenhang von struktureller und referentieller Textreprasentation (die USA erhohen die Investitionen) 11 Anaphernresolution Das Anaphernresolutionsverfahren setzt auf der dualen Textreprasentation, d.h. der strukturellen und der referentiellen Reprasentation, auf und ermittelt aufgrund bestimmter Faktoren die Antezedenten der einzelnen Pronomina. Das bis dahin variable ref-Merkmal eines Pronomens wird dann mit dem ref-Wert des Antezedens belegt. Nur wenn kein Antezedens gefunden wird, wird der anaphorische Ausdruck als deiktisch interpretiert und ein eigenes Diskursobjekt erstellt. Als Antezedenskandidaten werden alle Nominalphrasen im aktuellen Satz und im Vortext betrachtet. Die Lange des zu berucksichtigenden Vortextes ist per Parameter festgelegt, in unserem Beipiel bildet der erste Satz den Vortext. Fur jedes Pronomen wird anhand der unten beschriebenen Faktoren der am besten geeignete Kandidat ausgewahlt. Alle Faktoren werden als Praferenzregeln betrachtet. 'Harte' Constraints (wie z.B. das Bindungsprinzip) sind als besonders starke Praferenzen realisiert. Der beste Antezedenskandidat fur ein Pronomen wird ermittelt, indem alle Faktoren auf jeden moglichen Kandidaten anwandt werden. Die verschiedenen Faktoren haben unterschiedliche Gewichte und vergeben dadurch unterschiedliche Punkte an die Kandidaten. Der Kandidat mit der hochsten Punktzahl gewinnt und wird als Antezedens fur das jeweilige Pronomen betrachtet. Bei mehreren Kandidaten mit gleich hoher Punktzahl liegt unter Umstanden eine 'echte' Ambiguitat vor, die auch von einem menschlichen U bersetzer nicht zu losen ware. In dem vorliegenden Beispiel sind die Antezedenten fur die Pronomen sie und ihre zu bestimmen. Als mogliche Kandidaten kommen in Frage: die USA Japan die USA und Japan Initiativen Investitionen sie/ihre fur das jeweils andere Pronomen In unserem Beispiel ermittelt das Anaphernresolutionsverfahren die Koordination die USA und Japan als besten Kandidaten fur das Personalpronomen sie und auch fur das Possessivum ihre. Dies entspricht den im Text intendierten Antezedenten. Die einzelnen Schritte fur das Pronomen sie sehen vereinfacht folgendermaen aus: 1. Faktor Rollenidentitat: Die Kandidaten USA, Japan, USA und Japan und ihre erfullen dieselbe Rolle wie das Pronomen sie, namlich agent. Deshalb gibt es gleichviele positive Punkte fur die Kandidaten: USA, Japan, USA und Japan und ihre. Alle ubrigen Kandidaten erhalten hier keine Punkte. 2. Faktor Kongruenz: Das Pronomen sie erfordert hier ein pluralisches Antezedens. Deshalb erhalt Japan als einziger Kandidat eine hohe negative Punktzahl. 12 3. Bindungsprinzip: Durch das Bindungsprinzip sind vor allem benachbarte Argumente als Antezedenten ausgeschlossen. So geht nur an Investitionen eine hohe negative Punktzahl. 4. Faktor Nahe: Das Nahekriterium bewertet Antezedenten, die nicht in dem durch das Bindungsprinzip 'verbotenen' Bereich, sondern in einem 'Nahbereich' liegen. Die Bewertung des Kandidaten bestimmt sich durch den strukturellen Abstand zum Pronomen. Es werden hohe positive Punktzahlen an folgende Kandidaten vergeben: Initiative und USA und Japan. Geringe Punktzahlen gehen an USA und Japan. Die restlichen Kandidaten gehen leer aus. 5. Faktor 'Praferenz fur das Semantische Subjekt': Dieser Faktor bezieht sich auf das semantische Subjekt des Satzes, das als 1.Argument in der kanonischen Ordnung des jeweiligen verbalen Funktors deniert ist { also hier auf die Koordination USA und Japan. Der Kandidat USA und Japan kann somit weitere positive Punkte sammeln. 6. Faktor 'Praferenz fur das Satzthema': Das Satzthema wird durch das Merkmal them in der FAS kodiert. Positive Punkte erhalt wiederum USA und Japan. 7. Faktor 'Konzeptuelle Konsistenz' Wenn das Diskursobjekt, auf das ein Antezedenskandidat verweist, die in der TBox festgelegten Selektionsrestriktionen fur den Referenten des Pronomens verletzt, dann wird der Antezedenskandidat negativ bewertet. Die Restriktionen fur die Rollenfuller von erhohen werden von den Kandidaten Initiativen und Investitionen nicht erfullt. Sie erhalten deswegen eine hohe negative Punktzahl. Sieger nach Punkten ist die Koordination USA und Japan, gefolgt von USA. Fur das Possessivpronomen ihr lauft das Anaphernresolutionsverfahren analog ab: Hier fallt aufgrund des Bindungsprinzips und der konzeptuellen Inkonsistenz der Kandidat Investitionen quasi heraus, d.h. der Kandidat erhalt durch die beiden genannten Faktoren hohe negative Punkte. Auch Japan erhalt eine hohe negative Punktzahl durch die fehlende Kongruenz mit ihre (weder Femininum noch Plural). Hochste Punktzahl erhalt das Pronomen sie, da es durch die Nahe zum Possessivum ihr ein besserer Kandidat als die Koordination USA und Japan ist. Da sich sie aber seinerseits auf USA und Japan bezieht, verweist ihre damit ebenfalls auf USA und Japan. Transfer und strukturelle Reprasentation des englischen Textes Die deutsche FAS-Struktur wird gema den Transferregeln durch das Termersetzungsverfahren in die englische FAS uberfuhrt. Lexikalische und strukturelle Transferregeln haben das gleiche Format. Die Transferregeln werden "bottom up" angewandt. Es ist fur den Ansatz in KIT-FAST kennzeichnend, da die U bersetzung bzw. der Transfer nicht strukturerhaltend sein mu. 13 clause lang: g op: pred lang: e op: pred term v_pred lang: e conf: ag_af them: THEM1 ref: REF1 X clause lang: e role: agent them: THEM2 ref: REF2 Y term v_pred lang: e role: affected them: THEM3 ref: REF3 lang: e conf: ag_af them: THEM1 ref: REF1 Z X term lang: e role: agent them: THEM2 ref: REF2 Y term lang: e role: affected them: THEM3 ref: REF3 Z Bedingung: THEM2 < THEM3 Abbildung 9: Transferregel zur U bersetzung des Verbalkomplexes In Abbildung 9 ist die Transferregel zur U bersetzung des Verbalkomplexes gezeigt, die in beiden Satzen des Beispiels zum Zuge kommt. Eine Strukturanderung ist hier nicht notwendig, so da die englischen FAS-Ausdrucke den deutschen strukturell ahnlich sind (s. Abbildung 10). Generell unterscheiden sich die deutsche und die englische FAS-Grammatik allerdings in einigen Punkten, die jedoch fur das Beispiel nicht relevant sind. Oberachensyntax der englischen Satze Aus der englischen FAS wird die englische GPSG-Struktur generiert (Abbildung 11). Im Berliner MU -System wurde mit zwei verschiedenen Generierungsverfahren experimentiert, einem direkt an GPSG orientierten und einem auf der Basis desselben Termersetzungsverfahrens, das auch fur die semantische Analyse und den Transfer verwendet wird. Da auch die englische GPSG auf einem Stammformenlexikon beruht, schliet sich an die Generierung eine Flexionskomponente an, die die passenden Vollformen erzeugt. Damit hat das Textbeispiel alle Stadien der Verarbeitung durchlaufen und die englische U bersetzung liegt vor. 14 . . . clause v_pred term coord: ag_af them: 2 role: agent them: 1 take coord term role: agent term role: affected them: 3 term role: agent det * and the USA nom mod nom a_pred n_pred Japan . new . initiatives . clause v_pred coord: ag_af them: 2 increase term role: agent them: 1 term role: affected them: 3 det they * USA and Japan take new initiatives. They increase their investments. nom conf: ag_aim n_pred term role: agent investments their Abbildung 10: FAS des Englischen 15 S(v−form: fin) dp(cas: nom) vp(vform: fin) dp(co: −) USA dp(co: r) conj v(sub: trans) dp(cas: akk) dp take und new initiatives Japan S(v−form: fin) vp(vform: fin) dp(cas: nom) they v(sub: trans) increase dp(cas: akk) their investments USA and Japan take new initiatives. They increase their investments. Abbildung 11: GPSG-Struktur des englischen Beispieltextes 16 3 Anaphernresolution Das zentrale Thema der letzten Projektphase von KIT-FAST war die Anaphernresolution im Hinblick auf die Maschinelle U bersetzung. Ausgangspunkt und Grundlage dafur bildete das Berliner experimentelle MU -System. Wie schon in Kapitel 2 erwahnt, wurde dieses System auf der Basis eines Mehrebenenmodells der Maschinellen U bersetzung, das sich an den von der U bersetzungstheorie vorgeschlagenen Arten von U bersetzungsaquivalenz orientiert (s. [Hauenschild 86]), entwickelt und sieht drei Reprasentationsebenen vor (s. auch Abbildung 1 auf Seite 1): Die erste Ebene reprasentiert die Oberachensyntax von Satzen mithilfe der Generalized Phrase Structure Grammar (GPSG), die in KIT-FAST fur die syntaktische Analyse nutzbar gemacht wurde (s. [Gazdar et al. 85], [Preu 87], [Busemann/Hauenschild 88a]). Die zweite Ebene zeigt die strukturellen Aspekte des Texts. Als Grundlage dient die in KIT-FAST entwickelte Funktor-Argument-Struktur (FAS), die als abstrakte Syntax mit zusatzlichen semantischen Merkmalen beschrieben werden kann und als Transferebene und Ausgangspunkt fur die Generierung dient (zu inhaltlichen und formalen Aspekten der FAS s. [Hauenschild/Umbach 88], [Busemann/Hauenschild 89]). Die dritte Ebene reprasentiert den Text aus der Sicht der Referenzobjekte und beruht auf konzeptuellem Wissen. Diese Ebene wurde durch Einbindung des Wissensreprasentationssystems BACK realisiert, eines hybriden Systems auf der Basis Terminologischer Logik (s. [Peltason et al. 89], [Schmitz 90], [Schmitz et al. 92]). Das Thema Anaphernresolution beinhaltet mehrere Aspekte, die fur die MU dringlich sind: die U bersetzung von Texten statt einzelner Satze, die Behandlung von Mehrdeutigkeiten, die Einbeziehung von Hintergrundwissen und die Entwicklung von Losungsstrategien auf der Basis von Wissen, das nicht als gesichert angesehen werden kann. In der Literatur wird der Unterschied zwischen anaphorischer und deiktischer Referenz nach wie vor kontrovers diskutiert. Fur unsere Aufgabe halten wir eine Abgrenzung fur sinnvoll, die davon ausgeht, da ein deiktischer Ausdruck direkt in den Situationskontext verweist, wahrend der Referent eines anaphorischen Ausdrucks auf jeden Fall als Antezedens im Text zu nden ist. Anaphorische Ausdrucke treten in verschiedenen syntaktischen Formen auf, vor allem als Pronomina, Nominalphrasen oder Adverbien, und sie stehen in unterschiedlichen Beziehungen zu ihren Antezedenten, etwa durch Identitat oder Teil-Ganzes- Beziehung. Daruberhinaus konnen anphorische Ausdrucke auf verschiedene Arten von Referenten verweisen, z.B. auf Objekte, aber auch auf temporale oder raumliche Entitaten und auf Sachverhalte. Um in die komplexe Problematik der Anaphernresolution einzusteigen, haben wir uns auf Personalund Possessivpronomina beschrankt, die auf Objekte im weitesten Sinne referieren, und wir betrachten nur referentielle Identitat. Die Desambiguierung von Personal- und Possessivpronomina ist direkt ubersetzungsrelevant, denn die U bersetzung eines Pronomens ist abhangig vom zielsprachlichen Genus und Numerus des Antezedens. Daruberhinaus wird die U bersetzung eines Pradikats (z.B. eines Verbs) i.a. beeinut durch Eigenschaften der zugehorigen Argumente (z.B. der Verbobjekte). Wenn Pronomina als Argumente auftreten, mussen sie 17 desambiguiert werden, um die Eigenschaften der Referenten berucksichtigen zu konnen. Tatsachlich ndet man in Texten viele Falle, in denen referentielle Mehrdeutigkeiten mit lexikalischen oder strukturellen Mehrdeutigkeiten verknupft sind und nicht unabhangig voneinander behandelt werden konnen. So mu zum Beispiel ein Pronomen mit den Selektionsrestriktionen bezuglich des Antezedens kompatibel sein. Die Selektionsrestriktionen konnen aber ihrerseits variieren, wenn das Antezedens verschiedene Lesarten haben kann. Auf lange Sicht ist es deshalb notig, auch die Interdependenz von Mehrdeutigkeiten zu berucksichtigen. Um hier einen Einstieg zu ermoglichen, wird aber in KIT-FAST die referentielle Ambiguitat isoliert betrachtet. Die meisten linguistischen Ansatze zur Interpretation von Anaphern { z.B. Chomsky's Bindungsprinzip oder Reinhardts c-command { schlagen eine Behandlung auf der Basis von vornehmlich syntaktischer Information vor. Diese Ansatze konnen jedoch nicht alle Falle anaphorischer Bindung erklaren. Um auch die problematischen Falle in den Gri zu bekommen, wurden die Beschreibungen der Bindungsmechanismen in der letzten Zeit mehr und mehr ausgearbeitet und z.B. angereichert um diskurs-basierte Information wie \point of view [Pollard/Sag 89] oder den Begri der internen Perspektive [Engdahl 90]. Neben den linguistischen Anaphernansatzen gibt es Ansatze aus der Kunstlichen Intelligenz, die auf semantischer Information, Hintergrundwissen [Hobbs 78] und einem Fokus-Konzept [Bosch 88] basieren. 1983 haben Hauenschild und Pause die Lucke zwischen den Ansatzen aus der Linguistik und der KI geschlossen, indem sie ein Modell zur Anapherresolution vorstellten, das auf syntaktischer, semantischer und konzeptueller Information basiert, s.[Hauenschild/Pause 83] und [Pause 86]. In diesem Ansatz werden folgende Faktoren als relevant fur die Anaphernresolution erachtet: morphologische Faktoren (Kongruenz in Person, Numerus und Genus), syntaktische Faktoren (Position und syntaktische Funktion der Ausdrucke eines Satzes), semantische Faktoren (welche Rolle wird von welchem Referenten eingenommen), thematische Faktoren (was ist thematisch im Satz, was im Text), inhaltliche Faktoren (was wurde bereits uber die Referenten ausgesagt), lexikalische Faktoren (Selektionsrestriktionen, Sinnrelationen), enzyklopadische Faktoren (welche A uerungen sind auf Grund des Hintergrundwissens miteinander kompatibel). Diese Faktoren bilden den Ausgangspunkt des KIT-FAST-Ansatzes. Anhand eines Textfragments (s. Abschnitt 3.4) wurde empirisch untersucht, wie die Faktoren genau formuliert werden mussen, welchen Einu sie auf die Wahl des Antezedens haben und wo sie sich widersprechen. Die wichtigsten Faktoren haben wir entsprechend der Reprasentationen in KIT-FAST formalisiert und in ein Desambiguierungsverfahren auf der Basis von Praferenzregeln integriert. Die Faktoren beziehen sich auf strukturelle Eigenschaften der Anaphern und Antezedenten, aber auch auf referentielle Eigenschaften. Das legt eine duale Reprasentation des Textes nahe. Im folgenden wird als erstes die duale Textreprasentation in KIT-FAST beschrieben. Anschlieend werden die ausgewahlten Faktoren im einzelnen 18 erlautert und gezeigt, auf welche Aspekte des Textes sie sich beziehen. Dann wird das Desambiguierungsverfahren vorgestellt und abschlieend die Ergebnisse unseres Ansatzes diskutiert. 3.1 Duale Textreprasentation Bei der Anaphernresolution spielt sowohl strukturelle als auch konzeptuelle Information eine Rolle. Um die Abhangigkeiten zwischen diesen beiden Typen von Information besser untersuchen zu konnen, haben wir sie getrennt reprasentiert. Im KIT-FASTSystem gibt es daher zwei Textreprasentationen: eine stellt die Information in ihrer sequentiellen Struktur dar, die andere reprasentiert die Pradikationen uber den Referenten. Die strukturelle Textreprasentation enthalt Information uber: Funktor-Argument-Relationen (z.B. von Nomen, Verben und Adjektiven), semantische Rollen von Argumenten (agent, aected, attribuand, associated, location, aim) nach [Steiner et al. 88a], die thematische Struktur eines Satzes im Sinne der Prager Schule (siehe z.B. [Firbas 74] und [Sgall et al. 73]), semantische Merkmale, die lokale und temporale Konzeptualisierungen, wie sie in der Kognitiven Grammatik verwendet werden, ausdrucken (nach [ZellinskyWibbelt 88]) und anaphorische Relationen, die durch Koindexierung repasentiert werden. Diese Information wird reprasentiert durch die Funktor-Argument-Stuktur (FAS). Die FAS kann als eine abstrakte Syntax gesehen werden, die um bestimmte semantische Merkmale angereichert ist. Sie dient zur Reprasentation der funktionalen Struktur von Satzen und enthalt keine redundanten Informationen, die zur U berprufung der Wohlgeformtheit in der Oberachensyntax gebraucht werden (z.B. Kongruenzmerkmale innerhalb verbaler oder nominaler Phrasen). Abbildung 12 zeigt eine exemplarische FASStruktur, in der nur die Merkmale reprasentiert sind, die in der Anaphernresolution eine Rolle spielen. Die stukturelle Textreprasentation besteht momentan aus einer Liste von FASStrukturen einzelner Satze, die dadurch zu einer Art Textreprasentation wird, da sowohl satzinterne als auch satzubergreifende koreferentielle Phrasen koindiziert werden. Es ist leicht denkbar, die strukturelle Textreprasentation so auszubauen, da nicht nur die strukturelle Information einzelner Satze in eine groere Informationseinheit zusammengefat wird, sondern daruberhinaus auch die zwischen diesen Einheiten existierenden Relationen reprasentiert werden (wie in [Grosz/Sidner 86] vorgeschlagen). Die referentielle Textreprasentation enthalt bestimmte Aspekte des Textinhalts, und zwar die Diskursreferenten und die zwischen diesen bestehenden konzeptuellen Relationen. Koreferentielle Ausdrucke werden durch einen einzigen Diskursreferenten reprasentiert. Im Falle komplexer Antezedenten wie (1) Ruderer1, die ihre Boote fur langere Zeit nicht benutzen, konnen diese im Bootshaus lassen. Sie1 konnen sie auch verleihen. 19 fas illoc clausefin clause ref:uc_1 fin assertion pres_ind v_pred conf:ag_af them:2 ref:uc_1 voice:passive term role:agent them:3 ref:uc_2 vorschlagen die Kommission term role:affected them:1 ref:uc_3 diese Strategie term role:location them:4 ref:uc_4 nom ref:uc_4 n_pred conf:ag ref:uc_4 term role:agent ref:uc_2 Mitteilung ihre Erklarung einiger FAS-Merkmale: fas ist der Wurzelknoten einer FAS-Struktur, illoc (illocution) gibt an, ob ein Satz deklarativ, imperativ oder interrogativ ist, clausen reprasentiert einen niten Teilsatz, n enthalt Information u ber Tempus und Modus, v pred reprasentiert einen verbalen Funktor (in jedem lokalen Baum ist die am weitesten links stehende Tochter der Funktor), das Merkmal them repr asentiert die thematische Struktur eines Satzes, das Merkmal ref enth alt einen Zeiger auf Objekte in der referentiellen Textreprasentation (siehe Abildung (13)). Abbildung 12: FAS/Strukturelle Reprasentation des Satzes Diese Strategie wird von der Kommission in ihrer Mitteilung vorgeschlagen. 20 vorschlagen Kommission uc_2 Strategie affected agent uc_1 uc_3 location agent uc_4 Mitteilung Abbildung 13: Referentielle Reprasentation fur Diese Strategie wird von der Kommission in ihrer Mitteilung vorgeschlagen. Die Pfeile denotieren Rollen, z.B. ist Kommission Agens von vorschlagen. nimmt die Anapher teil an allen semantischen Relationen, in denen das Antezedens steht. Nicht nur Nomen, sondern auch Verben und Adjektive werden als Diskursreferenten reprasentiert, denn auch auf ein Ereignis (d.h. ein Denotat eines Verbs zusammen mit seinen Argumenten) oder eine Eigenschaft kann anaphorisch Bezug genommen werden: (2) Gestern bin ich spazieren gegangen. Das war schon. (3) Sie hat ein blaues Hemd gekauft. Ich suche auch so eins. Die referentielle Information wird reprasentiert durch Deskriptionen eines Reprasentationssystems der terminologischen Logik (BACK, cf. [Quantz/Kindermann 90]). U blicherweise unterscheiden solche Systeme zwischen Deskriptionen und Denitionen. Denitionen fuhren Konzepte und Rollen ein. In einer Deskription wird ein Objekt beschrieben: entweder ist es die Instanz eines Konzeptes oder es steht durch eine Rolle mit einem anderen Objekt in Beziehung. Die Diskursreferenten werden in Form von Deskriptionen beschrieben. Diese Deskriptionen basieren auf einer partiellen Semantik der Lexeme, die modelliert ist durch eine konzeptuelle Struktur. Bis jetzt enthalten die Konzeptdenitionen nur Information uber der semantischen Typ des Lexems, seine semantischen Rollen und Information daruber, welche semantischen Typen diese Rollen fullen konnen (Selektionsrestiktionen). Die Denitionen enthalten Informationen uber Typen und uber zugelassene Kongurationen (siehe Abschnitt 3.2.7). Abbildung 13 zeigt die Deskriptionen fur den Satz, der in der Abbildung 12 reprasentiert ist. Wie schon oben erwahnt, ermoglicht uns die duale Textreprasentation, zwei Aspekte anaphorischer Ausdrucke zu unterscheiden (ein ahnlicher Vorschlag wird in [LuperFoy/Rich 90, S.2] gemacht): Der erste Aspekt betrit ihre Position in der sprachlichen Stuktur und die Frage, auf welche anderen sprachlichen Ausdrucke sie sich beziehen. Dies wird durch Koindizierung in der strukturellen Textreprasentation ausgedruckt. Der zweite Aspekt betrit die Art der Relation zwischen den Diskursreferenten, die durch den anaphorischen Ausdruck eingefuhrt wird (wie Identity of 21 Sense, Identity of Reference, Teil-Ganzes-Beziehung, siehe z.B. [Quantz 92]). Fur Personal- und Possessivpronomen ist die haugste Relation die referentielle Identitat. Diese wird in der referentiellen Reprasentation dadurch ausgedruckt, da Anapher und Antezedens durch ein und denselben Diskursreferenten dargestellt werden. Aus dem Konzept der doppelten Textreprasentation ergibt sich auch unsere Denition von Anapher und Antezedens. Beide sind komplexe Objekte, die jeweils aus dem Diskursreferenten und ihrer strukturellen Position bestehen. Es reicht nicht aus, Antezedenskandidaten allein aufgrund ihrer strukturellen Position zu denieren, denn so werden nicht adaquate Mehrdeutigkeiten dadurch erzeugt, da verschiedene Vorkommen eines Referenten als unterschiedliche Antezedenskandidaten aufgefat werden. Wenn z.B. in (4) USA und Japan und sie koreferentiell sind, dann sollen sie keine konkurrierenden Antezedenskandidaten fur das Possessivpronomen ihre sein. (4) Die USA und Japan ergreifen neue Initiativen. Sie erhohen ihre Investitionen. Einen weiteren Grund fur die komplexe Denition des Antezedens liefert das Bindungsprinzip (das in Abschnitt 3.2.1 beschrieben wird). Das Bindungsprinzip basiert auf struktureller Information, hat aber Einu auf die referentielle Struktur, denn wenn es einen Kandidaten ausschliet, sind ebenso alle koreferentiellen Kandidaten ausgeschlossen: (5) John sagte, er habe ihn gestern getroen. Wenn John und er koreferentiell sind, dann sind beide Ausdrucke als Antezedenten fur ihn durch das Bindungsprinzip ausgeschlossen. 3.2 Faktoren zur Anaphernresolution 3.2.1 Nahe und Bindung Der relative Abstand zwischen Anapher und Antezedens ist ein Faktor, der die strukturelle Prominenz eines Antezedens bestimmt. Dieser Faktor wird durch das Zusammenspiel des Naheprinzips mit dem Bindungsprinzip abgedeckt. Diese beiden Prinzipien schranken den Suchraum in komplementarer Weise ein. Der Suchraum zerfallt in zwei Bereiche: einen inneren (oder lokalen) Bereich, auf den die Mechanismen des Bindungsprinzips angewandt werden, und einen aueren Bereich, auf den das Naheprinzip zutrit. Das Naheprinzip wird der Tatsache gerecht, da Personalpronomen ihre Antezedenten im ubergeordneten (oder vorhergehenden) Satz suchen, wahrend sich Possessivpronomen eher auf eine Nominalphrase im selben Satz beziehen. In den folgenden Beispielen ist der Abstand zwischen John und dem jeweiligen Pronomen (er vs. seinen) nach unserer Denition jeweils derselbe: (6) John1 sagte, er1 wurde kommen. (7) John1 traf seinen1 Onkel. 22 clause v_pred term term lieben Bill ihn Abbildung 14: Rudimentare FAS fur Satz 8. Das Naheprinzip ist so deniert, da es die Anzahl der ubergeordneten Knoten, die direkt ein verbales oder nominales Pradikat oder eine koordinierte Struktur dominieren (d.h. Knoten mit den Spezikationen op:pred oder op:coord), zahlt, wobei die Bereiche der Stuktur ignoriert werden, die durch das Bindungsprinzip ausgeschlossen werden. Das Bindungsprinzip In syntaktischen Ansatzen wie Government and Binding (GB) [Fanselow/Felix 87] oder Head-Driven Phrase Stucture Grammar (HPSG) [Pollard/Sag 89, S.19] werden unterschiedliche Bindungsprinzipien fur die verschiedenen Anapherntypen (fur reexive und reziproke Pronomen, fur Personal- und Possessivpronomen und fur referentielle Nominalphrasen) postuliert. Wir haben uns nur mit Personal- und Possesivpronomen beschaftigt. Unsere Formulierung des Bindungsprinzips entspricht Condition B in [Pollard/Sag 89]. Condition B besagt, da alle benachbarten Argumente in der Subkategorisierungsliste als Antezedenten ausgeschlossen sind. Die Subkategorisierungsliste in HPSG entspricht der Rollenkonguration in unserer strukturellen Textreprasentation (FAS). In einer ersten Formulierung des Bindungsprinzips auf der Grundlage der Information in der FAS sind als Antezedenten alle benachbarten Argumente in einem lokalen FAS-Baum ausgeschlossen. Dadurch wird z.B. in (8) Bill als Antezedens fur ihn ausgeschlossen. Abbildung (14) zeigt den entsprechenden FAS-Baum.1 (8) * Bill1 liebt ihn1. Unsere Untersuchungen haben gezeigt, da typischerweise jedoch nicht nur die benachbarten Argumente, sondern auch die benachbarten und ubergeordneten Funktoren als Antezedenten ausgeschlossen sind. Deshalb haben wir die erste Formulierung des Bindungsprinzips zu folgender Version erweitert: 1. Alle benachbarten Argumente sind als Antezedenten ausgeschlossen. 2. Alle benachbarten Funktoren und alle Funktoren, die die Anapher kommandieren, sind als Antezedenten ausgeschlossen. Dabei kommandiert X Y gdw. die Mutter von X Y dominiert und X nicht Y dominiert. Dadurch werden in (9) sowohl Onkel als auch Bruder als Antezedenten fur seines ausgeschlossen. Den entsprechenden FAS-Baum zeigt Abbildung (15). (9) a. * Klaus trit den Bruder1 seines1 Onkels. b. * Klaus trit den Bruder seines1 Onkels1. 23 clause v_pred term treffen Klaus term det nom op:pred def n_pred Bruder term nom op:pred det * n_pred term Onkel sein Abbildung 15: FAS fur Satz 9. Adaquaterweise schliet das Prinzip nicht Argumente ubergeordneter Funktoren aus. In Satz 10 werden durch das Bindungsprinzip Manahme, Verbesserung und Wettbewerbsfahigkeit als Antezedenten fur ihr ausgeschlossen, Wirtschaft und Regierung bleiben als mogliche Kandidaten. Den FAS-Baum zeigt Abbildung (16). (10) a. Die Manahmen der Wirtschaft1 zur Verbesserung ihrer1 Wettbewerbsfahigkeit werden von der Regierung unterstutzt. b. Die Manahmen der Wirtschaft zur Verbesserung ihrer1 Wettbewerbsfahigkeit werden von der Regierung1 unterstutzt. Das Bindungsprinzip behandelt koordinierte Strukturen gema der Tatsache, da 1. ganz allgemein Pluralobjekte als Antezedenten in Frage kommen, aber 2. in Fallen, in denen die Anapher in einem der Konjunkte vorkommt, das Pluralobjekt als Antezedens ausgeschlossen ist. In (11) ist die USA und Japan das Antezedens von ihr. Abbildung 17 zeigt die entsprechende FAS. (11) [Die USA und Japan]1 erhohen ihre1 Investitionen. In (12) ist die USA und ihre Verbundeten als Antezedens fur ihre ausgeschlossen, da der Funktor coord die Anapher kommandiert (siehe Abbildung 18). (12) * [Die USA und ihre1 Verbundeten]1 ergreifen neue Manahmen. 1 Nur die hier relevante Information ist { wie in allen weiteren FAS-Strukturen { dargestellt. 24 clause term term v_pred nom det nom op:pred det unterstutzen n_pred def def n_pred term term Regierung Massnahmen det nom det def n_pred nom op:pred def n_pred term Wirtschaft Verbesserung det nom op:pred def n_pred term Wettbewerbs− fahigkeit ihr Abbildung 16: FAS fur Satz 10. clause term op:coord v_pred erhohen coord term term det term det nom det nom def n_pred nom term und def n_pred USA def n_pred Japan Abbildung 17: FAS fur Satz 11. 25 Investition ihr clause term op:coord v_pred ergreifen coord term det nom term term det nom term und def n_pred USA def n_pred . . . ihr Verbundete Abbildung 18: FAS fur Satz 12. 3.2.2 Praferenz fur das semantische Subjekt Unsere Faktoren werden auf Information in der strukturellen Textreprasentation angewandt. Sie haben keinen Zugri auf rein syntaktische Information wie \Subjekt". Deshalb haben wir den Begri semantisches Subjekt fur die FAS { die strukturelle Textreprasentation { deniert. Fur jeden verbalen Funktor (lexemspezisch) ist eine Liste von Argumenten in kanonischer Ordnung deniert. Das erste Element in dieser Liste betrachten wir als das semantische Subjekt. In den meisten Fallen liefert diese Denition die gleichen Ergebnisse wie die traditionellen syntaktischen Denitionen. Die einzige entscheidende Ausnahme ist die Passivkonstruktion, die ja gerade die Grammatikalisierung der prominentesten Rollen in der semantischen Hierarchie verandert. Wenn in einer Passivkonstruktion das Agens nicht lexikalisiert ist, gibt es kein Problem: in diesem Fall ist das Agens in der FAS nicht reprasentiert, dadurch ruckt das, was \normalerweise" an zweiter Stelle in der Ordnung steht { in den meisten Fallen der Fuller der Aected-Rolle { an die erste Stelle und wird per denitionem semantisches Subjekt. Ein echtes Problem scheint in den Fallen vorzuliegen, in denen ein Passivsatz ein explizit genanntes Agens enthalt. Hier ist nach unserer Denition das Agens semantisches Subjekt, obwohl syntaktisch der Fuller der Aected-Rolle Subjekt ist. In einigen Fallen liefert dies jedoch die fur die Anaphernresolution gewunschten Ergebnisse, z.B. in (13) Diese Strategie wird von der Kommission in ihrer Mitteilung vorgeschlagen. Hier ergibt sich gema unserer Denition des semantischen Subjekts eine Praferenz fur von der Kommission als Antezedens fur ihrer (eine gleichhohe Praferenz ergibt sich fur diese Strategie als Thema des Satzes { eine Losung kann nur aufgrund konzeptueller U berlegungen gefunden werden). Es gibt jedoch auch Falle, in denen die hier vorgeschlagene Denition eines semantischen Subjekts kontraintuitive Ergebnisse liefert. Oensichtlich ist es notwendig, eine groere Menge von Beispielen systematisch zu 26 untersuchen, um herauszunden, welche Bedingungen zu korrekten bzw. inkorrekten Ergebnissen unserer Denition fuhren. 3.2.3 Praferenz fur das Satzthema Dieser Faktor bezieht sich auf die thematische Struktur eines Satzes. Wir machen keine dichotomatische Thema-Rhema-Unterscheidung, sondern nehmen eine skalare Ordnung vom thematischsten zum am wenigsten thematischen Element an. Dieses Konzept wird eher der graduierbaren Thematizitat in Sprachen mit freier Wortstellung gerecht (siehe [Sgall et al. 86, S.57]). Bis jetzt haben wir jedoch nicht den ganzen Wertebereich der Thematizitat fur die Anaphernresolution ausgenutzt, sondern nur die erste Stelle in der entsprechenden Ordnung (die in der FAS durch den Wert 1 des them-Merkmals reprasentiert wird). Dies kann nur ein erster Schritt in Richtung auf eine angemessene Beschreibung der Rolle der Thematizitat sein, liefert aber relativ zufriedenstellende Ergebnisse (wie z.B. in (13), siehe Abschnitt (3.2.2)). 3.2.4 Negative Praferenz fur freie Adjunkte Freie Adjunkte sind in der FAS dadurch erkennbar, da sie Fuller der semantischen Rollen location, tempus oder aim sind. Dies ist nur ein erster Versuch, die Beobachtung zu erfassen, da freie Adjunkte schlechte Antezedenskandidaten fur Personalund Possessivpronomen sind. Freie Adjunkte sind praferierte Antezedenskandidaten fur Anaphern ihres ontologischen Typs (lokal, temporal etc.). Das legt die Annahme nahe, da eine Anapher und ihr jeweiliges Antezedens, wenn sie koreferent sind, in ihrem ontologischen Status ubereinstimmen. Hier sind weitere Untersuchungen, die einen groeren Bereich anaphorischer Relationen abdecken, auf jeden Fall notwendig. 3.2.5 Kongruenz Information uber Numerus und Genus sind in der FAS reprasentiert. Es ist oensichtlich angebracht, zwischen grammatischem und semantischem Genus und Numerus zu unterscheiden, denn es gibt systematische Divergenzen. In (14) unterscheiden sich z.B. grammatisches und naturliches Geschlecht, in (15) ist das kollektive Nomen Familie grammatisch Singular und semantisch Plural. (14) Das Madchen spielte im Garten. Sie trug eine blaue Hose. (15) Die Familie von gegenuber war gestern im Zoo. Sie haben sich prachtig amusiert. Bis jetzt haben wir uns mit solchen Fallen noch nicht beschaftigt, es ist allerdings kein Problem, die FAS um die entsprechenden Merkmale zu erweitern, um so beide Typen von Kongruenz zu erfassen. 3.2.6 Rollenidentitat Der Antezedenskandidat, der die gleiche Rolle ausfullt wie die Anapher, wird praferiert. Die Formulierung dieses Faktors beruht auf den semantischen Rollen der FAS. Sowohl Personal- als auch Possessivpronomen sind Argumente nominaler oder verbaler 27 Funktoren und damit Fuller semantischer Rollen. In (16) sind sowohl Europa als auch seine Fuller der Agens-Rolle. (16) Europa erhoht seine Investitionen. In einigen Fallen kann schon eine A hnlichkeit zwischen den Rollen zur Praferenz des Antezedens fuhren: (17) European-based integrated circuit manufacturers supply 30% of their home market. In diesem Beispiel ist manufacturers agent und their associated (diese Rolle beinhalted auch die traditionelle Possessivrolle). Die A hnlichkeit zwischen diesen beiden Rollen konnte durch eine Rollenhierarchie mit einer gemeinsamen Oberrolle fur agent und associated ausgedruckt werden. Diese Punkte mussen Gegenstand weiterer Untersuchungen sein. 3.2.7 Konzeptuelle Konsistenz Obwohl auch inkonsistente Propositionen zu einem mehr oder weniger koharenten Text fuhren konnen, gehen wir von der Arbeitshypothese aus, da die Texte, die wir ubersetzen wollen, konsistent sind, d.h. wir nehmen an, da die Texte keine Widerspruche enthalten. Dies kann bei der Anaphernresolution dadurch ausgenutzt werden, da man uberpruft, ob die Pradikationen uber die Anapher konsistent sind mit den Pradikationen uber den Antezedenskandidaten. Zur U berprufung dieser Konsistenz ist neben der Reprasentation der Semantik von Lexemen und Phrasen eine Reprasentation enzyklopadischer Fakten notwendig. Die Reprasentation mu so gewahlt sein, da sie Inferenzen unterstutzt. Wir haben uns entschieden, mit der Modellierung von Selektionsrestriktionen im Rahmen des Wissensreprasentationssystems BACK zu beginnen (siehe Abschnitt 3.1). In (18) ist das intendierte Antezedens fur das Pronomen ihre ganz klar die USA, zu den moglichen Kandidaten zahlen aber auch Initiativen und Investitionen.2 (18) Die USA ergreifen neue Initiativen, um ihre Investitionen zu erhohen. Das Possessivpronomen ihre ist in der komplexen Nominalphrase Fuller der AgensRolle. Die Semantik von Investitionen gibt an, da die Agens-Rolle von einem potentialagent-object gefullt werden mu. Der Anaphernresolutionsproze mu u berprufen, welche Kandidaten diese Bedingung erfullen. In (18) werden Investitionen und Initiativen ausgeschlossen und USA bleibt als Antezedens. Die hierzu notwendige Information ist im BACK-System reprasentiert. Die U berprufung der konzeptuellen Konsistenz in Beispiel (18) beruht auf folgender Information: 2 Das Bindungsprinzip bewirkt, da Investitionen als sehr schlechter Kandidat betrachtet wird. 28 anything event object ag_af_event ergreifen ag_object temporal_extension_object investitionen potential_agent_object usa Abbildung 19: Ausschnitt aus der Subsumtionshierarchie. Event :< anything Ag Af Event :< Event and exactly(1,Aected) and exactly(1,Agent) and all(Agent,Potential Agent Object) ergreifen :< Ag Af Event Object :< anything Ag Object :< Object and exactly(1,Agent) and all(Agent,Potential Agent Object) investition :< Ag Object and Temporal Extension Object usa :< Potential Agent Object Dabei steht \:<" fur \subsumiert" und wird semantisch als Teilmengen-Relation interpretiert. exactly(1; Agent) schrankt die Anzahl der Fuller der Agens-Rolle auf genau einen ein. all(Agent; Potential Agent Object) druckt aus, da alle Fuller der AgensRolle Potential Agent Objects sein mussen. Ein Teil der Subsumtionshierarchie ist in Abbildung 19 dargestellt. Um die Selektionsrestriktionen zu kodieren, ist sowohl Information uber mogliche Kongurationen als auch Typinformation notwendig. Die meisten nominalen Lexeme enthalten beide Aspekte, Investitionen ist z.B. ein Funktor, der als Argument einen Fuller der Agens-Rolle sucht, gleichzeitig kann Investitionen Argument anderer Funktoren sein, die den Typ Temporal Extension Object zulassen. Beide Aspekte werden in der Subsumtionshierarchie reprasentiert. Es durfte klar sein, da es sich hier nur um einen allerersten Schritt zur Reprasentation von Hintergrundwissen fur die MU handelt. Die Richtung erscheint uns aber als vielversprechend. 3.3 Verfahren zur Anaphernresolution Die Aufgabe des Verfahrens zur Anaphernresolution besteht darin, fur ein im Text auftretendes Personal- oder Possessivpronomen das intendierte Antezedens zu bestimmen. Als mogliche Antezedenten kommen alle Nominalphrasen, darunter auch andere Pronomina und koordinierte Nominalphrasen, in Frage, die im gleichen Satz und im Vortext auftreten. Die Lange des zu berucksichtigenden Vortexts ist als Parameter 29 des Verfahrens gegeben. Nominalphrasen, die nach dem Pronomen im gleichen Satz auftreten, werden ebenfalls berucksichtigt. Dadurch werden neben intra- und intersententiellen anaphorischen Bezugen auch intrasententielle kataphorische Bezuge erfat (wir sprechen i.a. in allen diesen Fallen von \anaphorischen" Bezugen). In dem Verfahren zur Anaphernresolution in KIT-FAST werden die unterschiedlichen Faktoren zur Bestimmung des Antezedens integriert, indem sie alle im Sinne von Praferenzregeln aufgefat werden, d.h. als Faktoren, die einen Antezedenskandidaten als mehr oder weniger geeignet erscheinen lassen. Die Faktoren beziehen sich sowohl auf Eigenschaften, die dem Antezedenskandidaten allein zukommen (etwa: Subjekt des Satzes zu sein), als auch auf Eigenschaften, die der Antezedenskandidat in Bezug auf das fragliche Pronomen hat (z.B. Nahe). Daneben kann es sich um strukturelle Eigenschaften wie die oben genannten handeln, aber auch um Eigenschaften der Referenzobjekte. Deshalb arbeitet das Verfahren auf einer dualen Reprasentation des Texts (s. Abschnitt 3.1). Die Faktoren konnen sich auf positive, aber auch auf negative Eigenschaften eines Antezedenskandidaten beziehen, und sie haben unterschiedlich starkes Gewicht. Dadurch konnen auch sogenannte harte Beschrankungen, etwa Bindung und Kongruenz, als Praferenzregeln integriert werden, namlich als solche mit sehr starkem negativen Gewicht. Die Gewichte der Faktoren sind so gewahlt, da intuitiv konkurrierende Faktoren gleich starken Einu haben. Damit das Verfahren fur experimentelle Zwecke geeignet ist, sind die Gewichte als Parameter formuliert. Um den besten Antezedenskandidaten herauszunden, bewertet das Verfahren alle fur ein Pronomen in Frage kommenden Kandidaten anhand samtlicher Faktoren. Aus Ezienzgrunden kann es aber sinnvoll sein, sehr schlechte Kandidaten nicht weiter zu berucksichtigen. Dazu gibt es zwei Parameter, den Grenzwert und den Abstandswert: Der Grenzwert bildet eine absolute Grenze, unterhalb derer Kandidaten \out" sind und im weiteren Verfahren nicht mehr bewertet werden. Der Abstandswert hat den gleichen Eekt wie der Grenzwert, bildet aber keine absolute, sondern eine relative Grenze, namlich den zulassigen Abstand zum besten Kandidaten. Welche Art der Begrenzung sinnvoller ist, blieb in KIT-FAST oen. Im Zusammenhang mit einer Moglichkeit zur Begrenzung wird auch die Anwendungsreihenfolge der Faktoren relevant. Faktoren mit stark negativem Gewicht sollten aus Ezienzgrunden moglichst fruh angewandt werden. Deshalb wird auch die Anwendungsreihenfolge durch Parameter festgelegt. Das Verfahren bewertet alle fur ein Pronomen in Frage kommenden Antezedenskandidaten anhand samtlicher Faktoren. Der beste Kandidat wird dann als Antezedens gewahlt. Pronomen und Antezedens verweisen auf dasselbe Referenzobjekt in der referentiellen Textreprasentation. Deshalb wird vor allem dieser Verweis vom Antezedens fur das Pronomen ubernommen. Daneben werden einige semantische Eigenschaften ubernommen und die Rollen des Pronomens auf der referentiellen Ebene realisiert. Es kann vorkommen, da es mehr als einen besten Kandidaten gibt oder auch keinen. Im ersten Fall kann es sein, da der Text schlecht gebaut, d.h. der anaphorische Bezug auch fur einen menschlichen Leser ambig ist. Wahrscheinlicher ist es allerdings, da die bisher entwickelten Faktoren nicht ausreichend sind. Das Verfahren mute in diesem Fall interaktiv eine Entscheidung vom Benutzer anfordern. Zur Zeit wird allerdings einfach einer der Kandidaten gewahlt. Der zweite Fall tritt auf, wenn es entweder gar keine Antezedenskandidaten gibt, oder alle Kandidaten durch den Grenzwert ausscheiden. Dann wird das Pronomen als deiktisch interpretiert, d.h. es bildet ein eigenstandiges Objekt in der referentiellen Textstruktur. 30 Das Verfahren ist in Quintus Prolog unter Unix implementiert. Eine ausfuhrli che Dokumentation, die die Ubernahme in andere Systeme ermoglicht, ndet sich in [Dunker/Umbach 93]. 3.4 Ergebnisse Die Kriterien zur Anaphernresolution wurden auf der Basis der deutschen Version des EUROTRA-Korpus \Proposal for a Council Decision Adopting the First Strategic Programme for Research and Development in Information Technology" entwickelt. Die Ergebnisse wurden anhand eines Fragments aus dem Korpus veriziert, das ca. 40 Satze umfat und in dem ca. 50 Pronomina vorkommen. Da das intendierte Antezedens in allen Fallen im gleichen Satz wie das Pronomen oder im vorangegangenen Satz zu nden war, konnte die Lange des Vortexts hier auf einen Satz begrenzt werden. Die erzielten Ergebnisse sind erstaunlich gut: Mit einer gunstigen Einstellung der Parameter, vor allem der Gewichte der Faktoren, wird in dem vorliegenden Text in uber 80 Prozent der Falle das intendierte Antezedens gefunden. In einigen Fallen ist die Losung mehrdeutig, beinhaltet dann aber das intedierte Antezedens. Die Fehler sind in der Regel dadurch bedingt, da sich strukturelle und inhaltliche Hinweise auf das intendierte Antezedens widersprechen. Der Faktor Diskurskonsistenz ist zur Zeit der einzige, der sich auf inhaltliche Aspekte des Antezedenten bezieht, und die zugrundeliegende Wissensreprasentation ist noch zu wenig ausgearbeitet. Zur Verbesserung der Ergebnisse mu besonders an dieser Stelle angesetzt werden. Hier gibt es allerdings die bekannten Schwierigkeiten, vor allem die Frage, welches Wissen im einzelnen reprasentiert werden soll, ohne da es sich um ad-hoc-Losungen handelt. Die Gute der Antezedenskandidaten wird damit im wesentlichen durch Faktoren bestimmt, die sich auf strukturelle Eigenschaften beziehen. Auch die strukturellen Faktoren konnen an vielen Stellen weiter ausgearbeitet werden. Aber wenigstens in einer Textsorte wie der vorliegenden, in der es wenig Widerspruche zwischen strukturellen und inhaltlichen Hinweisen auf das intendierte Antezedens gibt, kann schon mit den gegeben Faktoren verhaltnismaig viel erreicht werden. Es gibt eine prinzipielle Schwachstelle des vorgestellten Verfahrens: Auch ein Pronomen, dessen Antezedens noch nicht bestimmt ist, kann als Antezedenskandidat auftreten. Da sein Referent in der Diskursreprasentation aber noch nicht feststeht, kann der Faktor Diskurskonsistenz eigentlich noch nicht angewendet werden. Das fuhrt in diesem Verfahren dazu, da solche Antezedenten via Diskurskonsistenz sehr schlecht bewertet werden, obwohl die Grundlage fur jegliche Bewertung hinsichtlich Diskurskonsistenz fehlt. Eine adaquate Losung dieses Problems erfordert ein Verfahren, das Ambiguitaten wie die Interpretation von Pronomina nicht nur lokal behandelt, sondern auch die Interdependenz der auftretenden Ambiguitaten berucksichtigt. Fur die Behandlung von Pronomina heit das: die Gute eines Antezedenskandidaten fur ein Pronomen wird hinsichtlich aller moglichen Losungen fur die anderen Pronomina (im gleichen Satz) bestimmt. Die Wahl des Antezedens mu dann so erfolgen, da eine optimale Gesamtlosung erreicht wird. Es ist geplant, das hier fur referentielle Ambiguitaten entwickelte Verfahren auf andere Arten von Ambiguitat, etwa lexikalische oder strukturelle, zu ubertragen. Gerade dann ist es aber unbedingt notig, das Verfahren im Hinblick auf die Interdependenz von Ambiguitaten zu erweitern. 31 4 Das Lexikon - Ein Konsistenzproblem Mathematische und algorithmische Eigenschaften machen Terminologische Logiken zu anwendungsorientierten Wissensreprasentationsformalismen, die sich nicht nur dazu eignen, Wissen uber einen Ausschnitt der Welt zu reprasentieren, sondern auch zur Reprasentation abstrakter Strukturen, wie z.B. Kategorien linguistischer Grammatiken. Da das MU -System des KIT-FAST Projekts ein experimentelles System ist, unterliegen die Grammatikfragmente einem standigen Wechsel; neue Merkmale werden eingefuhrt, Kategorien umbenannt und auch das Lexikon bedarf standiger Pege, um Fehler zu vermeiden. Zu den haugsten Fehlern gehoren: Unterspezikationen von GPSG- oder FAS-Kategorien, i.e. der Wert eines Merk- mals bezuglich einer Kategorie ist variabel, wo er gebunden sein mute. Dies kann zu unerwunschten Mehrfachanalysen fuhren. Fehlspezikationen von GPSG- oder FAS-Kategorien, i.e. der Wert eines Merkmals ist falsch angegeben. Dies kann zu falschen oder fehlenden Analysen fuhren. Ein Teil dieser Fehler lat sich vermeiden, wenn man Abhangigkeiten in und zwischen Lexikoneintragen berucksichtigt. Diese Abhangigkeiten konnen dann fur eine automatische Konsistenzuberprufung genutzt werden. Konsistenz bedeutet in diesem Zusammenhang, da eine Menge von Implikationen uber Merkmalsspezikationen und Strukturen des Lexikons aufgelistet wird und die Erfullung dieser Menge von Implikationen als notwendiges Konsistenzkriterium fur das Lexikon interpretiert wird. Die Modellierung wird mit dem BACK-System Version 4.4 (vgl. [Quantz/Kindermann 90]) realisiert. Die Modellierung kann hier nur in groben Zugen beschrieben werden, zu Details und weiteren Ergebnissen siehe auch [Werner-Meier 93]. Die Verwendung einer Terminologischen Logik bei dieser Aufgabe verspricht die folgenden Vorteile: Terminologische Logiken sind u.a. dafur entwickelt worden, um konsistentes Wis- sen zu reprasentieren, eine Modellierung mit Terminologischen Logiken erfordert eine angemessene Formulierung von Konsistenzbedingungen. Solche Konsistenzbedingungen konnen im Hinblick auf die Informationsverteilung im MU -System von generellem Interesse sein. 4.1 Das Lexikon im MU -System Das Lexikon ist ein Knotenpunkt wechselseitiger Abhangigkeiten im MU -System, da hier Informationen aus Syntax, Semantik und Weltwissen zusammenieen und direkt aufeinander bezogen werden, denn im Lexikon des MU -Systems werden die Lexikoneintrage zu den verschiedenen Reprasentationssprachen zusammengefat. Die Benutzerschnittstelle des Lexikons ist als Hypercardstack implementiert, der schnelles Re-editieren der betreenden Lexikoneintrage ermoglicht. Aus dem Stack wird eine Textdatei abgelegt, die einer Komponente zur Konsistenzuberprufung als Input dient. Z.Z. wird dieser Konsistenzcheck durch ein Programmodul durchgefuhrt, in dem Konsistenz bezuglich der Kategoriendenitionen uberpruft wird. Dann werden zwei Prologquelldateien mit der relevanten Information fur das GPSG- und das FASSystemlexikon erzeugt. 32 Dieses Programmodul soll durch Modellierung des Lexikons im BACK-System ersetzt und durch die Hinzunahme weiterer Abhangigkeiten erweitert werden. In der aktuellen Auspragung des Berliner MU -Modells wird das Lexikon als eine Relation L aufgefat mit: L SY N SEM REF mit SY N := (GPSG Kategorie GPSG Terminal) [ nil, mit SEM := (FAS Kategorie FAS Terminal) [ nil und mit REF := die Menge der Konzepte in der Tbox [ nil Diese Relation ist nicht weiter eingeschrankt, Lexikoneintrage lassen sich jedoch inhaltlich naher einschranken, z.B: Einige Partikel, z.B. Praxe von Verben, sind nur in der GPSG-Komponente reprasentiert3. Spezielle Nomen haben einen GPSG-Eintrag, einen FAS-Eintrag und einen TboxEintrag. Transitive passivierbare Verben (wie ,,generieren") fallen in verschiedene Subkategorisierungsrahmen, teilen sich jedoch einen FAS-Eintrag und einen TboxEintrag. Das Lexikon benotigt drei Arten von Konsistenzuberprufung entsprechend der Lokalisierung der Abhangigkeiten: Eine U berprufung strikt lokaler Abhangigkeiten innerhalb einer Reprasentationsebene. Diese Art der Konsistenz bezieht sich beispielsweise auf Wohlgeformtheitsbedingungen uber Kategorien, so wie sie in der GPSG durch die FCRs (Feature Cooccurence Restrictions) formuliert werden. Eine U berprufung lokaler Abhangigkeiten zwischen mehreren Reprasentationsebenen innerhalb eines Lexikoneintrags. Hierzu gehort beispielsweise ein Konsistenzcheck, welcher u.a. die syntaktische Spezikation mit der semantischen vergleicht: involviert der GPSG-Eintrag eines Lexikoneintrags eine GPSG-Kategorie des Typs v, so sind alle FAS-Kategorien der FAS-Eintrage dieses Lexikoneintrags vom Typ v pred. Eine U berprufung globaler Abhangigkeiten zwischen verschiedenen Lexikoneintragen. So mu fur jeden Lexikoneintrag fur ein Verb mit abtrennbarem Prax auch ein Lexikoneintrag fur eben dieses Prax da sein. 4.2 Modellierung des Lexikons Die Objekte,die auf Konsistenz uberpruft werden sollen, sind einzelne Lexikoneintrage bzw. ganze Lexika. In Terminologischen Logiken bedeutet Konsistenz eines Objekts, da es einen Typ hat. Der Typ eines Lexikons oder eines Lexikoneintrags mu daher in der Tbox vereinbart werden. Der Konsistenzcheck verlauft daher in drei Schritten: 3 Wenn ein Eintrag nicht auf allen Ebene realisiert ist, werden die Komponenten der nicht repr asentierten Ebenen auf nil gesetzt. 33 syn lexicon lexical_ entry gpsg_ terminal string gpsg_ cat gpsg_ attribute fas_ terminal string fas_ cat fas_ attribute sem ref concept Abbildung 20: Der Typ eines Lexikons im Modell; die schraerten Bereiche markieren die verschiedenen Typen von Abhangigkeiten: strikt lokale Abhangigkeiten beschranken sich auf den weien Bereich, lokale auf den hellgrauen und globale involvieren den Typ eines Lexikons selbst. 34 Aufbau einer Terminologie durch Modellierung von Kategorien, Lexikoneintragen etc. in der Tbox; Aufbau der Abox durch Kodieren des externen Lexikons. Dies ist der eigentliche Konsistenzcheck, denn hier werden falsche Lexikoneintrage zuruckgewiesen, weil sie als Abox-Objekt keinen Typ haben. Generierung der Systemlexika4 aus der Abox. Im Normalfall enthalt ein Lexikon mehrere Lexikoneintrage und jeder Lexikoneintrag kann mehrere Objekte des Typs syn, sem oder ref enthalten. Das Lexikon selber wird deniert als ein Bundel von Lexikoneintragen und Lexikoneintrage als Bundel von Eintragen der verschiedenen Reprasentationsebenen entsprechend der Denition des Lexikons (s. Seite 33). Ein Eintrag fur eine Reprasentationsebene wird modelliert, indem festgelegt wird, da genau ein Terminal und eine Kategorie der entsprechenden Grammatik zusammengehoren. Die Relationen lexical slot, syn slot, sem slot und ref slot sind keine Merkmale, da sie nicht rechtseindeutig sind, sondern sie bilden ein relationales Schema (s. Abbildung 20). Modellierung der GPSG-Kategorien In der gewahlten Modellierung sind Aliases denierte Konzepte5. Fur jede wohldenierte GPSG-Kategorie gibt es in unserem GPSG-Fragment ein Alias, da das maximal unterspezizierte Alias X postuliert wird, welches jede Kategorie umfat. GPSGKategorien werden daher als Unterkonzepte von diesem Alias modelliert. Die GPSGMerkmale werden bei der Denition der maximal unterspezizierten Kategorie (AliasX) eingefuhrt, denn fur diese Kategorie sind alle Merkmale spezizierbar. Die Eigenschaft einer Kategorie, fur ein Merkmal fi spezizierbar zu sein, wird dadurch ausgedruckt, da sie hochstens einen Rollenfuller fur die entsprechende Rolle fi hat. atmost(1,f1) and ... atmost(1,fn) fur alle GPSG-Merkmale fi. Dann werden die Merkmale als Rollen eingefuhrt. Alle atomarwertigen GPSGMerkmale fia werden als Rollen zwischen Konzepten und ASETs (i.e. Attributmengen) deniert. alias x := fia :< domain(alias x) and range(possible value(fia). possible value(fia) ist die dem Wertebereich entsprechende Attributmenge. Die kategorienwertigen Merkmale fik werden als Rollen zwischen zwei Konzepten eingefuhrt. 4 Das MU -System braucht zwei Systemlexika: eines fur die Syntaxanalyse und den Ubergang in die semantische Reprasentation und eines fur die konzeptuelle Analyse. 5 Zur Denition der GPSG-Kategorien und ihrer Realisierung in einer konstruktiven Version siehe [Gazdar et al. 85] und [Busemann/Hauenschild 88a] und [Weisweber 88a]. 35 fik :< domain(alias x) and range(alias x). Alle Aliases auer dem bereits denierten Alias-X werden als Einschrankungen auf das Alias-X deniert. alias := alias x and atleast(1,g1) and all(g1,g1 value) and ... atleast(1,gn ) and all(gn,gn value) and fur alle gebundenen Merkmale gi ; atmost(0,u1) and ... atmost(0,un) and fur alle Merkmale ui, die fur diese Kategorie nicht deniert sind. Bei dieser Denition wird ein Alias- als Unterkonzept von Alias-X modelliert; atleast(1,g) and all(g,g value) legt die Spezikation fur ein Merkmal fest, atmost(0,u) legt fest, da das Merkmal u fur die Kategorie nicht deniert ist. Modellierung der FAS-Kategorien Auch FAS-Kategorien werden als Merkmalsstrukturen modelliert. FAS-Merkmale werden wie atomarwertige GPSG-Merkmale eingefuhrt6. FAS-Kategorien lassen sich jedoch nicht auf dieselbe Art modellieren wie die GPSG-Kategorien. Denn zwei GPSGAliases, welche fur die Menge der zur Verfugung stehenden Merkmale gleich partitioniert sind, aber verschiedene Namen haben, benennen dennoch die gleiche Kategorie. Zwei FAS-Kategorien aber, auch wenn sie fur die gleichen Merkmale deniert sind, benennen unterschiedliche Kategorien. Damit der Typ eines Lexikons uberhaupt wohldeniert werden kann, braucht man auch einen Oberbegri fur alle FAS-Kategorien. Dieser Oberbegri soll durch ein Konzept fas main gegeben werden, welches selber keine FAS-Kategorie ist und trotzdem genau alle beinhalten soll. Dazu werden die Namen der Hauptkategorie als Merkmalswert eines neuen Merkmals fas main feat in die Kategorie mitaufgenommen. Dieses Merkmal ist dann analog zu demjenigen Merkmal in der GPSG, welches die Hauptkategorie in der Syntax angibt, maj. Auerdem mu gesichert sein, da dieses Merkmal immer einen Wert hat, also: fas main := atleast(1,fas main feat) and atmost(1,fas main feat) and atmost(1,f1) and ... atmost(1,fn) and fur alle FAS-Merkmale fi . 6 Zur Denition der FAS-Kategorien und zu formalen Grundlagen der FAS-Grammatik vgl. [Mahr/Umbach 90]. 36 Nun lassen sich alle anderen FAS-Kategorien als Unterkonzepte zu diesem so konstruierten Oberbegri einfuhren und die Vereinigung aller FAS-Kategorien ist mengengleich mit ihrem Oberbegri. Eine FAS-Kategorie (beispielsweise n pred) wird dann durch die folgende Implikation deklariert, wobei n pred value diejenige Singletonattributmenge ist, die dem Typnamen der FAS-Kategorie entspricht: ! fas main cat and atleast(1,fas main feat) and all(fas main feat,n pred value) atleast(1,f1) and ... atleast(1,fn) and fur alle Merkmale fi, die fur n pred deniert sind atmost(0,g1) and ... atmost(0,gm) and fur alle Merkmale gi, die fur n pred nicht deniert sind U ber diesen Umweg lat sich nun eine FAS-Kategorie ahnlich wie eine GPSGKategorie denieren, wobei die Merkmale jedoch bereits durch die Implikation oben festgelegt worden sind: fas main n pred := fas main and all(fas main feat,n pred value) Modellierung der Abhangigkeiten In der gewahlten Modellierung lassen sich nun die meisten der Abhangigkeiten als Implication Links schreiben. Die FCRs des GPSG-Fragments sind Beispiele fur strikt lokale Abhangigkeiten. Eine FCR maj:v,bar:0,ac:+ ! vf:n wird wie folgt modelliert: ! gpsg alias x and lls(gf maj,aset([v])) and lls(gf bar,aset([0])) and lls(gf ac,aset([+])) and gpsg alias x and lls(gf vf,aset([n])) Auch lokale Abhangigkeiten - also solche, die sich uber mehrere Ebenen erstrecken - wie die folgende Abhangigkeit zwischen FAS- und GPSG-Kategorien lassen sich formulieren: wenn in einem Lexikoneintrag der FAS-Eintrag mit der Kategorie v pred assoziiert ist, so ist es der GPSG-Eintrag mit der Kategorie v. 37 ! lexical entry and lls(sem slot,sem and lls(fas cat,fas main v pred)) lls(syn slot,syn and lls(gpsg cat,gpsg alias v)). Auch Deniertheit von Merkmalen bezuglich einer Kategorie lat sich ausdrucken: wenn ein Lexikoneintrag einen Tboxeintrag sowie einen GPSG-Eintrag hat, so mu es auch einen FAS-Eintrag geben. ! lexical entry and atleast(1,syn slot) and atleast(1,ref slot) atleast(1,sem slot) Nicht ausdrucken lassen sich Constraints der Form: ,,wenn es im Lexikon einen Lexikoneintrag gibt, dessen GPSG-Kategorie ein Verb ist, dessen Merkmal f mit X belegt ist, dann gibt es in diesem Lexikon auch einen Lexikoneintrag, dessen GPSGKategorie ein Prax ist, dessen Merkmal f mit demselben X belegt ist". Dies liegt an der strikten Trennung von Tbox und Abox und der Tatsache, da in der Tboxsprache keine Variablen auftauchen durfen7. 4.3 Ergebnisse Konsistenz in groen Systemen, die aus mehreren Formalismen oder Programmiersprachen und Datenbasen bestehen, ist ein Problem, das wie das der Wiederverwendbarkeit von formalisierten Resourcen in nachster Zukunft einen festen Platz in der Informatik haben sollte. Es wurde am Beispiel von GPSG und FAS gezeigt, da sich Kategorien und Strukturen aus linguistischen Formalismen in Terminologischen Logiken modellieren lassen. Es wurde auerdem gezeigt, da eine Modellierung von Konsistenzbedingungen entweder in einer umfassenden Typologie bestehen kann - dann kann die Theorie notwendige und hinreichende Konsistenzkriterien liefern - oder als moglicherweise nicht vollstandige Liste von Konsistenzbedingungen. Auch auf diese Art lassen sich viele Konsistenzbedingungen modellieren und automatisch evaluieren. Welche Typen von Konsistenzbedingungen sich modellieren lassen, hangt i.w. von den zur Verfugung gestellten Sprachkonstrukten des gewahlten Wissensreprasentationssystems ab. Als problematisch erweist sich beispielsweise die zu strikte Trennung von Objekten und Typhierarchie im verwendeten BACK-System, welche die Moglichkeiten bei der Modellierung der Abhangigkeiten zu stark einschrankt. Eine Weiterfuhrung des Experiments bietet sich in den folgenden Richtungen an: Das Erstellen einer Typologie von Lexikoneintragen und deren Modellierung. 7 Zu weiteren Entwicklungen des BACK-Systems, welche die in Frage kommenden Constraints modellierbar machen, vergl. [Quantz 92]. Hier wird die strikte Trennung von Tbox und Abox aufgegeben, Konzepte konnen auch dadurch deniert werden, da sie in einer bestimmten Relation zu einem Objekt stehen. 38 Das Erstellen einer umfangreichen Sammlung von Abhangigkeiten bezuglich an- derer Komponenten eines Systems, wie beispielsweise die U berprufung von Syntaxregeln auf Konsistenz mit den Kategoriendenitionen und/oder dem Lexikon. 39 5 Formale Fundierung des MU -Systems Das Modell zur Maschinellen U bersetzung des Projekts KIT-FAST beinhaltet mehrere Reprasentations- und Transferebenen, die verschiedene Aspekte von U bersetzungsaquivalenz, die in der U bersetzungstheorie betrachtet werden, modellieren. In dem in KITFAST implementierten U bersetzungssystem sind im wesentlichen drei Reprasentationsebenen realisiert. Sie beruhen auf unterschiedlichen Arten von Wissen, einerseits sprachbezogenem Wissen (die oberachensyntaktische Reprasentation und die strukturelle Textreprasentation) und andererseits domainbezogenem Wissen (die Reprasentation des Textinhalts)8. Die Reprasentationsebenen sind durch ein gemeinsames Lexikon und durch U berfuhrungsregeln miteinander verbunden. Um die Beziehungen zwischen den Reprasentationsebenen auf eine gesicherte Basis zu stellen und um ebenenubergreifende Generalisierungen zu ermoglichen, wurden die beteiligten Reprasentationen im Hinblick auf eine modelltheoretische Integration untersucht, mit dem Ziel, dem MU -System als Gesamtheit eine modelltheoretische Fundierung zu geben. Integration von sprach- und domainbezogenem Wissen Wie in Kapitel 3 erwahnt, sind die oberachensyntaktische Reprasentation und die strukturelle Textreprasentation des KIT-FAST MU -Systems durch Unikationsgrammatiken (GPSG und FAS) deniert. Die Textinhaltsreprasentation beruht auf einem Wissensreprasentationsformalismus aus dem Bereich der Terminologischen Logiken. Sowohl Unikationsgrammatiken wie auch Terminologische Logiken haben eine modelltheoretische Interpretation. Zudem sind Unikationsgrammatiken und Terminologische Logiken sich als Formalismen sehr ahnlich: man kann Unikationsgrammatiken auch unter Terminologische Logiken subsumieren (s. z.B. [Baader et al. 91]). Damit haben beide Formalismen sogar dieselbe Interpretationsvorschrift. Fur eine modelltheoretische Integration mehrerer Reprasentationsebenen reicht es aber nicht, da die Formalismen der verschiedenen Ebenen jeder fur sich dieselbe Interpretationsvorschrift haben. Denn eine Integration erfordert die gleichzeitige Interpretation aller Aussagen der verschiedenen Ebenen in einem Modell. Um das Problen zu verdeutlichen, wird hier von nur zwei Reprasentationsebenen ausgegangen, einer sprachbezogenen und einer domainbezogenen Ebene (etwa der strukturellen Textreprasentation und der Textinhaltsreprasentation). Weiter wird das Wissen beider Ebenen, d.h. die Grammatik der strukturellen Textreprasentation und das denitorische Wissen der Textinhaltsreprasentation, gleichermaen als Mengen von Beschreibungen der Form "a ist b" aufgefat. Fur Terminologische Logiken ist diese Sicht ublich und Unikationsgrammatiken werden hier als Spezialfall Terminologischer Logiken betrachtet. Beschreibungen der Form "a ist b" sollen hier sowohl Subsumtionsbeziehungen als auch Element-Menge-Beziehungen erfassen (was naher erlautert wird in Absatz: Lesartentrennung durch Spezialisierung). Das sprachbezogene Wissen besteht dann aus Aussagen uber sprachliche Entitaten (Lexeme oder Phrasen) und uber grammatische Kategorien, z.B. "Maus ist ein Nomen" und "ein Nomen ist eine lexikalische Kategorie". Die Aussagen des domainbezogenen Wissens beziehen sich auf auersprachliche Entitaten, namlich auf die Bedeutungen Die Grenzziehung zwischen sprachbezogenem und domainbezogenem Wissen ist sicher problematisch. Das domainbezogene Wissen beinhaltet hier eine domainbezogene Begrishierarchie und entsprechende Selektionsbeschrankungen 8 40 sprachlicher Ausdrucke, z.B. "Eine Maus ist ein Nagetier". Fur die Integration von sprachbezogenem und weltbezogenem Wissen ist es erforderlich, mit beiden Arten von Entitaten, den sprachlichen Ausdrucken und den Reprasentationen ihrer Bedeutungen, gleichzeitig umzugehen. Um Bedeutungen zu reprasentieren, wird fur die deskriptiven Ausdrucke ublicherweise eine "Sprache der Bedeutungen" benutzt, entweder eine Fremdsprache oder eine Kunstsprache. Beide Wege haben aber ziemliche Schonheitsfehler: Die Verwendung einer Fremdsprache fuhrt in die meistens unterschatzte Problematik der U bersetzungsaquivalenz, denn selbst bei nahe verwandten Sprachen sind die Wortfelder fast nie deckungsgleich. Bei Verwendung einer Kunstsprache ist man darauf angewiesen, da Benutzer oder Kollegen, die am gleichen System arbeiten, die Kunstausdrucke genau so interpretieren, wie sie intendiert sind. Um sicher zu gehen, muten die Bedeutung der Kunstausdrucke wiederum mit Hilfe naturlicher Sprache extern festgelegt werden. Die Schwierigkeiten mit einer "Sprache der Bedeutungen" resultieren ubrigens nicht aus der Mehrebenenarchitektur. Sie zeigen sich hier nur deutlicher als in Architekturen, die nur eine Reprasentationsebene vorsehen, wie etwa HPSG. Den Mehrebenenarchitekturen liegt, grob gesagt, der in der Logik gebrauchliche Zeichenbegri von Morris zugrunde, der nur das syntaktische Konstrukt als Zeichen betrachtet und eine Interpretationsbeziehung zwischen dem Zeichen und seiner Bedeutung annimmt. Die Basis von HPSG ist dagegen der Zeichenbegri Saussures, wo das Zeichen zwei Aspekte hat, einen syntaktischen und einen semantischen. Dieser Zeichenbegri spiegelt sich in HPSG dadurch, da das Zeichen als eine komplexe Einheit reprasentiert wird. Fur die atomaren Bausteine der Reprasentation ist aber ebenfalls eine Unterscheidung von naturlichsprachlichen Ausdrucken und Ausdrucken einer "Sprache der Bedeutungen" erforderlich. Form-Inhalts-Ambiguitat Nun ist Bedeutungsreprasentation aber auch eine schwierige Aufgabe. Wenn man Morris' Zeichenbegri betrachtet, dann ist es genau das Charakteristikum des Zeichens, da es eine Bedeutung darstellt. Anders gesagt, das Zeichen hat gerade die Funktion, Bedeutung zu reprasentieren. Im Sinne des Saussure'schen Zeichenbegris beinhaltet das Zeichen einen bezeichnenden und einen bezeichneten Aspekt. In jedem Fall ist es der syntaktische Ausdruck selber, der seine Bedeutung reprasentiert, und jede von dem Ausdruck getrennte Reprasentation ist ein anderes Zeichen und bedeutet, mindestens im strengen Sinn, etwas anderes. Naturlich kann man sich eine vom Ausdruck getrennte Reprasentation in einer kunstlichen "Sprache der Bedeutungen" vorstellen. Die Beziehung zwischen dem Ausdruck und seinem Pendant in der "Sprache der Bedeutungen" ist dann aber eine U bersetzungsbeziehung und basiert wie jede U bersetzungsbeziehung auf Konventionen daruber, was als bedeutungsgleich anerkannt wird. Die Bedeutung der Kunstausdrucke mute, wie oben erwahnt, explizit festgelegt werden, und zwar mit Hilfe der oentlichen, d.h. der naturlichen Sprache. In einem System zur Verarbeitung naturlicher Sprache werden "Bedeutungsreprasentationen" vor allem deshalb herangezogen, um unterschiedliche Verwendungsweisen eines Ausdrucks zu unterscheiden: Geht es um formbezogene Aspekte oder um inhaltsbezogene Aspekte? Denn in naturlicher Sprache kann ein Ausdruck wie \Maus" auf beide Weisen verwendet werden. Er kann auf Entitaten der Welt referieren, wie in "eine Maus ist ein Nagetier", kann aber auch autonym verwendet werden, d.h. auf 41 sich selbst referieren, z.B. "Maus ist ein Nomen". Welche Art des Gebrauchs vorliegt, mu aus dem Kontext erschlossen werden. Insofern kann man einen Ausdruck als prinzipiell ambig betrachten: selbstbezogener bzw. weltbezogener Gebrauch stellen zwei verschiedene Lesarten dar, genauso wie man bei klassischen lexikalischen Ambiguitaten mehrere weltbezogene Gebrauchsweisen ein und desselben Ausdrucks vorndet. Hier wird eine Modellierung9 vorgeschlagen, die mindestens im Bereich der deskriptiven Ausdrucke auf Hilfskonstruktionen zur Bedeutungsreprasentation verzichtet und sich stattdessen an der Funktionsweise naturlicher Sprache orientiert. Es wird davon ausgegangen, da die sprachlichen Ausdrucke die Entitaten der Modelle bilden. Die Ausdrucke werden als prinzipiell ambig betrachtet: sie haben (mindestens) eine formbezogene und eine inhaltsbezogene Lesart. Diese Modellierung erfordert allerdings eine Art und Weise der Lesartentrennung, die tatsachlich erfat, da es sich um ein und denselben Ausdruck mit je nach Gebrauchsweise verschiedenen Eigenschaften handelt. Das betrit nicht nur die Ambiguitat zwischen formbezogener und inhaltsbezogener Lesart, sondern auch die zwischen mehreren inhaltsbezogenen Lesarten (dazu siehe Absatz: Lesartentrennung durch Spezialisierung). Das domainbezogene Wissen besteht ublicherweise aus Begrishierarchien, d.h. derselbe Begri kann als Gegenstand und auch als Kategorie in einer Beschreibung auftreten, wie z.B. "Maus" in "die Maus ist ein Nagetier" und in "eine Wustenmaus ist eine Maus". Deshalb mussen, wenn die Gegenstande von Beschreibungen als Ausdrucke in unterschiedlichen Gebrauchsweisen betrachtet werden, auch die Kategorien in Beschreibungen als solche Ausdrucke betrachtet werden. Das betrit nicht nur die Kategorien des domainbezogenen Wissens, sondern auch die des sprachbezogenen Wissens, d.h. die grammatischen Kategorien. Der Verzicht auf Bedeutungsreprasentationen und die damit verbundenen U berlegungen zur Form-Inhalts-Ambiguitat der Ausdrucke fuhren zu Fragen, die die Funktionalitat von Beschreibungen der Form "a ist b" in naturlicher Sprache betreen: In welcher Gebrauchsweise kann ein Ausdruck in welcher Funktion in einer Beschreibung auftreten? Kann die Ambiguitat der Kopula systematisch erklart werden? Konnen Beschreibungen selber als Beschriebenes oder Beschreibendes auftreten? Naturliche Sprache mu nicht zwischen beschriebener und beschreibender Sprache trennen; kann man diese Fahigkeit naturlicher Sprache modellieren? Angesichts dieser Fragen kann man den hier verfolgten Modellierungsansatz unter zwei Aspekten sehen: Unter dem eher technischen Aspekt der integrierenden Modellierung unterschiedlicher Arten von Wissen, aber auch unter einem eher sprachwissenschaftlichen Aspekt, der sich auf den Aufbau und die Funktionalitat naturlichsprachlicher Beschreibungen bezieht. Diese beiden Aspekte spiegeln die Dualitat von "Text als Wissen" und "Wissen als Text". Wenn man "Text als Wissen" betrachtet, kann man das in einem NLP-System vorgegebene statische Wissen erganzen durch aus dem verarbeiteten Text gewonnenes dynamisches Wissen. Die Betrachtung von "Wissen als Text" ermoglicht es, Metawissen zu formulieren. Beides gehort zu den Desiderata zukunftiger NLP-Entwicklungen. Modellierungsansatze in -Strukturen Aus solchen U berlegungen resultieren umfassende Anforderungen an eine Modellierung der Funktionalitat von NLP-Systemen: 9 \Modellierung" wird hier im Sinne einer modelltheoretischen Fundierung verstanden. 42 Da die naturlichsprachlichen Ausdrucke die grundlegenden Entitaten sein sollen, ist die Modellierung intensional, d.h. auch extensionsgleiche Ausdrucke werden nicht identiziert. Es soll keine universelle Trennung zwischen beschreibender und beschriebener Sprache stattnden. Jeder Ausdruck kann in einer Beschreibung als beschreibend oder als beschrieben auftreten. Dadurch sind Mehrfachkategorisierungen (Polymorphie) und Zirkularitat moglich. Eine adaquate Behandlung von Ambiguitat verlangt die Moglichkeit, Lesarten zu trennen, vor allem, um korrekte Vererbung von Eigenschaften zu sichern. Dabei soll der Ausdruck nicht vervielfacht werden, sondern er soll in einer spezischen Lesart in einer Beschreibung auftreten. Dieses Konzept von Ambiguitat wird als Spezialisierung bezeichnet. Die Fahigkeit naturlicher Sprache zur Selbstreferenz macht es moglich, beschreibende und beschriebene Sprache zu identizieren. In Analogie dazu soll sprachbezogenes Wissen gleichberechtigt neben weltbezogenem Wissen modelliert werden, und die Sprache nicht durch ein externes Konzept wie etwa eine Signatur vorgegeben, sondern intern entwickelt werden. Die Selbstreferenz fuhrt zu generellen Fragen der Internalisierung von Metakonzepten. Das betrit vor allem das Konzept des Tragers bzw. universellen Typs und das Konzept der Wahrheitspradikate, denen die Modellierung sich stellen mu. Klassische Modelle konnen diese Anforderungen nicht erfullen. In der Arbeitsgruppe fur Funktionales und Logisches Programmieren im Fachbereich Informatik der TU Berlin, der das Projekt KIT-FAST zugeordnet ist, wurden die Konzepte der -Struktur und -Logik und darauf aufbauend ein typtheoretisch orientierter Kalkul, der Calculus of Declarations, entwickelt (s. [Mahr 93]). Auf dieser Basis wurden verschiedene Ansatze zur Modellierung entwickelt, die zeigen, wie man einzelnen der oben genannten Anforderungen gerecht werden kann. Sie zeigen auch den Weg fur eine Modellierung, die diese Anforderungen insgesamt erfullt. Im folgenden werden die in der Projektlaufzeit von KIT-FAST entwickelten Modellierungsansatze skizzenartig gezeigt. Eine -Struktur M besteht aus einer (nicht-leeren) Tragermenge und einer binaren Relation: M = (M, ). Es gibt keine Beschrankungen der -Relation: im Unterschied zur Elementrelation der axiomatischen Mengenlehre ist die -Relation a priori frei. Insbesondere ist die -Relation "nicht-fundiert", d.h. auch zirkulare -Beziehungen sind zulassig. Da die Denition der -Struktur die klassische Mengenlehre zugrundelegt, ist dies unproblematisch. Die Extension eines Objekts ist deniert als die Menge aller Objekte, die zu ihm in -Relation stehen. Extensionsgleiche Objekte werden aber nicht identiziert. Insofern sind -Strukturen intensional. -Strukturen setzen ein Minimum mathematischer Konzepte voraus. Analog zur klassischen Mengenlehre konnen komplexe Konzepte wie Teilmenge, Kreuzprodukt, Funktion usw. auf dieser Basis deniert werden und die -Relation kann durch Axiome eingeschrankt werden. Diese Flexibilitat und "Unvoreingenommenheit" macht -Strukturen zu einem geeigneten Werkzeug der Modellierung. Um uber -Strukturen zu sprechen, genugt eine Pradikatenlogik mit nur zwei Pradikaten, dem -Pradikat und 43 der Gleichheit, die entsprechend in -Strukturen interpretiert werden. Die ublichen Begrie der Pradikatenlogik konnen dann ubertragen werden. Auf der Basis von -Strukturen und -Logik wurden verschiedene Ansatze zur Modellierung entwickelt, die fur die Sprachverarbeitungsproblematik relevant sind. Mit dem Calculus of Declarations (kurz D-Kalkul, s. [Mahr/Strater/Umbach 90] und [Ballmann/Dunker 91]) wurde ein Rahmen fur Kalkule entworfen, dessen grundlegender Begri der der Typ-Proposition ist. Typ-Propositionen werden dabei durch die -Relation interpretiert. Neben dem klassischen Ableitungsoperator gibt es einen Konstruktionsoperator, der die Wohlgeformheit von Ausdrucken reglementiert. Der Aufbau komplexer syntaktischer Ausdrucke wird intern festgelegt, und es gilt fur alle Kalkule dieses Rahmens die Maxime: \no proposition without expression". D.h. eine Aussage kann nur dann formuliert werden, wenn die Bestandteile der Aussage konstruierbar sind, ihre Wohlgeformheit also gesichert ist. Im Gegensatz zu klassischen Logiken, die eine externe Signatur voraussetzen, ermoglicht diese "Architektur" eine interne Festlegung der Signatur, und dadurch die Integration von Formalismen unterschiedlicher Signatur und vor allem eine Verschrankung von logischen Fakten und Wohlgeformheitsbedingungen. Der D-Kalkul zeigt damit einen Weg zur Internalisierung syntaktischer Festlegungen: Sprachbezogenes und weltbezogenes Wissen werden gleichermaen als Fakten betrachtet, dabei aber das sprachbezogene Wissen tatsachlich als solches genutzt, indem es via bootstrapping den syntaktischen Aufbau samtlicher Fakten regelt. Daruber hinaus konnen durch Verschrankung von logischen Fakten und Wohlgeformtheitsbedingungen sogenannte semantische Einusse auf die Syntax naturlichsprachlicher Ausdrucke modelliert werden. Zwei weitere wichtige Beitrage zur Modellierung mit -Strukturen bilden die Arbeit zu Modellen des -Kalkuls, die zu --Modellen fuhrte (s. [Pooyan 92]) und die Arbeit von Strater uber eine Pradikatenlogik mit Selbstreferenz und totalem Wahrheitspradikat (s. [Strater 92]). In der letzteren Arbeit wird gezeigt, da konsistente Modelle konstruierbar sind, in denen die sogenannten Tarski Bikonditionale gelten. Dies bildet den entscheidenden Hintergrund fur die Annahme, da es tatsachlich moglich ist, die oben genannten Anforderungen an ein Modellierung von NLP-Systemen auch insgesamt zu erfullen. Lesartentrennung durch Spezialisierung Ein grundlegendes Problem der modelltheoretischen Integration von sprach- und domainbezogenem Wissen bildet der Status der Bedeutungsreprasentationen. Die hier verfolgte Losung verzichtet im Bereich der Inhaltsworter auf von den Ausdrucken getrennte Bedeutungsreprasentationen und betrachtet stattdessen die Ausdrucke als ambig hinsichtlich Form und Inhalt. Der Modellierungsansatz geht davon aus, da alles Wissen als Beschreibungen der Form "a ist b" vorliegt, und erfat diese durch TypPropositionen "a:b", die ihrerseits durch die -Relation interpretiert werden. Um der Form-Inhalts-Ambiguitat der Ausdrucke gerecht zu werden, ist dann eine dierenzierte Modellierung von Ambiguitat notig. Es gibt zwei gangige Wege zur Darstellung von Ambiguitat, entweder mittels Indizierung, d.h. die Lesarten werden als eigenstandige Entitaten aufgefat und durch Ausdrucke einer Kunstsprache reprasentiert, oder der ambige Ausdruck bildet eine Entitat, der unterschiedliche Eigenschaften zugeordnet werden. Der erste Weg fuhrt zu demselben Problem wie bei der Bedeutungsreprasentation, zum Problem der man44 gelnden Explizitheit von Kunstsprachen: Die Bedeutung der Kunstsprache mu extern festgelegt werden. Der zweite Weg ist problematisch, wenn Vererbungsmechanismen genutzt werden sollen. Angenommen ein Ausdruck hat zwei unterschiedliche Typen, egal ob konjunktiv oder disjunktiv verknupft. Wenn dieser Ausdruck dann seinerseits als Typ auftritt, vererbt er leider die Eigenschaften seiner beiden Typisierungen gleichzeitig. Bei konjunktiver Verknupfung kann es daruber hinaus passieren, da die Typen inkompatibel sind und damit ein Widerspruch auftritt. Die hier favorisierte Vorstellung von Ambiguitat ist die, da es sich um einen Ausdruck handelt, der in verschiedenen Gebrauchsweisen rsp. Lesarten auftritt. Man kann nun eine Gebrauchsweise oder Lesart selber als Typisierung verstehen: Der Ausdruck hat mehrere Typen, die die Lesarten charakterisieren. Eine Lesart wird also als ein Ausdruck in einer spezischen Typisierung verstanden. In dieser spezischen Typisierung werden ihm weitere Eigenschaften zugeschrieben. Diese Sichtweise erfordert formal die Moglichkeit, eine Typ-Proposition als Objekt betrachten zu konnen, das wiederum typisierbar ist. Die Modikation durch "als" im Deutschen arbeitet analog: Die Proposition "Die Maus ist ein Tier" steckt als Prasupposition in "Maus als Tier". Das modizierte Nominal kann wiederum als Gegenstand weiterer Beschreibungen auftreten: "Die Maus als Tier ist ein Nager". Dieser Mechanismus wird hier als Spezialisierung bezeichnet. "Maus als Tier" stellt eine der inhaltsbezogenen Lesarten von "Maus" dar, eine andere ist z.B. "Maus als Eingabegerat". Die ausdrucksbezogene Lesart ist "Maus als Wort", von der man sagen kann: "Maus als Wort ist ein Nomen". Wenn nun eine Typ-Proposition als Objekt in einer Typ-Proposition auftreten kann, es aber keine prinzipielle Trennung zwischen Objekten und Typen geben soll, mu man auch zulassen, da ein Typ nicht einfach, sondern seinerseits eine Typ-Proposition ist. Dies fuhrt zu einer interessanten Modellierung vom Merkmalen: Bei atomaren Merkmalswerten liefern die Merkmalsnamen gewissermaen eine Lesartentrennung der Werte: "Masculinum als Genus" bzw. "Masculinum als Sexus". Einem Objekt einen Merkmalswert zuschreiben, bedeutet, ihn mit einer Typ-Proposition zu typisieren: "Masculinum ist ein Genus" und "Tisch ist Masculinum als Genus" bzw. "Masculinum ist ein Sexus" und "Ochse ist Masculinum als Sexus". Man beachte den Skopus der als-Modikation: "Ochse ist (Masculinum als Genus)". Die Lesart eines Ausdrucks wird in der Regel nicht explizit, sondern durch den Kontext festgelegt. Man kann den Typ, durch den die Lesartentrennung erfolgt, als kontextuellen Parameter betrachten: "Maus im Kontext Tier ist ein Nager". Diese Sicht legt dann einen kontextgebundenen Vererbungsmechanismus nahe, so da die Vorteile von Vererbung genutzt werden konnen, ohne das die -Relation insgesamt transitiv sein mu: Wenn Objekt und Typ im gleichen Kontext stehen, werden die Eigenschaften vererbt. Technisch wird die Spezialisierung durch "selbstahnliche" -Strukturen erfat. Das sind -Strukturen, an die besondere Anforderungen gestellt werden. Erstens existiert in diesen Strukturen ein ausgezeichnetes Objekte m, fur das gilt, da jedes Objekt a des Tragers in -Relation zu m steht. Zweitens existieren ein ausgezeichnetes Objekt und fur jedes Paar (a,b) der -Relation ein Objekt (a,b) und es gilt, da ein Paar (a,b) in -Relation steht, genau dann wenn das entsprechende Paarobjekt in -Relation zu dem ausgezeichneten Objekt steht. Das Objekt m reektiert dadurch den Trager, d.h. die "Sprache der Struktur". Das Objekt reektiert die atomaren Fakten und die Paarobjekte spiegeln den U bergang von "a ist b" zu "a als b". Die Lesarten eines Ausdrucks a werden durch Paarobjekte "a als b" modelliert, wobei die syntaktische 45 Lesart eines Ausdrucks a durch ein Paarobjekt (a,m), d.h. "a als Wort", dargestellt wird. Die Spezialisierung erlaubt eine sehr allgemeine Modellierung von Ambiguitat, incl. der Ambiguitat zwischen sprachbezogenem und weltbezogenem Gebrauch eines Ausdrucks. Auch das Konzept der Merkmale wird auf Ambiguitat zuruckgefuhrt, so da es nicht mehr erforderlich ist, die Modelle mit zusatzlichen Funktionen und einelementigen Wertemengen auszustatten. Man kann Lesartentrennung als kontextgebunden modellieren und es gibt einen sinnvoll eingeschrankten Begri von Vererbung. Die Betrachtung von Lesarten als "objektgewordene Aussagen" wirft zudem interessante Fragen in Bezug auf die damit verbundenen Prasuppositionen auf. Fazit Das Ausgangsproblem bei der modelltheoretischen Fundierung des KIT-FAST MU Systems bildete die modelltheoretische Integration von sprach- und weltbezogenem Wissen. Die zentrale Frage dabei war die, welcher Art die Entitaten der Modellierung sein sollen bzw. ob es sinnvoll ist, von den sprachlichen Ausdrucken getrennte Bedeutungsreprasentationen anzunehmen. Es zeigte sich, da getrennte Bedeutungsreprasentationen aus der Sicht der Informatik theoretisch widerspruchliche und praktisch unvollkommene Konstrukte sind. Deshalb wurden die Ausdrucke als Entitaten der Modellierung angenommen und auf getrennte Bedeutungsreprasentationen im Bereich der deskriptiven Ausdrucke ganz verzichtet. Der Verzicht auf getrennte Bedeutungsreprasentationen impliziert keinen nominalistischen Standpunkt im sprachphilosophischen Sinne. Es wird vielmehr bezweifelt, da sich allgemeine sprachphilosophpische Positionen auf die Situation in der maschinellen Verarbeitung ubertragen lassen. Denn im Unterschied zur menschlichen Sprachverarbeitung stehen der Maschine ausschlielich syntaktische Ausdrucke zur Verfugung und die Interpretation der Ausdrucke ndet immer nur durch menschliche Benutzer, (Programmierer usw.) d.h. immer auerhalb des maschinellen Verarbeitungsprozesses statt. Fur eine Modellierung maschineller Sprachverarbeitung scheint es durchaus angemessen, sich auf das zu beschranken, was tatsachlich innerhalb der maschinellen Verarbeitung vorliegt, und deshalb doch eine "quasi-nominalistische" Position einzunehmen. Der Verzicht auf getrennte Bedeutungsreprasentationen fuhrt dazu, da wenigstens im Bereich der deskriptiven Ausdrucke auf eine Unterscheidung von beschriebener und beschreibender Sprache verzichtet wird. Dem entsprechend wird bei der vorgeschlagenen Modellierung die Beschreibung in den Vordergrund gestellt, und zwar indem formal (neben der Gleichheit) nur die -Relation als Pradikat auftritt. Diese Perspektive geht bis auf Aristoteles zuruck, wurde oft aufgegrien und weitergefuhrt, aber auch oft als inadaquat zuruckgewiesen. Wir nehmen die Nachteile hier in Kauf, weil uns die aus dieser Perspektive resultierenden Fragestellungen hinreichend interessant erscheinen: Beziehungen von beschreibender und beschriebener Sprache, Wechsel von Aussage zu Objekt, Selbstreferenz und Internalisierung von Konzepten der Metaebene. Eine Modellierung dieser Mechanismen ist gerade fur die maschinelle Verarbeitung naturlicher Sprache relevant, und kann auch zu neuen Sichtweisen bekannter semantischer Probleme fuhren. 46 6 Termersetzung In der Regel wird die Termersetzung (TE) zur Losung von Gleichheitsproblemen in Deduktionssystemen eingesetzt, mit dem Ziel, zu beweisen, ob eine Gleichung aus einer Menge von Axiomgleichungen folgt. Im Berliner MU -System wurde sie jedoch fur die Verarbeitung naturlicher Sprache nutzbar gemacht und wird fur Strukturabbildungen, d.h. fur die semantische und konzeptuelle Analyse, den Transfer und die Generierung eingesetzt (siehe Abschnitt 7). Das Grundprinzip der TE ist, Gleiches durch Gleiches zu ersetzen. Dabei werden sukzessive in den Termen auf beiden Seiten der Gleichung Unterterme durch aquivalente Terme gema der Axiomgleichungen ersetzt, bis ein aquivalenter minimaler10 Term auf beiden Seiten erreicht ist. Sind diese literal identisch, folgt die Gleichung aus den Axiomen. Eine gute Einfuhrung in die Theorie der Termersetzungssysteme geben [Blasius/Burckert 87] und [Huet/Oppen 80]. Ein Ersetzungs- oder auch Reduktionssystem besteht aus einer Menge von Ersetzungsregeln, die eine binare irreexive Relation '!' zwischen syntaktischen Objekten denieren. Wenn die Objekte Terme erster Ordnung sind, handelt es sich um ein Termersetzungssystem (TES). Terme erster Ordnung konnen aus Signaturen fur Termalgebren erzeugt werden (vgl. [Ehrig/Mahr 85] und [Ehrig/Mahr 89]). Die Signaturen konnen durch Gleichungsaxiome zu einer Spezikation erweitert werden. Die Axiome denieren A quivalenzklassen von Termen. Die Gleichungsmengen konnen mit dem Knuth-Bendix-Algorithmus in ein kanonisches TES umgewandelt werden (vgl. [Knuth/Bendix 70]).11 Eine Termersetzungsregel (TE-Regel) ist eine gerichtete Gleichung ! und besteht aus einer linken Seite und einer rechten Seite . Sie deniert, da der Term zum Term reduziert werden kann. Man sagt auch ist aus ableitbar. Wenn beide Seiten einer TE-Regel Terme ohne Variablenvorkommen (Grundterme) sind, deniert sie die Relation '!' fur genau ein Paar von Termen. Kommen in den Termen jedoch Variablen vor (oene Terme), so deniert diese TE-Regel die Relation '!' fur Klassen von Termpaaren. Durch Anwendung der TE-Regeln eines TES kann aus einem Grundterm ein aquivalenter Term abgeleitet werden. Termersetzungssysteme sind bestimmte Auspragungen von Produktionssystemen, die aus einer Regelbasis, einer Datenbasis und einem Interpretierer bestehen (vgl. [Davis/King 77]). Die Regelbasis enthalt eine Menge von Produktionen. Die Datenbasis reprasentiert den aktuellen Zustand des Systems und der Interpretierer steuert die Anwendung der Produktionen. Eine Produktion besteht aus einem Bedingungs- und einem Aktionsteil. Ist der Bedingungsteil einer Produktion durch die Datenbasis erfullt, so ist sie anwendbar, d.h. der Aktionsteil wird durch den Interpretierer ausgefuhrt und die Datenbasis entsprechend verandert. Der Interpretierer steuert die Auswahl der anzuwendenden Produktionen. Dabei konnen Konikte entstehen, die durch bestimmte Strategien gelost werden mussen (vgl. [Davis/King 77]): Minimal wird hier nicht nur im quantitativen Sinn verstanden. In der Termersetzung, insbesondere bei der Verwendung zur Verarbeitung naturlicher Sprache, ist es sinnvoll, minimal auch qualitativ zu interpretieren. Minimale Terme sind nicht weiter reduzierbar. 11Ein kanonisches TES ist terminierend und konuent. Letzteres heit, da die Reihenfolge der Anwendung, d.h. der Ableitungsweg beliebig ist, da immer genau ein und derselbe minimale Term das Ergebnis einer Ableitung ist. 10 47 Die Produktionen sind total geordnet und die anwendbare Produktion mit der hochsten Prioritat wird angewendet (Regelordnung). Die Elemente in der Datenbasis sind total geordnet und die Produktion, die auf das Element mit der hochsten Prioritat anwendbar ist, wird angewendet (Datenordnung). Die spezischste Produktion wird zuerst angewendet (Generalitatsordnung). Die Anwendung der Produktionen wird durch ein Prazedenz-Netz, das Zyklen enthalten kann, gesteuert (Regelprazedenz). Von den anwendbaren Produktionen wird die zuletzt angewendete oder diejenige, die auf das zuletzt bearbeitete Element der Datenbasis anwendbar ist, angewendet (Aktualitatsordnung). Die meisten Interpretierer verwenden einen Steuergraphen, der auch Zyklen enthalten kann und manuell speziziert werden mu. Er legt fest, in welcher Reihenfolge und wie die Produktionen angewendet werden. Diese Reihenfolge mu nicht unbedingt mit der inharenten Ordnung der Produktionen ubereinstimmen.12 Dies kann ausgenutzt werden, um die Kombinatorik bei den Anwendungsmoglichkeiten von Produktionen zu beschranken, so da uberussige Ableitungen und Mehrfachableitungen verhindert werden konnen. Das ist moglich, wenn die explizite nicht mit der inharenten Ordnung der Produktionen ubereinstimmt. Allerdings hat die explizite Ordnung den Nachteil, da der Produktionenschreiber einen vollstandigen U berblick uber das gesamte, meist sehr komplexe Produktionssystem haben mu. In der Termersetzung entspricht ein vorgegebener Grundterm, aus dem mithilfe der TE-Regeln ein aquivalenter Term abgeleitet werden soll, der Datenbasis. Die TERegeln entsprechen den Produktionen. Die linke Seite einer TE-Regel ist die strukturelle Bedingung fur deren Anwendung, die erfullt ist, wenn sie mit einem Unterterm des Grundterms unizierbar ist. Wenn das der Fall ist, wird der Unterterm durch die rechte Seite der TE-Regel ersetzt. Aus fast allen TES, die fur die Verwendung in Deduktionssystemen untersucht werden, lassen sich kanonische, d.h. terminierende und konuente TES erzeugen. Ergebnisse zur Termination und Konuenz von TES nden sich in [Dershowitz 82], [Dershowitz 85], [Drewes 89] und [Drewes/Lautemann 90] bzw. [Huet 77]. Aufgrund der Konuenz solcher Systeme braucht ein Interpretierer fur diese Systeme keine Konikte zu losen, da immer nur genau eine Losung erzeugt wird, egal welcher Ableitungsweg gewahlt wurde. Fur die TES, die fur die Verarbeitung naturlicher Sprache, also auch fur die MU , konnen nicht beide Eigenschaften vorausgesetzt werden. Ein einfaches Beispiel macht deutlich, warum die Konuenz nicht garantiert werden kann. In der syntaktischen Analyse ist aus einer syntaktisch mehrdeutigen Ausgangsstruktur mehr als eine aquivalente Zielstruktur ableitbar. Diese Tatsache kann zur Unvollstandigkeit der Interpretation dieser TES fuhren, wenn die Verzweigungspunkte in einer Ableitung nicht durch eine revidierende Steuerung berucksichtigt werden. Ein ezienter, korrekter und vollstandiger Interpretierer fur terminierende und nicht-konuente TES wird in [Weisweber 92] und [Weisweber 93] ausfuhrlich beschrieben. 12Mit inh arenter Ordnung ist die Ordnung der Produktionen gemeint, die zur Erzeugung aller gema der Produktion zulassigen Losungen fuhren, d.h. zu einer vollstandigen Interpretation der Produktionen. 48 Die Terminierung von TES in der MU wird dort durch eine Termordnung gewahrleistet, die auf disjunkte Vokabulare fur Ausgangs- und Zielterme basiert. Der Interpretierer terminiert, weil durch die Anwendung einer TE-Regel das Ausgangsvokabular reduziert wird. Wenn TES fur die Verarbeitung naturlicher Sprache eingesetzt werden, ist die Verwendung von Defaultregeln sinnvoll. Eine TE-Regel ist genau dann eine Defaultregel, wenn es mindestens eine TE-Regel mit einer spezischeren linken Seite gibt, es sei denn, der Regelschreiber hat sie explizit als Verzweigungspunkte gekennzeichnet. Existieren solche Defaultregeln und ist die spezischere Regel auf einen Term anwendbar, so wird nur diese Regel angewendet und nicht die Defaultregel. Andernfalls wird die Defaultregel angewendet, falls sie anwendbar ist. Die Defaultregeln haben Einu auf die Korrektheit der Interpretation der TE-Regeln und werden deshalb durch die Steuerung des Interpretierers gesondert behandelt. Normalerweise wird durch die Anwendung einer TE-Regel die Voraussetzung fur die Anwendung einer anderen geschaen. In diesem Fall sind die beiden Regeln inharent geordnet. Wenn die TE-Regeln genau in dieser Reihenfolge auf Anwendbarkeit gepruft werden, ist eine eziente, durch die TE-Regeln gesteuerte Anwendung gewahrleistet. Allerdings mu berucksichtigt werden, da diese Anwendungsreihenfolge in der Regel auch Zyklen enthalt, welche die Ezienz je nach Anzahl und Groe der Zyklen mindern. Um eine eziente, korrekte und vollstandige Interpretation der TES zu gewahrleisten, verwendet der Interpretierer drei Steuerungsrelationen, die automatisch aus den TE-Regeln durch U berlagerung berechnet werden. Sie explizieren genau die drei o.g. Beziehungen zwischen zwei TE-Regeln (Anwendungsreihenfolge, Defaultregeln und Verzweigungspunkte). 49 7 Das Berliner MU -System Die Architektur des MU -Systems im Projekts KIT-FAST, die in Abbildung 21 dargestellt ist, basiert auf einem Transfermodell, wobei die ausgangs- und zielsprachliche syntaktische Struktur durch entsprechende Generalisierte Phrasenstrukturgrammatiken (GPSG) erzeugt werden (siehe Unterabschnitt 7.1.1). Die ausgangs- und zielsprachliche satzsemantische Reprasentation (Funktor-Argument-Struktur, FAS) werden durch entsprechende kontextfreie Grammatiken erzeugt (siehe Unterabschnitt 7.1.2). Es ist nur die U bersetzungsrichtung von Deutsch nach Englisch realisiert, die erzielten Ergebnisse sind aber prinzipiell verallgemeinerbar auf andere Sprachpaare. Die satzsemantische Ebene ist die tiefste Satzreprasentation und gleichzeitig die Transferebene, aus der die Textreprasentation erzeugt wird. Um einen Satz der Ausgangssprache (AS) in einen Satz der Zielsprache (ZS) zu ubersetzen, mussen einige Strukturabbildungen durchgefuhrt werden. Die Abbildungen eines AS-Satzes in seine syntaktischen (GPSG-)Strukturen werden als syntaktische Analyse (siehe Abschnitt 7.2.1), einer AS-GPSG-Struktur in aquivalente FAS-Ausdrucke als semantische Analyse (siehe Abschnitt 7.2.2), eines AS-FAS-Ausdrucks in aquivalente ZS-FAS-Ausdrucke als Transfer (siehe Abschnitt 7.2.4), eines ZS-FAS-Ausdrucks in aquivalente ZS-GPSG-Strukturen als Generierung (siehe Abschnitt 7.2.5) und einer ZS-GPSG-Struktur in den entsprechenden ZS-Satz als morphologische Synthese bezeichnet. Alle Abbildungen, die durch einen durchgehenden Pfeil markiert sind, mit Ausnahme der syntaktischen Analyse und der morphologischen Synthese werden durch ein Verfahren auf der Basis von Termersetzung durchgefuhrt (siehe Abschnitt 6). Die syntaktische Analyse wird durch einen im Projekt KIT-NASEV entwickelten GPSGParser bewerkstelligt (vgl. [Weisweber 87], [Weisweber 88a] und [Weisweber/Preu 92]). Die morphologische Analyse und Synthese basieren auf dem SUTRA-System (vgl. [Busemann 83]). Die Erfahrungen haben gezeigt, da eine Zusammenfassung der syntaktischen und semantischen Analyse zu einem Termersetzungssystem sinnvoll ist. Dieses wurde aber bisher noch nicht realisiert. Im Projekt KIT-FAST II wurden die ersten Schritte in Richtung der Losung von textuellen Phanomenen in der MU gemacht. Fur die Interpretation anaphorischer Bezuge des Deutschen wird eine Textreprasentation erstellt (siehe Abschnitt 3 und vgl. [Hauenschild 91], [Schmitz et al. 92], [Preu et al. 92] und [Preu et al. 93]), die von einer Komponente zur Anaphernresolution (siehe Abschnitt 3.3 und [Dunker/Umbach 93]) verwendet wird. Das Projekt geht von einer dualen Textreprasentation aus (siehe Abschnitt 3.1, vgl. [Schmitz et al. 92] und [Preu et al. 93]). Einerseits wird der Text in seiner Linearitat bzw. Verschachtelung entsprechend dem fortschreitenden Interpretationsproze betrachtet (strukturelle Textreprasentation). Andererseits wird er als Ergebnis eines Interpretationsprozesses aufgefat und aus der Sicht der Referenzobjekte gezeigt (referentielle Textreprasentation). Die strukturelle Textreprasentation wird verwendet, um einen Antezedenskandidaten nach strukturellen Kriterien zu bewerten. Dabei hat sich herausgestellt, da die FAS die erforderlichen Informationen bereits enthalt. Das Verfahren zur Interpretation anaphorischer Bezuge arbeitet deshalb auf einer Liste von FAS-Ausdrucken, so da auch satzubergreifende Bezuge behandelt werden konnen. Die referentielle Textreprasentation wird verwendet, um die inhaltliche Konsistenz zwischen den Pradikationen uber die Anapher und dem Wissen, das an die einzelnen Antezedenskandidaten geknupft ist, zu uberprufen. Der Textinhalt wird mithilfe 50 Satz G Satz E morphologische und syntaktische Analyse morphologische Synthese GPSG-G GPSG-E Struktur Struktur semantische Analyse Generierung FAS-G Ausdruck FAS-E Ausdruck Transfer konzeptuelle Analyse Aktualisierung Auswertung Kommunikation mit ABox und TBox TBox-Anfragen - ATL - ABox-Anfragen Interpretation anaphorischer .. Bezuge .. Wissensreprasentationssystem BACK TBox Algorithmus zur ABox Abkurzungen G Deutsch E Englisch GPSG Generalisierte Phrasenstrukturgrammatik FAS Funktor-Argument-Struktur ATL ABox-Tell-Language ABox Assertionales Wissen (referentielle Textreprasentation) TBox Terminologisches Wissen (Hintergrundwissen) Abbildung 21: Architektur des MU -Systems im Projekt KIT-FAST 51 des Wissensreprasentationssystems BACK dargestellt, das im Nachbarprojekt KITBACK entwickelt und in das MU -System des Projekts KIT-FAST integriert wurde. Das BACK-System, das in [Peltason et al. 89] und [Quantz/Kindermann 90] beschrieben wird, verwendet die KL-ONE-ahnliche formale Sprache BACK, in der terminologisches und assertionales Wissen in der TBox bzw. ABox reprasentiert werden kann. In der ABox des MU -Systems werden die Diskursobjekte und die Relationen zwischen ihnen reprasentiert. In der TBox werden die Selektionsrestriktionen, die von den Diskursobjekten in der ABox erfullt werden mussen, formuliert. Langfristig sollen auch andere Formen von Hintergrundwissen wie z.B. enzyklopadisches oder ubersetzungstheoretisches Wissen in der TBox modelliert werden. ABox- und TBox-Inhalt konnen uber eine Anfrageschnittstelle des BACK-Systems abgefragt werden. Diese Schnittstelle kann von den Abbildungsregeln (in Abbildung 21 nicht dargestellt) und dem Anapherninterpretationsverfahren benutzt werden. Nach der morphologischen, syntaktischen und semantischen Analyse wird der Inhalt eines ausgangssprachlichen Satzes, d.h. die Diskursobjekte mit ihren Eigenschaften und Bezugen in die referentielle Textreprasentation eingetragen. Dazu wird aus der Funktor-Argument-Struktur eines Satzes ein ATL-Ausdruck erzeugt, mit dem der Satzinhalt in die ABox des BACK-Systems eingetragen werden kann. Diese Abbildung wird als konzeptuelle Analyse (siehe Abschnitt 7.2.3) bezeichnet. Zunachst wird noch keine Information uber Anaphern eingetragen. Dies erfolgt erst nach der anschlieenden Interpretation ihrer Bezuge. Dabei werden die moglichen Antezedenten aus den vorangehenden Satzen und dem aktuellen ermittelt und nach verschiedenen Kriterien bewertet. Eines der Kriterien ist die inhaltliche Konsistenz (s.o), die uber ABoxund TBox-Anfragen bewertet wird. Um festzustellen, ob ein mogliches Antezedens diese Restriktion erfullt, greift das Interpretationsverfahren uber die ABox- und TBoxAnfrageschnittstelle auf die referentielle Textreprasentation bzw. Hintergrundwissen zu. Hat das Verfahren das Antezedens ermittelt, wird die Funktor-Argument-Struktur aktualisiert, indem beim Pronomen die Referenz des ermittelten Antezedens eingetragen wird. Danach werden samtliche Relationen, in denen das Pronomen im Satz steht in die ABox eingetragen. Die referentielle Textreprasentation wird so inkrementell aufgebaut. Anschlieend erfolgen Transfer, Generierung und morphologische Synthese. Es reicht naturlich nicht aus, die anaphorischen Bezuge nur auf der ausgangssprachlichen Seite zu interpretieren. Sie mussen auch auf der zielsprachlichen Seite aufgelost werden (vgl. [Schmitz et al. 92] und [Preu et al. 93]), denn wenn beispielsweise bei der U bersetzung Verben in Funktionsverbgefuge ubersetzt werden, sind in der Zielsprache andere anaphorische Bezuge moglich als in der Ausgangssprache. Diese Komponente ist jedoch zur Zeit nur rudimentar entwickelt. 7.1 Reprasentationsformalismen Das MU -Modell im Projekt KIT-FAST sieht insgesamt vier Reprasentationsebenen vor. Die syntaktische und die satzsemantische Ebene sind vollstandig, d.h. sowohl fur die Analyse als auch fur die Synthese, realisiert. Die referentielle Textreprasentation wird nur im Rahmen der Analyse des Deutschen erstellt. Die syntaktischen Strukturen werden von Generalisierten Phrasenstrukturgrammatiken (GPSGs) erzeugt. Dieser im zweiten Unterabschnitt skizzierte Grammatikformalismus gehort zu der Familie der Unikationsgrammatiken. GPSG-Strukturen sind die Ausgangsstruktur fur die semantische Analyse (siehe Unterabschnitt 7.2.2) und die 52 Zielstruktur fur die Generierung (siehe Unterabschnitt 7.2.5). Die Funktor-Argument-Struktur (FAS), die im zweiten Unterabschnitt beschrieben wird, bildet die zentrale Reprasentationsebene im MU -System des Projekts KITFAST. Diese Reprasentation wurde im Projekt entwickelt und ist die einzige Transferebene. FAS-Ausdrucke bilden die Zielstruktur der semantischen Analyse (siehe Unterabschnitt 7.2.2), dienen als Ein- und Ausgabestruktur fur den Transfer (siehe Unterabschnitt 7.2.4) und sind der Ausgangspunkt fur die konzeptuelle Analyse (siehe Unterabschnitt 7.2.3) und fur die Generierung (siehe Unterabschnitt 7.2.5). Die referentielle Textreprasentation wird mithilfe des Wissensreprasentationssystems BACK (vgl. [Peltason et al. 89]) in einer KL-ONE ahnlichen Sprache als assertionales Wissen (ABox) dargestellt. Sie wird satzweise mithilfe der ABox-Tell-Language (ATL) in der ABox konstruiert. Die ATL wird durch eine kontextfreie Syntax erzeugt und im letzten Unterabschnitt vorgestellt. Alle drei Reprasentationsebenen lassen sich letztendlich durch kontextfreie Grammatiken mit komplexen Kategorien als Knotenmarkierungen darstellen. 7.1.1 Generalisierte Phrasenstrukturgrammatiken Im Vorgangerprojekt KIT-NASEV wurde festgestellt, da die ursprungliche Version der GPSG aus [Gazdar et al. 85] fur die Verarbeitung naturlicher Sprache nicht praktikabel ist. Die axiomatische Sicht dieser Version fuhrt leicht zu einer kombinatorischen Explosion. Auerdem ist die Reihenfolge der Anwendung der einzelnen Merkmalinstanziierungsprinzipien ungeklart. Deshalb wurde eine konstruktive Version entwickelt, die in den folgenden Projekten KIT-FAST I+II weiter ausgebaut wurde. Die Grundidee der konstruktiven Version ist, die Menge der Immediate-DominanceRegeln (ID-Regeln) nicht erst durch die Merkmalinstanziierungsprinzipien (MIPs) und Bildung aller Reihenfolgen der Tochter aufzublasen, um sie danach durch Anwendung der Feature-Co-occurrence-Restrictions (FCRs) und Linear-Precedence-Aussagen (LPAussagen) wieder zu reduzieren, sondern die Verteilung der Merkmalspezikationen und die Reihenfolge der Tochter in den lokalen Baumen so zu steuern, da wahrend der Analyse bzw. Synthese eines Satzes nur zulassige (lokale) Baume konstruiert werden (vgl. [Busemann/Hauenschild 88a] und [Hauenschild/Busemann 88a]). Ein erster Schritt in diese Richtung war die direkte Interpretation des ID/LPFormats wahrend der Analyse bzw. der Synthese. Dabei werden die Basis-ID-Regeln durch Anwendung der Metaregeln zu einer Menge von Objekt-ID-Regeln expandiert, die dann aber zusammen mit den LP-Aussagen direkt vom Parser bzw. Generator verwendet werden. Dieser Ansatz wurde in [Shieber 84], [Kilbury 84], [Dorre/Momma 85], [Weisweber 87] und [Weisweber 88a] fur die Analyse und in [Busemann 92] fur die Generierung entwickelt und angewendet.13 Der Parser aus [Weisweber 88a] und der Generator aus [Busemann 92] wurden im den Projekten KIT-NASEV und -FAST entwickelt und in einer fruheren Version des MU -Systems eingesetzt. Beide Verfahren waren in der Lage, die selben linguistischen Daten zu verarbeiten und benutzten gemeinsam Komponenten fur die MIPs und FCRs. In einer spateren Phase wurde der Generator durch ein Termersetzungssystem ersetzt 13Ein anderer Weg wurde zum Beispiel in [Evans 87], [Phillips/Thompson 87], [Briscoe et al. 87] und [Naumann 88] verfolgt. Dort sollten die hinlanglich bekannten Algorithmen, die fur kontextfreie Phrasenstrukturregeln geeignet waren, verwendet werden. Deshalb wurde durch Anwendung der Metaregeln und LP-Aussagen auf die Basis-ID-Regeln in einem Vorverarbeitungsschritt eine kontextfreie Grammatik erzeugt. 53 (siehe Abschnitt 7.2.5) und der Parser erweitert. Auer der direkten Verarbeitung des ID/LP-Formats wurde er so modiziert, da er Metaregeln ebenfalls direkt interpretieren kann. Dieser Ansatz ist in [Weisweber/Preu 92] beschrieben. Die FCRs und MIPs wurden im Projekt KIT-FAST gegenuber der ursprunglichen Version verandert, so da sie sowohl in einem Vorverarbeitungsschritt als auch wahrend der Analyse angewendet werden. In dem Vorverarbeitungsschritt werden das Agreement-Prinzip (AP), das aus dem Control-Agreement-Prinzip (CAP) hervorgegangen ist, die Head-Feature-Convention (HFC) und die FCRs in dieser Reihenfolge angewendet, so da in den Basis-ID-Regeln entweder Merkmalwerte instantiiert oder variable Werte kospeziziert werden (durch Variablenbindung in Prolog). Das FootFeature-Prinzip (FFP) und nocheinmal die FCRs werden wahrend der Analyse angewendet. Die MIPs wurden jedoch wie folgt geandert (vgl. [Preu 89]): Das FFP wurde unverandert ubernommen. Die Anwendung des AP wird durch Spezikationsmerkmale gesteuert. Das sind Merkmale, fur deren Werte vom Grammatikschreiber eine Menge von Merkmalen festgelegt wird, deren Werte identisch sein mussen mit denen jeder anderen Kategorie im lokalen Baum, die den gleichen Wert fur das Spezikationsmerkmal hat. Die Werte fur die Spezikationsmerkmale mussen ererbt sein, d.h. schon in der ID-Regel speziziert sein, die dem lokalen Baum zugrundeliegt. Vom AP sind ebenfalls alle Tiefenkategorien betroen, das sind Kategorien, die als Wert eines Merkmals im lokalen Baum vorkommen. Ist zum Beispiel der Wert des Spezikationserkmals agr zweier Kategorien in einem lokalen Baum +, so werden die fur diese Spezikation denierten Merkmale, zu denen u.a. person und numerus gehoren, bei beiden Kategorien kospeziziert. Wenn das nicht moglich ist, wird der lokale Baum abgelehnt. Die HFC ist fast genauso deniert wie das AP. Der Unterschied ist, da nur die Tiefenkategorien der Mutter berucksichtigt werden. Da bei der HFC nur die Tiefenkategorien der Mutter betroen sind, liegt daran, da zum Beispiel im Deutschen auch die Head-Tochter topikalisiert werden kann, und dann als Wert des Merkmals slash bei der Mutter vorkommt, so da die Mutter und ihr slash-Wert in den Head-Merkmalen identiziert werden. Die GPS-Grammatiken, die im Projekt KIT-FAST verwendet werden, sind im Abschnitt 7.2.1 beschrieben. 7.1.2 Funktor-Argument-Strukturen Bei der Funktor-Argument-Struktur (FAS) handelt es sich formal um eine kontextfreie Syntax mit komplexen Kategorien, welche aus einer Hauptkategorie und einer Menge von Merkmal-Wert-Paaren bestehen. Dadurch da variable, ggf. kospezizierte Merkmalwerte angegeben werden, lassen sich linguistisch relevante Generalisierungen beschreiben. Inhaltlich wurde die FAS von drei Seiten beeinut (vgl. [KIT-FAST 91]): Funktor-Argument-Beziehungen bilden den logischen Kern der FAS. Sie sind dem Konzept der GPSG-Semantik aus [Gazdar et al. 85] ahnlich. Das Prinzip der Anwendung von Funktoren auf ein oder mehrere Argumente wurde daraus herangezogen. 54 Auf der Basis des Konzepts fur Funktionale Satzperspektive der Prager Schule (siehe [Sgall et al. 73]) wurde die Idee einer skalaren Ordnung der Konstituenten eines Satzes nach ihrer relativen Thematizitat bzw. Rhematizitat ubernommen. Dieser Aspekt spielt eine wesentliche Rolle fur eine adaquate U bersetzung und sollte daher beim Transfer gewahrt bleiben. Von EUROTRA-D wurden semantische Rollen (vgl. [Steiner et al. 88b]) und semantische Merkmale (vgl. [Zellinsky-Wibbelt 88]) ubernommen, die fur den lexikalischen Transfer von entscheidender Bedeutung sind. Die Funktor-Argument-Beziehungen werden in einem lokalen FAS-Baum dadurch kodiert, da die am weitesten links stehende Tochter als Funktor und die rechts neben ihm vorkommenden Schwestern als seine Argumente aufgefat werden. Die Argumente sind kanonisch geordnet. Die explizite Darstellung der kanonischen Ordnung ist entscheidend. Zum einen wird sie fur die Denition von Anaphernbindung auf der Basis des o-Kommandos der HPSG verwendet. Zum anderen wird die FAS als Ein- und Ausgabe fur den Transfer in der maschinellen Sprachubersetzung verwendet und im allgemeinen hangt die Wahl eines moglichen U bersetzungsaquivalents fur ein Verb von den semantischen Eigenschaften seiner Argumente ab und nicht von deren Reihenfolge an der Oberache. Es ist in diesem Fall sinnvoll, neben den semantischen Eigenschaften der Argumente auch deren semantische Rollen in der satzsemantischen Struktur zu reprasentieren, um moglichst generelle Transferregeln formulieren zu konnen. Beispielsweise sind v-pred, n-pred und a-pred Funktoren, die eine vordenierte Anzahl von Termen (term) als Argumente haben, det(erminer) ein Funktor auf Termebene und mod(ier) ein Funktor, der rekursiv auf einen nom(inalen) Komplex angewendet werden kann. Analoge Losungen sind in logisch orientierten Semantiken allgemein bekannt. Weniger ublich ist die Reprasentation der Tempusinformation. Dafur wird eine Kategorie n (fur Finitkomplex) angenommen, der die Informationen uber Tempus und Modus fur jeden niten Satz als Merkmalspezikation fur pres(ent), fut(ure) und conj(unctive) zugeordnet ist. In der FAS des Englischen wird zusatzlich noch ein Merkmal prog(ressive) angenommen. Durch diese Merkmale wird eine generelle Unterscheidung zwischen niten und inniten Satzen (clausen bzw. clause) erreicht, die anderseits auch viele gemeinsame Eigenschaften haben, die fur die U bersetzung relevant sind, wie z.B. ihr Valenzrahmen (der bei (um-)zu-Innitivkonstruktionen davon ausgeht, da eins der Argumente an der Oberache nicht realisiert ist). Schlielich gibt es einen Funktor illoc(ution), der die Hauptsatze von eingebetteten Satzen ohne eigene Illokution unterscheidet und dessen terminale Tochter angeben, ob es sich um einen Aussage-, Frage- oder Befehlssatz handelt. Die thematische Struktur eines Satzes wird durch das Merkmal them dargestellt. Dieses Merkmal wird nur Tochterkategorien der FAS-Hauptkategorie clause zugeordnet, das sind im allgemeinen Kategorien mit den Hauptkategorien v-pred und term. Die Werte dieses Merkmals sind naturliche Zahlen, welche die Position der entsprechenden Konstituente in einer skalaren Ordnung der Satzoberache angeben. Die thematische Ordnung mu nicht unbedingt mit der kanonischen Ordnung der Argumente ubereinstimmen, obwohl dies im unmarkierten Fall zutrit. Die semantischen Rollen der Argumente werden durch die komplementaren Merkmale conf(iguration) (fur semantische Konguration, entsprechend der Subkategorisierung in der Syntax) und role dargestellt. Kongurationen und Rollen sind nicht notwendigerweise identisch im Original und seiner U bersetzung, obwohl das der Nor55 malfall ist. Veranderungen der Rollenkonguration bei der Ubersetzung sind nicht beliebig, wurden aber nicht naher untersucht. Die semantischen Eigenschaften (Merkmale) von Verben und Nomen werden als Werte der Merkmale vtyp bzw. ntyp in der FAS reprasentiert. Mogliche Werte fur vtyp sind stat(ic), act(ion) oder ach(ievement), fur ntyp count oder mass. Dabei reprasentiert count zahlbare Nomen, bei denen ein indeniter Artikel im Singular moglich ist, und mass nicht zahlbare Nomen, die nicht pluralisierbar sind. Die semantischen Eigenschaften der Adjektive werden mittels des Merkmals grad mit den Werten gradable oder no und des Merkmals bound mit den Werten bound oder no reprasentiert. Das erste Merkmal gibt an, ob das entsprechende Adjektiv mit sehr oder ziemlich modiziert werden kann und das zweite, ob es nicht zahlbare Nomen (engl. mass nouns) bindet oder nicht. Letzteres ist insbesondere relevant fur die FAS des Englischen. In den FAS-Ausdrucken werden die semantischen Eigenschaften der Nomen, Verben und Adjektive ausgehend vom FAS-Lexikoneintrag bis an die Konstituente, die als Argument eines Funktors auftritt (in der Regel term), durch Kospezikation in den FAS-Regeln weitervererbt. Obwohl wir Redundanzen an anderen Stellen vermeiden (z.B. wird das Merkmal num(ber) nur am Determinator speziziert), scheint bei der Distribution der semantischen Eigenschaften Redundanz sehr hilfreich zu sein. Anderenfalls ware die Formulierung von Transferregeln fur Funktoren sehr schwierig, weil ihre U bersetzung normalerweise von den semantischen Eigenschaften seiner Argumente abhangt, und es ware notwendig, den gesamten Baum bis hinunter zum terminalen Element, das auch noch rekursiv eingebettet sein kann, zu durchsuchen. Auerdem konnen die semantischen Eigenschaften auf dem Weg zur Kategorie term durch Koordination oder nicht-durchschnittsbildende Modikation verandert werden. Dieses illustriert sehr gut das Problem, inwieweit Redundanz zugelassen werden mu, um die Formulierung von Transferregeln zu vereinfachen. Die semantischen Eigenschaften von FAS-Konstituenten sind im Prinzip Elemente der konzeptuellen Ebene, auf der die Bedingungen fur verschiedene U bersetzungsmoglichkeiten adaquater formuliert werden konnen, weil dort zusatzliche Informationen uber den Kontext zur Verfugung stehen. Da ein Transfer aber nur auf FAS-Ausdrucken stattndet, wurde diese Reprasentation mit diesen Informationen angereichert. Die richtige Kombination von Praposition und Nomen wird durch die drei Merkmale real(ization) mit den moglichen Werten shape oder no, ext(ension) mit den moglichen Werten temp(oral) oder no und act(or) mit den moglichen Werten actor oder no sichergestellt. Dabei sind diese Merkmale fur Prapositionen (Hauptkategorie prep) und Nomen (Hauptkategorie noun) deniert und in einer Prapositionalphrase identisch. Die FAS enthalt einerseits die gesamten ubersetzungsrelevanten Informationen und andererseits neben der referentiellen Textreprasentation in der ABox (siehe nachsten Unterabschnitt) die fur die Anapherninterpretation relevanten Informationen. Das Merkmal atyp speziziert die Art, wie eine FAS-Konstituente in anaphorischen Bezugen teilnehmen kann. Der Wert pron(oun) bedeutet, da die Konstituente ein Pronomen ist, noun ein Nomen, relpron ein Relativpronomen, impl ein implizites Subjekt und evpron eine Anapher, die sich auf ein Ereignis bezieht (z.B. dafur). Der Wert des Merkmals atyp wird aus dem FAS-Lexikon weitervererbt. Das Merkmal rtyp gibt den Typ einer FAS-Konstituente an, auf die sich eine Anapher beziehen kann, d.h. eines der Oberkonzepte object, event, property, time oder place, welches das Konzept der Konstituente subsumiert. Der Wert dieses Merkmals 56 habox-tell-expressioni ! hobj-refi = hatl-conci j hvariablei = hatl-conci hobj-refi ! uci hatl-conci ! hconcepti j hconcepti with hatl-rolei hatl-rolei ! hrole-descriptioni : (habox-tell-expressioni) j hatl-rolei andwith hatl-rolei hrole-descriptioni ! inverse hrolei j hrolei Abbildung 22: Kontextfreie Syntax fur ein Fragment der ATL wird ebenfalls aus dem FAS-Lexikon weitervererbt. Weiterhin werden in der FAS die durch das Interpretationsverfahren ermittelten anaphorischen Bezuge durch Koindizierung der Werte fur das Merkmal ref(erence) der Anapher und des Antezedens dargestellt. Der Wert dieses Merkmals ist eine Referenz auf das entsprechende ABox-Objekt (siehe nachsten Unterabschnitt). Da auch satzubergreifende anaphorische Bezuge behandelt werden, wird eine Liste von FAS-Ausdrucken als strukturelle Textreprasentation verwendet. Eine detaillierte Beschreibung der FAS enthalt [Hauenschild/Umbach 88]. Auf ihre formale, modelltheoretische Interpretation gehen [Mahr/Umbach 90] ein. Die im Projekt KIT-FAST verwendeten Grammatiken fur das Deutsche und Englische werden in [Hauenschild/Umbach 88], [Busemann/Hauenschild 89], [Busemann 92] und [KITFAST 91] vorgestellt. 7.1.3 Die referentielle Textreprasentation Im Projekt KIT-FAST wird die ABox des Wissensreprasentationssystems BACK benutzt, um eine referentielle Textreprasentation in einer KL-ONE-ahnlichen Sprache zu erzeugen (siehe Abschnitt 3.1). Diese Reprasentation wird von einer Komponente fur die Interpretation anaphorischer Beziehungen verwendet, um die inhaltliche Konsistenz zwischen den Pradikationen uber die Anapher und dem Wissen, das an die einzelnen Antezedenskandidaten geknupft ist, zu uberprufen (vgl. [Hauenschild 91], [Schmitz et al. 92], [Preu et al. 92] und [Preu et al. 93]). Die referentielle Textreprasentation wird inkrementell erstellt, indem die Information eines jeden Satzes mithilfe der ABox-TellLanguage (ATL) als assertionales Wissen in die ABox des BACK-Systems eingetragen wird. Die ATL wird durch eine kontextfreie Syntax generiert. In Abbildung 22 wird eine reduzierte Syntax fur die ATL vorgestellt, wie sie auch im Projekt KIT-FAST in Gebrauch ist. Die vollstandige Syntax ist in [Peltason et al. 89] enthalten. Das nicht-terminale Symbol hconcepti reprasentiert die Konzepte, die in einem Diskurs vorkommen und als ABox-Objekte in die ABox eingetragen werden. Das BACK-System betrachtet jedes ABox-Objekt als unique constant und vergibt daur die Namen uci. Das nicht-terminale Symbol hrolei stellt die semantischen Rollen der Argumente eines pradikativen Konzepts dar. Als hvariablei werden Variablen bezeichnet, die durch das BACK-System mit dem Namen eines ABox-Objekts instantiiert werden, wenn es fur 57 atl ! equal(OBJ-REF) with(INV,ROLE) with(INV1 ,ROLE1 ) ! equal(OBJ-REF) with(INV2 ,ROLE2 ) equal(OBJ-REF) ! hconcepti Abbildung 23: Kontextfreie Syntax fur ATL-Strukturen mit komplexen Kategorien atl equal(obj-ref:uc_1) .. gehoren-zu with(inv:-,role:attribuant) equal(obj-ref:uc_2) elektronik with(inv:-,role:associatet) equal(obj-ref:uc_3) technologie Abbildung 24: Beispiel einer ATL-Struktur des Deutschen das entsprechende Diskursobjekt noch keine Referenz in der ABox gibt. Diese ATL-Syntax kann noch erheblich vereinfacht werden, wenn man komplexe Kategorien als Knotenmarkierungen verwendet. Die Syntax in Abbildung 23, die den Kleene-Operator '' verwendet, ist aquivalent zu der in Abbildung 22. Samtliche vordenierten Konzepte hconcepti werden in Form des letzten Regelschemas in das ATLLexikon eingetragen. Abbildung 24 gibt ein Beispiel fur eine ATL-Struktur des Deutschen, die den ATLAusdruck uc1 = gehoren zu with attribuant : (uc2 = elektronik) andwith (uc3 = technologie) nach dem Eintrag in die ABox reprasentiert. Dieser ATL-Ausdruck entspricht dem Satz zu diesen technologien wird die elektronik gehort haben. Allerdings sind die Informationen uber das Tempus dieses Satzes nicht in der ATL-Struktur reprasentiert. Die ATL-Struktur kann nicht direkt fur den Eintrag in die ABox des BACK-Systems verwendet werden, weil die Terme, die im Ersetzungssystem verwendet werden, eine andere Syntax haben als die ATL-Syntax in Abbildung 22. Deshalb wird sie vorher eins-zu-eins in einen entsprechenden ATL-Ausdruck abgebildet. Abbildung 25 zeigt, wie ATL-Strukturen in ATL-Ausdrucke des BACK-Systems abgebildet werden. Dabei sind Namen, die mit einem Grobuchstaben beginnen, Variablen. Am Ende dieses Abschnitts soll die referentielle Textreprasentation in der ABox noch kurz vorgestellt werden (fur eine ausfuhrlichere Darstellung wird auf Abschnitt 3.1, [Schmitz et al. 92] und [Preu et al. 93] verwiesen). In der Abox werden die Diskursobjekte eines Textes als ABox-Objekte reprasentiert. Dazu gehoren Ereignisse, Objekte, Eigenschaften und Orte, die syntaktisch durch Verben, Nomen, Adjektive bzw. lokale Prapositionen realisiert werden. Die Relationen zwischen den Diskursobjekten werden durch das nicht-terminale Symbol hrolei angegeben, die in der FAS den semantischen Rollen der Argumente von Verben, Nomen und Adjektiven entsprechen. Adjektive, die ein Diskursobjekt modizieren, stehen in einer modierRelation zu diesem Diskursobjekt. Koreferenz von Antezedens und Anapher wird in der ABox dadurch erfat, da sie durch dasselbe ABox-Objekt dargestellt werden. Die Diskursobjekte in der ABox sind Instanzen der Konzepte, die in der TBox deniert sein 58 X f equal(obj-ref:Ref) Ref = Concept Concept atl(atl) f equal(obj-ref:Ref) [With|Rest] Ref = Concept with f([With|Rest]) Concept with(inv:-,role:Role) f equal(obj-ref:Ref) [With|Rest] Role : (Ref = Concept with f([With|Rest])) Concept with(inv:+,role:Role) f equal(obj-ref:Ref) [With|Rest] inverse Role : (Ref = Concept with f([With|Rest])) Concept f([With]) f([With|Rest]) f(With) f(With) andwith f(Rest) falls Rest = [ ] Abbildung 25: Abbildung der ATL-Strukturen in BACK-ATL-Ausdrucke 59 affected ergreifen uc_1 agent usa initiative uc_3 modifier uc_2 uc_4 neu agent agent uc_5 erhoehen uc_6 affected investitionen Abbildung 26: Beispiel einer referentiellen Textreprasentation in der ABox mussen. Abbildung 26 zeigt die referentielle Textreprasentation fur den Beispieltext Die USA ergreifen neue Initiativen. Sie erhohen ihre Investitionen. 7.2 Strukturubergange Dieser Unterabschnitt geht naher auf die Strukturubergange im MU -System ein, d.h. auf die syntaktische, semantische und konzeptuelle Analyse, den Transfer und die Generierung. Die syntaktische Analyse wird von einem Analysealgorithmus (Parser) durchgefuhrt, der speziell auf die Bedurfnisse des GPSG-Formalismus (siehe Abschnitt 7.1.1) zugeschnitten wurde (vgl. [Weisweber 87], [Weisweber 88a] und [Weisweber/Preu 92]). Die restlichen vier Strukturubergange werden durch einen Algorithmus auf der Basis von Termersetzung realisiert (siehe Abschnitt 6), der die in den Abschnitten 7.2.2 bis 7.2.5 beschriebenen Termersetzungssysteme interpretiert. Die morphologische Analyse und Synthese werden durch zwei Komponenten durchgefuhrt, die auf dem SUTRASystem basieren (vgl. [Busemann 83]). 7.2.1 Syntaktische Analyse Im folgenden soll kurz auf die GPS-Grammatik des Deutschen, die im MU -System verwendet wird, eingegangen werden. Insgesamt umfat sie die nachstehend aufgefuhrten Konstruktionen (vgl. [Preu 87]): eine ache Satzstruktur mit dem Subjekt als subkategorisierter Kategorie Hauptsatzstellung mit einer topikalisierten Konstituente im Vorfeld eine hierarchische Hilfsverbstruktur Subjekt-kontrollierte Innitivkonstruktionen da-Satze Relativsatze mit Relativpronomen im Nominativ 60 einen Nominalkomplex mit den wichtigsten Phanomenen wie Determiner, Adjek- tiv, Nomen und Genitiv- und Prapositionalobjekten Abtrennbare Verbpraxe Extraposition von Relativsatzen, da-Satzen und um-zu-Innitiven Negationspartikel Einfuhrung eines freien Adjunkts pro subkategorisiertem Vollverb Die GPS-Grammatik des Deutschen, die im Projekt KIT-FAST verwendet wird, basiert auf [Uszkoreit 84]. Sie geht im wesentlichen von einer achen Satzstruktur aus, in der das Verb und alle seine Argumente in einer ID-Regel vorkommen. Ein Fragesatz wird dann direkt durch eine solche ache Struktur reprasentiert. In einem Deklarativsatz wird eine Konstituente vorangestellt, d.h. mithilfe des Foot-Merkmals slash, des FFPs und einer slash-Einfuhrungsmetaregel in die Position am Satzanfang gebracht. Die ache Satzstruktur kann ebenfalls als Schwesterkonstituente eines Hilfsverbs (Perfekt, Futur, Passiv oder Modal) vorkommen. Wenn mehrere Hilfsverben vorkommen, wird die ache Struktur zunachst mit dem Passivhilfverb zu einer neuen satzwertigen Konstituente zusammengefat. Diese Konstituente wird dann mit dem Perfekthilfsverb ebenfalls zu einer satzwertigen Konstituente zusammengefat. Analoges gilt auch fur das Modal- und das Futurhilfsverb. Wenn in einem Deklarativsatz Hilfsverben vorkommen, wird die zu topikalisierende Konstituente entsprechend weit transportiert. Da die relativ einfache Beschreibung von Koordinations-Phanomenen als ein besonderer Vorteil des GPSG-Formalismus gilt, war es notwendig, diese Hypothese bei der deutschen Syntax zu uberprufen. In der ursprunglichen Version der GPSG aus [Gazdar et al. 85] werden alle Koordinationsregeln unter ein Schema zusammengefat. Wir muten uberprufen, ob sich diese Regeln in der konstruktiven Version der GPSG unseres Projekts ubernehmen lieen. Das Regelschema enthalt eine iterative Regel mit Kleene-Star, auf die wir aus formalen Grunden verzichten, da die Umsetzung des Kleene-Stars in PS-Regeln zu einer Grammatik mit aufzahlbar unendlich vielen Regeln fuhrt, die nicht mehr kontextfrei ist. Desweiteren beschranken wir die Koordinationsregeln auf Rechts-Rekursivitat, um Mehrfachanalysen zu vermeiden. Wir verwenden stark unterspezizierte Regeln und kommen somit pro Konjunktion mit drei Regeln (davon eine rekursive Regel) aus. Da in der ursprunglichen GPSG die koordinierten Kategorien nur von der HeadFeature-Convention (HFC) eingeschrankt werden, ergibt sich eine sehr tolerante Anwendung der Regeln, die z.B. auch die Koordination unterschiedlicher Hauptkategorien zulassen wie in sie ist energisch und von groer beredsamkeit. Die Unterspezikation der Regeln fuhrt allerdings zu einem erheblichen Mehraufwand bei der automatischen Verarbeitung, da die Regeln auch in nicht koordinativen Strukturen zunachst anwendbar scheinen. Die A nderung der Merkmalinstantiierungsprinzipien (siehe Abschnitt 7.1.1) war Voraussetzung dafur, die Koordination mit und, Objekt-kontrollierte Innitive und Relativpronomen in allen Kasus in das Fragment aufzunehmen. Die Nominalgruppensyntax umfat adjektivische und determinale Quantoren. Dabei wurde eine Determiner-Phrase-Analyse in Anlehnung an die Rektions- und Bindungstheorie von Chomsky fur den Nominalkomplex eingefuhrt. 61 Eine ausfuhrliche Beschreibung der Grammatiken geben [Preu 87], [Preu 89] und zum Teil auch [Busemann 92]. 7.2.2 Semantische Analyse Die semantische Analyse bildet GPSG-Strukturen des Deutschen in FAS-Ausdrucke des Deutschen ab. Die Strategie der Abarbeitung der Ausgangsstruktur wird im wesentlichen durch folgende Probleme bestimmt: Topikalisierte oder extraponierte Konstituenten sind Tochterknoten des Wurzelknotens der GPSG-Struktur und treten in der FAS in der zugehorigen FunktorArgument-Ebene auf (impliziert top-down Strategie). Die Abbildung der Oberachenkasus in die Tiefenkasus (semantische Rollen) kann erst nach dem \Rucktransport" der topikalisierten bzw. extraponierten Konstituenten erfolgen, da erst dann alle zugehorigen Funktoren bzw. Argumente vorhanden sind. Possessivpronomen sind in der FAS Argumente des nominalen Pradikates (Hauptkategorie n-pred). In der syntaktischen Struktur werden sie als Determinatoren aufgefat und mussen deshalb innerhalb der Nominalphrase an beliebig vielen Modikatoren und Relativsatzen vorbei bis zum Nomen \transportiert" werden (impliziert top-down Strategie). Die Negation wird immer als Satznegation aufgefat und in der FAS in der obersten clause-Konstruktion reprasentiert (impliziert bottom-up Strategie). Informationen uber Tempus und Modus stehen in der GPSG-Struktur am Hilfsoder Vollverb. In der FAS werden sie an einem hoheren Knoten reprasentiert (impliziert bottom-up Strategie). Aus den Erfordernissen der semantischen Analyse ergibt sich somit die Tatsache, da sie nur in zwei Phasen durchgefuhrt werden kann. In der ersten Phase wird die GPSG-Struktur bottom-up abgearbeitet und in der anschlieenden Phase top-down. Auerdem benotigt man fur die Abbildung des Oberachenkasus in den Tiefenkasus in der bottom-up Phase sowohl syntaktische als auch semantische Informationen. Beide Grunde legen nahe, eine Zwischenebene einzufuhren, welche die Reprasentation hybrider (syntaktischer und semantischer) Informationen erlaubt. In der ersten Phase, in der bottom-up vorgegangen wird, werden die ausgangssprachlichen Kategorien durch hybride Kategorien und anschlieend wahrend der topdown Phase die hybriden Kategorien durch zielsprachliche Kategorien ersetzt. Die hybride Ebene tritt nach auen hin nicht in Erscheinung. Die Termordnung fordert dann, da in einer TE-Regel eine ausgangssprachliche Kategorie geloscht oder durch mindestens eine hybride oder zielsprachliche Kategorie ersetzt wird. Eine andere Moglichkeit ist, eine hybride Kategorie zu loschen oder durch mindestens eine zielsprachliche Kategorie zu ersetzen. Letzteres mu gelten, wenn auf der linken und rechten Seite einer TE-Regel die gleiche Anzahl von Kategorien der Ausgangssprache vorkommt. In der ersten Phase werden das Negations-Partikel und die Information uber Perfektiv, Passiv, Futur, Prasens/Imperfekt und Indikativ/Konjunktiv nach oben \transportiert", um sie am obersten v-pred-, clause- bzw. clausen-Knoten zu reprasentieren. 62 fas op: illoc illoc clausefin sem: ass op: fin, perf: + assertion fin clause pres: + pres-ind op: pred v-pred term conf: at-as them: 2 sem: rel .. gehoren-zu term op: det role: attribuant them: 3 sem: dom op: det role: associated them: 1 sem: dom det nom det nom num: sing sem: top op: pred sem: dom num: plur sem: ana op: pred sem: dom def-sing n-pred conf: no sem: dom elektronik dies n-pred conf: no sem: dom technologie Abbildung 27: FAS-Ausdruck fur zu diesen technologien gehort die Elektronik In der zweiten Phase wird dann, falls vorhanden, eine topikalisierte und/oder extraponierte Konstituente, die am Wurzelknoten der GPSG-Struktur steht, an ihre kanonische Position innerhalb der FAS entlang des Wertes fur das Merkmal slash in der Struktur zuruckgefuhrt und anschlieend die Oberachenkasus in die entsprechenden semantischen Rollen ubersetzt. Diese Abbildung erfolgt mithilfe einer Zuordnungstabelle, die Daten uber syntaktische und semantische Subkategorisierung und Oberachen- und Tiefenkasus enthalt. Auf sie kann mithilfe eines Pradikates im Bedingungsteil einer TE-Regel zugegrien werden. Die Information uber das Genus Verbi, die ebenfalls fur die Abbildung benotigt wird, ist implizit in der syntaktischen Subkategorisierung enthalten. Auerdem werden Possessivpronomen in die Argumentposition des entsprechenden nominalen Pradikates transportiert. Da die Information uber Indikativ oder Konjunktiv nicht in der GPSG-Struktur reprasentiert wird, werden in der semantischen Analyse alle Satze in den Indikativ abgebildet. Dieses Problem lat sich aber durch Einfuhrung eines entsprechenden Merkmals in der GPSG beheben. 7.2.3 Konzeptuelle Analyse Die Ausgangsstrukturen der konzeptuellen Analyse sind FAS-Ausdrucke des Deutschen, die in ATL-Strukturen des Deutschen abgebildet werden. Dies wird am Beispiel der Ableitung der ATL-Struktur in Abbildung 26, die hier als Abbildung 28 wiederholt ist, aus der FAS in Abbildung 27 demonstriert. Die konzeptuelle Analyse erfolgt im wesentlichen bottom-up und in einer Phase. Aufgrund der groen strukturellen A hnlichkeit von FAS-Ausdrucken und ATL-Struk63 atl equal(obj-ref:uc_1) with(inv:-,role:attribuant) .. gehoren-zu with(inv:-,role:associatet) equal(obj-ref:uc_2) equal(obj-ref:uc_3) elektronik technologie Abbildung 28: ATL-Struktur fur zu diesen technologien gehort die Elektronik n_pred(g,REF) equal(atl,REF) X Bedingung: lex(X,X’) v_pred(g,REF) equal(atl,REF) X Bedingung: lex(X,X’) X’ X’ Abbildung 29: Lexikalische TE-Regeln in der konzeptuellen Analyse turen besteht die konzeptuelle Analyse uberwiegend aus der Reduktion der FASAusdrucke. Dabei werden aus den FAS-Ausdrucken die Referenzen auf ABox-Objekte, die Diskursobjekte reprasentieren, und die semantischen Rollen in den ATL-Strukturen ubernommen. Die Konzepte der Diskursobjekte werden in der TBox reprasentiert. Die TBox-Konzepte werden durch Zugri auf ein FAS-ATL-Lexikon aus den FASTerminalen und -Praterminalen ermittelt. Die Referenzen, semantischen Rollen und TBox-Konzepte werden durch die Merkmale obj-ref , inv/role bzw. durch die Terminale hconcepti der Syntax fur ATL-Strukturen in Abbildung 23 reprasentiert. Die FAS-Ausdrucke werden bottom-up abgearbeitet, d.h. zunachst werden die terminalen und preterminalen Symbole der FAS ersetzt. Abbildung 29 gibt die TE-Regeln an, die in ihrem Bedingungsteil auf das Abbildungslexikon fur den U bergang von der semantischen zur konzeptuellen Reprasentation zugreifen. Anschlieend folgen die strukturellen TE-Regeln, von denen Abbildungen 30 und 31 zwei Beispiele sind. Sie bilden die Argumente mit der Hauptkategorie term bzw. den obersten Knoten der FAS, der immer die Hauptkategorie fas hat, ab. Die bottom-up Verarbeitung der FAS ist implizit in den TE-Regeln kodiert. Die Berechnung der Reihenfolgerelation (siehe Abschnitt 6) ergibt, da die lexikalischen TE-Regeln in Abbildung 29 vor den beiden anderen TE-Regeln angewendet werden, die in der Reihenfolge unabhangig sind. Nach der konzeptuellen Analyse bildet eine Post-Routine die ATL-Struktur einszu-eins in ATL-Ausdrucke gema der Syntax des BACK-Systems ab (siehe Abterm(g,REF,ROLE) with(atl,-,ROLE) det(g) nom(g,REF) equal(atl,REF) X equal(atl,REF) Z Z Y Y Abbildung 30: TE-Regel fur die Abbildung eines Arguments 64 fas(g) illoc(g) W clausefin(g,REF) fin(g) atl(atl) clause(g,REF) X equal(atl,REF) Z equal(atl,REF) Z Y Y Abbildung 31: TE-Regel fur die Abbildung des obersten FAS-Knotens schnitt 7.1.3). Diese Routine extrahiert Pronomen, die zunachst nicht in die ABox eingetragen werden durfen, da die Referenz fur die jeweiligen Antezedenten durch die Auswertungskomponente fur anaphorische Bezuge ermittelt werden mu, bevor die Informationen daruber in die ABox eingetragen werden durfen. Andernfalls wurden die Pronomina vom BACK-System als neue ABox-Objekte eingetragen. Dies wird nur bei Pronomina gemacht, fur die kein Antezedent gefunden wird. Sie werden quasi als deiktische Anapher aufgefat. Die Informationen uber Relativpronomen und implizite Subjekte, die sich auf ein Pronomen beziehen, werden wie die Information uber Pronomina erst nach Abschlu der Auswertung der anaphorischen Bezuge durch die Anapherninterpretationskomponente in die ABox eingetragen. Die Information wird dabei unter dem ABox-Objekt eingetragen, welches das Antezedens reprasentiert (siehe Abschnitt 7.1.3). Samtliche Informationen, die sich nicht auf Pronomina beziehen, werden vor Beginn der Auswertungskomponente in die ABox eingetragen, damit fur die Bewertung der semantischen Konsistenz moglicher Antezedenten die maximal verfugbare Information in der ABox vorhanden ist. Individuale Konzepte wie zum Beispiel Eigennamen werden vor dem Eintrag in die ABox durch Anfragen an die TBox und ABox mithilfe des BACK-Systems uberpruft. Wenn ein individuales Konzept bereits eine Referenznummer in der ABox hat, werden die entsprechenden Informationen unter dieser Referenz eingetragen. Andernfalls kommen sie im Diskurs das erste Mal vor und bekommen eine neue Referenznummer. Nach der Auosung der anaphorischen Bezuge und dem Eintrag der Informationen, die sich auf anaphorische Ausdrucke bezieht, in die ABox sind alle Variablen fur die Werte des Merkmals ref im entsprechenden FAS-Ausdruck durch Variablenbindung instantiiert und stehen fur den Transfer zur Verfugung. 7.2.4 Transfer Die Ausgangsstrukturen des Transfers sind FAS-Ausdrucke des Deutschen und die Zielstrukturen FAS-Ausdrucke des Englischen. Die Ausgangsstruktur wird im wesentlichen bottom-up und von rechts nach links abgearbeitet, d.h. die lexikalischen Transferregeln werden vor den strukturellen angewendet und die Argumente werden vor den Funktoren ersetzt. Von den 250 Transferregeln sind der uberwiegende Teil lexikalisch (ca. 80%). Aufgrund der Tatsache, da die FAS auf die speziellen Bedurfnisse des Transfers zugeschnitten wurde und die FAS des Deutschen und Englischen bis auf die Terminalsymbole sehr ahnlich sind, werden relativ wenig strukturelle Transferregeln benotigt. Strukturelle Transferregeln sind fur die eins-zu-eins Abbildungen und fur strukturelle A nderungen notwendig. Da die ersteren relativ uninteressant sind, gehe ich im 65 folgenden nur auf die Transferregeln ein, die strukturelle A nderungen vornehmen: Wenn in einem deutschen Satz ein Argument eines Verbs in der thematischen Struktur vor dem Subjekt vorkommt, so wird, falls moglich, das Verb im Englischen passiviert oder eine lexikalische Konverse als U bersetzung gewahlt, um die thematische Satzstruktur so weit wie moglich beizubehalten. Wird ein Nomen in ein Singulartantum (engl. mass noun) ubersetzt, wird ein evtl. vorkommender Artikel in einen indeniten Artikel ubersetzt, der auf der Oberache nicht realisiert wird. Falls ein deutsches Nomen im Plural steht wird alternativ dazu auch die U bersetzung in pieces of + Nomen zugelassen. Das Wort viel wird im Deutschen als Adjektiv und im Englischen als Artikel behandelt. In Verbindung mit einem aufzahlbaren Nomen (engl. count noun) wird es in many und mit Singulariatantum in much ubersetzt. Die U bersetzung von Funktoren (Verben, Nomen und Adjektive) wird in der Regel von den semantischen Rollen und Merkmalen der Argumente abhangig gemacht. Dabei ndet zum Teil ein Wechsel der Werte dieser semantischen Merkmale statt. Dieses Phanomen wurde aber nicht naher systematisiert. Einige feste Syntagmen wurden sowohl auf der ausgangs- als auch auf der zielsprachlichen Seite berucksichtigt, wie z.B. grundlagenforschung in basic research, auerdem in in addition, abstutzen auf in to be based on, in ihrer groenordnung zu gering sein in to be too small, gefahrden in to be at stake und abhangen von in to be dependant on. Wenn ein festes Syntagma (z.B. ein Funktionsverbgefuge) in der Ausgangssprache vorkommt, so kann es adaquat mit Defaultregeln behandelt werden. Die Regel, deren linke Seite das feste Syntagma beschreibt ist spezischer als die der Transferregel, welche die U bersetzung des Funktionsverbs allein beschreibt. Idiome in der Ausgangssprache konnen analog zu festen Syntagmen adaquat mit Defaultregeln ubersetzt werden. Falls Satze mit der gleichen subordinierenden Konjunktion koordiniert werden, wird in der Zielsprache nur eine Konjunktion eingefuhrt und die beiden Satze koordiniert. Das Demonstrativpronomen diese wird in das englische anaphorische Adjektiv such ubersetzt, wenn das determinierte Nomen im Englischen zu einer Klasse gehort, bei der der Artikel wegfallt, z.B. diese technologien in such technologies. Kommt im Deutschen das Adjektiv solch in Verbindung mit einem indeniten Artikel vor, z.B. eine solche projektbeteiligung, so wird der indenite Artikel im Englischen auf der Oberache nicht realisiert (such coparticipation). Im Englischen wird ein Merkmal fur die progressive Form eingefuhrt. Dabei wird das Prasens im Deutschen entweder in das Prasens oder das Progressiv ubersetzt, so da in diesem Fall zwei U bersetzungen resultieren. 66 7.2.5 Generierung Die Ausgangsstruktur der Generierung ist ein englischer FAS-Ausdruck und die Zielstruktur eine entsprechende syntaktische Struktur. Die Probleme dabei sind im groen und ganzen dieselben wie in der semantischen Analyse, nur umgekehrt. Ein Argument aus der Funktor-Argument-Ebene mu als Subjekt der syntaktischen Struktur realisiert werden. Falls erforderlich, mu ein Argument des Verbs topikalisiert werden. Die semantischen Rollen mussen in die entsprechenden Oberachenkasus abgebildet werden. Die Possessivpronomina, die in der FAS als Argument des Nomens auftreten, werden zum Determinator des Nomens. Die Informationen uber Perfekt, Progressiv und Futur sind in der FAS als Merkmalspezikationen reprasentiert und dafur mussen entsprechende Hilfsverben erzeugt werden. Die Generierung arbeitet im wesentlichen top-down. Da aber fur die Abbildung der semantischen Rollen in die Oberachenkasus an den Funktoren hybride Informationen (semantische Konguration und syntaktische Subkategorisierung) notwendig sind, werden zunachst die Verben, Nomen und Adjektive in entsprechende hybride Funktoren abgebildet. Erst danach wird die Struktur top-down abgearbeitet, indem zunachst der oberste Satzknoten eingefuhrt wird. Anschlieend wird uberpruft, ob ein Argument zu topikalisieren bzw. extraponieren ist. Die zu topikalisierende bzw. extraponierende Konstituente darf nicht den Kasus Nominativ bekommen. Fur die Einfuhrung des Subjekts ist eine andere TE-Regel zustandig. Sie fuhrt die Nominalphrase im Nominativ oder des expletive it bzw. there als Subjekt ein. Die Kasus werden durch einen Zugri auf die Kasus-Rollen-Tabelle uber den Bedingungsteil der TE-Regeln ermittelt. Falls eine Konstituente weder zu topikalisieren noch zu extraponieren ist, wird nur das Subjekt des Satzes eingefuhrt. Dieses lat sich dadurch erkennen, da das Argument, das als Oberachenkasus den Nominativ bekommt, in der thematischen Struktur des Satzes an erster Stelle vorkommt. Danach werden die erforderlichen Hilfsverben eingefuhrt. Es gibt 8 TE-Regeln, welche die Hilfsverben fur Futur, Perfekt und Progressiv generieren. Es sind insgesamt 8 TE-Regeln notwendig, um die Termordnung einhalten zu konnen, weil nur ein Knoten des FAS-Ausdrucks ersetzt werden kann. Da die Hilfsverben durch drei zweiwertige Merkmale kodiert sind, gibt es 8 Kombinationen. Anschlieend werden Modalverben realisiert, falls vorhanden, und das Passivhilfsverb an unterster Stelle nach den anderen Hilfsverben eingefuhrt. Nachdem alle Hilfsverben generiert wurden, werden die semantischen Rollen der Argumente des Verbs in die jeweiligen Oberachenkasus abgebildet. Die entsprechende Regel greift uber den Bedingungsteil auf die Kasus-Rollen-Tabelle zu. Solche Regeln sind ebenfalls fur Nomen und Adjektive deniert. Possessivpronomina sind in der FAS als Argumente des Nomens realisiert. Dies erlaubt eine einheitliche Behandlung von Personal- und Possessivpronomina in der Anaphernresolution. Deshalb wird ein Possessivpronomen durch eine TE-Regel von der Argumentposition des Nomens in die Determinatorposition transportiert. Dabei 67 erfolgt der Transport an beliebig vielen Modikatoren vorbei innerhalb des nominalen Komplexes. Falls kein Possessivpronomen vorhanden ist, wird ein Artikel gema der Spezikationen in der FAS generiert. Die entsprechende TE-Regel und diejenige fur die Abbildung des Possessivpronomens bilden einen Verzweigungspunkt. Dies entspricht der Tatsache, da ein Possessivpronomen sowohl als Determinator als auch als Prapositionalattribut des Nomens realisiert werden kann (his vs. of him). Gleichzeitig ist die linke Seite der Regel fur die Abbildung des Determinators allgemeiner als die fur die Abbildung des Possessivpronomens, so da beide Regeln auerdem in Defaultrelation stehen. Hier mu der Regelschreiber entscheiden, ob ein Verzweigungspunkt erzeugt werden soll oder nicht. Fur das im MU -System eingesetzte TE-System wurde der Verzweigungspunkt erzeugt, so da immer zwei Losungen erzeugt werden, wenn ein Possessivpronomen in einem FAS-Ausdruck vorkommt. 68 8 Perspektiven fur zukunftige Forschung im Bereich MU Voraussetzungen Zur Zeit ndet auf europaischer Ebene wie in der BRD eine Neuorientierung der Forschung im Bereich Maschinelle U bersetzung statt. Das LRE-Programm der EG fordert nicht mehr spezisch Maschinelle U bersetzung, sondern zielt auf eine generelle Entwicklung des NLP-Bereichs. Dabei soll einerseits der Anwenderbezug verstarkt werden, andererseits sollen die sprachtechnologischen Grundlagen erweitert und neueste Ergebnisse der Computerlinguistik einbezogen werden. In der BRD wird seitens des BMFT ein Groprojekt zur U bersetzung gesprochener Sprache geplant. Dabei steht die Verbindung von Akustik, Linguistik und Maschineller U bersetzung im Vordergrund. Die Begleitforschung zu EUROTRA-D hatte die Aufgabe, neuere Forschungsergebnisse aus Linguistik und Informatik fur die Maschinelle U bersetzung verwertbar zu machen sowie Methoden und Verfahren zur exemplarischen Losung von MU -Problemen zu entwickeln. In diesem Rahmen hat sich das Projekt KIT-FAST in der letzten Phase mit Anaphernresolution in der MU beschaftigt. Dieses Problem beinhaltet mehrere Aspekte, die fur die MU dringlich sind: die U bersetzung von Texten statt einzelner Satze, den Einbezug von Hintergrundwissen, die Einbindung eines Wissensreprasentationssystems, die Entwicklung von Losungsstrategien auf der Basis von Wissen, das nicht als sicher angesehen werden kann. Die bisherigen Ergebnisse zeigen, da der eingeschlagene Weg vielversprechend ist. Problemanalyse Die Erfahrungen aus EUROTRA, aus der eigenen Arbeit in der Begleitforschung, aber auch aus anderen NLP-Projekten wie Lilog zeigen ein gemeinsames und unserer Einschatzung nach dringliches Problem, das im allgemeinen als Problem der Desambiguierung verstanden wird: Das System ist nicht in der Lage, zwischen verschiedenen Moglichkeiten zu wahlen, d.h. zu entscheiden, welches die \richtige" Alternative ist und damit diejenige, die weiterverfolgt werden mu. Das betrit die verschiedensten Bereiche: man spricht von lexikalischen, strukturellen, referentiellen, auch von innersprachlichen und zielsprachen-bezogenen Ambiguitaten usw. Die Auswirkungen sind fur groe Systeme fatal, weil die Moglichkeiten sich potenzieren und die Systeme dadurch inezient bis hin zu unbeherrschbar werden. Ambiguitaten treten immer da auf, wo im System die Information fehlt, um fur eine/gegen andere Alternativen zu entscheiden. In den meisten Fallen handelt es sich dabei um Probleme, die sich menschlichen U bersetzern gar nicht stellen, weil ihnen die entscheidende Information zur Verfugung steht. In Systemen kann die Information aus zwei Grunden fehlen: Entweder die Information ist im Prinzip vorhanden, aber nicht zuganglich, oder sie ist tatsachlich nicht vorhanden. Wenn Informationen, die zur Desambiguierung notig waren, zwar im Prinzip im System vorhanden sind, aber an der entsprechenden Stelle nicht verfugbar, dann handelt 69 es sich um ein Problem der Informationsverteilung bzw. der Verarbeitungsstrategie. Es gibt in den gangigen Systemen verhaltnismaig viel Wissen uber einzelne Phanomene aus dem Kernbereich von Sprachverarbeitung. Die Modi der Informationsstrukturierung und damit verknupft die Strategien, die Information zu verarbeiten, orientieren sich aber in der Regel an klassischen Modellen der Sprachverarbeitung (die ihrerseits offensichtlich in Anlehnung an inzwischen uberholte Informationsverarbeitungstechniken entstanden sind). Um das Problem ungunstiger Informationsverteilungen und Verarbeitungsstrategien zu umgehen, wird oft Information mehrfach gehalten. Es entstehen Redundanzen, die allgemein zu erhohter Fehleranfalligkeit fuhren. Auf Grund der Redundanzen wird oft auch, bezogen auf das jeweilige Problem (z.B. U bersetzung einer bestimmten Einheit), zu viel berechnet und dadurch entstehen zusatzliche \hausgemachte" Ambiguitaten. Wenn Information tatsachlich im System nicht vorhanden ist, handelt es sich meistens um Wissen, das schwierig zu formalisieren und in ein System zu integrieren ist. Das betrit z.B. Wissen aus dem Text kontextuelle Faktoren Alltagswissen Diese Typen von Wissen sind zunehmend problematisch, weil man nicht vorhersagen kann, was relevant ist, weil es sich meistens um unsicheres Wissen handelt und weil solches Wissen nicht begrenzbar ist. Bei Alltagswissen wei man gar nicht mehr, wo anfangen und wo aufhoren. Man sollte sich daruber im klaren sein, da es trotz aller Verbesserungsmoglichkeiten Bereiche von Wissen gibt, die fur Desambiguierung erforderlich sein konnen, die aber (in absehbarer Zeit) nicht formalisierbar sind (vor allem groe Teile des Alltagswissens). Und es gibt Ambiguitaten, die auch ein menschlicher U bersetzer nicht oder nur mit hohem Aufwand (Ruckfrage bei Autor etc.) losen kann. Solche Ambiguitaten sollen naturlich nicht ad hoc aufgelost werden. Wir denken, da die aufgezeigte Problematik grundlegend fur weitere Entwicklungen im Bereich MU ist. Unseres Erachtens ist es wenig erfolgversprechend, die isolierte Bearbeitung von Teilaspekten der Maschinellen U bersetzung fortzusetzen wie bisher. Auch wenn diese als Arbeitsthemen erhalten bleiben, kann ein qualitativer Sprung nur durch eine neue Herangehensweise erreicht werden, die die U bersetzung als Gesamtproblem betrachtet, die Relevanz von Teilaspekten am Gesamtproblem mit, strikt problemorientiert auf die MU geschriebener Sprache vorgeht. Perspektiven einer problemorientierten Forschung zur Maschinellen U bersetzung geschriebener Sprache Eine problemorientierte Herangehensweise beinhaltet einen deutlichen Wechsel der Methode: Statt die klassische Dekomposition des MU -Problems in Syntax, Semantik usw. 70 als gegeben zu betrachten und diese Komponenten getrennt und ohne direkten Problembezug zu bearbeiten, geht man aus von der konkreten zu bearbeitenden U bersetzungsbeziehung, z.B. Deutsch-Englisch, und macht diese zum Mastab aller weiteren Schritte. (Eine problemorientierte Vorgehensweise konnte im ubrigen auch fur andere NLP-Systeme ein Gewinn sein.) Das erfordert eine erneute Betrachtung der U bersetzungsrelation unter verschiedenen Aspekten: welche Typen von Information sind erforderlich? wie interagieren die verschiedenen Typen von Information? kann die verwendete Information als sicher aufgefat werden, bzw. als wie einureich kann sie im Verhaltnis zu anderen bewertet werden? welche Ambiguitaten treten auf, werden sie (spater?) entschieden, wenn ja, wodurch? wie wird der U bersetzungsproze bei menschlichem U bersetzen dekomponiert? welche Strategien werden verwendet? Im Lichte dieser Untersuchung der U bersetzungsbeziehung mu das zur Zeit vorhandene Wissen uberpruft und erganzt werden. Die gestellten Fragen konnen allerdings nicht von Informatikern und Linguisten allein beantwortet werden. Hier ist eine enge Zusammenarbeit mit U bersetzern erforderlich. Wir gehen davon aus, da zumindestens in absehbarer Zeit vollautomatische U bersetzung hoher Qualitat nicht realisierbar ist, schon weil das erforderliche Wissen nicht begrenzbar ist. Daraus folgt, da man fur die Praxis interaktive Systeme bauen mu. Dazu mu aber der Proze des U bersetzens erst einmal bis zu einem gewissen Grad verstanden und die Grenzen der automatischen U bersetzung geklart sein. Eine Forschung mit der Leitidee der vollautomatischen U bersetzung hoher Qualitat kann dazu beitragen, wenn sie den U bersetzungsproze als Ausgangspunkt nimmt. In diesem Sinne protieren die Forschung und die Anwender von einer Kooperation: die Forschung gewinnt Erkenntnisse uber ihren Gegenstandsbereich, die Anwender lernen die Moglichkeiten und Grenzen automatischer U bersetzung kennen und konnen ihre Vorstellungen in eine Konzeption von interaktiven Systemen einbringen. Der vorgeschlagene Ansatz impliziert auf der Systemseite zwei Kernthemen: welche Informationen sind fur den U bersetzungsproze erforderlich und wie lassen sie sich klassizieren? wie werden die Informationen strukturiert und wie sehen die Verarbeitungsstrategien aus? Fur beide Aspekte bildet der Problembezug auf U bersetzung, konkret die Ergebnisse der oben beschriebenen Untersuchung der U bersetzungbeziehung, Vorausetzung und Mastab. Im Hinblick auf den ersten Aspekt ist eine Klassikation erforderlich, die verschiedene Gesichtspunkte einbezieht. Zu den klassischen Arten von Wissen wie Syntax und verschiedene Aspekte von Semantik werden sicher weitere hinzukommen wie domainspezisches Wissen, Alltagswissen, Kontextinformation und Information aus dem 71 Text. Daneben sind aber auch Kriterien erforderlich, die quer dazu liegen, etwa sicheres vs. nicht sicheres Wissen, textuelles vs. kontextuelles Wissen und sprachliches vs. auersprachliches Wissen. Es ist durchaus denkbar, da sich dadurch Ruckwirkungen auf die klassischen Bereiche ergeben. Zum Beispiel kann es sinnvoll sein, unsicheres syntaktisches Wissen einzusetzen (Stichwort: robustes Parsing). Das zweite Thema ist das der Informationsstrukturierung und Verarbeitungsstrategien. Beides gehort direkt zusammen, denn die Verteilung der Information im System und ihre Reprasentation sollen direkt auf die Anforderungen der Verarbeitungsstrategien zugeschnitten sein. Ein erster Ansatz zu einer Informationsverteilung, bei der die klassischen \Ebenen" in der Architektur aufgegeben werden, ist in HPSG zu erkennen. Hier steht die gesamte Information in einem wissensreprasentationsahnlichen Format \nebeneinander". Wie dort fassen wir samtliche Informationen als Wissen auf, d.h. Regeln und Fakten jeglicher Art werden uniform reprasentiert. Allerdings werden die gangigen Wissensreprasentationsformalismen (insbesondere auch eingeschrankte wie TFS) wahrscheinlich nicht ausreichen, weil ihnen im allgemeinen fur den U bersetzungsproze essentielle Features fehlen, etwa geeignete Modularisierungskonzepte exible und dierenzierbare Verarbeitungsstrategien angemessener Umgang mit unsicherem Wissen, (z.B. die beste aller moglichen Losungen zu berechnen, Revisionstechniken) Hier wird man Techniken aus dem objektorientierten Paradigma, aber auch aus aus dem Bereich der Theorembeweiser und der Defaultverarbeitung auf ihre Eignung prufen und evtl. kombinieren mussen. Fur inhaltliche und technische Aspekte des U bersetzungssystems gilt aber gleichermaen, da sie sich am menschlichen U bersetzungsproze orientieren sollen. Das heit nicht, automatische U bersetzung solle kognitiv adaquat (wie immer deniert) sein. Sondern es verlangt ein Vorgehen, wie es im modernen Software-Engineering ublich ist: Die Kenntnisse und Fahigkeiten der Benutzer werden von vorneherein in die U berlegungen miteinbezogen und die Systementwicklung wird in Kooperation mit ihnen durchgefuhrt. Das Ziel einer problemorientierten MU -Forschung ist ein interaktives System zur maschinellen U bersetzung geschriebener Sprache, das auf fundierten Kenntnissen des menschlichen U bersetzungsprozesses und der Moglichkeiten der automatischen U bersetzung beruht. Konklusion Der hier vorgeschlagene Methodenwechsel in der MU -Forschung, der den zu modellierenden Proze zum Ausgangspunkt aller U berlegungen macht, bedeutet naturlich nicht, da die bisherigen Untersuchungen zur MU geschriebener Sprache ignoriert werden konnten und man von vorne anfangen mute. Vielmehr kann auf den Ergebnissen von Eurotra und Begleitforschung aufgebaut werden. Das betrit hinsichtlich der 72 Arbeit des Projekts KIT-FAST vor allem Aspekte wie die Entwicklung von problemorientierten Modellen der MU , Kriterien der Desambiguierung und die Einbeziehung von Text- und Hintergundwissen in den Interpretationsproze. Daruber hinaus sind aber empirische Untersuchungen zum U bersetzungsproze in Kooperation mit U bersetzungstheoretikern und -praktikern notwendig, wie sie bisher in der MU -Forschung noch nicht durchgefuhrt wurden. 73 Publikationen [Ballmann/Dunker 91] S. Ballmann, G. Dunker, Entwurf und Implementierung fur den Kalkul getypter Deklarationen, Studienarbeit, FB Informatik, Technische Universitat Berlin 1991 [Busemann 87] S. Busemann, Generierung mit GPSG, in: Proceedings 11th German Workshop on Articial Intelligence (GWAI-87), Geseke 1987, Springer, Berlin 1987, S. 355-364, auch als KIT Report 49, Technische Universitat Berlin 1987 [Busemann 88] S. Busemann, Zum Lexikonzugri bei der Generierung mit GPSG, in: H. Trost (Hrsg.): 4. Osterreichische Articial-Intelligence-Tagung. Proceedings Wiener Workshop Wissensbasierte Sprachverarbeitung, Springer, Berlin 1988, S. 164-170 [Busemann 92] S. Busemann, Generierung naturlicher Sprache mit Generalisierten Phrasenstruktur-Grammatiken, Informatik Fachberichte 313, Springer, Berlin 1992, auch als KIT Report 87, Technische Universitat Berlin 1990 [Busemann/Hauenschild 88a] S. Busemann, Ch. Hauenschild, A Constructive View of GPSG or How to Make it Work, in: Proceedings 12th COLING-88, Budapest 1988, S. 77-82, auch als KIT Report 60, Technische Universitat Berlin 1988 [Busemann/Hauenschild 88b] S. Busemann, Ch. Hauenschild, Lexikalisches Wissen im Berliner GPSG-System, LDV-Forum 5 Nr. 4, S. 68-70 [Busemann/Hauenschild 89] S. Busemann, Ch. Hauenschild, From FAS Representations to GPSG Structures, in: [Busemann/Hauenschild/Umbach 89], S. 17-43 [Busemann/Hauenschild/Umbach 89] S. Busemann, Ch. Hauenschild, C. Umbach (Hrsg.), Views of the Syntax/Semantics Interface, Proceedings Workshop GPSG and Semantics, KIT Report 74, Technische Universitat Berlin 1989 [Dunker/Umbach 93] G. Dunker, C. Umbach, Verfahren zur Anaphernresolution in KIT-FAST, KIT-Interner Arbeitsbericht in Vorbereitung, Technische Universitat Berlin 1993 [Hauenschild 86] Ch. Hauenschild, KIT/NASEV oder die Problematik des Transfers bei der maschinellen Sprachubersetzung, in: [Batori/Weber 86], S. 167-195 [Hauenschild 87a] Ch. Hauenschild, Textlinguistische Probleme der maschinellen Ubersetzung, in: R. Arntz (Hrsg.), Textlinguistik und Fachsprache, Akten des internationalen ubersetzungswissenschaftlichen AILA-Symposiums 13.-16. April 1987 in Hildesheim, Olms, Hildesheim 1988, auch in: Unesco ALSEDLSP Newsletter (Kopenhagen) Vol. 10, No. 2 (25) 1987, S. 11-24, auch als KIT Report 53, Technische Universitat Berlin 1987 [Hauenschild 87b] Ch. Hauenschild, KI-Methoden in der maschinellen Ubersetzung? , in: Proceedings 11th German Workshop on Articial Intelligence (GWAI87), Geseke 1987, Springer, Berlin 1987, S. 41-53, auch als KIT Report 54, Technische Universitat Berlin 1987 74 [Hauenschild 88a] Ch. Hauenschild, GPSG and German Word Order, in: U. Reyle, C. Rohrer (Hrsg.): Natural Language Parsing and Linguistic Theories Reidel, Dordrecht (Holland) 1988, S. 411-431, auch als KIT Report 52, Technische Universitat Berlin 1987 [Hauenschild 88b] Ch. Hauenschild, Discourse Structure { Some Implications for Machine Translation, in: D. Maxwell, K. Schubert, A.P.M. Witkam (Hrsg.), New Directions in Machine Translation, Proceedings of the Conference, Foris, Dordrecht 1988, S. 145-156, auch als KIT Report 62, Technische Universitat Berlin 1988 [Hauenschild 91] Ch. Hauenschild, Anaphern-Interpretation in der Maschinellen Ubersetzung, Zeitschrift fur Literaturwissenschaft und Linguistik 84 (1991), Vandenhoeck & Ruprecht, S. 50-66 [Hauenschild/Busemann 88a] Ch. Hauenschild, S. Busemann, A Constructive Version of GPSG for Machine Translation, in: [Steiner et al. 88a], S. 216-238, auch als KIT Report 59, Technische Universitat Berlin 1988 [Hauenschild/Busemann 88b] Ch. Hauenschild, S. Busemann, Bericht uber den zweiten externen Workshop der EUROTRA-D-Begleitforschung, KI 2, S. 12-15 [Hauenschild/Umbach 88] Ch. Hauenschild, C. Umbach, Funktor-Argument-Struktur, Die satzsemantische Reprasentations- und Transferebene im Projekt KITFAST, in: [Schutz 88], S. 16-35 [Kilbury 84] J. Kilbury, Earley-basierte Algorithmen fur direktes Parsen mit ID/ LPGrammatiken, KIT Report 16, Technische Universitat Berlin 1984 [Kindermann/Quantz 87] C. Kindermann, J. Quantz, Entwurf und Implementierung eines Editors mit integriertem Praprozessor fur ein GPSG-basiertes naturlichsprachliches System, KIT Interner Arbeitsbericht 18, Technische Universitat Berlin 1987 [KIT-FAST 91] Projekt KIT-FAST: S. Busemann, T. Eckard, M. Garry, Ch. Hauenschild, B. Mahr, A. MacLarnon, S. Preu, B. Schmitz, C. Umbach, W. Weisweber, Ch. Werner-Meier, L. Wilson, E. Ziegler, Schlubericht des Berliner Projekts der EUROTRA-D-Begleitforschung \Transfer und Generierung auf satzsemantischer Basis", KIT Report 88, Technische Universitat Berlin 1991 [Mahr 93] B. Mahr, Applications of Type Theory, erscheint in: Proceedings TAPSOFT-Conference, Springer Verlag, Berlin 1993 [Mahr/Strater/Umbach 90] B. Mahr, W. Strater, C. Umbach, Fundamentals of a Theory of Types and Declarations, KIT Report 82, Technische Universitat Berlin 1990 [Mahr/Umbach 90] B. Mahr, C. Umbach, Functor-Argument-Structures for the Meaning of Natural Language Sentences and Their Formal Interpretation, in: K.H. Blasius, U. Hedtstuck, C. Rollinger (Hrsg.), Sorts and Types in Articial Intelligence, Lecture Notes in Articial Intelligence, Springer, Berlin 1990, S. 286-304 75 [Preu 87] S. Preu, GPSG-Syntax fur ein Fragment des Deutschen, KIT Interner Arbeitsbericht 20, Technische Universitat Berlin 1987 [Preu 89] S. Preu, Koordination und Kongruenz in einer Verallgemeinerten Phrasenstrukturgrammatik, Magisterarbeit, FB Linguistik, Technischen Universitat Berlin 1989, auch als KIT Interner Arbeitsbericht 25, Technische Universitat Berlin 1989 [Preu et al. 92] S. Preu, B. Schmitz, Ch. Hauenschild, Anaphora Resolution Based on Semantic and Conceptual Knowledge, in: S. Preu, B. Schmitz (Hrsg.), Text Representation and Domain Modelling { Ideas From Linguistics and AI, Proceedings des Workshops, KIT Report 97, Technische Universitat Berlin 1992, S. 1-13 [Preu et al. 93] S. Preu, B. Schmitz, C. Hauenschild, C. Umbach, Anaphora Resolution in Machine Translation, erscheint in: W. Ramm, P. Schmidt, J. Schutz (Hrsg.), Studies in Machine Translation and Natural Language Processing, Volume on \Discourse in Machine Translation" [Schmitz 89] B. Schmitz, Ansatze zur modelltheoretischen Semantik der Koordination, KIT Interner Arbeitsbericht 24, Technische Universitat Berlin 1989 [Schmitz 90] B. Schmitz, Zur Wissensreprasentation in der Maschinellen Ubersetzung { Die mogliche Verwendung von KL-ONE {, KIT Report 80, Technische Universitat Berlin 1990 [Schmitz et al. 92] B. Schmitz, S. Preu, C. Hauenschild, Textreprasentation und Hin tergrundwissen fur die Anaphernresolution im Maschinellen Ubersetzungssystem KIT-FAST, KIT Report 93, Technische Universitat Berlin 1992 [Strater 92] W. Strater, T { Eine Logik erster Stufe mit Selbstreferenz und totalem Wahrheitspradikat, KIT Report 98, Technische Universitat Berlin 1992 [Umbach 87] C. Umbach, Zur semantischen Interpretation in der Theorie der GPSG, KIT Interner Arbeitsbericht 19, Technische Universitat Berlin 1987 [Umbach 89] C. Umbach, Terminterpretation von FAS-Strukturen, KIT Interner Arbeitsbericht 26, Technische Universitat Berlin 1989 [Weisweber 87] W. Weisweber, Ein Dominanz-Chart-Parser fur Generalisierte Phrasenstrukturgrammatiken, KIT Report 45, Technische Universitat Berlin 1987 [Weisweber 88a] W. Weisweber, Using Constraints in a Constructive Version of GPSG, in: Proceedings 12th COLING-88, Budapest 1988, S. 738-743, auch als KIT Report 61, Technische Universitat Berlin 1988 [Weisweber 88b] W. Weisweber, Rezension von [Naumann 88], in: Sprache und Datenverarbeitung 2/1988, S. 83-88 [Weisweber 89a] W. Weisweber, Transfer in MT by Term-Rewriting, in: SEKI-Report SR-89-02, Workshop Term-Ersetzung: Grundlagen und Anwendungen, Universitat Kaiserslautern 1989 76 [Weisweber 89b] W. Weisweber, Transfer in Machine Translation by Non-Conuent Term-Rewrite Systems, in: Proceedings 13th German Workshop on Articial Intelligence (GWAI-89), Eringerfeld, Springer, Berlin 1989, S. 264-269 [Weisweber 92] W. Weisweber, Term-Rewriting as a Basis for a Uniform Architecture in Machine Translation, in: Proceedings 14th COLING-92, Nantes 1992, S. 777-783, auch als KIT Report 101, Technische Universitat Berlin 1992 [Weisweber 93] W. Weisweber, Termersetzung als Basis fur eine einheitliche Architektur in der maschinellen Sprachubersetzung, Dissertation, FB Informatik, Technische Universitat Berlin 1993 [Weisweber/Hauenschild 90] W. Weisweber, Ch. Hauenschild, A model of Multi-Level Transfer for Machine Translation and Its Partial Realization, KIT Report 77, Technische Universitat Berlin 1990 und erscheint in: Proceedings Seminar Computers & Translation '89, Tbilisi 1989 [Weisweber/Preu 92] W. Weisweber, S. Preu, Direct Parsing with Metarules in: Proceedings 14th COLING-92, Nantes 1992, S. 1111-1115, auch als KIT Report 102, Technische Universitat Berlin 1992 [Werner-Meier 93] C. Werner-Meier, Konsistenzuberprufung eines MU-Lexikons { Eine Anwendung Terminologischer Logik {, KIT Interner Arbeitsbericht 29, Technische Universitat Berlin 1993 77 Weitere Literaturangaben [Baader et al. 91] F. Baader, H.-J. Burckert, J. Heinsohn, B. Hollunder, J. Muller, B. Nebel, W. Nutt, H.-J. Protlich, Terminological Knowledge Representation: A Proposal for a Terminological Logic, in: [Nebel et al. 91], S. ?? [Batori/Weber 86] I. Batori, H.J. Weber (Hrsg.), Neue Ansatze in Maschineller Sprachubersetzung: Wissensreprasentation und Textbezug, Niemeyer, Tubingen 1986 [Blasius/Burckert 87] K.H. Blasius, H.-J. Burckert, Deduktionssysteme, Automatisierung des logischen Denkens, Oldenbourg 1987 [Bosch 88] P. Bosch, Representing and Accessing Focussed Referents, in: Language and Cognitive Processes 3, 3 (1988), S. 207-231 [Briscoe et al. 87] T. Briscoe, C. Grover, B. Boguraev, J. Carroll, A Formalism and Environment for the Development of a Large Grammar of English, in: Proceedings 10th IJCAI-87, Mailand 1987, S. 703-708 [Busemann 83] S. Busemann, Oberachentransformationen bei der automatischen Generierung geschriebener deutscher Sprache. Entwurf und Implementierung des modularen und anpabaren Systems SUTRA, Diplomarbeit, FB Informatik, Universitat Hamburg 1983 [Cooper et al. 91] R.H. Cooper, K. Mukai, J. Perry (Hrsg.), Situation Theory and its Applications I, CSLI Lecture Notes 22, Stanford 1991 [Davis/King 77] R. Davis, J. King, An Overview of Production Systems, in: E.W. Elcock, D. Michie (Hrsg.), Machine Intelligence 8, Ellis Horwood, Chichester 1977, S. 300-332 [Dershowitz 82] N. Dershowitz, Orderings for Term-Rewriting Systems, Theoretical Computer Science 17 (1982), North-Holland, S. 279-301 [Dershowitz 85] N. Dershowitz, Termination, in: G. Goos, J. Hartmanis (Hrsg.), Rewriting Techniques and Applications, LNCS 202, Dijon 1985, S. 180-224 [Dorre/Momma 85] J. Dorre, S. Momma, Modikationen des Earley-Algorithmus und ihre Verwendung fur ID/LP-Grammatiken, Manuskript, Institut fur maschinelle Sprachverarbeitung, Universitat Stuttgart 1985 [Drewes 89] F. Drewes, Termersetzungssysteme: Termination und Komplexitat, Diplomarbeit, FB Mathematik und Informatik, Universitat Bremen 1989 [Drewes/Lautemann 90] Fr. Drewes, Cl. Lautemann, Incremental Termination Proofs and the Length of Derivations, Bericht Nr. 7/90, FB Mathematik und Informatik, Universitat Bremen 1990 [Ehrig/Mahr 85] H. Ehrig, B. Mahr, Fundamentals of Algebraic Specication 1, Equations and Initial Semantics, EATCS 6, Springer, Berlin 1985 78 [Ehrig/Mahr 89] H. Ehrig, B. Mahr, Fundamentals of Algebraic Specication 2, Module Specications and Constraints, EATCS 21, Springer, Berlin 1989 [Engdahl 90] E. Engdahl, Argument Roles and Anaphora, in: [Cooper et al. 91], S. 379-393 [Evans 87] R. Evans, Theoretical and Computational Interpretations of Generalized Phrase Structure Grammar, Cognitive Science Research Paper CSRP 085, University of Sussex 1987 [Fanselow/Felix 87] G. Fanselow, S. Felix, Sprachtheorie 2: Die Rektions- und Bindungstheorie, Francke, Tubingen 1987 [Firbas 74] J. Firbas, Some Aspects from the Czechoslovak Approach to Problems in Functional Sentence Perspective, in: F. Danes (Hrsg.), Papers in Functional Sentence Perspective, Mouton, Den Haag, Paris 1974, S. 11-37 [Gazdar et al. 85] G. Gazdar, E. Klein, G. Pullum und I. Sag, Generalized Phrase Structure Grammar, Blackwell, Oxford 1985 [Grosz/Sidner 86] B. Grosz, C. Sidner, Attention, Intentions, And the Structure of Discourse, in: Computaional Linguistics 12, 3 (1986), S. 175-204, [Hauenschild/Pause 83] Ch. Hauenschild, P.E. Pause, Faktoren-Analyse zur Modellierung des Textverstehens, in: Linguistische Berichte 88 (1983), S. 101-121 [Hobbs 78] J. H. Hobbs, Resolving Pronoun References, in: Lingua 44 (1978), S. 311338 [Huet 77] G. Huet, Conuent Reductions: Abstract Properties and Applications to Term Rewriting, in: Proceedings 18th IEEE Symposium on Foundations of Computer Science, 1977 [Huet/Oppen 80] G. Huet, D. Oppen, Equations and Rewrite Rules, in: R.V. Book (Hrsg.), Formal Language Theory, Perspectives and Open Problems, Academic Press 1980, S. 349-405 [Knuth/Bendix 70] D. Knuth, P. Bendix, Simple Word Problems in Universal Algebras, in: J. Leech (Hrsg.), Computational Problems in Abstract Algebra, Pergamon Press 1970, S. 263-297 [LuperFoy/Rich 90] S. LuperFoy, E. Rich, A Computational Model for the Resolution of Context Dependent References, in: MCC Technical Report, Austin 1990 [Naumann 88] S. Naumann, Generalisierte Phrasenstrukturgrammatik: Parsingstrategien, Regelorganisation und Unikation, Niemeyer, Tubingen 1988 [Nebel et al. 91] B. Nebel, C. Peltason, K. von Luck (Hrsg.), International Workshop on Terminological Logics, KIT Report 89, Technische Universitat Berlin 1991 [Pause 86] P.E. Pause, Zur Modellierung des Ubersetzungsprozesses , in: [Batori/Weber 86], S. 45-74 79 [Peltason et al. 89] C. Peltason, A. Schmiedel, C. Kindermann, J. Quantz, The BACK System Revisited, KIT Report 75, Technische Universitat Berlin 1989 [Phillips/Thompson 87] J.D. Phillips, H.S. Thompson, A Parser for Generalized Phrase Structure Grammars, in: N. Haddock, E. Klein, G. Morril (Hrsg.), Working Papers in Cognitive Science, Volume I. Categorial Grammar, Unication Grammar and Parsing, Centre for Cognitive Science, University of Ediburgh 1987, S. 115-136 [Pollard/Sag 89] C. Pollard, I.A. Sag, Argument Structure and Binding in English, Manuskript, Carnegie Mellon University und Stanford University 1989 [Pooyan 92] L. Pooyan, -Structures as Semantic Models of the -Calculus, Diplomarbeit, FB Informatik, Technische Universitat Berlin 1992 [Quantz 92] J. Quantz, Semantische Reprasentation anaphorischer Bezuge in terminologischen Logiken, KIT Report 96, Technische Universitat Berlin 1992 [Quantz/Kindermann 90] J. Quantz, C. Kindermann, Implementation of the BACK System Version 4, KIT Report 78, Technische Universitat Berlin 1990 [Schutz 88] J. Schutz (Hrsg.), Workshop Semantik und Transfer, EUROTRA-D Working Papers No. 6, IAI, Universitat des Saarlandes, Saarbrucken 1988 [Sgall et al. 73] P. Sgall, E. Hajicova, E. Benesova, Topic, Focus and Generative Semantics, Scriptor, Kronberg 1973 [Sgall et al. 86] P. Sgall, E. Hajicova, J. Panevova, The Meaning of the Sentence in Its Semantic and Pragmatic Aspects, Reidel Publishing Company, Dordrecht 1986 [Shieber 84] S.M. Shieber, Direct Parsing of ID/LP-Grammars, in: Linguistics and Philosophy 7 (1984), S. 135-154 [Steiner et al. 88a] E. Steiner, P. Schmidt, C. Zellinsky-Wibbelt, From Syntax to Semantics. Insights from Machine Translation, Frances Pinter, London 1988 [Steiner et al. 88b] E. Steiner, U. Eckert, B. Roth, J. Winter-Thielen, The Development of the EUROTRA-D System of Semantic Relations, in: [Steiner et al. 88a] S. 40-104 [Uszkoreit 84] H. Uszkoreit, Word Order and Constituent Structure in German, Ph.D. Dissertation, University of Texas, Austin 1984 [Zellinsky-Wibbelt 88] C. Zellinsky-Wibbelt, From Cognitive Grammar to the Generation of Semantic Interpretation in Machine Translation, in: [Steiner et al. 88a], S. 105-132 80