Schlu bericht

Transcription

Schlu bericht
Schlubericht
des Berliner Projekts der EUROTRA-D-Begleitforschung
\Anapherninterpretation in der Maschinellen U bersetzung"
Lone Beheshty
Guido Dunker
Christa Hauenschild
Bernd Mahr
Susanne Preu
Matthew Rickard
Birte Schmitz
Carla Umbach
Wilhelm Weisweber
Christian Werner-Meier
Erich Ziegler
Inhaltsverzeichnis
1 Einleitung
2 Das Berliner MU -System am Beispiel
3 Anaphernresolution
3.1 Duale Textreprasentation : : : : : : : : : : : :
3.2 Faktoren zur Anaphernresolution : : : : : : :
3.2.1 Nahe und Bindung : : : : : : : : : : :
3.2.2 Praferenz fur das semantische Subjekt
3.2.3 Praferenz fur das Satzthema : : : : : :
3.2.4 Negative Praferenz fur freie Adjunkte :
3.2.5 Kongruenz : : : : : : : : : : : : : : : :
3.2.6 Rollenidentitat : : : : : : : : : : : : :
3.2.7 Konzeptuelle Konsistenz : : : : : : : :
3.3 Verfahren zur Anaphernresolution : : : : : : :
3.4 Ergebnisse : : : : : : : : : : : : : : : : : : : :
:
:
:
:
:
:
:
:
:
:
:
:
:
:
:
:
:
:
:
:
:
:
:
:
:
:
:
:
:
:
:
:
:
:
:
:
:
:
:
:
:
:
:
:
:
:
:
:
:
:
:
:
:
:
:
:
:
:
:
:
:
:
:
:
:
:
:
:
:
:
:
:
:
:
:
:
:
:
:
:
:
:
:
:
:
:
:
:
:
:
:
:
:
:
:
:
:
:
:
:
:
:
:
:
:
:
:
:
:
:
:
:
:
:
:
:
:
:
:
:
:
:
:
:
:
:
:
:
:
:
:
:
:
:
:
:
:
:
:
:
:
:
:
:
:
:
:
:
:
:
:
:
:
:
1
5
17
19
22
22
26
27
27
27
27
28
29
31
4 Das Lexikon - Ein Konsistenzproblem
32
5 Formale Fundierung des MU -Systems
6 Termersetzung
7 Das Berliner MU -System
40
47
50
4.1 Das Lexikon im MU -System : : : : : : : : : : : : : : : : : : : : : : : : 32
4.2 Modellierung des Lexikons : : : : : : : : : : : : : : : : : : : : : : : : : 33
4.3 Ergebnisse : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : 38
7.1 Reprasentationsformalismen : : : : : : : : : : : : :
7.1.1 Generalisierte Phrasenstrukturgrammatiken
7.1.2 Funktor-Argument-Strukturen : : : : : : : :
7.1.3 Die referentielle Textreprasentation : : : : :
7.2 Strukturubergange : : : : : : : : : : : : : : : : : :
7.2.1 Syntaktische Analyse : : : : : : : : : : : : :
7.2.2 Semantische Analyse : : : : : : : : : : : : :
7.2.3 Konzeptuelle Analyse : : : : : : : : : : : : :
7.2.4 Transfer : : : : : : : : : : : : : : : : : : : :
7.2.5 Generierung : : : : : : : : : : : : : : : : : :
:
:
:
:
:
:
:
:
:
:
:
:
:
:
:
:
:
:
:
:
:
:
:
:
:
:
:
:
:
:
8 Perspektiven fur zukunftige Forschung im Bereich MU
Publikationen
Weitere Literaturangaben
ii
:
:
:
:
:
:
:
:
:
:
:
:
:
:
:
:
:
:
:
:
:
:
:
:
:
:
:
:
:
:
:
:
:
:
:
:
:
:
:
:
:
:
:
:
:
:
:
:
:
:
:
:
:
:
:
:
:
:
:
:
:
:
:
:
:
:
:
:
:
:
:
:
:
:
:
:
:
:
:
:
52
53
54
57
60
60
62
63
65
67
69
74
78
Analyse
Transfer
AS-Text
Syntaktische
Strukturen
..
der AS-Satze
Semantische
..
Reprasentationen
ZS-Text
Syntaktischer Transfer
Satzsemantischer Transfer
des AS-Textes
Inhalts..
reprasentation
des AS-Textes
Synthese
Syntaktische
Strukturen
..
der ZS-Satze
Semantische
..
Reprasentationen
des ZS-Textes
Konzeptueller Transfer
Inhalts..
reprasentation
des ZS-Textes
Thematische und
Argumentative
Textstruktur
Abbildung 1: Das MU -Modell im Projekt KIT-FAST
1 Einleitung
Das Projekt KIT-FAST war ein Forschungsprojekt zur Maschinellen U bersetzung
(MU ) im Rahmen der Begleitforschung zu EUROTRA-D, dem deutschen Teil des
EG-weiten MU -Projekts EUROTRA. Die Begleitforschung zu EUROTRA-D hatte die
Aufgabe, neuere Forschungsergebnisse aus Linguistik und Informatik fur die Maschinelle U bersetzung verwertbar zu machen und Methoden und Verfahren zur exemplarischen Losung von MU -Problemen am Beispiel der Sprachpaare Deutsch-Englisch und
Deutsch-Franzosisch zu entwickeln. Die zentralen Themen der Begleitforschung waren
die Frage der Tauglichkeit von Unikationsgrammatiken fur die MU ,
die Einbeziehung zusatzlicher Informationstypen in den U bersetzungsproze und
der Einstieg in die U bersetzung von Texten statt von Einzelsatzen.
Das Berliner Projekt KIT-FAST hat ein Mehrebenenmodell der MU entwickelt, das
sich an den von der U bersetzungstheorie vorgeschlagenen unterschiedlichen Typen
von U bersetzungsaquivalenz orientiert (s. Abbildung 1). Auf dieser Grundlage wurde
stufenweise ein experimentelles MU -System entwickelt und die Annahmen des Modells uberpruft. In der ersten Projektphase (\Neue Analyse- und Syntheseverfahren
1
zur maschinellen U bersetzung", 1985-1987) wurde die Generalisierte Phrasenstrukturgrammatik (GPSG) fur die Analyse und Synthese naturlicher Sprache im Rahmen der
MU nutzbar gemacht, indem aus der axiomatischen Form der GPSG eine konstruktive
Version entwickelt und entsprechende Analyse- und Syntheseverfahren implementiert
wurden. Entsprechend wurden GPSG-Grammatiken fur Fragmente des Deutschen und
Englischen erstellt. Zu den Arbeiten der ersten Projektphase siehe z.B. [Hauenschild
86], [Preu 87] und [Busemann/Hauenschild 88a].
In der zweiten Phase (\Transfer und Generierung auf satzsemantischer Basis", 19871990) entwickelte KIT-FAST die Funktor-Argument-Struktur (FAS) als satzsemantische Reprasentationsebene fur Transfer und Generierung. Die FAS entspricht einer
mittleren Ebene des MU -Modells, d.h. einer Analysetiefe zwischen Oberachensyntax
und inhaltsbezogener Reprasentation. Deshalb kann man die FAS auch als abstrakte
Syntax, angereichert mit semantischen Merkmalen, betrachten. Die Analysetiefe der
FAS erwies sich als gut geeignet fur Generalisierungen hinsichtlich der Transferregeln.
Um die verschiedenen Reprasentationsebenen zu integrieren, wurde ein allgemeines
Strukturabbildungsverfahren auf der Basis von Termersetzung entwickelt, mit dem
zunachst die Analyse von FAS-Strukturen aus GPSG-Strukturen und der Transfer realisiert wurde. Daneben wurde ein speziell an GPSG orientiertes Generierungsverfahren
entwickelt. Die Ergebnisse der zweiten Projektphase sind u.a. in [KIT-FAST 91] dokumentiert.
In der letzten, bis 1992 laufenden Phase hat sich KIT-FAST mit Anaphernresolution in der Maschinellen U bersetzung beschaftigt. Dieses Problem beinhaltet mehrere
Aspekte, die fur die MU dringlich sind:
die U bersetzung von Texten statt einzelner Satze,
die Behandlung von Mehrdeutigkeiten,
die Einbeziehung von Hintergrundwissen,
die Einbindung eines Wissensreprasentationssystems,
die Entwicklung von Losungsstrategien auf der Basis von Wissen, das nicht als
gesichert angesehen werden kann.
Das in KIT-FAST entwickelte Verfahren zur Anaphernresolution integriert unterschiedliche Kriterien, die fur die Bestimmung des Antezedens einer pronominalen Anapher
und fur deren U bersetzung relevant sind (morphologische, syntaktische, semantische
usw.). Das Verfahren legt eine duale Reprasentation des Texts, der strukturellen
Aspekte einerseits und der referentiellen Aspekte andererseits, zugrunde. Die strukturelle Textreprasentation erfolgt auf der Basis der Funktor-Argument-Struktur. Die
referentielle Textreprasentation wurde durch Einbindung des Wissensreprasentationssystems BACK realisiert, eines hybriden Systems auf der Grundlage Terminologischer
Logik, das im Nachbarprojekt KIT-BACK entwickelt wurde. Alle fur die Anaphernresolution relevanten Kriterien werden im Sinne von Praferenzregeln behandelt, d.h. sie
stellen kein gesichertes Wissen dar, sondern sprechen nur mehr oder weniger stark fur
oder gegen ein mogliches Antezedens. Um in die komplexe Problematik anaphorischer
Bezuge einzusteigen, wurden die Anaphern eingeschrankt auf Personal- und Possessivpronomina, die sich auf Objekte im weitesten Sinne beziehen und die mit ihrem
Antezedens referentiell identisch sind. Dabei ist es gelungen, Personal- und Possessivpronomen gleich zu behandeln.
2
Neben dem zentralen Problem der Anaphernresolution wurden in der letzten Projektphase weitere eng damit verknupfte Themen bearbeitet:
die duale Reprasentation des Textes, die eine direkte Voraussetzung fur das Resolutionsverfahren bildet;
Konsistenzprobleme des Lexikons, die hier durch die Integration der Wissensreprasentation verscharft auftreten;
die formale Fundierung des MU -Systems, die grundlegende Fragen der Integration
verschiedenartiger Reprasentationen anschneidet;
das Termersetzungsverfahren, das zur Strukturabbildung verwendet wird und
an das durch die Integration einer Wissensreprasentationskomponente erhohte
Anforderungen gestellt werden.
Der vorliegende Bericht enthalt als erstes einen U berblick uber das MU -System und das
Anaphernresolutionsverfahren anhand eines kurzen Beispiels. Es wird gezeigt, wie ein
Beispieltext in den verschiedenen Reprasentationen aussieht, wie die darin auftretenden
anaphorischen Bezuge aufgelost werden und wie der Text ubersetzt wird.
Im zweiten Kapitel werden die Ergebnisse zur Anaphernresolution vorgestellt. Dazu
wird die duale Textreprasentation beschrieben, dann die zur Resolution verwendeten
Faktoren erlautert und das Verfahren dargestellt, und abschlieend die erzielten Ergebnisse diskutiert.
In den beiden folgenden Kapiteln werden die Arbeiten im Projekt zu Problemen
des Lexikons und zur formalen Fundierung des MU -Systems dargestellt. Im vorletzten
Kapitel werden die Reprasentationen und Strukturubergange des gesamten Berliner
MU -System im Detail beschrieben. Im letzten Kapitel gehen wir auf Perspektiven
fur eine zukunftige MU -Forschung ein. Die jeweiligen Kapitel sind verhaltnismaig
eigenstandig, was insgesamt eine gewisse Redundanz bedingt. Wir hoen aber, damit
auch unterschiedlichen Leserinteressen gerecht zu werden.
Von diesem Abschlubericht kann kein Resume der gesamten Projektlaufzeit von
fast acht Jahren erwartet werden. Zwar stellt man sich die Frage nach Erfolg und
Zukunft des Unternehmens, aber eine systematische Auswertung ist schwierig, schon
deshalb, weil bedingt durch die Forderungsstruktur die Arbeitszusammenhange sich
nach Beendigung eines Projekts sehr schnell losen. Sicher ist aber fur eine Bewertung
ein gewisser Abstand notwendig.
Die Aufgabe in der ersten Phase der Begleitforschung war konkurrierend angelegt:
es sollte die Brauchbarkeit von Unikationsgrammatiken fur die MU untersucht werden,
wobei die Stuttgarter Gruppe von der Lexical Functional Grammar (LFG) und die Berliner Gruppe von GPSG ausging. Da Unikationsgrammatiken tauglich sind, ist keine
Frage mehr: sie sind inzwischen state of the art in der Verarbeitung naturlicher Sprache. Die Frage, ob nun GPSG oder LFG geeigneter ist, ist inzwischen obsolet geworden;
denn es hat in den letzten Jahren eine deutlich konvergierende Entwicklung im Bereich
der Unikationsgrammatiken gegeben, mit der Tendenz, Grammatiktheorie und Formalismus, die in GPSG wie LFG eng verwoben sind, voneinander zu losen. Formal sind
Unikationsgrammatiken universeller geworden, etwa in Form von Feature Logic, und
gleichen sich an Terminologische Logiken, d.h. allgemeine Wissensreprasentation an.
Inhaltlich ist man oensichtlich liberaler geworden: Der inzwischen favorisierte Ansatz
3
der Head-Driven Phrase Structure Grammar (HPSG) geht durchaus eklektisch vor.
Die HPSG geht von den wesentlichen Generalisierungen der GPSG aus (bes. Merkmalinstantiierungsprinzipien und eine modizierte Version des ID/LP-Formats). Dazu
kommen wichtige Aspekte der LFG (bes. die Lexikonzentriertheit) und anderer Unikationsgrammatiken. Die bereits in der GPSG angelegte Tendenz zur U bernahme von
Ideen aus der Government-Binding-Theorie bzw. aus der Prinzipien-und-ParameterTheorie wird konsequent fortgesetzt (vgl. etwa das Subkategorisierungsprinzip).
Insgesamt hat sich die Diskussion innerhalb der Computerlinguistik deutlich verschoben. Man streitet nicht mehr daruber, welche Version einer Unikationsgrammatik
genau gewahlt werden soll, der eklektische Zugang hat sich praktisch uberall durchgesetzt. Wichtiger sind zur Zeit die Fragen, wie Unikationsgrammatiken ezient
implementiert werden konnen und wie sie auch fur nicht wohlgeformten Input adaptiert werden konnen, was besonders fur die Verarbeitung gesprochener Sprache relevant
ist. Auerdem haben sich neue Themenschwerpunkte in den Bereichen Semantik und
Systemarchitektur herausgebildet, letzteres gilt besonders fur den Bereich der experimentellen MU -Systeme. Zu den derzeit aktuellen Fragen haben EUROTRA-D und
Begleitforschung bereits einige Beitrage geleistet. Darauf kommen wir im Schlukapitel dieses Berichts zuruck, in dem wir Perspektiven fur zukunftige MU -Forschung
aufzeigen wollen.
4
Die USA und Japan ergreifen neue Initiativen.
Sie erhöhen ihre Investitionen.
Abbildung 2: Theoretische Kombinationsmoglichkeiten
2 Das Berliner MU -System am Beispiel
Im folgenden soll das Berliner MU -System im U berblick vorgestellt werden. Dazu wird
ein kurzes Textbeispiel auf seinem Weg durch das System begleitet, wobei die einzelnen Stadien der Verarbeitung und deren wesentliche Eigenschaften besprochen werden.
Einzelheiten der zugrundeliegenden theoretischen U berlegungen oder der Reprasentationsformalismen spielen dabei eine untergeordnete Rolle.
Der Beispieltext besteht aus zwei Satzen und zeigt Phanomene, die fur das Berliner
Anaphernresolutionsverfahren besonders interessant sind:
satzubergreifende anaphorische Bezuge
koordinierte Antezedenten
Gleichbehandlung von Personal- und Possessivpronomina
Als Beispiel wurde ausgewahlt:
Die USA und Japan ergreifen neue Initiativen.
Sie erhohen ihre Investitionen.
Fur die Pronomen sie und ihre gibt es mehrere Interpretationsmoglichkeiten. Wenn
man voraussetzt, da die Antezedenten im Text zu nden sind, d.h. von deiktischen
Interpretationen absieht, kommen im Prinzip alle Nominalphrasen in Frage (s. Abbildung 2), solange noch keine Beschrankungen und Praferenzen fur Antezedenten berucksichtigt werden.
Die Auosung der anaphorischen Bezuge von Personal- und Possessivpronomina ist
aus zwei Grunden fur die U bersetzung relevant: Erstens mussen die Pronomen entsprechend dem zielsprachlichen Genus und Numerus des Antezedens ubersetzt werden.
Wenn z.B. das Pronomen sie in unserem Beispiel auf ein Antezedens referieren wurde,

dessen Ubersetzung
im Englischen singular neutrum ware, dann mute sie durch it
ubersetzt werden. Zweitens ist generell die U bersetzung der Pradikate abhangig von
den jeweiligen Argumenten und deshalb mu fur die U bersetzung geklart sein, auf
welches Argument ein Pronomen referiert. So mu man z.B. eine U bersetzung des
Pradikats erhohen wahlen, die auch abstrakte Agenten zulat.
Im folgenden wird die Architektur des Berliner MU -Systems zugrunde gelegt (s.

Abbildung 3). Sie beruht auf einem Transfermodell der Maschinellen Ubersetzung
und
beinhaltet drei Reprasentationsebenen:
5
ANALYSE
AS Text
Oberflächensyntax
der AS Sätze
GPSG
Desambiguierung der
anaphorischen Bezüge
konzeptuelles Wissen
BACK−TBox
strukturelle
Repräsentation
des AS−Textes
FAS
referentielle
Repräsentation
des AS−Textes
BACK−ABox
TRANSFER
SYNTHESE
ZS Text
Oberflächensyntax
der ZS Sätze
GPSG
strukturelle
Repräsentation
des ZS−Textes
FAS
AS: Ausgangssprache
ZS: Zielsprache
Abbildung 3: Architektur des Berliner MU -Systems
die Oberachensyntax, auf der Basis von GPSG (Generalisierte Phrasenstruktur-
grammatik);
die strukturelle Textreprasentation, auf der Basis von FAS (Funktor-ArgumentStruktur);
die referentielle Textreprasentation, auf der Basis des Wissensreprasentationssystems BACK.
Strukturelle und referentielle Textreprasentation bilden zusammen die duale Textreprasentation, auf der die Anaphernresolutionskomponente arbeitet. Die strukturelle
Textreprasentation dient auerdem als Transferebene. Nahere Erklarungen zum Aufbau des Systems nden sich in Kapitel 7. Aus Grunden der Anschaulichkeit werden die
Reprasentationen in den Abbildungen hier in 'abgemagerter' Version gezeigt, ausfuhrliche Beschreibungen der Reprasentationen nden sich ebenfalls in Kapitel 7.
Oberachensyntax der deutschen Satze
Das Berliner MU -System arbeitet mit einem Stammformenlexikon. Deshalb wird vor
der syntaktischen Analyse eine morphologische Analyse der Eingabe durchfuhrt. Die
syntaktische Analyse beruht auf der Generalized Phrase Structure Grammar (GPSG).
Sie geht satzweise vor, d.h. man erhalt fur den Beispieltext zwei GPSG-Strukturbaume
(s. Abbildung 4).
Wichtige Eigenschaften der deutschen GPSG-Grammatik sind:
Flache Satzstruktur; dabei wird von einer Grundstellung ausgegangen, bei der
das nite Verb je nach Satztyp am Anfang oder am Ende steht.
6
S(v−form: fin)
s(v−form: fin) / dp(cas: nom)
dp(cas: nom)
dp(cas: nom)
d1
conj
dp(cas: nom)
v(sub: nom_akk)
dp(cas: akk)
und
d1
ergreifen
d1
d
np
np
die
n
n
USA
Japan
np
ap
np
a
n
neue
Initiativen
S(v−form: fin)
dp(cas: nom)
s(v−form: fin) / dp(cas: nom)
sie
v(sub: nom_akk)
erhöhen
dp(cas: akk)
ihre Investitionen
Die USA und Japan ergreifen neue Initiativen.
Sie erhöhen ihre Investitionen.
Abbildung 4: GPSG-Strukturen im Deutschen
7
Topikalisierung bzw. Extraposition; durch die Topikalisierung oder Extraposition
werden aus der Grundstellung andere Satzstellungen, z.B. die Verbzweitstellung,
erzeugt. Die Topikalisierung und Extraposition werden mit Hilfe unterschiedlicher slash-Merkmale realisiert.
Determiner-Phrase-Analyse; die dp-Analyse erfolgt in Anlehnung an die GBTheorie.
Koordination.
Strukturelle Reprasentation des deutschen Textes
Die GPSG-Strukturen werden durch die Semantische Analyse in Funktor-ArgumentStrukturen (FAS) uberfuhrt. Dieser Verarbeitungsschritt ist mithilfe eines speziellen
Termersetzungsverfahrens, das im Projekt entwickelt wurde, realisiert (siehe Kapitel 6).
Die FAS-Ausdrucke werden als Liste zusammengefat und bilden die strukturelle Textreprasentation. So konnen auch satzubergreifende anaphorische Beziehungen behandelt werden. Die Funktor-Argument-Struktur bildet auch die Transfer-Ebene des Berliner MU -Systems und mu alle fur den Transfer benotigten Informationen enthalten.
Deshalb ist sie mit semantischen Merkmalen angereichert.
Die Liste der FAS-Ausdrucke fur den Beispieltext enthalt demzufolge zwei Strukturen. Sie wird in vereinfachter Form in Abbildung 5 gezeigt. In den dort abgebildeten
FAS-Strukturen sind die anaphorischen Bezuge der Pronomina noch nicht aufgelost,
deshalb ist ihr ref-Wert (s.u.) variabel speziziert.
Wichtige Aspekte der FAS sind:
Formal ist die FAS eine merkmalbasierte Phrasenstruktur-Grammatik. Die Kategorien bestehen aus Hauptkategorien und Listen von Merkmal-Wert-Spezikationen, wobei die vorkommenden Merkmale durch die jeweilige Hauptkategorie
festgelegt sind.
Die FAS-Struktur stellt pradikative Komplexe, die ein Verb, Nomen oder Adjektiv
als Kopf haben, als Funktor-Argument-Beziehungen dar, d.h. Verben, Nomen und
Adjektive bilden Funktoren, die Argumente nehmen konnen. Verbale Funktoren
sind durch die Hauptkategorie v pred gekennzeichnet, nominale durch n pred
und adjektivische durch a pred. Argumente werden durch die Hauptkategorie
term reprasentiert.
Den Argumenten werden Rollen zugewiesen (s. Merkmal role), entsprechend den
Kongurationen ihrer Funktoren (s. Merkmal conf).
Die thematische Struktur des Satzes wird { hier vorlaug nur analog zur
Oberachenreihenfolge { gekennzeichnet. Das ist fur die Anaphernresolution und
fur den Transfer von Bedeutung. Die thematische Stuktur ist aus dem skalaren
Merkmal them ersichtlich.
Satzinterne und satzubergreifende anaphorische Bezuge von Personal- und Possessivpronomina werden ebenfalls gekennzeichnet. Das geschieht durch das Merkmal ref. Der ref-Wert in der FAS verweist dabei auf das Referenzobjekt des
Antezedens in der refentiellen Textreprasentation (s.u.).
8
fas
illoc
clausefin
clause
fin
assertion
pres_ind
v_pred
term
term
conf: ag_af
them: 2
ref: uc_1
role: agent
them: 1
ref: uc_4
role: affected
them: 3
ref: uc_5
ergreifen
term
role: agent
ref: uc_2
coord
term
role: agent
ref: uc_3
neue Initiativen
und
fas
illoc
fin
Japan
die USA
clausefin
clause
assertion
pres_ind
v_pred
conf: ag_af
them: 2
ref: uc_7
term
role: agent
them: 1
ref: x
erhöhen
sie
term
role: affected
them: 3
ref: uc_8
det
*
Die USA und Japan ergreifen neue Initiativen.
Sie erhöhen ihre Investitionen.
nom
n_pred
conf: ag
ref: uc_8
Investition
Abbildung 5: FAS-Reprasentationen im Deutschen
9
term
role: agent
ref: y
ihr
anything
event
object
...
...
ag_af_event
erhöhen
property
ag_object
.
.
.
.
.
investition
Abbildung 6: TBox-Ausschnitt
Die Koordination von Satzen, Nominalphrasen und von Adjektiven wird ebenfalls
als Funktor-Argument-Struktur reprasentiert. Dabei bildet die Koordination den
Funktor und die Konjunkte dessen Argumente.
Referentielle Reprasentation des deutschen Textes
Die strukturelle Reprasentation des Textes wird durch die konzeptuelle Analyse, die
genau wie die semantische Analyse auf Termersetzung beruht, in eine referentielle Textreprasentation uberfuhrt. Die referentielle Textreprasentation basiert auf konzeptuellem Wissen und wird durch das Wissensreprasentationssystem BACK, das im Nachbarprojekt KIT-BACK entwickelt wurde, realisiert.
Das Wissen im BACK-System wird unterschieden in denitorisches Wissen (TBox)
und assertionales Wissen (ABox). Die TBox im Berliner MU -System (s. Abbildung 6)
besteht aus einer Konzepthierarchie. Die Konzepte konnen vom Typ object, event
oder property sein und werden durch Rollenrestriktionen weiter speziziert. Die ABox
besteht aus Diskursobjekten, die Instanzen der Konzepte in der TBox sind. Nominale,
verbale und adjektivische Pradikationen bilden Diskursobjekte vom entsprechenden
Typ und sind uber Rollen mit anderen Diskursobjekten verbunden.
So stellt das Verb ergreifen ein Diskursobjekt vom Typ event dar, das uber die
Rollen agent und aected mit den Objekten USA und Japan und Initiativen verbunden ist. In der Abbildung 7 ist auch zu erkennen, da die USA und Japan aufgrund
der Koordination ein Diskursobjekt darstellen, das auf die einzelnen Bestandteile der
Koordination aufbaut (USA bzw. Japan). Die gestrichelten Relationen in Abbildung 7
werden durch anaphorische Bezuge hergestellt.
Der Zusammenhang zwischen FAS-Ausdrucken und den Diskursobjekten, auf die
sie referieren, wird durch das FAS-Merkmal ref hergestellt, das als Wert die Kennzeichnung des entsprechenden Diskursobjekts enthalt (uc i). Abbildung 8 zeigt die
Verbindung an einem einfachen Beispiel.
Personal- und Possessivpronomina referieren auf dieselben Diskursobjekte wie ihre
Antezedenten. So verweisen nach der Anaphernresolution die ref-Werte der FAS-Terme
von USA und Japan, sie und ihre gleichermaen auf das Diskursobjekt uc 4.
10
USA
ergreifen
Initiativen
affected
uc_2
uc_5
uc_1
and
modifier
agent
USA + Japan
uc_4
uc_6
agen
t
agent
and
uc_8
uc_7
uc_3
neu
affected
Investitionen
erhöhen
Japan
(Die gestrichelten Relationen werden erst
durch die anaphorischen Bezüge hergestellt)
Abbildung 7: ABox-Reprasentation
.
.
.
clause
ref: uc_1
v_pred
ref: uc_1
term
ref: uc_2
...
erhöhen
FAS Struktur:
nom
ref: uc_2
term
ref: uc_3
...
nom
ref: uc_3
n_pred
n_pred
ref: uc_2
ref: uc_3
strukturelle
Textrepräsentation
USA
ABox:
referentielle
Textrepräsentation
USA
erhöhen
uc_1
investitionen
agent
uc_2
affected
uc_3
investitionen
Abbildung 8: Zusammenhang von struktureller und referentieller Textreprasentation (die
USA erhohen die Investitionen)
11
Anaphernresolution
Das Anaphernresolutionsverfahren setzt auf der dualen Textreprasentation, d.h. der
strukturellen und der referentiellen Reprasentation, auf und ermittelt aufgrund bestimmter Faktoren die Antezedenten der einzelnen Pronomina. Das bis dahin variable
ref-Merkmal eines Pronomens wird dann mit dem ref-Wert des Antezedens belegt.
Nur wenn kein Antezedens gefunden wird, wird der anaphorische Ausdruck als deiktisch interpretiert und ein eigenes Diskursobjekt erstellt.
Als Antezedenskandidaten werden alle Nominalphrasen im aktuellen Satz und im
Vortext betrachtet. Die Lange des zu berucksichtigenden Vortextes ist per Parameter
festgelegt, in unserem Beipiel bildet der erste Satz den Vortext. Fur jedes Pronomen
wird anhand der unten beschriebenen Faktoren der am besten geeignete Kandidat
ausgewahlt. Alle Faktoren werden als Praferenzregeln betrachtet. 'Harte' Constraints
(wie z.B. das Bindungsprinzip) sind als besonders starke Praferenzen realisiert.
Der beste Antezedenskandidat fur ein Pronomen wird ermittelt, indem alle Faktoren auf jeden moglichen Kandidaten anwandt werden. Die verschiedenen Faktoren
haben unterschiedliche Gewichte und vergeben dadurch unterschiedliche Punkte an die
Kandidaten. Der Kandidat mit der hochsten Punktzahl gewinnt und wird als Antezedens fur das jeweilige Pronomen betrachtet. Bei mehreren Kandidaten mit gleich
hoher Punktzahl liegt unter Umstanden eine 'echte' Ambiguitat vor, die auch von einem menschlichen U bersetzer nicht zu losen ware.
In dem vorliegenden Beispiel sind die Antezedenten fur die Pronomen sie und ihre
zu bestimmen. Als mogliche Kandidaten kommen in Frage:
die USA
Japan
die USA und Japan
Initiativen
Investitionen
sie/ihre fur das jeweils andere Pronomen
In unserem Beispiel ermittelt das Anaphernresolutionsverfahren die Koordination
die USA und Japan als besten Kandidaten fur das Personalpronomen sie und auch fur
das Possessivum ihre. Dies entspricht den im Text intendierten Antezedenten. Die
einzelnen Schritte fur das Pronomen sie sehen vereinfacht folgendermaen aus:
1. Faktor Rollenidentitat: Die Kandidaten USA, Japan, USA und Japan
und ihre erfullen dieselbe Rolle wie das Pronomen sie, namlich agent. Deshalb gibt es gleichviele positive Punkte fur die Kandidaten:
USA, Japan, USA und Japan und ihre.
Alle ubrigen Kandidaten erhalten hier keine Punkte.
2. Faktor Kongruenz: Das Pronomen sie erfordert hier ein pluralisches Antezedens. Deshalb erhalt Japan als einziger Kandidat eine hohe negative
Punktzahl.
12
3. Bindungsprinzip: Durch das Bindungsprinzip sind vor allem benachbarte
Argumente als Antezedenten ausgeschlossen.
So geht nur an Investitionen eine hohe negative Punktzahl.
4. Faktor Nahe: Das Nahekriterium bewertet Antezedenten, die nicht in dem
durch das Bindungsprinzip 'verbotenen' Bereich, sondern in einem 'Nahbereich' liegen. Die Bewertung des Kandidaten bestimmt sich durch den
strukturellen Abstand zum Pronomen.
Es werden hohe positive Punktzahlen an folgende Kandidaten vergeben:
Initiative und USA und Japan.
Geringe Punktzahlen gehen an USA und Japan.
Die restlichen Kandidaten gehen leer aus.
5. Faktor 'Praferenz fur das Semantische Subjekt': Dieser Faktor bezieht sich auf das semantische Subjekt des Satzes, das als 1.Argument in der
kanonischen Ordnung des jeweiligen verbalen Funktors deniert ist { also
hier auf die Koordination USA und Japan.
Der Kandidat USA und Japan kann somit weitere positive Punkte sammeln.
6. Faktor 'Praferenz fur das Satzthema': Das Satzthema wird durch das
Merkmal them in der FAS kodiert.
Positive Punkte erhalt wiederum USA und Japan.
7. Faktor 'Konzeptuelle Konsistenz' Wenn das Diskursobjekt, auf das ein
Antezedenskandidat verweist, die in der TBox festgelegten Selektionsrestriktionen fur den Referenten des Pronomens verletzt, dann wird der Antezedenskandidat negativ bewertet.
Die Restriktionen fur die Rollenfuller von erhohen werden von den Kandidaten Initiativen und Investitionen nicht erfullt. Sie erhalten deswegen eine
hohe negative Punktzahl.
Sieger nach Punkten ist die Koordination USA und Japan, gefolgt von USA.
Fur das Possessivpronomen ihr lauft das Anaphernresolutionsverfahren analog ab:
Hier fallt aufgrund des Bindungsprinzips und der konzeptuellen Inkonsistenz der Kandidat Investitionen quasi heraus, d.h. der Kandidat erhalt durch die beiden genannten
Faktoren hohe negative Punkte. Auch Japan erhalt eine hohe negative Punktzahl durch
die fehlende Kongruenz mit ihre (weder Femininum noch Plural). Hochste Punktzahl
erhalt das Pronomen sie, da es durch die Nahe zum Possessivum ihr ein besserer Kandidat als die Koordination USA und Japan ist. Da sich sie aber seinerseits auf USA
und Japan bezieht, verweist ihre damit ebenfalls auf USA und Japan.
Transfer und strukturelle Reprasentation des englischen Textes
Die deutsche FAS-Struktur wird gema den Transferregeln durch das Termersetzungsverfahren in die englische FAS uberfuhrt. Lexikalische und strukturelle Transferregeln
haben das gleiche Format. Die Transferregeln werden "bottom up" angewandt. Es ist
fur den Ansatz in KIT-FAST kennzeichnend, da die U bersetzung bzw. der Transfer
nicht strukturerhaltend sein mu.
13
clause
lang: g
op: pred
lang: e
op: pred
term
v_pred
lang: e
conf: ag_af
them: THEM1
ref: REF1
X
clause
lang: e
role: agent
them: THEM2
ref: REF2
Y
term
v_pred
lang: e
role: affected
them: THEM3
ref: REF3
lang: e
conf: ag_af
them: THEM1
ref: REF1
Z
X
term
lang: e
role: agent
them: THEM2
ref: REF2
Y
term
lang: e
role: affected
them: THEM3
ref: REF3
Z
Bedingung: THEM2 < THEM3
Abbildung 9: Transferregel zur U bersetzung des Verbalkomplexes
In Abbildung 9 ist die Transferregel zur U bersetzung des Verbalkomplexes gezeigt,
die in beiden Satzen des Beispiels zum Zuge kommt. Eine Strukturanderung ist hier
nicht notwendig, so da die englischen FAS-Ausdrucke den deutschen strukturell ahnlich sind (s. Abbildung 10). Generell unterscheiden sich die deutsche und die englische
FAS-Grammatik allerdings in einigen Punkten, die jedoch fur das Beispiel nicht relevant sind.
Oberachensyntax der englischen Satze
Aus der englischen FAS wird die englische GPSG-Struktur generiert (Abbildung 11).
Im Berliner MU -System wurde mit zwei verschiedenen Generierungsverfahren experimentiert, einem direkt an GPSG orientierten und einem auf der Basis desselben
Termersetzungsverfahrens, das auch fur die semantische Analyse und den Transfer verwendet wird.
Da auch die englische GPSG auf einem Stammformenlexikon beruht, schliet sich
an die Generierung eine Flexionskomponente an, die die passenden Vollformen erzeugt.
Damit hat das Textbeispiel alle Stadien der Verarbeitung durchlaufen und die englische U bersetzung liegt vor.
14
.
.
.
clause
v_pred
term
coord: ag_af
them: 2
role: agent
them: 1
take
coord
term
role: agent
term
role: affected
them: 3
term
role: agent
det
*
and
the USA
nom
mod
nom
a_pred
n_pred
Japan
.
new
.
initiatives
.
clause
v_pred
coord: ag_af
them: 2
increase
term
role: agent
them: 1
term
role: affected
them: 3
det
they
*
USA and Japan take new initiatives.
They increase their investments.
nom
conf: ag_aim
n_pred
term
role: agent
investments
their
Abbildung 10: FAS des Englischen
15
S(v−form: fin)
dp(cas: nom)
vp(vform: fin)
dp(co: −)
USA
dp(co: r)
conj
v(sub: trans)
dp(cas: akk)
dp
take
und
new initiatives
Japan
S(v−form: fin)
vp(vform: fin)
dp(cas: nom)
they
v(sub: trans)
increase
dp(cas: akk)
their investments
USA and Japan take new initiatives.
They increase their investments.
Abbildung 11: GPSG-Struktur des englischen Beispieltextes
16
3 Anaphernresolution
Das zentrale Thema der letzten Projektphase von KIT-FAST war die Anaphernresolution im Hinblick auf die Maschinelle U bersetzung. Ausgangspunkt und Grundlage dafur bildete das Berliner experimentelle MU -System. Wie schon in Kapitel 2
erwahnt, wurde dieses System auf der Basis eines Mehrebenenmodells der Maschinellen U bersetzung, das sich an den von der U bersetzungstheorie vorgeschlagenen Arten
von U bersetzungsaquivalenz orientiert (s. [Hauenschild 86]), entwickelt und sieht drei
Reprasentationsebenen vor (s. auch Abbildung 1 auf Seite 1):
Die erste Ebene reprasentiert die Oberachensyntax von Satzen mithilfe der Generalized Phrase Structure Grammar (GPSG), die in KIT-FAST fur die syntaktische Analyse nutzbar gemacht wurde (s. [Gazdar et al. 85], [Preu 87], [Busemann/Hauenschild 88a]).
Die zweite Ebene zeigt die strukturellen Aspekte des Texts. Als Grundlage
dient die in KIT-FAST entwickelte Funktor-Argument-Struktur (FAS), die als
abstrakte Syntax mit zusatzlichen semantischen Merkmalen beschrieben werden
kann und als Transferebene und Ausgangspunkt fur die Generierung dient (zu
inhaltlichen und formalen Aspekten der FAS s. [Hauenschild/Umbach 88], [Busemann/Hauenschild 89]).
Die dritte Ebene reprasentiert den Text aus der Sicht der Referenzobjekte und
beruht auf konzeptuellem Wissen. Diese Ebene wurde durch Einbindung des
Wissensreprasentationssystems BACK realisiert, eines hybriden Systems auf der
Basis Terminologischer Logik (s. [Peltason et al. 89], [Schmitz 90], [Schmitz et al.
92]).
Das Thema Anaphernresolution beinhaltet mehrere Aspekte, die fur die MU dringlich
sind: die U bersetzung von Texten statt einzelner Satze, die Behandlung von Mehrdeutigkeiten, die Einbeziehung von Hintergrundwissen und die Entwicklung von Losungsstrategien auf der Basis von Wissen, das nicht als gesichert angesehen werden kann.
In der Literatur wird der Unterschied zwischen anaphorischer und deiktischer Referenz nach wie vor kontrovers diskutiert. Fur unsere Aufgabe halten wir eine Abgrenzung fur sinnvoll, die davon ausgeht, da ein deiktischer Ausdruck direkt in den
Situationskontext verweist, wahrend der Referent eines anaphorischen Ausdrucks auf
jeden Fall als Antezedens im Text zu nden ist. Anaphorische Ausdrucke treten in verschiedenen syntaktischen Formen auf, vor allem als Pronomina, Nominalphrasen oder
Adverbien, und sie stehen in unterschiedlichen Beziehungen zu ihren Antezedenten,
etwa durch Identitat oder Teil-Ganzes- Beziehung. Daruberhinaus konnen anphorische
Ausdrucke auf verschiedene Arten von Referenten verweisen, z.B. auf Objekte, aber
auch auf temporale oder raumliche Entitaten und auf Sachverhalte. Um in die komplexe Problematik der Anaphernresolution einzusteigen, haben wir uns auf Personalund Possessivpronomina beschrankt, die auf Objekte im weitesten Sinne referieren,
und wir betrachten nur referentielle Identitat.
Die Desambiguierung von Personal- und Possessivpronomina ist direkt ubersetzungsrelevant, denn die U bersetzung eines Pronomens ist abhangig vom zielsprachlichen Genus und Numerus des Antezedens. Daruberhinaus wird die U bersetzung eines
Pradikats (z.B. eines Verbs) i.a. beeinut durch Eigenschaften der zugehorigen Argumente (z.B. der Verbobjekte). Wenn Pronomina als Argumente auftreten, mussen sie
17
desambiguiert werden, um die Eigenschaften der Referenten berucksichtigen zu konnen.
Tatsachlich ndet man in Texten viele Falle, in denen referentielle Mehrdeutigkeiten
mit lexikalischen oder strukturellen Mehrdeutigkeiten verknupft sind und nicht unabhangig voneinander behandelt werden konnen. So mu zum Beispiel ein Pronomen
mit den Selektionsrestriktionen bezuglich des Antezedens kompatibel sein. Die Selektionsrestriktionen konnen aber ihrerseits variieren, wenn das Antezedens verschiedene
Lesarten haben kann. Auf lange Sicht ist es deshalb notig, auch die Interdependenz
von Mehrdeutigkeiten zu berucksichtigen. Um hier einen Einstieg zu ermoglichen, wird
aber in KIT-FAST die referentielle Ambiguitat isoliert betrachtet.
Die meisten linguistischen Ansatze zur Interpretation von Anaphern { z.B. Chomsky's Bindungsprinzip oder Reinhardts c-command { schlagen eine Behandlung auf der
Basis von vornehmlich syntaktischer Information vor. Diese Ansatze konnen jedoch
nicht alle Falle anaphorischer Bindung erklaren. Um auch die problematischen Falle in
den Gri zu bekommen, wurden die Beschreibungen der Bindungsmechanismen in der
letzten Zeit mehr und mehr ausgearbeitet und z.B. angereichert um diskurs-basierte
Information wie \point of view [Pollard/Sag 89] oder den Begri der internen Perspektive [Engdahl 90]. Neben den linguistischen Anaphernansatzen gibt es Ansatze aus der
Kunstlichen Intelligenz, die auf semantischer Information, Hintergrundwissen [Hobbs
78] und einem Fokus-Konzept [Bosch 88] basieren.
1983 haben Hauenschild und Pause die Lucke zwischen den Ansatzen aus der Linguistik und der KI geschlossen, indem sie ein Modell zur Anapherresolution vorstellten,
das auf syntaktischer, semantischer und konzeptueller Information basiert, s.[Hauenschild/Pause 83] und [Pause 86]. In diesem Ansatz werden folgende Faktoren als
relevant fur die Anaphernresolution erachtet:
morphologische Faktoren (Kongruenz in Person, Numerus und Genus),
syntaktische Faktoren (Position und syntaktische Funktion der Ausdrucke eines
Satzes),
semantische Faktoren (welche Rolle wird von welchem Referenten eingenommen),
thematische Faktoren (was ist thematisch im Satz, was im Text),
inhaltliche Faktoren (was wurde bereits uber die Referenten ausgesagt),
lexikalische Faktoren (Selektionsrestriktionen, Sinnrelationen),
enzyklopadische Faktoren (welche A uerungen sind auf Grund des Hintergrundwissens miteinander kompatibel).
Diese Faktoren bilden den Ausgangspunkt des KIT-FAST-Ansatzes. Anhand eines
Textfragments (s. Abschnitt 3.4) wurde empirisch untersucht, wie die Faktoren genau
formuliert werden mussen, welchen Einu sie auf die Wahl des Antezedens haben
und wo sie sich widersprechen. Die wichtigsten Faktoren haben wir entsprechend der
Reprasentationen in KIT-FAST formalisiert und in ein Desambiguierungsverfahren auf
der Basis von Praferenzregeln integriert.
Die Faktoren beziehen sich auf strukturelle Eigenschaften der Anaphern und Antezedenten, aber auch auf referentielle Eigenschaften. Das legt eine duale Reprasentation des Textes nahe. Im folgenden wird als erstes die duale Textreprasentation in
KIT-FAST beschrieben. Anschlieend werden die ausgewahlten Faktoren im einzelnen
18
erlautert und gezeigt, auf welche Aspekte des Textes sie sich beziehen. Dann wird
das Desambiguierungsverfahren vorgestellt und abschlieend die Ergebnisse unseres
Ansatzes diskutiert.
3.1 Duale Textreprasentation
Bei der Anaphernresolution spielt sowohl strukturelle als auch konzeptuelle Information eine Rolle. Um die Abhangigkeiten zwischen diesen beiden Typen von Information
besser untersuchen zu konnen, haben wir sie getrennt reprasentiert. Im KIT-FASTSystem gibt es daher zwei Textreprasentationen: eine stellt die Information in ihrer
sequentiellen Struktur dar, die andere reprasentiert die Pradikationen uber den Referenten. Die strukturelle Textreprasentation enthalt Information uber:
Funktor-Argument-Relationen (z.B. von Nomen, Verben und Adjektiven),
semantische Rollen von Argumenten (agent, aected, attribuand, associated, location, aim) nach [Steiner et al. 88a],
die thematische Struktur eines Satzes im Sinne der Prager Schule (siehe z.B.
[Firbas 74] und [Sgall et al. 73]),
semantische Merkmale, die lokale und temporale Konzeptualisierungen, wie sie
in der Kognitiven Grammatik verwendet werden, ausdrucken (nach [ZellinskyWibbelt 88]) und
anaphorische Relationen, die durch Koindexierung repasentiert werden.
Diese Information wird reprasentiert durch die Funktor-Argument-Stuktur (FAS). Die
FAS kann als eine abstrakte Syntax gesehen werden, die um bestimmte semantische
Merkmale angereichert ist. Sie dient zur Reprasentation der funktionalen Struktur von
Satzen und enthalt keine redundanten Informationen, die zur U berprufung der Wohlgeformtheit in der Oberachensyntax gebraucht werden (z.B. Kongruenzmerkmale innerhalb verbaler oder nominaler Phrasen). Abbildung 12 zeigt eine exemplarische FASStruktur, in der nur die Merkmale reprasentiert sind, die in der Anaphernresolution
eine Rolle spielen.
Die stukturelle Textreprasentation besteht momentan aus einer Liste von FASStrukturen einzelner Satze, die dadurch zu einer Art Textreprasentation wird, da
sowohl satzinterne als auch satzubergreifende koreferentielle Phrasen koindiziert werden. Es ist leicht denkbar, die strukturelle Textreprasentation so auszubauen, da
nicht nur die strukturelle Information einzelner Satze in eine groere Informationseinheit zusammengefat wird, sondern daruberhinaus auch die zwischen diesen Einheiten
existierenden Relationen reprasentiert werden (wie in [Grosz/Sidner 86] vorgeschlagen).
Die referentielle Textreprasentation enthalt bestimmte Aspekte des Textinhalts, und zwar die Diskursreferenten und die zwischen diesen bestehenden konzeptuellen Relationen. Koreferentielle Ausdrucke werden durch einen einzigen Diskursreferenten reprasentiert. Im Falle komplexer Antezedenten wie
(1)
Ruderer1, die ihre Boote fur langere Zeit nicht benutzen, konnen diese im
Bootshaus lassen. Sie1 konnen sie auch verleihen.
19
fas
illoc
clausefin
clause
ref:uc_1
fin
assertion
pres_ind
v_pred
conf:ag_af
them:2
ref:uc_1
voice:passive
term
role:agent
them:3
ref:uc_2
vorschlagen
die Kommission
term
role:affected
them:1
ref:uc_3
diese Strategie
term
role:location
them:4
ref:uc_4
nom
ref:uc_4
n_pred
conf:ag
ref:uc_4
term
role:agent
ref:uc_2
Mitteilung
ihre
Erklarung einiger FAS-Merkmale:
fas ist der Wurzelknoten einer FAS-Struktur,
illoc (illocution) gibt an, ob ein Satz deklarativ, imperativ
oder interrogativ ist,
clausen reprasentiert einen niten Teilsatz,
n enthalt Information u
ber Tempus und Modus,
v pred reprasentiert einen verbalen Funktor (in jedem lokalen Baum ist die am weitesten links stehende Tochter der
Funktor),
das Merkmal them repr
asentiert die thematische Struktur
eines Satzes,
das Merkmal ref enth
alt einen Zeiger auf Objekte in der
referentiellen Textreprasentation (siehe Abildung (13)).
Abbildung 12: FAS/Strukturelle Reprasentation des Satzes Diese Strategie wird von der
Kommission in ihrer Mitteilung vorgeschlagen.
20
vorschlagen
Kommission
uc_2
Strategie
affected
agent
uc_1
uc_3
location
agent
uc_4
Mitteilung
Abbildung 13: Referentielle Reprasentation fur Diese Strategie wird von der Kommission in
ihrer Mitteilung vorgeschlagen. Die Pfeile denotieren Rollen, z.B. ist Kommission Agens von
vorschlagen.
nimmt die Anapher teil an allen semantischen Relationen, in denen das Antezedens
steht.
Nicht nur Nomen, sondern auch Verben und Adjektive werden als Diskursreferenten
reprasentiert, denn auch auf ein Ereignis (d.h. ein Denotat eines Verbs zusammen
mit seinen Argumenten) oder eine Eigenschaft kann anaphorisch Bezug genommen
werden:
(2)
Gestern bin ich spazieren gegangen. Das war schon.
(3)
Sie hat ein blaues Hemd gekauft. Ich suche auch so eins.
Die referentielle Information wird reprasentiert durch Deskriptionen eines Reprasentationssystems der terminologischen Logik (BACK, cf. [Quantz/Kindermann 90]).
U blicherweise unterscheiden solche Systeme zwischen Deskriptionen und Denitionen.
Denitionen fuhren Konzepte und Rollen ein. In einer Deskription wird ein Objekt
beschrieben: entweder ist es die Instanz eines Konzeptes oder es steht durch eine Rolle
mit einem anderen Objekt in Beziehung. Die Diskursreferenten werden in Form von
Deskriptionen beschrieben. Diese Deskriptionen basieren auf einer partiellen Semantik
der Lexeme, die modelliert ist durch eine konzeptuelle Struktur. Bis jetzt enthalten
die Konzeptdenitionen nur Information uber der semantischen Typ des Lexems, seine
semantischen Rollen und Information daruber, welche semantischen Typen diese Rollen
fullen konnen (Selektionsrestiktionen). Die Denitionen enthalten Informationen uber
Typen und uber zugelassene Kongurationen (siehe Abschnitt 3.2.7). Abbildung 13
zeigt die Deskriptionen fur den Satz, der in der Abbildung 12 reprasentiert ist.
Wie schon oben erwahnt, ermoglicht uns die duale Textreprasentation, zwei Aspekte
anaphorischer Ausdrucke zu unterscheiden (ein ahnlicher Vorschlag wird in [LuperFoy/Rich 90, S.2] gemacht):
Der erste Aspekt betrit ihre Position in der sprachlichen Stuktur und die Frage,
auf welche anderen sprachlichen Ausdrucke sie sich beziehen. Dies wird durch
Koindizierung in der strukturellen Textreprasentation ausgedruckt.
Der zweite Aspekt betrit die Art der Relation zwischen den Diskursreferenten, die durch den anaphorischen Ausdruck eingefuhrt wird (wie Identity of
21
Sense, Identity of Reference, Teil-Ganzes-Beziehung, siehe z.B. [Quantz 92]). Fur
Personal- und Possessivpronomen ist die haugste Relation die referentielle Identitat. Diese wird in der referentiellen Reprasentation dadurch ausgedruckt, da
Anapher und Antezedens durch ein und denselben Diskursreferenten dargestellt
werden.
Aus dem Konzept der doppelten Textreprasentation ergibt sich auch unsere Denition von Anapher und Antezedens. Beide sind komplexe Objekte, die jeweils aus
dem Diskursreferenten und ihrer strukturellen Position bestehen. Es reicht nicht aus,
Antezedenskandidaten allein aufgrund ihrer strukturellen Position zu denieren, denn
so werden nicht adaquate Mehrdeutigkeiten dadurch erzeugt, da verschiedene Vorkommen eines Referenten als unterschiedliche Antezedenskandidaten aufgefat werden.
Wenn z.B. in (4) USA und Japan und sie koreferentiell sind, dann sollen sie keine konkurrierenden Antezedenskandidaten fur das Possessivpronomen ihre sein.
(4)
Die USA und Japan ergreifen neue Initiativen. Sie erhohen ihre Investitionen.
Einen weiteren Grund fur die komplexe Denition des Antezedens liefert das Bindungsprinzip (das in Abschnitt 3.2.1 beschrieben wird). Das Bindungsprinzip basiert auf
struktureller Information, hat aber Einu auf die referentielle Struktur, denn wenn
es einen Kandidaten ausschliet, sind ebenso alle koreferentiellen Kandidaten ausgeschlossen:
(5)
John sagte, er habe ihn gestern getroen.
Wenn John und er koreferentiell sind, dann sind beide Ausdrucke als Antezedenten fur
ihn durch das Bindungsprinzip ausgeschlossen.
3.2 Faktoren zur Anaphernresolution
3.2.1 Nahe und Bindung
Der relative Abstand zwischen Anapher und Antezedens ist ein Faktor, der die strukturelle Prominenz eines Antezedens bestimmt. Dieser Faktor wird durch das Zusammenspiel des Naheprinzips mit dem Bindungsprinzip abgedeckt. Diese beiden Prinzipien
schranken den Suchraum in komplementarer Weise ein. Der Suchraum zerfallt in zwei
Bereiche: einen inneren (oder lokalen) Bereich, auf den die Mechanismen des Bindungsprinzips angewandt werden, und einen aueren Bereich, auf den das Naheprinzip
zutrit.
Das Naheprinzip wird der Tatsache gerecht, da Personalpronomen ihre Antezedenten im ubergeordneten (oder vorhergehenden) Satz suchen, wahrend sich Possessivpronomen eher auf eine Nominalphrase im selben Satz beziehen. In den folgenden
Beispielen ist der Abstand zwischen John und dem jeweiligen Pronomen (er vs. seinen)
nach unserer Denition jeweils derselbe:
(6)
John1 sagte, er1 wurde kommen.
(7)
John1 traf seinen1 Onkel.
22
clause
v_pred
term
term
lieben
Bill
ihn
Abbildung 14: Rudimentare FAS fur Satz 8.
Das Naheprinzip ist so deniert, da es die Anzahl der ubergeordneten Knoten, die
direkt ein verbales oder nominales Pradikat oder eine koordinierte Struktur dominieren
(d.h. Knoten mit den Spezikationen op:pred oder op:coord), zahlt, wobei die Bereiche
der Stuktur ignoriert werden, die durch das Bindungsprinzip ausgeschlossen werden.
Das Bindungsprinzip In syntaktischen Ansatzen wie Government and Binding
(GB) [Fanselow/Felix 87] oder Head-Driven Phrase Stucture Grammar (HPSG) [Pollard/Sag 89, S.19] werden unterschiedliche Bindungsprinzipien fur die verschiedenen
Anapherntypen (fur reexive und reziproke Pronomen, fur Personal- und Possessivpronomen und fur referentielle Nominalphrasen) postuliert. Wir haben uns nur mit
Personal- und Possesivpronomen beschaftigt. Unsere Formulierung des Bindungsprinzips entspricht Condition B in [Pollard/Sag 89]. Condition B besagt, da alle benachbarten Argumente in der Subkategorisierungsliste als Antezedenten ausgeschlossen sind. Die Subkategorisierungsliste in HPSG entspricht der Rollenkonguration in
unserer strukturellen Textreprasentation (FAS). In einer ersten Formulierung des Bindungsprinzips auf der Grundlage der Information in der FAS sind als Antezedenten
alle benachbarten Argumente in einem lokalen FAS-Baum ausgeschlossen. Dadurch
wird z.B. in (8) Bill als Antezedens fur ihn ausgeschlossen. Abbildung (14) zeigt den
entsprechenden FAS-Baum.1
(8)
* Bill1 liebt ihn1.
Unsere Untersuchungen haben gezeigt, da typischerweise jedoch nicht nur die benachbarten Argumente, sondern auch die benachbarten und ubergeordneten Funktoren
als Antezedenten ausgeschlossen sind. Deshalb haben wir die erste Formulierung des
Bindungsprinzips zu folgender Version erweitert:
1. Alle benachbarten Argumente sind als Antezedenten ausgeschlossen.
2. Alle benachbarten Funktoren und alle Funktoren, die die Anapher kommandieren,
sind als Antezedenten ausgeschlossen. Dabei kommandiert X Y gdw. die Mutter
von X Y dominiert und X nicht Y dominiert.
Dadurch werden in (9) sowohl Onkel als auch Bruder als Antezedenten fur seines ausgeschlossen. Den entsprechenden FAS-Baum zeigt Abbildung (15).
(9)
a. * Klaus trit den Bruder1 seines1 Onkels.
b. * Klaus trit den Bruder seines1 Onkels1.
23
clause
v_pred
term
treffen
Klaus
term
det
nom
op:pred
def
n_pred
Bruder
term
nom
op:pred
det
*
n_pred
term
Onkel
sein
Abbildung 15: FAS fur Satz 9.
Adaquaterweise schliet das Prinzip nicht Argumente ubergeordneter Funktoren
aus. In Satz 10 werden durch das Bindungsprinzip Manahme, Verbesserung und Wettbewerbsfahigkeit als Antezedenten fur ihr ausgeschlossen, Wirtschaft und Regierung bleiben als mogliche Kandidaten. Den FAS-Baum zeigt Abbildung (16).
(10)
a. Die Manahmen der Wirtschaft1 zur Verbesserung ihrer1 Wettbewerbsfahigkeit werden von der Regierung unterstutzt.
b. Die Manahmen der Wirtschaft zur Verbesserung ihrer1 Wettbewerbsfahigkeit werden von der Regierung1 unterstutzt.
Das Bindungsprinzip behandelt koordinierte Strukturen gema der Tatsache, da
1. ganz allgemein Pluralobjekte als Antezedenten in Frage kommen, aber
2. in Fallen, in denen die Anapher in einem der Konjunkte vorkommt, das Pluralobjekt als Antezedens ausgeschlossen ist.
In (11) ist die USA und Japan das Antezedens von ihr. Abbildung 17 zeigt die entsprechende FAS.
(11)
[Die USA und Japan]1 erhohen ihre1 Investitionen.
In (12) ist die USA und ihre Verbundeten als Antezedens fur ihre ausgeschlossen, da der
Funktor coord die Anapher kommandiert (siehe Abbildung 18).
(12) * [Die USA und ihre1 Verbundeten]1 ergreifen neue Manahmen.
1
Nur die hier relevante Information ist { wie in allen weiteren FAS-Strukturen { dargestellt.
24
clause
term
term
v_pred
nom
det
nom
op:pred
det
unterstutzen
n_pred
def
def
n_pred
term
term
Regierung
Massnahmen
det
nom
det
def n_pred
nom
op:pred
def
n_pred
term
Wirtschaft
Verbesserung
det
nom
op:pred
def
n_pred
term
Wettbewerbs−
fahigkeit
ihr
Abbildung 16: FAS fur Satz 10.
clause
term
op:coord
v_pred
erhohen
coord
term
term
det
term
det
nom
det
nom
def
n_pred
nom
term
und
def n_pred
USA
def n_pred
Japan
Abbildung 17: FAS fur Satz 11.
25
Investition
ihr
clause
term
op:coord
v_pred
ergreifen
coord
term
det
nom
term
term
det
nom
term
und
def n_pred
USA
def n_pred
.
.
.
ihr
Verbundete
Abbildung 18: FAS fur Satz 12.
3.2.2 Praferenz fur das semantische Subjekt
Unsere Faktoren werden auf Information in der strukturellen Textreprasentation angewandt. Sie haben keinen Zugri auf rein syntaktische Information wie \Subjekt".
Deshalb haben wir den Begri semantisches Subjekt fur die FAS { die strukturelle Textreprasentation { deniert. Fur jeden verbalen Funktor (lexemspezisch) ist eine Liste
von Argumenten in kanonischer Ordnung deniert. Das erste Element in dieser Liste
betrachten wir als das semantische Subjekt. In den meisten Fallen liefert diese Denition die gleichen Ergebnisse wie die traditionellen syntaktischen Denitionen. Die
einzige entscheidende Ausnahme ist die Passivkonstruktion, die ja gerade die Grammatikalisierung der prominentesten Rollen in der semantischen Hierarchie verandert.
Wenn in einer Passivkonstruktion das Agens nicht lexikalisiert ist, gibt es kein Problem: in diesem Fall ist das Agens in der FAS nicht reprasentiert, dadurch ruckt das,
was \normalerweise" an zweiter Stelle in der Ordnung steht { in den meisten Fallen der
Fuller der Aected-Rolle { an die erste Stelle und wird per denitionem semantisches
Subjekt.
Ein echtes Problem scheint in den Fallen vorzuliegen, in denen ein Passivsatz ein
explizit genanntes Agens enthalt. Hier ist nach unserer Denition das Agens semantisches Subjekt, obwohl syntaktisch der Fuller der Aected-Rolle Subjekt ist. In einigen
Fallen liefert dies jedoch die fur die Anaphernresolution gewunschten Ergebnisse, z.B.
in
(13)
Diese Strategie wird von der Kommission in ihrer Mitteilung vorgeschlagen.
Hier ergibt sich gema unserer Denition des semantischen Subjekts eine Praferenz
fur von der Kommission als Antezedens fur ihrer (eine gleichhohe Praferenz ergibt sich
fur diese Strategie als Thema des Satzes { eine Losung kann nur aufgrund konzeptueller U berlegungen gefunden werden). Es gibt jedoch auch Falle, in denen die hier
vorgeschlagene Denition eines semantischen Subjekts kontraintuitive Ergebnisse liefert. Oensichtlich ist es notwendig, eine groere Menge von Beispielen systematisch zu
26
untersuchen, um herauszunden, welche Bedingungen zu korrekten bzw. inkorrekten
Ergebnissen unserer Denition fuhren.
3.2.3 Praferenz fur das Satzthema
Dieser Faktor bezieht sich auf die thematische Struktur eines Satzes. Wir machen keine
dichotomatische Thema-Rhema-Unterscheidung, sondern nehmen eine skalare Ordnung
vom thematischsten zum am wenigsten thematischen Element an. Dieses Konzept wird
eher der graduierbaren Thematizitat in Sprachen mit freier Wortstellung gerecht (siehe
[Sgall et al. 86, S.57]).
Bis jetzt haben wir jedoch nicht den ganzen Wertebereich der Thematizitat fur
die Anaphernresolution ausgenutzt, sondern nur die erste Stelle in der entsprechenden
Ordnung (die in der FAS durch den Wert 1 des them-Merkmals reprasentiert wird).
Dies kann nur ein erster Schritt in Richtung auf eine angemessene Beschreibung der
Rolle der Thematizitat sein, liefert aber relativ zufriedenstellende Ergebnisse (wie z.B.
in (13), siehe Abschnitt (3.2.2)).
3.2.4 Negative Praferenz fur freie Adjunkte
Freie Adjunkte sind in der FAS dadurch erkennbar, da sie Fuller der semantischen
Rollen location, tempus oder aim sind. Dies ist nur ein erster Versuch, die Beobachtung zu erfassen, da freie Adjunkte schlechte Antezedenskandidaten fur Personalund Possessivpronomen sind. Freie Adjunkte sind praferierte Antezedenskandidaten
fur Anaphern ihres ontologischen Typs (lokal, temporal etc.). Das legt die Annahme
nahe, da eine Anapher und ihr jeweiliges Antezedens, wenn sie koreferent sind, in
ihrem ontologischen Status ubereinstimmen. Hier sind weitere Untersuchungen, die
einen groeren Bereich anaphorischer Relationen abdecken, auf jeden Fall notwendig.
3.2.5 Kongruenz
Information uber Numerus und Genus sind in der FAS reprasentiert. Es ist oensichtlich angebracht, zwischen grammatischem und semantischem Genus und Numerus zu
unterscheiden, denn es gibt systematische Divergenzen. In (14) unterscheiden sich z.B.
grammatisches und naturliches Geschlecht, in (15) ist das kollektive Nomen Familie
grammatisch Singular und semantisch Plural.
(14)
Das Madchen spielte im Garten. Sie trug eine blaue Hose.
(15)
Die Familie von gegenuber war gestern im Zoo. Sie haben sich prachtig
amusiert.
Bis jetzt haben wir uns mit solchen Fallen noch nicht beschaftigt, es ist allerdings kein
Problem, die FAS um die entsprechenden Merkmale zu erweitern, um so beide Typen
von Kongruenz zu erfassen.
3.2.6 Rollenidentitat
Der Antezedenskandidat, der die gleiche Rolle ausfullt wie die Anapher, wird praferiert. Die Formulierung dieses Faktors beruht auf den semantischen Rollen der FAS.
Sowohl Personal- als auch Possessivpronomen sind Argumente nominaler oder verbaler
27
Funktoren und damit Fuller semantischer Rollen. In (16) sind sowohl Europa als auch
seine Fuller der Agens-Rolle.
(16)
Europa erhoht seine Investitionen.
In einigen Fallen kann schon eine A hnlichkeit zwischen den Rollen zur Praferenz des
Antezedens fuhren:
(17)
European-based integrated circuit manufacturers supply 30% of their home
market.
In diesem Beispiel ist manufacturers agent und their associated (diese Rolle beinhalted
auch die traditionelle Possessivrolle). Die A hnlichkeit zwischen diesen beiden Rollen
konnte durch eine Rollenhierarchie mit einer gemeinsamen Oberrolle fur agent und
associated ausgedruckt werden. Diese Punkte mussen Gegenstand weiterer Untersuchungen sein.
3.2.7 Konzeptuelle Konsistenz
Obwohl auch inkonsistente Propositionen zu einem mehr oder weniger koharenten Text
fuhren konnen, gehen wir von der Arbeitshypothese aus, da die Texte, die wir ubersetzen wollen, konsistent sind, d.h. wir nehmen an, da die Texte keine Widerspruche
enthalten. Dies kann bei der Anaphernresolution dadurch ausgenutzt werden, da man
uberpruft, ob die Pradikationen uber die Anapher konsistent sind mit den Pradikationen uber den Antezedenskandidaten. Zur U berprufung dieser Konsistenz ist neben
der Reprasentation der Semantik von Lexemen und Phrasen eine Reprasentation enzyklopadischer Fakten notwendig. Die Reprasentation mu so gewahlt sein, da sie
Inferenzen unterstutzt.
Wir haben uns entschieden, mit der Modellierung von Selektionsrestriktionen im
Rahmen des Wissensreprasentationssystems BACK zu beginnen (siehe Abschnitt 3.1).
In (18) ist das intendierte Antezedens fur das Pronomen ihre ganz klar die USA, zu
den moglichen Kandidaten zahlen aber auch Initiativen und Investitionen.2
(18)
Die USA ergreifen neue Initiativen, um ihre Investitionen zu erhohen.
Das Possessivpronomen ihre ist in der komplexen Nominalphrase Fuller der AgensRolle. Die Semantik von Investitionen gibt an, da die Agens-Rolle von einem potentialagent-object gefullt werden mu. Der Anaphernresolutionsproze mu u berprufen, welche Kandidaten diese Bedingung erfullen. In (18) werden Investitionen und Initiativen
ausgeschlossen und USA bleibt als Antezedens. Die hierzu notwendige Information
ist im BACK-System reprasentiert. Die U berprufung der konzeptuellen Konsistenz in
Beispiel (18) beruht auf folgender Information:
2
Das Bindungsprinzip bewirkt, da Investitionen als sehr schlechter Kandidat betrachtet wird.
28
anything
event
object
ag_af_event
ergreifen
ag_object
temporal_extension_object
investitionen
potential_agent_object
usa
Abbildung 19: Ausschnitt aus der Subsumtionshierarchie.
Event
:< anything
Ag Af Event :< Event and
exactly(1,Aected) and
exactly(1,Agent) and
all(Agent,Potential Agent Object)
ergreifen
:< Ag Af Event
Object
:< anything
Ag Object :< Object and
exactly(1,Agent) and
all(Agent,Potential Agent Object)
investition :< Ag Object and Temporal Extension Object
usa
:< Potential Agent Object
Dabei steht \:<" fur \subsumiert" und wird semantisch als Teilmengen-Relation interpretiert. exactly(1; Agent) schrankt die Anzahl der Fuller der Agens-Rolle auf genau
einen ein. all(Agent; Potential Agent Object) druckt aus, da alle Fuller der AgensRolle Potential Agent Objects sein mussen. Ein Teil der Subsumtionshierarchie ist
in Abbildung 19 dargestellt. Um die Selektionsrestriktionen zu kodieren, ist sowohl
Information uber mogliche Kongurationen als auch Typinformation notwendig. Die
meisten nominalen Lexeme enthalten beide Aspekte, Investitionen ist z.B. ein Funktor,
der als Argument einen Fuller der Agens-Rolle sucht, gleichzeitig kann Investitionen
Argument anderer Funktoren sein, die den Typ Temporal Extension Object zulassen.
Beide Aspekte werden in der Subsumtionshierarchie reprasentiert.
Es durfte klar sein, da es sich hier nur um einen allerersten Schritt zur Reprasentation von Hintergrundwissen fur die MU handelt. Die Richtung erscheint uns aber als
vielversprechend.
3.3 Verfahren zur Anaphernresolution
Die Aufgabe des Verfahrens zur Anaphernresolution besteht darin, fur ein im Text
auftretendes Personal- oder Possessivpronomen das intendierte Antezedens zu bestimmen. Als mogliche Antezedenten kommen alle Nominalphrasen, darunter auch andere
Pronomina und koordinierte Nominalphrasen, in Frage, die im gleichen Satz und im
Vortext auftreten. Die Lange des zu berucksichtigenden Vortexts ist als Parameter
29
des Verfahrens gegeben. Nominalphrasen, die nach dem Pronomen im gleichen Satz
auftreten, werden ebenfalls berucksichtigt. Dadurch werden neben intra- und intersententiellen anaphorischen Bezugen auch intrasententielle kataphorische Bezuge erfat
(wir sprechen i.a. in allen diesen Fallen von \anaphorischen" Bezugen).
In dem Verfahren zur Anaphernresolution in KIT-FAST werden die unterschiedlichen Faktoren zur Bestimmung des Antezedens integriert, indem sie alle im Sinne von
Praferenzregeln aufgefat werden, d.h. als Faktoren, die einen Antezedenskandidaten
als mehr oder weniger geeignet erscheinen lassen. Die Faktoren beziehen sich sowohl
auf Eigenschaften, die dem Antezedenskandidaten allein zukommen (etwa: Subjekt
des Satzes zu sein), als auch auf Eigenschaften, die der Antezedenskandidat in Bezug
auf das fragliche Pronomen hat (z.B. Nahe). Daneben kann es sich um strukturelle
Eigenschaften wie die oben genannten handeln, aber auch um Eigenschaften der Referenzobjekte. Deshalb arbeitet das Verfahren auf einer dualen Reprasentation des Texts
(s. Abschnitt 3.1).
Die Faktoren konnen sich auf positive, aber auch auf negative Eigenschaften eines
Antezedenskandidaten beziehen, und sie haben unterschiedlich starkes Gewicht. Dadurch konnen auch sogenannte harte Beschrankungen, etwa Bindung und Kongruenz,
als Praferenzregeln integriert werden, namlich als solche mit sehr starkem negativen
Gewicht. Die Gewichte der Faktoren sind so gewahlt, da intuitiv konkurrierende Faktoren gleich starken Einu haben. Damit das Verfahren fur experimentelle Zwecke
geeignet ist, sind die Gewichte als Parameter formuliert.
Um den besten Antezedenskandidaten herauszunden, bewertet das Verfahren alle
fur ein Pronomen in Frage kommenden Kandidaten anhand samtlicher Faktoren. Aus
Ezienzgrunden kann es aber sinnvoll sein, sehr schlechte Kandidaten nicht weiter zu
berucksichtigen. Dazu gibt es zwei Parameter, den Grenzwert und den Abstandswert:
Der Grenzwert bildet eine absolute Grenze, unterhalb derer Kandidaten \out" sind und
im weiteren Verfahren nicht mehr bewertet werden. Der Abstandswert hat den gleichen
Eekt wie der Grenzwert, bildet aber keine absolute, sondern eine relative Grenze,
namlich den zulassigen Abstand zum besten Kandidaten. Welche Art der Begrenzung
sinnvoller ist, blieb in KIT-FAST oen. Im Zusammenhang mit einer Moglichkeit zur
Begrenzung wird auch die Anwendungsreihenfolge der Faktoren relevant. Faktoren
mit stark negativem Gewicht sollten aus Ezienzgrunden moglichst fruh angewandt
werden. Deshalb wird auch die Anwendungsreihenfolge durch Parameter festgelegt.
Das Verfahren bewertet alle fur ein Pronomen in Frage kommenden Antezedenskandidaten anhand samtlicher Faktoren. Der beste Kandidat wird dann als Antezedens
gewahlt. Pronomen und Antezedens verweisen auf dasselbe Referenzobjekt in der referentiellen Textreprasentation. Deshalb wird vor allem dieser Verweis vom Antezedens
fur das Pronomen ubernommen. Daneben werden einige semantische Eigenschaften
ubernommen und die Rollen des Pronomens auf der referentiellen Ebene realisiert.
Es kann vorkommen, da es mehr als einen besten Kandidaten gibt oder auch keinen. Im ersten Fall kann es sein, da der Text schlecht gebaut, d.h. der anaphorische
Bezug auch fur einen menschlichen Leser ambig ist. Wahrscheinlicher ist es allerdings,
da die bisher entwickelten Faktoren nicht ausreichend sind. Das Verfahren mute
in diesem Fall interaktiv eine Entscheidung vom Benutzer anfordern. Zur Zeit wird
allerdings einfach einer der Kandidaten gewahlt. Der zweite Fall tritt auf, wenn es
entweder gar keine Antezedenskandidaten gibt, oder alle Kandidaten durch den Grenzwert ausscheiden. Dann wird das Pronomen als deiktisch interpretiert, d.h. es bildet
ein eigenstandiges Objekt in der referentiellen Textstruktur.
30
Das Verfahren ist in Quintus Prolog unter Unix implementiert. Eine ausfuhrli
che Dokumentation, die die Ubernahme
in andere Systeme ermoglicht, ndet sich in
[Dunker/Umbach 93].
3.4 Ergebnisse
Die Kriterien zur Anaphernresolution wurden auf der Basis der deutschen Version
des EUROTRA-Korpus \Proposal for a Council Decision Adopting the First Strategic
Programme for Research and Development in Information Technology" entwickelt. Die
Ergebnisse wurden anhand eines Fragments aus dem Korpus veriziert, das ca. 40 Satze
umfat und in dem ca. 50 Pronomina vorkommen. Da das intendierte Antezedens in
allen Fallen im gleichen Satz wie das Pronomen oder im vorangegangenen Satz zu
nden war, konnte die Lange des Vortexts hier auf einen Satz begrenzt werden.
Die erzielten Ergebnisse sind erstaunlich gut: Mit einer gunstigen Einstellung der
Parameter, vor allem der Gewichte der Faktoren, wird in dem vorliegenden Text in
uber 80 Prozent der Falle das intendierte Antezedens gefunden. In einigen Fallen ist
die Losung mehrdeutig, beinhaltet dann aber das intedierte Antezedens.
Die Fehler sind in der Regel dadurch bedingt, da sich strukturelle und inhaltliche
Hinweise auf das intendierte Antezedens widersprechen. Der Faktor Diskurskonsistenz
ist zur Zeit der einzige, der sich auf inhaltliche Aspekte des Antezedenten bezieht,
und die zugrundeliegende Wissensreprasentation ist noch zu wenig ausgearbeitet. Zur
Verbesserung der Ergebnisse mu besonders an dieser Stelle angesetzt werden. Hier
gibt es allerdings die bekannten Schwierigkeiten, vor allem die Frage, welches Wissen
im einzelnen reprasentiert werden soll, ohne da es sich um ad-hoc-Losungen handelt.
Die Gute der Antezedenskandidaten wird damit im wesentlichen durch Faktoren
bestimmt, die sich auf strukturelle Eigenschaften beziehen. Auch die strukturellen
Faktoren konnen an vielen Stellen weiter ausgearbeitet werden. Aber wenigstens in
einer Textsorte wie der vorliegenden, in der es wenig Widerspruche zwischen strukturellen und inhaltlichen Hinweisen auf das intendierte Antezedens gibt, kann schon mit
den gegeben Faktoren verhaltnismaig viel erreicht werden.
Es gibt eine prinzipielle Schwachstelle des vorgestellten Verfahrens: Auch ein Pronomen, dessen Antezedens noch nicht bestimmt ist, kann als Antezedenskandidat auftreten. Da sein Referent in der Diskursreprasentation aber noch nicht feststeht, kann
der Faktor Diskurskonsistenz eigentlich noch nicht angewendet werden. Das fuhrt in
diesem Verfahren dazu, da solche Antezedenten via Diskurskonsistenz sehr schlecht
bewertet werden, obwohl die Grundlage fur jegliche Bewertung hinsichtlich Diskurskonsistenz fehlt.
Eine adaquate Losung dieses Problems erfordert ein Verfahren, das Ambiguitaten
wie die Interpretation von Pronomina nicht nur lokal behandelt, sondern auch die
Interdependenz der auftretenden Ambiguitaten berucksichtigt. Fur die Behandlung
von Pronomina heit das: die Gute eines Antezedenskandidaten fur ein Pronomen
wird hinsichtlich aller moglichen Losungen fur die anderen Pronomina (im gleichen
Satz) bestimmt. Die Wahl des Antezedens mu dann so erfolgen, da eine optimale
Gesamtlosung erreicht wird. Es ist geplant, das hier fur referentielle Ambiguitaten
entwickelte Verfahren auf andere Arten von Ambiguitat, etwa lexikalische oder strukturelle, zu ubertragen. Gerade dann ist es aber unbedingt notig, das Verfahren im
Hinblick auf die Interdependenz von Ambiguitaten zu erweitern.
31
4 Das Lexikon - Ein Konsistenzproblem
Mathematische und algorithmische Eigenschaften machen Terminologische Logiken zu
anwendungsorientierten Wissensreprasentationsformalismen, die sich nicht nur dazu
eignen, Wissen uber einen Ausschnitt der Welt zu reprasentieren, sondern auch zur
Reprasentation abstrakter Strukturen, wie z.B. Kategorien linguistischer Grammatiken. Da das MU -System des KIT-FAST Projekts ein experimentelles System ist, unterliegen die Grammatikfragmente einem standigen Wechsel; neue Merkmale werden
eingefuhrt, Kategorien umbenannt und auch das Lexikon bedarf standiger Pege, um
Fehler zu vermeiden. Zu den haugsten Fehlern gehoren:
Unterspezikationen von GPSG- oder FAS-Kategorien, i.e. der Wert eines Merk-
mals bezuglich einer Kategorie ist variabel, wo er gebunden sein mute. Dies
kann zu unerwunschten Mehrfachanalysen fuhren.
Fehlspezikationen von GPSG- oder FAS-Kategorien, i.e. der Wert eines Merkmals ist falsch angegeben. Dies kann zu falschen oder fehlenden Analysen fuhren.
Ein Teil dieser Fehler lat sich vermeiden, wenn man Abhangigkeiten in und zwischen Lexikoneintragen berucksichtigt. Diese Abhangigkeiten konnen dann fur eine
automatische Konsistenzuberprufung genutzt werden. Konsistenz bedeutet in diesem
Zusammenhang, da eine Menge von Implikationen uber Merkmalsspezikationen und
Strukturen des Lexikons aufgelistet wird und die Erfullung dieser Menge von Implikationen als notwendiges Konsistenzkriterium fur das Lexikon interpretiert wird. Die
Modellierung wird mit dem BACK-System Version 4.4 (vgl. [Quantz/Kindermann 90])
realisiert. Die Modellierung kann hier nur in groben Zugen beschrieben werden, zu
Details und weiteren Ergebnissen siehe auch [Werner-Meier 93]. Die Verwendung einer
Terminologischen Logik bei dieser Aufgabe verspricht die folgenden Vorteile:
Terminologische Logiken sind u.a. dafur entwickelt worden, um konsistentes Wis-
sen zu reprasentieren,
eine Modellierung mit Terminologischen Logiken erfordert eine angemessene Formulierung von Konsistenzbedingungen. Solche Konsistenzbedingungen konnen
im Hinblick auf die Informationsverteilung im MU -System von generellem Interesse sein.
4.1 Das Lexikon im MU -System
Das Lexikon ist ein Knotenpunkt wechselseitiger Abhangigkeiten im MU -System, da
hier Informationen aus Syntax, Semantik und Weltwissen zusammenieen und direkt
aufeinander bezogen werden, denn im Lexikon des MU -Systems werden die Lexikoneintrage zu den verschiedenen Reprasentationssprachen zusammengefat.
Die Benutzerschnittstelle des Lexikons ist als Hypercardstack implementiert, der
schnelles Re-editieren der betreenden Lexikoneintrage ermoglicht. Aus dem Stack
wird eine Textdatei abgelegt, die einer Komponente zur Konsistenzuberprufung als
Input dient. Z.Z. wird dieser Konsistenzcheck durch ein Programmodul durchgefuhrt,
in dem Konsistenz bezuglich der Kategoriendenitionen uberpruft wird. Dann werden
zwei Prologquelldateien mit der relevanten Information fur das GPSG- und das FASSystemlexikon erzeugt.
32
Dieses Programmodul soll durch Modellierung des Lexikons im BACK-System ersetzt und durch die Hinzunahme weiterer Abhangigkeiten erweitert werden.
In der aktuellen Auspragung des Berliner MU -Modells wird das Lexikon als eine
Relation L aufgefat mit:
L
SY N SEM REF
mit SY N := (GPSG Kategorie GPSG Terminal) [ nil,
mit SEM := (FAS Kategorie FAS Terminal) [ nil
und mit REF := die Menge der Konzepte in der Tbox [ nil
Diese Relation ist nicht weiter eingeschrankt, Lexikoneintrage lassen sich jedoch inhaltlich naher einschranken, z.B:
Einige Partikel, z.B. Praxe von Verben, sind nur in der GPSG-Komponente
reprasentiert3.
Spezielle Nomen haben einen GPSG-Eintrag, einen FAS-Eintrag und einen TboxEintrag.
Transitive passivierbare Verben (wie ,,generieren") fallen in verschiedene Subkategorisierungsrahmen, teilen sich jedoch einen FAS-Eintrag und einen TboxEintrag.
Das Lexikon benotigt drei Arten von Konsistenzuberprufung entsprechend der Lokalisierung der Abhangigkeiten:
Eine U berprufung strikt lokaler Abhangigkeiten innerhalb einer Reprasentationsebene. Diese Art der Konsistenz bezieht sich beispielsweise auf Wohlgeformtheitsbedingungen uber Kategorien, so wie sie in der GPSG durch die FCRs
(Feature Cooccurence Restrictions) formuliert werden.
Eine U berprufung lokaler Abhangigkeiten zwischen mehreren Reprasentationsebenen innerhalb eines Lexikoneintrags. Hierzu gehort beispielsweise ein Konsistenzcheck, welcher u.a. die syntaktische Spezikation mit der semantischen vergleicht: involviert der GPSG-Eintrag eines Lexikoneintrags eine GPSG-Kategorie
des Typs v, so sind alle FAS-Kategorien der FAS-Eintrage dieses Lexikoneintrags
vom Typ v pred.
Eine U berprufung globaler Abhangigkeiten zwischen verschiedenen Lexikoneintragen. So mu fur jeden Lexikoneintrag fur ein Verb mit abtrennbarem Prax
auch ein Lexikoneintrag fur eben dieses Prax da sein.
4.2 Modellierung des Lexikons
Die Objekte,die auf Konsistenz uberpruft werden sollen, sind einzelne Lexikoneintrage bzw. ganze Lexika. In Terminologischen Logiken bedeutet Konsistenz eines
Objekts, da es einen Typ hat. Der Typ eines Lexikons oder eines Lexikoneintrags
mu daher in der Tbox vereinbart werden. Der Konsistenzcheck verlauft daher in drei
Schritten:
3 Wenn ein Eintrag nicht auf allen Ebene realisiert ist, werden die Komponenten der nicht repr
asentierten Ebenen auf nil gesetzt.
33
syn
lexicon
lexical_
entry
gpsg_
terminal
string
gpsg_
cat
gpsg_
attribute
fas_
terminal
string
fas_
cat
fas_
attribute
sem
ref
concept
Abbildung 20: Der Typ eines Lexikons im Modell; die schraerten Bereiche markieren die
verschiedenen Typen von Abhangigkeiten: strikt lokale Abhangigkeiten beschranken sich auf
den weien Bereich, lokale auf den hellgrauen und globale involvieren den Typ eines Lexikons
selbst.
34
Aufbau einer Terminologie durch Modellierung von Kategorien, Lexikoneintragen
etc. in der Tbox;
Aufbau der Abox durch Kodieren des externen Lexikons. Dies ist der eigentliche
Konsistenzcheck, denn hier werden falsche Lexikoneintrage zuruckgewiesen, weil
sie als Abox-Objekt keinen Typ haben.
Generierung der Systemlexika4 aus der Abox.
Im Normalfall enthalt ein Lexikon mehrere Lexikoneintrage und jeder Lexikoneintrag kann mehrere Objekte des Typs syn, sem oder ref enthalten. Das Lexikon selber
wird deniert als ein Bundel von Lexikoneintragen und Lexikoneintrage als Bundel
von Eintragen der verschiedenen Reprasentationsebenen entsprechend der Denition
des Lexikons (s. Seite 33). Ein Eintrag fur eine Reprasentationsebene wird modelliert,
indem festgelegt wird, da genau ein Terminal und eine Kategorie der entsprechenden
Grammatik zusammengehoren. Die Relationen lexical slot, syn slot, sem slot
und ref slot sind keine Merkmale, da sie nicht rechtseindeutig sind, sondern sie bilden ein relationales Schema (s. Abbildung 20).
Modellierung der GPSG-Kategorien
In der gewahlten Modellierung sind Aliases denierte Konzepte5. Fur jede wohldenierte GPSG-Kategorie gibt es in unserem GPSG-Fragment ein Alias, da das maximal unterspezizierte Alias X postuliert wird, welches jede Kategorie umfat. GPSGKategorien werden daher als Unterkonzepte von diesem Alias modelliert. Die GPSGMerkmale werden bei der Denition der maximal unterspezizierten Kategorie (AliasX) eingefuhrt, denn fur diese Kategorie sind alle Merkmale spezizierbar. Die Eigenschaft einer Kategorie, fur ein Merkmal fi spezizierbar zu sein, wird dadurch
ausgedruckt, da sie hochstens einen Rollenfuller fur die entsprechende Rolle fi hat.
atmost(1,f1) and
...
atmost(1,fn)
fur alle GPSG-Merkmale fi.
Dann werden die Merkmale als Rollen eingefuhrt. Alle atomarwertigen GPSGMerkmale fia werden als Rollen zwischen Konzepten und ASETs (i.e. Attributmengen)
deniert.
alias x :=
fia :<
domain(alias x) and
range(possible value(fia).
possible value(fia) ist die dem Wertebereich entsprechende Attributmenge. Die
kategorienwertigen Merkmale fik werden als Rollen zwischen zwei Konzepten eingefuhrt.
4 Das MU
 -System braucht zwei Systemlexika: eines fur die Syntaxanalyse und den Ubergang

in die
semantische Reprasentation und eines fur die konzeptuelle Analyse.
5 Zur Denition der GPSG-Kategorien und ihrer Realisierung in einer konstruktiven Version siehe
[Gazdar et al. 85] und [Busemann/Hauenschild 88a] und [Weisweber 88a].
35
fik :<
domain(alias x) and
range(alias x).
Alle Aliases auer dem bereits denierten Alias-X werden als Einschrankungen
auf das Alias-X deniert.
alias :=
alias x and
atleast(1,g1) and all(g1,g1 value) and
...
atleast(1,gn ) and all(gn,gn value) and
fur alle gebundenen Merkmale gi ;
atmost(0,u1) and
...
atmost(0,un) and
fur alle Merkmale ui,
die fur diese Kategorie nicht deniert sind.
Bei dieser Denition wird ein Alias- als Unterkonzept von Alias-X modelliert;
atleast(1,g) and all(g,g value) legt die Spezikation fur ein Merkmal fest, atmost(0,u)
legt fest, da das Merkmal u fur die Kategorie nicht deniert ist.
Modellierung der FAS-Kategorien
Auch FAS-Kategorien werden als Merkmalsstrukturen modelliert. FAS-Merkmale werden wie atomarwertige GPSG-Merkmale eingefuhrt6. FAS-Kategorien lassen sich jedoch nicht auf dieselbe Art modellieren wie die GPSG-Kategorien. Denn zwei GPSGAliases, welche fur die Menge der zur Verfugung stehenden Merkmale gleich partitioniert sind, aber verschiedene Namen haben, benennen dennoch die gleiche Kategorie.
Zwei FAS-Kategorien aber, auch wenn sie fur die gleichen Merkmale deniert sind,
benennen unterschiedliche Kategorien.
Damit der Typ eines Lexikons uberhaupt wohldeniert werden kann, braucht man
auch einen Oberbegri fur alle FAS-Kategorien. Dieser Oberbegri soll durch ein Konzept fas main gegeben werden, welches selber keine FAS-Kategorie ist und trotzdem
genau alle beinhalten soll. Dazu werden die Namen der Hauptkategorie als Merkmalswert eines neuen Merkmals fas main feat in die Kategorie mitaufgenommen. Dieses
Merkmal ist dann analog zu demjenigen Merkmal in der GPSG, welches die Hauptkategorie in der Syntax angibt, maj. Auerdem mu gesichert sein, da dieses Merkmal
immer einen Wert hat, also:
fas main :=
atleast(1,fas main feat) and
atmost(1,fas main feat) and
atmost(1,f1) and
...
atmost(1,fn) and
fur alle FAS-Merkmale fi .
6 Zur Denition der FAS-Kategorien und zu formalen Grundlagen der FAS-Grammatik vgl.
[Mahr/Umbach 90].
36
Nun lassen sich alle anderen FAS-Kategorien als Unterkonzepte zu diesem so konstruierten Oberbegri einfuhren und die Vereinigung aller FAS-Kategorien ist mengengleich mit ihrem Oberbegri. Eine FAS-Kategorie (beispielsweise n pred) wird dann
durch die folgende Implikation deklariert, wobei n pred value diejenige Singletonattributmenge ist, die dem Typnamen der FAS-Kategorie entspricht:
!
fas main cat and
atleast(1,fas main feat) and all(fas main feat,n pred value)
atleast(1,f1) and
...
atleast(1,fn) and
fur alle Merkmale fi, die fur n pred deniert sind
atmost(0,g1) and
...
atmost(0,gm) and
fur alle Merkmale gi, die fur n pred nicht deniert sind
U ber diesen Umweg lat sich nun eine FAS-Kategorie ahnlich wie eine GPSGKategorie denieren, wobei die Merkmale jedoch bereits durch die Implikation oben
festgelegt worden sind:
fas main n pred :=
fas main and
all(fas main feat,n pred value)
Modellierung der Abhangigkeiten
In der gewahlten Modellierung lassen sich nun die meisten der Abhangigkeiten als
Implication Links schreiben. Die FCRs des GPSG-Fragments sind Beispiele fur strikt
lokale Abhangigkeiten. Eine FCR
maj:v,bar:0,ac:+
! vf:n
wird wie folgt modelliert:
!
gpsg alias x and
lls(gf maj,aset([v])) and
lls(gf bar,aset([0])) and
lls(gf ac,aset([+])) and
gpsg alias x and
lls(gf vf,aset([n]))
Auch lokale Abhangigkeiten - also solche, die sich uber mehrere Ebenen erstrecken
- wie die folgende Abhangigkeit zwischen FAS- und GPSG-Kategorien lassen sich formulieren: wenn in einem Lexikoneintrag der FAS-Eintrag mit der Kategorie v pred
assoziiert ist, so ist es der GPSG-Eintrag mit der Kategorie v.
37
!
lexical entry and
lls(sem slot,sem and
lls(fas cat,fas main v pred))
lls(syn slot,syn and
lls(gpsg cat,gpsg alias v)).
Auch Deniertheit von Merkmalen bezuglich einer Kategorie lat sich ausdrucken:
wenn ein Lexikoneintrag einen Tboxeintrag sowie einen GPSG-Eintrag hat, so mu es
auch einen FAS-Eintrag geben.
!
lexical entry and
atleast(1,syn slot) and
atleast(1,ref slot)
atleast(1,sem slot)
Nicht ausdrucken lassen sich Constraints der Form: ,,wenn es im Lexikon einen
Lexikoneintrag gibt, dessen GPSG-Kategorie ein Verb ist, dessen Merkmal f mit X
belegt ist, dann gibt es in diesem Lexikon auch einen Lexikoneintrag, dessen GPSGKategorie ein Prax ist, dessen Merkmal f mit demselben X belegt ist". Dies liegt an
der strikten Trennung von Tbox und Abox und der Tatsache, da in der Tboxsprache
keine Variablen auftauchen durfen7.
4.3 Ergebnisse
Konsistenz in groen Systemen, die aus mehreren Formalismen oder Programmiersprachen und Datenbasen bestehen, ist ein Problem, das wie das der Wiederverwendbarkeit
von formalisierten Resourcen in nachster Zukunft einen festen Platz in der Informatik
haben sollte. Es wurde am Beispiel von GPSG und FAS gezeigt, da sich Kategorien
und Strukturen aus linguistischen Formalismen in Terminologischen Logiken modellieren lassen. Es wurde auerdem gezeigt, da eine Modellierung von Konsistenzbedingungen entweder in einer umfassenden Typologie bestehen kann - dann kann die
Theorie notwendige und hinreichende Konsistenzkriterien liefern - oder als moglicherweise nicht vollstandige Liste von Konsistenzbedingungen. Auch auf diese Art lassen
sich viele Konsistenzbedingungen modellieren und automatisch evaluieren. Welche
Typen von Konsistenzbedingungen sich modellieren lassen, hangt i.w. von den zur
Verfugung gestellten Sprachkonstrukten des gewahlten Wissensreprasentationssystems
ab. Als problematisch erweist sich beispielsweise die zu strikte Trennung von Objekten und Typhierarchie im verwendeten BACK-System, welche die Moglichkeiten bei
der Modellierung der Abhangigkeiten zu stark einschrankt. Eine Weiterfuhrung des
Experiments bietet sich in den folgenden Richtungen an:
Das Erstellen einer Typologie von Lexikoneintragen und deren Modellierung.
7 Zu weiteren Entwicklungen des BACK-Systems, welche die in Frage kommenden Constraints modellierbar machen, vergl. [Quantz 92]. Hier wird die strikte Trennung von Tbox und Abox aufgegeben,
Konzepte konnen auch dadurch deniert werden, da sie in einer bestimmten Relation zu einem Objekt
stehen.
38
Das Erstellen einer umfangreichen Sammlung von Abhangigkeiten bezuglich an-
derer Komponenten eines Systems, wie beispielsweise die U berprufung von Syntaxregeln auf Konsistenz mit den Kategoriendenitionen und/oder dem Lexikon.
39
5 Formale Fundierung des MU -Systems
Das Modell zur Maschinellen U bersetzung des Projekts KIT-FAST beinhaltet mehrere
Reprasentations- und Transferebenen, die verschiedene Aspekte von U bersetzungsaquivalenz, die in der U bersetzungstheorie betrachtet werden, modellieren. In dem in KITFAST implementierten U bersetzungssystem sind im wesentlichen drei Reprasentationsebenen realisiert. Sie beruhen auf unterschiedlichen Arten von Wissen, einerseits
sprachbezogenem Wissen (die oberachensyntaktische Reprasentation und die strukturelle Textreprasentation) und andererseits domainbezogenem Wissen (die Reprasentation des Textinhalts)8. Die Reprasentationsebenen sind durch ein gemeinsames Lexikon
und durch U berfuhrungsregeln miteinander verbunden. Um die Beziehungen zwischen
den Reprasentationsebenen auf eine gesicherte Basis zu stellen und um ebenenubergreifende Generalisierungen zu ermoglichen, wurden die beteiligten Reprasentationen
im Hinblick auf eine modelltheoretische Integration untersucht, mit dem Ziel, dem
MU -System als Gesamtheit eine modelltheoretische Fundierung zu geben.
Integration von sprach- und domainbezogenem Wissen
Wie in Kapitel 3 erwahnt, sind die oberachensyntaktische Reprasentation und die
strukturelle Textreprasentation des KIT-FAST MU -Systems durch Unikationsgrammatiken (GPSG und FAS) deniert. Die Textinhaltsreprasentation beruht auf einem
Wissensreprasentationsformalismus aus dem Bereich der Terminologischen Logiken.
Sowohl Unikationsgrammatiken wie auch Terminologische Logiken haben eine modelltheoretische Interpretation. Zudem sind Unikationsgrammatiken und Terminologische Logiken sich als Formalismen sehr ahnlich: man kann Unikationsgrammatiken
auch unter Terminologische Logiken subsumieren (s. z.B. [Baader et al. 91]). Damit
haben beide Formalismen sogar dieselbe Interpretationsvorschrift. Fur eine modelltheoretische Integration mehrerer Reprasentationsebenen reicht es aber nicht, da die
Formalismen der verschiedenen Ebenen jeder fur sich dieselbe Interpretationsvorschrift
haben. Denn eine Integration erfordert die gleichzeitige Interpretation aller Aussagen
der verschiedenen Ebenen in einem Modell.
Um das Problen zu verdeutlichen, wird hier von nur zwei Reprasentationsebenen ausgegangen, einer sprachbezogenen und einer domainbezogenen Ebene (etwa der
strukturellen Textreprasentation und der Textinhaltsreprasentation). Weiter wird das
Wissen beider Ebenen, d.h. die Grammatik der strukturellen Textreprasentation und
das denitorische Wissen der Textinhaltsreprasentation, gleichermaen als Mengen von
Beschreibungen der Form "a ist b" aufgefat. Fur Terminologische Logiken ist diese
Sicht ublich und Unikationsgrammatiken werden hier als Spezialfall Terminologischer
Logiken betrachtet. Beschreibungen der Form "a ist b" sollen hier sowohl Subsumtionsbeziehungen als auch Element-Menge-Beziehungen erfassen (was naher erlautert
wird in Absatz: Lesartentrennung durch Spezialisierung).
Das sprachbezogene Wissen besteht dann aus Aussagen uber sprachliche Entitaten
(Lexeme oder Phrasen) und uber grammatische Kategorien, z.B. "Maus ist ein Nomen"
und "ein Nomen ist eine lexikalische Kategorie". Die Aussagen des domainbezogenen
Wissens beziehen sich auf auersprachliche Entitaten, namlich auf die Bedeutungen
Die Grenzziehung zwischen sprachbezogenem und domainbezogenem Wissen ist sicher problematisch. Das domainbezogene Wissen beinhaltet hier eine domainbezogene Begrishierarchie und
entsprechende Selektionsbeschrankungen
8
40
sprachlicher Ausdrucke, z.B. "Eine Maus ist ein Nagetier". Fur die Integration von
sprachbezogenem und weltbezogenem Wissen ist es erforderlich, mit beiden Arten von
Entitaten, den sprachlichen Ausdrucken und den Reprasentationen ihrer Bedeutungen,
gleichzeitig umzugehen.
Um Bedeutungen zu reprasentieren, wird fur die deskriptiven Ausdrucke ublicherweise eine "Sprache der Bedeutungen" benutzt, entweder eine Fremdsprache oder
eine Kunstsprache. Beide Wege haben aber ziemliche Schonheitsfehler: Die Verwendung einer Fremdsprache fuhrt in die meistens unterschatzte Problematik der U bersetzungsaquivalenz, denn selbst bei nahe verwandten Sprachen sind die Wortfelder fast nie
deckungsgleich. Bei Verwendung einer Kunstsprache ist man darauf angewiesen, da
Benutzer oder Kollegen, die am gleichen System arbeiten, die Kunstausdrucke genau
so interpretieren, wie sie intendiert sind. Um sicher zu gehen, muten die Bedeutung
der Kunstausdrucke wiederum mit Hilfe naturlicher Sprache extern festgelegt werden.
Die Schwierigkeiten mit einer "Sprache der Bedeutungen" resultieren ubrigens nicht
aus der Mehrebenenarchitektur. Sie zeigen sich hier nur deutlicher als in Architekturen,
die nur eine Reprasentationsebene vorsehen, wie etwa HPSG. Den Mehrebenenarchitekturen liegt, grob gesagt, der in der Logik gebrauchliche Zeichenbegri von Morris
zugrunde, der nur das syntaktische Konstrukt als Zeichen betrachtet und eine Interpretationsbeziehung zwischen dem Zeichen und seiner Bedeutung annimmt. Die Basis
von HPSG ist dagegen der Zeichenbegri Saussures, wo das Zeichen zwei Aspekte
hat, einen syntaktischen und einen semantischen. Dieser Zeichenbegri spiegelt sich
in HPSG dadurch, da das Zeichen als eine komplexe Einheit reprasentiert wird. Fur
die atomaren Bausteine der Reprasentation ist aber ebenfalls eine Unterscheidung von
naturlichsprachlichen Ausdrucken und Ausdrucken einer "Sprache der Bedeutungen"
erforderlich.
Form-Inhalts-Ambiguitat
Nun ist Bedeutungsreprasentation aber auch eine schwierige Aufgabe. Wenn man Morris' Zeichenbegri betrachtet, dann ist es genau das Charakteristikum des Zeichens, da
es eine Bedeutung darstellt. Anders gesagt, das Zeichen hat gerade die Funktion, Bedeutung zu reprasentieren. Im Sinne des Saussure'schen Zeichenbegris beinhaltet das
Zeichen einen bezeichnenden und einen bezeichneten Aspekt. In jedem Fall ist es der
syntaktische Ausdruck selber, der seine Bedeutung reprasentiert, und jede von dem
Ausdruck getrennte Reprasentation ist ein anderes Zeichen und bedeutet, mindestens
im strengen Sinn, etwas anderes. Naturlich kann man sich eine vom Ausdruck getrennte
Reprasentation in einer kunstlichen "Sprache der Bedeutungen" vorstellen. Die Beziehung zwischen dem Ausdruck und seinem Pendant in der "Sprache der Bedeutungen"
ist dann aber eine U bersetzungsbeziehung und basiert wie jede U bersetzungsbeziehung
auf Konventionen daruber, was als bedeutungsgleich anerkannt wird. Die Bedeutung
der Kunstausdrucke mute, wie oben erwahnt, explizit festgelegt werden, und zwar mit
Hilfe der oentlichen, d.h. der naturlichen Sprache.
In einem System zur Verarbeitung naturlicher Sprache werden "Bedeutungsreprasentationen" vor allem deshalb herangezogen, um unterschiedliche Verwendungsweisen eines Ausdrucks zu unterscheiden: Geht es um formbezogene Aspekte oder um
inhaltsbezogene Aspekte? Denn in naturlicher Sprache kann ein Ausdruck wie \Maus"
auf beide Weisen verwendet werden. Er kann auf Entitaten der Welt referieren, wie
in "eine Maus ist ein Nagetier", kann aber auch autonym verwendet werden, d.h. auf
41
sich selbst referieren, z.B. "Maus ist ein Nomen". Welche Art des Gebrauchs vorliegt,
mu aus dem Kontext erschlossen werden. Insofern kann man einen Ausdruck als prinzipiell ambig betrachten: selbstbezogener bzw. weltbezogener Gebrauch stellen zwei
verschiedene Lesarten dar, genauso wie man bei klassischen lexikalischen Ambiguitaten
mehrere weltbezogene Gebrauchsweisen ein und desselben Ausdrucks vorndet.
Hier wird eine Modellierung9 vorgeschlagen, die mindestens im Bereich der deskriptiven Ausdrucke auf Hilfskonstruktionen zur Bedeutungsreprasentation verzichtet und
sich stattdessen an der Funktionsweise naturlicher Sprache orientiert. Es wird davon
ausgegangen, da die sprachlichen Ausdrucke die Entitaten der Modelle bilden. Die
Ausdrucke werden als prinzipiell ambig betrachtet: sie haben (mindestens) eine formbezogene und eine inhaltsbezogene Lesart. Diese Modellierung erfordert allerdings eine
Art und Weise der Lesartentrennung, die tatsachlich erfat, da es sich um ein und
denselben Ausdruck mit je nach Gebrauchsweise verschiedenen Eigenschaften handelt.
Das betrit nicht nur die Ambiguitat zwischen formbezogener und inhaltsbezogener
Lesart, sondern auch die zwischen mehreren inhaltsbezogenen Lesarten (dazu siehe
Absatz: Lesartentrennung durch Spezialisierung).
Das domainbezogene Wissen besteht ublicherweise aus Begrishierarchien, d.h. derselbe Begri kann als Gegenstand und auch als Kategorie in einer Beschreibung auftreten, wie z.B. "Maus" in "die Maus ist ein Nagetier" und in "eine Wustenmaus ist eine
Maus". Deshalb mussen, wenn die Gegenstande von Beschreibungen als Ausdrucke in
unterschiedlichen Gebrauchsweisen betrachtet werden, auch die Kategorien in Beschreibungen als solche Ausdrucke betrachtet werden. Das betrit nicht nur die Kategorien
des domainbezogenen Wissens, sondern auch die des sprachbezogenen Wissens, d.h.
die grammatischen Kategorien.
Der Verzicht auf Bedeutungsreprasentationen und die damit verbundenen U berlegungen zur Form-Inhalts-Ambiguitat der Ausdrucke fuhren zu Fragen, die die Funktionalitat von Beschreibungen der Form "a ist b" in naturlicher Sprache betreen: In
welcher Gebrauchsweise kann ein Ausdruck in welcher Funktion in einer Beschreibung
auftreten? Kann die Ambiguitat der Kopula systematisch erklart werden? Konnen
Beschreibungen selber als Beschriebenes oder Beschreibendes auftreten? Naturliche
Sprache mu nicht zwischen beschriebener und beschreibender Sprache trennen; kann
man diese Fahigkeit naturlicher Sprache modellieren? Angesichts dieser Fragen kann
man den hier verfolgten Modellierungsansatz unter zwei Aspekten sehen: Unter dem
eher technischen Aspekt der integrierenden Modellierung unterschiedlicher Arten von
Wissen, aber auch unter einem eher sprachwissenschaftlichen Aspekt, der sich auf den
Aufbau und die Funktionalitat naturlichsprachlicher Beschreibungen bezieht. Diese
beiden Aspekte spiegeln die Dualitat von "Text als Wissen" und "Wissen als Text".
Wenn man "Text als Wissen" betrachtet, kann man das in einem NLP-System vorgegebene statische Wissen erganzen durch aus dem verarbeiteten Text gewonnenes dynamisches Wissen. Die Betrachtung von "Wissen als Text" ermoglicht es, Metawissen
zu formulieren. Beides gehort zu den Desiderata zukunftiger NLP-Entwicklungen.
Modellierungsansatze in -Strukturen
Aus solchen U berlegungen resultieren umfassende Anforderungen an eine Modellierung
der Funktionalitat von NLP-Systemen:
9
\Modellierung" wird hier im Sinne einer modelltheoretischen Fundierung verstanden.
42
Da die naturlichsprachlichen Ausdrucke die grundlegenden Entitaten sein sollen,
ist die Modellierung intensional, d.h. auch extensionsgleiche Ausdrucke werden
nicht identiziert.
Es soll keine universelle Trennung zwischen beschreibender und beschriebener
Sprache stattnden. Jeder Ausdruck kann in einer Beschreibung als beschreibend oder als beschrieben auftreten. Dadurch sind Mehrfachkategorisierungen
(Polymorphie) und Zirkularitat moglich.
Eine adaquate Behandlung von Ambiguitat verlangt die Moglichkeit, Lesarten zu
trennen, vor allem, um korrekte Vererbung von Eigenschaften zu sichern. Dabei
soll der Ausdruck nicht vervielfacht werden, sondern er soll in einer spezischen
Lesart in einer Beschreibung auftreten. Dieses Konzept von Ambiguitat wird als
Spezialisierung bezeichnet.
Die Fahigkeit naturlicher Sprache zur Selbstreferenz macht es moglich, beschreibende und beschriebene Sprache zu identizieren. In Analogie dazu soll sprachbezogenes Wissen gleichberechtigt neben weltbezogenem Wissen modelliert werden,
und die Sprache nicht durch ein externes Konzept wie etwa eine Signatur vorgegeben, sondern intern entwickelt werden.
Die Selbstreferenz fuhrt zu generellen Fragen der Internalisierung von Metakonzepten. Das betrit vor allem das Konzept des Tragers bzw. universellen Typs
und das Konzept der Wahrheitspradikate, denen die Modellierung sich stellen
mu.
Klassische Modelle konnen diese Anforderungen nicht erfullen. In der Arbeitsgruppe
fur Funktionales und Logisches Programmieren im Fachbereich Informatik der TU Berlin, der das Projekt KIT-FAST zugeordnet ist, wurden die Konzepte der -Struktur und
-Logik und darauf aufbauend ein typtheoretisch orientierter Kalkul, der Calculus of
Declarations, entwickelt (s. [Mahr 93]). Auf dieser Basis wurden verschiedene Ansatze
zur Modellierung entwickelt, die zeigen, wie man einzelnen der oben genannten Anforderungen gerecht werden kann. Sie zeigen auch den Weg fur eine Modellierung, die
diese Anforderungen insgesamt erfullt. Im folgenden werden die in der Projektlaufzeit
von KIT-FAST entwickelten Modellierungsansatze skizzenartig gezeigt.
Eine -Struktur M besteht aus einer (nicht-leeren) Tragermenge und einer binaren
Relation: M = (M, ). Es gibt keine Beschrankungen der -Relation: im Unterschied
zur Elementrelation der axiomatischen Mengenlehre ist die -Relation a priori frei.
Insbesondere ist die -Relation "nicht-fundiert", d.h. auch zirkulare -Beziehungen sind
zulassig. Da die Denition der -Struktur die klassische Mengenlehre zugrundelegt, ist
dies unproblematisch. Die Extension eines Objekts ist deniert als die Menge aller
Objekte, die zu ihm in -Relation stehen. Extensionsgleiche Objekte werden aber
nicht identiziert. Insofern sind -Strukturen intensional.
-Strukturen setzen ein Minimum mathematischer Konzepte voraus. Analog zur
klassischen Mengenlehre konnen komplexe Konzepte wie Teilmenge, Kreuzprodukt,
Funktion usw. auf dieser Basis deniert werden und die -Relation kann durch
Axiome eingeschrankt werden. Diese Flexibilitat und "Unvoreingenommenheit" macht
-Strukturen zu einem geeigneten Werkzeug der Modellierung. Um uber -Strukturen
zu sprechen, genugt eine Pradikatenlogik mit nur zwei Pradikaten, dem -Pradikat und
43
der Gleichheit, die entsprechend in -Strukturen interpretiert werden. Die ublichen
Begrie der Pradikatenlogik konnen dann ubertragen werden.
Auf der Basis von -Strukturen und -Logik wurden verschiedene Ansatze zur Modellierung entwickelt, die fur die Sprachverarbeitungsproblematik relevant sind. Mit
dem Calculus of Declarations (kurz D-Kalkul, s. [Mahr/Strater/Umbach 90] und [Ballmann/Dunker 91]) wurde ein Rahmen fur Kalkule entworfen, dessen grundlegender Begri der der Typ-Proposition ist. Typ-Propositionen werden dabei durch die -Relation
interpretiert. Neben dem klassischen Ableitungsoperator gibt es einen Konstruktionsoperator, der die Wohlgeformheit von Ausdrucken reglementiert. Der Aufbau komplexer syntaktischer Ausdrucke wird intern festgelegt, und es gilt fur alle Kalkule dieses
Rahmens die Maxime: \no proposition without expression". D.h. eine Aussage kann
nur dann formuliert werden, wenn die Bestandteile der Aussage konstruierbar sind, ihre
Wohlgeformheit also gesichert ist. Im Gegensatz zu klassischen Logiken, die eine externe Signatur voraussetzen, ermoglicht diese "Architektur" eine interne Festlegung der
Signatur, und dadurch die Integration von Formalismen unterschiedlicher Signatur und
vor allem eine Verschrankung von logischen Fakten und Wohlgeformheitsbedingungen.
Der D-Kalkul zeigt damit einen Weg zur Internalisierung syntaktischer Festlegungen: Sprachbezogenes und weltbezogenes Wissen werden gleichermaen als Fakten betrachtet, dabei aber das sprachbezogene Wissen tatsachlich als solches genutzt, indem
es via bootstrapping den syntaktischen Aufbau samtlicher Fakten regelt. Daruber hinaus konnen durch Verschrankung von logischen Fakten und Wohlgeformtheitsbedingungen sogenannte semantische Einusse auf die Syntax naturlichsprachlicher Ausdrucke
modelliert werden.
Zwei weitere wichtige Beitrage zur Modellierung mit -Strukturen bilden die Arbeit
zu Modellen des -Kalkuls, die zu --Modellen fuhrte (s. [Pooyan 92]) und die Arbeit
von Strater uber eine Pradikatenlogik mit Selbstreferenz und totalem Wahrheitspradikat (s. [Strater 92]). In der letzteren Arbeit wird gezeigt, da konsistente Modelle
konstruierbar sind, in denen die sogenannten Tarski Bikonditionale gelten. Dies bildet
den entscheidenden Hintergrund fur die Annahme, da es tatsachlich moglich ist, die
oben genannten Anforderungen an ein Modellierung von NLP-Systemen auch insgesamt zu erfullen.
Lesartentrennung durch Spezialisierung
Ein grundlegendes Problem der modelltheoretischen Integration von sprach- und domainbezogenem Wissen bildet der Status der Bedeutungsreprasentationen. Die hier
verfolgte Losung verzichtet im Bereich der Inhaltsworter auf von den Ausdrucken getrennte Bedeutungsreprasentationen und betrachtet stattdessen die Ausdrucke als ambig hinsichtlich Form und Inhalt. Der Modellierungsansatz geht davon aus, da alles
Wissen als Beschreibungen der Form "a ist b" vorliegt, und erfat diese durch TypPropositionen "a:b", die ihrerseits durch die -Relation interpretiert werden. Um der
Form-Inhalts-Ambiguitat der Ausdrucke gerecht zu werden, ist dann eine dierenzierte
Modellierung von Ambiguitat notig.
Es gibt zwei gangige Wege zur Darstellung von Ambiguitat, entweder mittels Indizierung, d.h. die Lesarten werden als eigenstandige Entitaten aufgefat und durch
Ausdrucke einer Kunstsprache reprasentiert, oder der ambige Ausdruck bildet eine
Entitat, der unterschiedliche Eigenschaften zugeordnet werden. Der erste Weg fuhrt
zu demselben Problem wie bei der Bedeutungsreprasentation, zum Problem der man44
gelnden Explizitheit von Kunstsprachen: Die Bedeutung der Kunstsprache mu extern
festgelegt werden. Der zweite Weg ist problematisch, wenn Vererbungsmechanismen
genutzt werden sollen. Angenommen ein Ausdruck hat zwei unterschiedliche Typen,
egal ob konjunktiv oder disjunktiv verknupft. Wenn dieser Ausdruck dann seinerseits
als Typ auftritt, vererbt er leider die Eigenschaften seiner beiden Typisierungen gleichzeitig. Bei konjunktiver Verknupfung kann es daruber hinaus passieren, da die Typen
inkompatibel sind und damit ein Widerspruch auftritt.
Die hier favorisierte Vorstellung von Ambiguitat ist die, da es sich um einen Ausdruck handelt, der in verschiedenen Gebrauchsweisen rsp. Lesarten auftritt. Man kann
nun eine Gebrauchsweise oder Lesart selber als Typisierung verstehen: Der Ausdruck
hat mehrere Typen, die die Lesarten charakterisieren. Eine Lesart wird also als ein
Ausdruck in einer spezischen Typisierung verstanden. In dieser spezischen Typisierung werden ihm weitere Eigenschaften zugeschrieben. Diese Sichtweise erfordert
formal die Moglichkeit, eine Typ-Proposition als Objekt betrachten zu konnen, das
wiederum typisierbar ist. Die Modikation durch "als" im Deutschen arbeitet analog: Die Proposition "Die Maus ist ein Tier" steckt als Prasupposition in "Maus als
Tier". Das modizierte Nominal kann wiederum als Gegenstand weiterer Beschreibungen auftreten: "Die Maus als Tier ist ein Nager". Dieser Mechanismus wird hier als
Spezialisierung bezeichnet. "Maus als Tier" stellt eine der inhaltsbezogenen Lesarten
von "Maus" dar, eine andere ist z.B. "Maus als Eingabegerat". Die ausdrucksbezogene
Lesart ist "Maus als Wort", von der man sagen kann: "Maus als Wort ist ein Nomen".
Wenn nun eine Typ-Proposition als Objekt in einer Typ-Proposition auftreten kann,
es aber keine prinzipielle Trennung zwischen Objekten und Typen geben soll, mu man
auch zulassen, da ein Typ nicht einfach, sondern seinerseits eine Typ-Proposition
ist. Dies fuhrt zu einer interessanten Modellierung vom Merkmalen: Bei atomaren
Merkmalswerten liefern die Merkmalsnamen gewissermaen eine Lesartentrennung der
Werte: "Masculinum als Genus" bzw. "Masculinum als Sexus". Einem Objekt einen
Merkmalswert zuschreiben, bedeutet, ihn mit einer Typ-Proposition zu typisieren:
"Masculinum ist ein Genus" und "Tisch ist Masculinum als Genus" bzw. "Masculinum ist ein Sexus" und "Ochse ist Masculinum als Sexus". Man beachte den Skopus
der als-Modikation: "Ochse ist (Masculinum als Genus)".
Die Lesart eines Ausdrucks wird in der Regel nicht explizit, sondern durch den
Kontext festgelegt. Man kann den Typ, durch den die Lesartentrennung erfolgt, als
kontextuellen Parameter betrachten: "Maus im Kontext Tier ist ein Nager". Diese
Sicht legt dann einen kontextgebundenen Vererbungsmechanismus nahe, so da die
Vorteile von Vererbung genutzt werden konnen, ohne das die -Relation insgesamt
transitiv sein mu: Wenn Objekt und Typ im gleichen Kontext stehen, werden die
Eigenschaften vererbt.
Technisch wird die Spezialisierung durch "selbstahnliche" -Strukturen erfat. Das
sind -Strukturen, an die besondere Anforderungen gestellt werden. Erstens existiert
in diesen Strukturen ein ausgezeichnetes Objekte m, fur das gilt, da jedes Objekt a
des Tragers in -Relation zu m steht. Zweitens existieren ein ausgezeichnetes Objekt und fur jedes Paar (a,b) der -Relation ein Objekt (a,b) und es gilt, da ein Paar (a,b)
in -Relation steht, genau dann wenn das entsprechende Paarobjekt in -Relation zu
dem ausgezeichneten Objekt steht. Das Objekt m reektiert dadurch den Trager,
d.h. die "Sprache der Struktur". Das Objekt reektiert die atomaren Fakten und
die Paarobjekte spiegeln den U bergang von "a ist b" zu "a als b". Die Lesarten eines
Ausdrucks a werden durch Paarobjekte "a als b" modelliert, wobei die syntaktische
45
Lesart eines Ausdrucks a durch ein Paarobjekt (a,m), d.h. "a als Wort", dargestellt
wird.
Die Spezialisierung erlaubt eine sehr allgemeine Modellierung von Ambiguitat, incl.
der Ambiguitat zwischen sprachbezogenem und weltbezogenem Gebrauch eines Ausdrucks. Auch das Konzept der Merkmale wird auf Ambiguitat zuruckgefuhrt, so da
es nicht mehr erforderlich ist, die Modelle mit zusatzlichen Funktionen und einelementigen Wertemengen auszustatten. Man kann Lesartentrennung als kontextgebunden
modellieren und es gibt einen sinnvoll eingeschrankten Begri von Vererbung. Die
Betrachtung von Lesarten als "objektgewordene Aussagen" wirft zudem interessante
Fragen in Bezug auf die damit verbundenen Prasuppositionen auf.
Fazit
Das Ausgangsproblem bei der modelltheoretischen Fundierung des KIT-FAST MU Systems bildete die modelltheoretische Integration von sprach- und weltbezogenem
Wissen. Die zentrale Frage dabei war die, welcher Art die Entitaten der Modellierung sein sollen bzw. ob es sinnvoll ist, von den sprachlichen Ausdrucken getrennte
Bedeutungsreprasentationen anzunehmen. Es zeigte sich, da getrennte Bedeutungsreprasentationen aus der Sicht der Informatik theoretisch widerspruchliche und praktisch unvollkommene Konstrukte sind. Deshalb wurden die Ausdrucke als Entitaten der
Modellierung angenommen und auf getrennte Bedeutungsreprasentationen im Bereich
der deskriptiven Ausdrucke ganz verzichtet.
Der Verzicht auf getrennte Bedeutungsreprasentationen impliziert keinen nominalistischen Standpunkt im sprachphilosophischen Sinne. Es wird vielmehr bezweifelt, da
sich allgemeine sprachphilosophpische Positionen auf die Situation in der maschinellen
Verarbeitung ubertragen lassen. Denn im Unterschied zur menschlichen Sprachverarbeitung stehen der Maschine ausschlielich syntaktische Ausdrucke zur Verfugung
und die Interpretation der Ausdrucke ndet immer nur durch menschliche Benutzer,
(Programmierer usw.) d.h. immer auerhalb des maschinellen Verarbeitungsprozesses statt. Fur eine Modellierung maschineller Sprachverarbeitung scheint es durchaus
angemessen, sich auf das zu beschranken, was tatsachlich innerhalb der maschinellen
Verarbeitung vorliegt, und deshalb doch eine "quasi-nominalistische" Position einzunehmen.
Der Verzicht auf getrennte Bedeutungsreprasentationen fuhrt dazu, da wenigstens
im Bereich der deskriptiven Ausdrucke auf eine Unterscheidung von beschriebener und
beschreibender Sprache verzichtet wird. Dem entsprechend wird bei der vorgeschlagenen Modellierung die Beschreibung in den Vordergrund gestellt, und zwar indem formal
(neben der Gleichheit) nur die -Relation als Pradikat auftritt. Diese Perspektive geht
bis auf Aristoteles zuruck, wurde oft aufgegrien und weitergefuhrt, aber auch oft als
inadaquat zuruckgewiesen. Wir nehmen die Nachteile hier in Kauf, weil uns die aus
dieser Perspektive resultierenden Fragestellungen hinreichend interessant erscheinen:
Beziehungen von beschreibender und beschriebener Sprache, Wechsel von Aussage zu
Objekt, Selbstreferenz und Internalisierung von Konzepten der Metaebene. Eine Modellierung dieser Mechanismen ist gerade fur die maschinelle Verarbeitung naturlicher
Sprache relevant, und kann auch zu neuen Sichtweisen bekannter semantischer Probleme fuhren.
46
6 Termersetzung
In der Regel wird die Termersetzung (TE) zur Losung von Gleichheitsproblemen in
Deduktionssystemen eingesetzt, mit dem Ziel, zu beweisen, ob eine Gleichung aus einer
Menge von Axiomgleichungen folgt. Im Berliner MU -System wurde sie jedoch fur die
Verarbeitung naturlicher Sprache nutzbar gemacht und wird fur Strukturabbildungen,
d.h. fur die semantische und konzeptuelle Analyse, den Transfer und die Generierung
eingesetzt (siehe Abschnitt 7).
Das Grundprinzip der TE ist, Gleiches durch Gleiches zu ersetzen. Dabei werden
sukzessive in den Termen auf beiden Seiten der Gleichung Unterterme durch aquivalente
Terme gema der Axiomgleichungen ersetzt, bis ein aquivalenter minimaler10 Term
auf beiden Seiten erreicht ist. Sind diese literal identisch, folgt die Gleichung aus
den Axiomen. Eine gute Einfuhrung in die Theorie der Termersetzungssysteme geben
[Blasius/Burckert 87] und [Huet/Oppen 80].
Ein Ersetzungs- oder auch Reduktionssystem besteht aus einer Menge von Ersetzungsregeln, die eine binare irreexive Relation '!' zwischen syntaktischen Objekten
denieren. Wenn die Objekte Terme erster Ordnung sind, handelt es sich um ein
Termersetzungssystem (TES). Terme erster Ordnung konnen aus Signaturen fur Termalgebren erzeugt werden (vgl. [Ehrig/Mahr 85] und [Ehrig/Mahr 89]). Die Signaturen konnen durch Gleichungsaxiome zu einer Spezikation erweitert werden. Die
Axiome denieren A quivalenzklassen von Termen. Die Gleichungsmengen konnen mit
dem Knuth-Bendix-Algorithmus in ein kanonisches TES umgewandelt werden (vgl.
[Knuth/Bendix 70]).11
Eine Termersetzungsregel (TE-Regel) ist eine gerichtete Gleichung ! und besteht aus einer linken Seite und einer rechten Seite . Sie deniert, da der Term zum Term reduziert werden kann. Man sagt auch ist aus ableitbar. Wenn beide
Seiten einer TE-Regel Terme ohne Variablenvorkommen (Grundterme) sind, deniert
sie die Relation '!' fur genau ein Paar von Termen. Kommen in den Termen jedoch
Variablen vor (oene Terme), so deniert diese TE-Regel die Relation '!' fur Klassen von Termpaaren. Durch Anwendung der TE-Regeln eines TES kann aus einem
Grundterm ein aquivalenter Term abgeleitet werden.
Termersetzungssysteme sind bestimmte Auspragungen von Produktionssystemen,
die aus einer Regelbasis, einer Datenbasis und einem Interpretierer bestehen (vgl. [Davis/King 77]). Die Regelbasis enthalt eine Menge von Produktionen. Die Datenbasis
reprasentiert den aktuellen Zustand des Systems und der Interpretierer steuert die
Anwendung der Produktionen. Eine Produktion besteht aus einem Bedingungs- und
einem Aktionsteil. Ist der Bedingungsteil einer Produktion durch die Datenbasis erfullt,
so ist sie anwendbar, d.h. der Aktionsteil wird durch den Interpretierer ausgefuhrt und
die Datenbasis entsprechend verandert.
Der Interpretierer steuert die Auswahl der anzuwendenden Produktionen. Dabei
konnen Konikte entstehen, die durch bestimmte Strategien gelost werden mussen (vgl.
[Davis/King 77]):
Minimal wird hier nicht nur im quantitativen Sinn verstanden. In der Termersetzung, insbesondere
bei der Verwendung zur Verarbeitung naturlicher Sprache, ist es sinnvoll, minimal auch qualitativ zu
interpretieren. Minimale Terme sind nicht weiter reduzierbar.
11Ein kanonisches TES ist terminierend und konuent. Letzteres heit, da die Reihenfolge der
Anwendung, d.h. der Ableitungsweg beliebig ist, da immer genau ein und derselbe minimale Term das
Ergebnis einer Ableitung ist.
10
47
Die Produktionen sind total geordnet und die anwendbare Produktion mit der
hochsten Prioritat wird angewendet (Regelordnung).
Die Elemente in der Datenbasis sind total geordnet und die Produktion, die
auf das Element mit der hochsten Prioritat anwendbar ist, wird angewendet
(Datenordnung).
Die spezischste Produktion wird zuerst angewendet (Generalitatsordnung).
Die Anwendung der Produktionen wird durch ein Prazedenz-Netz, das Zyklen
enthalten kann, gesteuert (Regelprazedenz).
Von den anwendbaren Produktionen wird die zuletzt angewendete oder diejenige,
die auf das zuletzt bearbeitete Element der Datenbasis anwendbar ist, angewendet (Aktualitatsordnung).
Die meisten Interpretierer verwenden einen Steuergraphen, der auch Zyklen enthalten
kann und manuell speziziert werden mu. Er legt fest, in welcher Reihenfolge und
wie die Produktionen angewendet werden. Diese Reihenfolge mu nicht unbedingt mit
der inharenten Ordnung der Produktionen ubereinstimmen.12 Dies kann ausgenutzt
werden, um die Kombinatorik bei den Anwendungsmoglichkeiten von Produktionen
zu beschranken, so da uberussige Ableitungen und Mehrfachableitungen verhindert
werden konnen. Das ist moglich, wenn die explizite nicht mit der inharenten Ordnung
der Produktionen ubereinstimmt. Allerdings hat die explizite Ordnung den Nachteil,
da der Produktionenschreiber einen vollstandigen U berblick uber das gesamte, meist
sehr komplexe Produktionssystem haben mu.
In der Termersetzung entspricht ein vorgegebener Grundterm, aus dem mithilfe
der TE-Regeln ein aquivalenter Term abgeleitet werden soll, der Datenbasis. Die TERegeln entsprechen den Produktionen. Die linke Seite einer TE-Regel ist die strukturelle Bedingung fur deren Anwendung, die erfullt ist, wenn sie mit einem Unterterm
des Grundterms unizierbar ist. Wenn das der Fall ist, wird der Unterterm durch die
rechte Seite der TE-Regel ersetzt.
Aus fast allen TES, die fur die Verwendung in Deduktionssystemen untersucht werden, lassen sich kanonische, d.h. terminierende und konuente TES erzeugen. Ergebnisse zur Termination und Konuenz von TES nden sich in [Dershowitz 82], [Dershowitz 85], [Drewes 89] und [Drewes/Lautemann 90] bzw. [Huet 77]. Aufgrund der Konuenz solcher Systeme braucht ein Interpretierer fur diese Systeme keine Konikte
zu losen, da immer nur genau eine Losung erzeugt wird, egal welcher Ableitungsweg
gewahlt wurde. Fur die TES, die fur die Verarbeitung naturlicher Sprache, also auch
fur die MU , konnen nicht beide Eigenschaften vorausgesetzt werden. Ein einfaches
Beispiel macht deutlich, warum die Konuenz nicht garantiert werden kann. In der
syntaktischen Analyse ist aus einer syntaktisch mehrdeutigen Ausgangsstruktur mehr
als eine aquivalente Zielstruktur ableitbar. Diese Tatsache kann zur Unvollstandigkeit
der Interpretation dieser TES fuhren, wenn die Verzweigungspunkte in einer Ableitung
nicht durch eine revidierende Steuerung berucksichtigt werden. Ein ezienter, korrekter und vollstandiger Interpretierer fur terminierende und nicht-konuente TES wird
in [Weisweber 92] und [Weisweber 93] ausfuhrlich beschrieben.
12Mit inh
arenter Ordnung ist die Ordnung der Produktionen gemeint, die zur Erzeugung aller
gema der Produktion zulassigen Losungen fuhren, d.h. zu einer vollstandigen Interpretation der
Produktionen.
48
Die Terminierung von TES in der MU wird dort durch eine Termordnung gewahrleistet, die auf disjunkte Vokabulare fur Ausgangs- und Zielterme basiert. Der Interpretierer terminiert, weil durch die Anwendung einer TE-Regel das Ausgangsvokabular
reduziert wird.
Wenn TES fur die Verarbeitung naturlicher Sprache eingesetzt werden, ist die Verwendung von Defaultregeln sinnvoll. Eine TE-Regel ist genau dann eine Defaultregel,
wenn es mindestens eine TE-Regel mit einer spezischeren linken Seite gibt, es sei
denn, der Regelschreiber hat sie explizit als Verzweigungspunkte gekennzeichnet. Existieren solche Defaultregeln und ist die spezischere Regel auf einen Term anwendbar,
so wird nur diese Regel angewendet und nicht die Defaultregel. Andernfalls wird die
Defaultregel angewendet, falls sie anwendbar ist. Die Defaultregeln haben Einu auf
die Korrektheit der Interpretation der TE-Regeln und werden deshalb durch die Steuerung des Interpretierers gesondert behandelt.
Normalerweise wird durch die Anwendung einer TE-Regel die Voraussetzung fur die
Anwendung einer anderen geschaen. In diesem Fall sind die beiden Regeln inharent
geordnet. Wenn die TE-Regeln genau in dieser Reihenfolge auf Anwendbarkeit gepruft
werden, ist eine eziente, durch die TE-Regeln gesteuerte Anwendung gewahrleistet.
Allerdings mu berucksichtigt werden, da diese Anwendungsreihenfolge in der Regel
auch Zyklen enthalt, welche die Ezienz je nach Anzahl und Groe der Zyklen mindern.
Um eine eziente, korrekte und vollstandige Interpretation der TES zu gewahrleisten, verwendet der Interpretierer drei Steuerungsrelationen, die automatisch aus
den TE-Regeln durch U berlagerung berechnet werden. Sie explizieren genau die drei
o.g. Beziehungen zwischen zwei TE-Regeln (Anwendungsreihenfolge, Defaultregeln und
Verzweigungspunkte).
49
7 Das Berliner MU -System
Die Architektur des MU -Systems im Projekts KIT-FAST, die in Abbildung 21 dargestellt ist, basiert auf einem Transfermodell, wobei die ausgangs- und zielsprachliche syntaktische Struktur durch entsprechende Generalisierte Phrasenstrukturgrammatiken
(GPSG) erzeugt werden (siehe Unterabschnitt 7.1.1). Die ausgangs- und zielsprachliche satzsemantische Reprasentation (Funktor-Argument-Struktur, FAS) werden durch
entsprechende kontextfreie Grammatiken erzeugt (siehe Unterabschnitt 7.1.2). Es ist
nur die U bersetzungsrichtung von Deutsch nach Englisch realisiert, die erzielten Ergebnisse sind aber prinzipiell verallgemeinerbar auf andere Sprachpaare. Die satzsemantische Ebene ist die tiefste Satzreprasentation und gleichzeitig die Transferebene,
aus der die Textreprasentation erzeugt wird.
Um einen Satz der Ausgangssprache (AS) in einen Satz der Zielsprache (ZS) zu ubersetzen, mussen einige Strukturabbildungen durchgefuhrt werden. Die Abbildungen eines AS-Satzes in seine syntaktischen (GPSG-)Strukturen werden als syntaktische Analyse (siehe Abschnitt 7.2.1), einer AS-GPSG-Struktur in aquivalente FAS-Ausdrucke
als semantische Analyse (siehe Abschnitt 7.2.2), eines AS-FAS-Ausdrucks in aquivalente ZS-FAS-Ausdrucke als Transfer (siehe Abschnitt 7.2.4), eines ZS-FAS-Ausdrucks
in aquivalente ZS-GPSG-Strukturen als Generierung (siehe Abschnitt 7.2.5) und einer
ZS-GPSG-Struktur in den entsprechenden ZS-Satz als morphologische Synthese bezeichnet. Alle Abbildungen, die durch einen durchgehenden Pfeil markiert sind, mit
Ausnahme der syntaktischen Analyse und der morphologischen Synthese werden durch
ein Verfahren auf der Basis von Termersetzung durchgefuhrt (siehe Abschnitt 6). Die
syntaktische Analyse wird durch einen im Projekt KIT-NASEV entwickelten GPSGParser bewerkstelligt (vgl. [Weisweber 87], [Weisweber 88a] und [Weisweber/Preu
92]). Die morphologische Analyse und Synthese basieren auf dem SUTRA-System
(vgl. [Busemann 83]). Die Erfahrungen haben gezeigt, da eine Zusammenfassung der
syntaktischen und semantischen Analyse zu einem Termersetzungssystem sinnvoll ist.
Dieses wurde aber bisher noch nicht realisiert.
Im Projekt KIT-FAST II wurden die ersten Schritte in Richtung der Losung von
textuellen Phanomenen in der MU gemacht. Fur die Interpretation anaphorischer
Bezuge des Deutschen wird eine Textreprasentation erstellt (siehe Abschnitt 3 und vgl.
[Hauenschild 91], [Schmitz et al. 92], [Preu et al. 92] und [Preu et al. 93]), die von
einer Komponente zur Anaphernresolution (siehe Abschnitt 3.3 und [Dunker/Umbach
93]) verwendet wird. Das Projekt geht von einer dualen Textreprasentation aus (siehe
Abschnitt 3.1, vgl. [Schmitz et al. 92] und [Preu et al. 93]). Einerseits wird der Text
in seiner Linearitat bzw. Verschachtelung entsprechend dem fortschreitenden Interpretationsproze betrachtet (strukturelle Textreprasentation). Andererseits wird er als
Ergebnis eines Interpretationsprozesses aufgefat und aus der Sicht der Referenzobjekte gezeigt (referentielle Textreprasentation).
Die strukturelle Textreprasentation wird verwendet, um einen Antezedenskandidaten nach strukturellen Kriterien zu bewerten. Dabei hat sich herausgestellt, da die
FAS die erforderlichen Informationen bereits enthalt. Das Verfahren zur Interpretation anaphorischer Bezuge arbeitet deshalb auf einer Liste von FAS-Ausdrucken, so
da auch satzubergreifende Bezuge behandelt werden konnen.
Die referentielle Textreprasentation wird verwendet, um die inhaltliche Konsistenz
zwischen den Pradikationen uber die Anapher und dem Wissen, das an die einzelnen Antezedenskandidaten geknupft ist, zu uberprufen. Der Textinhalt wird mithilfe
50
Satz G
Satz E
morphologische und
syntaktische Analyse
morphologische
Synthese
GPSG-G
GPSG-E
Struktur
Struktur
semantische
Analyse
Generierung
FAS-G
Ausdruck
FAS-E
Ausdruck
Transfer
konzeptuelle
Analyse
Aktualisierung
Auswertung
Kommunikation mit ABox und TBox
TBox-Anfragen
- ATL
- ABox-Anfragen
Interpretation
anaphorischer
..
Bezuge
..
Wissensreprasentationssystem BACK
TBox
Algorithmus
zur
ABox
Abkurzungen
G
Deutsch
E
Englisch
GPSG Generalisierte Phrasenstrukturgrammatik
FAS Funktor-Argument-Struktur
ATL ABox-Tell-Language
ABox Assertionales Wissen (referentielle Textreprasentation)
TBox Terminologisches Wissen (Hintergrundwissen)
Abbildung 21: Architektur des MU -Systems im Projekt KIT-FAST
51
des Wissensreprasentationssystems BACK dargestellt, das im Nachbarprojekt KITBACK entwickelt und in das MU -System des Projekts KIT-FAST integriert wurde.
Das BACK-System, das in [Peltason et al. 89] und [Quantz/Kindermann 90] beschrieben wird, verwendet die KL-ONE-ahnliche formale Sprache BACK, in der terminologisches und assertionales Wissen in der TBox bzw. ABox reprasentiert werden kann.
In der ABox des MU -Systems werden die Diskursobjekte und die Relationen zwischen
ihnen reprasentiert. In der TBox werden die Selektionsrestriktionen, die von den Diskursobjekten in der ABox erfullt werden mussen, formuliert. Langfristig sollen auch
andere Formen von Hintergrundwissen wie z.B. enzyklopadisches oder ubersetzungstheoretisches Wissen in der TBox modelliert werden.
ABox- und TBox-Inhalt konnen uber eine Anfrageschnittstelle des BACK-Systems
abgefragt werden. Diese Schnittstelle kann von den Abbildungsregeln (in Abbildung 21
nicht dargestellt) und dem Anapherninterpretationsverfahren benutzt werden.
Nach der morphologischen, syntaktischen und semantischen Analyse wird der Inhalt eines ausgangssprachlichen Satzes, d.h. die Diskursobjekte mit ihren Eigenschaften
und Bezugen in die referentielle Textreprasentation eingetragen. Dazu wird aus der
Funktor-Argument-Struktur eines Satzes ein ATL-Ausdruck erzeugt, mit dem der Satzinhalt in die ABox des BACK-Systems eingetragen werden kann. Diese Abbildung
wird als konzeptuelle Analyse (siehe Abschnitt 7.2.3) bezeichnet. Zunachst wird noch
keine Information uber Anaphern eingetragen. Dies erfolgt erst nach der anschlieenden Interpretation ihrer Bezuge. Dabei werden die moglichen Antezedenten aus den
vorangehenden Satzen und dem aktuellen ermittelt und nach verschiedenen Kriterien
bewertet. Eines der Kriterien ist die inhaltliche Konsistenz (s.o), die uber ABoxund TBox-Anfragen bewertet wird. Um festzustellen, ob ein mogliches Antezedens
diese Restriktion erfullt, greift das Interpretationsverfahren uber die ABox- und TBoxAnfrageschnittstelle auf die referentielle Textreprasentation bzw. Hintergrundwissen
zu. Hat das Verfahren das Antezedens ermittelt, wird die Funktor-Argument-Struktur
aktualisiert, indem beim Pronomen die Referenz des ermittelten Antezedens eingetragen wird. Danach werden samtliche Relationen, in denen das Pronomen im Satz steht
in die ABox eingetragen. Die referentielle Textreprasentation wird so inkrementell aufgebaut. Anschlieend erfolgen Transfer, Generierung und morphologische Synthese.
Es reicht naturlich nicht aus, die anaphorischen Bezuge nur auf der ausgangssprachlichen Seite zu interpretieren. Sie mussen auch auf der zielsprachlichen Seite aufgelost
werden (vgl. [Schmitz et al. 92] und [Preu et al. 93]), denn wenn beispielsweise bei der
U bersetzung Verben in Funktionsverbgefuge ubersetzt werden, sind in der Zielsprache
andere anaphorische Bezuge moglich als in der Ausgangssprache. Diese Komponente
ist jedoch zur Zeit nur rudimentar entwickelt.
7.1 Reprasentationsformalismen
Das MU -Modell im Projekt KIT-FAST sieht insgesamt vier Reprasentationsebenen
vor. Die syntaktische und die satzsemantische Ebene sind vollstandig, d.h. sowohl fur
die Analyse als auch fur die Synthese, realisiert. Die referentielle Textreprasentation
wird nur im Rahmen der Analyse des Deutschen erstellt.
Die syntaktischen Strukturen werden von Generalisierten Phrasenstrukturgrammatiken (GPSGs) erzeugt. Dieser im zweiten Unterabschnitt skizzierte Grammatikformalismus gehort zu der Familie der Unikationsgrammatiken. GPSG-Strukturen sind
die Ausgangsstruktur fur die semantische Analyse (siehe Unterabschnitt 7.2.2) und die
52
Zielstruktur fur die Generierung (siehe Unterabschnitt 7.2.5).
Die Funktor-Argument-Struktur (FAS), die im zweiten Unterabschnitt beschrieben wird, bildet die zentrale Reprasentationsebene im MU -System des Projekts KITFAST. Diese Reprasentation wurde im Projekt entwickelt und ist die einzige Transferebene. FAS-Ausdrucke bilden die Zielstruktur der semantischen Analyse (siehe Unterabschnitt 7.2.2), dienen als Ein- und Ausgabestruktur fur den Transfer (siehe Unterabschnitt 7.2.4) und sind der Ausgangspunkt fur die konzeptuelle Analyse (siehe
Unterabschnitt 7.2.3) und fur die Generierung (siehe Unterabschnitt 7.2.5).
Die referentielle Textreprasentation wird mithilfe des Wissensreprasentationssystems BACK (vgl. [Peltason et al. 89]) in einer KL-ONE ahnlichen Sprache als assertionales Wissen (ABox) dargestellt. Sie wird satzweise mithilfe der ABox-Tell-Language
(ATL) in der ABox konstruiert. Die ATL wird durch eine kontextfreie Syntax erzeugt
und im letzten Unterabschnitt vorgestellt.
Alle drei Reprasentationsebenen lassen sich letztendlich durch kontextfreie Grammatiken mit komplexen Kategorien als Knotenmarkierungen darstellen.
7.1.1 Generalisierte Phrasenstrukturgrammatiken
Im Vorgangerprojekt KIT-NASEV wurde festgestellt, da die ursprungliche Version
der GPSG aus [Gazdar et al. 85] fur die Verarbeitung naturlicher Sprache nicht praktikabel ist. Die axiomatische Sicht dieser Version fuhrt leicht zu einer kombinatorischen
Explosion. Auerdem ist die Reihenfolge der Anwendung der einzelnen Merkmalinstanziierungsprinzipien ungeklart. Deshalb wurde eine konstruktive Version entwickelt, die
in den folgenden Projekten KIT-FAST I+II weiter ausgebaut wurde.
Die Grundidee der konstruktiven Version ist, die Menge der Immediate-DominanceRegeln (ID-Regeln) nicht erst durch die Merkmalinstanziierungsprinzipien (MIPs) und
Bildung aller Reihenfolgen der Tochter aufzublasen, um sie danach durch Anwendung
der Feature-Co-occurrence-Restrictions (FCRs) und Linear-Precedence-Aussagen (LPAussagen) wieder zu reduzieren, sondern die Verteilung der Merkmalspezikationen
und die Reihenfolge der Tochter in den lokalen Baumen so zu steuern, da wahrend
der Analyse bzw. Synthese eines Satzes nur zulassige (lokale) Baume konstruiert werden
(vgl. [Busemann/Hauenschild 88a] und [Hauenschild/Busemann 88a]).
Ein erster Schritt in diese Richtung war die direkte Interpretation des ID/LPFormats wahrend der Analyse bzw. der Synthese. Dabei werden die Basis-ID-Regeln
durch Anwendung der Metaregeln zu einer Menge von Objekt-ID-Regeln expandiert,
die dann aber zusammen mit den LP-Aussagen direkt vom Parser bzw. Generator verwendet werden. Dieser Ansatz wurde in [Shieber 84], [Kilbury 84], [Dorre/Momma
85], [Weisweber 87] und [Weisweber 88a] fur die Analyse und in [Busemann 92] fur die
Generierung entwickelt und angewendet.13
Der Parser aus [Weisweber 88a] und der Generator aus [Busemann 92] wurden im
den Projekten KIT-NASEV und -FAST entwickelt und in einer fruheren Version des
MU -Systems eingesetzt. Beide Verfahren waren in der Lage, die selben linguistischen
Daten zu verarbeiten und benutzten gemeinsam Komponenten fur die MIPs und FCRs.
In einer spateren Phase wurde der Generator durch ein Termersetzungssystem ersetzt
13Ein anderer Weg wurde zum Beispiel in [Evans 87], [Phillips/Thompson 87], [Briscoe et al. 87]
und [Naumann 88] verfolgt. Dort sollten die hinlanglich bekannten Algorithmen, die fur kontextfreie
Phrasenstrukturregeln geeignet waren, verwendet werden. Deshalb wurde durch Anwendung der Metaregeln und LP-Aussagen auf die Basis-ID-Regeln in einem Vorverarbeitungsschritt eine kontextfreie
Grammatik erzeugt.
53
(siehe Abschnitt 7.2.5) und der Parser erweitert. Auer der direkten Verarbeitung des
ID/LP-Formats wurde er so modiziert, da er Metaregeln ebenfalls direkt interpretieren kann. Dieser Ansatz ist in [Weisweber/Preu 92] beschrieben.
Die FCRs und MIPs wurden im Projekt KIT-FAST gegenuber der ursprunglichen Version verandert, so da sie sowohl in einem Vorverarbeitungsschritt als auch
wahrend der Analyse angewendet werden. In dem Vorverarbeitungsschritt werden
das Agreement-Prinzip (AP), das aus dem Control-Agreement-Prinzip (CAP) hervorgegangen ist, die Head-Feature-Convention (HFC) und die FCRs in dieser Reihenfolge
angewendet, so da in den Basis-ID-Regeln entweder Merkmalwerte instantiiert oder
variable Werte kospeziziert werden (durch Variablenbindung in Prolog). Das FootFeature-Prinzip (FFP) und nocheinmal die FCRs werden wahrend der Analyse angewendet. Die MIPs wurden jedoch wie folgt geandert (vgl. [Preu 89]):
Das FFP wurde unverandert ubernommen.
Die Anwendung des AP wird durch Spezikationsmerkmale gesteuert. Das sind
Merkmale, fur deren Werte vom Grammatikschreiber eine Menge von Merkmalen festgelegt wird, deren Werte identisch sein mussen mit denen jeder anderen
Kategorie im lokalen Baum, die den gleichen Wert fur das Spezikationsmerkmal
hat. Die Werte fur die Spezikationsmerkmale mussen ererbt sein, d.h. schon in
der ID-Regel speziziert sein, die dem lokalen Baum zugrundeliegt. Vom AP sind
ebenfalls alle Tiefenkategorien betroen, das sind Kategorien, die als Wert eines
Merkmals im lokalen Baum vorkommen. Ist zum Beispiel der Wert des Spezikationserkmals agr zweier Kategorien in einem lokalen Baum +, so werden die
fur diese Spezikation denierten Merkmale, zu denen u.a. person und numerus
gehoren, bei beiden Kategorien kospeziziert. Wenn das nicht moglich ist, wird
der lokale Baum abgelehnt.
Die HFC ist fast genauso deniert wie das AP. Der Unterschied ist, da nur
die Tiefenkategorien der Mutter berucksichtigt werden. Da bei der HFC nur
die Tiefenkategorien der Mutter betroen sind, liegt daran, da zum Beispiel
im Deutschen auch die Head-Tochter topikalisiert werden kann, und dann als
Wert des Merkmals slash bei der Mutter vorkommt, so da die Mutter und ihr
slash-Wert in den Head-Merkmalen identiziert werden.
Die GPS-Grammatiken, die im Projekt KIT-FAST verwendet werden, sind im Abschnitt 7.2.1 beschrieben.
7.1.2 Funktor-Argument-Strukturen
Bei der Funktor-Argument-Struktur (FAS) handelt es sich formal um eine kontextfreie Syntax mit komplexen Kategorien, welche aus einer Hauptkategorie und einer
Menge von Merkmal-Wert-Paaren bestehen. Dadurch da variable, ggf. kospezizierte
Merkmalwerte angegeben werden, lassen sich linguistisch relevante Generalisierungen
beschreiben. Inhaltlich wurde die FAS von drei Seiten beeinut (vgl. [KIT-FAST 91]):
Funktor-Argument-Beziehungen bilden den logischen Kern der FAS. Sie sind dem
Konzept der GPSG-Semantik aus [Gazdar et al. 85] ahnlich. Das Prinzip der
Anwendung von Funktoren auf ein oder mehrere Argumente wurde daraus herangezogen.
54
Auf der Basis des Konzepts fur Funktionale Satzperspektive der Prager Schule
(siehe [Sgall et al. 73]) wurde die Idee einer skalaren Ordnung der Konstituenten
eines Satzes nach ihrer relativen Thematizitat bzw. Rhematizitat ubernommen.
Dieser Aspekt spielt eine wesentliche Rolle fur eine adaquate U bersetzung und
sollte daher beim Transfer gewahrt bleiben.
Von EUROTRA-D wurden semantische Rollen (vgl. [Steiner et al. 88b]) und
semantische Merkmale (vgl. [Zellinsky-Wibbelt 88]) ubernommen, die fur den
lexikalischen Transfer von entscheidender Bedeutung sind.
Die Funktor-Argument-Beziehungen werden in einem lokalen FAS-Baum dadurch
kodiert, da die am weitesten links stehende Tochter als Funktor und die rechts neben
ihm vorkommenden Schwestern als seine Argumente aufgefat werden. Die Argumente
sind kanonisch geordnet. Die explizite Darstellung der kanonischen Ordnung ist entscheidend. Zum einen wird sie fur die Denition von Anaphernbindung auf der Basis
des o-Kommandos der HPSG verwendet. Zum anderen wird die FAS als Ein- und
Ausgabe fur den Transfer in der maschinellen Sprachubersetzung verwendet und im
allgemeinen hangt die Wahl eines moglichen U bersetzungsaquivalents fur ein Verb von
den semantischen Eigenschaften seiner Argumente ab und nicht von deren Reihenfolge
an der Oberache. Es ist in diesem Fall sinnvoll, neben den semantischen Eigenschaften der Argumente auch deren semantische Rollen in der satzsemantischen Struktur zu
reprasentieren, um moglichst generelle Transferregeln formulieren zu konnen.
Beispielsweise sind v-pred, n-pred und a-pred Funktoren, die eine vordenierte Anzahl von Termen (term) als Argumente haben, det(erminer) ein Funktor auf Termebene
und mod(ier) ein Funktor, der rekursiv auf einen nom(inalen) Komplex angewendet
werden kann. Analoge Losungen sind in logisch orientierten Semantiken allgemein
bekannt. Weniger ublich ist die Reprasentation der Tempusinformation. Dafur wird
eine Kategorie n (fur Finitkomplex) angenommen, der die Informationen uber Tempus und Modus fur jeden niten Satz als Merkmalspezikation fur pres(ent), fut(ure)
und conj(unctive) zugeordnet ist. In der FAS des Englischen wird zusatzlich noch ein
Merkmal prog(ressive) angenommen. Durch diese Merkmale wird eine generelle Unterscheidung zwischen niten und inniten Satzen (clausen bzw. clause) erreicht, die
anderseits auch viele gemeinsame Eigenschaften haben, die fur die U bersetzung relevant sind, wie z.B. ihr Valenzrahmen (der bei (um-)zu-Innitivkonstruktionen davon
ausgeht, da eins der Argumente an der Oberache nicht realisiert ist). Schlielich gibt
es einen Funktor illoc(ution), der die Hauptsatze von eingebetteten Satzen ohne eigene
Illokution unterscheidet und dessen terminale Tochter angeben, ob es sich um einen
Aussage-, Frage- oder Befehlssatz handelt.
Die thematische Struktur eines Satzes wird durch das Merkmal them dargestellt.
Dieses Merkmal wird nur Tochterkategorien der FAS-Hauptkategorie clause zugeordnet, das sind im allgemeinen Kategorien mit den Hauptkategorien v-pred und term. Die
Werte dieses Merkmals sind naturliche Zahlen, welche die Position der entsprechenden
Konstituente in einer skalaren Ordnung der Satzoberache angeben. Die thematische
Ordnung mu nicht unbedingt mit der kanonischen Ordnung der Argumente ubereinstimmen, obwohl dies im unmarkierten Fall zutrit.
Die semantischen Rollen der Argumente werden durch die komplementaren Merkmale conf(iguration) (fur semantische Konguration, entsprechend der Subkategorisierung in der Syntax) und role dargestellt. Kongurationen und Rollen sind nicht
notwendigerweise identisch im Original und seiner U bersetzung, obwohl das der Nor55

malfall ist. Veranderungen der Rollenkonguration bei der Ubersetzung
sind nicht
beliebig, wurden aber nicht naher untersucht.
Die semantischen Eigenschaften (Merkmale) von Verben und Nomen werden als
Werte der Merkmale vtyp bzw. ntyp in der FAS reprasentiert. Mogliche Werte fur vtyp
sind stat(ic), act(ion) oder ach(ievement), fur ntyp count oder mass. Dabei reprasentiert
count zahlbare Nomen, bei denen ein indeniter Artikel im Singular moglich ist, und
mass nicht zahlbare Nomen, die nicht pluralisierbar sind.
Die semantischen Eigenschaften der Adjektive werden mittels des Merkmals grad
mit den Werten gradable oder no und des Merkmals bound mit den Werten bound oder
no reprasentiert. Das erste Merkmal gibt an, ob das entsprechende Adjektiv mit sehr
oder ziemlich modiziert werden kann und das zweite, ob es nicht zahlbare Nomen
(engl. mass nouns) bindet oder nicht. Letzteres ist insbesondere relevant fur die FAS
des Englischen.
In den FAS-Ausdrucken werden die semantischen Eigenschaften der Nomen, Verben und Adjektive ausgehend vom FAS-Lexikoneintrag bis an die Konstituente, die als
Argument eines Funktors auftritt (in der Regel term), durch Kospezikation in den
FAS-Regeln weitervererbt. Obwohl wir Redundanzen an anderen Stellen vermeiden
(z.B. wird das Merkmal num(ber) nur am Determinator speziziert), scheint bei der
Distribution der semantischen Eigenschaften Redundanz sehr hilfreich zu sein. Anderenfalls ware die Formulierung von Transferregeln fur Funktoren sehr schwierig, weil
ihre U bersetzung normalerweise von den semantischen Eigenschaften seiner Argumente
abhangt, und es ware notwendig, den gesamten Baum bis hinunter zum terminalen Element, das auch noch rekursiv eingebettet sein kann, zu durchsuchen. Auerdem konnen
die semantischen Eigenschaften auf dem Weg zur Kategorie term durch Koordination
oder nicht-durchschnittsbildende Modikation verandert werden. Dieses illustriert sehr
gut das Problem, inwieweit Redundanz zugelassen werden mu, um die Formulierung
von Transferregeln zu vereinfachen.
Die semantischen Eigenschaften von FAS-Konstituenten sind im Prinzip Elemente
der konzeptuellen Ebene, auf der die Bedingungen fur verschiedene U bersetzungsmoglichkeiten adaquater formuliert werden konnen, weil dort zusatzliche Informationen
uber den Kontext zur Verfugung stehen. Da ein Transfer aber nur auf FAS-Ausdrucken
stattndet, wurde diese Reprasentation mit diesen Informationen angereichert.
Die richtige Kombination von Praposition und Nomen wird durch die drei Merkmale
real(ization) mit den moglichen Werten shape oder no, ext(ension) mit den moglichen
Werten temp(oral) oder no und act(or) mit den moglichen Werten actor oder no sichergestellt. Dabei sind diese Merkmale fur Prapositionen (Hauptkategorie prep) und
Nomen (Hauptkategorie noun) deniert und in einer Prapositionalphrase identisch.
Die FAS enthalt einerseits die gesamten ubersetzungsrelevanten Informationen und
andererseits neben der referentiellen Textreprasentation in der ABox (siehe nachsten
Unterabschnitt) die fur die Anapherninterpretation relevanten Informationen. Das
Merkmal atyp speziziert die Art, wie eine FAS-Konstituente in anaphorischen Bezugen
teilnehmen kann. Der Wert pron(oun) bedeutet, da die Konstituente ein Pronomen
ist, noun ein Nomen, relpron ein Relativpronomen, impl ein implizites Subjekt und
evpron eine Anapher, die sich auf ein Ereignis bezieht (z.B. dafur). Der Wert des
Merkmals atyp wird aus dem FAS-Lexikon weitervererbt.
Das Merkmal rtyp gibt den Typ einer FAS-Konstituente an, auf die sich eine Anapher beziehen kann, d.h. eines der Oberkonzepte object, event, property, time oder
place, welches das Konzept der Konstituente subsumiert. Der Wert dieses Merkmals
56
habox-tell-expressioni ! hobj-refi = hatl-conci
j hvariablei = hatl-conci
hobj-refi
! uci
hatl-conci
! hconcepti
j hconcepti with hatl-rolei
hatl-rolei
! hrole-descriptioni : (habox-tell-expressioni)
j hatl-rolei andwith hatl-rolei
hrole-descriptioni ! inverse hrolei
j hrolei
Abbildung 22: Kontextfreie Syntax fur ein Fragment der ATL
wird ebenfalls aus dem FAS-Lexikon weitervererbt.
Weiterhin werden in der FAS die durch das Interpretationsverfahren ermittelten
anaphorischen Bezuge durch Koindizierung der Werte fur das Merkmal ref(erence) der
Anapher und des Antezedens dargestellt. Der Wert dieses Merkmals ist eine Referenz
auf das entsprechende ABox-Objekt (siehe nachsten Unterabschnitt).
Da auch satzubergreifende anaphorische Bezuge behandelt werden, wird eine Liste
von FAS-Ausdrucken als strukturelle Textreprasentation verwendet.
Eine detaillierte Beschreibung der FAS enthalt [Hauenschild/Umbach 88]. Auf ihre
formale, modelltheoretische Interpretation gehen [Mahr/Umbach 90] ein. Die im Projekt KIT-FAST verwendeten Grammatiken fur das Deutsche und Englische werden
in [Hauenschild/Umbach 88], [Busemann/Hauenschild 89], [Busemann 92] und [KITFAST 91] vorgestellt.
7.1.3 Die referentielle Textreprasentation
Im Projekt KIT-FAST wird die ABox des Wissensreprasentationssystems BACK benutzt, um eine referentielle Textreprasentation in einer KL-ONE-ahnlichen Sprache zu
erzeugen (siehe Abschnitt 3.1). Diese Reprasentation wird von einer Komponente fur
die Interpretation anaphorischer Beziehungen verwendet, um die inhaltliche Konsistenz
zwischen den Pradikationen uber die Anapher und dem Wissen, das an die einzelnen
Antezedenskandidaten geknupft ist, zu uberprufen (vgl. [Hauenschild 91], [Schmitz et
al. 92], [Preu et al. 92] und [Preu et al. 93]). Die referentielle Textreprasentation wird
inkrementell erstellt, indem die Information eines jeden Satzes mithilfe der ABox-TellLanguage (ATL) als assertionales Wissen in die ABox des BACK-Systems eingetragen
wird.
Die ATL wird durch eine kontextfreie Syntax generiert. In Abbildung 22 wird
eine reduzierte Syntax fur die ATL vorgestellt, wie sie auch im Projekt KIT-FAST
in Gebrauch ist. Die vollstandige Syntax ist in [Peltason et al. 89] enthalten. Das
nicht-terminale Symbol hconcepti reprasentiert die Konzepte, die in einem Diskurs vorkommen und als ABox-Objekte in die ABox eingetragen werden. Das BACK-System
betrachtet jedes ABox-Objekt als unique constant und vergibt daur die Namen uci.
Das nicht-terminale Symbol hrolei stellt die semantischen Rollen der Argumente eines
pradikativen Konzepts dar. Als hvariablei werden Variablen bezeichnet, die durch das
BACK-System mit dem Namen eines ABox-Objekts instantiiert werden, wenn es fur
57
atl
! equal(OBJ-REF) with(INV,ROLE)
with(INV1 ,ROLE1 ) ! equal(OBJ-REF) with(INV2 ,ROLE2 )
equal(OBJ-REF) ! hconcepti
Abbildung 23: Kontextfreie Syntax fur ATL-Strukturen mit komplexen Kategorien
atl
equal(obj-ref:uc_1)
..
gehoren-zu
with(inv:-,role:attribuant)
equal(obj-ref:uc_2)
elektronik
with(inv:-,role:associatet)
equal(obj-ref:uc_3)
technologie
Abbildung 24: Beispiel einer ATL-Struktur des Deutschen
das entsprechende Diskursobjekt noch keine Referenz in der ABox gibt.
Diese ATL-Syntax kann noch erheblich vereinfacht werden, wenn man komplexe
Kategorien als Knotenmarkierungen verwendet. Die Syntax in Abbildung 23, die den
Kleene-Operator '' verwendet, ist aquivalent zu der in Abbildung 22. Samtliche vordenierten Konzepte hconcepti werden in Form des letzten Regelschemas in das ATLLexikon eingetragen.
Abbildung 24 gibt ein Beispiel fur eine ATL-Struktur des Deutschen, die den ATLAusdruck uc1 = gehoren zu with attribuant : (uc2 = elektronik) andwith (uc3 = technologie) nach dem Eintrag in die ABox reprasentiert. Dieser ATL-Ausdruck entspricht
dem Satz zu diesen technologien wird die elektronik gehort haben. Allerdings sind die
Informationen uber das Tempus dieses Satzes nicht in der ATL-Struktur reprasentiert.
Die ATL-Struktur kann nicht direkt fur den Eintrag in die ABox des BACK-Systems
verwendet werden, weil die Terme, die im Ersetzungssystem verwendet werden, eine
andere Syntax haben als die ATL-Syntax in Abbildung 22. Deshalb wird sie vorher
eins-zu-eins in einen entsprechenden ATL-Ausdruck abgebildet. Abbildung 25 zeigt,
wie ATL-Strukturen in ATL-Ausdrucke des BACK-Systems abgebildet werden. Dabei
sind Namen, die mit einem Grobuchstaben beginnen, Variablen.
Am Ende dieses Abschnitts soll die referentielle Textreprasentation in der ABox
noch kurz vorgestellt werden (fur eine ausfuhrlichere Darstellung wird auf Abschnitt 3.1, [Schmitz et al. 92] und [Preu et al. 93] verwiesen). In der Abox werden die Diskursobjekte eines Textes als ABox-Objekte reprasentiert. Dazu gehoren
Ereignisse, Objekte, Eigenschaften und Orte, die syntaktisch durch Verben, Nomen,
Adjektive bzw. lokale Prapositionen realisiert werden. Die Relationen zwischen den
Diskursobjekten werden durch das nicht-terminale Symbol hrolei angegeben, die in
der FAS den semantischen Rollen der Argumente von Verben, Nomen und Adjektiven
entsprechen. Adjektive, die ein Diskursobjekt modizieren, stehen in einer modierRelation zu diesem Diskursobjekt. Koreferenz von Antezedens und Anapher wird in
der ABox dadurch erfat, da sie durch dasselbe ABox-Objekt dargestellt werden. Die
Diskursobjekte in der ABox sind Instanzen der Konzepte, die in der TBox deniert sein
58
X
f
equal(obj-ref:Ref)
Ref = Concept
Concept
atl(atl)
f
equal(obj-ref:Ref)
[With|Rest]
Ref = Concept with f([With|Rest])
Concept
with(inv:-,role:Role)
f
equal(obj-ref:Ref)
[With|Rest]
Role : (Ref = Concept with f([With|Rest]))
Concept
with(inv:+,role:Role)
f
equal(obj-ref:Ref)
[With|Rest]
inverse Role : (Ref = Concept with f([With|Rest]))
Concept
f([With])
f([With|Rest])
f(With)
f(With) andwith f(Rest)
falls Rest = [ ]
Abbildung 25: Abbildung der ATL-Strukturen in BACK-ATL-Ausdrucke
59
affected
ergreifen
uc_1
agent
usa
initiative
uc_3
modifier
uc_2
uc_4
neu
agent
agent
uc_5
erhoehen
uc_6
affected
investitionen
Abbildung 26: Beispiel einer referentiellen Textreprasentation in der ABox
mussen. Abbildung 26 zeigt die referentielle Textreprasentation fur den Beispieltext
Die USA ergreifen neue Initiativen. Sie erhohen ihre Investitionen.
7.2 Strukturubergange
Dieser Unterabschnitt geht naher auf die Strukturubergange im MU -System ein, d.h.
auf die syntaktische, semantische und konzeptuelle Analyse, den Transfer und die Generierung. Die syntaktische Analyse wird von einem Analysealgorithmus (Parser) durchgefuhrt, der speziell auf die Bedurfnisse des GPSG-Formalismus (siehe Abschnitt 7.1.1)
zugeschnitten wurde (vgl. [Weisweber 87], [Weisweber 88a] und [Weisweber/Preu 92]).
Die restlichen vier Strukturubergange werden durch einen Algorithmus auf der Basis von Termersetzung realisiert (siehe Abschnitt 6), der die in den Abschnitten 7.2.2
bis 7.2.5 beschriebenen Termersetzungssysteme interpretiert. Die morphologische Analyse und Synthese werden durch zwei Komponenten durchgefuhrt, die auf dem SUTRASystem basieren (vgl. [Busemann 83]).
7.2.1 Syntaktische Analyse
Im folgenden soll kurz auf die GPS-Grammatik des Deutschen, die im MU -System verwendet wird, eingegangen werden. Insgesamt umfat sie die nachstehend aufgefuhrten
Konstruktionen (vgl. [Preu 87]):
eine ache Satzstruktur mit dem Subjekt als subkategorisierter Kategorie
Hauptsatzstellung mit einer topikalisierten Konstituente im Vorfeld
eine hierarchische Hilfsverbstruktur
Subjekt-kontrollierte Innitivkonstruktionen
da-Satze
Relativsatze mit Relativpronomen im Nominativ
60
einen Nominalkomplex mit den wichtigsten Phanomenen wie Determiner, Adjek-
tiv, Nomen und Genitiv- und Prapositionalobjekten
Abtrennbare Verbpraxe
Extraposition von Relativsatzen, da-Satzen und um-zu-Innitiven
Negationspartikel
Einfuhrung eines freien Adjunkts pro subkategorisiertem Vollverb
Die GPS-Grammatik des Deutschen, die im Projekt KIT-FAST verwendet wird,
basiert auf [Uszkoreit 84]. Sie geht im wesentlichen von einer achen Satzstruktur aus,
in der das Verb und alle seine Argumente in einer ID-Regel vorkommen. Ein Fragesatz
wird dann direkt durch eine solche ache Struktur reprasentiert. In einem Deklarativsatz wird eine Konstituente vorangestellt, d.h. mithilfe des Foot-Merkmals slash, des
FFPs und einer slash-Einfuhrungsmetaregel in die Position am Satzanfang gebracht.
Die ache Satzstruktur kann ebenfalls als Schwesterkonstituente eines Hilfsverbs (Perfekt, Futur, Passiv oder Modal) vorkommen. Wenn mehrere Hilfsverben vorkommen,
wird die ache Struktur zunachst mit dem Passivhilfverb zu einer neuen satzwertigen
Konstituente zusammengefat. Diese Konstituente wird dann mit dem Perfekthilfsverb ebenfalls zu einer satzwertigen Konstituente zusammengefat. Analoges gilt auch
fur das Modal- und das Futurhilfsverb. Wenn in einem Deklarativsatz Hilfsverben
vorkommen, wird die zu topikalisierende Konstituente entsprechend weit transportiert.
Da die relativ einfache Beschreibung von Koordinations-Phanomenen als ein besonderer Vorteil des GPSG-Formalismus gilt, war es notwendig, diese Hypothese bei
der deutschen Syntax zu uberprufen. In der ursprunglichen Version der GPSG aus
[Gazdar et al. 85] werden alle Koordinationsregeln unter ein Schema zusammengefat.
Wir muten uberprufen, ob sich diese Regeln in der konstruktiven Version der GPSG
unseres Projekts ubernehmen lieen. Das Regelschema enthalt eine iterative Regel
mit Kleene-Star, auf die wir aus formalen Grunden verzichten, da die Umsetzung des
Kleene-Stars in PS-Regeln zu einer Grammatik mit aufzahlbar unendlich vielen Regeln
fuhrt, die nicht mehr kontextfrei ist. Desweiteren beschranken wir die Koordinationsregeln auf Rechts-Rekursivitat, um Mehrfachanalysen zu vermeiden. Wir verwenden
stark unterspezizierte Regeln und kommen somit pro Konjunktion mit drei Regeln
(davon eine rekursive Regel) aus.
Da in der ursprunglichen GPSG die koordinierten Kategorien nur von der HeadFeature-Convention (HFC) eingeschrankt werden, ergibt sich eine sehr tolerante Anwendung der Regeln, die z.B. auch die Koordination unterschiedlicher Hauptkategorien
zulassen wie in sie ist energisch und von groer beredsamkeit. Die Unterspezikation
der Regeln fuhrt allerdings zu einem erheblichen Mehraufwand bei der automatischen
Verarbeitung, da die Regeln auch in nicht koordinativen Strukturen zunachst anwendbar scheinen.
Die A nderung der Merkmalinstantiierungsprinzipien (siehe Abschnitt 7.1.1) war
Voraussetzung dafur, die Koordination mit und, Objekt-kontrollierte Innitive und
Relativpronomen in allen Kasus in das Fragment aufzunehmen.
Die Nominalgruppensyntax umfat adjektivische und determinale Quantoren. Dabei wurde eine Determiner-Phrase-Analyse in Anlehnung an die Rektions- und Bindungstheorie von Chomsky fur den Nominalkomplex eingefuhrt.
61
Eine ausfuhrliche Beschreibung der Grammatiken geben [Preu 87], [Preu 89] und
zum Teil auch [Busemann 92].
7.2.2 Semantische Analyse
Die semantische Analyse bildet GPSG-Strukturen des Deutschen in FAS-Ausdrucke
des Deutschen ab. Die Strategie der Abarbeitung der Ausgangsstruktur wird im wesentlichen durch folgende Probleme bestimmt:
Topikalisierte oder extraponierte Konstituenten sind Tochterknoten des Wurzelknotens der GPSG-Struktur und treten in der FAS in der zugehorigen FunktorArgument-Ebene auf (impliziert top-down Strategie).
Die Abbildung der Oberachenkasus in die Tiefenkasus (semantische Rollen) kann
erst nach dem \Rucktransport" der topikalisierten bzw. extraponierten Konstituenten erfolgen, da erst dann alle zugehorigen Funktoren bzw. Argumente vorhanden sind.
Possessivpronomen sind in der FAS Argumente des nominalen Pradikates (Hauptkategorie n-pred). In der syntaktischen Struktur werden sie als Determinatoren
aufgefat und mussen deshalb innerhalb der Nominalphrase an beliebig vielen
Modikatoren und Relativsatzen vorbei bis zum Nomen \transportiert" werden
(impliziert top-down Strategie).
Die Negation wird immer als Satznegation aufgefat und in der FAS in der obersten clause-Konstruktion reprasentiert (impliziert bottom-up Strategie).
Informationen uber Tempus und Modus stehen in der GPSG-Struktur am Hilfsoder Vollverb. In der FAS werden sie an einem hoheren Knoten reprasentiert
(impliziert bottom-up Strategie).
Aus den Erfordernissen der semantischen Analyse ergibt sich somit die Tatsache, da
sie nur in zwei Phasen durchgefuhrt werden kann. In der ersten Phase wird die
GPSG-Struktur bottom-up abgearbeitet und in der anschlieenden Phase top-down.
Auerdem benotigt man fur die Abbildung des Oberachenkasus in den Tiefenkasus in
der bottom-up Phase sowohl syntaktische als auch semantische Informationen. Beide
Grunde legen nahe, eine Zwischenebene einzufuhren, welche die Reprasentation hybrider (syntaktischer und semantischer) Informationen erlaubt.
In der ersten Phase, in der bottom-up vorgegangen wird, werden die ausgangssprachlichen Kategorien durch hybride Kategorien und anschlieend wahrend der topdown Phase die hybriden Kategorien durch zielsprachliche Kategorien ersetzt. Die hybride Ebene tritt nach auen hin nicht in Erscheinung. Die Termordnung fordert dann,
da in einer TE-Regel eine ausgangssprachliche Kategorie geloscht oder durch mindestens eine hybride oder zielsprachliche Kategorie ersetzt wird. Eine andere Moglichkeit
ist, eine hybride Kategorie zu loschen oder durch mindestens eine zielsprachliche Kategorie zu ersetzen. Letzteres mu gelten, wenn auf der linken und rechten Seite einer
TE-Regel die gleiche Anzahl von Kategorien der Ausgangssprache vorkommt.
In der ersten Phase werden das Negations-Partikel und die Information uber Perfektiv, Passiv, Futur, Prasens/Imperfekt und Indikativ/Konjunktiv nach oben \transportiert", um sie am obersten v-pred-, clause- bzw. clausen-Knoten zu reprasentieren.
62
fas
op: illoc
illoc
clausefin
sem: ass
op: fin, perf: +
assertion
fin
clause
pres: +
pres-ind
op: pred
v-pred
term
conf: at-as
them: 2
sem: rel
..
gehoren-zu
term
op: det
role: attribuant
them: 3
sem: dom
op: det
role: associated
them: 1
sem: dom
det
nom
det
nom
num: sing
sem: top
op: pred
sem: dom
num: plur
sem: ana
op: pred
sem: dom
def-sing
n-pred
conf: no
sem: dom
elektronik
dies
n-pred
conf: no
sem: dom
technologie
Abbildung 27: FAS-Ausdruck fur zu diesen technologien gehort die Elektronik
In der zweiten Phase wird dann, falls vorhanden, eine topikalisierte und/oder extraponierte Konstituente, die am Wurzelknoten der GPSG-Struktur steht, an ihre kanonische Position innerhalb der FAS entlang des Wertes fur das Merkmal slash in der Struktur zuruckgefuhrt und anschlieend die Oberachenkasus in die entsprechenden semantischen Rollen ubersetzt. Diese Abbildung erfolgt mithilfe einer Zuordnungstabelle, die
Daten uber syntaktische und semantische Subkategorisierung und Oberachen- und
Tiefenkasus enthalt. Auf sie kann mithilfe eines Pradikates im Bedingungsteil einer
TE-Regel zugegrien werden. Die Information uber das Genus Verbi, die ebenfalls
fur die Abbildung benotigt wird, ist implizit in der syntaktischen Subkategorisierung
enthalten. Auerdem werden Possessivpronomen in die Argumentposition des entsprechenden nominalen Pradikates transportiert.
Da die Information uber Indikativ oder Konjunktiv nicht in der GPSG-Struktur
reprasentiert wird, werden in der semantischen Analyse alle Satze in den Indikativ
abgebildet. Dieses Problem lat sich aber durch Einfuhrung eines entsprechenden
Merkmals in der GPSG beheben.
7.2.3 Konzeptuelle Analyse
Die Ausgangsstrukturen der konzeptuellen Analyse sind FAS-Ausdrucke des Deutschen,
die in ATL-Strukturen des Deutschen abgebildet werden. Dies wird am Beispiel der
Ableitung der ATL-Struktur in Abbildung 26, die hier als Abbildung 28 wiederholt ist,
aus der FAS in Abbildung 27 demonstriert.
Die konzeptuelle Analyse erfolgt im wesentlichen bottom-up und in einer Phase.
Aufgrund der groen strukturellen A hnlichkeit von FAS-Ausdrucken und ATL-Struk63
atl
equal(obj-ref:uc_1)
with(inv:-,role:attribuant)
..
gehoren-zu
with(inv:-,role:associatet)
equal(obj-ref:uc_2)
equal(obj-ref:uc_3)
elektronik
technologie
Abbildung 28: ATL-Struktur fur zu diesen technologien gehort die Elektronik
n_pred(g,REF)
equal(atl,REF)
X
Bedingung: lex(X,X’)
v_pred(g,REF)
equal(atl,REF)
X
Bedingung: lex(X,X’)
X’
X’
Abbildung 29: Lexikalische TE-Regeln in der konzeptuellen Analyse
turen besteht die konzeptuelle Analyse uberwiegend aus der Reduktion der FASAusdrucke. Dabei werden aus den FAS-Ausdrucken die Referenzen auf ABox-Objekte,
die Diskursobjekte reprasentieren, und die semantischen Rollen in den ATL-Strukturen
ubernommen. Die Konzepte der Diskursobjekte werden in der TBox reprasentiert.
Die TBox-Konzepte werden durch Zugri auf ein FAS-ATL-Lexikon aus den FASTerminalen und -Praterminalen ermittelt. Die Referenzen, semantischen Rollen und
TBox-Konzepte werden durch die Merkmale obj-ref , inv/role bzw. durch die Terminale
hconcepti der Syntax fur ATL-Strukturen in Abbildung 23 reprasentiert.
Die FAS-Ausdrucke werden bottom-up abgearbeitet, d.h. zunachst werden die terminalen und preterminalen Symbole der FAS ersetzt. Abbildung 29 gibt die TE-Regeln
an, die in ihrem Bedingungsteil auf das Abbildungslexikon fur den U bergang von der
semantischen zur konzeptuellen Reprasentation zugreifen. Anschlieend folgen die
strukturellen TE-Regeln, von denen Abbildungen 30 und 31 zwei Beispiele sind. Sie
bilden die Argumente mit der Hauptkategorie term bzw. den obersten Knoten der FAS,
der immer die Hauptkategorie fas hat, ab.
Die bottom-up Verarbeitung der FAS ist implizit in den TE-Regeln kodiert. Die
Berechnung der Reihenfolgerelation (siehe Abschnitt 6) ergibt, da die lexikalischen
TE-Regeln in Abbildung 29 vor den beiden anderen TE-Regeln angewendet werden,
die in der Reihenfolge unabhangig sind.
Nach der konzeptuellen Analyse bildet eine Post-Routine die ATL-Struktur einszu-eins in ATL-Ausdrucke gema der Syntax des BACK-Systems ab (siehe Abterm(g,REF,ROLE)
with(atl,-,ROLE)
det(g)
nom(g,REF)
equal(atl,REF)
X
equal(atl,REF)
Z
Z
Y
Y
Abbildung 30: TE-Regel fur die Abbildung eines Arguments
64
fas(g)
illoc(g)
W
clausefin(g,REF)
fin(g)
atl(atl)
clause(g,REF)
X equal(atl,REF)
Z
equal(atl,REF)
Z
Y
Y
Abbildung 31: TE-Regel fur die Abbildung des obersten FAS-Knotens
schnitt 7.1.3). Diese Routine extrahiert Pronomen, die zunachst nicht in die ABox
eingetragen werden durfen, da die Referenz fur die jeweiligen Antezedenten durch die
Auswertungskomponente fur anaphorische Bezuge ermittelt werden mu, bevor die Informationen daruber in die ABox eingetragen werden durfen. Andernfalls wurden die
Pronomina vom BACK-System als neue ABox-Objekte eingetragen. Dies wird nur
bei Pronomina gemacht, fur die kein Antezedent gefunden wird. Sie werden quasi als
deiktische Anapher aufgefat.
Die Informationen uber Relativpronomen und implizite Subjekte, die sich auf ein
Pronomen beziehen, werden wie die Information uber Pronomina erst nach Abschlu
der Auswertung der anaphorischen Bezuge durch die Anapherninterpretationskomponente in die ABox eingetragen. Die Information wird dabei unter dem ABox-Objekt
eingetragen, welches das Antezedens reprasentiert (siehe Abschnitt 7.1.3).
Samtliche Informationen, die sich nicht auf Pronomina beziehen, werden vor Beginn
der Auswertungskomponente in die ABox eingetragen, damit fur die Bewertung der
semantischen Konsistenz moglicher Antezedenten die maximal verfugbare Information
in der ABox vorhanden ist.
Individuale Konzepte wie zum Beispiel Eigennamen werden vor dem Eintrag in die
ABox durch Anfragen an die TBox und ABox mithilfe des BACK-Systems uberpruft.
Wenn ein individuales Konzept bereits eine Referenznummer in der ABox hat, werden die entsprechenden Informationen unter dieser Referenz eingetragen. Andernfalls
kommen sie im Diskurs das erste Mal vor und bekommen eine neue Referenznummer.
Nach der Auosung der anaphorischen Bezuge und dem Eintrag der Informationen,
die sich auf anaphorische Ausdrucke bezieht, in die ABox sind alle Variablen fur die
Werte des Merkmals ref im entsprechenden FAS-Ausdruck durch Variablenbindung
instantiiert und stehen fur den Transfer zur Verfugung.
7.2.4 Transfer
Die Ausgangsstrukturen des Transfers sind FAS-Ausdrucke des Deutschen und die Zielstrukturen FAS-Ausdrucke des Englischen. Die Ausgangsstruktur wird im wesentlichen
bottom-up und von rechts nach links abgearbeitet, d.h. die lexikalischen Transferregeln
werden vor den strukturellen angewendet und die Argumente werden vor den Funktoren ersetzt. Von den 250 Transferregeln sind der uberwiegende Teil lexikalisch (ca.
80%). Aufgrund der Tatsache, da die FAS auf die speziellen Bedurfnisse des Transfers
zugeschnitten wurde und die FAS des Deutschen und Englischen bis auf die Terminalsymbole sehr ahnlich sind, werden relativ wenig strukturelle Transferregeln benotigt.
Strukturelle Transferregeln sind fur die eins-zu-eins Abbildungen und fur strukturelle A nderungen notwendig. Da die ersteren relativ uninteressant sind, gehe ich im
65
folgenden nur auf die Transferregeln ein, die strukturelle A nderungen vornehmen:
Wenn in einem deutschen Satz ein Argument eines Verbs in der thematischen
Struktur vor dem Subjekt vorkommt, so wird, falls moglich, das Verb im Englischen passiviert oder eine lexikalische Konverse als U bersetzung gewahlt, um die
thematische Satzstruktur so weit wie moglich beizubehalten.
Wird ein Nomen in ein Singulartantum (engl. mass noun) ubersetzt, wird ein
evtl. vorkommender Artikel in einen indeniten Artikel ubersetzt, der auf der
Oberache nicht realisiert wird. Falls ein deutsches Nomen im Plural steht wird
alternativ dazu auch die U bersetzung in pieces of + Nomen zugelassen.
Das Wort viel wird im Deutschen als Adjektiv und im Englischen als Artikel
behandelt. In Verbindung mit einem aufzahlbaren Nomen (engl. count noun)
wird es in many und mit Singulariatantum in much ubersetzt.
Die U bersetzung von Funktoren (Verben, Nomen und Adjektive) wird in der
Regel von den semantischen Rollen und Merkmalen der Argumente abhangig gemacht. Dabei ndet zum Teil ein Wechsel der Werte dieser semantischen Merkmale statt. Dieses Phanomen wurde aber nicht naher systematisiert.
Einige feste Syntagmen wurden sowohl auf der ausgangs- als auch auf der zielsprachlichen Seite berucksichtigt, wie z.B. grundlagenforschung in basic research,
auerdem in in addition, abstutzen auf in to be based on, in ihrer groenordnung
zu gering sein in to be too small, gefahrden in to be at stake und abhangen von in
to be dependant on. Wenn ein festes Syntagma (z.B. ein Funktionsverbgefuge) in
der Ausgangssprache vorkommt, so kann es adaquat mit Defaultregeln behandelt
werden. Die Regel, deren linke Seite das feste Syntagma beschreibt ist spezischer als die der Transferregel, welche die U bersetzung des Funktionsverbs allein
beschreibt.
Idiome in der Ausgangssprache konnen analog zu festen Syntagmen adaquat mit
Defaultregeln ubersetzt werden.
Falls Satze mit der gleichen subordinierenden Konjunktion koordiniert werden,
wird in der Zielsprache nur eine Konjunktion eingefuhrt und die beiden Satze
koordiniert.
Das Demonstrativpronomen diese wird in das englische anaphorische Adjektiv
such ubersetzt, wenn das determinierte Nomen im Englischen zu einer Klasse
gehort, bei der der Artikel wegfallt, z.B. diese technologien in such technologies.
Kommt im Deutschen das Adjektiv solch in Verbindung mit einem indeniten
Artikel vor, z.B. eine solche projektbeteiligung, so wird der indenite Artikel im
Englischen auf der Oberache nicht realisiert (such coparticipation).
Im Englischen wird ein Merkmal fur die progressive Form eingefuhrt. Dabei wird
das Prasens im Deutschen entweder in das Prasens oder das Progressiv ubersetzt,
so da in diesem Fall zwei U bersetzungen resultieren.
66
7.2.5 Generierung
Die Ausgangsstruktur der Generierung ist ein englischer FAS-Ausdruck und die Zielstruktur eine entsprechende syntaktische Struktur. Die Probleme dabei sind im groen
und ganzen dieselben wie in der semantischen Analyse, nur umgekehrt.
Ein Argument aus der Funktor-Argument-Ebene mu als Subjekt der syntaktischen Struktur realisiert werden.
Falls erforderlich, mu ein Argument des Verbs topikalisiert werden.
Die semantischen Rollen mussen in die entsprechenden Oberachenkasus abgebildet werden.
Die Possessivpronomina, die in der FAS als Argument des Nomens auftreten,
werden zum Determinator des Nomens.
Die Informationen uber Perfekt, Progressiv und Futur sind in der FAS als Merkmalspezikationen reprasentiert und dafur mussen entsprechende Hilfsverben erzeugt werden.
Die Generierung arbeitet im wesentlichen top-down. Da aber fur die Abbildung der
semantischen Rollen in die Oberachenkasus an den Funktoren hybride Informationen
(semantische Konguration und syntaktische Subkategorisierung) notwendig sind, werden zunachst die Verben, Nomen und Adjektive in entsprechende hybride Funktoren
abgebildet. Erst danach wird die Struktur top-down abgearbeitet, indem zunachst der
oberste Satzknoten eingefuhrt wird. Anschlieend wird uberpruft, ob ein Argument
zu topikalisieren bzw. extraponieren ist. Die zu topikalisierende bzw. extraponierende
Konstituente darf nicht den Kasus Nominativ bekommen. Fur die Einfuhrung des
Subjekts ist eine andere TE-Regel zustandig. Sie fuhrt die Nominalphrase im Nominativ oder des expletive it bzw. there als Subjekt ein. Die Kasus werden durch einen
Zugri auf die Kasus-Rollen-Tabelle uber den Bedingungsteil der TE-Regeln ermittelt.
Falls eine Konstituente weder zu topikalisieren noch zu extraponieren ist, wird nur das
Subjekt des Satzes eingefuhrt. Dieses lat sich dadurch erkennen, da das Argument,
das als Oberachenkasus den Nominativ bekommt, in der thematischen Struktur des
Satzes an erster Stelle vorkommt. Danach werden die erforderlichen Hilfsverben eingefuhrt. Es gibt 8 TE-Regeln, welche die Hilfsverben fur Futur, Perfekt und Progressiv
generieren. Es sind insgesamt 8 TE-Regeln notwendig, um die Termordnung einhalten zu konnen, weil nur ein Knoten des FAS-Ausdrucks ersetzt werden kann. Da die
Hilfsverben durch drei zweiwertige Merkmale kodiert sind, gibt es 8 Kombinationen.
Anschlieend werden Modalverben realisiert, falls vorhanden, und das Passivhilfsverb
an unterster Stelle nach den anderen Hilfsverben eingefuhrt. Nachdem alle Hilfsverben generiert wurden, werden die semantischen Rollen der Argumente des Verbs in die
jeweiligen Oberachenkasus abgebildet. Die entsprechende Regel greift uber den Bedingungsteil auf die Kasus-Rollen-Tabelle zu. Solche Regeln sind ebenfalls fur Nomen
und Adjektive deniert.
Possessivpronomina sind in der FAS als Argumente des Nomens realisiert. Dies
erlaubt eine einheitliche Behandlung von Personal- und Possessivpronomina in der
Anaphernresolution. Deshalb wird ein Possessivpronomen durch eine TE-Regel von
der Argumentposition des Nomens in die Determinatorposition transportiert. Dabei
67
erfolgt der Transport an beliebig vielen Modikatoren vorbei innerhalb des nominalen Komplexes. Falls kein Possessivpronomen vorhanden ist, wird ein Artikel gema
der Spezikationen in der FAS generiert. Die entsprechende TE-Regel und diejenige
fur die Abbildung des Possessivpronomens bilden einen Verzweigungspunkt. Dies entspricht der Tatsache, da ein Possessivpronomen sowohl als Determinator als auch als
Prapositionalattribut des Nomens realisiert werden kann (his vs. of him). Gleichzeitig
ist die linke Seite der Regel fur die Abbildung des Determinators allgemeiner als die
fur die Abbildung des Possessivpronomens, so da beide Regeln auerdem in Defaultrelation stehen. Hier mu der Regelschreiber entscheiden, ob ein Verzweigungspunkt
erzeugt werden soll oder nicht. Fur das im MU -System eingesetzte TE-System wurde
der Verzweigungspunkt erzeugt, so da immer zwei Losungen erzeugt werden, wenn
ein Possessivpronomen in einem FAS-Ausdruck vorkommt.
68
8 Perspektiven fur zukunftige Forschung im Bereich MU
Voraussetzungen
Zur Zeit ndet auf europaischer Ebene wie in der BRD eine Neuorientierung der Forschung im Bereich Maschinelle U bersetzung statt. Das LRE-Programm der EG fordert
nicht mehr spezisch Maschinelle U bersetzung, sondern zielt auf eine generelle Entwicklung des NLP-Bereichs. Dabei soll einerseits der Anwenderbezug verstarkt werden, andererseits sollen die sprachtechnologischen Grundlagen erweitert und neueste
Ergebnisse der Computerlinguistik einbezogen werden. In der BRD wird seitens des
BMFT ein Groprojekt zur U bersetzung gesprochener Sprache geplant. Dabei steht die
Verbindung von Akustik, Linguistik und Maschineller U bersetzung im Vordergrund.
Die Begleitforschung zu EUROTRA-D hatte die Aufgabe, neuere Forschungsergebnisse aus Linguistik und Informatik fur die Maschinelle U bersetzung verwertbar zu
machen sowie Methoden und Verfahren zur exemplarischen Losung von MU -Problemen
zu entwickeln. In diesem Rahmen hat sich das Projekt KIT-FAST in der letzten Phase
mit Anaphernresolution in der MU beschaftigt. Dieses Problem beinhaltet mehrere
Aspekte, die fur die MU dringlich sind:
die U bersetzung von Texten statt einzelner Satze,
den Einbezug von Hintergrundwissen,
die Einbindung eines Wissensreprasentationssystems,
die Entwicklung von Losungsstrategien auf der Basis von Wissen, das nicht als
sicher angesehen werden kann.
Die bisherigen Ergebnisse zeigen, da der eingeschlagene Weg vielversprechend ist.
Problemanalyse
Die Erfahrungen aus EUROTRA, aus der eigenen Arbeit in der Begleitforschung,
aber auch aus anderen NLP-Projekten wie Lilog zeigen ein gemeinsames und unserer
Einschatzung nach dringliches Problem, das im allgemeinen als Problem der Desambiguierung verstanden wird: Das System ist nicht in der Lage, zwischen verschiedenen
Moglichkeiten zu wahlen, d.h. zu entscheiden, welches die \richtige" Alternative ist
und damit diejenige, die weiterverfolgt werden mu. Das betrit die verschiedensten
Bereiche: man spricht von lexikalischen, strukturellen, referentiellen, auch von innersprachlichen und zielsprachen-bezogenen Ambiguitaten usw. Die Auswirkungen sind
fur groe Systeme fatal, weil die Moglichkeiten sich potenzieren und die Systeme dadurch inezient bis hin zu unbeherrschbar werden.
Ambiguitaten treten immer da auf, wo im System die Information fehlt, um fur
eine/gegen andere Alternativen zu entscheiden. In den meisten Fallen handelt es sich
dabei um Probleme, die sich menschlichen U bersetzern gar nicht stellen, weil ihnen die
entscheidende Information zur Verfugung steht. In Systemen kann die Information aus
zwei Grunden fehlen: Entweder die Information ist im Prinzip vorhanden, aber nicht
zuganglich, oder sie ist tatsachlich nicht vorhanden.
Wenn Informationen, die zur Desambiguierung notig waren, zwar im Prinzip im System vorhanden sind, aber an der entsprechenden Stelle nicht verfugbar, dann handelt
69
es sich um ein Problem der Informationsverteilung bzw. der Verarbeitungsstrategie. Es
gibt in den gangigen Systemen verhaltnismaig viel Wissen uber einzelne Phanomene
aus dem Kernbereich von Sprachverarbeitung. Die Modi der Informationsstrukturierung und damit verknupft die Strategien, die Information zu verarbeiten, orientieren
sich aber in der Regel an klassischen Modellen der Sprachverarbeitung (die ihrerseits offensichtlich in Anlehnung an inzwischen uberholte Informationsverarbeitungstechniken
entstanden sind).
Um das Problem ungunstiger Informationsverteilungen und Verarbeitungsstrategien zu umgehen, wird oft Information mehrfach gehalten. Es entstehen Redundanzen, die allgemein zu erhohter Fehleranfalligkeit fuhren. Auf Grund der Redundanzen
wird oft auch, bezogen auf das jeweilige Problem (z.B. U bersetzung einer bestimmten
Einheit), zu viel berechnet und dadurch entstehen zusatzliche \hausgemachte" Ambiguitaten.
Wenn Information tatsachlich im System nicht vorhanden ist, handelt es sich meistens um Wissen, das schwierig zu formalisieren und in ein System zu integrieren ist.
Das betrit z.B.
Wissen aus dem Text
kontextuelle Faktoren
Alltagswissen
Diese Typen von Wissen sind zunehmend problematisch, weil man nicht vorhersagen
kann, was relevant ist, weil es sich meistens um unsicheres Wissen handelt und weil
solches Wissen nicht begrenzbar ist. Bei Alltagswissen wei man gar nicht mehr, wo
anfangen und wo aufhoren.
Man sollte sich daruber im klaren sein, da es trotz aller Verbesserungsmoglichkeiten Bereiche von Wissen gibt, die fur Desambiguierung erforderlich sein konnen, die
aber (in absehbarer Zeit) nicht formalisierbar sind (vor allem groe Teile des Alltagswissens). Und es gibt Ambiguitaten, die auch ein menschlicher U bersetzer nicht oder
nur mit hohem Aufwand (Ruckfrage bei Autor etc.) losen kann. Solche Ambiguitaten
sollen naturlich nicht ad hoc aufgelost werden.
Wir denken, da die aufgezeigte Problematik grundlegend fur weitere Entwicklungen im Bereich MU ist. Unseres Erachtens ist es wenig erfolgversprechend, die isolierte
Bearbeitung von Teilaspekten der Maschinellen U bersetzung fortzusetzen wie bisher.
Auch wenn diese als Arbeitsthemen erhalten bleiben, kann ein qualitativer Sprung nur
durch eine neue Herangehensweise erreicht werden, die
die U bersetzung als Gesamtproblem betrachtet,
die Relevanz von Teilaspekten am Gesamtproblem mit,
strikt problemorientiert auf die MU geschriebener Sprache vorgeht.
Perspektiven einer problemorientierten Forschung zur Maschinellen U bersetzung geschriebener Sprache
Eine problemorientierte Herangehensweise beinhaltet einen deutlichen Wechsel der Methode: Statt die klassische Dekomposition des MU -Problems in Syntax, Semantik usw.
70
als gegeben zu betrachten und diese Komponenten getrennt und ohne direkten Problembezug zu bearbeiten, geht man aus von der konkreten zu bearbeitenden U bersetzungsbeziehung, z.B. Deutsch-Englisch, und macht diese zum Mastab aller weiteren
Schritte. (Eine problemorientierte Vorgehensweise konnte im ubrigen auch fur andere
NLP-Systeme ein Gewinn sein.)
Das erfordert eine erneute Betrachtung der U bersetzungsrelation unter verschiedenen Aspekten:
welche Typen von Information sind erforderlich?
wie interagieren die verschiedenen Typen von Information?
kann die verwendete Information als sicher aufgefat werden, bzw. als wie einureich kann sie im Verhaltnis zu anderen bewertet werden?
welche Ambiguitaten treten auf, werden sie (spater?) entschieden, wenn ja, wodurch?
wie wird der U bersetzungsproze bei menschlichem U bersetzen dekomponiert?
welche Strategien werden verwendet?
Im Lichte dieser Untersuchung der U bersetzungsbeziehung mu das zur Zeit vorhandene Wissen uberpruft und erganzt werden. Die gestellten Fragen konnen allerdings
nicht von Informatikern und Linguisten allein beantwortet werden. Hier ist eine enge
Zusammenarbeit mit U bersetzern erforderlich. Wir gehen davon aus, da zumindestens
in absehbarer Zeit vollautomatische U bersetzung hoher Qualitat nicht realisierbar ist,
schon weil das erforderliche Wissen nicht begrenzbar ist. Daraus folgt, da man fur die
Praxis interaktive Systeme bauen mu. Dazu mu aber der Proze des U bersetzens
erst einmal bis zu einem gewissen Grad verstanden und die Grenzen der automatischen U bersetzung geklart sein. Eine Forschung mit der Leitidee der vollautomatischen
U bersetzung hoher Qualitat kann dazu beitragen, wenn sie den U bersetzungsproze als
Ausgangspunkt nimmt. In diesem Sinne protieren die Forschung und die Anwender
von einer Kooperation: die Forschung gewinnt Erkenntnisse uber ihren Gegenstandsbereich, die Anwender lernen die Moglichkeiten und Grenzen automatischer U bersetzung
kennen und konnen ihre Vorstellungen in eine Konzeption von interaktiven Systemen
einbringen.
Der vorgeschlagene Ansatz impliziert auf der Systemseite zwei Kernthemen:
welche Informationen sind fur den U bersetzungsproze erforderlich und wie lassen
sie sich klassizieren?
wie werden die Informationen strukturiert und wie sehen die Verarbeitungsstrategien aus?
Fur beide Aspekte bildet der Problembezug auf U bersetzung, konkret die Ergebnisse
der oben beschriebenen Untersuchung der U bersetzungbeziehung, Vorausetzung und
Mastab.
Im Hinblick auf den ersten Aspekt ist eine Klassikation erforderlich, die verschiedene Gesichtspunkte einbezieht. Zu den klassischen Arten von Wissen wie Syntax
und verschiedene Aspekte von Semantik werden sicher weitere hinzukommen wie domainspezisches Wissen, Alltagswissen, Kontextinformation und Information aus dem
71
Text. Daneben sind aber auch Kriterien erforderlich, die quer dazu liegen, etwa sicheres vs. nicht sicheres Wissen, textuelles vs. kontextuelles Wissen und sprachliches vs.
auersprachliches Wissen.
Es ist durchaus denkbar, da sich dadurch Ruckwirkungen auf die klassischen Bereiche ergeben. Zum Beispiel kann es sinnvoll sein, unsicheres syntaktisches Wissen
einzusetzen (Stichwort: robustes Parsing).
Das zweite Thema ist das der Informationsstrukturierung und Verarbeitungsstrategien. Beides gehort direkt zusammen, denn die Verteilung der Information im System
und ihre Reprasentation sollen direkt auf die Anforderungen der Verarbeitungsstrategien zugeschnitten sein. Ein erster Ansatz zu einer Informationsverteilung, bei der die
klassischen \Ebenen" in der Architektur aufgegeben werden, ist in HPSG zu erkennen.
Hier steht die gesamte Information in einem wissensreprasentationsahnlichen Format
\nebeneinander".
Wie dort fassen wir samtliche Informationen als Wissen auf, d.h. Regeln und Fakten
jeglicher Art werden uniform reprasentiert. Allerdings werden die gangigen Wissensreprasentationsformalismen (insbesondere auch eingeschrankte wie TFS) wahrscheinlich nicht ausreichen, weil ihnen im allgemeinen fur den U bersetzungsproze essentielle
Features fehlen, etwa
geeignete Modularisierungskonzepte
exible und dierenzierbare Verarbeitungsstrategien
angemessener Umgang mit unsicherem Wissen, (z.B. die beste aller moglichen
Losungen zu berechnen, Revisionstechniken)
Hier wird man Techniken aus dem objektorientierten Paradigma, aber auch aus aus
dem Bereich der Theorembeweiser und der Defaultverarbeitung auf ihre Eignung prufen
und evtl. kombinieren mussen.
Fur inhaltliche und technische Aspekte des U bersetzungssystems gilt aber gleichermaen, da sie sich am menschlichen U bersetzungsproze orientieren sollen. Das heit
nicht, automatische U bersetzung solle kognitiv adaquat (wie immer deniert) sein.
Sondern es verlangt ein Vorgehen, wie es im modernen Software-Engineering ublich
ist: Die Kenntnisse und Fahigkeiten der Benutzer werden von vorneherein in die U berlegungen miteinbezogen und die Systementwicklung wird in Kooperation mit ihnen
durchgefuhrt.
Das Ziel einer problemorientierten MU -Forschung ist ein interaktives System zur
maschinellen U bersetzung geschriebener Sprache, das auf fundierten Kenntnissen
des menschlichen U bersetzungsprozesses und
der Moglichkeiten der automatischen U bersetzung
beruht.
Konklusion
Der hier vorgeschlagene Methodenwechsel in der MU -Forschung, der den zu modellierenden Proze zum Ausgangspunkt aller U berlegungen macht, bedeutet naturlich
nicht, da die bisherigen Untersuchungen zur MU geschriebener Sprache ignoriert werden konnten und man von vorne anfangen mute. Vielmehr kann auf den Ergebnissen von Eurotra und Begleitforschung aufgebaut werden. Das betrit hinsichtlich der
72
Arbeit des Projekts KIT-FAST vor allem Aspekte wie die Entwicklung von problemorientierten Modellen der MU , Kriterien der Desambiguierung und die Einbeziehung
von Text- und Hintergundwissen in den Interpretationsproze. Daruber hinaus sind
aber empirische Untersuchungen zum U bersetzungsproze in Kooperation mit U bersetzungstheoretikern und -praktikern notwendig, wie sie bisher in der MU -Forschung
noch nicht durchgefuhrt wurden.
73
Publikationen
[Ballmann/Dunker 91] S. Ballmann, G. Dunker, Entwurf und Implementierung fur den
Kalkul getypter Deklarationen, Studienarbeit, FB Informatik, Technische
Universitat Berlin 1991
[Busemann 87] S. Busemann, Generierung mit GPSG, in: Proceedings 11th German
Workshop on Articial Intelligence (GWAI-87), Geseke 1987, Springer, Berlin 1987, S. 355-364, auch als KIT Report 49, Technische Universitat Berlin
1987
[Busemann 88] S. Busemann, Zum Lexikonzugri bei der Generierung mit GPSG, in:

H. Trost (Hrsg.): 4. Osterreichische
Articial-Intelligence-Tagung. Proceedings Wiener Workshop Wissensbasierte Sprachverarbeitung, Springer, Berlin 1988, S. 164-170
[Busemann 92] S. Busemann, Generierung naturlicher Sprache mit Generalisierten
Phrasenstruktur-Grammatiken, Informatik Fachberichte 313, Springer, Berlin 1992, auch als KIT Report 87, Technische Universitat Berlin 1990
[Busemann/Hauenschild 88a] S. Busemann, Ch. Hauenschild, A Constructive View of
GPSG or How to Make it Work, in: Proceedings 12th COLING-88, Budapest 1988, S. 77-82, auch als KIT Report 60, Technische Universitat Berlin
1988
[Busemann/Hauenschild 88b] S. Busemann, Ch. Hauenschild, Lexikalisches Wissen im
Berliner GPSG-System, LDV-Forum 5 Nr. 4, S. 68-70
[Busemann/Hauenschild 89] S. Busemann, Ch. Hauenschild, From FAS Representations to GPSG Structures, in: [Busemann/Hauenschild/Umbach 89], S. 17-43
[Busemann/Hauenschild/Umbach 89] S. Busemann, Ch. Hauenschild, C. Umbach
(Hrsg.), Views of the Syntax/Semantics Interface, Proceedings Workshop
GPSG and Semantics, KIT Report 74, Technische Universitat Berlin 1989
[Dunker/Umbach 93] G. Dunker, C. Umbach, Verfahren zur Anaphernresolution in
KIT-FAST, KIT-Interner Arbeitsbericht in Vorbereitung, Technische Universitat Berlin 1993
[Hauenschild 86] Ch. Hauenschild, KIT/NASEV oder die Problematik des Transfers
bei der maschinellen Sprachubersetzung, in: [Batori/Weber 86], S. 167-195

[Hauenschild 87a] Ch. Hauenschild, Textlinguistische Probleme der maschinellen Ubersetzung, in: R. Arntz (Hrsg.), Textlinguistik und Fachsprache, Akten des
internationalen ubersetzungswissenschaftlichen AILA-Symposiums 13.-16.
April 1987 in Hildesheim, Olms, Hildesheim 1988, auch in: Unesco ALSEDLSP Newsletter (Kopenhagen) Vol. 10, No. 2 (25) 1987, S. 11-24, auch als
KIT Report 53, Technische Universitat Berlin 1987

[Hauenschild 87b] Ch. Hauenschild, KI-Methoden in der maschinellen Ubersetzung?
,
in: Proceedings 11th German Workshop on Articial Intelligence (GWAI87), Geseke 1987, Springer, Berlin 1987, S. 41-53, auch als KIT Report 54,
Technische Universitat Berlin 1987
74
[Hauenschild 88a] Ch. Hauenschild, GPSG and German Word Order, in: U. Reyle, C.
Rohrer (Hrsg.): Natural Language Parsing and Linguistic Theories Reidel,
Dordrecht (Holland) 1988, S. 411-431, auch als KIT Report 52, Technische
Universitat Berlin 1987
[Hauenschild 88b] Ch. Hauenschild, Discourse Structure { Some Implications for Machine Translation, in: D. Maxwell, K. Schubert, A.P.M. Witkam (Hrsg.),
New Directions in Machine Translation, Proceedings of the Conference, Foris, Dordrecht 1988, S. 145-156, auch als KIT Report 62, Technische Universitat Berlin 1988

[Hauenschild 91] Ch. Hauenschild, Anaphern-Interpretation in der Maschinellen Ubersetzung, Zeitschrift fur Literaturwissenschaft und Linguistik 84 (1991), Vandenhoeck & Ruprecht, S. 50-66
[Hauenschild/Busemann 88a] Ch. Hauenschild, S. Busemann, A Constructive Version
of GPSG for Machine Translation, in: [Steiner et al. 88a], S. 216-238, auch
als KIT Report 59, Technische Universitat Berlin 1988
[Hauenschild/Busemann 88b] Ch. Hauenschild, S. Busemann, Bericht uber den zweiten
externen Workshop der EUROTRA-D-Begleitforschung, KI 2, S. 12-15
[Hauenschild/Umbach 88] Ch. Hauenschild, C. Umbach, Funktor-Argument-Struktur,
Die satzsemantische Reprasentations- und Transferebene im Projekt KITFAST, in: [Schutz 88], S. 16-35
[Kilbury 84] J. Kilbury, Earley-basierte Algorithmen fur direktes Parsen mit ID/ LPGrammatiken, KIT Report 16, Technische Universitat Berlin 1984
[Kindermann/Quantz 87] C. Kindermann, J. Quantz, Entwurf und Implementierung eines Editors mit integriertem Praprozessor fur ein GPSG-basiertes
naturlichsprachliches System, KIT Interner Arbeitsbericht 18, Technische
Universitat Berlin 1987
[KIT-FAST 91] Projekt KIT-FAST: S. Busemann, T. Eckard, M. Garry, Ch. Hauenschild, B. Mahr, A. MacLarnon, S. Preu, B. Schmitz, C. Umbach, W.
Weisweber, Ch. Werner-Meier, L. Wilson, E. Ziegler, Schlubericht des Berliner Projekts der EUROTRA-D-Begleitforschung \Transfer und Generierung auf satzsemantischer Basis", KIT Report 88, Technische Universitat
Berlin 1991
[Mahr 93] B. Mahr, Applications of Type Theory, erscheint in: Proceedings TAPSOFT-Conference, Springer Verlag, Berlin 1993
[Mahr/Strater/Umbach 90] B. Mahr, W. Strater, C. Umbach, Fundamentals of a
Theory of Types and Declarations, KIT Report 82, Technische Universitat
Berlin 1990
[Mahr/Umbach 90] B. Mahr, C. Umbach, Functor-Argument-Structures for the Meaning of Natural Language Sentences and Their Formal Interpretation, in:
K.H. Blasius, U. Hedtstuck, C. Rollinger (Hrsg.), Sorts and Types in Articial Intelligence, Lecture Notes in Articial Intelligence, Springer, Berlin
1990, S. 286-304
75
[Preu 87] S. Preu, GPSG-Syntax fur ein Fragment des Deutschen, KIT Interner Arbeitsbericht 20, Technische Universitat Berlin 1987
[Preu 89] S. Preu, Koordination und Kongruenz in einer Verallgemeinerten Phrasenstrukturgrammatik, Magisterarbeit, FB Linguistik, Technischen Universitat
Berlin 1989, auch als KIT Interner Arbeitsbericht 25, Technische Universitat
Berlin 1989
[Preu et al. 92] S. Preu, B. Schmitz, Ch. Hauenschild, Anaphora Resolution Based
on Semantic and Conceptual Knowledge, in: S. Preu, B. Schmitz (Hrsg.),
Text Representation and Domain Modelling { Ideas From Linguistics and
AI, Proceedings des Workshops, KIT Report 97, Technische Universitat
Berlin 1992, S. 1-13
[Preu et al. 93] S. Preu, B. Schmitz, C. Hauenschild, C. Umbach, Anaphora Resolution in Machine Translation, erscheint in: W. Ramm, P. Schmidt, J. Schutz
(Hrsg.), Studies in Machine Translation and Natural Language Processing,
Volume on \Discourse in Machine Translation"
[Schmitz 89] B. Schmitz, Ansatze zur modelltheoretischen Semantik der Koordination,
KIT Interner Arbeitsbericht 24, Technische Universitat Berlin 1989

[Schmitz 90] B. Schmitz, Zur Wissensreprasentation in der Maschinellen Ubersetzung
{ Die mogliche Verwendung von KL-ONE {, KIT Report 80, Technische
Universitat Berlin 1990
[Schmitz et al. 92] B. Schmitz, S. Preu, C. Hauenschild, Textreprasentation und Hin
tergrundwissen fur die Anaphernresolution im Maschinellen Ubersetzungssystem KIT-FAST, KIT Report 93, Technische Universitat Berlin 1992
[Strater 92] W. Strater, T { Eine Logik erster Stufe mit Selbstreferenz und totalem
Wahrheitspradikat, KIT Report 98, Technische Universitat Berlin 1992
[Umbach 87] C. Umbach, Zur semantischen Interpretation in der Theorie der GPSG,
KIT Interner Arbeitsbericht 19, Technische Universitat Berlin 1987
[Umbach 89] C. Umbach, Terminterpretation von FAS-Strukturen, KIT Interner Arbeitsbericht 26, Technische Universitat Berlin 1989
[Weisweber 87] W. Weisweber, Ein Dominanz-Chart-Parser fur Generalisierte Phrasenstrukturgrammatiken, KIT Report 45, Technische Universitat Berlin 1987
[Weisweber 88a] W. Weisweber, Using Constraints in a Constructive Version of
GPSG, in: Proceedings 12th COLING-88, Budapest 1988, S. 738-743, auch
als KIT Report 61, Technische Universitat Berlin 1988
[Weisweber 88b] W. Weisweber, Rezension von [Naumann 88], in: Sprache und Datenverarbeitung 2/1988, S. 83-88
[Weisweber 89a] W. Weisweber, Transfer in MT by Term-Rewriting, in: SEKI-Report
SR-89-02, Workshop Term-Ersetzung: Grundlagen und Anwendungen, Universitat Kaiserslautern 1989
76
[Weisweber 89b] W. Weisweber, Transfer in Machine Translation by Non-Conuent
Term-Rewrite Systems, in: Proceedings 13th German Workshop on Articial Intelligence (GWAI-89), Eringerfeld, Springer, Berlin 1989, S. 264-269
[Weisweber 92] W. Weisweber, Term-Rewriting as a Basis for a Uniform Architecture
in Machine Translation, in: Proceedings 14th COLING-92, Nantes 1992, S.
777-783, auch als KIT Report 101, Technische Universitat Berlin 1992
[Weisweber 93] W. Weisweber, Termersetzung als Basis fur eine einheitliche Architektur in der maschinellen Sprachubersetzung, Dissertation, FB Informatik,
Technische Universitat Berlin 1993
[Weisweber/Hauenschild 90] W. Weisweber, Ch. Hauenschild, A model of Multi-Level
Transfer for Machine Translation and Its Partial Realization, KIT Report
77, Technische Universitat Berlin 1990 und erscheint in: Proceedings Seminar Computers & Translation '89, Tbilisi 1989
[Weisweber/Preu 92] W. Weisweber, S. Preu, Direct Parsing with Metarules in: Proceedings 14th COLING-92, Nantes 1992, S. 1111-1115, auch als KIT Report
102, Technische Universitat Berlin 1992

[Werner-Meier 93] C. Werner-Meier, Konsistenzuberprufung eines MU-Lexikons
{ Eine
Anwendung Terminologischer Logik {, KIT Interner Arbeitsbericht 29,
Technische Universitat Berlin 1993
77
Weitere Literaturangaben
[Baader et al. 91] F. Baader, H.-J. Burckert, J. Heinsohn, B. Hollunder, J. Muller, B.
Nebel, W. Nutt, H.-J. Protlich, Terminological Knowledge Representation:
A Proposal for a Terminological Logic, in: [Nebel et al. 91], S. ??
[Batori/Weber 86] I. Batori, H.J. Weber (Hrsg.), Neue Ansatze in Maschineller Sprachubersetzung: Wissensreprasentation und Textbezug, Niemeyer,
Tubingen 1986
[Blasius/Burckert 87] K.H. Blasius, H.-J. Burckert, Deduktionssysteme, Automatisierung des logischen Denkens, Oldenbourg 1987
[Bosch 88] P. Bosch, Representing and Accessing Focussed Referents, in: Language and
Cognitive Processes 3, 3 (1988), S. 207-231
[Briscoe et al. 87] T. Briscoe, C. Grover, B. Boguraev, J. Carroll, A Formalism and
Environment for the Development of a Large Grammar of English, in: Proceedings 10th IJCAI-87, Mailand 1987, S. 703-708
[Busemann 83] S. Busemann, Oberachentransformationen bei der automatischen Generierung geschriebener deutscher Sprache. Entwurf und Implementierung
des modularen und anpabaren Systems SUTRA, Diplomarbeit, FB Informatik, Universitat Hamburg 1983
[Cooper et al. 91] R.H. Cooper, K. Mukai, J. Perry (Hrsg.), Situation Theory and its
Applications I, CSLI Lecture Notes 22, Stanford 1991
[Davis/King 77] R. Davis, J. King, An Overview of Production Systems, in: E.W. Elcock, D. Michie (Hrsg.), Machine Intelligence 8, Ellis Horwood, Chichester
1977, S. 300-332
[Dershowitz 82] N. Dershowitz, Orderings for Term-Rewriting Systems, Theoretical
Computer Science 17 (1982), North-Holland, S. 279-301
[Dershowitz 85] N. Dershowitz, Termination, in: G. Goos, J. Hartmanis (Hrsg.), Rewriting Techniques and Applications, LNCS 202, Dijon 1985, S. 180-224
[Dorre/Momma 85] J. Dorre, S. Momma, Modikationen des Earley-Algorithmus und
ihre Verwendung fur ID/LP-Grammatiken, Manuskript, Institut fur maschinelle Sprachverarbeitung, Universitat Stuttgart 1985
[Drewes 89] F. Drewes, Termersetzungssysteme: Termination und Komplexitat, Diplomarbeit, FB Mathematik und Informatik, Universitat Bremen 1989
[Drewes/Lautemann 90] Fr. Drewes, Cl. Lautemann, Incremental Termination Proofs
and the Length of Derivations, Bericht Nr. 7/90, FB Mathematik und Informatik, Universitat Bremen 1990
[Ehrig/Mahr 85] H. Ehrig, B. Mahr, Fundamentals of Algebraic Specication 1, Equations and Initial Semantics, EATCS 6, Springer, Berlin 1985
78
[Ehrig/Mahr 89] H. Ehrig, B. Mahr, Fundamentals of Algebraic Specication 2, Module
Specications and Constraints, EATCS 21, Springer, Berlin 1989
[Engdahl 90] E. Engdahl, Argument Roles and Anaphora, in: [Cooper et al. 91], S.
379-393
[Evans 87] R. Evans, Theoretical and Computational Interpretations of Generalized
Phrase Structure Grammar, Cognitive Science Research Paper CSRP 085,
University of Sussex 1987
[Fanselow/Felix 87] G. Fanselow, S. Felix, Sprachtheorie 2: Die Rektions- und Bindungstheorie, Francke, Tubingen 1987
[Firbas 74] J. Firbas, Some Aspects from the Czechoslovak Approach to Problems in
Functional Sentence Perspective, in: F. Danes (Hrsg.), Papers in Functional
Sentence Perspective, Mouton, Den Haag, Paris 1974, S. 11-37
[Gazdar et al. 85] G. Gazdar, E. Klein, G. Pullum und I. Sag, Generalized Phrase
Structure Grammar, Blackwell, Oxford 1985
[Grosz/Sidner 86] B. Grosz, C. Sidner, Attention, Intentions, And the Structure of
Discourse, in: Computaional Linguistics 12, 3 (1986), S. 175-204,
[Hauenschild/Pause 83] Ch. Hauenschild, P.E. Pause, Faktoren-Analyse zur Modellierung des Textverstehens, in: Linguistische Berichte 88 (1983), S. 101-121
[Hobbs 78] J. H. Hobbs, Resolving Pronoun References, in: Lingua 44 (1978), S. 311338
[Huet 77] G. Huet, Conuent Reductions: Abstract Properties and Applications to
Term Rewriting, in: Proceedings 18th IEEE Symposium on Foundations of
Computer Science, 1977
[Huet/Oppen 80] G. Huet, D. Oppen, Equations and Rewrite Rules, in: R.V. Book
(Hrsg.), Formal Language Theory, Perspectives and Open Problems, Academic Press 1980, S. 349-405
[Knuth/Bendix 70] D. Knuth, P. Bendix, Simple Word Problems in Universal Algebras, in: J. Leech (Hrsg.), Computational Problems in Abstract Algebra,
Pergamon Press 1970, S. 263-297
[LuperFoy/Rich 90] S. LuperFoy, E. Rich, A Computational Model for the Resolution
of Context Dependent References, in: MCC Technical Report, Austin 1990
[Naumann 88] S. Naumann, Generalisierte Phrasenstrukturgrammatik: Parsingstrategien, Regelorganisation und Unikation, Niemeyer, Tubingen 1988
[Nebel et al. 91] B. Nebel, C. Peltason, K. von Luck (Hrsg.), International Workshop
on Terminological Logics, KIT Report 89, Technische Universitat Berlin
1991

[Pause 86] P.E. Pause, Zur Modellierung des Ubersetzungsprozesses
, in: [Batori/Weber
86], S. 45-74
79
[Peltason et al. 89] C. Peltason, A. Schmiedel, C. Kindermann, J. Quantz, The BACK
System Revisited, KIT Report 75, Technische Universitat Berlin 1989
[Phillips/Thompson 87] J.D. Phillips, H.S. Thompson, A Parser for Generalized
Phrase Structure Grammars, in: N. Haddock, E. Klein, G. Morril (Hrsg.),
Working Papers in Cognitive Science, Volume I. Categorial Grammar, Unication Grammar and Parsing, Centre for Cognitive Science, University of
Ediburgh 1987, S. 115-136
[Pollard/Sag 89] C. Pollard, I.A. Sag, Argument Structure and Binding in English,
Manuskript, Carnegie Mellon University und Stanford University 1989
[Pooyan 92] L. Pooyan, -Structures as Semantic Models of the -Calculus, Diplomarbeit, FB Informatik, Technische Universitat Berlin 1992
[Quantz 92] J. Quantz, Semantische Reprasentation anaphorischer Bezuge in terminologischen Logiken, KIT Report 96, Technische Universitat Berlin 1992
[Quantz/Kindermann 90] J. Quantz, C. Kindermann, Implementation of the BACK
System Version 4, KIT Report 78, Technische Universitat Berlin 1990
[Schutz 88] J. Schutz (Hrsg.), Workshop Semantik und Transfer, EUROTRA-D Working Papers No. 6, IAI, Universitat des Saarlandes, Saarbrucken 1988
[Sgall et al. 73] P. Sgall, E. Hajicova, E. Benesova, Topic, Focus and Generative Semantics, Scriptor, Kronberg 1973
[Sgall et al. 86] P. Sgall, E. Hajicova, J. Panevova, The Meaning of the Sentence in Its
Semantic and Pragmatic Aspects, Reidel Publishing Company, Dordrecht
1986
[Shieber 84] S.M. Shieber, Direct Parsing of ID/LP-Grammars, in: Linguistics and
Philosophy 7 (1984), S. 135-154
[Steiner et al. 88a] E. Steiner, P. Schmidt, C. Zellinsky-Wibbelt, From Syntax to Semantics. Insights from Machine Translation, Frances Pinter, London 1988
[Steiner et al. 88b] E. Steiner, U. Eckert, B. Roth, J. Winter-Thielen, The Development of the EUROTRA-D System of Semantic Relations, in: [Steiner et al.
88a] S. 40-104
[Uszkoreit 84] H. Uszkoreit, Word Order and Constituent Structure in German, Ph.D.
Dissertation, University of Texas, Austin 1984
[Zellinsky-Wibbelt 88] C. Zellinsky-Wibbelt, From Cognitive Grammar to the Generation of Semantic Interpretation in Machine Translation, in: [Steiner et al.
88a], S. 105-132
80

Documents pareils