LE-Text - Institut für Computerlinguistik

Transcription

LE-Text - Institut für Computerlinguistik
Regel-basierte Maschinelle Übersetzung
Institut für Computerlinguistik, Universität Zürich
Stéphanie Lehner
Juni 2013
Zusammenfassung
In diesem Tutorial lernen Sie die Komponenten, Architektur
und
Funktionsweise
verschiedener
regel-basierter
Übersetzungssysteme kennen. Die Open-Source-Plattform Apertium wird im Detail vorgestellt. Als praktische Übung setzen Sie
sich danach mit einer Erweiterung des Apertium- Sprachpaares
Englisch-Spanisch auseinander.
Regel-basierte Maschinelle Übersetzung
1
Inhaltsverzeichnis
1
Lernziele
1
2
Voraussetzungen
1
3
Regel-basierte Maschinelle Übersetzung
2
3.1
Einleitung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
2
3.2
RBMT Architekturen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
3.2.1 Einführung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
3
3
3.2.2
Direkte Übersetzung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
4
3.2.3
Transfer . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
4
3.2.4
Interlingua . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
5
4
Fazit
6
5
Apertium
5.1 Einleitung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
7
7
5.2
7
6
Praktische Übung
6.1
6.2
1
Aufbau und Funktionsweise . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
9
Installation der Apertium Toolbox . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
9
6.1.1
Voraussetzungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
9
6.1.2
Installation auf Mac OS X . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
9
6.1.3
Installation auf Ubuntu . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
13
Lexikalische Erweiterung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
15
6.2.1
Überblick . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
15
6.2.2
Englisch- Wörterbuch . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
16
6.2.3
Spanisch- Wörterbuch . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
17
6.2.4
bilinguales Englisch-Spanisch- Wörterbuch . . . . . . . . . . . . . . . . . . . . . . . . . . .
18
6.2.5
Überprüfung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
18
Lernziele
• Sie kennen die verschiedenen Typen regel-basierter Übersetzungssysteme und können deren Komponenten,
Aufbau und Funktionsweise erläutern
• Sie kennen die Vor- und Nachteile von regel-basierten Übersetzungssystemen
• Sie wissen, wie das System Apertium funktioniert und wie es aufgebaut ist
• Sie können ein Apertium-Sprachpaar installieren, testen und lexikalisch erweitern
2
Voraussetzungen
Für dieses Tutorial sind grundlegende Kenntnisse der Computerlinguistik nötig, wie sie in den Vorlesungen
ECL I und PCL I vermittelt werden. Um die Übung durchzuführen, benötigen Sie Grundkenntnisse über Kommandozeilenbefehle.
Regel-basierte Maschinelle Übersetzung
3
2
Regel-basierte Maschinelle Übersetzung
MÜ
Maschinelle Übersetzung
MT
Machine Translation (=MÜ)
RBMT
Rule-Based Machine Translation (= regel-basierte MÜ)
SMT
Statistical Machine Translation
SL
Source Language (= QS)
TL
Target Language (= ZS)
QS
Quellsprache
ZS
Zielsprache
3.1
Einleitung
Eine Vielzahl an digitalen Texten - wie zum Beispiel Gebrauchsanweisungen oder Website-Inhalte - soll heute
möglichst zeitgleich in verschiedenen Sprachen vorliegen: Dies führte dazu, dass die maschinelle Übersetzung
(MÜ) im Laufe der Zeit stetig an Bedeutung gewann (Carstensen et al. 2010: 642). Unter maschineller Übersetzung - im englischen Sprachraum als machine translation (MT) bezeichnet - versteht man computergestützte Systeme, die Übersetzungen mit oder ohne menschliche Hilfe erstellen (Mitkov 2003: 501). Während
der rund 60-jährigen Geschichte der MÜ wurden unterschiedliche Theorien und Techniken entwickelt, um die
bestmögliche Übersetzung zu erzielen. Grundsätzlich können MÜ-Systeme entsprechend der verwendeten
Technik in zwei Klassen unterteilt werden, nämlich in regel-basierte und daten- bzw. korpus-basierte Systeme (Carstensen et al. 2010: 645).1 2 Regel-basierte Systeme basieren auf manuell erstellten zweisprachigen
”
Wörterbüchern sowie lexikalischen und grammatischen Entsprechungsregeln“ (Carstensen et al. 2010: 645).
Korpus-basierte MÜ hingegen beruht auf Sammlungen paralleler Korpora (z.B. manuell übersetzte Parlamentstexte der EU), welche aligniert werden (Carstensen 2012: 193). Das System lernt darauf selbstständig mithilfe
statistischer Programme die Übersetzungen und Übersetzungsmuster (Carstensen et al. 2010: 645).
Nicht nur die angewandte Technik, sondern auch die Anforderungen an die MÜ änderten sich im Laufe der
Zeit: So war es zu Anfang das Ziel der MÜ, beliebige Texte vollautomatisch und in Höchst-Qualität übersetzen
zu können.3 Von diesem Vorsatz ist man inzwischen abgekommen (Carstensen et al. 2010: 643): Die Erwartungen an die MÜ sind nun spezifischer und Faktoren wie das jeweilige Einsatzgebiet, die Domäne und die Kundenbedürfnisse sollten zur Beurteilung eines MÜ-Systems mitberücksichtigt werden (Carstensen 2012: 185).
Ebenfalls von Bedeutung sind die Ausbaufähigkeit (z.B. das Einbinden eines neuen Sprachpaares) sowie die
Pflegeleichtigkeit und Evaluierbarkeit eines Systems (Carstensen 2012: 188).
In diesem Tutorial liegt der Fokus auf der regel-basierten MÜ, welche in den 60er-Jahren aufkam und bis heute in den meisten kommerziellen Übersetzungssystemen zum Einsatz kommt (Clark/Fox/Lappin 2010: 554).
Sie lernen die Entwicklungsgeschichte der verschiedenen regel-basierten Architekturen sowie deren Funktionsweise und Vor- und Nachteile kennen. Anschliessend wird die Open-Source-Plattform Apertium im Detail vorgestellt. Im praktischen Teil dieses Tutorials lernen Sie Schritt für Schritt, wie in Apertium ein Sprachpaar
installiert und lexikalisch erweitert wird.
1
Carstensen fügt in seiner aktuellen Ausgabe Sprachtechnologie: Ein Überblick die Mischform hybride Systeme als dritte Klasse hinzu
(192).
2
Eine Klassifizierung dieser MÜ-Architekturen kann des Weiteren nach Verarbeitungstiefe ( direkte, Transfer- und Interlingua”
Systeme“ (Carstensen 2012: 189)) oder Übersetzungsrichtung (uni- oder bidirektional (Carstensen et al. 2010: 644)) vorgenommen
werden.
3
Dieses Ziel wird als FAHQ(M)T bezeichnet (Fully Automatic High Quality (Machine) Translation) (Carstensen 2012: 181).
Regel-basierte Maschinelle Übersetzung
3.2
RBMT Architekturen
3.2.1
Einführung
3
Wie bereits erwähnt, können MÜ-Systeme anhand ihrer Verarbeitungstiefe klassifiziert werden; regel-basierte
MÜ-Systeme können demnach in drei Klassen unterteilt werden: die direkte Übersetzung, den Interlinguaund den Transferansatz (Mitkov 2003: 503). Um diese Verarbeitungstiefen visuell darzustellen, wird das sogenannte Vauquois-Dreieck verwendet, welches in Abb. 1 abgebildet ist. Es zeigt den steigenden Grad der Verarbeitungstiefe auf der Analyse- als auch auf der Generierungsseite des Übersetzungsprozesses, von direkter
Übersetzung über den Transfer- zum Interlingua-Ansatz (Jurafsky/Martin 2009: 903). Des Weiteren verdeutlicht das Vauquois-Dreieck, dass immer weniger Wissenstransfer stattfindet, je weiter oben im Dreieck wir uns
befinden (Jurafsky/Martin 2009: 903).
Interlingua
Interlingua
Transfer
Semantische
Struktur
semantische
Analyse
Syntaktische
Struktur
syntaktische
Analyse
Wortstruktur
morphologische
Analyse
Quellsprache
Semantische
Struktur
Semantischer
Transfer
Syntaktischer
Transfer
Direkt
Direkte Übersetzung
semantische
Generierung
Syntaktische
Struktur
syntaktische
Generierung
Wortstruktur
morphologische
Generierung
Zielsprache
Abbildung 1: Das Vauquois-Dreieck. Adaptiert aus Carstensen’s Sprachtechnologie: Ein Überblick (190).
Was allen RBMT-Systemen gemein ist, sind die manuell erstellten zweisprachigen Wörterbüchern und gros”
sen Regelsammlungen“ (Carstensen et al. 2010: 647). Grundsätzlich kann man sagen, dass über die Jahre zunehmend tiefere Analyse- und Generierungsebenen eingesetzt wurden (Mitkov 2003: 508). In vielen Systemen kommt heute eine Kombination einzelner Komponenten dieser Ansätze zum Einsatz (Jurafsky/Martin
2009: 903). In den folgenden Unterkapiteln wird nun in chronologischer Reihenfolge auf die unterschiedlichen
Ansätze eingegangen.
3.2.2
Direkte Übersetzung
Die direkte Übersetzung ist die erste Methode, welche in der MÜ angewendet wurde (Quah 2006: 69) und
eine der einfachsten Übersetzungsstrategien. In der Fachliteratur wird die direkte Übersetzung (engl.: direct
translation) zumeist separat als MÜ der 1. Generation aufgelistet und nicht zu den RBMT-Systemen, d.h. MÜ
Regel-basierte Maschinelle Übersetzung
4
der 2. Generation, gezählt. Die direkte Übersetzung basiert jedoch ebenfalls hauptsächlich auf der Festlegung
von Regeln (Mitkov 2003: 504) und steht für eine der drei Verarbeitungstiefen (siehe Abb. 1): Darum wird hier
auf die direkte Übersetzung eingegangen.
Bis in die späten 60er-Jahre kam die Technik der direkten Übersetzung bei fast allen MÜ-Systemen zum Einsatz (Quah 2006: 30). Eines der ersten öffentlich vorgestellten Systeme dieser 1. Generation war das RussischEnglische Georgetown University System, welches (nur) 250 Worte, 6 Grammatikregeln und 49 Sätze umfasste
(Quah 2006: 60).
Architektur und Funktionsweise
Dieses Modell ist quasi ein Wort-für-Wort“-System (Mitkov 2003: 508). Es ist nicht modular aufgebaut (Quah
”
2006: 69): Wie Sie in Abb. 2 sehen, sieht es nur einen Verarbeitungsschritt vor.
QS
Text
morpholog.
Analyse
morpholog.
Generierung
ZS
Text
bilinguales
Wörterbuch
Abbildung 2: Modell der direkten Übersetzung (Abb. adaptiert aus Quah 2006: Translation and Technology: 70)
Ein umfangreiches bilinguales Wörterbuch und ein Programm zur morphologischen Analyse des Quelltextes
und eines für die morphologische Generierung in der ZS sind die einzigen Komponenten (Mitkov 2003: 503).
Es wird nur eine oberflächliche, morphologische Analyse der QS durchgeführt, darum ist dieses Modell nur
sehr begrenzt dazu geeignet, beispielsweise Ambiguitäten aufzulösen oder Metaphern korrekt zu übersetzen
(Quah 2006: 69). Es wird keine Syntaxanalyse durchgeführt (Carstensen 2012: 190)4 , sondern die wichtigsten
syntaktische Unterschiede zwischen den Sprachen durch Regeln festgelegt (Carstensen 2012: 190).
Vor- und Nachteile
Die direkte Übersetzung bietet nur wenige Vorteile: So ist zum Beispiel die Verarbeitungsgeschwindigkeit hoch
und die Entwicklungskosten sind tief (Carstensen et al. 2010: 645). Negativ ins Gewicht fällt die Übersetzungsqualität: Diese ist meist ungenügend. Falls die QS und ZS ähnliche lexikalische und grammatikalische Strukturen aufweisen, kann man trotzdem brauchbare Resultate erzielen (Carstensen et al. 2010: 645).
3.2.3
Transfer
Die Schwächen der direkten Übersetzung führten zur Entwicklung des Transfer-Ansatzes (Carstensen et al.
2010: 645). Transformer oder Transfer-Systeme wurden in den 70er- und 80er-Jahren entwickelt und waren
darauf angelegt, auf Grossrechnern zu laufen (Clark/Fox/Lappin 2010: 555). In den 90ern kamen Personal
Computer (PCs) auf, und RBMT wurde zum Computerprogramm (Clark/Fox/Lappin 2010: 556). Als aktuelle kommerzielle Transfersysteme können u.a. Systran oder der Personal Translator von Linguatec genannt
werden. Es gibt auch offene Transfersysteme, zu denen zum Beispiel Apertium5 gehört.
4
In späteren direkten Systemen wurde eine syntaktische Analyse integriert (Mitkov 2003: 508), jedoch blieb diese sehr oberflächlich
(Carstensen 2012: 189).
5
In Kapitel 5 wird der spezifische Aufbau von Apertium vorgestellt.
Regel-basierte Maschinelle Übersetzung
5
Architektur und Funktionsweise
QS
Text
Analyse
QS
Wörterbuch &
Grammatik
QS-Repräsentation
Transfer
QS-ZS
bilinguales
Wörterbuch &
Grammatik
ZS-Repräsentation
Generierung
ZS
Text
ZS
Wörterbuch &
Grammatik
Abbildung 3: Transfer-Modell (Abb. adaptiert aus Quah 2006: Translation and Technology)
Der Transfer-Ansatz sieht drei Verarbeitungsschritte vor (Carstensen et al. 2010: 645): Analyse, Transfer und
Generierung. Als erstes wird der QS-Text in eine abstrakte QS-Repräsentation konvertiert. In einer zweiten
Phase wird mithilfe von Transfer-Regeln diese QS-Repräsentation in eine entsprechende ZS-Repräsentation
übertragen. Zuletzt wird daraus der ZS-Text generiert (Mitkov 2003: 503f.). Der QS-Text wird also geparst
und zum Teil auch semantisch analysiert, wofür meist unifikationsbasierte Grammatikformalismen6 eingesetzt
werden (Carstensen et al. 2010: 645).
Vor- und Nachteile
Die Stärken dieser Architektur liegen darin, dass sie dank der syntaktischen oder semantischen Sprachanalyse
mit gewissen Ambiguitäten (z.B. lexikalische Ambiguität) umgehen kann, ganz im Gegensatz zur direkten
Übersetzung (Carstensen 2012: 191).
Der Transfer-Ansatz bringt gewisse Nachteile mit sich: so müssen mehrere neue Komponenten erstellt wer”
den“ (Carstensen et al. 2010: 646), wenn eine neue Sprache oder Übersetzungsrichtung integriert werden
soll. Jedes Sprachpaar benötigt ein eigenes Set an Transfer-Regeln, was für multilinguale Einsatzgebiete (wie
z.B. die EU) ungünstig ist (Jurafsky/Martin 2009: 909). Aufgrund der höheren Anzahl Komponenten ist der
Transfer-Ansatz ausserdem anfälliger für Fehler: Wenn nur eine der Komponenten nicht korrekt funktioniert,
ist die gesamte Übersetzung beeinträchtigt. Die Transfer-Regeln können höchst komplex ausfallen, was die
Übersichtlichkeit und Wartung der Regeldateien erschweren kann (Carstensen 2012: 191).
3.2.4
Interlingua
Architektur und Funktionsweise
6
zum Beispiel LFG oder HPSG
Regel-basierte Maschinelle Übersetzung
QS
Text
Analyse
QS
Wörterbuch &
Grammatik
6
Interlingua
Zwischenrepräsentation
Generierung
ZS
Text
ZS
Wörterbuch &
Grammatik
Abbildung 4: Interlingua-Modell (Abb. adaptiert aus Quah 2006: Translation and Technology: 72)
Der Interlingua-Ansatz sieht eine umfassende semantische Analyse der QS vor, welche in eine abstrakte,
sprachneutrale Repräsentation umgewandelt wird, die sogenannte Interlingua (Carstensen 2012: 191). Aus
dieser interlingualen Repräsentation wird anschliessend die ZS generiert (Jurafsky/Martin 2009: 903). Es wird
also versucht, die Bedeutung eines QS-Texts zu extrahieren und diese Bedeutung in der ZS wiederzugeben (Jurafsky/Martin 2009: 909). Für diesen Ansatz werden monolinguale Wörterbücher für die QS und ZS benötigt
sowie Grammatikregeln (Quah 2006: 71). Syntaktischen und lexikalische Transfer-Regeln hingegen sind nicht
nötig. Die grösste Herausforderung bleibt es, eine universale, sprachneutrale Repräsentation zu entwickeln,
die allen Sprachen unterbringen kann; bis heute ist dies nicht gelungen (Quah 2006: 73).
Eine aktuellere Erweiterung dieser Architektur ist laut The Oxford Handbook of Computational Linguistics die
sogenannte interlingua- and knowledge-based MT“ (512), auf deutsch wissensbasierte MÜ“ (Carstensen
”
”
2012: 192). Diese beinhaltet eine vollständig konzeptuell-semantische Analyse (Mitkov 2003: 508). Dabei ist
eine lexikalische, syntaktische, semantische und pragmatische Analyse des QS-Texts vorgesehen (Mitkov 2003:
520).
Vor- und Nachteile
Die Interlingua-Architektur hat gegenüber dem Transfer-Ansatz den Vorteil, dass sie wenigere zu programmierende Komponenten benötigt und darum weniger arbeitsaufwändig ist (Carstensen et al. 2010: 647) 7 Ein
weiterer positiver Aspekt ist, dass die jeweiligen Analyseprogramme der QS und Generierungsprogramme
der ZS unabhängig voneinander funktionieren und so direkt für andere Sprachpaare benutzt werden können
(Mitkov 2003: 503). Interlingua bietet sich besonders an, wenn zwei Sprachen strukturell sehr voneinander
abweichen; wie die ideale Interlingua aufgebaut sein soll, ist umstritten (Carstensen 2012: 192).
4
Fazit
Vorteile
Die RBMT basiert auf klaren, einsehbaren und veränderbaren Regeln, was zu einer reproduzierbaren Übersetzung und Qualität führt. Übersetzungsfehler können von Programmierern und anderen Experten einfacher
aufgefunden, analysiert und behoben werden als in der SMT (Forcada et al. 2011: 129). Die RBMT bietet zumeist eine konsistente Übersetzung für dasselbe Wort quer durch den gesamten Text. In der SMT können
hingegen Worte oder Ausdrücke im selben Text unterschiedlich übersetzt werden, je nach Übersetzungswahrscheinlichkeit innerhalb der einzelnen Sätze (Forcada et al. 2011: 129).
7
Allerdings erfordern diese beiden Ansätze deutlich mehr manuelle Arbeit als SMT-Systeme (Carstensen et al. 2010: 647).
Regel-basierte Maschinelle Übersetzung
7
Nachteile
Der Entwicklungs- und Anpassungsaufwand ist hoch und es besteht eine gewisse Empfindlichkeit gegen die
Quelltextqualität. Regel-basierte Systeme weisen aufgrund ihrer Abhängigkeit von Regeldatenbanken und der
umfassende[n] Behandlung von sprachlichen Ausnahmen“ Nachteile bezüglich Robustheit und Wartung
”
auf (Carstensen et al. 2010: 647). Übersetzungen von RMBT-Systemen tendieren ausserdem dazu, ’mechanischer’, weniger flüssig und repetitiv zu wirken; auch Übersetzungsfehler wiederholen sich unter Umständen
mehrmals. Bezüglich Übersetzungsfehlern bevorzugen Post-Editoren RBMT vor SMT, da die für sie zu korrigierenden Fehler von RBMT-Systemen vorhersehbarer und repetitiver sind (Forcada et al. 2011: 128).
Es ist allgemein schwierig, Studien zur aktuellen Entwicklungen in RBMT zu finden, da viele Systeme kommerziell sind (und somit proprietär) und weil es in der RBMT an Innovationen fehlt, ganz im Gegensatz zur
korpus-basierten MÜ (Clark/Fox/Lappin 2010: 556). Heutzutage benutzen nämlich die meisten Übersetzungssysteme - vor allem im Forschungsumfeld - das sogenannte phrasenbasierte Modell (PB-SMT).8 Davor waren
es SMT-Systeme, die keine Phrasenalignierung vorsahen (Clark/Fox/Lappin 2010: 531). Die meisten kommerziellen Übersetzungssysteme hingegen sind immer noch regel-basiert (Clark/Fox/Lappin 2010: 554). Auch
bei einigen web-basierten Systemen kommt RBMT zum Einsatz, ohne dass grundlegende Änderungen am
Grundprinzip nötig sind (Clark/Fox/Lappin 2010: 556).
5 Apertium
5.1
Einleitung
Apertium ist eine Open-Source Plattform für RBMT, welche bis heute - hauptsächlich von der Transducens
Forschungsgruppe der Universität Alicante und privaten Firmen - aktiv weiterentwickelt wird (Clark/Fox/
Lappin 2010: 555). Als Open-Source-Projekt weist Apertium mehr als 100 freiwillige Entwickler auf, welche bestehende Sprachpaare überarbeiten oder neue Sprachpaare implementieren (Forcada et al. 2011: 141). Apertium
entstand 2005 und basiert auf den zwei vorangehenden MT-Systemen interNOSTRUM (Spanisch-Katalanisch)
und Traductor Universia (Spanisch-Portugiesisch), welche beide von Transducens entwickelt wurden (Universidad de Alicante). Ursprünglich war Apertium darauf ausgerichtet, nur verwandte Sprachen zu verarbeiten;
später ist das System um verschiedenartige Sprachpaare erweitert worden, wie z.B. Englisch-Baskisch (Forcada et al. 2011: 128). Aktuell umfasst Apertium 35 stabile, freigeschaltete Sprachpaare; viele weitere Sprachpaare
befinden sich noch in Entwicklung (Apertium Wiki 2013).
5.2
Aufbau und Funktionsweise
Apertium basiert auf der klassischen partial syntactic-transfer“ Architektur (Clark/Fox/Lappin 2010: 555)
”
und ist ein sogenanntes shallow-transfer-System (Forcada et al. 2010: 5). Apertium weist 3 Hauptkomponenten auf: Ein sprachunabhängiges Kernsystem, linguistisches Datenmaterial (Wörterbücher und Regeldateien),
und eine Sammlung von Programmen (toolbox) zur Bearbeitung dieser Daten (Universidad de Alicante). Der
Übersetzungsvorgang erfolgt in einzelnen Phasen; dabei kommen Finite State Transducers (FST)9 für die morphologische Analyse und lexikalische Verarbeitung, Hidden-Markov-Modelle (HMM) 10 für das PoS-Tagging
und Finite State-basiertes Chunking für den Struktur-Transfer zum Einsatz (Forcada et al. 2010: 5). Die Abbildung 5 zeigt die einzelnen Module der Verarbeitungs-Pipeline, die während des Übersetzungsprozesses zum
8
Als Beispiel eines PB-SMT-System kann die Open-Source Software Moses erwähnt werden.
9
siehe Wikipedia
10
Eine kurze Definition zum Hidden-Markov-Modell finden Sie im CL-Glossar
Regel-basierte Maschinelle Übersetzung
8
Einsatz kommen. Jedes Modul verarbeitet dabei den Input des vorangehenden Moduls.
structural transfer module
SL
text
de-formatter
morphological
analyser
PoS
tagger
chunker
interchunk
postchunk
morphological
generator
post- generator
re-formatter
TL
text
lexical transfer
module
Abbildung 5: Schematische Darstellung der Apertium-Module, adaptiert aus Forcada et al. 2011: 131.
Die einzelnen Module der Pipeline und deren Funktion werden nun erläutert11 :
• de-formatter
Der de-formatter erkennt Formatierungselemente (z.B. HTML-Tags) und weitere textfremde Elemente und
markiert diese mit eckigen Klammern; von den folgenden Verarbeitungsprogrammen werden die Zeichenfolgen innerhalb dieser eckigen Klammern als Leerzeichen interpretiert (Forcada et al. 2010: 6f).
• morphological analyser
In diesem Schritt wird der Text tokenisiert und mit lexikalischen Informationen (Lemma, lexikalische Kategorie und Flexionsmerkmale) getaggt. Dazu wird ein morphologisches Wörterbuch der entsprechenden
Quellsprache benötigt (Forcada et al. 2010: 7).
• Part-of-Speech Tagger
In diesem Schritt werden ambige Ausdrücke - d.h. Ausdrücke mit mehreren morphologischen Analysen mithilfe eines statistischen Modells (HMM) aufgelöst (Forcada et al. 2010: 8).
• structural transfer module
Dieses Modul erkennt und verarbeitet Chunks und Phrasen, die in der QS und ZS grammatikalische Unterschiede aufweisen (z.B. unterschiedliches Genus oder Wortfolge) (Forcada et al. 2010: 8f). Es besteht aus 3
Unter-Modulen:
– Der chunker ist zwingend erforderlich; er ruft das lexical transfer-Modul auf und segmentiert anschliessend die lexikalischen Einheiten zu Chunks (Forcada et al. 2011: 131).
– Das interchunk-Modul ist optional und wird nur bei Sprachen benötigt, die nicht nahe verwandt sind.
Es führt eine umfassendere Verarbeitung der Chunks durch (Forcada et al. 2011: 131).
– Der optionale postchunker wird für die Endbearbeitung benötigt; er entfernt die Chunk-Kapselungen
(Forcada et al. 2011: 131).
• lexical transfer module
Dieses Modul wird aus einem bilingualen Wörterbuch generiert; die lexikalischen Tag-Informationen der
QS werden dabei mithilfe des structural transfer module in die entspechenden ZS-Formen umgewandelt (Forcada et al. 2010: 8).
• morphological generator
Dieses Modul greift auf ein morphologisches Wörterbuch zurück und generiert eine passende ’surface form’
(d.h. eine ZS-Repräsentation) aus der lexikalischen Form der ZS (Forcada et al. 2010: 9).
11
Zum besseren Verständnis dieser Pipeline können Sie auf S. 132 von Machine Translation 2011 die Übersetzung eines Beispielsatzes
einsehen.
Regel-basierte Maschinelle Übersetzung
9
• post-generator
Der post-generator führt an der ZS einige orthographische Änderungen durch (z.B. Apostrophierung) (Forcada et al. 2010: 9).
• re-formatter
In diesem letzten Verarbeitungsschritt wird das ursprüngliche Dateiformat der QS wieder hergestellt. Falls
der QS-Text zum Beispiel im HTML-Format vorlag, werden die HTML-Tags wieder in die ZS-Ausgabe integriert (Forcada et al. 2010: 9).
Die Apertium-Architektur zeigt noch Schwächen auf: So stellen Forcada et al. z.B. fest, dass der PoS-Tagger
nicht auf dem neusten Stand der Technik ist und dass ein lexikalisches Selektionsmodul integriert werden sollte, um mehrdeutige Ausdrücke besser und effizienter verarbeiten zu können. Des weiteren sollen in Zukunft
die morphologischen Wörterbücher für agglutinierende Sprachen optimiert und ein Modul zur Segmentierung von Komposita eingebaut werden (Forcada et al. 2011: 138).
6
Praktische Übung
6.1
Installation der Apertium Toolbox
In diesem Kapitel lernen Sie, wie man Apertium installiert, testet und lexikalisch erweitert. Im Unterkapitel 6.1.2
werden Sie durch den Installationsprozess auf Mac OS X geführt. Wenn Sie Ubuntu-Benutzer sind, fahren Sie
mit Unterkapitel 6.1.3 fort.
Die Download- und Installationszeit beläuft sich auf ca. 25 min. für Mac OS X- bzw. 10 min. für UbuntuBenutzer. Die folgenden Installationsangaben stammen hauptsächlich aus dem offiziellen Apertium Wiki und
der Dokumentation von Forcada et al.. Falls während der Installation Schwierigkeiten auftreten, können Sie
im Apertium Wiki Hilfe finden.
6.1.1
Voraussetzungen
Bitte beachten Sie folgende Voraussetzungen, um die Übung erfolgreich durchführen zu können:
• Als Betriebssystem empfiehlt sich eine beliebige Version von Linux Ubuntu. Für Mac-User kommen OS X Lion oder OS X Mountain Lion in Frage. Windows wird von Apertium nicht offiziell unterstützt (Forcada et al.
2010: 150): Windows-Benutzern wird geraten, Linux Ubuntu auf einer Virtual Machine (z.B. VirtualBox)
einzurichten12
• Sie müssen online sein, sowohl für die Downloads als auch für die Arbeit mit Apertium-viewer
• Installieren Sie Java JRE 6 oder höher, welches Sie hier herunterladen oder upgraden können
• Sie benötigen einen Text- oder XML-Editor (z.B. TextWrangler für Mac OS oder Kate für Ubuntu)
• ca. 1.7 GB freier Speicherplatz
6.1.2
Installation auf Mac OS X
Installation von Xcode 13
Um Apertium lokal benutzen zu können, müssen Sie als erstes die Entwicklungsumgebung Xcode herunterla12
Eine Installationsanleitung für Hardcore-Windows-Benutzer finden Sie im Apertium Wiki
13
Falls Sie Schwierigkeiten mit der Installation haben, finden Sie im Apple Support Center Hilfe
Regel-basierte Maschinelle Übersetzung
10
den. Diese können Sie gratis über den Mac App Store beziehen. Die aktuelle Version für Lion und Mountain
Lion ist Xcode 4.6.1.
Abbildung 6: Screenshot von Xcode im App Store
Nachdem Sie die Software vollständig heruntergeladen haben, gehen Sie zu ihrem Programm-Ordner, klicken
auf ”XCode” und führen den Installationsprozess zu Ende. Die Kommandozeilen-Tools müssen nun nachträglich
installiert werden: Öffnen Sie Xcode, wählen Sie im Menü ”Einstellungen” aus und klicken Sie im Reiter ”Downloads” bei den command line tools auf ”Install” (siehe Abb. 7)
Abbildung 7: Download der Kommandozeilen-Werkzeuge in XCode
Installation von MacPorts
MacPorts ist ein open-source Paketverwaltungs-Programm; die Version für Mountain Lion können sie hier direkt herunterladen; die Benutzer von Lion finden das entsprechende Paket hier. Doppelklicken Sie auf das
heruntergeladene Installationspaket und gehen Sie durch den Installationsprozess, ohne die Standardeinstellungen zu verändern. MacPorts wird nun in das Verzeichnis /opt/local kopiert. Die meisten übrigen MacPortsDateien werden unter /opt/local/var/macports abgelegt. Zudem wird eine Datei namens /.profile erstellt
für die bash-shell: somit ist MacPorts für die folgenden Terminal-Sessions verfügbar. Nach abgeschlossener
Installation ist ein Neustart nötig.
Installation von Apertium
Regel-basierte Maschinelle Übersetzung
11
Öffnen Sie nach dem Neustart das Terminal und geben Sie folgende Befehle ein:
1
cd ∼
2
sudo port install autoconf automake expat flex gettext gperf help2man libiconv
libtool libxml2 libxslt m4 ncurses p5-locale-gettext pcre perl5.8 pkgconfig
zlib gawk subversion
3
pwd
4
mkdir Local
5
mkdir Source
Geben Sie ihr persönliches Systempasswort ein und warten Sie, bis die Installation zu Ende ist. Laden Sie
anschliessend die benötigten Pakete ’lttoolbox’ und ’apertium’ herunter:
1
svn co http://apertium.svn.sourceforge.net/svnroot/apertium/trunk/lttoolbox
2
svn co http://apertium.svn.sourceforge.net/svnroot/apertium/trunk/apertium
Laden Sie nun das Sprachpaar Englisch-Spanisch (en-es) auf ihren Computer:
1
svn co http://apertium.svn.sourceforge.net/svnroot/apertium/trunk/apertium-en-es
Jetzt muss sichergestellt werden, dass die lokale Installation der ausführbaren Programme und Programmbibliotheken vor der Systeminstallation berücksichtigt werden:
1
export PATH=$HOME/Local/bin/:$PATH
2
export PKG_CONFIG_PATH=$HOME/Local/lib/pkgconfig
3
export LD_LIBRARY_PATH=$HOME/Local/lib
4
cd Source
Jetzt kompilieren Sie die einzelnen Umgebungen mithilfe folgender Eingaben:
1
cd ..
2
cd lttoolbox
3
sh autogen.sh --prefix=$HOME/Local/
4
make
5
make install
1
cd ..
2
cd apertium
3
sh autogen.sh --prefix=$HOME/Local/
4
make
5
make install
Zum Schluss folgt die Kompilierung des Sprachpaares:
1
cd ..
2
cd apertium-en-es
3
sh autogen.sh --prefix=$HOME/Local/
4
make
5
make install
Sie haben jetzt alle benötigten Ressourcen heruntergeladen.
Regel-basierte Maschinelle Übersetzung
12
Apertium-viewer 2.0
Mit dem Programm Apertium-viewer 2.0 kann man sich die verschiedenen Übersetzungsphasen einer ApertiumÜbersetzung ansehen als auch direkt bearbeiten. Sie können mit Apertium-viewer auf ihre lokal gespeicherten
Sprachpaare zugreifen, haben aber auch Zugriff auf 24 Online-Sprachpaare von Apertium: diese können Sie
zwar für Übersetzungen gebrauchen, aber daran keine Änderungen vornehmen.
Starten Sie nun Apertium-viewer mit folgendem Befehl:
1
javaws https://apertium.svn.sourceforge.net/svnroot/apertium/builds/apertiumviewer/launch.jnlp
Der Apertium-viewer wird geöffnet und es erscheint eine Sicherheitswarnung: Klicken Sie auf ”Ich akzeptiere
das Risiko” und anschliessend auf ”Ausführen”. Um das heruntergeladene Sprachpaar reinzuladen, klicken
Sie im Menü auf ”File” / ”Load mode” und wählen Sie die Dateien ”en-es.mode” und ës-en.mode” im Ordner
”apertium-en-es” aus, um beide Übersetzungsrichtungen zu laden.
Abbildung 8: Der Apertium-viewer mit der Eingabe ’Hello’
Nun können Sie Apertium testen: Geben Sie ein paar Testsätze oder -wörter in das oberste Feld ein. Wie Sie
sehen, werden die einzelnen Verarbeitungsschritte jeweils angezeigt14 und im untersten Feld erscheint die
Übersetzung. Wenn Sie in der oberen rechten Ecke ”Online” aktivieren, haben Sie im Dropdown-Menü ’Mode’ Zugriff auf 24 Online-Sprachpaare und können diese für Übersetzungen benutzen (aber nicht erweitern
oder andersweitig bearbeiten). Fahren Sie nun fort mit Kapitel 6.2, wo Sie lernen, wie man eine lexikalische
Erweiterung in Apertium umsetzt.
14
Die verschiedenen Zwischenschritte der Verarbeitung können ausgeblendet werden. Gehen Sie dazu im Menü auf ”Hide Intermediate”
Regel-basierte Maschinelle Übersetzung
6.1.3
13
Installation auf Ubuntu
Installation von Apertium
Als erstes installieren Sie folgendes mittels Terminal- Eingabe:
1
sudo apt-get install subversion build-essential g++ pkg-config gawk libxml2
libxml2-dev libxml2-utils xsltproc flex automake autoconf libtool libpcre3dev
Geben Sie ihr Systempasswort ein und warten Sie, bis der Download und die Installation beendet sind. Im Anschluss können Sie die benötigten Apertium-Komponenten lttoolbox, apertium, und das Sprachpaar EnglischSpanisch (en-es) herunterladen:
1
svn checkout http://apertium.svn.sourceforge.net/svnroot/apertium/trunk/
lttoolbox
2
svn checkout http://apertium.svn.sourceforge.net/svnroot/apertium/trunk/apertium
3
svn checkout http://apertium.svn.sourceforge.net/svnroot/apertium/trunk/apertium
-en-es
Kompilieren und installieren Sie lttoolbox:
1
cd ..
2
cd lttoolbox
3
PKG_CONFIG_PATH=/usr/local/lib/pkgconfig ./autogen.sh
4
make
5
sudo make install
6
sudo ldconfig
Kompilieren und installieren Sie apertium:
1
cd ..
2
cd apertium
3
PKG_CONFIG_PATH=/usr/local/lib/pkgconfig ./autogen.sh
5
make
sudo make install
6
sudo ldconfig
4
Kompilieren Sie das Sprachpaar Englisch-Spanisch:
1
cd ..
2
cd apertium-en-es
3
PKG_CONFIG_PATH=/usr/local/lib/pkgconfig ./autogen.sh
4
make
5
sudo make install
Sie können nun Apertium direkt im Terminal kurz testen:
1
echo ’I like Apertium’ | apertium en-es
Folgendes Resultat sollte angezeigt werden:
Abbildung 9: Testeingabe ’I like Apertium’ im Ubuntu-Terminal
Regel-basierte Maschinelle Übersetzung
14
Apertium-viewer 2.0
Mit dem Programm Apertium-viewer 2.0 kann man sich die verschiedenen Übersetzungsphasen einer Apertium-Übersetzung sowohl ansehen als auch direkt bearbeiten. Sie können mit Apertium-viewer auf ihre lokal
gespeicherten Sprachpaare zugreifen und haben zudem Zugriff auf 24 Online-Sprachpaare von Apertium: diese können Sie zwar für Übersetzungen gebrauchen, aber daran keine Änderungen vornehmen.
Installieren Sie als Erstes das icedtea-netx-Paket, um das Java Netweork Launching Protocol (JNLP) zu implementieren:
1
sudo apt-get install icedtea-netx
Starten Sie anschliessend den Apertium-viewer mit folgendem Befehl 15 :
1
javaws https://apertium.svn.sourceforge.net/svnroot/apertium/builds/apertiumviewer/launch.jnlp
Der Apertium-viewer wird geöffnet und es erscheint eine Sicherheitswarnung: Klicken Sie auf ”Ich akzeptiere
das Risiko” und anschliessend auf ”Ausführen” bzw. ”Run”. Wie Sie in Abb. 10 sehen, schlägt Apertiumviewer vor, das von Ihnen installierte Sprachpaar zu benutzen; klicken Sie auf ”OK”.
Abbildung 10: Auswahl der mode-Dateien im Apertium-viewer
Nun können Sie Apertium testen: Geben Sie ein paar Testsätze oder -wörter in das oberste Feld ein. Wie Sie in
Abb. 11 sehen, werden die einzelnen Verarbeitungsschritte jeweils angezeigt16 und im untersten Feld erscheint
die Übersetzung. Wenn Sie in der oberen rechten Ecke ’Online’ aktivieren, haben Sie im Dropdown-Menü
’Mode’ Zugriff auf 24 Online-Sprachpaare und können diese für Übersetzungen benutzen.
15
Falls Sie es versäumt haben, die JRE zu installieren (siehe 6.1.1), dann holen Sie dies jetzt nach:
sudo apt-get install openjdk-6-jre
Erstellen Sie anschliessend einen Softlink, damit javaws gestartet werden kann:
sudo ln -s /usr/lib/jvm/java-6-openjdk/bin/javaws /usr/bin/javaws
16
Die verschiedenen Zwischenschritte der Verarbeitung können ausgeblendet werden. Gehen Sie dazu im Menü auf ’Hide Intermediate’
Regel-basierte Maschinelle Übersetzung
15
Abbildung 11: Testeingabe ’Hello’ im Apertium-viewer 2.0 und die dazugehörige Verarbeitung im Terminal
6.2
Lexikalische Erweiterung
Ziel ist es, das Sprachpaar Englisch-Spanisch lexikalisch zu erweitern: Sie werden nun Schritt für Schritt instruiert, wie man ein neues Wort und dessen Übersetzung in Apertium integriert.
6.2.1
Überblick
Ein Blick in den Ordner ’apertium-en-es’ zeigt, dass das Sprachpaar aus zahlreichen Dateien und Modulen
besteht. Zum besseren Verständnis des Übersetzungsprozesses wird die Funktion der wichtigsten Dateien in
der unteren Tabelle vorgestellt17 :
apertium-en-es.en.metadix 18
apertium-en-es.es.dix
apertium-en-es.en-es.dix
en-es.automorf.bin
es-en.automorf.bin
apertium-en-es.en-es.genitive.t1x
apertium-en-es.en-es.t1x
apertium-en-es.en-es.t2x
apertium-en-es.en-es.t3x
apertium-en-es.es-en.t1x
apertium-en-es.es-en.t2x
apertium-en-es.es-en.t3x
en-es.autogen.bin
es-en.autogen.bin
monolinguales Wörterbuch für Englisch, umfasst 34’505 Einträge und 299 Paradigmen
monolinguales Wörterbuch für Spanisch, umfasst 32’987 Einträge
bilinguales Wörterbuch Englisch-Spanisch, enthält 36’198 Einträge und 12 Paradigmen
morphologische Englisch-Analyse
morphologische Spanisch-Analyse
1. Transfer-Stufe, enthält Transfer-Regeln für Genitivkonstrukte für die Übersetzungsrichtung
Englisch-Spanisch
enthält weitere Transfer-Regeln
2. Transfer-Stufe, benützt das bilinguale Wörterbuch
3. Transfer-Stufe, Chunk-Bearbeitung
enthält Transfer-Regeln für die Übersetzungsrichtung Spanisch-Englisch
2. Transfer-Stufe
3. Transfer-Stufe
morphologische Generierung der Zielsprache Spanisch
morphologische Generierung der Zielsprache Englisch
17
In den .mode-Dateien ist die Reihenfolge festgelegt, in welcher diese Dateien im Übersetzungsprozess abgerufen werden.
18
Eigentlich sollte diese Datei nach dem Muster ’apertium-PAIR.LANG.dix’ benannt sein, also ’apertium-en-es.en.dix’ heissen. Siehe
Forcada et al. 2010:125.
Regel-basierte Maschinelle Übersetzung
apertium-en-es.en.tsx
apertium-en-es.es.tsx
apertium-en-es.post-en.dix
apertium-en-es.post-es.dix
Ordner ’en-tagger-data’
Ordner ’es-tagger-data’
16
Tagger-Definition-Datei für Englisch
Tagger-Definition-Datei für Spanisch
Post-Generierungswörterbuch für Englisch, (für die Übersetzungsrichtung Spanisch-Englisch)
Post-Generierungswörterbuch für Spanisch (für die Übersetzungsrichtung Englisch-Spanisch)
enthält Daten für den Englisch-Tagger
enthält Daten für den Spanisch-Tagger
Um ein neues Wort in Apertium zu integrieren, arbeiten Sie nur mit den drei .dix-Dateien, den Wörterbüchern.
Grundsätzlich sollten Sie Folgendes beachten:
• Jedesmal, wenn Sie Änderungen an einer der Apertium- Dateien vornehmen, müssen Sie make und sudo
make install im jeweiligen Verzeichnis eingeben, damit die Module rekompiliert und die Dateien generiert werden.
• Um die vorgenommenen Änderungen am Sprachpaar im Apertium-viewer testen zu können, sollte in der
rechten oberen Ecke des Programms die Option ”Local” aktiviert sein.
6.2.2
Englisch- Wörterbuch
Nehmen wir an, dass Sie das Englische Nomen ’finch’ (Fink) integrieren möchten, was dem Spanischen ’pinzón’
entspricht. Öffnen Sie als erstes die Datei ’apertium-en-es.en.metadix’ in ihrem Texteditor. Wie Sie sehen, besteht das Englisch-Wörterbuch aus zwei Arten von Einträgen: Worteinträge, welche unter dem Abschnitt
<section id="main" type="standard"> aufgelistet sind, und Paradigmen, welche sich im Bereich <pardefs>
der Datei befinden. Die Abb. 12 zeigt als Beispiel die Wort-Einträge für ’Adriana’ und ’apple’ auf der linken Seite. Diese Einträge sind umklammert von einem <e>- Element und bestehen aus dem Lemma (lm="..."19 ),
dem Prefix (<i>... </i>) und einer Zuweisung zu einem bestimmten Paradigma <par>. Paradigmen
enthalten alle nötigen Informationen zur Flexion. Sie sehen auf der rechten Seite das ’Adriana’ zugewiesene
Paradigma ’Mary np’ und das Paradigma ’house np’, welches dem Wort ’apple’ zugewiesen wurde. Dies
bedeutet, dass ’apple’ auf dieselbe Weise flektiert wird wie das Wort ’house’ und dass es dieselbe morphologische Struktur aufweist.
19
das lm-Element ist optional und kommt nicht bei allen Sprachpaaren zur Anwendung
Regel-basierte Maschinelle Übersetzung
17
Worteintrag
zugewiesenes Paradigma
<e lm="Adriana">
<i>Adriana</i>
<par n="Mary__np"/>
</e>
<pardef n="Mary__np">
<e>
<p>
<l></l>
<r><s n="np"/><s n="ant"/><s n="f"/><s n="sg"/></r>
</p>
</e>
</pardef>
<e lm="apple">
<i>apple</i>
<par n="house__n"/>
</e>
<pardef n="house__n">
<e c="CP: nouns which add -s">
<p>
<l></l>
<r><s n="n"/><s n="sg"/></r>
</p>
</e>
<e>
<p>
<l>s</l>
<r><s n="n"/><s n="pl"/></r>
</p>
</e>
<e r="LR">
<p>
<l>s'</l>
<r><s n="n"/><s n="pl"/><j/>'s<s n="gen"/></r>
</p>
</e>
</pardef>
Abbildung 12: Die Einträge für ’Adriana’ und ’apple’ und deren zugewiesenes Paradigma
Um das Wort ’finch’ hinzuzufügen, müssen Sie einen Wort-Eintrag mit einem Verweis auf das passende Paradigma erstellen. ’Finch’ ist ein Nomen, welches die Endung -es benötigt, um den Plural zu bilden. Das
passende Paradigma für ”finch” ist also ”access”. 20 Der korrekte neue Eintrag muss also lauten:
<e lm="finch"><i>finch</i><par n="access n"/></e>
Nur in seltenen Fällen können Sie nicht auf ein bereits bestehendes Paradigma zurückgreifen und müssen
selbst ein neues Paradigma erstellen.
6.2.3
Spanisch- Wörterbuch
Als nächstes muss ein solcher Eintrag auch in der Datei des Spanisch-Wörterbuchs angelegt werden. Dazu
öffnen Sie die Datei ’apertium-en-es.es.dix’ und geben folgende Zeile in der <main-section> ein:
<e lm="pinzón"><i>pinz</i><par n="aluvi/ón n"/></e>
Das Paradigma für aluvión (Überschwemmung) ist das passende für ’pinzón’, da es dieselben Flexionsmerk20
Das Paradigma von ”access”sieht wie folgt aus:
<pardef n="access n">
<e c="CP: nouns which add -es"><p><l></l><r><s n="n"/><s n="sg"/></r></p></e>
<e><p><l>es</l><r><s n="n"/><s n="pl"/></r></p></e>
<e r="LR"><p><l>es’</l><r><s n="n"/><s n="pl"/><j/>’s<s n="gen"/></r></p></e>
Regel-basierte Maschinelle Übersetzung
18
male aufweist.21
6.2.4
bilinguales Englisch-Spanisch- Wörterbuch
Zuletzt wird ein Eintrag im bilingualen Wörterbuch ’apertium-en-es.en-es.dix’ benötigt. Die bilingualen Lexika in Apertium bestehen in der Regel nur aus den Lemmata beider Sprachen und Paradigmen. Die Einträge
sind aufgeteilt in einen linken (<l>) und rechten (<r>) Teil: Bei unserem Sprachpaar ist Englisch auf der
linken und Spanisch auf der rechten Seite der Übersetzungsrichtung, was für das ganze System gilt. Tragen
Sie folgenden Eintrag in der Hauptsektion <section id="main" type="standard"> ein:
<e>
<p>
<l>finch<s n="n"/></l>
<r>pinzón<s n="n"/><s n="m"/></r>
</p>
</e>
6.2.5
Überprüfung
Wie bereits erwähnt, müssen Sie im Ordner der umgeänderten .dix-Dateien die Befehle make und sudo make
install ausführen. Starten sie danach Apertium-viewer, um die lexikalische Erweiterung zu überprüfen. So
sah die fehlerhafte Übersetzung vor der Erweiterung aus:
Abbildung 13: Apertium-viewer: fehlgeschlagene Übersetzung vor der lexikalischen Erweiterung
Wie Sie sehen, wurde das Wort ’Finches’ mit einem Asterix als unbekannt markiert. Geben Sie jetzt einen Satz
mit ’Finch’ ein, wie es in Abb. 14 zu sehen ist.
21
Das Paradigma von ”aluvión” sieht folgendermassen aus:
<pardef n="aluvi/ón n">
<e><p><l>ones</l><r>ón<s n="n"/><s n="m"/><s n="pl"/></r></p></e>
<e><p><l>ón</l><r>ón<s n="n"/><s n="m"/><s n="sg"/></r></p></e>
Regel-basierte Maschinelle Übersetzung
19
Abbildung 14: Apertium-viewer: Testsatz nach erfolgreicher lexikalischer Erweiterung
Das Genus sowie der Plural von ’pinzón’ wurde korrekt gebildet. Somit haben Sie das Apertium-Sprachpaar
Englisch-Spanisch erfolgreich um das Wort ”finch” bzw. ”pinzón” erweitert.
Regel-basierte Maschinelle Übersetzung
20
Literatur
Weblinks
Apertium Wiki: Apertium Wiki. 5 2013 hURL:
http://www.wiki.apertium.org/
wiki/Main_Pagei
Link zur Online-Publikation Sprachtechnologie:
Ein Überblick von K.-U. Carstensen:
http://www.kai-uwe-carstensen.de/
Publikationen/Sprachtechnologie.pdf
Carstensen, Kai-Uwe: Sprachtechnologie: Ein
Überblick. 2012
Carstensen, Kai-Uwe et al. (Hrsg.): Computerlinguistik und Sprachtechnologie. Eine
Einführung. Spektrum Akademischer Verlag, 2010
Clark, Alexander/Fox, Chris/Lappin, Shalom
(Hrsg.): The Handbook of Computational
Linguistics and Natural Language Processing. Blackwell Publishing, 2010, Blackwell Handbooks in Linguistics
Forcada, Mikel L. et al.: Apertium: A
Free/Open-Source Platform for RuleBased Machine Translation. Machine
Translation, 2011, Nr. 25, 127–144
Forcada, Mikel L. et al.; Ginestı́ Rosell, Mireia (Hrsg.): Documentation of the OpenSource Shallow-Transfer Machine Translation Platform Apertium. Group Transducens, Universitat d’Alacant, 2010
Jurafsky, Daniel/Martin, James H.: Speech and
Language Processing: An Introduction to
Natural Language Processing, Computational Linguistics, and Speech Recognition. 2. Auflage. Pearson, 2009, Prentice Hall
Series in Artificial Intelligence
Mitkov, Ruslan (Hrsg.): The Oxford Handbook
of Computational Linguistics. Oxford University Press, 2003
Quah, C. K.: Translation and Technology. Palgrave Macmillan, 2006
Universidad
de
Alicante:
Apertium:
An
Open-Source
Machine
Translation Engine and Toolbox. hURL:
http://www.apertium.org/?id=
whatisapertiumi
Link zur Online-Version des Handbook of Computational Linguistics and Natural Language Processing (nur mit UZH-VPN):
http://www.blackwellreference.com/
subscriber/book.html?id=g9781405155816_
9781405155816
Apertium
Die offizielle Homepage:
http://www.apertium.org
Die aktuelle Apertium-Toolbox können Sie hier
downloaden:
http://sourceforge.net/projects/
apertium/
Die umfangreiche Dokumentation zu Apertium
finden Sie hier:
http://xixona.dlsi.ua.es/˜fran/
apertium2-documentation.pdf
offizielles Apertium-Wiki, mit hilfreichen Unterlagen und Anleitungen etc.:
http://wiki.apertium.org/wiki/Main_
Page