LE-Text - Institut für Computerlinguistik

Transcription

Regel-basierte Maschinelle Übersetzung
Institut für Computerlinguistik, Universität Zürich
Stéphanie Lehner
Juni 2013
Zusammenfassung
In diesem Tutorial lernen Sie die Komponenten, Architektur
und
Funktionsweise
verschiedener
regel-basierter
Übersetzungssysteme kennen. Die Open-Source-Plattform Apertium wird im Detail vorgestellt. Als praktische Übung setzen Sie
sich danach mit einer Erweiterung des Apertium- Sprachpaares
Englisch-Spanisch auseinander.
1
Inhaltsverzeichnis
1
Lernziele
1
2
Voraussetzungen
1
3
2
3.1
Einleitung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
2
3.2
RBMT Architekturen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
3.2.1 Einführung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
3
3
3.2.2
Direkte Übersetzung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
4
3.2.3
Transfer . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
4
3.2.4
Interlingua . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
5
4
Fazit
6
5
Apertium
5.1 Einleitung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
7
7
5.2
7
6
Praktische Übung
6.1
6.2
1
Aufbau und Funktionsweise . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
9
Installation der Apertium Toolbox . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
9
6.1.1
Voraussetzungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
9
6.1.2
Installation auf Mac OS X . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
9
6.1.3
Installation auf Ubuntu . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
13
Lexikalische Erweiterung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
15
6.2.1
Überblick . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
15
6.2.2
Englisch- Wörterbuch . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
16
6.2.3
Spanisch- Wörterbuch . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
17
6.2.4
bilinguales Englisch-Spanisch- Wörterbuch . . . . . . . . . . . . . . . . . . . . . . . . . . .
18
6.2.5
Überprüfung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
18
Lernziele
• Sie kennen die verschiedenen Typen regel-basierter Übersetzungssysteme und können deren Komponenten,
Aufbau und Funktionsweise erläutern
• Sie kennen die Vor- und Nachteile von regel-basierten Übersetzungssystemen
• Sie wissen, wie das System Apertium funktioniert und wie es aufgebaut ist
• Sie können ein Apertium-Sprachpaar installieren, testen und lexikalisch erweitern
2
Voraussetzungen
Für dieses Tutorial sind grundlegende Kenntnisse der Computerlinguistik nötig, wie sie in den Vorlesungen
ECL I und PCL I vermittelt werden. Um die Übung durchzuführen, benötigen Sie Grundkenntnisse über Kommandozeilenbefehle.
3
2
MÜ
Maschinelle Übersetzung
MT
Machine Translation (=MÜ)
RBMT
Rule-Based Machine Translation (= regel-basierte MÜ)
SMT
Statistical Machine Translation
SL
Source Language (= QS)
TL
Target Language (= ZS)
QS
Quellsprache
ZS
Zielsprache
3.1
Einleitung
Eine Vielzahl an digitalen Texten - wie zum Beispiel Gebrauchsanweisungen oder Website-Inhalte - soll heute
möglichst zeitgleich in verschiedenen Sprachen vorliegen: Dies führte dazu, dass die maschinelle Übersetzung
(MÜ) im Laufe der Zeit stetig an Bedeutung gewann (Carstensen et al. 2010: 642). Unter maschineller Übersetzung - im englischen Sprachraum als machine translation (MT) bezeichnet - versteht man computergestützte Systeme, die Übersetzungen mit oder ohne menschliche Hilfe erstellen (Mitkov 2003: 501). Während
der rund 60-jährigen Geschichte der MÜ wurden unterschiedliche Theorien und Techniken entwickelt, um die
bestmögliche Übersetzung zu erzielen. Grundsätzlich können MÜ-Systeme entsprechend der verwendeten
Technik in zwei Klassen unterteilt werden, nämlich in regel-basierte und daten- bzw. korpus-basierte Systeme (Carstensen et al. 2010: 645).1 2 Regel-basierte Systeme basieren auf manuell erstellten zweisprachigen
”
Wörterbüchern sowie lexikalischen und grammatischen Entsprechungsregeln“ (Carstensen et al. 2010: 645).
Korpus-basierte MÜ hingegen beruht auf Sammlungen paralleler Korpora (z.B. manuell übersetzte Parlamentstexte der EU), welche aligniert werden (Carstensen 2012: 193). Das System lernt darauf selbstständig mithilfe
statistischer Programme die Übersetzungen und Übersetzungsmuster (Carstensen et al. 2010: 645).
Nicht nur die angewandte Technik, sondern auch die Anforderungen an die MÜ änderten sich im Laufe der
Zeit: So war es zu Anfang das Ziel der MÜ, beliebige Texte vollautomatisch und in Höchst-Qualität übersetzen
zu können.3 Von diesem Vorsatz ist man inzwischen abgekommen (Carstensen et al. 2010: 643): Die Erwartungen an die MÜ sind nun spezifischer und Faktoren wie das jeweilige Einsatzgebiet, die Domäne und die Kundenbedürfnisse sollten zur Beurteilung eines MÜ-Systems mitberücksichtigt werden (Carstensen 2012: 185).
Ebenfalls von Bedeutung sind die Ausbaufähigkeit (z.B. das Einbinden eines neuen Sprachpaares) sowie die
Pflegeleichtigkeit und Evaluierbarkeit eines Systems (Carstensen 2012: 188).
In diesem Tutorial liegt der Fokus auf der regel-basierten MÜ, welche in den 60er-Jahren aufkam und bis heute in den meisten kommerziellen Übersetzungssystemen zum Einsatz kommt (Clark/Fox/Lappin 2010: 554).
Sie lernen die Entwicklungsgeschichte der verschiedenen regel-basierten Architekturen sowie deren Funktionsweise und Vor- und Nachteile kennen. Anschliessend wird die Open-Source-Plattform Apertium im Detail vorgestellt. Im praktischen Teil dieses Tutorials lernen Sie Schritt für Schritt, wie in Apertium ein Sprachpaar
installiert und lexikalisch erweitert wird.
1
Carstensen fügt in seiner aktuellen Ausgabe Sprachtechnologie: Ein Überblick die Mischform hybride Systeme als dritte Klasse hinzu
(192).
2
Eine Klassifizierung dieser MÜ-Architekturen kann des Weiteren nach Verarbeitungstiefe ( direkte, Transfer- und Interlingua”
Systeme“ (Carstensen 2012: 189)) oder Übersetzungsrichtung (uni- oder bidirektional (Carstensen et al. 2010: 644)) vorgenommen
werden.
3
Dieses Ziel wird als FAHQ(M)T bezeichnet (Fully Automatic High Quality (Machine) Translation) (Carstensen 2012: 181).
3.2
RBMT Architekturen
3.2.1
Einführung
3
Wie bereits erwähnt, können MÜ-Systeme anhand ihrer Verarbeitungstiefe klassifiziert werden; regel-basierte
MÜ-Systeme können demnach in drei Klassen unterteilt werden: die direkte Übersetzung, den Interlinguaund den Transferansatz (Mitkov 2003: 503). Um diese Verarbeitungstiefen visuell darzustellen, wird das sogenannte Vauquois-Dreieck verwendet, welches in Abb. 1 abgebildet ist. Es zeigt den steigenden Grad der Verarbeitungstiefe auf der Analyse- als auch auf der Generierungsseite des Übersetzungsprozesses, von direkter
Übersetzung über den Transfer- zum Interlingua-Ansatz (Jurafsky/Martin 2009: 903). Des Weiteren verdeutlicht das Vauquois-Dreieck, dass immer weniger Wissenstransfer stattfindet, je weiter oben im Dreieck wir uns
befinden (Jurafsky/Martin 2009: 903).
Interlingua
Interlingua
Transfer
Semantische
Struktur
semantische
Analyse
Syntaktische
Struktur
syntaktische
Analyse
Wortstruktur
morphologische
Analyse
Quellsprache
Semantische
Struktur
Semantischer
Transfer
Syntaktischer
Transfer
Direkt
Direkte Übersetzung
semantische
Generierung
Syntaktische
Struktur
syntaktische
Generierung
Wortstruktur
morphologische
Generierung
Zielsprache
Abbildung 1: Das Vauquois-Dreieck. Adaptiert aus Carstensen’s Sprachtechnologie: Ein Überblick (190).
Was allen RBMT-Systemen gemein ist, sind die manuell erstellten zweisprachigen Wörterbüchern und gros”
sen Regelsammlungen“ (Carstensen et al. 2010: 647). Grundsätzlich kann man sagen, dass über die Jahre zunehmend tiefere Analyse- und Generierungsebenen eingesetzt wurden (Mitkov 2003: 508). In vielen Systemen kommt heute eine Kombination einzelner Komponenten dieser Ansätze zum Einsatz (Jurafsky/Martin
2009: 903). In den folgenden Unterkapiteln wird nun in chronologischer Reihenfolge auf die unterschiedlichen
Ansätze eingegangen.
3.2.2
Direkte Übersetzung
Die direkte Übersetzung ist die erste Methode, welche in der MÜ angewendet wurde (Quah 2006: 69) und
eine der einfachsten Übersetzungsstrategien. In der Fachliteratur wird die direkte Übersetzung (engl.: direct
translation) zumeist separat als MÜ der 1. Generation aufgelistet und nicht zu den RBMT-Systemen, d.h. MÜ
4
der 2. Generation, gezählt. Die direkte Übersetzung basiert jedoch ebenfalls hauptsächlich auf der Festlegung
von Regeln (Mitkov 2003: 504) und steht für eine der drei Verarbeitungstiefen (siehe Abb. 1): Darum wird hier
auf die direkte Übersetzung eingegangen.
Bis in die späten 60er-Jahre kam die Technik der direkten Übersetzung bei fast allen MÜ-Systemen zum Einsatz (Quah 2006: 30). Eines der ersten öffentlich vorgestellten Systeme dieser 1. Generation war das RussischEnglische Georgetown University System, welches (nur) 250 Worte, 6 Grammatikregeln und 49 Sätze umfasste
(Quah 2006: 60).
Architektur und Funktionsweise
Dieses Modell ist quasi ein Wort-für-Wort“-System (Mitkov 2003: 508). Es ist nicht modular aufgebaut (Quah
”
2006: 69): Wie Sie in Abb. 2 sehen, sieht es nur einen Verarbeitungsschritt vor.
QS
Text
morpholog.
Analyse
morpholog.
Generierung
ZS
Text
bilinguales
Wörterbuch
Abbildung 2: Modell der direkten Übersetzung (Abb. adaptiert aus Quah 2006: Translation and Technology: 70)
Ein umfangreiches bilinguales Wörterbuch und ein Programm zur morphologischen Analyse des Quelltextes
und eines für die morphologische Generierung in der ZS sind die einzigen Komponenten (Mitkov 2003: 503).
Es wird nur eine oberflächliche, morphologische Analyse der QS durchgeführt, darum ist dieses Modell nur
sehr begrenzt dazu geeignet, beispielsweise Ambiguitäten aufzulösen oder Metaphern korrekt zu übersetzen
(Quah 2006: 69). Es wird keine Syntaxanalyse durchgeführt (Carstensen 2012: 190)4 , sondern die wichtigsten
syntaktische Unterschiede zwischen den Sprachen durch Regeln festgelegt (Carstensen 2012: 190).
Vor- und Nachteile
Die direkte Übersetzung bietet nur wenige Vorteile: So ist zum Beispiel die Verarbeitungsgeschwindigkeit hoch
und die Entwicklungskosten sind tief (Carstensen et al. 2010: 645). Negativ ins Gewicht fällt die Übersetzungsqualität: Diese ist meist ungenügend. Falls die QS und ZS ähnliche lexikalische und grammatikalische Strukturen aufweisen, kann man trotzdem brauchbare Resultate erzielen (Carstensen et al. 2010: 645).
3.2.3
Transfer
Die Schwächen der direkten Übersetzung führten zur Entwicklung des Transfer-Ansatzes (Carstensen et al.
2010: 645). Transformer oder Transfer-Systeme wurden in den 70er- und 80er-Jahren entwickelt und waren
darauf angelegt, auf Grossrechnern zu laufen (Clark/Fox/Lappin 2010: 555). In den 90ern kamen Personal
Computer (PCs) auf, und RBMT wurde zum Computerprogramm (Clark/Fox/Lappin 2010: 556). Als aktuelle kommerzielle Transfersysteme können u.a. Systran oder der Personal Translator von Linguatec genannt
werden. Es gibt auch offene Transfersysteme, zu denen zum Beispiel Apertium5 gehört.
4
In späteren direkten Systemen wurde eine syntaktische Analyse integriert (Mitkov 2003: 508), jedoch blieb diese sehr oberflächlich
(Carstensen 2012: 189).
5
In Kapitel 5 wird der spezifische Aufbau von Apertium vorgestellt.
5
QS
Text
Analyse
QS
Wörterbuch &
Grammatik
QS-Repräsentation
Transfer
QS-ZS
bilinguales
Wörterbuch &
Grammatik
ZS-Repräsentation
Generierung
ZS
Text
ZS
Wörterbuch &
Grammatik
Abbildung 3: Transfer-Modell (Abb. adaptiert aus Quah 2006: Translation and Technology)
Der Transfer-Ansatz sieht drei Verarbeitungsschritte vor (Carstensen et al. 2010: 645): Analyse, Transfer und
Generierung. Als erstes wird der QS-Text in eine abstrakte QS-Repräsentation konvertiert. In einer zweiten
Phase wird mithilfe von Transfer-Regeln diese QS-Repräsentation in eine entsprechende ZS-Repräsentation
übertragen. Zuletzt wird daraus der ZS-Text generiert (Mitkov 2003: 503f.). Der QS-Text wird also geparst
und zum Teil auch semantisch analysiert, wofür meist unifikationsbasierte Grammatikformalismen6 eingesetzt
werden (Carstensen et al. 2010: 645).
Vor- und Nachteile
Die Stärken dieser Architektur liegen darin, dass sie dank der syntaktischen oder semantischen Sprachanalyse
mit gewissen Ambiguitäten (z.B. lexikalische Ambiguität) umgehen kann, ganz im Gegensatz zur direkten
Übersetzung (Carstensen 2012: 191).
Der Transfer-Ansatz bringt gewisse Nachteile mit sich: so müssen mehrere neue Komponenten erstellt wer”
den“ (Carstensen et al. 2010: 646), wenn eine neue Sprache oder Übersetzungsrichtung integriert werden
soll. Jedes Sprachpaar benötigt ein eigenes Set an Transfer-Regeln, was für multilinguale Einsatzgebiete (wie
z.B. die EU) ungünstig ist (Jurafsky/Martin 2009: 909). Aufgrund der höheren Anzahl Komponenten ist der
Transfer-Ansatz ausserdem anfälliger für Fehler: Wenn nur eine der Komponenten nicht korrekt funktioniert,
ist die gesamte Übersetzung beeinträchtigt. Die Transfer-Regeln können höchst komplex ausfallen, was die
Übersichtlichkeit und Wartung der Regeldateien erschweren kann (Carstensen 2012: 191).
3.2.4
Interlingua
6
zum Beispiel LFG oder HPSG
QS
Text
Analyse
QS
Wörterbuch &
Grammatik
6
Interlingua
Zwischenrepräsentation
Generierung
ZS
Text
ZS
Wörterbuch &
Grammatik
Abbildung 4: Interlingua-Modell (Abb. adaptiert aus Quah 2006: Translation and Technology: 72)
Der Interlingua-Ansatz sieht eine umfassende semantische Analyse der QS vor, welche in eine abstrakte,
sprachneutrale Repräsentation umgewandelt wird, die sogenannte Interlingua (Carstensen 2012: 191). Aus
dieser interlingualen Repräsentation wird anschliessend die ZS generiert (Jurafsky/Martin 2009: 903). Es wird
also versucht, die Bedeutung eines QS-Texts zu extrahieren und diese Bedeutung in der ZS wiederzugeben (Jurafsky/Martin 2009: 909). Für diesen Ansatz werden monolinguale Wörterbücher für die QS und ZS benötigt
sowie Grammatikregeln (Quah 2006: 71). Syntaktischen und lexikalische Transfer-Regeln hingegen sind nicht
nötig. Die grösste Herausforderung bleibt es, eine universale, sprachneutrale Repräsentation zu entwickeln,
die allen Sprachen unterbringen kann; bis heute ist dies nicht gelungen (Quah 2006: 73).
Eine aktuellere Erweiterung dieser Architektur ist laut The Oxford Handbook of Computational Linguistics die
sogenannte interlingua- and knowledge-based MT“ (512), auf deutsch wissensbasierte MÜ“ (Carstensen
”
”
2012: 192). Diese beinhaltet eine vollständig konzeptuell-semantische Analyse (Mitkov 2003: 508). Dabei ist
eine lexikalische, syntaktische, semantische und pragmatische Analyse des QS-Texts vorgesehen (Mitkov 2003:
520).
Vor- und Nachteile
Die Interlingua-Architektur hat gegenüber dem Transfer-Ansatz den Vorteil, dass sie wenigere zu programmierende Komponenten benötigt und darum weniger arbeitsaufwändig ist (Carstensen et al. 2010: 647) 7 Ein
weiterer positiver Aspekt ist, dass die jeweiligen Analyseprogramme der QS und Generierungsprogramme
der ZS unabhängig voneinander funktionieren und so direkt für andere Sprachpaare benutzt werden können
(Mitkov 2003: 503). Interlingua bietet sich besonders an, wenn zwei Sprachen strukturell sehr voneinander
abweichen; wie die ideale Interlingua aufgebaut sein soll, ist umstritten (Carstensen 2012: 192).
4
Fazit
Vorteile
Die RBMT basiert auf klaren, einsehbaren und veränderbaren Regeln, was zu einer reproduzierbaren Übersetzung und Qualität führt. Übersetzungsfehler können von Programmierern und anderen Experten einfacher
aufgefunden, analysiert und behoben werden als in der SMT (Forcada et al. 2011: 129). Die RBMT bietet zumeist eine konsistente Übersetzung für dasselbe Wort quer durch den gesamten Text. In der SMT können
hingegen Worte oder Ausdrücke im selben Text unterschiedlich übersetzt werden, je nach Übersetzungswahrscheinlichkeit innerhalb der einzelnen Sätze (Forcada et al. 2011: 129).
7
Allerdings erfordern diese beiden Ansätze deutlich mehr manuelle Arbeit als SMT-Systeme (Carstensen et al. 2010: 647).
7
Nachteile
Der Entwicklungs- und Anpassungsaufwand ist hoch und es besteht eine gewisse Empfindlichkeit gegen die
Quelltextqualität. Regel-basierte Systeme weisen aufgrund ihrer Abhängigkeit von Regeldatenbanken und der
umfassende[n] Behandlung von sprachlichen Ausnahmen“ Nachteile bezüglich Robustheit und Wartung
”
auf (Carstensen et al. 2010: 647). Übersetzungen von RMBT-Systemen tendieren ausserdem dazu, ’mechanischer’, weniger flüssig und repetitiv zu wirken; auch Übersetzungsfehler wiederholen sich unter Umständen
mehrmals. Bezüglich Übersetzungsfehlern bevorzugen Post-Editoren RBMT vor SMT, da die für sie zu korrigierenden Fehler von RBMT-Systemen vorhersehbarer und repetitiver sind (Forcada et al. 2011: 128).
Es ist allgemein schwierig, Studien zur aktuellen Entwicklungen in RBMT zu finden, da viele Systeme kommerziell sind (und somit proprietär) und weil es in der RBMT an Innovationen fehlt, ganz im Gegensatz zur
korpus-basierten MÜ (Clark/Fox/Lappin 2010: 556). Heutzutage benutzen nämlich die meisten Übersetzungssysteme - vor allem im Forschungsumfeld - das sogenannte phrasenbasierte Modell (PB-SMT).8 Davor waren
es SMT-Systeme, die keine Phrasenalignierung vorsahen (Clark/Fox/Lappin 2010: 531). Die meisten kommerziellen Übersetzungssysteme hingegen sind immer noch regel-basiert (Clark/Fox/Lappin 2010: 554). Auch
bei einigen web-basierten Systemen kommt RBMT zum Einsatz, ohne dass grundlegende Änderungen am
Grundprinzip nötig sind (Clark/Fox/Lappin 2010: 556).
5 Apertium
5.1
Einleitung
Apertium ist eine Open-Source Plattform für RBMT, welche bis heute - hauptsächlich von der Transducens
Forschungsgruppe der Universität Alicante und privaten Firmen - aktiv weiterentwickelt wird (Clark/Fox/
Lappin 2010: 555). Als Open-Source-Projekt weist Apertium mehr als 100 freiwillige Entwickler auf, welche bestehende Sprachpaare überarbeiten oder neue Sprachpaare implementieren (Forcada et al. 2011: 141). Apertium
entstand 2005 und basiert auf den zwei vorangehenden MT-Systemen interNOSTRUM (Spanisch-Katalanisch)
und Traductor Universia (Spanisch-Portugiesisch), welche beide von Transducens entwickelt wurden (Universidad de Alicante). Ursprünglich war Apertium darauf ausgerichtet, nur verwandte Sprachen zu verarbeiten;
später ist das System um verschiedenartige Sprachpaare erweitert worden, wie z.B. Englisch-Baskisch (Forcada et al. 2011: 128). Aktuell umfasst Apertium 35 stabile, freigeschaltete Sprachpaare; viele weitere Sprachpaare
befinden sich noch in Entwicklung (Apertium Wiki 2013).
5.2
Aufbau und Funktionsweise
Apertium basiert auf der klassischen partial syntactic-transfer“ Architektur (Clark/Fox/Lappin 2010: 555)
”
und ist ein sogenanntes shallow-transfer-System (Forcada et al. 2010: 5). Apertium weist 3 Hauptkomponenten auf: Ein sprachunabhängiges Kernsystem, linguistisches Datenmaterial (Wörterbücher und Regeldateien),
und eine Sammlung von Programmen (toolbox) zur Bearbeitung dieser Daten (Universidad de Alicante). Der
Übersetzungsvorgang erfolgt in einzelnen Phasen; dabei kommen Finite State Transducers (FST)9 für die morphologische Analyse und lexikalische Verarbeitung, Hidden-Markov-Modelle (HMM) 10 für das PoS-Tagging
und Finite State-basiertes Chunking für den Struktur-Transfer zum Einsatz (Forcada et al. 2010: 5). Die Abbildung 5 zeigt die einzelnen Module der Verarbeitungs-Pipeline, die während des Übersetzungsprozesses zum
8
Als Beispiel eines PB-SMT-System kann die Open-Source Software Moses erwähnt werden.
9
siehe Wikipedia
10
Eine kurze Definition zum Hidden-Markov-Modell finden Sie im CL-Glossar
8
Einsatz kommen. Jedes Modul verarbeitet dabei den Input des vorangehenden Moduls.
structural transfer module
SL
text
de-formatter
morphological
analyser
PoS
tagger
chunker
interchunk
postchunk
morphological
generator
post- generator
re-formatter
TL
text
lexical transfer
module
Abbildung 5: Schematische Darstellung der Apertium-Module, adaptiert aus Forcada et al. 2011: 131.
Die einzelnen Module der Pipeline und deren Funktion werden nun erläutert11 :
• de-formatter
Der de-formatter erkennt Formatierungselemente (z.B. HTML-Tags) und weitere textfremde Elemente und
markiert diese mit eckigen Klammern; von den folgenden Verarbeitungsprogrammen werden die Zeichenfolgen innerhalb dieser eckigen Klammern als Leerzeichen interpretiert (Forcada et al. 2010: 6f).
• morphological analyser
In diesem Schritt wird der Text tokenisiert und mit lexikalischen Informationen (Lemma, lexikalische Kategorie und Flexionsmerkmale) getaggt. Dazu wird ein morphologisches Wörterbuch der entsprechenden
Quellsprache benötigt (Forcada et al. 2010: 7).
• Part-of-Speech Tagger
In diesem Schritt werden ambige Ausdrücke - d.h. Ausdrücke mit mehreren morphologischen Analysen mithilfe eines statistischen Modells (HMM) aufgelöst (Forcada et al. 2010: 8).
• structural transfer module
Dieses Modul erkennt und verarbeitet Chunks und Phrasen, die in der QS und ZS grammatikalische Unterschiede aufweisen (z.B. unterschiedliches Genus oder Wortfolge) (Forcada et al. 2010: 8f). Es besteht aus 3
Unter-Modulen:
– Der chunker ist zwingend erforderlich; er ruft das lexical transfer-Modul auf und segmentiert anschliessend die lexikalischen Einheiten zu Chunks (Forcada et al. 2011: 131).
– Das interchunk-Modul ist optional und wird nur bei Sprachen benötigt, die nicht nahe verwandt sind.
Es führt eine umfassendere Verarbeitung der Chunks durch (Forcada et al. 2011: 131).
– Der optionale postchunker wird für die Endbearbeitung benötigt; er entfernt die Chunk-Kapselungen
(Forcada et al. 2011: 131).
• lexical transfer module
Dieses Modul wird aus einem bilingualen Wörterbuch generiert; die lexikalischen Tag-Informationen der
QS werden dabei mithilfe des structural transfer module in die entspechenden ZS-Formen umgewandelt (Forcada et al. 2010: 8).
• morphological generator
Dieses Modul greift auf ein morphologisches Wörterbuch zurück und generiert eine passende ’surface form’
(d.h. eine ZS-Repräsentation) aus der lexikalischen Form der ZS (Forcada et al. 2010: 9).
11
Zum besseren Verständnis dieser Pipeline können Sie auf S. 132 von Machine Translation 2011 die Übersetzung eines Beispielsatzes
einsehen.
9
• post-generator
Der post-generator führt an der ZS einige orthographische Änderungen durch (z.B. Apostrophierung) (Forcada et al. 2010: 9).
• re-formatter
In diesem letzten Verarbeitungsschritt wird das ursprüngliche Dateiformat der QS wieder hergestellt. Falls
der QS-Text zum Beispiel im HTML-Format vorlag, werden die HTML-Tags wieder in die ZS-Ausgabe integriert (Forcada et al. 2010: 9).
Die Apertium-Architektur zeigt noch Schwächen auf: So stellen Forcada et al. z.B. fest, dass der PoS-Tagger
nicht auf dem neusten Stand der Technik ist und dass ein lexikalisches Selektionsmodul integriert werden sollte, um mehrdeutige Ausdrücke besser und effizienter verarbeiten zu können. Des weiteren sollen in Zukunft
die morphologischen Wörterbücher für agglutinierende Sprachen optimiert und ein Modul zur Segmentierung von Komposita eingebaut werden (Forcada et al. 2011: 138).
6
Praktische Übung
6.1
Installation der Apertium Toolbox
In diesem Kapitel lernen Sie, wie man Apertium installiert, testet und lexikalisch erweitert. Im Unterkapitel 6.1.2
werden Sie durch den Installationsprozess auf Mac OS X geführt. Wenn Sie Ubuntu-Benutzer sind, fahren Sie
mit Unterkapitel 6.1.3 fort.
Die Download- und Installationszeit beläuft sich auf ca. 25 min. für Mac OS X- bzw. 10 min. für UbuntuBenutzer. Die folgenden Installationsangaben stammen hauptsächlich aus dem offiziellen Apertium Wiki und
der Dokumentation von Forcada et al.. Falls während der Installation Schwierigkeiten auftreten, können Sie
im Apertium Wiki Hilfe finden.
6.1.1
Voraussetzungen
Bitte beachten Sie folgende Voraussetzungen, um die Übung erfolgreich durchführen zu können:
• Als Betriebssystem empfiehlt sich eine beliebige Version von Linux Ubuntu. Für Mac-User kommen OS X Lion oder OS X Mountain Lion in Frage. Windows wird von Apertium nicht offiziell unterstützt (Forcada et al.
2010: 150): Windows-Benutzern wird geraten, Linux Ubuntu auf einer Virtual Machine (z.B. VirtualBox)
einzurichten12
• Sie müssen online sein, sowohl für die Downloads als auch für die Arbeit mit Apertium-viewer
• Installieren Sie Java JRE 6 oder höher, welches Sie hier herunterladen oder upgraden können
• Sie benötigen einen Text- oder XML-Editor (z.B. TextWrangler für Mac OS oder Kate für Ubuntu)
• ca. 1.7 GB freier Speicherplatz
6.1.2
Installation auf Mac OS X
Installation von Xcode 13
Um Apertium lokal benutzen zu können, müssen Sie als erstes die Entwicklungsumgebung Xcode herunterla12
Eine Installationsanleitung für Hardcore-Windows-Benutzer finden Sie im Apertium Wiki
13
Falls Sie Schwierigkeiten mit der Installation haben, finden Sie im Apple Support Center Hilfe
10
den. Diese können Sie gratis über den Mac App Store beziehen. Die aktuelle Version für Lion und Mountain
Lion ist Xcode 4.6.1.
Abbildung 6: Screenshot von Xcode im App Store
Nachdem Sie die Software vollständig heruntergeladen haben, gehen Sie zu ihrem Programm-Ordner, klicken
auf ”XCode” und führen den Installationsprozess zu Ende. Die Kommandozeilen-Tools müssen nun nachträglich
installiert werden: Öffnen Sie Xcode, wählen Sie im Menü ”Einstellungen” aus und klicken Sie im Reiter ”Downloads” bei den command line tools auf ”Install” (siehe Abb. 7)
Abbildung 7: Download der Kommandozeilen-Werkzeuge in XCode
Installation von MacPorts
MacPorts ist ein open-source Paketverwaltungs-Programm; die Version für Mountain Lion können sie hier direkt herunterladen; die Benutzer von Lion finden das entsprechende Paket hier. Doppelklicken Sie auf das
heruntergeladene Installationspaket und gehen Sie durch den Installationsprozess, ohne die Standardeinstellungen zu verändern. MacPorts wird nun in das Verzeichnis /opt/local kopiert. Die meisten übrigen MacPortsDateien werden unter /opt/local/var/macports abgelegt. Zudem wird eine Datei namens /.profile erstellt
für die bash-shell: somit ist MacPorts für die folgenden Terminal-Sessions verfügbar. Nach abgeschlossener
Installation ist ein Neustart nötig.
Installation von Apertium
11
Öffnen Sie nach dem Neustart das Terminal und geben Sie folgende Befehle ein:
1
cd ∼
2
sudo port install autoconf automake expat flex gettext gperf help2man libiconv
libtool libxml2 libxslt m4 ncurses p5-locale-gettext pcre perl5.8 pkgconfig
zlib gawk subversion
3
pwd
4
mkdir Local
5
mkdir Source
Geben Sie ihr persönliches Systempasswort ein und warten Sie, bis die Installation zu Ende ist. Laden Sie
anschliessend die benötigten Pakete ’lttoolbox’ und ’apertium’ herunter:
1
svn co http://apertium.svn.sourceforge.net/svnroot/apertium/trunk/lttoolbox
2
svn co http://apertium.svn.sourceforge.net/svnroot/apertium/trunk/apertium
Laden Sie nun das Sprachpaar Englisch-Spanisch (en-es) auf ihren Computer:
1
svn co http://apertium.svn.sourceforge.net/svnroot/apertium/trunk/apertium-en-es
Jetzt muss sichergestellt werden, dass die lokale Installation der ausführbaren Programme und Programmbibliotheken vor der Systeminstallation berücksichtigt werden:
1
export PATH=$HOME/Local/bin/:$PATH
2
export PKG_CONFIG_PATH=$HOME/Local/lib/pkgconfig
3
export LD_LIBRARY_PATH=$HOME/Local/lib
4
cd Source
Jetzt kompilieren Sie die einzelnen Umgebungen mithilfe folgender Eingaben:
1
cd ..
2
cd lttoolbox
3
sh autogen.sh --prefix=$HOME/Local/
4
make
5
make install
1
cd ..
2
cd apertium
3
4
make
5
make install
Zum Schluss folgt die Kompilierung des Sprachpaares:
1
cd ..
2
cd apertium-en-es
3
4
make
5
make install
Sie haben jetzt alle benötigten Ressourcen heruntergeladen.
12
Apertium-viewer 2.0
Mit dem Programm Apertium-viewer 2.0 kann man sich die verschiedenen Übersetzungsphasen einer ApertiumÜbersetzung ansehen als auch direkt bearbeiten. Sie können mit Apertium-viewer auf ihre lokal gespeicherten
Sprachpaare zugreifen, haben aber auch Zugriff auf 24 Online-Sprachpaare von Apertium: diese können Sie
zwar für Übersetzungen gebrauchen, aber daran keine Änderungen vornehmen.
Starten Sie nun Apertium-viewer mit folgendem Befehl:
1
javaws https://apertium.svn.sourceforge.net/svnroot/apertium/builds/apertiumviewer/launch.jnlp
Der Apertium-viewer wird geöffnet und es erscheint eine Sicherheitswarnung: Klicken Sie auf ”Ich akzeptiere
das Risiko” und anschliessend auf ”Ausführen”. Um das heruntergeladene Sprachpaar reinzuladen, klicken
Sie im Menü auf ”File” / ”Load mode” und wählen Sie die Dateien ”en-es.mode” und ës-en.mode” im Ordner
”apertium-en-es” aus, um beide Übersetzungsrichtungen zu laden.
Abbildung 8: Der Apertium-viewer mit der Eingabe ’Hello’
Nun können Sie Apertium testen: Geben Sie ein paar Testsätze oder -wörter in das oberste Feld ein. Wie Sie
sehen, werden die einzelnen Verarbeitungsschritte jeweils angezeigt14 und im untersten Feld erscheint die
Übersetzung. Wenn Sie in der oberen rechten Ecke ”Online” aktivieren, haben Sie im Dropdown-Menü ’Mode’ Zugriff auf 24 Online-Sprachpaare und können diese für Übersetzungen benutzen (aber nicht erweitern
oder andersweitig bearbeiten). Fahren Sie nun fort mit Kapitel 6.2, wo Sie lernen, wie man eine lexikalische
Erweiterung in Apertium umsetzt.
14
Die verschiedenen Zwischenschritte der Verarbeitung können ausgeblendet werden. Gehen Sie dazu im Menü auf ”Hide Intermediate”
6.1.3
13
Installation auf Ubuntu
Installation von Apertium
Als erstes installieren Sie folgendes mittels Terminal- Eingabe:
1
sudo apt-get install subversion build-essential g++ pkg-config gawk libxml2
libxml2-dev libxml2-utils xsltproc flex automake autoconf libtool libpcre3dev
Geben Sie ihr Systempasswort ein und warten Sie, bis der Download und die Installation beendet sind. Im Anschluss können Sie die benötigten Apertium-Komponenten lttoolbox, apertium, und das Sprachpaar EnglischSpanisch (en-es) herunterladen:
1
svn checkout http://apertium.svn.sourceforge.net/svnroot/apertium/trunk/
lttoolbox
2
svn checkout http://apertium.svn.sourceforge.net/svnroot/apertium/trunk/apertium
3
svn checkout http://apertium.svn.sourceforge.net/svnroot/apertium/trunk/apertium
-en-es
Kompilieren und installieren Sie lttoolbox:
1
cd ..
2
cd lttoolbox
3
PKG_CONFIG_PATH=/usr/local/lib/pkgconfig ./autogen.sh
4
make
5
sudo make install
6
sudo ldconfig
Kompilieren und installieren Sie apertium:
1
cd ..
2
cd apertium
3
5
make
sudo make install
6
sudo ldconfig
4
Kompilieren Sie das Sprachpaar Englisch-Spanisch:
1
cd ..
2
cd apertium-en-es
3
4
make
5
sudo make install
Sie können nun Apertium direkt im Terminal kurz testen:
1
echo ’I like Apertium’ | apertium en-es
Folgendes Resultat sollte angezeigt werden:
Abbildung 9: Testeingabe ’I like Apertium’ im Ubuntu-Terminal
14
Apertium-viewer 2.0
Mit dem Programm Apertium-viewer 2.0 kann man sich die verschiedenen Übersetzungsphasen einer Apertium-Übersetzung sowohl ansehen als auch direkt bearbeiten. Sie können mit Apertium-viewer auf ihre lokal
gespeicherten Sprachpaare zugreifen und haben zudem Zugriff auf 24 Online-Sprachpaare von Apertium: diese können Sie zwar für Übersetzungen gebrauchen, aber daran keine Änderungen vornehmen.
Installieren Sie als Erstes das icedtea-netx-Paket, um das Java Netweork Launching Protocol (JNLP) zu implementieren:
1
sudo apt-get install icedtea-netx
Starten Sie anschliessend den Apertium-viewer mit folgendem Befehl 15 :
1
javaws https://apertium.svn.sourceforge.net/svnroot/apertium/builds/apertiumviewer/launch.jnlp
Der Apertium-viewer wird geöffnet und es erscheint eine Sicherheitswarnung: Klicken Sie auf ”Ich akzeptiere
das Risiko” und anschliessend auf ”Ausführen” bzw. ”Run”. Wie Sie in Abb. 10 sehen, schlägt Apertiumviewer vor, das von Ihnen installierte Sprachpaar zu benutzen; klicken Sie auf ”OK”.
Abbildung 10: Auswahl der mode-Dateien im Apertium-viewer
Nun können Sie Apertium testen: Geben Sie ein paar Testsätze oder -wörter in das oberste Feld ein. Wie Sie in
Abb. 11 sehen, werden die einzelnen Verarbeitungsschritte jeweils angezeigt16 und im untersten Feld erscheint
die Übersetzung. Wenn Sie in der oberen rechten Ecke ’Online’ aktivieren, haben Sie im Dropdown-Menü
’Mode’ Zugriff auf 24 Online-Sprachpaare und können diese für Übersetzungen benutzen.
15
Falls Sie es versäumt haben, die JRE zu installieren (siehe 6.1.1), dann holen Sie dies jetzt nach:
sudo apt-get install openjdk-6-jre
Erstellen Sie anschliessend einen Softlink, damit javaws gestartet werden kann:
sudo ln -s /usr/lib/jvm/java-6-openjdk/bin/javaws /usr/bin/javaws
16
Die verschiedenen Zwischenschritte der Verarbeitung können ausgeblendet werden. Gehen Sie dazu im Menü auf ’Hide Intermediate’
15
Abbildung 11: Testeingabe ’Hello’ im Apertium-viewer 2.0 und die dazugehörige Verarbeitung im Terminal
6.2
Lexikalische Erweiterung
Ziel ist es, das Sprachpaar Englisch-Spanisch lexikalisch zu erweitern: Sie werden nun Schritt für Schritt instruiert, wie man ein neues Wort und dessen Übersetzung in Apertium integriert.
6.2.1
Überblick
Ein Blick in den Ordner ’apertium-en-es’ zeigt, dass das Sprachpaar aus zahlreichen Dateien und Modulen
besteht. Zum besseren Verständnis des Übersetzungsprozesses wird die Funktion der wichtigsten Dateien in
der unteren Tabelle vorgestellt17 :
apertium-en-es.en.metadix 18
apertium-en-es.es.dix
apertium-en-es.en-es.dix
en-es.automorf.bin
es-en.automorf.bin
apertium-en-es.en-es.genitive.t1x
apertium-en-es.en-es.t1x
apertium-en-es.es-en.t1x
en-es.autogen.bin
es-en.autogen.bin
monolinguales Wörterbuch für Englisch, umfasst 34’505 Einträge und 299 Paradigmen
monolinguales Wörterbuch für Spanisch, umfasst 32’987 Einträge
bilinguales Wörterbuch Englisch-Spanisch, enthält 36’198 Einträge und 12 Paradigmen
morphologische Englisch-Analyse
morphologische Spanisch-Analyse
1. Transfer-Stufe, enthält Transfer-Regeln für Genitivkonstrukte für die Übersetzungsrichtung
Englisch-Spanisch
enthält weitere Transfer-Regeln
2. Transfer-Stufe, benützt das bilinguale Wörterbuch
3. Transfer-Stufe, Chunk-Bearbeitung
enthält Transfer-Regeln für die Übersetzungsrichtung Spanisch-Englisch
2. Transfer-Stufe
3. Transfer-Stufe
morphologische Generierung der Zielsprache Spanisch
morphologische Generierung der Zielsprache Englisch
17
In den .mode-Dateien ist die Reihenfolge festgelegt, in welcher diese Dateien im Übersetzungsprozess abgerufen werden.
18
Eigentlich sollte diese Datei nach dem Muster ’apertium-PAIR.LANG.dix’ benannt sein, also ’apertium-en-es.en.dix’ heissen. Siehe
Forcada et al. 2010:125.
apertium-en-es.en.tsx
apertium-en-es.es.tsx
apertium-en-es.post-en.dix
apertium-en-es.post-es.dix
Ordner ’en-tagger-data’
Ordner ’es-tagger-data’
16
Tagger-Definition-Datei für Englisch
Tagger-Definition-Datei für Spanisch
Post-Generierungswörterbuch für Englisch, (für die Übersetzungsrichtung Spanisch-Englisch)
Post-Generierungswörterbuch für Spanisch (für die Übersetzungsrichtung Englisch-Spanisch)
enthält Daten für den Englisch-Tagger
enthält Daten für den Spanisch-Tagger
Um ein neues Wort in Apertium zu integrieren, arbeiten Sie nur mit den drei .dix-Dateien, den Wörterbüchern.
Grundsätzlich sollten Sie Folgendes beachten:
• Jedesmal, wenn Sie Änderungen an einer der Apertium- Dateien vornehmen, müssen Sie make und sudo
make install im jeweiligen Verzeichnis eingeben, damit die Module rekompiliert und die Dateien generiert werden.
• Um die vorgenommenen Änderungen am Sprachpaar im Apertium-viewer testen zu können, sollte in der
rechten oberen Ecke des Programms die Option ”Local” aktiviert sein.
6.2.2
Englisch- Wörterbuch
Nehmen wir an, dass Sie das Englische Nomen ’finch’ (Fink) integrieren möchten, was dem Spanischen ’pinzón’
entspricht. Öffnen Sie als erstes die Datei ’apertium-en-es.en.metadix’ in ihrem Texteditor. Wie Sie sehen, besteht das Englisch-Wörterbuch aus zwei Arten von Einträgen: Worteinträge, welche unter dem Abschnitt
<section id="main" type="standard"> aufgelistet sind, und Paradigmen, welche sich im Bereich <pardefs>
der Datei befinden. Die Abb. 12 zeigt als Beispiel die Wort-Einträge für ’Adriana’ und ’apple’ auf der linken Seite. Diese Einträge sind umklammert von einem <e>- Element und bestehen aus dem Lemma (lm="..."19 ),
dem Prefix (... ) und einer Zuweisung zu einem bestimmten Paradigma <par>. Paradigmen
enthalten alle nötigen Informationen zur Flexion. Sie sehen auf der rechten Seite das ’Adriana’ zugewiesene
Paradigma ’Mary np’ und das Paradigma ’house np’, welches dem Wort ’apple’ zugewiesen wurde. Dies
bedeutet, dass ’apple’ auf dieselbe Weise flektiert wird wie das Wort ’house’ und dass es dieselbe morphologische Struktur aufweist.
19
das lm-Element ist optional und kommt nicht bei allen Sprachpaaren zur Anwendung
17
Worteintrag
zugewiesenes Paradigma
<e lm="Adriana">
Adriana
<par n="Mary__np"/>
</e>
<pardef n="Mary__np">
<e>

<l></l>
<r><s n="np"/><s n="ant"/><s n="f"/><s n="sg"/></r>

</e>
</pardef>
<e lm="apple">
apple
<par n="house__n"/>
</e>
<pardef n="house__n">
<e c="CP: nouns which add -s">

<l></l>
<r><s n="n"/><s n="sg"/></r>

</e>
<e>

<l>s</l>
<r><s n="n"/><s n="pl"/></r>

</e>
<e r="LR">

<l>s'</l>
<r><s n="n"/><s n="pl"/><j/>'s<s n="gen"/></r>

</e>
</pardef>
Abbildung 12: Die Einträge für ’Adriana’ und ’apple’ und deren zugewiesenes Paradigma
Um das Wort ’finch’ hinzuzufügen, müssen Sie einen Wort-Eintrag mit einem Verweis auf das passende Paradigma erstellen. ’Finch’ ist ein Nomen, welches die Endung -es benötigt, um den Plural zu bilden. Das
passende Paradigma für ”finch” ist also ”access”. 20 Der korrekte neue Eintrag muss also lauten:
<e lm="finch">finch<par n="access n"/></e>
Nur in seltenen Fällen können Sie nicht auf ein bereits bestehendes Paradigma zurückgreifen und müssen
selbst ein neues Paradigma erstellen.
6.2.3
Spanisch- Wörterbuch
Als nächstes muss ein solcher Eintrag auch in der Datei des Spanisch-Wörterbuchs angelegt werden. Dazu
öffnen Sie die Datei ’apertium-en-es.es.dix’ und geben folgende Zeile in der <main-section> ein:
<e lm="pinzón">pinz<par n="aluvi/ón n"/></e>
Das Paradigma für aluvión (Überschwemmung) ist das passende für ’pinzón’, da es dieselben Flexionsmerk20
Das Paradigma von ”access”sieht wie folgt aus:
<pardef n="access n">
<e c="CP: nouns which add -es"><l></l><r><s n="n"/><s n="sg"/></r></e>
<e><l>es</l><r><s n="n"/><s n="pl"/></r></e>
<e r="LR"><l>es’</l><r><s n="n"/><s n="pl"/><j/>’s<s n="gen"/></r></e>
18
male aufweist.21
6.2.4
bilinguales Englisch-Spanisch- Wörterbuch
Zuletzt wird ein Eintrag im bilingualen Wörterbuch ’apertium-en-es.en-es.dix’ benötigt. Die bilingualen Lexika in Apertium bestehen in der Regel nur aus den Lemmata beider Sprachen und Paradigmen. Die Einträge
sind aufgeteilt in einen linken (<l>) und rechten (<r>) Teil: Bei unserem Sprachpaar ist Englisch auf der
linken und Spanisch auf der rechten Seite der Übersetzungsrichtung, was für das ganze System gilt. Tragen
Sie folgenden Eintrag in der Hauptsektion <section id="main" type="standard"> ein:
<e>

<l>finch<s n="n"/></l>
<r>pinzón<s n="n"/><s n="m"/></r>

</e>
6.2.5
Überprüfung
Wie bereits erwähnt, müssen Sie im Ordner der umgeänderten .dix-Dateien die Befehle make und sudo make
install ausführen. Starten sie danach Apertium-viewer, um die lexikalische Erweiterung zu überprüfen. So
sah die fehlerhafte Übersetzung vor der Erweiterung aus:
Abbildung 13: Apertium-viewer: fehlgeschlagene Übersetzung vor der lexikalischen Erweiterung
Wie Sie sehen, wurde das Wort ’Finches’ mit einem Asterix als unbekannt markiert. Geben Sie jetzt einen Satz
mit ’Finch’ ein, wie es in Abb. 14 zu sehen ist.
21
Das Paradigma von ”aluvión” sieht folgendermassen aus:
<pardef n="aluvi/ón n">
<e><l>ones</l><r>ón<s n="n"/><s n="m"/><s n="pl"/></r></e>
<e><l>ón</l><r>ón<s n="n"/><s n="m"/><s n="sg"/></r></e>
19
Abbildung 14: Apertium-viewer: Testsatz nach erfolgreicher lexikalischer Erweiterung
Das Genus sowie der Plural von ’pinzón’ wurde korrekt gebildet. Somit haben Sie das Apertium-Sprachpaar
Englisch-Spanisch erfolgreich um das Wort ”finch” bzw. ”pinzón” erweitert.
20
Literatur
Weblinks
Apertium Wiki: Apertium Wiki. 5 2013 hURL:
http://www.wiki.apertium.org/
wiki/Main_Pagei
Link zur Online-Publikation Sprachtechnologie:
Ein Überblick von K.-U. Carstensen:
http://www.kai-uwe-carstensen.de/
Publikationen/Sprachtechnologie.pdf
Carstensen, Kai-Uwe: Sprachtechnologie: Ein
Überblick. 2012
Carstensen, Kai-Uwe et al. (Hrsg.): Computerlinguistik und Sprachtechnologie. Eine
Einführung. Spektrum Akademischer Verlag, 2010
Clark, Alexander/Fox, Chris/Lappin, Shalom
(Hrsg.): The Handbook of Computational
Linguistics and Natural Language Processing. Blackwell Publishing, 2010, Blackwell Handbooks in Linguistics
Forcada, Mikel L. et al.: Apertium: A
Free/Open-Source Platform for RuleBased Machine Translation. Machine
Translation, 2011, Nr. 25, 127–144
Forcada, Mikel L. et al.; Ginestı́ Rosell, Mireia (Hrsg.): Documentation of the OpenSource Shallow-Transfer Machine Translation Platform Apertium. Group Transducens, Universitat d’Alacant, 2010
Jurafsky, Daniel/Martin, James H.: Speech and
Language Processing: An Introduction to
Natural Language Processing, Computational Linguistics, and Speech Recognition. 2. Auflage. Pearson, 2009, Prentice Hall
Series in Artificial Intelligence
Mitkov, Ruslan (Hrsg.): The Oxford Handbook
of Computational Linguistics. Oxford University Press, 2003
Quah, C. K.: Translation and Technology. Palgrave Macmillan, 2006
Universidad
de
Alicante:
Apertium:
An
Open-Source
Machine
Translation Engine and Toolbox. hURL:
http://www.apertium.org/?id=
whatisapertiumi
Link zur Online-Version des Handbook of Computational Linguistics and Natural Language Processing (nur mit UZH-VPN):
http://www.blackwellreference.com/
subscriber/book.html?id=g9781405155816_
9781405155816
Apertium
Die offizielle Homepage:
http://www.apertium.org
Die aktuelle Apertium-Toolbox können Sie hier
downloaden:
http://sourceforge.net/projects/
apertium/
Die umfangreiche Dokumentation zu Apertium
finden Sie hier:
http://xixona.dlsi.ua.es/˜fran/
apertium2-documentation.pdf
offizielles Apertium-Wiki, mit hilfreichen Unterlagen und Anleitungen etc.:
http://wiki.apertium.org/wiki/Main_
Page

LE-Text - Institut für Computerlinguistik

Transcription

Documents pareils

¨Ubersetzung englischer Ausdrücke ins Deutsche – Chapter 22

Aufgabenblatt 1

¨Ubungen zur Vorlesung CPU-Design SS 2010 ¨Ubungsblatt 1

Eintauchen in die Welt und die Techniken der Brücke

Die Macht der¨Ubersetzung – Konzeptionelle

kostenlose Werbemöglichkeiten - IPM

Der Personalausweis der BRD und weitere Hintergründe

PocketGrandmaster 3.0 Grafikgenuss und Multi-Engine

DIE LETZTE MEILE - UND DIE MEILE IN DER MITTE

Emoji® Golfschirm Sunglasses

ZoneAlarm