LE-Text - Institut für Computerlinguistik
Transcription
LE-Text - Institut für Computerlinguistik
Regel-basierte Maschinelle Übersetzung Institut für Computerlinguistik, Universität Zürich Stéphanie Lehner Juni 2013 Zusammenfassung In diesem Tutorial lernen Sie die Komponenten, Architektur und Funktionsweise verschiedener regel-basierter Übersetzungssysteme kennen. Die Open-Source-Plattform Apertium wird im Detail vorgestellt. Als praktische Übung setzen Sie sich danach mit einer Erweiterung des Apertium- Sprachpaares Englisch-Spanisch auseinander. Regel-basierte Maschinelle Übersetzung 1 Inhaltsverzeichnis 1 Lernziele 1 2 Voraussetzungen 1 3 Regel-basierte Maschinelle Übersetzung 2 3.1 Einleitung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2 3.2 RBMT Architekturen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.2.1 Einführung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3 3 3.2.2 Direkte Übersetzung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4 3.2.3 Transfer . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4 3.2.4 Interlingua . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5 4 Fazit 6 5 Apertium 5.1 Einleitung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7 7 5.2 7 6 Praktische Übung 6.1 6.2 1 Aufbau und Funktionsweise . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9 Installation der Apertium Toolbox . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9 6.1.1 Voraussetzungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9 6.1.2 Installation auf Mac OS X . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9 6.1.3 Installation auf Ubuntu . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13 Lexikalische Erweiterung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15 6.2.1 Überblick . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15 6.2.2 Englisch- Wörterbuch . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16 6.2.3 Spanisch- Wörterbuch . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17 6.2.4 bilinguales Englisch-Spanisch- Wörterbuch . . . . . . . . . . . . . . . . . . . . . . . . . . . 18 6.2.5 Überprüfung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18 Lernziele • Sie kennen die verschiedenen Typen regel-basierter Übersetzungssysteme und können deren Komponenten, Aufbau und Funktionsweise erläutern • Sie kennen die Vor- und Nachteile von regel-basierten Übersetzungssystemen • Sie wissen, wie das System Apertium funktioniert und wie es aufgebaut ist • Sie können ein Apertium-Sprachpaar installieren, testen und lexikalisch erweitern 2 Voraussetzungen Für dieses Tutorial sind grundlegende Kenntnisse der Computerlinguistik nötig, wie sie in den Vorlesungen ECL I und PCL I vermittelt werden. Um die Übung durchzuführen, benötigen Sie Grundkenntnisse über Kommandozeilenbefehle. Regel-basierte Maschinelle Übersetzung 3 2 Regel-basierte Maschinelle Übersetzung MÜ Maschinelle Übersetzung MT Machine Translation (=MÜ) RBMT Rule-Based Machine Translation (= regel-basierte MÜ) SMT Statistical Machine Translation SL Source Language (= QS) TL Target Language (= ZS) QS Quellsprache ZS Zielsprache 3.1 Einleitung Eine Vielzahl an digitalen Texten - wie zum Beispiel Gebrauchsanweisungen oder Website-Inhalte - soll heute möglichst zeitgleich in verschiedenen Sprachen vorliegen: Dies führte dazu, dass die maschinelle Übersetzung (MÜ) im Laufe der Zeit stetig an Bedeutung gewann (Carstensen et al. 2010: 642). Unter maschineller Übersetzung - im englischen Sprachraum als machine translation (MT) bezeichnet - versteht man computergestützte Systeme, die Übersetzungen mit oder ohne menschliche Hilfe erstellen (Mitkov 2003: 501). Während der rund 60-jährigen Geschichte der MÜ wurden unterschiedliche Theorien und Techniken entwickelt, um die bestmögliche Übersetzung zu erzielen. Grundsätzlich können MÜ-Systeme entsprechend der verwendeten Technik in zwei Klassen unterteilt werden, nämlich in regel-basierte und daten- bzw. korpus-basierte Systeme (Carstensen et al. 2010: 645).1 2 Regel-basierte Systeme basieren auf manuell erstellten zweisprachigen ” Wörterbüchern sowie lexikalischen und grammatischen Entsprechungsregeln“ (Carstensen et al. 2010: 645). Korpus-basierte MÜ hingegen beruht auf Sammlungen paralleler Korpora (z.B. manuell übersetzte Parlamentstexte der EU), welche aligniert werden (Carstensen 2012: 193). Das System lernt darauf selbstständig mithilfe statistischer Programme die Übersetzungen und Übersetzungsmuster (Carstensen et al. 2010: 645). Nicht nur die angewandte Technik, sondern auch die Anforderungen an die MÜ änderten sich im Laufe der Zeit: So war es zu Anfang das Ziel der MÜ, beliebige Texte vollautomatisch und in Höchst-Qualität übersetzen zu können.3 Von diesem Vorsatz ist man inzwischen abgekommen (Carstensen et al. 2010: 643): Die Erwartungen an die MÜ sind nun spezifischer und Faktoren wie das jeweilige Einsatzgebiet, die Domäne und die Kundenbedürfnisse sollten zur Beurteilung eines MÜ-Systems mitberücksichtigt werden (Carstensen 2012: 185). Ebenfalls von Bedeutung sind die Ausbaufähigkeit (z.B. das Einbinden eines neuen Sprachpaares) sowie die Pflegeleichtigkeit und Evaluierbarkeit eines Systems (Carstensen 2012: 188). In diesem Tutorial liegt der Fokus auf der regel-basierten MÜ, welche in den 60er-Jahren aufkam und bis heute in den meisten kommerziellen Übersetzungssystemen zum Einsatz kommt (Clark/Fox/Lappin 2010: 554). Sie lernen die Entwicklungsgeschichte der verschiedenen regel-basierten Architekturen sowie deren Funktionsweise und Vor- und Nachteile kennen. Anschliessend wird die Open-Source-Plattform Apertium im Detail vorgestellt. Im praktischen Teil dieses Tutorials lernen Sie Schritt für Schritt, wie in Apertium ein Sprachpaar installiert und lexikalisch erweitert wird. 1 Carstensen fügt in seiner aktuellen Ausgabe Sprachtechnologie: Ein Überblick die Mischform hybride Systeme als dritte Klasse hinzu (192). 2 Eine Klassifizierung dieser MÜ-Architekturen kann des Weiteren nach Verarbeitungstiefe ( direkte, Transfer- und Interlingua” Systeme“ (Carstensen 2012: 189)) oder Übersetzungsrichtung (uni- oder bidirektional (Carstensen et al. 2010: 644)) vorgenommen werden. 3 Dieses Ziel wird als FAHQ(M)T bezeichnet (Fully Automatic High Quality (Machine) Translation) (Carstensen 2012: 181). Regel-basierte Maschinelle Übersetzung 3.2 RBMT Architekturen 3.2.1 Einführung 3 Wie bereits erwähnt, können MÜ-Systeme anhand ihrer Verarbeitungstiefe klassifiziert werden; regel-basierte MÜ-Systeme können demnach in drei Klassen unterteilt werden: die direkte Übersetzung, den Interlinguaund den Transferansatz (Mitkov 2003: 503). Um diese Verarbeitungstiefen visuell darzustellen, wird das sogenannte Vauquois-Dreieck verwendet, welches in Abb. 1 abgebildet ist. Es zeigt den steigenden Grad der Verarbeitungstiefe auf der Analyse- als auch auf der Generierungsseite des Übersetzungsprozesses, von direkter Übersetzung über den Transfer- zum Interlingua-Ansatz (Jurafsky/Martin 2009: 903). Des Weiteren verdeutlicht das Vauquois-Dreieck, dass immer weniger Wissenstransfer stattfindet, je weiter oben im Dreieck wir uns befinden (Jurafsky/Martin 2009: 903). Interlingua Interlingua Transfer Semantische Struktur semantische Analyse Syntaktische Struktur syntaktische Analyse Wortstruktur morphologische Analyse Quellsprache Semantische Struktur Semantischer Transfer Syntaktischer Transfer Direkt Direkte Übersetzung semantische Generierung Syntaktische Struktur syntaktische Generierung Wortstruktur morphologische Generierung Zielsprache Abbildung 1: Das Vauquois-Dreieck. Adaptiert aus Carstensen’s Sprachtechnologie: Ein Überblick (190). Was allen RBMT-Systemen gemein ist, sind die manuell erstellten zweisprachigen Wörterbüchern und gros” sen Regelsammlungen“ (Carstensen et al. 2010: 647). Grundsätzlich kann man sagen, dass über die Jahre zunehmend tiefere Analyse- und Generierungsebenen eingesetzt wurden (Mitkov 2003: 508). In vielen Systemen kommt heute eine Kombination einzelner Komponenten dieser Ansätze zum Einsatz (Jurafsky/Martin 2009: 903). In den folgenden Unterkapiteln wird nun in chronologischer Reihenfolge auf die unterschiedlichen Ansätze eingegangen. 3.2.2 Direkte Übersetzung Die direkte Übersetzung ist die erste Methode, welche in der MÜ angewendet wurde (Quah 2006: 69) und eine der einfachsten Übersetzungsstrategien. In der Fachliteratur wird die direkte Übersetzung (engl.: direct translation) zumeist separat als MÜ der 1. Generation aufgelistet und nicht zu den RBMT-Systemen, d.h. MÜ Regel-basierte Maschinelle Übersetzung 4 der 2. Generation, gezählt. Die direkte Übersetzung basiert jedoch ebenfalls hauptsächlich auf der Festlegung von Regeln (Mitkov 2003: 504) und steht für eine der drei Verarbeitungstiefen (siehe Abb. 1): Darum wird hier auf die direkte Übersetzung eingegangen. Bis in die späten 60er-Jahre kam die Technik der direkten Übersetzung bei fast allen MÜ-Systemen zum Einsatz (Quah 2006: 30). Eines der ersten öffentlich vorgestellten Systeme dieser 1. Generation war das RussischEnglische Georgetown University System, welches (nur) 250 Worte, 6 Grammatikregeln und 49 Sätze umfasste (Quah 2006: 60). Architektur und Funktionsweise Dieses Modell ist quasi ein Wort-für-Wort“-System (Mitkov 2003: 508). Es ist nicht modular aufgebaut (Quah ” 2006: 69): Wie Sie in Abb. 2 sehen, sieht es nur einen Verarbeitungsschritt vor. QS Text morpholog. Analyse morpholog. Generierung ZS Text bilinguales Wörterbuch Abbildung 2: Modell der direkten Übersetzung (Abb. adaptiert aus Quah 2006: Translation and Technology: 70) Ein umfangreiches bilinguales Wörterbuch und ein Programm zur morphologischen Analyse des Quelltextes und eines für die morphologische Generierung in der ZS sind die einzigen Komponenten (Mitkov 2003: 503). Es wird nur eine oberflächliche, morphologische Analyse der QS durchgeführt, darum ist dieses Modell nur sehr begrenzt dazu geeignet, beispielsweise Ambiguitäten aufzulösen oder Metaphern korrekt zu übersetzen (Quah 2006: 69). Es wird keine Syntaxanalyse durchgeführt (Carstensen 2012: 190)4 , sondern die wichtigsten syntaktische Unterschiede zwischen den Sprachen durch Regeln festgelegt (Carstensen 2012: 190). Vor- und Nachteile Die direkte Übersetzung bietet nur wenige Vorteile: So ist zum Beispiel die Verarbeitungsgeschwindigkeit hoch und die Entwicklungskosten sind tief (Carstensen et al. 2010: 645). Negativ ins Gewicht fällt die Übersetzungsqualität: Diese ist meist ungenügend. Falls die QS und ZS ähnliche lexikalische und grammatikalische Strukturen aufweisen, kann man trotzdem brauchbare Resultate erzielen (Carstensen et al. 2010: 645). 3.2.3 Transfer Die Schwächen der direkten Übersetzung führten zur Entwicklung des Transfer-Ansatzes (Carstensen et al. 2010: 645). Transformer oder Transfer-Systeme wurden in den 70er- und 80er-Jahren entwickelt und waren darauf angelegt, auf Grossrechnern zu laufen (Clark/Fox/Lappin 2010: 555). In den 90ern kamen Personal Computer (PCs) auf, und RBMT wurde zum Computerprogramm (Clark/Fox/Lappin 2010: 556). Als aktuelle kommerzielle Transfersysteme können u.a. Systran oder der Personal Translator von Linguatec genannt werden. Es gibt auch offene Transfersysteme, zu denen zum Beispiel Apertium5 gehört. 4 In späteren direkten Systemen wurde eine syntaktische Analyse integriert (Mitkov 2003: 508), jedoch blieb diese sehr oberflächlich (Carstensen 2012: 189). 5 In Kapitel 5 wird der spezifische Aufbau von Apertium vorgestellt. Regel-basierte Maschinelle Übersetzung 5 Architektur und Funktionsweise QS Text Analyse QS Wörterbuch & Grammatik QS-Repräsentation Transfer QS-ZS bilinguales Wörterbuch & Grammatik ZS-Repräsentation Generierung ZS Text ZS Wörterbuch & Grammatik Abbildung 3: Transfer-Modell (Abb. adaptiert aus Quah 2006: Translation and Technology) Der Transfer-Ansatz sieht drei Verarbeitungsschritte vor (Carstensen et al. 2010: 645): Analyse, Transfer und Generierung. Als erstes wird der QS-Text in eine abstrakte QS-Repräsentation konvertiert. In einer zweiten Phase wird mithilfe von Transfer-Regeln diese QS-Repräsentation in eine entsprechende ZS-Repräsentation übertragen. Zuletzt wird daraus der ZS-Text generiert (Mitkov 2003: 503f.). Der QS-Text wird also geparst und zum Teil auch semantisch analysiert, wofür meist unifikationsbasierte Grammatikformalismen6 eingesetzt werden (Carstensen et al. 2010: 645). Vor- und Nachteile Die Stärken dieser Architektur liegen darin, dass sie dank der syntaktischen oder semantischen Sprachanalyse mit gewissen Ambiguitäten (z.B. lexikalische Ambiguität) umgehen kann, ganz im Gegensatz zur direkten Übersetzung (Carstensen 2012: 191). Der Transfer-Ansatz bringt gewisse Nachteile mit sich: so müssen mehrere neue Komponenten erstellt wer” den“ (Carstensen et al. 2010: 646), wenn eine neue Sprache oder Übersetzungsrichtung integriert werden soll. Jedes Sprachpaar benötigt ein eigenes Set an Transfer-Regeln, was für multilinguale Einsatzgebiete (wie z.B. die EU) ungünstig ist (Jurafsky/Martin 2009: 909). Aufgrund der höheren Anzahl Komponenten ist der Transfer-Ansatz ausserdem anfälliger für Fehler: Wenn nur eine der Komponenten nicht korrekt funktioniert, ist die gesamte Übersetzung beeinträchtigt. Die Transfer-Regeln können höchst komplex ausfallen, was die Übersichtlichkeit und Wartung der Regeldateien erschweren kann (Carstensen 2012: 191). 3.2.4 Interlingua Architektur und Funktionsweise 6 zum Beispiel LFG oder HPSG Regel-basierte Maschinelle Übersetzung QS Text Analyse QS Wörterbuch & Grammatik 6 Interlingua Zwischenrepräsentation Generierung ZS Text ZS Wörterbuch & Grammatik Abbildung 4: Interlingua-Modell (Abb. adaptiert aus Quah 2006: Translation and Technology: 72) Der Interlingua-Ansatz sieht eine umfassende semantische Analyse der QS vor, welche in eine abstrakte, sprachneutrale Repräsentation umgewandelt wird, die sogenannte Interlingua (Carstensen 2012: 191). Aus dieser interlingualen Repräsentation wird anschliessend die ZS generiert (Jurafsky/Martin 2009: 903). Es wird also versucht, die Bedeutung eines QS-Texts zu extrahieren und diese Bedeutung in der ZS wiederzugeben (Jurafsky/Martin 2009: 909). Für diesen Ansatz werden monolinguale Wörterbücher für die QS und ZS benötigt sowie Grammatikregeln (Quah 2006: 71). Syntaktischen und lexikalische Transfer-Regeln hingegen sind nicht nötig. Die grösste Herausforderung bleibt es, eine universale, sprachneutrale Repräsentation zu entwickeln, die allen Sprachen unterbringen kann; bis heute ist dies nicht gelungen (Quah 2006: 73). Eine aktuellere Erweiterung dieser Architektur ist laut The Oxford Handbook of Computational Linguistics die sogenannte interlingua- and knowledge-based MT“ (512), auf deutsch wissensbasierte MÜ“ (Carstensen ” ” 2012: 192). Diese beinhaltet eine vollständig konzeptuell-semantische Analyse (Mitkov 2003: 508). Dabei ist eine lexikalische, syntaktische, semantische und pragmatische Analyse des QS-Texts vorgesehen (Mitkov 2003: 520). Vor- und Nachteile Die Interlingua-Architektur hat gegenüber dem Transfer-Ansatz den Vorteil, dass sie wenigere zu programmierende Komponenten benötigt und darum weniger arbeitsaufwändig ist (Carstensen et al. 2010: 647) 7 Ein weiterer positiver Aspekt ist, dass die jeweiligen Analyseprogramme der QS und Generierungsprogramme der ZS unabhängig voneinander funktionieren und so direkt für andere Sprachpaare benutzt werden können (Mitkov 2003: 503). Interlingua bietet sich besonders an, wenn zwei Sprachen strukturell sehr voneinander abweichen; wie die ideale Interlingua aufgebaut sein soll, ist umstritten (Carstensen 2012: 192). 4 Fazit Vorteile Die RBMT basiert auf klaren, einsehbaren und veränderbaren Regeln, was zu einer reproduzierbaren Übersetzung und Qualität führt. Übersetzungsfehler können von Programmierern und anderen Experten einfacher aufgefunden, analysiert und behoben werden als in der SMT (Forcada et al. 2011: 129). Die RBMT bietet zumeist eine konsistente Übersetzung für dasselbe Wort quer durch den gesamten Text. In der SMT können hingegen Worte oder Ausdrücke im selben Text unterschiedlich übersetzt werden, je nach Übersetzungswahrscheinlichkeit innerhalb der einzelnen Sätze (Forcada et al. 2011: 129). 7 Allerdings erfordern diese beiden Ansätze deutlich mehr manuelle Arbeit als SMT-Systeme (Carstensen et al. 2010: 647). Regel-basierte Maschinelle Übersetzung 7 Nachteile Der Entwicklungs- und Anpassungsaufwand ist hoch und es besteht eine gewisse Empfindlichkeit gegen die Quelltextqualität. Regel-basierte Systeme weisen aufgrund ihrer Abhängigkeit von Regeldatenbanken und der umfassende[n] Behandlung von sprachlichen Ausnahmen“ Nachteile bezüglich Robustheit und Wartung ” auf (Carstensen et al. 2010: 647). Übersetzungen von RMBT-Systemen tendieren ausserdem dazu, ’mechanischer’, weniger flüssig und repetitiv zu wirken; auch Übersetzungsfehler wiederholen sich unter Umständen mehrmals. Bezüglich Übersetzungsfehlern bevorzugen Post-Editoren RBMT vor SMT, da die für sie zu korrigierenden Fehler von RBMT-Systemen vorhersehbarer und repetitiver sind (Forcada et al. 2011: 128). Es ist allgemein schwierig, Studien zur aktuellen Entwicklungen in RBMT zu finden, da viele Systeme kommerziell sind (und somit proprietär) und weil es in der RBMT an Innovationen fehlt, ganz im Gegensatz zur korpus-basierten MÜ (Clark/Fox/Lappin 2010: 556). Heutzutage benutzen nämlich die meisten Übersetzungssysteme - vor allem im Forschungsumfeld - das sogenannte phrasenbasierte Modell (PB-SMT).8 Davor waren es SMT-Systeme, die keine Phrasenalignierung vorsahen (Clark/Fox/Lappin 2010: 531). Die meisten kommerziellen Übersetzungssysteme hingegen sind immer noch regel-basiert (Clark/Fox/Lappin 2010: 554). Auch bei einigen web-basierten Systemen kommt RBMT zum Einsatz, ohne dass grundlegende Änderungen am Grundprinzip nötig sind (Clark/Fox/Lappin 2010: 556). 5 Apertium 5.1 Einleitung Apertium ist eine Open-Source Plattform für RBMT, welche bis heute - hauptsächlich von der Transducens Forschungsgruppe der Universität Alicante und privaten Firmen - aktiv weiterentwickelt wird (Clark/Fox/ Lappin 2010: 555). Als Open-Source-Projekt weist Apertium mehr als 100 freiwillige Entwickler auf, welche bestehende Sprachpaare überarbeiten oder neue Sprachpaare implementieren (Forcada et al. 2011: 141). Apertium entstand 2005 und basiert auf den zwei vorangehenden MT-Systemen interNOSTRUM (Spanisch-Katalanisch) und Traductor Universia (Spanisch-Portugiesisch), welche beide von Transducens entwickelt wurden (Universidad de Alicante). Ursprünglich war Apertium darauf ausgerichtet, nur verwandte Sprachen zu verarbeiten; später ist das System um verschiedenartige Sprachpaare erweitert worden, wie z.B. Englisch-Baskisch (Forcada et al. 2011: 128). Aktuell umfasst Apertium 35 stabile, freigeschaltete Sprachpaare; viele weitere Sprachpaare befinden sich noch in Entwicklung (Apertium Wiki 2013). 5.2 Aufbau und Funktionsweise Apertium basiert auf der klassischen partial syntactic-transfer“ Architektur (Clark/Fox/Lappin 2010: 555) ” und ist ein sogenanntes shallow-transfer-System (Forcada et al. 2010: 5). Apertium weist 3 Hauptkomponenten auf: Ein sprachunabhängiges Kernsystem, linguistisches Datenmaterial (Wörterbücher und Regeldateien), und eine Sammlung von Programmen (toolbox) zur Bearbeitung dieser Daten (Universidad de Alicante). Der Übersetzungsvorgang erfolgt in einzelnen Phasen; dabei kommen Finite State Transducers (FST)9 für die morphologische Analyse und lexikalische Verarbeitung, Hidden-Markov-Modelle (HMM) 10 für das PoS-Tagging und Finite State-basiertes Chunking für den Struktur-Transfer zum Einsatz (Forcada et al. 2010: 5). Die Abbildung 5 zeigt die einzelnen Module der Verarbeitungs-Pipeline, die während des Übersetzungsprozesses zum 8 Als Beispiel eines PB-SMT-System kann die Open-Source Software Moses erwähnt werden. 9 siehe Wikipedia 10 Eine kurze Definition zum Hidden-Markov-Modell finden Sie im CL-Glossar Regel-basierte Maschinelle Übersetzung 8 Einsatz kommen. Jedes Modul verarbeitet dabei den Input des vorangehenden Moduls. structural transfer module SL text de-formatter morphological analyser PoS tagger chunker interchunk postchunk morphological generator post- generator re-formatter TL text lexical transfer module Abbildung 5: Schematische Darstellung der Apertium-Module, adaptiert aus Forcada et al. 2011: 131. Die einzelnen Module der Pipeline und deren Funktion werden nun erläutert11 : • de-formatter Der de-formatter erkennt Formatierungselemente (z.B. HTML-Tags) und weitere textfremde Elemente und markiert diese mit eckigen Klammern; von den folgenden Verarbeitungsprogrammen werden die Zeichenfolgen innerhalb dieser eckigen Klammern als Leerzeichen interpretiert (Forcada et al. 2010: 6f). • morphological analyser In diesem Schritt wird der Text tokenisiert und mit lexikalischen Informationen (Lemma, lexikalische Kategorie und Flexionsmerkmale) getaggt. Dazu wird ein morphologisches Wörterbuch der entsprechenden Quellsprache benötigt (Forcada et al. 2010: 7). • Part-of-Speech Tagger In diesem Schritt werden ambige Ausdrücke - d.h. Ausdrücke mit mehreren morphologischen Analysen mithilfe eines statistischen Modells (HMM) aufgelöst (Forcada et al. 2010: 8). • structural transfer module Dieses Modul erkennt und verarbeitet Chunks und Phrasen, die in der QS und ZS grammatikalische Unterschiede aufweisen (z.B. unterschiedliches Genus oder Wortfolge) (Forcada et al. 2010: 8f). Es besteht aus 3 Unter-Modulen: – Der chunker ist zwingend erforderlich; er ruft das lexical transfer-Modul auf und segmentiert anschliessend die lexikalischen Einheiten zu Chunks (Forcada et al. 2011: 131). – Das interchunk-Modul ist optional und wird nur bei Sprachen benötigt, die nicht nahe verwandt sind. Es führt eine umfassendere Verarbeitung der Chunks durch (Forcada et al. 2011: 131). – Der optionale postchunker wird für die Endbearbeitung benötigt; er entfernt die Chunk-Kapselungen (Forcada et al. 2011: 131). • lexical transfer module Dieses Modul wird aus einem bilingualen Wörterbuch generiert; die lexikalischen Tag-Informationen der QS werden dabei mithilfe des structural transfer module in die entspechenden ZS-Formen umgewandelt (Forcada et al. 2010: 8). • morphological generator Dieses Modul greift auf ein morphologisches Wörterbuch zurück und generiert eine passende ’surface form’ (d.h. eine ZS-Repräsentation) aus der lexikalischen Form der ZS (Forcada et al. 2010: 9). 11 Zum besseren Verständnis dieser Pipeline können Sie auf S. 132 von Machine Translation 2011 die Übersetzung eines Beispielsatzes einsehen. Regel-basierte Maschinelle Übersetzung 9 • post-generator Der post-generator führt an der ZS einige orthographische Änderungen durch (z.B. Apostrophierung) (Forcada et al. 2010: 9). • re-formatter In diesem letzten Verarbeitungsschritt wird das ursprüngliche Dateiformat der QS wieder hergestellt. Falls der QS-Text zum Beispiel im HTML-Format vorlag, werden die HTML-Tags wieder in die ZS-Ausgabe integriert (Forcada et al. 2010: 9). Die Apertium-Architektur zeigt noch Schwächen auf: So stellen Forcada et al. z.B. fest, dass der PoS-Tagger nicht auf dem neusten Stand der Technik ist und dass ein lexikalisches Selektionsmodul integriert werden sollte, um mehrdeutige Ausdrücke besser und effizienter verarbeiten zu können. Des weiteren sollen in Zukunft die morphologischen Wörterbücher für agglutinierende Sprachen optimiert und ein Modul zur Segmentierung von Komposita eingebaut werden (Forcada et al. 2011: 138). 6 Praktische Übung 6.1 Installation der Apertium Toolbox In diesem Kapitel lernen Sie, wie man Apertium installiert, testet und lexikalisch erweitert. Im Unterkapitel 6.1.2 werden Sie durch den Installationsprozess auf Mac OS X geführt. Wenn Sie Ubuntu-Benutzer sind, fahren Sie mit Unterkapitel 6.1.3 fort. Die Download- und Installationszeit beläuft sich auf ca. 25 min. für Mac OS X- bzw. 10 min. für UbuntuBenutzer. Die folgenden Installationsangaben stammen hauptsächlich aus dem offiziellen Apertium Wiki und der Dokumentation von Forcada et al.. Falls während der Installation Schwierigkeiten auftreten, können Sie im Apertium Wiki Hilfe finden. 6.1.1 Voraussetzungen Bitte beachten Sie folgende Voraussetzungen, um die Übung erfolgreich durchführen zu können: • Als Betriebssystem empfiehlt sich eine beliebige Version von Linux Ubuntu. Für Mac-User kommen OS X Lion oder OS X Mountain Lion in Frage. Windows wird von Apertium nicht offiziell unterstützt (Forcada et al. 2010: 150): Windows-Benutzern wird geraten, Linux Ubuntu auf einer Virtual Machine (z.B. VirtualBox) einzurichten12 • Sie müssen online sein, sowohl für die Downloads als auch für die Arbeit mit Apertium-viewer • Installieren Sie Java JRE 6 oder höher, welches Sie hier herunterladen oder upgraden können • Sie benötigen einen Text- oder XML-Editor (z.B. TextWrangler für Mac OS oder Kate für Ubuntu) • ca. 1.7 GB freier Speicherplatz 6.1.2 Installation auf Mac OS X Installation von Xcode 13 Um Apertium lokal benutzen zu können, müssen Sie als erstes die Entwicklungsumgebung Xcode herunterla12 Eine Installationsanleitung für Hardcore-Windows-Benutzer finden Sie im Apertium Wiki 13 Falls Sie Schwierigkeiten mit der Installation haben, finden Sie im Apple Support Center Hilfe Regel-basierte Maschinelle Übersetzung 10 den. Diese können Sie gratis über den Mac App Store beziehen. Die aktuelle Version für Lion und Mountain Lion ist Xcode 4.6.1. Abbildung 6: Screenshot von Xcode im App Store Nachdem Sie die Software vollständig heruntergeladen haben, gehen Sie zu ihrem Programm-Ordner, klicken auf ”XCode” und führen den Installationsprozess zu Ende. Die Kommandozeilen-Tools müssen nun nachträglich installiert werden: Öffnen Sie Xcode, wählen Sie im Menü ”Einstellungen” aus und klicken Sie im Reiter ”Downloads” bei den command line tools auf ”Install” (siehe Abb. 7) Abbildung 7: Download der Kommandozeilen-Werkzeuge in XCode Installation von MacPorts MacPorts ist ein open-source Paketverwaltungs-Programm; die Version für Mountain Lion können sie hier direkt herunterladen; die Benutzer von Lion finden das entsprechende Paket hier. Doppelklicken Sie auf das heruntergeladene Installationspaket und gehen Sie durch den Installationsprozess, ohne die Standardeinstellungen zu verändern. MacPorts wird nun in das Verzeichnis /opt/local kopiert. Die meisten übrigen MacPortsDateien werden unter /opt/local/var/macports abgelegt. Zudem wird eine Datei namens /.profile erstellt für die bash-shell: somit ist MacPorts für die folgenden Terminal-Sessions verfügbar. Nach abgeschlossener Installation ist ein Neustart nötig. Installation von Apertium Regel-basierte Maschinelle Übersetzung 11 Öffnen Sie nach dem Neustart das Terminal und geben Sie folgende Befehle ein: 1 cd ∼ 2 sudo port install autoconf automake expat flex gettext gperf help2man libiconv libtool libxml2 libxslt m4 ncurses p5-locale-gettext pcre perl5.8 pkgconfig zlib gawk subversion 3 pwd 4 mkdir Local 5 mkdir Source Geben Sie ihr persönliches Systempasswort ein und warten Sie, bis die Installation zu Ende ist. Laden Sie anschliessend die benötigten Pakete ’lttoolbox’ und ’apertium’ herunter: 1 svn co http://apertium.svn.sourceforge.net/svnroot/apertium/trunk/lttoolbox 2 svn co http://apertium.svn.sourceforge.net/svnroot/apertium/trunk/apertium Laden Sie nun das Sprachpaar Englisch-Spanisch (en-es) auf ihren Computer: 1 svn co http://apertium.svn.sourceforge.net/svnroot/apertium/trunk/apertium-en-es Jetzt muss sichergestellt werden, dass die lokale Installation der ausführbaren Programme und Programmbibliotheken vor der Systeminstallation berücksichtigt werden: 1 export PATH=$HOME/Local/bin/:$PATH 2 export PKG_CONFIG_PATH=$HOME/Local/lib/pkgconfig 3 export LD_LIBRARY_PATH=$HOME/Local/lib 4 cd Source Jetzt kompilieren Sie die einzelnen Umgebungen mithilfe folgender Eingaben: 1 cd .. 2 cd lttoolbox 3 sh autogen.sh --prefix=$HOME/Local/ 4 make 5 make install 1 cd .. 2 cd apertium 3 sh autogen.sh --prefix=$HOME/Local/ 4 make 5 make install Zum Schluss folgt die Kompilierung des Sprachpaares: 1 cd .. 2 cd apertium-en-es 3 sh autogen.sh --prefix=$HOME/Local/ 4 make 5 make install Sie haben jetzt alle benötigten Ressourcen heruntergeladen. Regel-basierte Maschinelle Übersetzung 12 Apertium-viewer 2.0 Mit dem Programm Apertium-viewer 2.0 kann man sich die verschiedenen Übersetzungsphasen einer ApertiumÜbersetzung ansehen als auch direkt bearbeiten. Sie können mit Apertium-viewer auf ihre lokal gespeicherten Sprachpaare zugreifen, haben aber auch Zugriff auf 24 Online-Sprachpaare von Apertium: diese können Sie zwar für Übersetzungen gebrauchen, aber daran keine Änderungen vornehmen. Starten Sie nun Apertium-viewer mit folgendem Befehl: 1 javaws https://apertium.svn.sourceforge.net/svnroot/apertium/builds/apertiumviewer/launch.jnlp Der Apertium-viewer wird geöffnet und es erscheint eine Sicherheitswarnung: Klicken Sie auf ”Ich akzeptiere das Risiko” und anschliessend auf ”Ausführen”. Um das heruntergeladene Sprachpaar reinzuladen, klicken Sie im Menü auf ”File” / ”Load mode” und wählen Sie die Dateien ”en-es.mode” und ës-en.mode” im Ordner ”apertium-en-es” aus, um beide Übersetzungsrichtungen zu laden. Abbildung 8: Der Apertium-viewer mit der Eingabe ’Hello’ Nun können Sie Apertium testen: Geben Sie ein paar Testsätze oder -wörter in das oberste Feld ein. Wie Sie sehen, werden die einzelnen Verarbeitungsschritte jeweils angezeigt14 und im untersten Feld erscheint die Übersetzung. Wenn Sie in der oberen rechten Ecke ”Online” aktivieren, haben Sie im Dropdown-Menü ’Mode’ Zugriff auf 24 Online-Sprachpaare und können diese für Übersetzungen benutzen (aber nicht erweitern oder andersweitig bearbeiten). Fahren Sie nun fort mit Kapitel 6.2, wo Sie lernen, wie man eine lexikalische Erweiterung in Apertium umsetzt. 14 Die verschiedenen Zwischenschritte der Verarbeitung können ausgeblendet werden. Gehen Sie dazu im Menü auf ”Hide Intermediate” Regel-basierte Maschinelle Übersetzung 6.1.3 13 Installation auf Ubuntu Installation von Apertium Als erstes installieren Sie folgendes mittels Terminal- Eingabe: 1 sudo apt-get install subversion build-essential g++ pkg-config gawk libxml2 libxml2-dev libxml2-utils xsltproc flex automake autoconf libtool libpcre3dev Geben Sie ihr Systempasswort ein und warten Sie, bis der Download und die Installation beendet sind. Im Anschluss können Sie die benötigten Apertium-Komponenten lttoolbox, apertium, und das Sprachpaar EnglischSpanisch (en-es) herunterladen: 1 svn checkout http://apertium.svn.sourceforge.net/svnroot/apertium/trunk/ lttoolbox 2 svn checkout http://apertium.svn.sourceforge.net/svnroot/apertium/trunk/apertium 3 svn checkout http://apertium.svn.sourceforge.net/svnroot/apertium/trunk/apertium -en-es Kompilieren und installieren Sie lttoolbox: 1 cd .. 2 cd lttoolbox 3 PKG_CONFIG_PATH=/usr/local/lib/pkgconfig ./autogen.sh 4 make 5 sudo make install 6 sudo ldconfig Kompilieren und installieren Sie apertium: 1 cd .. 2 cd apertium 3 PKG_CONFIG_PATH=/usr/local/lib/pkgconfig ./autogen.sh 5 make sudo make install 6 sudo ldconfig 4 Kompilieren Sie das Sprachpaar Englisch-Spanisch: 1 cd .. 2 cd apertium-en-es 3 PKG_CONFIG_PATH=/usr/local/lib/pkgconfig ./autogen.sh 4 make 5 sudo make install Sie können nun Apertium direkt im Terminal kurz testen: 1 echo ’I like Apertium’ | apertium en-es Folgendes Resultat sollte angezeigt werden: Abbildung 9: Testeingabe ’I like Apertium’ im Ubuntu-Terminal Regel-basierte Maschinelle Übersetzung 14 Apertium-viewer 2.0 Mit dem Programm Apertium-viewer 2.0 kann man sich die verschiedenen Übersetzungsphasen einer Apertium-Übersetzung sowohl ansehen als auch direkt bearbeiten. Sie können mit Apertium-viewer auf ihre lokal gespeicherten Sprachpaare zugreifen und haben zudem Zugriff auf 24 Online-Sprachpaare von Apertium: diese können Sie zwar für Übersetzungen gebrauchen, aber daran keine Änderungen vornehmen. Installieren Sie als Erstes das icedtea-netx-Paket, um das Java Netweork Launching Protocol (JNLP) zu implementieren: 1 sudo apt-get install icedtea-netx Starten Sie anschliessend den Apertium-viewer mit folgendem Befehl 15 : 1 javaws https://apertium.svn.sourceforge.net/svnroot/apertium/builds/apertiumviewer/launch.jnlp Der Apertium-viewer wird geöffnet und es erscheint eine Sicherheitswarnung: Klicken Sie auf ”Ich akzeptiere das Risiko” und anschliessend auf ”Ausführen” bzw. ”Run”. Wie Sie in Abb. 10 sehen, schlägt Apertiumviewer vor, das von Ihnen installierte Sprachpaar zu benutzen; klicken Sie auf ”OK”. Abbildung 10: Auswahl der mode-Dateien im Apertium-viewer Nun können Sie Apertium testen: Geben Sie ein paar Testsätze oder -wörter in das oberste Feld ein. Wie Sie in Abb. 11 sehen, werden die einzelnen Verarbeitungsschritte jeweils angezeigt16 und im untersten Feld erscheint die Übersetzung. Wenn Sie in der oberen rechten Ecke ’Online’ aktivieren, haben Sie im Dropdown-Menü ’Mode’ Zugriff auf 24 Online-Sprachpaare und können diese für Übersetzungen benutzen. 15 Falls Sie es versäumt haben, die JRE zu installieren (siehe 6.1.1), dann holen Sie dies jetzt nach: sudo apt-get install openjdk-6-jre Erstellen Sie anschliessend einen Softlink, damit javaws gestartet werden kann: sudo ln -s /usr/lib/jvm/java-6-openjdk/bin/javaws /usr/bin/javaws 16 Die verschiedenen Zwischenschritte der Verarbeitung können ausgeblendet werden. Gehen Sie dazu im Menü auf ’Hide Intermediate’ Regel-basierte Maschinelle Übersetzung 15 Abbildung 11: Testeingabe ’Hello’ im Apertium-viewer 2.0 und die dazugehörige Verarbeitung im Terminal 6.2 Lexikalische Erweiterung Ziel ist es, das Sprachpaar Englisch-Spanisch lexikalisch zu erweitern: Sie werden nun Schritt für Schritt instruiert, wie man ein neues Wort und dessen Übersetzung in Apertium integriert. 6.2.1 Überblick Ein Blick in den Ordner ’apertium-en-es’ zeigt, dass das Sprachpaar aus zahlreichen Dateien und Modulen besteht. Zum besseren Verständnis des Übersetzungsprozesses wird die Funktion der wichtigsten Dateien in der unteren Tabelle vorgestellt17 : apertium-en-es.en.metadix 18 apertium-en-es.es.dix apertium-en-es.en-es.dix en-es.automorf.bin es-en.automorf.bin apertium-en-es.en-es.genitive.t1x apertium-en-es.en-es.t1x apertium-en-es.en-es.t2x apertium-en-es.en-es.t3x apertium-en-es.es-en.t1x apertium-en-es.es-en.t2x apertium-en-es.es-en.t3x en-es.autogen.bin es-en.autogen.bin monolinguales Wörterbuch für Englisch, umfasst 34’505 Einträge und 299 Paradigmen monolinguales Wörterbuch für Spanisch, umfasst 32’987 Einträge bilinguales Wörterbuch Englisch-Spanisch, enthält 36’198 Einträge und 12 Paradigmen morphologische Englisch-Analyse morphologische Spanisch-Analyse 1. Transfer-Stufe, enthält Transfer-Regeln für Genitivkonstrukte für die Übersetzungsrichtung Englisch-Spanisch enthält weitere Transfer-Regeln 2. Transfer-Stufe, benützt das bilinguale Wörterbuch 3. Transfer-Stufe, Chunk-Bearbeitung enthält Transfer-Regeln für die Übersetzungsrichtung Spanisch-Englisch 2. Transfer-Stufe 3. Transfer-Stufe morphologische Generierung der Zielsprache Spanisch morphologische Generierung der Zielsprache Englisch 17 In den .mode-Dateien ist die Reihenfolge festgelegt, in welcher diese Dateien im Übersetzungsprozess abgerufen werden. 18 Eigentlich sollte diese Datei nach dem Muster ’apertium-PAIR.LANG.dix’ benannt sein, also ’apertium-en-es.en.dix’ heissen. Siehe Forcada et al. 2010:125. Regel-basierte Maschinelle Übersetzung apertium-en-es.en.tsx apertium-en-es.es.tsx apertium-en-es.post-en.dix apertium-en-es.post-es.dix Ordner ’en-tagger-data’ Ordner ’es-tagger-data’ 16 Tagger-Definition-Datei für Englisch Tagger-Definition-Datei für Spanisch Post-Generierungswörterbuch für Englisch, (für die Übersetzungsrichtung Spanisch-Englisch) Post-Generierungswörterbuch für Spanisch (für die Übersetzungsrichtung Englisch-Spanisch) enthält Daten für den Englisch-Tagger enthält Daten für den Spanisch-Tagger Um ein neues Wort in Apertium zu integrieren, arbeiten Sie nur mit den drei .dix-Dateien, den Wörterbüchern. Grundsätzlich sollten Sie Folgendes beachten: • Jedesmal, wenn Sie Änderungen an einer der Apertium- Dateien vornehmen, müssen Sie make und sudo make install im jeweiligen Verzeichnis eingeben, damit die Module rekompiliert und die Dateien generiert werden. • Um die vorgenommenen Änderungen am Sprachpaar im Apertium-viewer testen zu können, sollte in der rechten oberen Ecke des Programms die Option ”Local” aktiviert sein. 6.2.2 Englisch- Wörterbuch Nehmen wir an, dass Sie das Englische Nomen ’finch’ (Fink) integrieren möchten, was dem Spanischen ’pinzón’ entspricht. Öffnen Sie als erstes die Datei ’apertium-en-es.en.metadix’ in ihrem Texteditor. Wie Sie sehen, besteht das Englisch-Wörterbuch aus zwei Arten von Einträgen: Worteinträge, welche unter dem Abschnitt <section id="main" type="standard"> aufgelistet sind, und Paradigmen, welche sich im Bereich <pardefs> der Datei befinden. Die Abb. 12 zeigt als Beispiel die Wort-Einträge für ’Adriana’ und ’apple’ auf der linken Seite. Diese Einträge sind umklammert von einem <e>- Element und bestehen aus dem Lemma (lm="..."19 ), dem Prefix (<i>... </i>) und einer Zuweisung zu einem bestimmten Paradigma <par>. Paradigmen enthalten alle nötigen Informationen zur Flexion. Sie sehen auf der rechten Seite das ’Adriana’ zugewiesene Paradigma ’Mary np’ und das Paradigma ’house np’, welches dem Wort ’apple’ zugewiesen wurde. Dies bedeutet, dass ’apple’ auf dieselbe Weise flektiert wird wie das Wort ’house’ und dass es dieselbe morphologische Struktur aufweist. 19 das lm-Element ist optional und kommt nicht bei allen Sprachpaaren zur Anwendung Regel-basierte Maschinelle Übersetzung 17 Worteintrag zugewiesenes Paradigma <e lm="Adriana"> <i>Adriana</i> <par n="Mary__np"/> </e> <pardef n="Mary__np"> <e> <p> <l></l> <r><s n="np"/><s n="ant"/><s n="f"/><s n="sg"/></r> </p> </e> </pardef> <e lm="apple"> <i>apple</i> <par n="house__n"/> </e> <pardef n="house__n"> <e c="CP: nouns which add -s"> <p> <l></l> <r><s n="n"/><s n="sg"/></r> </p> </e> <e> <p> <l>s</l> <r><s n="n"/><s n="pl"/></r> </p> </e> <e r="LR"> <p> <l>s'</l> <r><s n="n"/><s n="pl"/><j/>'s<s n="gen"/></r> </p> </e> </pardef> Abbildung 12: Die Einträge für ’Adriana’ und ’apple’ und deren zugewiesenes Paradigma Um das Wort ’finch’ hinzuzufügen, müssen Sie einen Wort-Eintrag mit einem Verweis auf das passende Paradigma erstellen. ’Finch’ ist ein Nomen, welches die Endung -es benötigt, um den Plural zu bilden. Das passende Paradigma für ”finch” ist also ”access”. 20 Der korrekte neue Eintrag muss also lauten: <e lm="finch"><i>finch</i><par n="access n"/></e> Nur in seltenen Fällen können Sie nicht auf ein bereits bestehendes Paradigma zurückgreifen und müssen selbst ein neues Paradigma erstellen. 6.2.3 Spanisch- Wörterbuch Als nächstes muss ein solcher Eintrag auch in der Datei des Spanisch-Wörterbuchs angelegt werden. Dazu öffnen Sie die Datei ’apertium-en-es.es.dix’ und geben folgende Zeile in der <main-section> ein: <e lm="pinzón"><i>pinz</i><par n="aluvi/ón n"/></e> Das Paradigma für aluvión (Überschwemmung) ist das passende für ’pinzón’, da es dieselben Flexionsmerk20 Das Paradigma von ”access”sieht wie folgt aus: <pardef n="access n"> <e c="CP: nouns which add -es"><p><l></l><r><s n="n"/><s n="sg"/></r></p></e> <e><p><l>es</l><r><s n="n"/><s n="pl"/></r></p></e> <e r="LR"><p><l>es’</l><r><s n="n"/><s n="pl"/><j/>’s<s n="gen"/></r></p></e> Regel-basierte Maschinelle Übersetzung 18 male aufweist.21 6.2.4 bilinguales Englisch-Spanisch- Wörterbuch Zuletzt wird ein Eintrag im bilingualen Wörterbuch ’apertium-en-es.en-es.dix’ benötigt. Die bilingualen Lexika in Apertium bestehen in der Regel nur aus den Lemmata beider Sprachen und Paradigmen. Die Einträge sind aufgeteilt in einen linken (<l>) und rechten (<r>) Teil: Bei unserem Sprachpaar ist Englisch auf der linken und Spanisch auf der rechten Seite der Übersetzungsrichtung, was für das ganze System gilt. Tragen Sie folgenden Eintrag in der Hauptsektion <section id="main" type="standard"> ein: <e> <p> <l>finch<s n="n"/></l> <r>pinzón<s n="n"/><s n="m"/></r> </p> </e> 6.2.5 Überprüfung Wie bereits erwähnt, müssen Sie im Ordner der umgeänderten .dix-Dateien die Befehle make und sudo make install ausführen. Starten sie danach Apertium-viewer, um die lexikalische Erweiterung zu überprüfen. So sah die fehlerhafte Übersetzung vor der Erweiterung aus: Abbildung 13: Apertium-viewer: fehlgeschlagene Übersetzung vor der lexikalischen Erweiterung Wie Sie sehen, wurde das Wort ’Finches’ mit einem Asterix als unbekannt markiert. Geben Sie jetzt einen Satz mit ’Finch’ ein, wie es in Abb. 14 zu sehen ist. 21 Das Paradigma von ”aluvión” sieht folgendermassen aus: <pardef n="aluvi/ón n"> <e><p><l>ones</l><r>ón<s n="n"/><s n="m"/><s n="pl"/></r></p></e> <e><p><l>ón</l><r>ón<s n="n"/><s n="m"/><s n="sg"/></r></p></e> Regel-basierte Maschinelle Übersetzung 19 Abbildung 14: Apertium-viewer: Testsatz nach erfolgreicher lexikalischer Erweiterung Das Genus sowie der Plural von ’pinzón’ wurde korrekt gebildet. Somit haben Sie das Apertium-Sprachpaar Englisch-Spanisch erfolgreich um das Wort ”finch” bzw. ”pinzón” erweitert. Regel-basierte Maschinelle Übersetzung 20 Literatur Weblinks Apertium Wiki: Apertium Wiki. 5 2013 hURL: http://www.wiki.apertium.org/ wiki/Main_Pagei Link zur Online-Publikation Sprachtechnologie: Ein Überblick von K.-U. Carstensen: http://www.kai-uwe-carstensen.de/ Publikationen/Sprachtechnologie.pdf Carstensen, Kai-Uwe: Sprachtechnologie: Ein Überblick. 2012 Carstensen, Kai-Uwe et al. (Hrsg.): Computerlinguistik und Sprachtechnologie. Eine Einführung. Spektrum Akademischer Verlag, 2010 Clark, Alexander/Fox, Chris/Lappin, Shalom (Hrsg.): The Handbook of Computational Linguistics and Natural Language Processing. Blackwell Publishing, 2010, Blackwell Handbooks in Linguistics Forcada, Mikel L. et al.: Apertium: A Free/Open-Source Platform for RuleBased Machine Translation. Machine Translation, 2011, Nr. 25, 127–144 Forcada, Mikel L. et al.; Ginestı́ Rosell, Mireia (Hrsg.): Documentation of the OpenSource Shallow-Transfer Machine Translation Platform Apertium. Group Transducens, Universitat d’Alacant, 2010 Jurafsky, Daniel/Martin, James H.: Speech and Language Processing: An Introduction to Natural Language Processing, Computational Linguistics, and Speech Recognition. 2. Auflage. Pearson, 2009, Prentice Hall Series in Artificial Intelligence Mitkov, Ruslan (Hrsg.): The Oxford Handbook of Computational Linguistics. Oxford University Press, 2003 Quah, C. K.: Translation and Technology. Palgrave Macmillan, 2006 Universidad de Alicante: Apertium: An Open-Source Machine Translation Engine and Toolbox. hURL: http://www.apertium.org/?id= whatisapertiumi Link zur Online-Version des Handbook of Computational Linguistics and Natural Language Processing (nur mit UZH-VPN): http://www.blackwellreference.com/ subscriber/book.html?id=g9781405155816_ 9781405155816 Apertium Die offizielle Homepage: http://www.apertium.org Die aktuelle Apertium-Toolbox können Sie hier downloaden: http://sourceforge.net/projects/ apertium/ Die umfangreiche Dokumentation zu Apertium finden Sie hier: http://xixona.dlsi.ua.es/˜fran/ apertium2-documentation.pdf offizielles Apertium-Wiki, mit hilfreichen Unterlagen und Anleitungen etc.: http://wiki.apertium.org/wiki/Main_ Page