Part of Speech Tagging – Linguistische Sicht
Transcription
Part of Speech Tagging – Linguistische Sicht
Part of Speech Tagging – Linguistische Sicht Carolin Deck Gliederung 1. Begriffsklärung 2. Vorstellung zwei wichtiger Tagsets (STTS & PTTS) 3. Bedeutung des POS-Tagging für die Sprachwissenschaft 4. Tagzuweisung 4.1 Problem der Mehrdeutigkeit 4.2 Die drei Verfahren des POS-Tagging 4.2.1 regelbasierte Tagger 4.2.2 stochastische Tagger 4.2.3 Brill-Tagger 5. Zusammenfassung und Fazit 6. Quellen 1. Begriffsklärung POS Tag = grammatikalische Markierung Definition: „Vorgang, bei dem jedem Wort in einem Satz ein so genanntes Part-of-Speech Tag zugeordnet wird“ Tagging = Zuweisen von Markierung zu einzelnen Einheiten Part of Speech Tagging → Bestimmung der Wortklasse von Wörtern z.B.: „Ich studiere an der Universität.“ → Ich/PPER studiere/VVFIN an/APPR der/ARTDEF Universität/NN. 2. Tagsets = „Menge von Markierern, die für verschiedene Satzteile während des Part of Speech Taggings benutzt werden“ Ausschnitt aus: STTS (Stuttgart-Tübingen-Tagset) → deutsche Sprache Tag Beschreibung Beispiel ART definiter und indefiniter Artikel der, die, das, ein, eine NN normales Nomen Frau, Haus, [das] Gehen ADJA Adjektiv, attributiv gebraucht [das] schnelle [Auto] VVFIN VVIMP finites Verb, voll Imperativ, voll [du] gehst, [wir] holen Komm [!], Buchen [Sie] PRELS substituierendes Relativpronomen [Der Hund, ] der PDS substituierendes Demonstrativpronomen Den [kenne ich.], dieser, jener 2. Tagsets = „Menge von Markierern, die für verschiedene Satzteile während des Part of Speech Taggings benutzt werden“ Ausschnitt aus: STTS (Stuttgart-Tübingen-Tagset) → deutsche Sprache Tag Beschreibung Beispiel ART definiter und indefiniter Artikel der, die, das, ein, eine NN normales Nomen Frau, Haus, [das] Gehen ADJA Adjektiv, attributiv gebraucht [das] schnelle [Auto] VVFIN VVIMP finites Verb, voll Imperativ, voll [du] gehst, [wir] holen Komm [!], Buchen [Sie] PRELS substituierendes Relativpronomen [Der Hund, ] der PDS substituierendes Demonstrativpronomen Den [kenne ich.], dieser, jener → Buchen/VVIMP Sie/PPER den/ARTDEF Flug/NN. Ausschnitt aus: PTTS (Penn Treebank Tagset) → englische Sprache Tag Beschreibung Beispiel DT determiner the, a NN Noun, singular or mass house, tree, air JJ adjective Nice, big, strong VB VBP VBZ Verb, base form Verb, non-3rd person singular present Verb, 3rd person singular present take, make, draw, go I go She goes CC coordinating conjunction and POS possessive ending [my] friend's IN Preposition or subordinating conjunction behind [the house], [the house I live] in PRP Personal pronoun we, she, I, her Ausschnitt aus: PTTS (Penn Treebank Tagset) → englische Sprache Tag Beschreibung Beispiel DT determiner the, a NN Noun, singular or mass house, tree, air JJ adjective Nice, big, strong VB VBP VBZ Verb, base form Verb, non-3rd person singular present Verb, 3rd person singular present take, make, draw, go I go She goes CC coordinating conjunction and POS possessive ending [my] friend's IN Preposition or subordinating conjunction behind [the house], [the house I live] in PRP Personal pronoun we, she, I, her → The/DET house/NN I/PRP live/VBP in/IN. 3. Bedeutung des POS-Tagging für die Sprachwissenschaft • Annotation von Korpora mit linguistischen Informationen • annotierte Texte als Datengrundlage - Informationsextraktion - Sprachsynthese - Computerlexikographie • automatische Übersetzung • Parsing • Grundlage für die Entwicklung und das Testen von computerlinguistischen Programmen • Zeitersparnis durch automatische Annotation 4. Tagzuweisung 4.1 Problem der Mehrdeutigkeit • Bsp.: „Buchen Sie den Flug“ Wort POS Tag Buchen VVIMP Buchen VVINF Buchen NN den ARTDEF den PRELS den PDS Flug NN Sie PPER 4.2 Die drei Verfahren des POS Tagging 4.2.1 Regelbasierte Tagger Grundlage: zu annotierender Text und Tagset Ablauf: 2-Phasen-Architektur Phase 1: Das Wörterbuch und die initiale Annotation Buchen VVIIMP, VVINF, NN Sie PPER den ARTDEF, PRELS, PDS Flug NN → Problem der Mehrdeutigkeit Schematische Darstellung des POS Taggings roher Text Vorverarbeitung tokenisierter Text Phase 1: regelbasierte Tagger Lexikon → Zuweisung aller möglichen Tags Problem I: nicht alle Wörter stehen im Lexikon Problem II : viele Wortformen sind mehrdeutig Phase 2: regelbasierte Tagger Disambiguierung → Auswahl der richtigen Markierung vollständig und eindeutig getaggter Text Phase 2: Disambiguierung: Anwendung von handgeschriebenen Regeln • „context frame rule“ (Kontextrahmenregel): z.B.: DET - X - N = X/ADJ Buchen den • z.B.: „Buchen Sie den Flug“ INPUT: \dem\ , \den\ if ((+1 NN) && (-1PPER)) then removeALL (NON ARTDEF-Tags) else remove (ARTDEF-Tag) INPUT: \Verb\ if ((-1 Satzgrenze) && (+1PPER)) then removeAll (NON VVIMP-Tags) else remove (VVIMP-Tag) VVIIMP, VVINF, NN ARTDEF, PRELS, PDS 4.2.2 Stochastische Tagger Grundlage: vorannotiertes Trainingskorpus automatische Zählung der Frequenz von Wörtern und Tags Wahrscheinlichkeitsberechnung Lexikalische Wahrscheinlichkeit = das wahrscheinlichste Tag für ein Token Kontextuelle Wahrscheinlichkeit = das wahrscheinlichste Tag für ein Token in einem bestimmten Kontext häufig auftretende Wortkombinationen z.B. Bigramm-Tagger: Benutzung des vorhergehenden Wort-Tags zur Bestimmung des aktuellen Tags 4.2.3 Brill Tagger Grundlage: Transformation Based Learning (regelbasierte und stochastische Anteile) Komponenten Ablauf a) Lexikon 1. Zuweisung eines Tags zu allen bekannten Wörtern (Lexikon) b) Bigramme c) Lexical Rules/ Contextual Rules 2. Zuweisung von Tags bei unbekannten Wörtern: mithilfe von Bigrammen & Kontextregeln d) Transformation Rules → Korrektur von Tagging-Fehlern 3. Anwendung der Transformation Rules zur Fehlerkorrektur Schematische Darstellung des Brill Taggers Zu annotierender Text Zuweisung des wahrscheinlichsten Tags mithilfe eines Lexikons (initialer Tagger) Vergleich des annotierten Textes mit dem Gold Standard Übereinstimmung: wahrscheinlichstes Tag war richtig Tag wird übernommen Abweichung: wahrscheinlichstes Tag war falsch Erzeugung von automatischen Regeln: Transformation Rules erneuter Vergleich mit dem Gold Standard besseres Resultat als zuvor? + Übernahme der Regel Verwurf der Regel unbekanntes Wort Regelanwendung: Bigramme & Contextual Rules, Lexical Rules 5. Zusammenfassung und Fazit Regelbasierte Tagger Stochastische Tagger Vorteile Nachteile + keine manuell annotierten Trainingskorpora nötig - hoher Aufwand durch Regelaufstellung + keine Regelaufstellung nötig - manuell annotierte Trainingskorpora nötig - sprachenspezifische Regelaufstellung - große Matrizen Brill-Tagger + kleinere Matrizen + für beliebige Sprachen einsetzbar + schnellere Arbeit + hohe Ergebnisqualität + manuell annotiertes Trainingskorpus nicht zwingend notwendig 6. Quellen • Bestehorn, Markus: Part of Speech Tagging. In: Karlsruher Transfer 31/2005, S. 10-17. • Lemnitzer, Lothar / Zinsmeister, Heike (2006): Korpuslinguistik: Eine Einführung. Tübingen: Narr Francke Attempto Verlag. URL: http://books.google.de/books? id=Lxe2aO9dwoAC&pg=PA73&lpg=PA73&dq=stochastische+tagger&source=bl&ots=ChEPn 1Wxjq&sig=FzFNCc73n6YOTWnWlFwzFhou5vk&hl=de&sa=X&ei=7d-CVJyrMcurU_uhNgP&ved=0CCEQ6AEwAA#v=onepage&q&f=false [6.12.14] • Portal Computerlinguistik. URL: http://www.computerlinguistik.org/portal/portal.html? s=Tagging [6.12.14]