Part of Speech Tagging – Linguistische Sicht

Transcription

Part of Speech Tagging – Linguistische Sicht
Part of Speech Tagging –
Linguistische Sicht
Carolin Deck
Gliederung
1.
Begriffsklärung
2.
Vorstellung zwei wichtiger Tagsets (STTS & PTTS)
3.
Bedeutung des POS-Tagging für die Sprachwissenschaft
4.
Tagzuweisung
4.1 Problem der Mehrdeutigkeit
4.2 Die drei Verfahren des POS-Tagging
4.2.1 regelbasierte Tagger
4.2.2 stochastische Tagger
4.2.3 Brill-Tagger
5. Zusammenfassung und Fazit
6. Quellen
1. Begriffsklärung
POS Tag
=
grammatikalische
Markierung
Definition:
„Vorgang, bei dem jedem Wort
in einem Satz ein so
genanntes
Part-of-Speech Tag
zugeordnet wird“
Tagging
= Zuweisen von
Markierung zu
einzelnen Einheiten
Part of Speech
Tagging
→ Bestimmung der Wortklasse von Wörtern
z.B.: „Ich studiere an der Universität.“
→ Ich/PPER studiere/VVFIN an/APPR der/ARTDEF Universität/NN.
2. Tagsets
= „Menge von Markierern, die für verschiedene Satzteile während des Part of
Speech Taggings benutzt werden“
Ausschnitt aus: STTS (Stuttgart-Tübingen-Tagset) → deutsche Sprache
Tag
Beschreibung
Beispiel
ART
definiter und
indefiniter Artikel
der, die, das,
ein, eine
NN
normales Nomen
Frau, Haus, [das] Gehen
ADJA
Adjektiv, attributiv gebraucht
[das] schnelle [Auto]
VVFIN
VVIMP
finites Verb, voll
Imperativ, voll
[du] gehst, [wir] holen
Komm [!], Buchen [Sie]
PRELS
substituierendes Relativpronomen
[Der Hund, ] der
PDS
substituierendes
Demonstrativpronomen
Den [kenne ich.], dieser, jener
2. Tagsets
= „Menge von Markierern, die für verschiedene Satzteile während des Part of
Speech Taggings benutzt werden“
Ausschnitt aus: STTS (Stuttgart-Tübingen-Tagset) → deutsche Sprache
Tag
Beschreibung
Beispiel
ART
definiter und
indefiniter Artikel
der, die, das,
ein, eine
NN
normales Nomen
Frau, Haus, [das] Gehen
ADJA
Adjektiv, attributiv gebraucht
[das] schnelle [Auto]
VVFIN
VVIMP
finites Verb, voll
Imperativ, voll
[du] gehst, [wir] holen
Komm [!], Buchen [Sie]
PRELS
substituierendes Relativpronomen
[Der Hund, ] der
PDS
substituierendes
Demonstrativpronomen
Den [kenne ich.], dieser, jener
→ Buchen/VVIMP Sie/PPER den/ARTDEF Flug/NN.
Ausschnitt aus: PTTS (Penn Treebank Tagset) → englische Sprache
Tag
Beschreibung
Beispiel
DT
determiner
the, a
NN
Noun, singular or mass
house, tree, air
JJ
adjective
Nice, big, strong
VB
VBP
VBZ
Verb, base form
Verb, non-3rd person singular present
Verb, 3rd person singular present
take, make, draw, go
I go
She goes
CC
coordinating conjunction
and
POS
possessive ending
[my] friend's
IN
Preposition or subordinating
conjunction
behind [the house], [the house I
live] in
PRP
Personal pronoun
we, she, I, her
Ausschnitt aus: PTTS (Penn Treebank Tagset) → englische Sprache
Tag
Beschreibung
Beispiel
DT
determiner
the, a
NN
Noun, singular or mass
house, tree, air
JJ
adjective
Nice, big, strong
VB
VBP
VBZ
Verb, base form
Verb, non-3rd person singular present
Verb, 3rd person singular present
take, make, draw, go
I go
She goes
CC
coordinating conjunction
and
POS
possessive ending
[my] friend's
IN
Preposition or subordinating
conjunction
behind [the house], [the house I
live] in
PRP
Personal pronoun
we, she, I, her
→ The/DET house/NN I/PRP live/VBP in/IN.
3. Bedeutung des POS-Tagging für die
Sprachwissenschaft
•
Annotation von Korpora mit linguistischen Informationen
•
annotierte Texte als Datengrundlage
- Informationsextraktion
- Sprachsynthese
- Computerlexikographie
•
automatische Übersetzung
•
Parsing
•
Grundlage für die Entwicklung und das Testen von computerlinguistischen
Programmen
•
Zeitersparnis durch automatische Annotation
4. Tagzuweisung
4.1 Problem der Mehrdeutigkeit
•
Bsp.: „Buchen Sie den Flug“
Wort
POS Tag
Buchen
VVIMP
Buchen
VVINF
Buchen
NN
den
ARTDEF
den
PRELS
den
PDS
Flug
NN
Sie
PPER
4.2 Die drei Verfahren des POS Tagging
4.2.1 Regelbasierte Tagger
Grundlage: zu annotierender Text und Tagset
Ablauf: 2-Phasen-Architektur
Phase 1: Das Wörterbuch und die initiale Annotation
Buchen
VVIIMP, VVINF, NN
Sie
PPER
den
ARTDEF, PRELS, PDS
Flug
NN
→ Problem der Mehrdeutigkeit
Schematische Darstellung des POS Taggings
roher Text
Vorverarbeitung
tokenisierter Text
Phase 1:
regelbasierte Tagger
Lexikon → Zuweisung aller möglichen Tags
Problem I: nicht alle Wörter stehen im Lexikon
Problem II : viele Wortformen sind mehrdeutig
Phase 2:
regelbasierte Tagger
Disambiguierung → Auswahl der richtigen Markierung
vollständig und eindeutig getaggter Text
Phase 2: Disambiguierung: Anwendung von handgeschriebenen Regeln
•
„context frame rule“ (Kontextrahmenregel):
z.B.: DET - X - N = X/ADJ
Buchen
den
•
z.B.: „Buchen Sie den Flug“
INPUT: \dem\ , \den\
if ((+1 NN) && (-1PPER)) then removeALL (NON ARTDEF-Tags)
else remove (ARTDEF-Tag)
INPUT: \Verb\
if ((-1 Satzgrenze) && (+1PPER)) then removeAll (NON VVIMP-Tags)
else remove (VVIMP-Tag)
VVIIMP, VVINF, NN
ARTDEF, PRELS,
PDS
4.2.2 Stochastische Tagger
Grundlage: vorannotiertes Trainingskorpus
automatische Zählung der Frequenz von Wörtern und Tags
Wahrscheinlichkeitsberechnung
Lexikalische
Wahrscheinlichkeit
= das wahrscheinlichste Tag
für ein Token
Kontextuelle
Wahrscheinlichkeit
= das wahrscheinlichste Tag für ein Token in einem
bestimmten Kontext
häufig auftretende Wortkombinationen
z.B. Bigramm-Tagger: Benutzung des
vorhergehenden Wort-Tags zur Bestimmung des
aktuellen Tags
4.2.3 Brill Tagger
Grundlage: Transformation Based Learning (regelbasierte und stochastische Anteile)
Komponenten
Ablauf
a) Lexikon
1. Zuweisung eines Tags zu allen
bekannten Wörtern (Lexikon)
b) Bigramme
c) Lexical Rules/ Contextual Rules
2. Zuweisung von Tags bei
unbekannten Wörtern:
mithilfe von Bigrammen & Kontextregeln
d) Transformation Rules
→ Korrektur von Tagging-Fehlern
3. Anwendung der Transformation
Rules zur Fehlerkorrektur
Schematische Darstellung des Brill Taggers
Zu annotierender Text
Zuweisung des wahrscheinlichsten Tags
mithilfe eines Lexikons (initialer Tagger)
Vergleich des annotierten Textes mit dem Gold Standard
Übereinstimmung:
wahrscheinlichstes Tag
war richtig
Tag wird
übernommen
Abweichung:
wahrscheinlichstes Tag
war falsch
Erzeugung von automatischen
Regeln: Transformation Rules
erneuter Vergleich mit dem Gold Standard
besseres Resultat als zuvor?
+
Übernahme der
Regel
Verwurf der Regel
unbekanntes Wort
Regelanwendung:
Bigramme &
Contextual Rules,
Lexical Rules
5. Zusammenfassung und Fazit
Regelbasierte Tagger
Stochastische Tagger
Vorteile
Nachteile
+ keine manuell
annotierten
Trainingskorpora nötig
- hoher Aufwand durch
Regelaufstellung
+ keine Regelaufstellung
nötig
- manuell annotierte
Trainingskorpora nötig
- sprachenspezifische
Regelaufstellung
- große Matrizen
Brill-Tagger
+ kleinere Matrizen
+ für beliebige Sprachen
einsetzbar
+ schnellere Arbeit
+ hohe Ergebnisqualität
+ manuell annotiertes
Trainingskorpus nicht
zwingend notwendig
6. Quellen
•
Bestehorn, Markus: Part of Speech Tagging. In: Karlsruher Transfer 31/2005, S. 10-17.
•
Lemnitzer, Lothar / Zinsmeister, Heike (2006): Korpuslinguistik: Eine Einführung. Tübingen:
Narr Francke Attempto Verlag.
URL: http://books.google.de/books?
id=Lxe2aO9dwoAC&pg=PA73&lpg=PA73&dq=stochastische+tagger&source=bl&ots=ChEPn
1Wxjq&sig=FzFNCc73n6YOTWnWlFwzFhou5vk&hl=de&sa=X&ei=7d-CVJyrMcurU_uhNgP&ved=0CCEQ6AEwAA#v=onepage&q&f=false [6.12.14]
•
Portal Computerlinguistik. URL: http://www.computerlinguistik.org/portal/portal.html?
s=Tagging [6.12.14]