Phrasenerkennung nach Petra Maier-Meyer

Transcription

Centrum für Informations- und Sprachverarbeitung (CIS) •
Michaela Geierhos
PHRASENERKENNUNG IM
ENGLISCHEN
mit kaskadierten lokalen
Grammatiken, linguistischen
Filtern und diversen statistischen
Methoden
24. Januar 2007
Begriff der „Phrase“
Was versteht man unter einer „Phrase“?
Die Phrase (griechisch φράση, phrássi - der Satz, Ausdruck, die
Wendung) bezeichnet in der Linguistik gemeinhin Satzteile, die nur
geschlossen im Satz verschoben werden können.
Während der Begriff Satzglied auf der syntaktischen Ebene
angesiedelt ist, sagt der Begriff Phrase etwas über die kategoriale
Füllung dieser Satzglieder. So werden im Allgemeinen Nominalphrase
(NP), Verbalphrase (VP), Präpositionalphrase (PP), Adjektivphrase
(AP) und Adverbialphrase (AdvP) voneinander unterschieden.
Ohne den Begriff der Phrase wären viele computerlinguistische
Modelle nicht vorstellbar. So sind sie grundlegender Baustein von
Grammatiken, insbesondere von Phrasenstrukturgrammatiken.
Michaela Geierhos, 24.01.2007
#2
Beispiele für englische Phrasen
Realisierungen englischer Phrasen
• absence of mind = Zerstreutheit
• auto liability insurance = Kfz-Haftpflichtversicherung
• axis of ordinates = y-Achse
• free practice of religion = freie Religionsausübung
• against doctor‘s orders = entgegen ärztl. Anweisung
• of unknown paternity = Vater unbekannt
• Uncle Sam = Vater Staat
• to live the life of Riley = Leben wie Gott in Frankreich
Quelle: http://www.phrasen.com/
#3
Phrasenerkennung als vermeintliche Blackbox
#4
Mögliche Vorgehensweise bei der Phrasenerkennung
(Teil I)
• Normalisierung des Eingabetextes (Korpus)
• Großschreibung wird auf Kleinschreibung abgebildet
• Part-of-Speech-Tagging (POS-Tagger = CISTAGGER)
• Mustererkennung und -extraktion
=> Liste von Phrasen-Kandidaten bestehend aus Vektoren der Form
<Phrase, Grundform, POS-Sequenz>
• Anwendung linguistischer Filter
• Korrektur von möglichen Tagging-Fehlern
• Bereinigung von „unsauberem“ Input
• Stoppphrasen (Stoppwörter auf Phrasenebene)
• Disambiguierung von Wortarten
• Will <=> will, Eigenname/Vorname/Nomen vs. Hilfsverb
#5
Part-of-Speech Tagging
(Beispiel eines POS-Tagger Outputs)
<tok><sur> </sur><lem cat="bos" mor=""></lem></tok>
<tok><sur>36</sur><lem cat="adj" mor=":4">36</lem></tok>
<tok><sur>Strategies</sur><lem cat="n" mor=":m">strategy</lem></tok>
<tok><sur>of</sur><lem cat="prep" mor="">of</lem></tok>
<tok><sur>Ancient</sur><lem cat="adj" mor=":b">ancient</lem></tok>
<tok><sur>China</sur><lem cat="n" mor=":e">china</lem></tok>
<tok><sur>:</sur><lem cat="pun" mor="">:</lem></tok>
<tok><sur>.</sur><lem cat="eos" mor=""></lem></tok>
#6
Part-of-Speech Tagging
(Struktur der Tagging-Information)
<tok><sur> </sur><lem cat="bos" mor=""></lem></tok>
TOKEN
SURFACE FORM
BEGIN OF SPEECH
LEMMA FORM
<tok><sur>China</sur><lem cat="n" mor=":e">china</lem></tok>
LEXIKALISCHE KATEGORIE
MORPHOLOGISCHES MERKMAL
#7
Mustererkennung und -extraktion
innerhalb von Kontexten
• mögliche Kontexte sind
• Interpunktion
• Konjunktionen
• Artikel, weitere Determinatoren
• Verben
• etc.
• mögliche kontextuelle Phrasenmuster sind
• cnj n n pun
• det n prep n pun
• det adj n v
• etc.
#8
Vektoren von möglichen Phrasenkandidaten
<The Art of War focus on, the art of war focus on, det n prep n n prep>
<on military organization, on military organization, prep adj n pun>
<and battlefield tactics, and battlefield tactics, cnj n n pun>
<the Thirty-Six Strategies are, the thirty-six strategy be, det adj n v>
<the fields of politics, the field of politics, det n prep n pun>
<not only battlefield strategies , not only battlefield strategy , adv adj n n pun>
#9
Linguistische Filter: Was soll nicht als Nomen erkannt werden?
according
a
day's
days
day
eight
five
four
friday
half
on
i
minute'
s
minutes
minute
monday
month's
months
month
nine
of
one
percent
quarter
saturday
second's
seconds
second
seven
six
sunday
ten
three
thursday
time
to
tuesday
two
wednesday
week's
weeks
week
year's
years
# 10
Linguistische Filter: Was sind nicht-aussagekräftige Adjektive?
able
actual
alone
appropriate
available
a
best
better
billion
certain
common
concerned
current
different
dozenth
dozen
earlier
early
eight-hundred
possible
present
previous
recent
real
second
only
specific
special
sure
two-and-a-half
two-hundred
two-thousand
twohundred
twothousand
useful
usual
various
very
whole
working
zero
# 11
Linguistische Filter: Was sind zu allgemeine Phrasen?
first round
first time
further details
large numbers
large portion
last night
last time
least in principle
little bit
long term
million people
million pounds
most part
new year
next door
number of people
original page
other hand
other side
other things
percentage
points
period of time
point of view
second half
second place
second time
short term
small group
table of contents
table of content
take place
the following
time to time
to order
# 12
Welche Muster kommen für Nominalphrasen (NPs) in Frage?
adj adj n.NP
adj adj en.NP
adj n n.NP
adj en n.NP
adj n en.NP
adj en en.NP
adj n prep n.NP
adje n prep n.NP
adj n prep en.NP
adj en prep en.NP
adj n.NP
adj en.NP
n n.NP
en n.NP
n en.NP
en en.NP
n n n.NP
en n n.NP
n en n.NP
n n en.NP
en en n.NP
en n en.NP
n en en.NP
en en en.NP
n prep adj n.NP
en prep adj n.NP
n prep adj en.NP
en prep adj en.NP
n prep n.NP
en prep n.NP
n prep en.NP
en prep en.NP
n prep n n.NP
en prep n n.NP
n prep en n.NP
n prep ne n.NP
en prep en n.NP
n prep en en.NP
en prep en en.NP
en prep n en.NP
# 13
Mögliche Vorgehensweise bei der Phrasenerkennung (Teil II)
• Statistische Verfahren zur Ermittlung der besten Phrasen
• Frequenzberechnung der Zitatform einer Phrase
=> <Phrase (Zitatform), Grundform, Frequenz>
• Bestimmung der kanonischen Form einer Phrase und
deren Frequenz
=> <Phrase (Kanonische Form), Grundform, Frequenz>
• Sortieren nach Frequenz (optional)
• Filtern nach Frequenz
# 14
Einige erkannte Phrasen im Beispieltext ¹
Art of War focus
Balance Hide
Beams With Rotten Timbers
Borrowed Sword
Burning House
Chinese history
Confucian notion of honor
Corpse to Raise
Dead Tree
Distant Enemy
Door to Catch
Emperor to Cross
Exhausted Enemy
Locust Tree
Master Tan
Mountain Link
Opportunity To Lead
Opposite Shore Delay
Plum Tree
Role of Guest
Secret Art of War
Smile Charm
Strategy of Beautiful
Women
Strategy of Sowing Discord
Sun Tzu
Tactic of Combining Tactics
Thirty-Six Strategies
¹http://www.cis.unimuenchen.de/~micha/kurse/korpuslinguistikWS0607/phrasen/phrasenerkennung_bsptext.txt
# 15
Fehler bei der Phrasenerkennung: Welche Fehlertypen gibt es?
• Unvollständige Erkennung des linken Kontextes
• „and“-koordinierte Adjektivphrase oder Nominalphrase
• { most cunning and [subtle strategies] }
• { time and [place for battle] }
• Unvollständige Erkennung des rechten Kontextes
• Komma-separierte Aufzählung
{ [fields of politics], diplomacy, and espionage }
• Irrelevantes Adjektiv als Teil einer guten Phrase
• [only { battlefield strategies] }
# 16
Fehler bei der Phrasenerkennung: Welche Fehlertypen gibt es?
• Vollständige unerkannte Phrasen im Text
• { Chinese military texts }
• { Chinese military works of strategy }
• Zu weite Erkennung im rechten Kontext
• „in“ muss bei der lexikalischen Filterung als Nomen verboten werden
{ [short-term objectives } in order]
Weitere Fehlertypen lassen sich mit dem Beispieltext der Demo unter
http://parker.cis.uni-muenchen.de/demos/coveragePhrase.html ermitteln.
# 17
Naive Phrasenerkennung
mit Lokalen Grammatiken
Können Lokale Grammatiken allein die Qualität der
beschriebenen Phrasenerkennung nachempfinden?
• Die eben vorgestellten lexikalischen Muster lassen sich mühelos in
Lokale Grammatiken umwandeln, welche vom System Unitex
interpretiert werden können.
• Werden dieselben Phrasen wie zuvor erkannt?
• Die entsprechende Konkordanz gibt darüber Aufschluss
http://www.cis.uni-muenchen.de/~micha/kurse/korpuslinguistikWS0607/phrasen/naive_knk.html
# 18
Können Lokale Grammatiken allein die Qualität der
beschriebenen Phrasenerkennung nachempfinden?
# 19
Denkfehler und Verbesserungen dieses naiven Ansatzes: Gleiche
syntaktische Muster würden ähnliche Ergebnisse erzielen
• Ressourcenungleichheit auf Wörterbuchebene:
=> Unitex-System-Lexika vs. CISLEX-EN
• Lexika
zur
Filterung
von
unerwünschten
Ambiguitäten
auf
lexikalischer Ebene fehlen noch diesem Ansatz
• Linguistische Filter in Form von Negativkontexten, Antigrammatiken
oder Filterlexika müssen implementiert werden
• Verwendung von Phrasenlexika zur Verbesserung der Präzision
• Heuristiken als Ausschlussverfahren für zu allgemeine Kontexte oder
für nicht-aussagekräftige Phrasen.
# 20
Phrasenerkennung mit Lokalen
Grammatiken:
Step-by-Step zum Erfolg
Verbesserungen: Umfassende Erweiterung der
lexikalischen Datenbasis mit Fokus auf Mehrwortterme
• Eigennamen
• Personennamen, Vornamen, Nachnamen
• Organisationsnamen/Firmennamen
• typische adjektivische Kontexte von Firmen
• Ortsangaben/Lokativa/Geographische Entitäten
• geographische Adjektive und Nomina
• geographische Zugehörigkeiten (Nationaltiät, etc.)
• Berufsbezeichnungen (z.B. baby doctor)
• Menschenbezeichner (z.B. mother-in-law)
• Redewendungen (Idiome)
• Phrasenlexikon (http://www.phrases.com)
# 21
Grammatiken:
Verbesserungen: Linguistische Filterlexika und -grammatiken
• Ausschluss nominaler Lesarten von lexikalisch ambigen Wörtern, wie z.B.
„a“, „as“, „in“, etc.
• Ausschluss irrelevanter phraseneinleitender Adjektive
• Zahlen
• unbestimmte Zahlwörter, wie „several“, „many“, etc.
• Ausschluss unbedeutender Adverben
• another, other, only, etc.
• Grammatiken für Phrasengrenzen
• Was leitet eine Phrase ein?
• Wie sieht der rechte Kontext einer Phrase aus, der sicher eine
Nominalphrase begrenzt?
• Satzende
• Verbalphrase
• Interpunktion (außer Komma)
• Antigrammatiken zur Abdeckung ungewollt erkannter Phrasen
# 22
Grammatiken:
Verbesserungen: Lemmatisierung komplexer englischer Zeitformen
• Systematische Ergänzungen und Erweiterungen des Graphenpakets zur
Lemmatisierung komplexer Zeitformen von Maurice Gross
• fehlende Graphen erstellen
• Passivgraphen schematisieren
• Futurgraphen erweitern
• etc.
• Tagging des zu untersuchenden Korpus mit den Lemmatisierungsgraphen
• Interpretation der komplexen Verbalphrasen als Einheit (Token)
• Verbalphrasen als Indikatoren für Grenzen von Nominalphrasen
• Grammatiken für die Lemmatisierung einfacher englischer Zeitformen
und Annotation dieser im Korpus
• leichtere Disambiguierung, z.B. „to make up“ (Verb) vs. „make
up“/„make-up“ (Nomen)
• Markierung von Verbalphrasen als möglicher begrenzender Kontext
für die gesuchten Nominalphrasen
# 23
Grammatiken:
Verbesserungen: Kaskadierung von Lokalen Grammatiken
• mit Lemmatisierungsgraphen getaggter Korpus wird zum Eingabetext für
die Anwendung von Lokalen Grammatiken, welche
• Personennamen
• Organisationsnamen
• Ortsnamen
• Datumsangaben, etc.
erkennen und annotieren.
• Die eben genannten Einheiten können wiederum Bestandteil von
komplexeren Nominalphrasen sein.
• Die jeweilige semantische Information dieser Phrasen lässt sich in
weiteren Graphen zur Abgrenzung von Phrasen oder zur Erweiterung
dieser nutzen.
• Datumsangaben sind beispielsweise mögliche Grenzen
• Namen sind selbst komplex und meist Teil komplexerer
Nominalphrasen, so dass sie sich als Einheit (XN+PR) taggen lassen.
# 24
Grammatiken:
Verbesserungen: Named-Entity-Recognition (NER) mit
Lokalen Grammatiken (z.B. Personennamen)
.
# 25
Grammatiken:
Verbesserungen: Analyse und Beschreibung von
phrasenspezifischen Elementen (z.B. geographische Adjektive)
.
# 26
Grammatiken:
Vorteile von kaskadierten Transduktoren
• .Erkennung von eigentlichen Verbalphrasen als potentielle
Nominalphrasen wird vermieden (leichtere Disambiguierung)
• Getaggte Verbalphrasen dienen als Grenzmarkierung von
Nominalphrasen
• Annotierte „Namensphrasen“ können schematisiert als Teil neuer
Phrasenmuster fungieren
Vorteile detaillierter Beschreibung phraseninterner Kontexte
• Kombination von semantischer und syntaktischer Information
grenzt potentielle Phrasen genauer ein
• gezielter Einsatz lexikalischer Ressourcen in engen Kontexten
# 27
Grammatiken:
BITE (Bilingual Term Extraction)
Phrasenerkennung als Komponente in BITE
•. Konkordanz auf dem Beispieltext mit den BITE-Graphen
http://www.cis.uni-muenchen.de/~micha/kurse/korpuslinguistikWS0607/phrasen/phrasen_bite.html
• Was ist auch an dieser Konkordanz offensichtlich?
• Es fehlen linguistische Filter.
• Es werden detaillierte und umfassendere Lexika benötigt.
• Vorverarbeitung (z.B. Bestimmung von Verbalphrasen) kann
helfen die Nominalphrasengrenzen auszuloten.
• Gewisse statistische Nachbearbeitungsmethoden sind
wichtig, um irrelevante Phrasenadjektive auszuschließen.
# 28

Phrasenerkennung nach Petra Maier-Meyer

Transcription

Documents pareils

Das Rap Huhn

V.i.S.d.P.-Sammelseiten Jugendsprache 2006

Missbrauch, Bilder davon

PDF hier klicken - Michaela Schaffrath

Michaela Blume Vielleicht liegt es daran, dass die Gemeinde

Zur Leseprobe

Ferienhaus Nr.11643

Mag. Michaela Nill: Rechtsanwältin Linz

67 ans Lehrstuhl für Deutsche Sprache und Literatur des Mittelalters