Detecting and Encoding Interpersonal Relations with Unitex/Local

Transcription

Detecting and Encoding Interpersonal Relations with Unitex/Local
Detecting and Encoding Interpersonal
Relations with Unitex/Local Grammars
Sophia Stotz*‡, Valentina Stuss*‡, Matthias Reinert‡
*University of Paderborn
‡
Historical Commission at the
Bavarian Academy of Sciences and Humanities, München
Corpora
●
www.deutsche-biographie.de
●
texts:
–
„New German Biography“ (NDB, since 1953, 25 vols published, A-Tecklenborg, 24 online;
~ 21.000 biographies)
●
●
–
„Universal German Biography“ (ADB, 1875-1912, 56 vols; ~ 27.000 biographies;
●
●
●
●
modern German (before „Rechtschreibreform“ 1996)
many abbreviations of frequent words (adjectives, nouns)
19th century german,
several words in outdated orthography,
few abbreviations
auxiliary database
–
manually compiled „Index of Persons“ (mentioned in ADB and NDB; ~ 92.000 individuals,
several hundred families)
–
manually assembled Name-Database (150.000 digitized record cards: names, occupation,
born, death)
–
since 2001 all entries had been aligned with the authority file Gemeinsame
Normdatei/GND, „each person has got his own ID“ (exceptions)
Project „Historical Biographical
Information System“
●
●
●
●
funded by DFG
2 yrs, 7 partners (providing selected online content),
limited research posts (2x ¼)
three pillars
–
alignment of biographical information to authority file
(GND)
–
content enhancement – interpersonal relationships
–
better search – adding context to search results
advice and help from:
–
CIS Munich (Jun.Prof. M. Geierhos & Prof. Guenthner)
–
AKSW Leipzig (Th. Riechert, M. Brümmer)
Extraction de relations
Relations entre personnes, relations personnelieu, personne-institution...
Types de relations entre personnes:
1) sous- ou subordonnées: Professeur/élève de,
influence sur/de qn
2) du même niveau: amis, ennemis, collègues
Exemple: relation „étudier“
Corpus: Neue Deutsche Biographie
Entités:
●Discipline: Physik, Kulturwissenschaften, etc.
●Professeur: z.B. „bei X“ (→ Reconnaissance de noms
propres)
●Lieu: Lieu géographique (ex.: „Paris“)
●Temps: „1813“, durées: „4 Semester“, „ab Juli 1976“
●Institution: Universität Wien, Akademie der bildenden
Künste
- phrases négatives (z.B. éviter reconnaissance de „Personne
X n'étudiait pas“)
Zeitraum
Temps
Von Juli 1913 bis
Ostern 1916
(De juillet 1913
à Pâques 1916)
Für 3 ½ Jahre
(Pendant 3 ans
et demi)
Utilisation de dictionnaires
Dictionnaires de prénoms et de surnoms,
dictionnaires d'organisations (source: Gemeinsame
Normdatei)
●Constitution de dictionnaires à partir du corpus,
exemple: dictionnaire des disciplines
●
Prise en compte des balisages déjà
existants
Quelques catégories ont déjà été balisées précédemment dans le
corpus en format XML.
Exemple toponymes:
●
●
Avec balisage: <placeName type="study" key="nom:609246
osm:240058050" n="1385">Heidelberg</placeName>
Sans balisage: Großenhain, Grimma
→ Les balisages déjà existants ont été pris en compte, les entités
reconnues pour la première fois ont été balisées
Studieren + Entität
Éléments trouvés I
<ZEIT>1867-69</ZEIT> und <ZEIT>1871-72</ZEIT> studierte er in
<ORT><placeName type="study" key="nom:532485 osm:162012321"
n="1810">Berlin</placeName></ORT>, <choice><abbr type="allg">u.
a.</abbr><expan>unter anderem</expan></choice> bei <BEI><persName>E.
E. Kummer</persName></BEI>, <BEI><persName>K.
Weierstraß</persName></BEI> und <BEI><persName>H.
Helmholtz</persName></BEI>
Temps:
1867-69, 1871-72
Lieu:
Berlin
Professeurs:
E. E. Kummer, K. Weierstraß, H. Helmholtz
Éléments trouvés II
<SCHULE>Nach der Reifeprüfung am Gymnasium in
<ORTSCHULE>Montabaur</ORTSCHULE></SCHULE> studierte
<choice><abbr type="lemma">K.</abbr><expan>Kern</expan></choice>
<ZEIT>seit 1899</ZEIT> <FACH>Kunstgeschichte</FACH> in
<ORT><placeName key="nom:598103 osm:240032857"
n="1826">München</placeName></ORT>, <ORT><placeName
key="nom:626076 osm:240111242" n="1409">Leipzig</placeName></ORT>
und <ORT><placeName key="nom:532485 osm:162012321"
n="1810">Berlin</placeName></ORT>
Temps:
seit 1899
Discipline: Kunstgeschichte
Lieu:
München, Leipzig, Berlin
Éléments trouvés III
studierte <FACH>Kunstgeschichte</FACH>, <FACH>Klassische
Archäologie</FACH> und <FACH>Philosophie</FACH> in
<ORT><placeName type="study" key="nom:598103 osm:240032857"
n="1826">München</placeName></ORT> und <ORT><placeName
type="study" key="nom:181367 osm:31190157"
n="1693">Halle</placeName></ORT> (<PROM>Promotion
<PROMZEIT>1909</PROMZEIT></PROM>)
Disciplines:
Lieux:
Doctorat:
Kunstgeschichte, Klassische Archäologie,
Philosophie
München, Halle
1909
Erreurs
In <ORT>Valkenburg</ORT> studierte er <ZEIT>1902-05</ZEIT>
<FACH>Philosophie</FACH> und <ZEIT>1909-13</ZEIT>
<FACH>Theologie</FACH>
Lieu:
Valkenburg
Temps:
1902-05, 1909-13
Discipline:
Philosophie, Theologie
---> pas de correspondance: 1902-05 Philosophie, 1909-13
Theologie
Erreurs
1) passages non reconnus:
<ZEIT>seit 1433</ZEIT> studierte und lehrte er an der Wiener
Universität (depuis 1433, il étudiait et enseignait à l'Université de
Vienne)
2) dictionnaires incomplets
3) „wollte ursprünglich Medizin studieren“ (voulait d'abord
étudier médecine)
Évaluation du graphe <étudier>
●
Constitution du corpus: Extrait de la NDB, 322
phrases contenant le verbe <étudier>
●
Précision: 97,4%
●
Rappel: 70,5%
Relations <étudier> reconnues par les graphes dans
le corpus entier de la NDB: ~ 6000
Interpersonal Relations in RDF
●
ontology – schemata
●
linking open data
●
visualisation
Metadata to RDF
(together with AKSW Leipzig)
●
●
●
●
prototype exhibiting metadata and first genealogical
relations, no database
funded by LOD2
–
starting with few concepts
–
rely on GND-Ontology
–
~2,7 Mio. triples in RDF
merging internal databases & TEI-XML markup
mapping tags in <text> to <teiHeader> to RDF
(XML)
Interpersonal Relations in RDF –
current work
●
extending the ontology to express i.p. relations
●
extending recognized i.p. relations
●
linking - open – (meta) data
●
–
uniquely identifying „literals“
–
offering data & query options
providing context / visualization
Ontologies / Schemata
●
GND d-nb.info/standards/elementset/gnd / Agrelon
www.contentus-projekt.de
–
our reference but
●
●
●
purl.org/vocab/(Bio|Relationship)
–
●
we use different naming rules
semantic indifferencies
<hasInfluenceDonor> → influence != donation
based on „foaf:Person“, ours are more specific
CPM - Catalogus Professorum Model
–
too specific, partly work in progress
Linking –
disambiguation of <placeName>
●
identify <placeName>s in NOMINATIM
(OpenStreetMap)
–
<placeName> in article's headline should be unique
–
lookup and ranking by category („city“ > „village“ >
„hamlet“)
–
36.000 occurrences → 12.000 different literals → 4.000
identifiable → 2/3 of occurrences covered
–
problems:
●
●
●
●
„Paris“ yields to several „city“s with equal place_rank
human proof-reading
certain occurrence in headlines vs. uncertainty in text
… oldfashioned <placeName>s in ADB-corpus
Linking –
disambiguation of <persName>
●
Problem: identify „literals“ and individuals
–
„Goethe“ could refer to
●
●
●
J. W. v. Goethe († 1832)
6 further articles on „Goethes“ in NDB/ADB
129 hits for a person named „Goethe“ in GND
1. step: matching index-entries and simple
evaluation
Linking –
disambiguation of <persName>
(together with Valentina Stuß)
2. step: using „similarity“ of topics
–
topiczoom.de - API with a hidden topic ontology
–
refinement by additional assumptions
(yearOfBirth/Death)
–
? prospective adoption of LDA ?
–
… work in progress
Context / Visualization – early ideas
The network between Romy Schneider and Alexander Girardi – still without semantic relations, simply links between identified individuals.
http://data.deutsche-biographie.de/beta/relfinder/RelFinder.swf – using http://www.visualdataweb.org/relfinder.php
Context / Visualization – early ideas
The network between Romy Schneider and Alexander Girardi – still without semantic relations, simply links between identified individuals.
http://data.deutsche-biographie.de/beta/relfinder/RelFinder.swf – using http://www.visualdataweb.org/relfinder.php
Context / Visualization – early ideas
Mockup to demonstrate the browsing of relations between Caroline v. Schelling, her husband A.W. v. Schlegel and other individuals & cited works;
starting point is the ego-centered network of C. v. Sch
http://data.deutsche-biographie.de/beta/Jit/Examples/RGraph/exampleNDB-SchlegelC+SchellingA.html using http://thejit.org
Reference
●
Korpus: http://www.deutsche-biographie.de.
●
Guenthner, Franz; Maier, Petra (Hgg.): Das CISLEX Wörterbuchsystem. München 1994. (http://www.cis.uni-muenchen.de/download/cis-berichte/94-076.pdf).
●
●
●
●
●
●
●
●
●
●
●
●
Langer, Stefan; Maier, Petra; Oesterle, Jürgen (Hgg.): CISLEX - An Electronic Dictionary for German: Its Structure and a Lexicographic Application, in:
Proceedings of COMPLEX '96, S.155-164.
Paumier, Sébastien: Unitex 3.0. Manual, Paris 2012, http://www-igm.univ-mlv.fr/~unitex/UnitexManual3.0.pdf.
Geierhos, Michaela: BiographIE - Klassifikation und Extraktion karrierespezifischer Informationen. Linguistic Resources for Natural Language Processing 05.
Lincom. München. (Dissertation) ISBN 978-3-86288-013-3. s.a. http://www.cis.uni-muenchen.de/~micha/homepage/biographIE-WS0910.html.
Ebneth, Bernhard: Aktueller Stand der Genealogien in der Neuen Deutschen Biographie – Arbeit mit der Online-Version, 2012,
www.ndb.badw-muenchen.de/Genealogentag-NDB-2012.pdf.
ders.: Das europäische Biographie-Portal mit Allgemeiner Deutscher Biographie und Neuer Deutscher Biographie Online, in: Catalogus Professorum Lipsiensis.
Konzeption, technische Umsetzung und Anwendungen für Professorenkataloge im Semantic Web, hg. v. Ulf Morgenstern u. Thomas Riechert, Leipzig 2010, S.
159-168.
Hockerts, Hans Günter u.a. in: Akademie Aktuell, 2007ff., http://www.badw.de/aktuell/akademie_aktuell/.
White Paper – TopicZoom GmbH (2009): Der thematische Zugang zu Archiven und Dokumentbeständen - Grundprinzip und erweiterte
Recherchemöglichkeiten. http://www.topiczoom.de/wp-content/uploads/2012/01/Whitepaper-Navigation.pdf.
Martin Brümmer: Realisierung eines RDF-Interfaces für die Neue Deutsche Biographie, http://skil.informatik.unileipzig.de/blog/historie/skil2011/zusammenfassungen-der-beitrage/#vortrag4
Thomas Riechert, Ulf Morgenstern, Sören Auer, Sebastian Tramp, and Michael Martin: The Catalogus Professorum Lipsiensis – Semantics-based Collaboration
and Exploration for Historians, ceur-ws.org/Vol-658/paper532.pdf
dies.: Knowledge Engineering for Historians on the Example of the Catalogus Professorum Lipsiensis. In: Proceedings of the 9th International Semantic Web
Conference (ISWC2010) volume 6497 of Lecture Notes in Computer Science p. 225-240. Springer, Shanghai / China, 2010.
http://www.visualdataweb.org/relfinder.php = Philipp Heim, Sebastian Hellmann, Jens Lehmann, Steffen Lohmann and Timo Stegemann: RelFinder - Revealing
Relationships in RDF Knowledge Bases, In: Proceedings of the 4th International Conference on Semantic and Digital Media Technologies (SAMT 2009), pages
182-187. Springer, Berlin/Heidelberg, 2009. http://dx.doi.org/10.1007/978-3-642-10543-2_21

Documents pareils