Detecting and Encoding Interpersonal Relations with Unitex/Local
Transcription
Detecting and Encoding Interpersonal Relations with Unitex/Local
Detecting and Encoding Interpersonal Relations with Unitex/Local Grammars Sophia Stotz*‡, Valentina Stuss*‡, Matthias Reinert‡ *University of Paderborn ‡ Historical Commission at the Bavarian Academy of Sciences and Humanities, München Corpora ● www.deutsche-biographie.de ● texts: – „New German Biography“ (NDB, since 1953, 25 vols published, A-Tecklenborg, 24 online; ~ 21.000 biographies) ● ● – „Universal German Biography“ (ADB, 1875-1912, 56 vols; ~ 27.000 biographies; ● ● ● ● modern German (before „Rechtschreibreform“ 1996) many abbreviations of frequent words (adjectives, nouns) 19th century german, several words in outdated orthography, few abbreviations auxiliary database – manually compiled „Index of Persons“ (mentioned in ADB and NDB; ~ 92.000 individuals, several hundred families) – manually assembled Name-Database (150.000 digitized record cards: names, occupation, born, death) – since 2001 all entries had been aligned with the authority file Gemeinsame Normdatei/GND, „each person has got his own ID“ (exceptions) Project „Historical Biographical Information System“ ● ● ● ● funded by DFG 2 yrs, 7 partners (providing selected online content), limited research posts (2x ¼) three pillars – alignment of biographical information to authority file (GND) – content enhancement – interpersonal relationships – better search – adding context to search results advice and help from: – CIS Munich (Jun.Prof. M. Geierhos & Prof. Guenthner) – AKSW Leipzig (Th. Riechert, M. Brümmer) Extraction de relations Relations entre personnes, relations personnelieu, personne-institution... Types de relations entre personnes: 1) sous- ou subordonnées: Professeur/élève de, influence sur/de qn 2) du même niveau: amis, ennemis, collègues Exemple: relation „étudier“ Corpus: Neue Deutsche Biographie Entités: ●Discipline: Physik, Kulturwissenschaften, etc. ●Professeur: z.B. „bei X“ (→ Reconnaissance de noms propres) ●Lieu: Lieu géographique (ex.: „Paris“) ●Temps: „1813“, durées: „4 Semester“, „ab Juli 1976“ ●Institution: Universität Wien, Akademie der bildenden Künste - phrases négatives (z.B. éviter reconnaissance de „Personne X n'étudiait pas“) Zeitraum Temps Von Juli 1913 bis Ostern 1916 (De juillet 1913 à Pâques 1916) Für 3 ½ Jahre (Pendant 3 ans et demi) Utilisation de dictionnaires Dictionnaires de prénoms et de surnoms, dictionnaires d'organisations (source: Gemeinsame Normdatei) ●Constitution de dictionnaires à partir du corpus, exemple: dictionnaire des disciplines ● Prise en compte des balisages déjà existants Quelques catégories ont déjà été balisées précédemment dans le corpus en format XML. Exemple toponymes: ● ● Avec balisage: <placeName type="study" key="nom:609246 osm:240058050" n="1385">Heidelberg</placeName> Sans balisage: Großenhain, Grimma → Les balisages déjà existants ont été pris en compte, les entités reconnues pour la première fois ont été balisées Studieren + Entität Éléments trouvés I <ZEIT>1867-69</ZEIT> und <ZEIT>1871-72</ZEIT> studierte er in <ORT><placeName type="study" key="nom:532485 osm:162012321" n="1810">Berlin</placeName></ORT>, <choice><abbr type="allg">u. a.</abbr><expan>unter anderem</expan></choice> bei <BEI><persName>E. E. Kummer</persName></BEI>, <BEI><persName>K. Weierstraß</persName></BEI> und <BEI><persName>H. Helmholtz</persName></BEI> Temps: 1867-69, 1871-72 Lieu: Berlin Professeurs: E. E. Kummer, K. Weierstraß, H. Helmholtz Éléments trouvés II <SCHULE>Nach der Reifeprüfung am Gymnasium in <ORTSCHULE>Montabaur</ORTSCHULE></SCHULE> studierte <choice><abbr type="lemma">K.</abbr><expan>Kern</expan></choice> <ZEIT>seit 1899</ZEIT> <FACH>Kunstgeschichte</FACH> in <ORT><placeName key="nom:598103 osm:240032857" n="1826">München</placeName></ORT>, <ORT><placeName key="nom:626076 osm:240111242" n="1409">Leipzig</placeName></ORT> und <ORT><placeName key="nom:532485 osm:162012321" n="1810">Berlin</placeName></ORT> Temps: seit 1899 Discipline: Kunstgeschichte Lieu: München, Leipzig, Berlin Éléments trouvés III studierte <FACH>Kunstgeschichte</FACH>, <FACH>Klassische Archäologie</FACH> und <FACH>Philosophie</FACH> in <ORT><placeName type="study" key="nom:598103 osm:240032857" n="1826">München</placeName></ORT> und <ORT><placeName type="study" key="nom:181367 osm:31190157" n="1693">Halle</placeName></ORT> (<PROM>Promotion <PROMZEIT>1909</PROMZEIT></PROM>) Disciplines: Lieux: Doctorat: Kunstgeschichte, Klassische Archäologie, Philosophie München, Halle 1909 Erreurs In <ORT>Valkenburg</ORT> studierte er <ZEIT>1902-05</ZEIT> <FACH>Philosophie</FACH> und <ZEIT>1909-13</ZEIT> <FACH>Theologie</FACH> Lieu: Valkenburg Temps: 1902-05, 1909-13 Discipline: Philosophie, Theologie ---> pas de correspondance: 1902-05 Philosophie, 1909-13 Theologie Erreurs 1) passages non reconnus: <ZEIT>seit 1433</ZEIT> studierte und lehrte er an der Wiener Universität (depuis 1433, il étudiait et enseignait à l'Université de Vienne) 2) dictionnaires incomplets 3) „wollte ursprünglich Medizin studieren“ (voulait d'abord étudier médecine) Évaluation du graphe <étudier> ● Constitution du corpus: Extrait de la NDB, 322 phrases contenant le verbe <étudier> ● Précision: 97,4% ● Rappel: 70,5% Relations <étudier> reconnues par les graphes dans le corpus entier de la NDB: ~ 6000 Interpersonal Relations in RDF ● ontology – schemata ● linking open data ● visualisation Metadata to RDF (together with AKSW Leipzig) ● ● ● ● prototype exhibiting metadata and first genealogical relations, no database funded by LOD2 – starting with few concepts – rely on GND-Ontology – ~2,7 Mio. triples in RDF merging internal databases & TEI-XML markup mapping tags in <text> to <teiHeader> to RDF (XML) Interpersonal Relations in RDF – current work ● extending the ontology to express i.p. relations ● extending recognized i.p. relations ● linking - open – (meta) data ● – uniquely identifying „literals“ – offering data & query options providing context / visualization Ontologies / Schemata ● GND d-nb.info/standards/elementset/gnd / Agrelon www.contentus-projekt.de – our reference but ● ● ● purl.org/vocab/(Bio|Relationship) – ● we use different naming rules semantic indifferencies <hasInfluenceDonor> → influence != donation based on „foaf:Person“, ours are more specific CPM - Catalogus Professorum Model – too specific, partly work in progress Linking – disambiguation of <placeName> ● identify <placeName>s in NOMINATIM (OpenStreetMap) – <placeName> in article's headline should be unique – lookup and ranking by category („city“ > „village“ > „hamlet“) – 36.000 occurrences → 12.000 different literals → 4.000 identifiable → 2/3 of occurrences covered – problems: ● ● ● ● „Paris“ yields to several „city“s with equal place_rank human proof-reading certain occurrence in headlines vs. uncertainty in text … oldfashioned <placeName>s in ADB-corpus Linking – disambiguation of <persName> ● Problem: identify „literals“ and individuals – „Goethe“ could refer to ● ● ● J. W. v. Goethe († 1832) 6 further articles on „Goethes“ in NDB/ADB 129 hits for a person named „Goethe“ in GND 1. step: matching index-entries and simple evaluation Linking – disambiguation of <persName> (together with Valentina Stuß) 2. step: using „similarity“ of topics – topiczoom.de - API with a hidden topic ontology – refinement by additional assumptions (yearOfBirth/Death) – ? prospective adoption of LDA ? – … work in progress Context / Visualization – early ideas The network between Romy Schneider and Alexander Girardi – still without semantic relations, simply links between identified individuals. http://data.deutsche-biographie.de/beta/relfinder/RelFinder.swf – using http://www.visualdataweb.org/relfinder.php Context / Visualization – early ideas The network between Romy Schneider and Alexander Girardi – still without semantic relations, simply links between identified individuals. http://data.deutsche-biographie.de/beta/relfinder/RelFinder.swf – using http://www.visualdataweb.org/relfinder.php Context / Visualization – early ideas Mockup to demonstrate the browsing of relations between Caroline v. Schelling, her husband A.W. v. Schlegel and other individuals & cited works; starting point is the ego-centered network of C. v. Sch http://data.deutsche-biographie.de/beta/Jit/Examples/RGraph/exampleNDB-SchlegelC+SchellingA.html using http://thejit.org Reference ● Korpus: http://www.deutsche-biographie.de. ● Guenthner, Franz; Maier, Petra (Hgg.): Das CISLEX Wörterbuchsystem. München 1994. (http://www.cis.uni-muenchen.de/download/cis-berichte/94-076.pdf). ● ● ● ● ● ● ● ● ● ● ● ● Langer, Stefan; Maier, Petra; Oesterle, Jürgen (Hgg.): CISLEX - An Electronic Dictionary for German: Its Structure and a Lexicographic Application, in: Proceedings of COMPLEX '96, S.155-164. Paumier, Sébastien: Unitex 3.0. Manual, Paris 2012, http://www-igm.univ-mlv.fr/~unitex/UnitexManual3.0.pdf. Geierhos, Michaela: BiographIE - Klassifikation und Extraktion karrierespezifischer Informationen. Linguistic Resources for Natural Language Processing 05. Lincom. München. (Dissertation) ISBN 978-3-86288-013-3. s.a. http://www.cis.uni-muenchen.de/~micha/homepage/biographIE-WS0910.html. Ebneth, Bernhard: Aktueller Stand der Genealogien in der Neuen Deutschen Biographie – Arbeit mit der Online-Version, 2012, www.ndb.badw-muenchen.de/Genealogentag-NDB-2012.pdf. ders.: Das europäische Biographie-Portal mit Allgemeiner Deutscher Biographie und Neuer Deutscher Biographie Online, in: Catalogus Professorum Lipsiensis. Konzeption, technische Umsetzung und Anwendungen für Professorenkataloge im Semantic Web, hg. v. Ulf Morgenstern u. Thomas Riechert, Leipzig 2010, S. 159-168. Hockerts, Hans Günter u.a. in: Akademie Aktuell, 2007ff., http://www.badw.de/aktuell/akademie_aktuell/. White Paper – TopicZoom GmbH (2009): Der thematische Zugang zu Archiven und Dokumentbeständen - Grundprinzip und erweiterte Recherchemöglichkeiten. http://www.topiczoom.de/wp-content/uploads/2012/01/Whitepaper-Navigation.pdf. Martin Brümmer: Realisierung eines RDF-Interfaces für die Neue Deutsche Biographie, http://skil.informatik.unileipzig.de/blog/historie/skil2011/zusammenfassungen-der-beitrage/#vortrag4 Thomas Riechert, Ulf Morgenstern, Sören Auer, Sebastian Tramp, and Michael Martin: The Catalogus Professorum Lipsiensis – Semantics-based Collaboration and Exploration for Historians, ceur-ws.org/Vol-658/paper532.pdf dies.: Knowledge Engineering for Historians on the Example of the Catalogus Professorum Lipsiensis. In: Proceedings of the 9th International Semantic Web Conference (ISWC2010) volume 6497 of Lecture Notes in Computer Science p. 225-240. Springer, Shanghai / China, 2010. http://www.visualdataweb.org/relfinder.php = Philipp Heim, Sebastian Hellmann, Jens Lehmann, Steffen Lohmann and Timo Stegemann: RelFinder - Revealing Relationships in RDF Knowledge Bases, In: Proceedings of the 4th International Conference on Semantic and Digital Media Technologies (SAMT 2009), pages 182-187. Springer, Berlin/Heidelberg, 2009. http://dx.doi.org/10.1007/978-3-642-10543-2_21