Des cascades de graphes pour l`enrichissement de textes
Transcription
Des cascades de graphes pour l`enrichissement de textes
Des cascades de graphes pour l'enrichissement de textes scientifiques par les entités nommées Denis MAUREL, Anubhav GUPTA Université François-Rabelais Tours LI (Laboratoire d'informatique) Enza MORALE Inist-CNRS, Nancy 1 INTRODUCTION Quelques remarques... 2 Quelques remarques 1. Les noms d'université, de centre de recherche, de laboratoire ne figurent pas dans les mots-clés, même si les affiliations des auteurs sont dans les signatures 2. De même pour les noms de projets qui apparaissent parfois en note ou en remerciements 3 Quelques remarques 3. Le lieu où est réalisé une expérience n'est pas forcément l'adresse du laboratoire 4. Les dates des expériences ne correspondent pas à celle de parution de l'article 4 Quelques remarques 5. Les noms de chercheur cités ont une importance, alors que souvent la bibliographie indique plusieurs personnes comme signataires d'un article 6. En SHS, des lieux, des institutions, des personnes (avec leur titre ou profession) ou des dates sont cités, indépendamment du rattachement des auteurs 5 Enrichir • • • Institutions, lieux, personnes, dates font parties de ce que le Tal appelle entités nommées Celles-ci sont souvent repérables par le contexte local Notre proposition Enrichir les textes scientifiques par ces entités nommées afin de permettre leur indexation et leur recherche dans les textes 6 ENRICHIR LES TEXTES PAR LES ENTITÉS NOMMÉES Dans le cadre du projet Istex 7 Enrichir les textes • Un choix de sept balises conformes à la TEI: – personnes: <persName> – lieux: <placeName> et <geogName> – organisations: <orgName> – projets financés <orgName type="funder"> – temps: <date> – URL <ref type="url"> 8 Enrichir les textes • Exemple Cette étude a été réalisée grâce à l'aide d'AGIRA (Alsace Gérontologie Information Recherche) et des médecins de la Société de gérontologie de l'Est 02488663_REV-MED-INTERNE_Aspects_cliniques_et_pronostiques_des_frac.xml 9 Enrichir les textes • Exemple Cette étude a été réalisée grâce à l'aide d' <orgName type="projet financé">AGIRA </orgName> (<orgName type="funder">Alsace Gérontologie Information Recherche</orgName>) et des médecins de la <orgName>Société de gérontologie de l'Est</orgName> 02488663_REV-MED-INTERNE_Aspects_cliniques_et_pronostiques_des_frac.xml 10 Enrichir les textes • Exemple Il a donc 30 ans lorsqu'il est invité à partir en Hongrie. Le baron Podmanicky, ambassadeur à Paris, lui fournit de multiples informations 12518050_CR-ACAD-SCI-TER_Role_des_geologues_francais_dans_l_essor_d.xml 11 Enrichir les textes • Exemple Il a donc 30 ans lorsqu'il est invité à partir en <placeName>Hongrie</placeName>. Le baron <persName>Podmanicky</persName>, ambassadeur à <placeName>Paris</placeName>, lui fournit de multiples informations 12518050_CR-ACAD-SCI-TER_Role_des_geologues_francais_dans_l_essor_d.xml 12 Enrichir les textes • Exemple Il naît à Paris le 5 septembre 1787, d'une famille paternelle venue de l'Ardenne. 12518050_CR-ACAD-SCI-TER_Role_des_geologues_francais_dans_l_essor_d.xml 13 Enrichir les textes • Exemple Il naît à <placeName>Paris</placeName> le 5 septembre <date>1787</date>, d'une famille paternelle venue de l'<geogName>Ardenne</geogName>. 12518050_CR-ACAD-SCI-TER_Role_des_geologues_francais_dans_l_essor_d.xml 14 Enrichir les textes • Exemple We also thank Laurent Bollinger for his precious assistance to implement a realistic 3-D fault model oup_Geophysical_Journal_International_-2010_v1-v183_gji172_2_gji172_2xml_172-2-707.xml 15 Enrichir les textes • Exemple We also thank <persName>Laurent Bollinger</persName> for his precious assistance to implement a realistic 3-D fault model oup_Geophysical_Journal_International_-2010_v1-v183_gji172_2_gji172_2xml_172-2-707.xml 16 Enrichir les textes • Exemple The polyclonal antibody anti-c-Raf-1 (C12, the epitope corresponding to the carboxy terminal amino acids of Raf-1 p74) was obtained from Santa Cruz Biotechnology (Santa Cruz, CA) elsevier_raw_IST19970010000078_03037207_v135i2_S0303720797002049_main.xml 17 Enrichir les textes • Exemple The polyclonal antibody anti-c-Raf-1 (C12, the epitope corresponding to the carboxy terminal amino acids of Raf-1 p74) was obtained from <orgName>Santa Cruz Biotechnology</orgName> (<placeName>Santa Cruz, CA</placeName>) elsevier_raw_IST19970010000078_03037207_v135i2_S0303720797002049_main.xml 18 CasSys Un système de passage en cascade de graphes Unitex Thèse de Nathalie Friburger (2002) 19 Unitex • Unitex est un logiciel libre d'analyse lexicale automatique • Unitex allie un système informatique performant – des réseaux de transitions "augmentées" • opérations sur le texte • utilisation de variables • compilation • et une interface conviviale – des graphes 20 Un graphe Unitex 21 CasSys • Un module pour la constitution et l'utilisation de cascades de graphes intégré à Unitex Texte original Texte modifié une première fois Texte modifié … Graphe 1 Texte final Graphe 2 Graphe 3 22 CasSys • Un graphe de la cascade peut – utiliser les motifs déjà détectés – éviter un étiquetage non souhaité pour un motif déjà reconnu • L'ordre de passage est donc un paramètre important 23 LA COLLABORATION LI-INIST Amélioration du balisage 24 Amélioration du balisage • Deux corpus transversaux constitués de documents XML de la plateforme Istex, issus de plusieurs éditeurs – 100 documents français • 86 Elsevier • 2 Institute Of Physics • 2 Oxford University Press 25 Amélioration du balisage • Deux corpus transversaux constitués de documents XML de la plateforme Istex, issus de plusieurs éditeurs – 100 documents anglais • • • • • 53 Elsevier 13 Institute Of Physics 21 Oxford University Press 4 Nature 9 Royal Society of Chemistry 26 Amélioration du balisage LI Inist LI Inist • Passage des cascades de graphes • Détection-correction d’erreurs • Modification des cascades • Vérification du résultat 27 Amélioration du balisage • Exemple – Détection d’erreur directrice de <italic>Iranian Refugees’ <orgName>Alliance Inc</orgName></italic> à – Correction d’erreur directrice de <italic><orgName>Iranian Refugees’ Alliance Inc</orgName></italic> à oup_International_Journal_of_Refugee_Law_1989-2010_v1-v22_reflaw19_1_reflaw19_1xml_eem003.xml 28 Guide d’annotation • Réalisation d'un guide d'annotation pour répertorier et commenter – Les décisions prises au départ du projet • Choix des entités nommées à baliser – Une rivière : la Manse • Utilisation de la norme TEI – La <geogName type="river">Manse</geogName> • Simplification de cette norme – La <geogName>Manse</geogName> 29 Guide d’annotation • Réalisation d'un guide d'annotation pour répertorier et commenter – Les décisions prises en cours de travail • Définition du champ de chaque entité nommée – le théorème de Pythagore – le 23 mai <date>2017</date> – de août <date>1913</date> à juin <date>1914</date> • Règles d’étiquetage – <orgName type="funder"> AGIRA</orgName> 30 QUEL RÉSULTAT POUR LA PLATEFORME ISTEX ? Enrichir les possibilités d'interrogation 31 Enrichir l'interrogation Balisage des textes Enrichissement des métadonnées Interrogation d'Istex La qualité de l'interrogation d'Istex dépendra du nombre de textes travaillés pour améliorer le balisage 32 Enrichir l'interrogation Balisage des textes Enrichissement des métadonnées Interrogation d'Istex La qualité de l'interrogation d'Istex dépendra des ressources humaines qui pourront être mises à disposition au-delà de la période initialement prévue… 33 Merci ! 34