Des cascades de graphes pour l`enrichissement de textes

Transcription

Des cascades de graphes pour l`enrichissement de textes
Des cascades de graphes
pour l'enrichissement
de textes scientifiques par
les entités nommées
Denis MAUREL, Anubhav GUPTA
Université François-Rabelais Tours
LI (Laboratoire d'informatique)
Enza MORALE
Inist-CNRS, Nancy
1
INTRODUCTION
Quelques remarques...
2
Quelques remarques
1. Les noms d'université, de centre de
recherche, de laboratoire ne figurent
pas dans les mots-clés, même si les
affiliations des auteurs sont dans les
signatures
2. De même pour les noms de projets
qui apparaissent parfois en note ou
en remerciements
3
Quelques remarques
3. Le lieu où est réalisé une expérience
n'est pas forcément l'adresse du
laboratoire
4. Les dates des expériences ne
correspondent pas à celle de
parution de l'article
4
Quelques remarques
5. Les noms de chercheur cités ont
une importance, alors que souvent
la bibliographie indique plusieurs
personnes comme signataires d'un
article
6. En SHS, des lieux, des institutions,
des personnes (avec leur titre ou
profession) ou des dates sont cités,
indépendamment du rattachement
des auteurs
5
Enrichir
•
•
•
Institutions, lieux, personnes, dates
font parties de ce que le Tal appelle
entités nommées
Celles-ci sont souvent repérables
par le contexte local
Notre proposition
Enrichir les textes scientifiques par
ces entités nommées afin de
permettre leur indexation et leur
recherche dans les textes
6
ENRICHIR LES TEXTES PAR
LES ENTITÉS NOMMÉES
Dans le cadre du projet Istex
7
Enrichir les textes
• Un choix de sept balises conformes à la
TEI:
– personnes: <persName>
– lieux: <placeName> et <geogName>
– organisations: <orgName>
– projets financés <orgName type="funder">
– temps: <date>
– URL <ref type="url">
8
Enrichir les textes
• Exemple
Cette étude a été réalisée grâce à l'aide
d'AGIRA (Alsace Gérontologie Information
Recherche) et des médecins de la Société
de gérontologie de l'Est
02488663_REV-MED-INTERNE_Aspects_cliniques_et_pronostiques_des_frac.xml
9
Enrichir les textes
• Exemple
Cette étude a été réalisée grâce à l'aide d'
<orgName type="projet financé">AGIRA
</orgName> (<orgName type="funder">Alsace
Gérontologie Information
Recherche</orgName>) et des médecins de la
<orgName>Société de gérontologie de
l'Est</orgName>
02488663_REV-MED-INTERNE_Aspects_cliniques_et_pronostiques_des_frac.xml
10
Enrichir les textes
• Exemple
Il a donc 30 ans lorsqu'il est invité à partir
en Hongrie. Le baron Podmanicky,
ambassadeur à Paris, lui fournit de
multiples informations
12518050_CR-ACAD-SCI-TER_Role_des_geologues_francais_dans_l_essor_d.xml
11
Enrichir les textes
• Exemple
Il a donc 30 ans lorsqu'il est invité à partir
en <placeName>Hongrie</placeName>.
Le baron
<persName>Podmanicky</persName>,
ambassadeur à
<placeName>Paris</placeName>, lui
fournit de multiples informations
12518050_CR-ACAD-SCI-TER_Role_des_geologues_francais_dans_l_essor_d.xml
12
Enrichir les textes
• Exemple
Il naît à Paris le 5 septembre 1787,
d'une famille paternelle venue de
l'Ardenne.
12518050_CR-ACAD-SCI-TER_Role_des_geologues_francais_dans_l_essor_d.xml
13
Enrichir les textes
• Exemple
Il naît à <placeName>Paris</placeName>
le 5 septembre <date>1787</date>,
d'une famille paternelle venue de
l'<geogName>Ardenne</geogName>.
12518050_CR-ACAD-SCI-TER_Role_des_geologues_francais_dans_l_essor_d.xml
14
Enrichir les textes
• Exemple
We also thank Laurent Bollinger for his
precious assistance to implement a
realistic 3-D fault model
oup_Geophysical_Journal_International_-2010_v1-v183_gji172_2_gji172_2xml_172-2-707.xml
15
Enrichir les textes
• Exemple
We also thank <persName>Laurent
Bollinger</persName> for his precious
assistance to implement a realistic 3-D
fault model
oup_Geophysical_Journal_International_-2010_v1-v183_gji172_2_gji172_2xml_172-2-707.xml
16
Enrichir les textes
• Exemple
The polyclonal antibody anti-c-Raf-1 (C12, the epitope corresponding to the
carboxy terminal amino acids of Raf-1
p74) was obtained from Santa Cruz
Biotechnology (Santa Cruz, CA)
elsevier_raw_IST19970010000078_03037207_v135i2_S0303720797002049_main.xml
17
Enrichir les textes
• Exemple
The polyclonal antibody anti-c-Raf-1 (C12, the epitope corresponding to the
carboxy terminal amino acids of Raf-1
p74) was obtained from <orgName>Santa
Cruz Biotechnology</orgName>
(<placeName>Santa Cruz,
CA</placeName>)
elsevier_raw_IST19970010000078_03037207_v135i2_S0303720797002049_main.xml
18
CasSys
Un système de passage en
cascade de graphes Unitex
Thèse de Nathalie Friburger (2002)
19
Unitex
• Unitex est un logiciel libre d'analyse
lexicale automatique
• Unitex allie un système informatique
performant
– des réseaux de transitions "augmentées"
• opérations sur le texte
• utilisation de variables
• compilation
• et une interface conviviale
– des graphes
20
Un graphe Unitex
21
CasSys
• Un module pour la constitution et
l'utilisation de cascades de graphes
intégré à Unitex
Texte original
Texte modifié une première fois
Texte modifié
…
Graphe 1
Texte final
Graphe 2
Graphe 3
22
CasSys
• Un graphe de la cascade peut
– utiliser les motifs déjà détectés
– éviter un étiquetage non souhaité pour
un motif déjà reconnu
• L'ordre de passage est donc un
paramètre important
23
LA COLLABORATION
LI-INIST
Amélioration du balisage
24
Amélioration du balisage
• Deux corpus transversaux constitués
de documents XML de la plateforme
Istex, issus de plusieurs éditeurs
– 100 documents français
• 86 Elsevier
• 2 Institute Of Physics
• 2 Oxford University Press
25
Amélioration du balisage
• Deux corpus transversaux constitués
de documents XML de la plateforme
Istex, issus de plusieurs éditeurs
– 100 documents anglais
•
•
•
•
•
53 Elsevier
13 Institute Of Physics
21 Oxford University Press
4 Nature
9 Royal Society of Chemistry
26
Amélioration du balisage
LI
Inist
LI
Inist
• Passage des cascades de graphes
• Détection-correction d’erreurs
• Modification des cascades
• Vérification du résultat
27
Amélioration du balisage
• Exemple
– Détection d’erreur
directrice de <italic>Iranian Refugees’
<orgName>Alliance Inc</orgName></italic> à
– Correction d’erreur
directrice de <italic><orgName>Iranian Refugees’
Alliance Inc</orgName></italic> à
oup_International_Journal_of_Refugee_Law_1989-2010_v1-v22_reflaw19_1_reflaw19_1xml_eem003.xml
28
Guide d’annotation
• Réalisation d'un guide d'annotation
pour répertorier et commenter
– Les décisions prises au départ du projet
• Choix des entités nommées à baliser
– Une rivière : la Manse
• Utilisation de la norme TEI
– La <geogName type="river">Manse</geogName>
• Simplification de cette norme
– La <geogName>Manse</geogName>
29
Guide d’annotation
• Réalisation d'un guide d'annotation
pour répertorier et commenter
– Les décisions prises en cours de travail
• Définition du champ de chaque entité
nommée
– le théorème de Pythagore
– le 23 mai <date>2017</date>
– de août <date>1913</date> à juin
<date>1914</date>
• Règles d’étiquetage
– <orgName type="funder">
AGIRA</orgName>
30
QUEL RÉSULTAT POUR LA
PLATEFORME ISTEX ?
Enrichir les possibilités d'interrogation
31
Enrichir l'interrogation
Balisage des
textes
Enrichissement
des
métadonnées
Interrogation
d'Istex
La qualité de l'interrogation d'Istex dépendra
du nombre de textes travaillés
pour améliorer le balisage
32
Enrichir l'interrogation
Balisage des
textes
Enrichissement
des
métadonnées
Interrogation
d'Istex
La qualité de l'interrogation d'Istex dépendra
des ressources humaines
qui pourront être mises à disposition
au-delà de la période initialement prévue…
33
Merci !
34

Documents pareils