Extraction d`information de documents textuels associés à

Transcription

Extraction d`information de documents textuels associés à
RECITAL 2001, Tours, 2-5 juillet 2001
Extraction d’information de documents textuels associés à des
contenus audiovisuels
Estelle Le Roux
INA
4 avenue de l’Europe, 94366 Bry sur Marne Cedex France
[email protected]
LIMSI
Bt 508, Université Paris-Sud, 91403 Orsay Cedex
[email protected]
Résumé - Abstract
L’indexation audiovisuelle, indispensable pour l’archivage et l’exploitation des documents, se
révèle être un processus délicat, notamment à cause de la multiplicité de significations qui
peuvent être attachées aux images. Nous proposons dans cette communication une méthode
d’instanciation de ”patrons d’indexation” à partir d’un corpus d’articles de journaux écrits.
Cette méthode repose sur un processus ”d’amorçage hiérachisé”, qui permet de trouver de nouveaux termes à partir de termes connus dans leur voisinage et de leurs relations taxinomiques
sous forme d’ontologie.
Mots-clés Amorce - Extraction d’information - Ontologie - Patron d’indexation
Audiovisual indexation, essential for filing and using documents, is a difficult process notably
because of the multiplicity of meanings which can be associated to the pictures. We propose
a method of instanciation of ”indexation patterns” from a corpus of articles from newspapers.
This method is based on a ”hierarchical bootstrapping” which can find new terms from known
terms in their neighbourhood and from an ontology.
Key words Bootstrapping - Indexation patterns - Information extraction - Ontology
1 L’indexation audiovisuelle
1.1 L’INA : les documents audiovisuels et leur exploitation
L’INA 1 (Institut National de l’Audiovisuel) a pour vocation de constituer le patrimoine audiovisuel en sauvegardant, numérisant et restaurant, en un mot en archivant, les émissions de radio
1
http://www.ina.fr
Estelle Le Roux
et de télévision publiques. L’institut a, actuellement, en sa possession plus d’un million et
demi d’heures de radio et de télévision, auxquels viennent s’ajouter plus d’un million de documents photographiques. 70 000 heures de programmes par an sont documentées, conservées
et recopiées. Les fonds d’archives de l’INA sont donc une ressource importante, pour tous les
professionnels de l’audiovisuel mais aussi pour les chercheurs, enseignants et étudiants.
Pour que tous ces documents audiosivuels soient exploitables, nous devons les indexer. Or indexer signifie interpréter mais il va sans dire que l’interprétation de documents est une opération
coûteuse, aussi bien en temps qu’en personnes. Un des moyens qui s’offre à nous pour pouvoir
réduire ce coût est de pouvoir instrumenter l’interprétation le plus possible. A ce niveau, nous
nous trouvons confronter au fait que l’image ne possède pas d’interprétation particulière (Metz,
1968). Comment, alors, arriver à interpréter, à indexer un document audiovisuel ?
Dans cette communication, nous proposons, après avoir restreint le domaine télévisuel aux
journaux et aux magazines, d’extraire des informations dans des documents textuels en relation avec les documents audiovisuels à indexer : des articles de presse écrite qui relatent le
même événement. Ainsi, par exemple, les journaux nous ont raconté l’histoire d’un enfant
retrouvé vivant plusieurs jours après le tremblement de terre qui a eu lieu en Inde au début de
l’année ; la télévision, quant à elle, a montré les images du sauvetage du jeune rescapé. La
partie qui permettra de relier les informations textuelles aux documents audiovisuels sera faite
par le département de la recherche à l’INA.
Nous présenterons dans un premier temps les problèmes intervenant dans l’indexation audiovisuelle, puis nous préciserons pourquoi les articles de presse écrite semblent pertinents pour
l’interprétation des documents télévisuels. Nous parlerons ensuite d’un système basé sur une
stratégie ”d’amorçage hiérarchisé” qui permet d’extraire de nouveaux termes dans les articles
à partir ”d’amorces” déjà connues et organisées sous forme taxinomique dans une ontologie. Nous discuterons enfin des différentes perspectives et conclusions que soulèvent cette
recherche.
1.2 L’audiovisuel et l’écrit
1.2.1 La problématique de l’indexation audiovisuelle
Indexer un document consiste à lui attribuer des descripteurs 2 . L’un des principaux enjeux
de l’indexation est donc de disposer d’index permettant d’une part de refléter adéquatement le
contenu et d’autre part de se prêter à une manipulation aisée. Or il est difficile d’obtenir un
système possédant en même temps ces deux aspects.
De plus, pour l’indexation audiovisuelle, les unités3 de localisation permettant de définir la
partie du document qui sera associée à un index n’est pas simple à trouver car il n’existe pas
d’éléments tels que les blancs dans un texte écrit.
Enfin, il est également nécessaire d’obtenir des unités de caractérisation pour interpréter et
proposer un index permettant de reformuler le contenu d’une partie du document mais cette
étape pose aussi des problèmes car une même image peut avoir différentes significations.
2
Un descripteur est une forme symbolique qui permet de caractériser un document lors de l’indexation (Auffret,
2000).
3
Par unité, nous entendons objet signifiant repéré.
Extraction d’information de documents textuels associés à des contenus
audiovisuels
Voyant que l’interprétation des documents audiovisuels à partir de ces mêmes documents ne
semble pas pouvoir se faire à l’aide d’une technique aisée et peu coûteuse, nous devons trouver
un moyen d’obtenir une interprétation explicite. La piste alors envisagée est de partir de textes
écrits produits par la presse.
1.2.2 Des journaux nationaux comme aide à l’indexation des documents audiovisuels
Jusqu’à aujourd’hui, le document de base à l’INA pour pouvoir exploiter les documents audiovisuels est un document écrit, appelé notice, créé par les documentalistes. Les notices contiennent différents champs tels que le type, l’auteur, le résumé d’une émission indexée. Sur ce
document, il est possible de faire des recherches en texte plein. Cela suppose alors d’avoir des
mots orthographiés correctement, notamment les noms propres. Si nous reprenons l’exemple
du tremblement de terre, les documentalistes peuvent avoir des problèmes pour écrire le nom
de certaines villes tel que celui de la ville de Buhj. La presse écrite leur vient donc en aide pour
vérifier rapidement l’orthographe d’un mot.
Le deuxième intérêt, l’un des plus importants, pour utiliser les journaux réside dans le fait que
les documentalistes peuvent se faire une meilleure idée des usages futurs. Il ne faut pas, en effet,
oublier que l’indexation des documents n’est utile que si les documentalistes peuvent indexer
les informations qui seront pertinentes dans un futur plus ou moins proche.
Enfin, il est important de rappeler que l’utilisation des journaux dans ce cadre est motivée par
le fait que les documents audiovisuels montrent un événement tandis que les journaux écrits
décrivent un événement. Il est donc intéressant de voir quel genre de lien existe entre ces deux
media. Nous trouvons dans le quotidien Le Monde du 26 juillet 1999 les phrases suivantes :
Les Français n’ont encore emporté aucune victoire dans ce Tour de France. Et se profile le
spectre de 1926, dernière édition où la nation hôte fut déclarée fanny. Si nous lisons la notice
correspondant au journal télévisé de 13 heures du 26 juillet 1999, nous trouvons dans le champ
Résumé, la phrase suivante : Pour la première fois depuis 1926, les coureurs français ont terminé le Tour de France sans la moindre victoire d’étape. Nous pouvons voir clairement le lien
qui existe : ces deux media font référence au fait qu’aucun cycliste français n’a remporté une
étape lors du Tour de France 1999, tout comme en 1926. Partant de là nous pouvons extraire
des informations dans la presse écrite, informations qui auront des chances d’intervenir dans
le cadre de l’indexation des documents audiovisuels. Ces informations textuelles seront alors
utilisées comme des métadonnées.
2 L’instanciation des patrons du Tour de France
2.1 Des informations intéressantes issues du Tour de France
Notre travail consiste à venir en aide aux documentalistes en leur proposant des informations,
extraites des journaux écrits à l’aide de patrons d’indexation, qu’ils seront susceptibles de
retrouver dans les documents audiovisuels.
Nous avons constitué un corpus journalistique issu du Monde, du Parisien, de Libération, de
L’Equipe et de l’AFP et ayant pour thème le Tour de France cycliste 1999. La figure 1 nous
Estelle Le Roux
montre un extrait de notre corpus 4 .
Le Monde,
7 juillet 1999, page 20
TOUR DE FRANCE 1999 Sur la route de Saint-Nazaire, Casino a raflé la mise Une chute
collective lors de la deuxième étape a permis au peloton de distancer certains prétendants
au maillot jaune . Alex Zulle (Banesto), Ivan Gotti (Polti), Michael Boorgerd (Rabobank)
. mais pas de décourager le robuste Estonien Jaan Kirsipuu (Casino), nouveau leader de
la course
BORDENAVE YVES
TOUR DE FRANCE 1999 L’Estonien Jaan Kirsipuu (Casino) a revêtu, lundi 5 juillet,
pour la première fois le maillot jaune à l’issue de la deuxième étape Challans-SaintNazaire (176 km), gagnée au sprint par le Belge Tom Steels. CASINO, qui ne veut
plus associer son nom au cyclisme, va se désengager à la fin de l’année. PLUSIEURS
FAVORIS, parmi lesquels l’Italien Ivan Gotti (Polti), le Suisse Alex Zulle (Banesto) et
le Néerlandais Michael Boogerd (Rabobank) ont été pris dans une chute collective qui a
provoqué la cassure du peloton au passage du Gois. L’EQUIPE ONCE du controversé directeur sportif Manolo Saiz a, contrairement aux usages en début d’épreuve, roulé à fond
pour creuser un écart de six minutes avec la centaine d’attardés. (...)
Maillot jaune, lundi 5 juin, à Saint-Nazaire (Loire-Atlantique), victorieux à l’étape de
Challans (Vendée) la veille, Jaan Kirsipuu est un coureur comblé. (...)
Profitant du jeu des bonifications glanées sur les 176 km de cette deuxième étape disputée
entre deux averses de Challans à Saint- Nazaire, remporté au sprint par le Belge Tom
Steels (Mapei), il a ravi la première place à l’Américain Lance Amstrong (US Postal), qui
le suit désormais à 14 secondes. (...)
YVES BORDENAVE
FICHE DOCUMENTAIRE
Titre complémentaire: 2E ETAPE CHALLANS - SAINT-NAZAIRE, 5 JUILLET 1999;
DANS ENSEMBLE DE 2 PAGES Sujets - France: 1999; CLUB SPORTIF; COMPETITION SPORTIVE; CYCLISME; DOPING; SPORTIF Sujets - International: CYCLISME
Noms propres: CASINO; KIRSIPUU JAAN; LAVENU VINCENT Taille: MOYEN
990707LM654460
Figure 1: Extrait du journal Le Monde
Nous voyons dans cet exemple que de nombreuses informations sont pertinentes dans le cadre
de l’indexation des documents : nous apprenons quelle équipe a gagné l’étape du 07 juillet 1999
4
La partie se trouvant dans la fiche documentaire renvoie aux différents champs utilisés par les journalistes du
Monde.
Extraction d’information de documents textuels associés à des contenus
audiovisuels
(7 juillet 1999 ; Sur la route de Saint-Nazaire, Casino a raflé la mise), qui était le vainqueur et
qui était le maillot jaune le 05 juillet 1999 (L’Estonien Jaan Kirsipuu (Casino) a revêtu, lundi 5
juillet, pour la première fois le maillot jaune [...]). Dans cet article, nous apprenons également
qu’il y a eu une chute au passage du Gois (Plusieurs favoris [...] ont été pris dans une chute
collective qui a provoqué la cassure du peloton au passage du Gois.).
Ces informations importantes vont être extraites en utilisant des patrons d’indexation. Par patrons d’indexation nous entendons des structures génériques définissant un niveau et un type de
description sur les objets montrés, les paroles entendues, les concepts évoqués et ils seront liés
à une ontologie.
Pour instancier ces patrons, nous allons faire une analyse textuelle sur les articles à l’aide d’un
système d’extraction possédant des amorces et devant être hiérarchisé. Nous allons également
coupler ce système à une analyse syntaxique afin d’obtenir de meilleurs résultats.
2.2 Une système d’armorçage hiérarchisé
Les amorces Dans le but d’instancier des patrons d’indexation, il est nécessaire dans un premier temps, d’établir des liens sémantiques entre les différents termes de notre corpus. Pour ce
faire, nous allons créer un système utilisant des amorces, système qui servira de dictionnaire
sémantique. Les amorces sont des termes appartenant à une catégorie définie qui vont nous permettre d’identifier d’autres termes appartenant à cette même catégorie. Comme nous possédons
un corpus relativement cohérent et homogène, nous devrions trouver des amorces qui nous permettront de définir des catégories telles que EQUIPE, NATIONALITE. Une fois les différentes
amorces et catégories définies, nous passerons notre système sur notre corpus pour qu’il puisse
extraire toutes les phrases possédant une amorce. Si, par exemple, nous avons une catégorie
EQUIPE, comportant les amorces suivantes : Casino, Polti, US Postal, Rabobank, notre système
sera alors en mesure de pouvoir extraire la phrase suivante de l’article donné en 3.1 : Alex Zulle
(Banesto), Ivan Gotti (Polti), Michael Boorgerd (Rabobank). Nous pourrons ainsi définir quel
cycliste appartient à quelle équipe, élément intéressant pour toutes les recherches concernant les
équipes. Nous reprenons ainsi la démarche de E. Riloff qui a développé les systèmes AutoSlog
puis AutoSlog-TS (Riloff, 1996), (Riloff, Lorenzen, 1999). Leur système s’applique bien à tout
ce qui concerne les listes, les appositions mais nous ne sommes pas sûrs de pouvoir appliquer
cette méthode à notre corpus. Nous pensons que nous avons intérêt à faire intervenir plus de
syntaxe dans le but d’éviter de mauvaises appartenances catégorielles par exemple. Sur ce
dernier point, nous rejoignons Roark et Charniak (Roark, Charniak, 1998).
En n’extrayant que des phrases contenant des amorces, nous allons ainsi éviter de passer les
patrons sur l’ensemble du corpus. Enfin, le fait de définir des catégories, avec les amorces, va
nous servir dans le processus de hiérarchisation.
Un système hiérarchisé De simples amorces ne suffisent effectivement pas pour pouvoir
instancier des patrons d’indexation corrects. Si nous définissons, par exemple, de manière
grossière, le patron d’indexation suivant : CYCLISTE – VAINQUEUR, avec comme catégorie
CYCLISTE comprenant le nom des différents coureurs du Tour de France tel que Armstrong,
Virenque, Jalabert et la catégorie VAINQUEUR comportant les amorces remporter, gagner,
rafler, nous n’allons pas pouvoir extraire la phrase Sur la route de Saint-Nazaire, Casino a raflé
la mise. Il n’y aura pas, en effet, de correspondance entre l’amorce et le terme Casino. Si,
Estelle Le Roux
en revanche, nous avons un système hiérarchisé tel que Cycliste EST-UN Coureur, Coureur
APPARTIENT-A une Equipe, nous pourrons alors établir des correspondances entre Casino et
Coureur et par la même à Cycliste. Nous envisageons donc d’utiliser une ontologie qui va nous
permettre d’avoir une représentation structurée des différentes catégories sémantiques utilisables dans le cadre de l’extraction d’information.
3 Conclusions
L’indexation audiovisuelle est un processus complexe et coûteux car il est difficile de trouver
des unités représentant correctement le contenu : les images possèdent trop de significations et il
est difficile de pouvoir localiser une unité significative. Pour faciliter l’indexation audiovisuelle,
nous proposons d’extraire des informations pertinentes d’articles issus de la presse écrite portant
sur les mêmes événements que les images à indexer, à l’aide de patrons d’indexation et d’une
ontologie.
Références
Auffret G. (2000), Structuration de documents audiovisuels et publication électronique - Constitution
d’une chaine éditoriale numérique pour la mise en ligne de collections audiovisuelles, Thèse de Doctorat,
Université de Technologie de Compiègne.
Habert B., Fabre C. (1999), Elementary Dependency Trees for Identifying Corpus-specific Semantic
Classes, Computers and the Humanities, Vol. 33, no 3, 207-219.
Metz C. (1968), Essais sur la signification au cinéma, Paris, Klincksieck.
Riloff E. (1996), Using Learned Extraction Patterns for Text Classification, Connectionist. In Wermter
S., Riloff E., Scheler G. (eds.), Statistical and Symbolic Approaches to Learning for Natural Language
Processing, Berlin, Springer-Verlag, 75-289.
Riloff E., Lorenzen J. (1999), Extraction-based Text Categorisation: Generating Domain-specific Role
Relationships Automaticaly. In Strzalkowki (ed.), Natural Language Information Retrieval, Kluwer Academic Publishers, 167-196, .
Riloff E., Shepherd J. (1997), A Corpus-Based Approach for Building Semantic Lexicons, Proceedings
of the Second Conference on Empirical Methods in Natural Language Processing, Brown University,
Providence, Rhode Island, USA 127-132.
Roark B., Charniak, E. (1998), Noun-phrase co-occurrence statistics for semi-automatic semantic lexicon
construction. In the 36th Annual Meeting of the Association for Computational Linguistics, Montréal,
Canada, 1110-1116.