FRESA 1.0 - Laboratoire Informatique d`Avignon

Transcription

FRESA 1.0 - Laboratoire Informatique d`Avignon
FRESA 1.0 (a FRamework for Evaluating Summaries
Automatically)
Juan-Manuel Torres-Moreno
29 janvier 2010
Résumé
FRamework of Evaluation Summaries Automatically
Nous présentons FRESA (
), un lo-
giciel qui permet d'évaluer des résumés automatiques sans références humaines. Il utilise la
divergence de Jensen-Shannon calculée sur des ensembles de
n-grammes
La corrélation avec des méthodes classiques d'évaluation comme
1
Rouge
avec ou sans trous.
semble être le cas.
Evaluation de résumés
L'évaluation de la qualité des résumés reste encore une tâche très dicile et subjective. Il
s'agit d'un problème ouvert auquel la communauté n'ai pour le moment su répondre qu'avec
des solutions partielles. De manière générale, les méthodes d'évaluation des résumés peuvent
être classées en deux catégories [5] : les évaluations extrinsèques et intrinsèques. Une évaluation
intrinsèque peut être réalisée directement sur le résumé. La façon extrinsèque évalue le résumé de
forme indirecte dans une tâche précise, comme par exemple, couplé à un système de questionsréponses [4].
Dans la forme intrinsèque, les résumés peuvent être évalués soit manuellement soit semiautomatiquement. La première méthode consomme un coût de temps humain élevé : chaque
résumé doit être lu, évalué et validé par des juges humains. Ainsi la lisibilité, la complexité de la
langue ou la présence des concepts majeurs est mise en valeur. Cependant l'évaluation demeure
subjective, car la divergence entre les juges peut être considérable. La méthode semi-automatique
calcule des mesures de similarité entre un résumé candidat et un ou plusieurs résumés de référence.
Cette méthode possède la capacité d'être reproductible, mais elle exige un nombre de résumés de
référence produits par des humains. Mais puisqu'il n'existe pas de résumé idéal , les résumés
écrits par les personnes peuvent être divergents au niveau du contenu. La rédaction de ce type de
document requiert une analyse approfondie an d'en dégager les idées, le style et les arguments,
ce que chaque personne fait de manière diérente. Par conséquent, deux résumés équivalents
peuvent être produits en utilisant un vocabulaire totalement diérent. Cependant, deux bases
de comparaison existent : l'évaluation concernant le résumé par rapport au document source et
le résumé par rapport aux résumés produits par des humains.
1.1
Evaluations ROUGE
Le logiciel ROUGE utilise le paradigme des résumes de référence humains pour évaluer un
résumé synthétique. Il faut donc disposer de plusieurs versions de résumé de réference an que
l'évaluation soit statistiquement valable. Cependant disposer de résumés de référence peut être
une tâche très chère et coûteuse. Cest pourquoi les eorts de la communauté vont dans le sens
1
2
2
FRESA 1.0
de ne plus dépendre des résumés de référence. Une voie prometteuse fait appel au calcul des
distributions de probabilités, en particulier de leur divergence.
1.2
Divergence de Jensen-Shannon
L'approche de [1] propose d'utiliser une méthode dérivée de la Théorie de l'information pour
l'évaluation automatique de résumés. L'idée principale est de calculer la divergence entre deux
distributions de probabilités. Les deux principales divergences sont celle de Kullback-Leibler
(KL) et celle de Jensen-Shannon (J S ). KL calcule la divergence entre une distribution P et une
autre Q de la façon suivante :
DKL (P ||Q) =
Pmots
1 X
Pmots log2
2 mots
Qmots
(1)
Cette divergence peut être calculée entre la distribution P du résumé candidat et celle Q des
résumés de référence. Cette méthode d'évaluation a été testée sur le corpus DUC 2002, concernant les tâches mono-document et multi-documents. Les résultats montrent que l'évaluation par
divergence de distribution de probabilités atteint des performances comparables aux évaluations
par Rouge-1 en résumé mono-document et les surpassent en résumé multi-documents. Les auteurs ont suggéré de tester sur d'autres ensembles de données issues des campagnes DUC après
2002.
Les travaux de [2, 3] poussent cette analyse pour essayer de se passer des références humaines.
Les auteurs suggèrent d'éviter les références humaines et de calculer directement la divergence
de J S entre la distribution P du résumé candidat et celle Q du document source.
DJ S (P ||Q) =
2Pmots
2Qmots
1 X
Pmots log2
+ Qmots log2
2 mots
Pmots + Qmots
Pmots + Qmots
(2)
Ce calcul est limité uniquement aux uni-grammes des distributions, après stemming des documents. Ses résultats sur les documents et résumés de TAC 2008 montrent une bonne corrélation
avec Pyramides et sont très prometteurs.
2
FRESA 1.0
Fresa est un logiciel qui permet d'évaluer un résumé en fonction de la divergence J S par
rapport à la source. Il permet de calculer J S au moyen des unigrammes, de bigrammes et de
bigrammes à trous (comme le fait Rouge) et leur combination. Il detecte la langue statistiquement (français, anglais et espagnol), puis il réalise un traitement linguistique de surface (ltrage
de mots fonctionnels et regroupement des mots morphologique de mots par des familles) avant
de calculer les distributions de probabilités P et Q.
2.1
Installation
Fresa 1.0 est disponible en systèmes GNU/Linux.
L'installation est simple. Il faut télécharger l'archive fresa.zip du site web1 , puis le decompresser dans le repértoire ./FRESA. Il faut y déposer le contenu du chier decompressé. Ce
repértoire va contenir les programmes, les résumés, les textes et la documentation. Il doit avoir
la structure suivante :
1 Le
paquet
Fresa
peut être téléchargé à l'adresse
http://daniel.iut.univ-metz.fr/home/LIA/cortex/.
2
FRESA 1.0
3
./FRESA/fresa-1.0 qui contient les programmes et les bibliothèques.
./FRESA/doc qui contient cette documentation.
Fresa est capable de detecter la langue des documents au moyen de Lident, un identicateur
statistique de langues, qui est fournit dans la distribution. Lident est capable d'identier anglais,
français et espagnol dans la version actuelle de Fresa. Les traitements de lemmatisation et
ltrage de mots fonctionnels est guidé par Lident
Il est conseillé de créer les deux répertoires suivants, au même niveau de l'arborescence :
./FRESA/Resumes : où on va déposer les résumes à évaluer ;
./FRESA/Textes : où on va déposer les documents
2.2
Lancement
Pour évaluer des résumés au moyen de Fresa, il faut se placer dans le repértoire ./FRESA/,
où l'on a installé le logiciel, puis lancer le programme shell fresa.sh :
./fresa.sh <FICHIER_CONFIGURATION> <MOYENNE>
Où l'argument CONFIGURATION indique le nom du chier de conguration (à placer aussi dans le
repertoire repértoire ./FRESA/). L'argument MOYENNE peut prendre les valeurs oui | non : oui
pour acher la moyenne des evaluations, non autrement. La valeur par défaut est non.
Le chier de conguration est un pseudo-xml et doit contenir la structure suivante :
<FRESA version="1.0">
<EVAL ID="nom_de_l'evaluation">
<TEXTE-ROOT>../REPERTOIRE_DE_TEXTES/</TEXTE-ROOT>
<SUMM-ROOT>../REPERTOIRE_DE_RESUMES/</SUMM-ROOT>
<TEXTE>TEXTE_SOURCE</TEXTE>
<SUMMARIZERS>
<SUMM ID="systeme_1" TXT="resume_systeme_1.txt"/>
<SUMM ID="systeme_2" TXT="resume_systeme_2.txt"/>
<SUMM ID="systeme_3" TXT="resume_systeme_3.txt"/>
...
</SUMMARIZERS>
</EVAL>
...
</FRESA>
L'évaluation d'un texte et d'un ou de plusieurs systèmes doit être placée entre les balises :
<EVAL> ... </EVAL>
Elle contient les répertoires où trouver les résumés et les textes, le nom du document source
et une section contenant les sorties des résumeurs utilisés.
Par exemple, en assumant quatre systèmes de resumé (jss, ctx, reg et etx) à evaluer ; un
texte source (puces.txt) et deux jeux d'evaluations (résumes à 10% et à 20%), le chier de
conguration appelé fresa.puces.in, contiendra l'information suivante :
<FRESA version="1.0">
<EVAL ID="puces10%">
<TEXTE-ROOT>../Textes/</TEXTE-ROOT>
<SUMM-ROOT>../Resumes/</SUMM-ROOT>
<TEXTE>puces.txt</TEXTE>
2
4
FRESA 1.0
<SUMMARIZERS>
<SUMM ID="jss"
<SUMM ID="ctx"
<SUMM ID="reg"
<SUMM ID="etx"
</SUMMARIZERS>
</EVAL>
TXT="resume_puces_jss_0.10.txt"/>
TXT="resume_puces_cortex_0.10.txt"/>
TXT="resume_puces_reg_0.10.txt"/>
TXT="resume_puces_enertex_.10.txt"/>
<EVAL ID="puces20%">
<TEXTE-ROOT>../Textes/</TEXTE-ROOT>
<SUMM-ROOT>../Resumes/</SUMM-ROOT>
<TEXTE>puces.txt</TEXTE>
<SUMMARIZERS>
<SUMM ID="jss" TXT="resume_puces_jss_0.20.txt"/>
<SUMM ID="ctx" TXT="resume_puces_cortex_0.20.txt"/>
<SUMM ID="reg" TXT="resume_puces_reg_0.20.txt"/>
<SUMM ID="etx" TXT="resume_puces_enertex_.20.txt"/>
</SUMMARIZERS>
</EVAL>
</FRESA>
Avec l'execution de la commande :
./fresa.sh fresa.puces.in
Les détails et les moyennes de l'évaluation seront présentés :
-- FRESA 1.0 (FRamework of Evaluation Summaries Automatically)
(c) Juan-Manuel Torres [email protected]
EVAL puces10% : puces.txt
jss FRESA_1: 0.83866 FRESA_2: 0.76162 FRESA_4: 0.77823 FRESA_M:
ctx FRESA_1: 0.88283 FRESA_2: 0.78895 FRESA_4: 0.79516 FRESA_M:
reg FRESA_1: 0.88283 FRESA_2: 0.78895 FRESA_4: 0.79516 FRESA_M:
etx FRESA_1: 0.67482 FRESA_2: 0.72579 FRESA_4: 0.72337 FRESA_M:
EVAL puces20% : puces.txt
jss FRESA_1: 0.87573 FRESA_2: 0.83949 FRESA_4: 0.85021 FRESA_M:
ctx FRESA_1: 0.82991 FRESA_2: 0.81407 FRESA_4: 0.82517 FRESA_M:
reg FRESA_1: 0.82991 FRESA_2: 0.81407 FRESA_4: 0.82517 FRESA_M:
etx FRESA_1: 0.85580 FRESA_2: 0.84925 FRESA_4: 0.84741 FRESA_M:
...
EVAL puces50% : puces.txt
jss FRESA_1: 0.96229 FRESA_2: 0.96542 FRESA_4: 0.96501 FRESA_M:
ctx FRESA_1: 0.95557 FRESA_2: 0.96054 FRESA_4: 0.95676 FRESA_M:
reg FRESA_1: 0.95557 FRESA_2: 0.96054 FRESA_4: 0.95676 FRESA_M:
etx FRESA_1: 0.94910 FRESA_2: 0.95618 FRESA_4: 0.95308 FRESA_M:
0.79284
0.82231
0.82231
0.70799
0.85514
0.82305
0.82305
0.85082
0.96424
0.95762
0.95762
0.95279
Moyennes / Average sur 5 eval
ctx <FRESA_4>: 0.88467 <FRESA_2>: 0.88139 <FRESA_1>: 0.90293 <FRESA_M>: 0.88967
etx <FRESA_4>: 0.86781 <FRESA_2>: 0.86945 <FRESA_1>: 0.85888 <FRESA_M>: 0.86538
3
CONCLUSION, CONTACT
5
jss <FRESA_4>: 0.88969 <FRESA_2>: 0.88248 <FRESA_1>: 0.90913 <FRESA_M>: 0.89377
reg <FRESA_4>: 0.88173 <FRESA_2>: 0.87917 <FRESA_1>: 0.90373 <FRESA_M>: 0.88821
Chaque ligne de la sortie doit être interpretée de la façon suivante :
Nom du système
FRESA_1 : Score de la divergence Jensen-Shannon de unigrammes
FRESA_2 : Score de la divergence Jensen-Shannon en bigrammes
FRESA_4 : Score de la divergence Jensen-Shannon en bigrammes du type SU4
FRESA_M : Score de la divergence moyenne = (FRESA_1 + FRESA_2 + FRESA_4)/3
Les scores obtenus sont toujours normalisés entre [0, 1]. Puisque le score FRESA est égale a
1 − DJ S (Résume, Texte), plus le score est élevé, plus la distribution de probabilités du résumé
est supposé être proche de celle du document source.
3
Conclusion, contact
L'evaluation avec Fresa semble être correlée avec celles realisées avec Rouge, tout en se
passant des coûteuses références humaines. Fresa a la même couleur que Rouge, mais avec un
gôut !
Fresa est fourni sous licence GPL3 (voir http://www.gnu.org/licenses/gpl.html) et il
est distribué sans aucune garantie. Pour plus de renseignements concernant ce logiciel ou un
rapport de bugs de Fresa, contacter Juan-Manuel Torres-Moreno au Laboratoire Informatique
d'Avignon (France).
juan-manuel.torres (at) univ-avignon.fr
Références
[1] Chin-Yew Lin, Guihong Cao, Jianfeng Gao, and Jian-Yun Nie. An information-theoretic approach to automatic evaluation of summaries. In Conference on Human Language Technology
Conference of the North American Chapter of the Association of Computational Linguistics,
pages 463470, Morristown, NJ, USA, 2006. Association for Computational Linguistics.
[2] Annie Louis and Ani Nenkova. Automatic Summary Evaluation without Human Models,
2008.
[3] Annie Louis and Ani Nenkova. Automatically Evaluating Content Selection in Summarization without Human Models. In Conference on Empirical Methods in Natural Language
Processing, pages 306314, Singapore, August 2009. Association for Computational Linguistics.
[4] I. Mani and M. Mayburi. Advances in Automatic Text Summarization. The MIT Press, USA,
1999.
[5] Karen Spärck-Jones and Julia Rose Galliers, editors. Evaluating Natural Language Processing Systems, An Analysis and Review, volume 1083 of Lecture Notes in Computer Science.
Springer, 1996.