Système de question/réponse pour PIPS

Transcription

Système de question/réponse pour PIPS
Système de question/réponse pour PIPS
Contact : Arnaud Gaudinat : [email protected]
Celia Boyer: [email protected]
Patrick Ruch: [email protected]
Introduction :
A l’heure ou la constitution d’ontologie est de mise pour formaliser la connaissance, force est
de constater que leurs utilisations restent discrètes. En effet l’approche symbolique est
prometteuse mais difficile à manier dans des applications réelles. Une des applications
ambitieuses des ontologies est la création d’un système capable de répondre aux questions de
l’utilisateur. Pourtant il existe une autre approche pour la création de système question
réponse qui se base sur la redondance de l’information dans les grandes bases de données
textuelles et les méthodes classiques et efficaces de recherche d’information. Ce type de
méthode à été mis en lumière lors des conférences d’évaluation de TREC, où le meilleur
système obtient une précision de 0.77 sur les factoids1, et sur les NIL2 une précision de 0.857
et un rappel de 0.547. Le but dans PIPS est de développer un système similaire pour le
domaine médical en étendant les méthodes actuelles de recherche d’information mais aussi en
utilisant des contraintes provenant du module A5 pour augmenter la précision d’un tel
système.
Classiquement 3 étapes séquentielles:
•
•
•
Analyse et traitement de la question
Recherche de document et de passage
Traitement de la réponse
Plan d’étude
1.
2.
3.
4.
Etude de l’état de l’art
Sélection des types de questions et/ou réponses traitées
Architecture du système question/réponse
Implémentation de base des 3 modules
ƒ Analyse et traitement de la question
ƒ Recherche de document et de passage
ƒ Traitement de la réponse
5. Evaluation sur un jeu de question/réponse
6. Amélioration à l’aide de module linguistique et de connaissance
7. Réévaluation sur un jeu de question/réponse
1
2%
6%
10 %
40 %
14 %
12 %
14 %
4%
15 %
1%
Les types de question peut être factoid (ou fait), liste (ex : « quelles sont les facteurs de risques du cancer de
l’utérus ») ou autre (comme les définitions).
2
NIL doit être la réponse du système lorsqu’il n’a pas l’information dans sa base de données
8. Analyse d’erreur
9. Amélioration des modules les plus faibles
10. Intégration dans PIPS
3%
14 %
5%
Etude de l’état de l’art
Etude de la littérature et des librairies logiciels disponibles pour réaliser un système de
question réponse.
Sélection des types question/réponse
Étude théorique pour identifier la taxonomie des questions /réponses type dans le domaine
médical avec sélection des plus importantes du point de vue de l’utilisateur.
Architecture du système question/réponse
Conception et architecture du système question/réponse avec la description du flot
d’information.
Implémentation de base des 3 modules
Mise au point d’un démonstrateur permettant de traiter un des types de question/réponse du
début jusqu'à la fin. Certain sous modules pourront être des « fake engine » le but étant de
valider l’architecture de départ.
Evaluation sur un jeu de question/réponse
Mise en place d’un jeu de question/réponse pour évaluer la qualité du système. Et mise en
place de la plate-forme d’évaluation.
Amélioration à l’aide de modules linguistique et de connaissance
Utilisation d’analyseur syntaxique, morphologique ou de base de connaissance venant du
WP5, UMLS ou MeSH pour améliorer la précision de certain module du système.
Réévaluation sur le jeu de question réponse et analyse d’erreur
Après évaluation, le but est d’identifier les parties fortes et faibles du système.
Amélioration des parties les plus faibles
Implémentation de solutions pour améliorer les parties faibles du système. Heuristiques,
rétropropagation et autres…
Intégration dans PIPS
Cette étude se fera continuellement afin d’identifier les meilleurs endroits au sein de PIPS
pour cette application. Un effort sera porter sur l’interface utilisateur pour intégrer au mieux
cette fonctionnalité.
Notes et références
Pour une explication détaillée des méthodes classiques voir Dan Moldovan [1] (meilleurs
résultats TREC depuis 3 ans). Pour un survol se reporter aux deux derniers « overview of the
question/answering track » [2,3]. TREC2004 comporte une demi-douzaine de systèmes
expliqués.
1. D. Moldovan, M. Pa¸sca, S. Harabagiu, and M. Surdeanu. Performance issues and
error analysis in an open-domain question answering system. In Proceedings of the
40th Annual Meeting of the Association for Computational Linguistics (ACL-2002),
2002.
2. Ellen M. Voorhees. Overview of the TREC 2003 robust retrieval track. In Proceedings
of the Twelfth Text REtrieval Conference (TREC 2003), pages 69–77, 2004.
3. E. M. Voorhees. Overview of the TREC 2003 Question Answering Track. In The
Twelfth Text REtrieval Conference (TREC-12), 2004.