Système de question/réponse pour PIPS
Transcription
Système de question/réponse pour PIPS
Système de question/réponse pour PIPS Contact : Arnaud Gaudinat : [email protected] Celia Boyer: [email protected] Patrick Ruch: [email protected] Introduction : A l’heure ou la constitution d’ontologie est de mise pour formaliser la connaissance, force est de constater que leurs utilisations restent discrètes. En effet l’approche symbolique est prometteuse mais difficile à manier dans des applications réelles. Une des applications ambitieuses des ontologies est la création d’un système capable de répondre aux questions de l’utilisateur. Pourtant il existe une autre approche pour la création de système question réponse qui se base sur la redondance de l’information dans les grandes bases de données textuelles et les méthodes classiques et efficaces de recherche d’information. Ce type de méthode à été mis en lumière lors des conférences d’évaluation de TREC, où le meilleur système obtient une précision de 0.77 sur les factoids1, et sur les NIL2 une précision de 0.857 et un rappel de 0.547. Le but dans PIPS est de développer un système similaire pour le domaine médical en étendant les méthodes actuelles de recherche d’information mais aussi en utilisant des contraintes provenant du module A5 pour augmenter la précision d’un tel système. Classiquement 3 étapes séquentielles: • • • Analyse et traitement de la question Recherche de document et de passage Traitement de la réponse Plan d’étude 1. 2. 3. 4. Etude de l’état de l’art Sélection des types de questions et/ou réponses traitées Architecture du système question/réponse Implémentation de base des 3 modules Analyse et traitement de la question Recherche de document et de passage Traitement de la réponse 5. Evaluation sur un jeu de question/réponse 6. Amélioration à l’aide de module linguistique et de connaissance 7. Réévaluation sur un jeu de question/réponse 1 2% 6% 10 % 40 % 14 % 12 % 14 % 4% 15 % 1% Les types de question peut être factoid (ou fait), liste (ex : « quelles sont les facteurs de risques du cancer de l’utérus ») ou autre (comme les définitions). 2 NIL doit être la réponse du système lorsqu’il n’a pas l’information dans sa base de données 8. Analyse d’erreur 9. Amélioration des modules les plus faibles 10. Intégration dans PIPS 3% 14 % 5% Etude de l’état de l’art Etude de la littérature et des librairies logiciels disponibles pour réaliser un système de question réponse. Sélection des types question/réponse Étude théorique pour identifier la taxonomie des questions /réponses type dans le domaine médical avec sélection des plus importantes du point de vue de l’utilisateur. Architecture du système question/réponse Conception et architecture du système question/réponse avec la description du flot d’information. Implémentation de base des 3 modules Mise au point d’un démonstrateur permettant de traiter un des types de question/réponse du début jusqu'à la fin. Certain sous modules pourront être des « fake engine » le but étant de valider l’architecture de départ. Evaluation sur un jeu de question/réponse Mise en place d’un jeu de question/réponse pour évaluer la qualité du système. Et mise en place de la plate-forme d’évaluation. Amélioration à l’aide de modules linguistique et de connaissance Utilisation d’analyseur syntaxique, morphologique ou de base de connaissance venant du WP5, UMLS ou MeSH pour améliorer la précision de certain module du système. Réévaluation sur le jeu de question réponse et analyse d’erreur Après évaluation, le but est d’identifier les parties fortes et faibles du système. Amélioration des parties les plus faibles Implémentation de solutions pour améliorer les parties faibles du système. Heuristiques, rétropropagation et autres… Intégration dans PIPS Cette étude se fera continuellement afin d’identifier les meilleurs endroits au sein de PIPS pour cette application. Un effort sera porter sur l’interface utilisateur pour intégrer au mieux cette fonctionnalité. Notes et références Pour une explication détaillée des méthodes classiques voir Dan Moldovan [1] (meilleurs résultats TREC depuis 3 ans). Pour un survol se reporter aux deux derniers « overview of the question/answering track » [2,3]. TREC2004 comporte une demi-douzaine de systèmes expliqués. 1. D. Moldovan, M. Pa¸sca, S. Harabagiu, and M. Surdeanu. Performance issues and error analysis in an open-domain question answering system. In Proceedings of the 40th Annual Meeting of the Association for Computational Linguistics (ACL-2002), 2002. 2. Ellen M. Voorhees. Overview of the TREC 2003 robust retrieval track. In Proceedings of the Twelfth Text REtrieval Conference (TREC 2003), pages 69–77, 2004. 3. E. M. Voorhees. Overview of the TREC 2003 Question Answering Track. In The Twelfth Text REtrieval Conference (TREC-12), 2004.