INGENIERIE DES CONNAISSANCES TEXTUELLES
Transcription
INGENIERIE DES CONNAISSANCES TEXTUELLES
INGENIERIE DES CONNAISSANCES TEXTUELLES Maîtrise d'Informatique 2ème Année – Semestre 1 Département d'Informatique Université de Caen Basse-Normandie https://dias.users.greyc.fr/?op=paginas/ict.html Session 6: Découverte de Relations Lexicales Plan Intuition Synonymie Résolution des Tests du TOEFL Découverte de Relations Synonymiques Hyperonymie Découverte de Relations Hyperonymiques Résumé Session 6: Découverte de Relations Lexicales Intuition Une fois découvert l'ensemble des termes d'un domaine, comment construire une ressource lexicale? Session 6: Découverte de Relations Lexicales Intuition WordNet: Synonymie et Hyperonymie Session 6: Découverte de Relations Lexicales Tests du TOEFL Résolution de Tests du TOEFL Session 6: Découverte de Relations Lexicales Tests du TOEFL Différentes Approches Mesures du Premier Ordre Mesures du Deuxième Ordre Analyse Sémantique Latente (LSA) Session 6: Découverte de Relations Lexicales Tests du TOEFL Mesures du Premier Ordre (Turney, 2001) Mesures du Deuxième Ordre La plupart des méthodes Session 6: Découverte de Relations Lexicales Tests du TOEFL Mesures du Deuxième Ordre Poids des caractéristiques Mesures de similarité Session 6: Découverte de Relations Lexicales Tests du TOEFL Analyse Sémantique Latente (LSA) Landauer et al. (1998) Comment résoudre le problème des matrices vides? human interface computer user system response time EPS survey trees graph minors c1 1 1 1 0 0 0 0 0 0 0 0 0 c2 0 0 1 1 1 1 1 0 1 0 0 0 c3 0 1 0 1 1 0 0 1 0 0 0 0 c4 1 0 0 0 2 0 0 1 0 0 0 0 c5 0 0 0 1 0 1 1 0 0 0 0 0 m1 0 0 0 0 0 0 0 0 0 1 0 0 m2 0 0 0 0 0 0 0 0 0 1 1 0 m3 0 0 0 0 0 0 0 0 0 1 1 1 m4 0 0 0 0 0 0 0 0 1 0 1 1 Session 6: Découverte de Relations Lexicales Tests du TOEFL Analyse Sémantique Latente (LSA) Décomposition en Valeures Singulières A = UΣVT Réduction de Dimension ~A = ~U~Σ~VT mxn mxm mxn nxn Session 6: Découverte de Relations Lexicales Tests du TOEFL Analyse Sémantique Latente (LSA) Nouvelle matrice dans un nouvel espace “plein” c1 c2 c3 c4 c5 m1 m2 m3 m4 human 0.16 0.40 0.38 0.47 0.18 -0.05 -0.12 -0.16 -0.09 interface 0.14 0.37 0.33 0.40 0.16 -0.03 -0.07 -0.10 -0.04 computer 0.15 0.51 0.36 0.41 0.24 0.02 0.06 0.09 0.12 user 0.26 0.84 0.61 0.70 0.39 0.03 0.08 0.12 0.19 system 0.45 1.23 1.05 1.27 0.56 -0.07 -0.15 -0.21 -0.05 response 0.16 0.58 0.38 0.42 0.28 0.06 0.13 0.19 0.22 time 0.16 0.58 0.38 0.42 0.28 0.06 0.13 0.19 0.22 EPS 0.22 0.55 0.51 0.63 0.24 -0.07 -0.14 -0.20 -0.11 survey 0.10 0.53 0.23 0.21 0.27 0.14 0.31 0.44 0.42 trees -0.06 0.23 -0.14 -0.27 0.14 0.24 0.55 0.77 0.66 graph -0.06 0.34 -0.15 -0.30 0.20 0.31 0.69 0.98 0.85 minors -0.04 0.25 -0.10 -0.21 0.15 0.22 0.50 0.71 0.62 Session 6: Découverte de Relations Lexicales Tests du TOEFL Est-ce que “Résoudre” correspond à “Découvrir” (Dias et al., 2010)? Session 6: Découverte de Relations Lexicales Découverte de Synonymes “Résoudre” n'est pas identique à “Découvrir” Définition: Les synonymes sont des unités lexicales qui peuvent se subsituer sans perte de sens dans un même contexte Le cours d'ICT du M2 IMALANG est fantastique L'UE d'ICT du M2 Image et Langue est merveilleuse Session 6: Découverte de Relations Lexicales Découverte de Synonymes Nouvelle idée Extraction de paraphrases Alignement de paraphrases Session 6: Découverte de Relations Lexicales Découverte de Synonymes Nouvelle idée Création automatique de tests du TOEFL Résolution des tests par analyse distributionnelle Session 6: Découverte de Relations Lexicales Découverte de Synonymes Extraction de Paraphrases Une paraphrase est un couple de phrases dont le sens est similaire. Plusieurs métriques ont été proposées mais deux phrases identiques sont jugées comme des paraphrases. Dans notre cas, cette situation n'est pas souhaitable. Session 6: Découverte de Relations Lexicales Découverte de Synonymes Extraction de Paraphrases La notion de liens exclusifs entre deux phrases Comment évaluer si deux phrases sont des paraphrases? Session 6: Découverte de Relations Lexicales Découverte de Synonymes Extraction de Paraphrases Quelques résultats Session 6: Découverte de Relations Lexicales Découverte de Synonymes Alignement de Paraphrases Alignement Global Alignement Local Session 6: Découverte de Relations Lexicales Découverte de Synonymes Alignement de Paraphrases Regrouper les paraphrases par clustering Choisir les MFS comme méthode d'alignement global Session 6: Découverte de Relations Lexicales Découverte de Synonymes Création Automatique de Tests du TOEFL Qualité Espérée de l'Extraction Session 6: Découverte de Relations Lexicales Découverte de Synonymes Exemples de Tests Créés Session 6: Découverte de Relations Lexicales Découverte de Synonymes Résoudre les Tests Problème de l'Ambiguïté Appliquer le paradigme du “One Sense per Discourse” Session 6: Découverte de Relations Lexicales Hyperonymie Déterminer une relation de subsomption Session 6: Découverte de Relations Lexicales Hyperonymie Plusieurs propositions ont été faites: Patrons syntaxiques: X is a kind of Y Mesures de similarités asymétriques Du premier ordre Du deuxième ordre Est-on capable de retrouver l'ordre de subsomption? Pour un ensemble de mots de WordNet, retrouver la chaîne hyperonymique Session 6: Découverte de Relations Lexicales Découverte de Chaînes Les hyperonymes/hyponymes tendent à s'attirer de façon asymétrique banane fruit L'idée est que dans un ensemble de mots donnés, le mot le plus spécifique sera celui qui attirera le plus de mots généraux Session 6: Découverte de Relations Lexicales Découverte de Chaînes Visualisation par Graphe Session 6: Découverte de Relations Lexicales Découverte de Chaînes L'algorithme du TextRank peut résoudre ce problème Chaque sommet reçoit un poids en fonction des arcs entrants et sortants TextRank non Pondéré TextRank Pondéré Session 6: Découverte de Relations Lexicales Découverte de Chaînes Quelques Résultats (I) Session 6: Découverte de Relations Lexicales Découverte de Chaînes Quelques Résultats (II) Session 6: Découverte de Relations Lexicales Résumé Intuition Synonymie Résolution des Tests du TOEFL Découverte de Relations Synonymiques Hyperonymie Découverte de Relations Hyperonymiques Session 6: Découverte de Relations Lexicales Prochains Cours CM: Ontologies Terminologiques TP: Projet https://dias.users.greyc.fr/?op=paginas/ict.html Session 6: Découverte de Relations Lexicales