INGENIERIE DES CONNAISSANCES TEXTUELLES

Transcription

INGENIERIE DES CONNAISSANCES TEXTUELLES
INGENIERIE DES CONNAISSANCES
TEXTUELLES
Maîtrise d'Informatique
2ème Année – Semestre 1
Département d'Informatique
Université de Caen Basse-Normandie
https://dias.users.greyc.fr/?op=paginas/ict.html
Session 6: Découverte de Relations Lexicales
Plan
Intuition
 Synonymie
 Résolution des Tests du TOEFL
 Découverte de Relations Synonymiques
 Hyperonymie
 Découverte de Relations Hyperonymiques
 Résumé

Session 6: Découverte de Relations Lexicales
Intuition
Une fois découvert l'ensemble des termes d'un
domaine, comment construire une ressource
lexicale?

Session 6: Découverte de Relations Lexicales
Intuition

WordNet: Synonymie et Hyperonymie
Session 6: Découverte de Relations Lexicales
Tests du TOEFL

Résolution de Tests du TOEFL
Session 6: Découverte de Relations Lexicales
Tests du TOEFL

Différentes Approches



Mesures du Premier Ordre
Mesures du Deuxième Ordre
Analyse Sémantique Latente (LSA)
Session 6: Découverte de Relations Lexicales
Tests du TOEFL

Mesures du Premier Ordre (Turney, 2001)

Mesures du Deuxième Ordre

La plupart des méthodes
Session 6: Découverte de Relations Lexicales
Tests du TOEFL

Mesures du Deuxième Ordre

Poids des caractéristiques

Mesures de similarité
Session 6: Découverte de Relations Lexicales
Tests du TOEFL

Analyse Sémantique Latente (LSA)


Landauer et al. (1998)
Comment résoudre le problème des matrices vides?
human
interface
computer
user
system
response
time
EPS
survey
trees
graph
minors
c1
1
1
1
0
0
0
0
0
0
0
0
0
c2
0
0
1
1
1
1
1
0
1
0
0
0
c3
0
1
0
1
1
0
0
1
0
0
0
0
c4
1
0
0
0
2
0
0
1
0
0
0
0
c5
0
0
0
1
0
1
1
0
0
0
0
0
m1
0
0
0
0
0
0
0
0
0
1
0
0
m2
0
0
0
0
0
0
0
0
0
1
1
0
m3
0
0
0
0
0
0
0
0
0
1
1
1
m4
0
0
0
0
0
0
0
0
1
0
1
1
Session 6: Découverte de Relations Lexicales
Tests du TOEFL

Analyse Sémantique Latente (LSA)
Décomposition en Valeures Singulières

A = UΣVT
 Réduction de Dimension

~A = ~U~Σ~VT

mxn
mxm
mxn
nxn
Session 6: Découverte de Relations Lexicales
Tests du TOEFL

Analyse Sémantique Latente (LSA)

Nouvelle matrice dans un nouvel espace “plein”
c1
c2
c3
c4
c5
m1
m2
m3
m4
human
0.16
0.40
0.38
0.47
0.18
-0.05 -0.12 -0.16 -0.09
interface
0.14
0.37
0.33
0.40
0.16
-0.03 -0.07 -0.10 -0.04
computer
0.15
0.51
0.36
0.41
0.24
0.02
0.06
0.09
0.12
user
0.26
0.84
0.61
0.70
0.39
0.03
0.08
0.12
0.19
system
0.45
1.23
1.05
1.27
0.56
-0.07 -0.15 -0.21 -0.05
response
0.16
0.58
0.38
0.42
0.28
0.06
0.13
0.19
0.22
time
0.16
0.58
0.38
0.42
0.28
0.06
0.13
0.19
0.22
EPS
0.22
0.55
0.51
0.63
0.24
-0.07 -0.14 -0.20 -0.11
survey
0.10
0.53
0.23
0.21
0.27
0.14
0.31
0.44
0.42
trees
-0.06
0.23
-0.14 -0.27
0.14
0.24
0.55
0.77
0.66
graph
-0.06
0.34
-0.15 -0.30
0.20
0.31
0.69
0.98
0.85
minors
-0.04
0.25
-0.10 -0.21
0.15
0.22
0.50
0.71
0.62
Session 6: Découverte de Relations Lexicales
Tests du TOEFL
Est-ce que “Résoudre” correspond à
“Découvrir” (Dias et al., 2010)?

Session 6: Découverte de Relations Lexicales
Découverte de Synonymes
“Résoudre” n'est pas identique à “Découvrir”
 Définition:


Les synonymes sont des unités lexicales qui peuvent
se subsituer sans perte de sens dans un même
contexte
Le cours d'ICT du M2 IMALANG est fantastique
L'UE d'ICT du M2 Image et Langue est merveilleuse
Session 6: Découverte de Relations Lexicales
Découverte de Synonymes

Nouvelle idée

Extraction de paraphrases

Alignement de paraphrases
Session 6: Découverte de Relations Lexicales
Découverte de Synonymes

Nouvelle idée

Création automatique de tests du TOEFL

Résolution des tests par analyse distributionnelle
Session 6: Découverte de Relations Lexicales
Découverte de Synonymes

Extraction de Paraphrases


Une paraphrase est un couple de phrases dont le
sens est similaire.
Plusieurs métriques ont été proposées mais deux
phrases identiques sont jugées comme des
paraphrases.
 Dans notre cas, cette situation n'est pas
souhaitable.
Session 6: Découverte de Relations Lexicales
Découverte de Synonymes

Extraction de Paraphrases


La notion de liens exclusifs entre deux phrases
Comment évaluer si deux phrases sont des
paraphrases?
Session 6: Découverte de Relations Lexicales
Découverte de Synonymes

Extraction de Paraphrases

Quelques résultats
Session 6: Découverte de Relations Lexicales
Découverte de Synonymes

Alignement de Paraphrases

Alignement Global

Alignement Local
Session 6: Découverte de Relations Lexicales
Découverte de Synonymes

Alignement de Paraphrases

Regrouper les paraphrases par clustering

Choisir les MFS comme méthode d'alignement global
Session 6: Découverte de Relations Lexicales
Découverte de Synonymes

Création Automatique de Tests du TOEFL

Qualité Espérée de l'Extraction
Session 6: Découverte de Relations Lexicales
Découverte de Synonymes

Exemples de Tests Créés
Session 6: Découverte de Relations Lexicales
Découverte de Synonymes

Résoudre les Tests


Problème de l'Ambiguïté
Appliquer le paradigme du “One Sense per
Discourse”
Session 6: Découverte de Relations Lexicales
Hyperonymie

Déterminer une relation de subsomption
Session 6: Découverte de Relations Lexicales
Hyperonymie

Plusieurs propositions ont été faites:
 Patrons syntaxiques: X is a kind of Y
 Mesures de similarités asymétriques
 Du premier ordre
 Du deuxième ordre
Est-on capable de retrouver l'ordre de
subsomption?
 Pour un ensemble de mots de WordNet,
retrouver la chaîne hyperonymique

Session 6: Découverte de Relations Lexicales
Découverte de Chaînes
Les hyperonymes/hyponymes tendent à
s'attirer de façon asymétrique

banane
fruit
L'idée est que dans un ensemble de mots
donnés, le mot le plus spécifique sera celui qui
attirera le plus de mots généraux

Session 6: Découverte de Relations Lexicales
Découverte de Chaînes

Visualisation par Graphe
Session 6: Découverte de Relations Lexicales
Découverte de Chaînes
L'algorithme du TextRank peut résoudre ce
problème
 Chaque sommet reçoit un poids en fonction
des arcs entrants et sortants
 TextRank non Pondéré


TextRank Pondéré
Session 6: Découverte de Relations Lexicales
Découverte de Chaînes

Quelques Résultats (I)
Session 6: Découverte de Relations Lexicales
Découverte de Chaînes

Quelques Résultats (II)
Session 6: Découverte de Relations Lexicales
Résumé
Intuition
 Synonymie
 Résolution des Tests du TOEFL
 Découverte de Relations Synonymiques
 Hyperonymie
 Découverte de Relations Hyperonymiques

Session 6: Découverte de Relations Lexicales
Prochains Cours
CM: Ontologies Terminologiques
TP: Projet
https://dias.users.greyc.fr/?op=paginas/ict.html
Session 6: Découverte de Relations Lexicales