Présentation

Transcription

Présentation
Théorie de l’information et du codage
Apprentissage de structure : travail
François Schnitzler
[email protected]
le-logo
François Schnitzler (ULG)
Travail : Diagnostic médical 3
8 novembre 2012
1 / 11
L’utilisation d’un réseau bayésien fait appel à plusieurs
algorithmes.
Etant donné :
I Un ensemble X = {X , . . . , X } de variables aléatoires
n
1
discrètes
I Des données D i.i.d. hors d’une distribution P(X )
S
I Un espace de modèles graphiques M =
S∈S {P(X |S, θ)}
Les algorithmes suivants sont nécessaires :
I Identification de la structure optimale S ∗
I Apprentissage des ensembles de paramètres optimaux θ ∗ for
S∗
I Inférence sur une nouvelle réalisation de la loi P(X ), à partir
de la structure S ∗ et des paramètres θ∗
le-logo
François Schnitzler (ULG)
Travail : Diagnostic médical 3
8 novembre 2012
2 / 11
Arbre
Un arbre est :
une structure sans cycle,
où chaque variable a maximum un parent.
L’orientation des arcs n’a pas d’importance, car il n’y a pas de
v-structure.
le-logo
François Schnitzler (ULG)
Travail : Diagnostic médical 3
8 novembre 2012
3 / 11
Il est possible d’apprendre le réseau bayésien en
forme d’arbre qui approxime le mieux P(X ).
Comment faire ?
Pour une structure donnée, quels sont les paramètres qui
approximent le mieux P(X ) ?
Parmis toutes les structures, laquelle permet de se reprocher le
plus de P(X ) ?
L’apprentissage des paramètres est simple :
Chacune des distributions conditionnelles présente dans l’arbre doit
être identique à celle observée dans la distribution initiale :
Parbre (Xi |Xj ) = P(Xi |Xj )
∀Xi , Xj : Xj est le parent de Xi dans l’arbre.
le-logo
François Schnitzler (ULG)
Travail : Diagnostic médical 3
8 novembre 2012
4 / 11
Il est possible d’apprendre le réseau bayésien en
forme d’arbre qui approxime le mieux P(X ).
Comment faire ?
Algorithme efficace :
1
calcul des informations mutuelles 1 à 1
2
construction d’un arbre de recouvrement de poids maximal
(MWST)
3
(orientation des arcs)
4
paramétrisation
L’orientation des arcs est facultative.
le-logo
François Schnitzler (ULG)
Travail : Diagnostic médical 3
8 novembre 2012
4 / 11
Construction d’un algorithme d’un MWST par
l’algorithme de Kruskal.
Algorithme :
Ajouter à chaque étape les arcs ayant l’information mutuelle la
plus élevée
S’arrêter quand l’arbre est complet
A
B
C
E
A
D
F
A
B
C
D
E
F
B
21
C
25
23
D
14
17
11
E
3
5
13
7
F
15
8
18
19
4
le-logo
François Schnitzler (ULG)
Travail : Diagnostic médical 3
8 novembre 2012
5 / 11
Construction d’un algorithme d’un MWST par
l’algorithme de Kruskal.
Algorithme :
Ajouter à chaque étape les arcs ayant l’information mutuelle la
plus élevée
S’arrêter quand l’arbre est complet
A
B
C
E
A
D
F
A
B
C
D
E
F
B
21
C
25
23
D
14
17
11
E
3
5
13
7
F
15
8
18
19
4
le-logo
François Schnitzler (ULG)
Travail : Diagnostic médical 3
8 novembre 2012
5 / 11
Construction d’un algorithme d’un MWST par
l’algorithme de Kruskal.
Algorithme :
Ajouter à chaque étape les arcs ayant l’information mutuelle la
plus élevée
S’arrêter quand l’arbre est complet
A
B
C
E
A
D
F
A
B
C
D
E
F
B
21
C
25
23
D
14
17
11
E
3
5
13
7
F
15
8
18
19
4
le-logo
François Schnitzler (ULG)
Travail : Diagnostic médical 3
8 novembre 2012
5 / 11
Construction d’un algorithme d’un MWST par
l’algorithme de Kruskal.
Algorithme :
Ajouter à chaque étape les arcs ayant l’information mutuelle la
plus élevée
S’arrêter quand l’arbre est complet
A
B
C
E
A
D
F
A
B
C
D
E
F
B
21
C
25
23
D
14
17
11
E
3
5
13
7
F
15
8
18
19
4
le-logo
François Schnitzler (ULG)
Travail : Diagnostic médical 3
8 novembre 2012
5 / 11
Construction d’un algorithme d’un MWST par
l’algorithme de Kruskal.
Algorithme :
Ajouter à chaque étape les arcs ayant l’information mutuelle la
plus élevée
S’arrêter quand l’arbre est complet
A
B
C
E
A
D
F
A
B
C
D
E
F
B
21
C
25
23
D
14
17
11
E
3
5
13
7
F
15
8
18
19
4
le-logo
François Schnitzler (ULG)
Travail : Diagnostic médical 3
8 novembre 2012
5 / 11
Un polyarbre est :
une structure sans cycle,
où le nombre de parents de chaque variable n’est pas limité.
L’orientation des arcs est importance, car elle détermine les
v-structures !
L’ensemble des arbres est inclu dans l’ensemble des polyarbres.
polyarbres
X2
arbres
pas un arbre
X1
X1
X3
X4
X2
X3
X4
le-logo
François Schnitzler (ULG)
Travail : Diagnostic médical 3
8 novembre 2012
6 / 11
Une distribution correspondant à un polyarbre se
récupère facilement (& O(n2 )) à partir d’un oracle...
... sous quelques hypothèses.
Algorithme :
1
calcul des informations mutuelles 1 à 1
2
construction d’un arbre de recouvrement de poids maximal
(MWST)
3
orientation des arcs
4
paramétrisation
le-logo
François Schnitzler (ULG)
Travail : Diagnostic médical 3
8 novembre 2012
7 / 11
L’orientation des arcs se base sur l’information
mutuelle conditionnelle.
Algorithme
Parcours de l’arbre : de l’extérieur vers l’intérieur
Détecter les parents de chaque variable
propager l’orientation des arcs obtenus
le-logo
François Schnitzler (ULG)
Travail : Diagnostic médical 3
8 novembre 2012
8 / 11
Recherche de v-structure
Les noeuds sont testés comme "sommet" depuis l’extérieur vers
l’intérieur.
le-logo
François Schnitzler (ULG)
Travail : Diagnostic médical 3
8 novembre 2012
9 / 11
Recherche de v-structure
Les noeuds sont testés comme "sommet" depuis l’extérieur vers
l’intérieur.
le-logo
François Schnitzler (ULG)
Travail : Diagnostic médical 3
8 novembre 2012
9 / 11
Recherche de v-structure
Les noeuds sont testés comme "sommet" depuis l’extérieur vers
l’intérieur.
le-logo
François Schnitzler (ULG)
Travail : Diagnostic médical 3
8 novembre 2012
9 / 11
La détection des parents se base sur l’existence de
v-structures.
Pour trois variables A,B,C (voir ci-dessous), il y a v-structure si :
I(A; C) = 0
I(A; C|B) > 0
A
B
C
le-logo
François Schnitzler (ULG)
Travail : Diagnostic médical 3
8 novembre 2012
10 / 11
La propagation des arcs se fait à partir des
v-structures.
Le but est d’éviter la création de nouvelles v-structures.
le-logo
François Schnitzler (ULG)
Travail : Diagnostic médical 3
8 novembre 2012
11 / 11
La propagation des arcs se fait à partir des
v-structures.
Le but est d’éviter la création de nouvelles v-structures.
le-logo
François Schnitzler (ULG)
Travail : Diagnostic médical 3
8 novembre 2012
11 / 11
La propagation des arcs se fait à partir des
v-structures.
Le but est d’éviter la création de nouvelles v-structures.
le-logo
François Schnitzler (ULG)
Travail : Diagnostic médical 3
8 novembre 2012
11 / 11
La propagation des arcs se fait à partir des
v-structures.
Le but est d’éviter la création de nouvelles v-structures.
le-logo
François Schnitzler (ULG)
Travail : Diagnostic médical 3
8 novembre 2012
11 / 11