Présentation
Transcription
Présentation
Théorie de l’information et du codage Apprentissage de structure : travail François Schnitzler [email protected] le-logo François Schnitzler (ULG) Travail : Diagnostic médical 3 8 novembre 2012 1 / 11 L’utilisation d’un réseau bayésien fait appel à plusieurs algorithmes. Etant donné : I Un ensemble X = {X , . . . , X } de variables aléatoires n 1 discrètes I Des données D i.i.d. hors d’une distribution P(X ) S I Un espace de modèles graphiques M = S∈S {P(X |S, θ)} Les algorithmes suivants sont nécessaires : I Identification de la structure optimale S ∗ I Apprentissage des ensembles de paramètres optimaux θ ∗ for S∗ I Inférence sur une nouvelle réalisation de la loi P(X ), à partir de la structure S ∗ et des paramètres θ∗ le-logo François Schnitzler (ULG) Travail : Diagnostic médical 3 8 novembre 2012 2 / 11 Arbre Un arbre est : une structure sans cycle, où chaque variable a maximum un parent. L’orientation des arcs n’a pas d’importance, car il n’y a pas de v-structure. le-logo François Schnitzler (ULG) Travail : Diagnostic médical 3 8 novembre 2012 3 / 11 Il est possible d’apprendre le réseau bayésien en forme d’arbre qui approxime le mieux P(X ). Comment faire ? Pour une structure donnée, quels sont les paramètres qui approximent le mieux P(X ) ? Parmis toutes les structures, laquelle permet de se reprocher le plus de P(X ) ? L’apprentissage des paramètres est simple : Chacune des distributions conditionnelles présente dans l’arbre doit être identique à celle observée dans la distribution initiale : Parbre (Xi |Xj ) = P(Xi |Xj ) ∀Xi , Xj : Xj est le parent de Xi dans l’arbre. le-logo François Schnitzler (ULG) Travail : Diagnostic médical 3 8 novembre 2012 4 / 11 Il est possible d’apprendre le réseau bayésien en forme d’arbre qui approxime le mieux P(X ). Comment faire ? Algorithme efficace : 1 calcul des informations mutuelles 1 à 1 2 construction d’un arbre de recouvrement de poids maximal (MWST) 3 (orientation des arcs) 4 paramétrisation L’orientation des arcs est facultative. le-logo François Schnitzler (ULG) Travail : Diagnostic médical 3 8 novembre 2012 4 / 11 Construction d’un algorithme d’un MWST par l’algorithme de Kruskal. Algorithme : Ajouter à chaque étape les arcs ayant l’information mutuelle la plus élevée S’arrêter quand l’arbre est complet A B C E A D F A B C D E F B 21 C 25 23 D 14 17 11 E 3 5 13 7 F 15 8 18 19 4 le-logo François Schnitzler (ULG) Travail : Diagnostic médical 3 8 novembre 2012 5 / 11 Construction d’un algorithme d’un MWST par l’algorithme de Kruskal. Algorithme : Ajouter à chaque étape les arcs ayant l’information mutuelle la plus élevée S’arrêter quand l’arbre est complet A B C E A D F A B C D E F B 21 C 25 23 D 14 17 11 E 3 5 13 7 F 15 8 18 19 4 le-logo François Schnitzler (ULG) Travail : Diagnostic médical 3 8 novembre 2012 5 / 11 Construction d’un algorithme d’un MWST par l’algorithme de Kruskal. Algorithme : Ajouter à chaque étape les arcs ayant l’information mutuelle la plus élevée S’arrêter quand l’arbre est complet A B C E A D F A B C D E F B 21 C 25 23 D 14 17 11 E 3 5 13 7 F 15 8 18 19 4 le-logo François Schnitzler (ULG) Travail : Diagnostic médical 3 8 novembre 2012 5 / 11 Construction d’un algorithme d’un MWST par l’algorithme de Kruskal. Algorithme : Ajouter à chaque étape les arcs ayant l’information mutuelle la plus élevée S’arrêter quand l’arbre est complet A B C E A D F A B C D E F B 21 C 25 23 D 14 17 11 E 3 5 13 7 F 15 8 18 19 4 le-logo François Schnitzler (ULG) Travail : Diagnostic médical 3 8 novembre 2012 5 / 11 Construction d’un algorithme d’un MWST par l’algorithme de Kruskal. Algorithme : Ajouter à chaque étape les arcs ayant l’information mutuelle la plus élevée S’arrêter quand l’arbre est complet A B C E A D F A B C D E F B 21 C 25 23 D 14 17 11 E 3 5 13 7 F 15 8 18 19 4 le-logo François Schnitzler (ULG) Travail : Diagnostic médical 3 8 novembre 2012 5 / 11 Un polyarbre est : une structure sans cycle, où le nombre de parents de chaque variable n’est pas limité. L’orientation des arcs est importance, car elle détermine les v-structures ! L’ensemble des arbres est inclu dans l’ensemble des polyarbres. polyarbres X2 arbres pas un arbre X1 X1 X3 X4 X2 X3 X4 le-logo François Schnitzler (ULG) Travail : Diagnostic médical 3 8 novembre 2012 6 / 11 Une distribution correspondant à un polyarbre se récupère facilement (& O(n2 )) à partir d’un oracle... ... sous quelques hypothèses. Algorithme : 1 calcul des informations mutuelles 1 à 1 2 construction d’un arbre de recouvrement de poids maximal (MWST) 3 orientation des arcs 4 paramétrisation le-logo François Schnitzler (ULG) Travail : Diagnostic médical 3 8 novembre 2012 7 / 11 L’orientation des arcs se base sur l’information mutuelle conditionnelle. Algorithme Parcours de l’arbre : de l’extérieur vers l’intérieur Détecter les parents de chaque variable propager l’orientation des arcs obtenus le-logo François Schnitzler (ULG) Travail : Diagnostic médical 3 8 novembre 2012 8 / 11 Recherche de v-structure Les noeuds sont testés comme "sommet" depuis l’extérieur vers l’intérieur. le-logo François Schnitzler (ULG) Travail : Diagnostic médical 3 8 novembre 2012 9 / 11 Recherche de v-structure Les noeuds sont testés comme "sommet" depuis l’extérieur vers l’intérieur. le-logo François Schnitzler (ULG) Travail : Diagnostic médical 3 8 novembre 2012 9 / 11 Recherche de v-structure Les noeuds sont testés comme "sommet" depuis l’extérieur vers l’intérieur. le-logo François Schnitzler (ULG) Travail : Diagnostic médical 3 8 novembre 2012 9 / 11 La détection des parents se base sur l’existence de v-structures. Pour trois variables A,B,C (voir ci-dessous), il y a v-structure si : I(A; C) = 0 I(A; C|B) > 0 A B C le-logo François Schnitzler (ULG) Travail : Diagnostic médical 3 8 novembre 2012 10 / 11 La propagation des arcs se fait à partir des v-structures. Le but est d’éviter la création de nouvelles v-structures. le-logo François Schnitzler (ULG) Travail : Diagnostic médical 3 8 novembre 2012 11 / 11 La propagation des arcs se fait à partir des v-structures. Le but est d’éviter la création de nouvelles v-structures. le-logo François Schnitzler (ULG) Travail : Diagnostic médical 3 8 novembre 2012 11 / 11 La propagation des arcs se fait à partir des v-structures. Le but est d’éviter la création de nouvelles v-structures. le-logo François Schnitzler (ULG) Travail : Diagnostic médical 3 8 novembre 2012 11 / 11 La propagation des arcs se fait à partir des v-structures. Le but est d’éviter la création de nouvelles v-structures. le-logo François Schnitzler (ULG) Travail : Diagnostic médical 3 8 novembre 2012 11 / 11