Rappels analyse multivariée descriptive
Transcription
Rappels analyse multivariée descriptive
04/11/2015 Rappels d’analyse exploratoire multidimensionnelle Analyse en composantes principales Analyse des correspondances Classification Introduction L’analyse exploratoire multidimensionnelle désigne un ensemble de méthodes permettant l’exploration, la description, la fouille de grands tableaux de données décrivant un grand ensemble d’individus, observations ou unités statistiques à travers un grand nombre de variables, caractères ou attributs. Elle comprend deux grandes familles de méthodes: • Les méthodes factorielles de réduction du nombre de variables qui sont synthétisées à travers des composantes factorielles combinaisons linéaires des variables initiales • Les méthodes de classification de réduction du nombre d’individus par regroupement en classes homogènes 1 04/11/2015 Introduction • Différentes méthodes selon la nature des variables: • Cas d’un seul tableau de données (individus x variables, données de proximité non traitées) • Les méthodes factorielles : ACP pour un tableau de p variables quantitatives AFC pour deux variables qualitatives ACM pour un tableau de p variables qualitatives • • • • Les méthodes de classification : Partitionnement direct en K (fixé a priori) classes Classification hiérarchique par succession de partitions emboitées en classes • • • De moins en moins fines – algorithmes agglomératifs classification ascendante hiérarchique CAH • De plus en plus fine – algorithmes divisifs • Extension à plusieurs tableaux : multi blocs, tableaux multiples • Extension à des données mixtes • Classification de variables 04/11/2015 3 Notions générales d’analyse factorielle Etape 1 recueil • Les données: n individus décrits par p variables – Cas classique: p variables quantitatives – Cas de p=2 variables qualitatives transformation en tableau de contingence, tableaux de profils • Lignes : « Individus » sont les modalités de la variable 1 • Colonnes : « Individus » sont les modalités de la variable 2 – Cas de p variables qualitatives transformation en tableau disjonctif • Les variables sont les indicatrices des modalités des variables – ou tableau de Burt : • Les individus sont les modalités des variables 2 04/11/2015 Notions générales d’analyse factorielle Etape 2 traitement • Les méthodes factorielles permettent d’explorer les liaisons entre variables et les ressemblances entre les individus – Corrélation linéaire, chi2 de contingence, rapport de corrélation – Choix d’une mesure de distance- métrique • Résultats: représentations graphiques planes: – Plans factoriels :visualisation des individus (notion de distances entre individus) – Cercle de corrélations (ACP) : visualisation des variables- visualisation des modalités (AFC, ACM) Notions générales d’analyse factorielle Etape 3 interprétation • Choix du nombre de dimensions à retenir – Critères empiriques • Mesure de la qualité des représentations obtenues – Critère global – Critère local - individuel • Interprétation interne des axes : – donner un sens en lien avec les variables initiales, – expliquer la position des individus • Interprétation externe des axes avec des variables supplémentaires 3 04/11/2015 Principe général de l’analyse factorielle • Les individus et variables sont considérés comme des éléments de Rp et Rn respectivement • Chaque variable est associée à un axe de Rn • Chaque individu est associé à un point dans Rp On a ainsi un nuage de points de Rp impossible à visualiser si p>3. • Le but de l’analyse factorielle est de trouver un sous espace de dimension faible pour y voir au mieux les individus: trouver de nouvelles variables combinaisons linéaires des variables initiales conservant le maximum de l’information du nuage initial Principe général de l’analyse factorielle L’analyse repose sur des distances entre les points représentant les individus. Forte influence de la méthode de calcul de distances sur les résultats de l’analyse. Il est essentiel de la déterminer avant toute étude 4 04/11/2015 Principe général de l’analyse factorielle Le calcul des distances En physique : formule de Pythagore d 2 (ei ; e j ) = ( xil − x lj ) 2 + ( xik − x kj ) 2 + ... Par contre en statistique: individus décrits par des variables exprimées dans des unités particulières : euros, kg, km… Pythagore est aussi arbitraire qu’une autre. En théorie le choix de la distance dépend de l’utilisateur qui seul peut préciser celle qui est adéquate. distance euclidienne entre individus 1 et 2 = (8-21) 2 + (300-2000) 2 = 132 + 17002 = 17002 néglige Q1 Diviser Q2 et Q3 par 100 (8-21) 2 + (3-20) 2 = 132 + 172 ré-équilibrage Réduire toutes les variables 9 Principe général de l’analyse factorielle distance usuelle en ACP: métrique associée M= Diag(1/sj2) Réduire les variables C’est la plus utilisée, c’est l’option par défaut de beaucoup de logiciels d’ACP car en plus de permettre de s’affranchir des unités de mesure, elle donne à chaque caractère la même importance quelle que soit sa dispersion dans le calcul des distances. Distance usuelle en AFC: métrique chi2 M= Diag(n/n.j) ou M= Diag(n/ni.) Distance de Mahalanobis: M= V-1 ou W-1 10 5 04/11/2015 Principe général de l’analyse factorielle Notion essentielle: inertie du nuage de points On appelle inertie totale du nuage de points la moyenne pondérée des carrés des distances des points au centre de gravité. Elle mesure la dispersion du nuage autour de son centre de gravité. n n i =1 i =1 I g = ∑ pi (ei − g )' M (ei − g ) = ∑ pi d 2 (ei , g ) 11 Principe général de l’analyse factorielle G. Saporta Ig = moyenne des carrés des distances à g xk ∑ x x x g pi d 2 (i, g ) x x x x2 x1 = ∑Var( x j ) Inertie=variance généralisée 12 6 04/11/2015 Principe général de l’analyse factorielle égalité la plus utilisée : somme des variances des variables p si ACP non normée I g = ∑ s 2j j =1 Si ACP normée I g = trace ( R ) = p (p = nombre de variables ; l’inertie ne dépend alors pas des valeurs des variables mais uniquement de leur nombre) 13 Principe général de l’analyse factorielle Rappels: espaces initiaux de dimension trop grande impossible d’y visualiser le nuage de points recherche d’espaces de dimension réduite qui ajustent au mieux le nuage de points, c’est à dire qui respectent le plus possible la configuration initiale 14 7 04/11/2015 Principe général de l’analyse factorielle La méthode = projeter le nuage de points en minimisant les déformations des distances inhérentes à la projection critère de choix de l’espace de projection F Max ∑∑ pk pl d ( k , l ) Adobe Acrobat Document 2 F k l (le sous espace recherché est tel que la moyenne des carrés des distances entre points projetés soit maximale (la projection raccourcit les distances), c’est à dire qu’il faut que l’inertie du nuage projetée soit maximale.) 15 Principe général de l’analyse factorielle on montre que la recherche du sous espace F peut s’effectuer de façon séquentielle Méthode : chercher le sous-espace de dimension 1 d’inertie maximale, puis le sousespace de dimension 1 orthogonal au précédent d’inertie maximale et ainsi de suite. 16 8 04/11/2015 Principe général de l’analyse factorielle Solution: vecteurs propres de matrices: Axes principaux a, VMa = λa a’Ma=1 M orthonormés Facteurs principaux u, MVu= λu u’M-1u=1 M-1 orthonormés Composantes principales c , XMX’D= λc D-orthogonales C=Xu u=Ma ACP u vecteurs propres de V ou R puis C=Xu AFC c vecteurs propres de PLxPC ou PCxPL (issus du tableau de contingence) et formules de transition ACM comme AFC mais avec tableau disjonctif ou Burt (voir en détail p 20 à 28 pour l’ACP cas normé et cas général) Principe général de l’analyse factorielle La projection ou coordonnée d’un individu sur ∆ est définie par p ci = ∑ xij u j j =1 La liste des coordonnées ci des individus sur Δ forme une nouvelle variable artificielle c1 . c= . c n = p x ju j ∑ j =1 = Xu c’est une combinaison linéaire des variables initiales dont on va chercher à maximiser la variance. 18 9 04/11/2015 Principe général de l’analyse factorielle L’inertie des points projetés sur le sous espace Δ (droite) s’écrit : n var(c ) = ∑ pi ci2 = c ' Dc = u ' X ' DXu = u 'Vu i =1 Rappelons qu’on se limite au cas usuel de l’ACP normée ; la matrice des données centrées réduites correspond donc à la matrice des corrélations Le critère de maximisation s’écrit alors : M ax u u 'V u = M ax u u ' R u avec uu =1 ' problème de max d’une forme quadratique solution :u1 vecteur propre de R associé à la plus grande valeur propre λ 1 19 Principe général de l’analyse factorielle ensuiteu2 orthogonal à u1 tel que l’inertie des points projetés soit maximale Solution : u2 vecteur propre de R associé à la deuxième plus grande valeur propre λ2 le sous-espace à q dimension recherché est engendré par les q premiers vecteurs propres de la matrice R associés aux plus grandes valeurs propres 20 10 04/11/2015 Principe général de l’analyse factorielle Définitions : facteurs principaux : u tq Ru = λu Ils contiennent les coefficients des variables initiales dans la combinaison composantes principales : c = Xu c j = Xu j (ce sont les variables artificielles définies par les facteurs principaux, elle contiennent les coordonnées des projections des individus sur les axes principaux) En pratique, l’ACP va donc consister à diagonaliser la matrice R pour obtenir les u et à calculer les composantes principales 21 Principe général de l’analyse factorielle (voir Saporta 2006 annexe E) • Métrique quelconque M (matrice symétrique définie positive) – Critère de l’ACP: maximiser l’inertie du nuage projeté sur un sous espace Fk de dimension k Max (Trace(VMP)) avec P projecteur M-orthogonal – Solution : le sous espace F est engendré par les k vecteurs propres a de VM associées aux k plus grandes valeurs propres (obtenus séquentiellement par dérivation vectorielle du rapport de deux formes quadratiques), – Ces vecteurs propres M-normés à 1 sont les axes principaux 11 04/11/2015 Principe général de l’analyse factorielle (voir Saporta 2006 annexe E) • Métrique quelconque M (matrice symétrique définie positive) – Inertie du nuage projeté sur un sous espace Fk de dimension k = Trace(VMP) à maximiser • P projecteur M-orthogonal – Cas particulier d’une droite d‘axe unitaire a • P= a(a’Ma)-1a’M • Trace(VMP)= Trace[(VMaa’M)]/a’Ma= Trace[a’M(VM)a]/a’Ma – Critère ACP Max (a’MVMa)/a’Ma • Solution dérivation vectorielle a est vecteur propre de VM – Axe principal M-normé a’Ma=1 Principe général de l’analyse factorielle • Aux axes principaux a sont associés les facteurs principaux u = Ma vecteurs propres de MV, M-1 normés à 1 associés aux plus grandes valeurs propres • Les composantes principales associées: c=Xu – Elles sont vecteurs propres de XMX’D D-orthogonales de variance maximale • En pratique, on calcule u par diagonalisation de MV puis on obtient c, les axes n’ont pas d’intérêt. 12 04/11/2015 Principe général de l’analyse factorielle interprétation L’analyse factorielle fournit de nouvelles variables artificielles et des représentations graphiques visualisant des relations entre variables et d’éventuels groupes de variables et d’individus (plans factoriels – cercle de corrélation seulement en ACP) interne phase d’interprétation des résultats: externe Phase délicate nécessitant une certaine méthode pour éviter de tirer des conclusions erronées 25 Principe général de l’analyse factorielle interprétation • Mesure de la qualité des représentations obtenues L’analyse factorielle fournit une représentation graphique des individus dans un espace de dimension plus faible que p mais celle ci n’est qu’une vision déformée de la réalité. points délicats de l’interprétation 1) apprécier cette déformation , cette perte d’information due à la réduction de dimension 2) déterminer le nombre d'axes, ie la dimension de l’espace 13 04/11/2015 Principe général de l’analyse factorielle interprétation critère usuel = % d’inertie totale expliquée k ∑ i=1 p λ k i = ∑ λ i=1 I i λi ∑ mesure globale insuffisante : i=1 10% n’a pas le même intérêt sur un tableau de 20 variables et un de 100 variables. qualité de sa représentation des individus indépendamment du % d’inertie global g (En effet il est possible d’avoir un premier plan principal F2 avec une inertie totale importante et qu’en projection deux individus soient très proches, cette proximité peut être illusoire si les deux individus sont éloignés dans F2⊥ ) Une mesure locale de qualité de représentation d’un individu est le cosinus de l’angle entre le plan principal et le vecteur ei (Si ce cosinus est grand, sera voisin du plan, on pourra alors examiner la position de sa projection sur le plan par rapport à d’autres points ; si ce cosinus est faible, on se 27 gardera de toute conclusion) Principe général de l’analyse factorielle interprétation Intérêt de l’analyse = réduction de dimension choix du nombre d’axes = point essentiel critères théoriques: (multinormalité et matrice de covariance) * tests statistiques * des intervalles de confiance sur les valeurs propres 14 04/11/2015 Principe général de l’analyse factorielle Interprétation • Choix du nombre de dimensions à retenir – Critères empiriques • ACP: règle de Kaiser : en ACP normée retenir les valeurs propres plus grandes que 1 ou % > 1/p (on ne s’intéresse qu’aux composantes qui apportent plus que les variables initiales) règle du coude sur le diagramme de décroissance des valeurs propres saporta &al (2003) valeurs propres dépassant leur moyenne de plus de 2 écart-types (moyenne=1 et variance= (p-1)/(n-1)) Remarque: il n’existe aucun critère de type au moins x% d’inertie, il faut tenir compte de la taille du nombre de variables et de la force de leurs corrélations. Aucun critère n’est absolu. • AFC : règle du coude • ACM retenir les valeurs propres 1/p (indépendance) et règle du coude Principe général de l’analyse factorielle • Interprétation des axes : – donner un sens en lien avec les variables initiales, – expliquer la position des individus • On distingue interprétation interne et externe variables et individus actifs sont utilisés dans les calculs de l’ACP par opposition aux variables et individus supplémentaires ne participent pas directement à l’analyse L’interprétation interne consiste à étudier les résultats en se basant sur les variables et les individus actifs. L’étude des éléments supplémentaires se fait à travers la phase d’interprétation externe. 15 04/11/2015 Principe général de l’analyse factorielle interprétation interne ACP- variables Interpréter une ACP = donner une signification à ces composantes Principales à travers le calcul des coefficients de corrélation linéaire entre composantes principales et variables initiales On synthétise usuellement les corrélations des variables pour un couple de composantes sur un graphique appelé cercle de corrélation sur lequel, chaque variable 2 j Xj a une abscisse r (c1 , X j ) et une ordonnée r (c , X ) avec r (c, X j ) = λ u j On s’intéresse aux coefficients les plus forts en valeur absolue et proches de 1. L’examen du cercle de corrélation permet de détecter les éventuels groupes de variables qui se ressemblent ou au contraire qui s’opposent donnant ainsi un sens aux axes principaux 31 Principe général de l’analyse factorielle interprétation interne ACP- variables Remarque : Effet « Taille » Lorsque toutes les variables initiales sont positivement corrélées entre elles, la première composante principale définit « un facteur de taille ». (En effet, une matrice symétrique ayant tous ses termes positifs admet un premier vecteur propre dont toutes les composantes sont de même signe. On peut les choisir positifs et la première composante sera positivement corrélée avec toutes les variables ) Les individus sont rangés sur l’axe 1 par valeurs croissantes de l’ensemble des variables (en moyenne). La deuxième composante principale différencie alors des individus de « taille » semblable : on l’appelle facteur de forme. 32 16 04/11/2015 Principe général de l’analyse factorielle interprétation interne ACP- individus Etude des individus par examen des coordonnées et surtout des représentations graphiques, les plans principaux. Le but est de voir la répartition des individus, des groupes ressemblants ou distincts. Si les individus ne sont pas anonymes ils peuvent aider à l’interprétation des composantes et vice versa 33 Principe général de l’analyse factorielle interprétation interne ACP- individus contributions des individus : C T R (i ) = p i c k2i λk (où cki représente la valeur pour l’individu i de la kième composante ck et n 2 λk = ∑ pc i ki ) i=1 C T R ( i) > p i Mais CTR (i) >> pi = facteur d’instabilité effectuer l’analyse en l’éliminant puis le rajouter ensuite en élément supplémentaire ( les poids sont tous égaux, les contributions n’apportent pas plus d’information que les coordonnées) 34 17 04/11/2015 Principe général de l’analyse factorielle interprétation externe ACP variables quantitatives Interprétation externe avec des variables supplémentaires Rappel: les éléments supplémentaires n’interviennent pas dans les calculs Elles peuvent être très utiles a posteriori pour conforter et enrichir l’interprétation des axes. cas de variables numériques : a) simple calcul du coefficient de corrélation entre chaque variable supplémentaire et les composantes principales b) placement sur les cercles de corrélation c) interprétation : détection des corrélations significatives ie les plus fortes 35 Principegénéral général de l’analyse Principe l’analysefactorielle factorielle interprétation externe ACP- variables qualitatives cas de variables qualitatives : représentation de chaque modalité par son centre de gravité. Certains logiciels fournissent des aides à l’interprétation : les valeurs-test mesures de l’éloignement du point représentatif d’une modalité par rapport à l’origine dont le but est la mise en évidence d’une position significativement excentrée d’un sous groupe d’individus. Une modalité sera considérée comme significative d’un axe si la valeur-test qui lui est associée est supérieure en valeur absolue à 2. 18 04/11/2015 Principe l’analysefactorielle factorielle Principegénéral général de l’analyse interprétation externe ACP- individus Cas des individus supplémentaires : Simple positionnement sur les axes principaux par calcul des combinaisons linéaires de leurs valeurs pour les variables initiales. EXEMPLE Principe l’analysefactorielle factorielle Principegénéral général de l’analyse interprétation interne AFC – ACM Modalités • Pas de cercle de corrélation en analyse des correspondance • Représentation sur les axes principaux des coordonnées (barycentriques) des modalités des variables qualitatives. • Les modalités dont les contributions aux inerties des axes les plus importantes et supérieures à leur poids donnent les significations des axes, les signes des coordonnées permettent de voir si ces contributions sont opposées ou dans le même sens (c’est une différence importante par rapport à l’ACP) • On y ajoute les cosinus carrés mesure de qualité locale 19 04/11/2015 généraldes de l’analyse 3Principe Interprétation résultatsfactorielle d’une AFC interprétation interne – AFC Modalités • a et b coordonnées des profils ligne – profils colonnes les contributions des catégories aux inerties des axes on a : a’(D1/n)a = λ = 1m ni.ai2 ∑ n i=1 1 1m n. j bj2 ∑ n j =1 2 b’(D2/n)b = λ = Profil ligne i ni. 2 ai n CTR(i) = λ et profil colonne j n. j 2 bj n CTR(j) = λ 39 Principe général de l’analyse factorielle interprétation interne – AFC Modalités • Comme en ACP : les contributions les plus fortes sont considérées comme constitutives des axes, elles donnent le sens aux axes • Critère: retenir CTR(i) > ni. n (poids de i) • Le signe des coordonnées permet de mettre en évidence des contributions opposées 40 20 04/11/2015 Principe général de l’analyse factorielle 3 Interprétation des résultats d’une AFC interprétation interne – AFC Modalités • Proximités entre catégories Comme en ACP : cosinus carrés d’angles entre individus (profils lignes- profils colonnes) et axe principal permettent de mesurer la qualité de la représentation. On évite l’interprétation abusive des proximités graphiques 41 Principe général de l’analyse factorielle interprétation interne – ACM Modalités Comme en AFC ou en ACP mais attention au % d’inertie - contributions des variables actives - valeurs test des variables supplémentaires 42 21 04/11/2015 Principe général de l’analyse factorielle interprétation interne – ACM Modalités Contributions à un axe factoriel a- Effectif de la catégorie j d’une modalité : 1 1 ∑m µ= a'Da = ∑ nj (aj )2 np np j=1 i Coordonnée de la catégorie j sur l’axe nj (aj )2 np CTR( j) = µ Modalités intéressantes: CTR(j) > poids = nj/np 43 Principe général de l’analyse factorielle interprétation interne – ACM Modalités Contributions à un axe factoriel b- d’une variable : cumul des contributions des modalités de la variable mi CTR(Xi) = ∑CTR( j) = j=1 1 m nj (aj )2 ∑ µ j=1 np i c- d’un individu : 1 2 zi 1 1n 2 n µ= zz' = ∑zi CTR(i) = µ n n i=1 On utilise ces contributions ainsi que les cosinus carrés pour juger de la qualité des projections 44 22 04/11/2015 Principe général de l’analyse factorielle interprétation interne – ACM Modalités Contributions à l’inertie totale 1 p Inertie = ∑ mi − 1 = ∑ p j d 2 ( j , g ) j p i =1 d 2 (j,g) = On montre que: n -1 nj Une modalité est d’autant plus loin de g que nj est faible I(j) = Inertie d’une catégorie = nj n 1 d 2 (j,g) = (1- j ) np p n Fonction décroissante de l’effectif les modalités à faible effectif risquent de perturber l’analyse 45 Principe général de l’analyse factorielle interprétation interne – ACM Modalités Inertie d’une variable m n 1 m -1 I(Xi ) = ∑ I(j) = ∑ (1- j ) = i j=1 p n p i Contribution de la variable i: CTR(Xi ) = I(Xi ) mi −1 = Itotale ∑(mi −1) L’inertie d’une variable est d’autant plus grande que mi est grand On évite des différences trop importantes entre les nombres Modalités des variables 46 23 04/11/2015 Principe général de l’analyse factorielle interprétation externe – ACM Modalités Les variables supplémentaires ne participent pas directement à l’analyse. Variables quantitatives: pas de représentation sur plans factoriels on se contente de calculer leur corrélation avec les composantes factorielles Variables qualitatives: représentation sur les plans factoriels selon le principe barycentrique et valeurs test pour juger de la significativité de la liaison v-test = aj nj n -1 n - nj Significative si supérieure à 2 pour un seuil 5% 47 Principe général de l’analyse factorielle Remarques sur l’ACM La mise sous forme disjonctive est une commodité mathématique, permet de plus l’étude de variables mixtes (après mise en classes des variables quantitatives) par une ACM En cas de liaison non linéaire entre variables quantitatives (ACP inefficace) on pourra faire une ACM ACM permet la transformation de variables qualitatives en quantitatives (utile pour classification ou discriminante sur données qualitatives) 48 24 04/11/2015 Méthodes de classification Analyse descriptive des données réduction du nombre de variables réduction du nombre d’individus analyse factorielle Classification automatique association des deux méthodes: classification sur les points du nuage traité par l’analyse factorielle , on utilise les composantes principales 49 Méthodes de classification 2 types de méthodes • Méthodes de partitionnement : une partition en un nombre fixe de classes • Méthodes hiérarchiques : suite de partitions emboitées a b c d e 50 25 04/11/2015 Méthodes de classification • notion de distance entre individus : critère de classification • notion de distance entre parties (distance entre groupes d’individus) : stratégie d’agrégation 51 Méthodes de classification • Réaliser une classification nécessite : - Un ensemble d’individus à classer - Définir une distance entre individus : d(x , y) « choix d’un critère de classification » Définir une distance entre groupes : D(X ,Y) « choix d’une stratégie d’agrégation » • L’objectif des méthodes de classification automatique est la construction d’une partition ou d’une suite de partitions emboîtées d’un ensemble d’objets. • Les classes formées doivent être le plus homogènes possible d’où la nécessite de définir un critère à optimiser. 52 26 04/11/2015 Méthodes de classification Méthodes de partitionnement direct • Elles permettent le traitement rapide des ensembles d’effectifs assez élevés en optimisant localement un critère de type inertie. (les individus sont des points de Rp espace euclidien) • But = construire une partition unique des objets en k classes, k fixé a priori ou déterminé par la méthode. • Idée centrale = choisir une partition initiale des objets et déplacer les objets d’une classe à l’autre pour obtenir une partition meilleure. • Plusieurs algorithmes selon le choix de la partition initiale, la définition de « meilleure partition » et selon la méthode utilisée pour améliorer la partition. 53 Méthodes de classification IW = ∑ Pi I i inertie intra classe G. Saporta 2 I B = ∑ Pd ( g i ; g ) inertie inter classe i Relation de Huyghens : I = IW + IB x x x g1 x x x x x x g2 x g x x x x x gk x x x 54 27 04/11/2015 Méthodes de classification • Critère usuel de classification = chercher la partition qui = maximise IB minimise IW Rque : k fixé, connu, il peut exister plusieurs partitions qui minimise IW. On cherche celle à k classes. • IW ne permet pas de comparer 2 partitions avec des nombres de classes différents. 55 Méthodes de classification Affectation des objets aux groupes Méthode des centres mobiles (Forgy) Etape 1 a) configuration initiale : C1(0) , C2(0) …. , Ck(0) b) chaque individu i est affecté à une classe et une seule El(0) de centre Cl(0) telle que : soit minimum en parcourant tous les centres C1(0) , C2(0) …. , Ck(0) a la fin de cette étape on a k classes E1(0) , E2(0) …. , Ek(0) Etape 2 a) On calcule les centres de gravité des classes précedentes : C1(1) , C2(1) …. , Ck(1) b) chaque individu i est affecté à une classe et une seule El(1) de centre Cl(1) telle que : soit minimum en parcourant tous les centres C1(1) , C2(1) …. , Ck(1) a la fin de cette étape on a k classes E1(1) , E2(1) …. , Ek(1) arrêt de la procédure : – – – 2 étapes successives ne changent pas les classes le nombre d’itérations fixé est atteint la valeur du critère reste inchangée 56 28 04/11/2015 Méthodes de classification • Remarque : formes fortes • Problème : la partition finale dépend du nombre de classes et du choix des centres initiaux • Solution : appliquer l’algorithme sur s tirages différents, croiser les s partitions pour obtenir une partition dite en formes fortes ou regroupements stables • (formes fortes = ensembles d’éléments ayant toujours été regroupés dans la partition finale pour les s passages de l’algorithme). 57 Méthodes de classification Méthodes hiérarchiques • Elles consistent à fournir un ensemble de partitions de E en classes de moins en moins fines par regroupements successifs de parties. • On obtient une hiérarchie représentée par un arbre de classification ou dendrogramme. • On associe au système de classes résultant une échelle de niveau : à chaque partition on associe une valeur numérique représentant le niveau auquel ont lieu les regroupements • Différentes méthodes selon la stratégie de regroupement 58 29 04/11/2015 Méthodes de classification Méthodes de classification Stratégies d’agrégation le saut minimum ou Single Linkage dmin(A,B) = inf ( d(i,i’) ; i €A , i’€ B) le diamètre Complete Linkage dmax(A,B) = sup ( d(i,i’) ; i €A , i’€ B) Moyenne des distances Average Linkage dmoy(A,B) = ( d(i,i’) ; i €A , i’€ B)/( cardAcardB) Méthode de Ward ou stratégie du moment d’inertie (Cas de distances euclidiennes): dward = perte d’inertie inter résultant du regroupement dward(A,B) = (pApB/(pA+pB))d2(gA ,gB) 60 30 04/11/2015 Méthodes de classification Un exemple a b c d e a 0 3 7 3 4 b 3 0 4 4 1 c 7 4 0 2 6 d 3 4 2 0 1/2 e 4 1 6 ½ 0 G. Saporta 61 Méthodes de classification 3 4.75 2 3.3 1 2.5 1/2 1/2 d e b a c d inf b e a c moyenne 7 4 3 0.5 d G. Saporta e b sup a c 62 31 04/11/2015 Méthodes de classification L’algorithme de l’ inf (Johnson) provoque souvent un effet de chaîne 3 2 1 1/2 d e b c a inf G. Saporta 63 Méthodes de classification Classification mixte (SPAD) Les algorithmes classiques sont plus ou moins adaptés à la gestion d’un nombre importants d’objets à classer : • partitionnement : ensemble volumineux à faible coût mais la partition dépend des centres initiaux et du nombre de classes. • hiérarchique : non adaptée aux vastes ensembles D’où les algorithmes mixtes * centres mobiles * classification hiérarchique des groupes obtenus * réaffectation par centres mobiles (consolidation) 64 32 04/11/2015 Méthodes de classification coupure de l’arbre : procédure parti • les procédures produisent un arbre et un histogramme des niveaux d’agrégation des classes. • La coupure de l’arbre s’effectue au niveau d’un saut important de l’indice (coude) on obtient ainsi une partition de bonne qualité situation idéale • • • • situation plus délicate ****** ******** ****************** ********************* Coude net ******** ********* *********** ************* pas de coude net 65 Méthodes de classification Interprétation des classes Description des classes procédure decla (SPAD) Voirexemple cette procédure fournit une caractérisation statistique automatique des classes d’une partition : • les éléments les plus significatifs sont recherchés dans l’ensemble des données et rangés selon le critères des valeurs test (voir définition plus loin) • Decla fournit également les statistiques MOD/CLA et CLA/MOD caractérisant la classe respectivement par le contenu et le contenant (voir définitions plus loin) 66 33