Rappels analyse multivariée descriptive

Transcription

Rappels analyse multivariée descriptive
04/11/2015
Rappels d’analyse exploratoire
multidimensionnelle
Analyse en composantes principales
Analyse des correspondances
Classification
Introduction
L’analyse exploratoire multidimensionnelle désigne un ensemble de
méthodes permettant l’exploration, la description, la fouille de
grands tableaux de données décrivant un grand ensemble d’individus,
observations ou unités statistiques à travers un grand nombre de
variables, caractères ou attributs.
Elle comprend deux grandes familles de méthodes:
• Les méthodes factorielles de
réduction du nombre de
variables qui sont
synthétisées à travers des
composantes factorielles
combinaisons linéaires des
variables initiales
• Les méthodes de
classification de réduction
du nombre d’individus par
regroupement en classes
homogènes
1
04/11/2015
Introduction
• Différentes méthodes selon la nature des variables:
• Cas d’un seul tableau de données (individus x variables, données de proximité non traitées)
• Les méthodes factorielles :
ACP pour un tableau de p variables quantitatives
AFC pour deux variables qualitatives
ACM pour un tableau de p variables qualitatives
•
•
•
• Les méthodes de classification :
Partitionnement direct en K (fixé a priori) classes
Classification hiérarchique par succession de partitions emboitées en
classes
•
•
•
De moins en moins fines – algorithmes agglomératifs classification
ascendante hiérarchique CAH
•
De plus en plus fine – algorithmes divisifs
• Extension à plusieurs tableaux : multi blocs, tableaux multiples
• Extension à des données mixtes
• Classification de variables
04/11/2015
3
Notions générales d’analyse factorielle
Etape 1 recueil
• Les données: n individus décrits par p variables
– Cas classique: p variables quantitatives
– Cas de p=2 variables qualitatives transformation en
tableau de contingence, tableaux de profils
• Lignes : « Individus » sont les modalités de la variable 1
• Colonnes : « Individus » sont les modalités de la variable 2
– Cas de p variables qualitatives transformation en
tableau disjonctif
• Les variables sont les indicatrices des modalités des
variables
– ou tableau de Burt :
• Les individus sont les modalités des variables
2
04/11/2015
Notions générales d’analyse factorielle
Etape 2 traitement
• Les méthodes factorielles permettent d’explorer les
liaisons entre variables et les ressemblances entre
les individus
– Corrélation linéaire, chi2 de contingence, rapport de
corrélation
– Choix d’une mesure de distance- métrique
• Résultats: représentations graphiques planes:
– Plans factoriels :visualisation des individus
(notion de distances entre individus)
– Cercle de corrélations (ACP) : visualisation des
variables- visualisation des modalités (AFC, ACM)
Notions générales d’analyse factorielle
Etape 3 interprétation
• Choix du nombre de dimensions à retenir
– Critères empiriques
• Mesure de la qualité des représentations obtenues
– Critère global
– Critère local - individuel
• Interprétation interne des axes :
– donner un sens en lien avec les variables initiales,
– expliquer la position des individus
• Interprétation externe des axes avec des variables
supplémentaires
3
04/11/2015
Principe général de l’analyse factorielle
• Les individus et variables sont considérés comme des
éléments de Rp et Rn respectivement
• Chaque variable est associée
à un axe de Rn
• Chaque individu est associé
à un point dans Rp
On a ainsi un nuage de points de Rp impossible à visualiser
si p>3.
• Le but de l’analyse factorielle est de trouver un sous espace
de dimension faible pour y voir au mieux les individus:
trouver de nouvelles variables combinaisons linéaires des variables
initiales conservant le maximum de l’information du nuage initial
Principe général de l’analyse factorielle
L’analyse repose sur des distances entre les
points représentant les individus. Forte
influence de la méthode de calcul de distances
sur les résultats de l’analyse. Il est essentiel de
la déterminer avant toute étude
4
04/11/2015
Principe général de l’analyse factorielle
Le calcul des distances
En physique : formule de Pythagore
d 2 (ei ; e j ) = ( xil − x lj ) 2 + ( xik − x kj ) 2 + ...
Par contre en statistique: individus décrits par des variables exprimées dans des
unités particulières : euros, kg, km…
Pythagore est aussi arbitraire qu’une autre.
En théorie le choix de la distance dépend de l’utilisateur qui seul peut préciser celle qui est
adéquate.
distance euclidienne entre individus 1 et 2 =
(8-21) 2 + (300-2000) 2 = 132 + 17002 = 17002
néglige Q1
Diviser Q2 et Q3 par 100
(8-21) 2 + (3-20) 2 = 132 + 172 ré-équilibrage
Réduire toutes les variables
9
Principe général de l’analyse factorielle
distance usuelle en ACP: métrique associée M= Diag(1/sj2)
Réduire les variables C’est la plus utilisée, c’est l’option par défaut de beaucoup
de logiciels d’ACP car en plus de permettre de s’affranchir des unités de
mesure, elle donne à chaque caractère la même importance quelle que soit sa
dispersion dans le calcul des distances.
Distance usuelle en AFC: métrique chi2 M= Diag(n/n.j) ou M= Diag(n/ni.)
Distance de Mahalanobis: M= V-1 ou W-1
10
5
04/11/2015
Principe général de l’analyse factorielle
Notion essentielle: inertie du nuage de points
On appelle inertie totale du nuage de points la
moyenne pondérée des carrés des distances des
points au centre de gravité.
Elle mesure la dispersion du nuage autour de son
centre de gravité.
n
n
i =1
i =1
I g = ∑ pi (ei − g )' M (ei − g ) = ∑ pi d 2 (ei , g )
11
Principe général de l’analyse factorielle
G. Saporta
Ig = moyenne des carrés des distances à g
xk
∑
x
x
x
g
pi d 2 (i, g )
x
x
x
x2
x1
= ∑Var( x j )
Inertie=variance généralisée
12
6
04/11/2015
Principe général de l’analyse factorielle
égalité la plus utilisée : somme des variances des variables
p
si ACP non normée
I g = ∑ s 2j
j =1
Si ACP normée
I g = trace ( R ) = p
(p = nombre de variables ; l’inertie ne dépend alors pas des valeurs des variables mais
uniquement de leur nombre)
13
Principe général de l’analyse factorielle
Rappels:
espaces initiaux de dimension trop grande
impossible d’y visualiser le nuage de points
recherche d’espaces de dimension réduite qui
ajustent au mieux le nuage de points, c’est à
dire qui respectent le plus possible la
configuration initiale
14
7
04/11/2015
Principe général de l’analyse factorielle
La méthode = projeter le nuage de points en
minimisant les déformations des distances
inhérentes à la projection
critère de choix de l’espace de projection F
Max ∑∑ pk pl d ( k , l )
Adobe Acrobat
Document
2
F
k
l
(le sous espace recherché est tel que la moyenne des carrés des
distances entre points projetés soit maximale (la projection
raccourcit les distances), c’est à dire qu’il faut que l’inertie du
nuage projetée soit maximale.)
15
Principe général de l’analyse factorielle
on montre que la recherche du sous espace F
peut s’effectuer de façon séquentielle
Méthode : chercher le sous-espace de
dimension 1 d’inertie maximale, puis le sousespace de dimension 1 orthogonal au
précédent d’inertie maximale et ainsi de
suite.
16
8
04/11/2015
Principe général de l’analyse factorielle
Solution: vecteurs propres de matrices:
Axes principaux a, VMa = λa a’Ma=1 M orthonormés
Facteurs principaux u, MVu= λu u’M-1u=1 M-1 orthonormés
Composantes principales c , XMX’D= λc D-orthogonales
C=Xu
u=Ma
ACP u vecteurs propres de V ou R puis C=Xu
AFC c vecteurs propres de PLxPC ou PCxPL (issus du tableau
de contingence) et formules de transition
ACM comme AFC mais avec tableau disjonctif ou Burt
(voir en détail p 20 à 28 pour l’ACP cas normé et cas général)
Principe général de l’analyse factorielle
La projection ou coordonnée d’un individu sur ∆ est définie par
p
ci = ∑ xij u j
j =1
La liste des coordonnées ci des individus sur Δ forme une
nouvelle variable artificielle
 c1

.
c= 
 .

 c n


 =



p
x ju j
∑
j =1
= Xu
c’est une combinaison linéaire des variables initiales dont on
va chercher à maximiser la variance.
18
9
04/11/2015
Principe général de l’analyse factorielle
L’inertie des points projetés sur le sous espace Δ (droite) s’écrit :
n
var(c ) = ∑ pi ci2 = c ' Dc = u ' X ' DXu = u 'Vu
i =1
Rappelons qu’on se limite au cas usuel de l’ACP normée ; la matrice des données
centrées réduites correspond donc à la matrice des corrélations
Le critère de maximisation s’écrit alors :
M ax u u 'V u = M ax u u ' R u avec uu =1
'
problème de max d’une forme quadratique
solution :u1 vecteur propre de R associé à la plus grande valeur propre λ
1
19
Principe général de l’analyse factorielle
ensuiteu2 orthogonal à u1 tel que l’inertie des points
projetés soit maximale
Solution : u2 vecteur propre de R associé à la
deuxième plus grande valeur propre λ2
le sous-espace à q dimension recherché est
engendré par les q premiers vecteurs propres de
la matrice R associés aux plus grandes valeurs
propres
20
10
04/11/2015
Principe général de l’analyse factorielle
Définitions :
facteurs principaux :
u tq Ru = λu
Ils contiennent les coefficients des variables initiales dans la combinaison
composantes principales
:
c = Xu
c j = Xu j
(ce sont les variables artificielles définies par les facteurs principaux, elle contiennent les
coordonnées des projections des individus sur les axes principaux)
En pratique, l’ACP va donc consister à diagonaliser la matrice
R pour obtenir les u et à calculer les composantes principales
21
Principe général de l’analyse factorielle
(voir Saporta 2006 annexe E)
• Métrique quelconque M (matrice symétrique définie positive)
– Critère de l’ACP: maximiser l’inertie du nuage projeté
sur un sous espace Fk de dimension k
Max (Trace(VMP)) avec
P projecteur M-orthogonal
– Solution : le sous espace F est engendré par les k
vecteurs propres a de VM associées aux k plus grandes
valeurs propres (obtenus séquentiellement par dérivation
vectorielle du rapport de deux formes quadratiques),
– Ces vecteurs propres M-normés à 1 sont les axes
principaux
11
04/11/2015
Principe général de l’analyse factorielle
(voir Saporta 2006 annexe E)
• Métrique quelconque M (matrice symétrique définie positive)
– Inertie du nuage projeté sur un sous espace Fk de
dimension k = Trace(VMP) à maximiser
• P projecteur M-orthogonal
– Cas particulier d’une droite d‘axe unitaire a
• P= a(a’Ma)-1a’M
• Trace(VMP)= Trace[(VMaa’M)]/a’Ma= Trace[a’M(VM)a]/a’Ma
– Critère ACP Max (a’MVMa)/a’Ma
• Solution dérivation vectorielle a est vecteur propre de VM
– Axe principal M-normé a’Ma=1
Principe général de l’analyse factorielle
• Aux axes principaux a sont associés les facteurs
principaux u = Ma vecteurs propres de MV, M-1 normés à
1 associés aux plus grandes valeurs propres
• Les composantes principales associées: c=Xu
– Elles sont vecteurs propres de XMX’D D-orthogonales
de variance maximale
• En pratique, on calcule u par diagonalisation de
MV puis on obtient c, les axes n’ont pas d’intérêt.
12
04/11/2015
Principe général de l’analyse factorielle
interprétation
L’analyse factorielle fournit de nouvelles variables artificielles et des
représentations graphiques visualisant des relations entre variables
et d’éventuels groupes de variables et d’individus
(plans factoriels – cercle de corrélation seulement en ACP)
interne
phase d’interprétation des résultats:
externe
Phase délicate nécessitant une certaine méthode pour éviter de
tirer des conclusions erronées
25
Principe général de l’analyse factorielle
interprétation
• Mesure de la qualité des représentations obtenues
L’analyse factorielle fournit une représentation
graphique des individus dans un espace de
dimension plus faible que p mais celle ci n’est
qu’une vision déformée de la réalité.
points délicats de l’interprétation
1)
apprécier cette déformation , cette perte d’information
due à la réduction de dimension
2)
déterminer le nombre d'axes, ie la dimension de l’espace
13
04/11/2015
Principe général de l’analyse factorielle
interprétation
critère usuel = % d’inertie totale expliquée
k
∑
i=1
p
λ
k
i
=
∑
λ
i=1
I
i
λi
∑
mesure globale insuffisante :
i=1
10% n’a pas le même intérêt sur un tableau de 20 variables et un
de 100 variables.
qualité de sa représentation des individus indépendamment du %
d’inertie global
g
(En effet il est possible d’avoir un premier plan principal F2 avec une inertie totale
importante et qu’en projection deux individus soient très proches, cette proximité
peut être illusoire si les deux individus sont éloignés dans F2⊥ )
Une mesure locale de qualité de représentation d’un individu est
le cosinus de l’angle entre le plan principal et le vecteur ei
(Si ce cosinus est grand, sera voisin du plan, on pourra alors examiner la position de
sa projection sur le plan par rapport à d’autres points ; si ce cosinus est faible, on se
27
gardera de toute conclusion)
Principe général de l’analyse factorielle
interprétation
Intérêt de l’analyse = réduction de dimension
choix du nombre d’axes = point essentiel
critères théoriques:
(multinormalité et
matrice de covariance)
* tests statistiques
* des intervalles de
confiance sur les
valeurs propres
14
04/11/2015
Principe général de l’analyse factorielle
Interprétation
• Choix du nombre de dimensions à retenir
– Critères empiriques
• ACP: règle de Kaiser : en ACP normée retenir les valeurs propres plus
grandes que 1 ou % > 1/p (on ne s’intéresse qu’aux composantes
qui apportent plus que les variables initiales)
règle du coude sur le diagramme de décroissance des valeurs
propres
saporta &al (2003) valeurs propres dépassant leur moyenne de
plus de 2 écart-types (moyenne=1 et variance= (p-1)/(n-1))
Remarque: il n’existe aucun critère de type au moins x% d’inertie, il faut
tenir compte de la taille du nombre de variables et de la force de leurs
corrélations. Aucun critère n’est absolu.
• AFC : règle du coude
• ACM retenir les valeurs propres 1/p (indépendance) et règle du coude
Principe général de l’analyse factorielle
• Interprétation des axes :
– donner un sens en lien avec les variables initiales,
– expliquer la position des individus
• On distingue interprétation interne et externe
variables et individus actifs sont utilisés dans les calculs de l’ACP par opposition aux
variables et individus supplémentaires ne participent pas directement à l’analyse
L’interprétation interne consiste à étudier les résultats en se basant sur les variables et
les individus actifs.
L’étude des éléments supplémentaires se fait à travers la phase d’interprétation externe.
15
04/11/2015
Principe général de l’analyse factorielle
interprétation interne ACP- variables
Interpréter une ACP = donner une signification à ces composantes
Principales à travers le calcul des coefficients de corrélation
linéaire entre composantes principales et variables initiales
On synthétise usuellement les corrélations des variables pour un
couple de composantes sur un graphique appelé cercle de
corrélation sur lequel, chaque variable
2
j
Xj a une abscisse r (c1 , X j ) et une ordonnée r (c , X ) avec
r (c, X j ) = λ u j
On s’intéresse aux coefficients les plus forts en valeur absolue et
proches de 1. L’examen du cercle de corrélation permet de détecter
les éventuels groupes de variables qui se ressemblent ou au
contraire qui s’opposent donnant ainsi un sens aux axes principaux
31
Principe général de l’analyse factorielle
interprétation interne ACP- variables
Remarque : Effet « Taille »
Lorsque toutes les variables initiales sont positivement corrélées
entre elles, la première composante principale définit « un facteur
de taille ».
(En effet, une matrice symétrique ayant tous ses termes positifs admet un premier
vecteur propre dont toutes les composantes sont de même signe. On peut les choisir
positifs et la première composante sera positivement corrélée avec toutes les variables )
Les individus sont rangés sur l’axe 1 par valeurs croissantes de
l’ensemble des variables (en moyenne).
La deuxième composante principale différencie alors des
individus de « taille » semblable : on l’appelle facteur de forme.
32
16
04/11/2015
Principe général de l’analyse factorielle
interprétation interne ACP- individus
Etude des individus par examen des coordonnées et surtout
des représentations graphiques, les plans principaux.
Le but est de voir la répartition des individus, des groupes
ressemblants ou distincts.
Si les individus ne sont pas anonymes ils peuvent aider à
l’interprétation des composantes et vice versa
33
Principe général de l’analyse factorielle
interprétation interne ACP- individus
contributions des individus :
C T R (i ) =
p i c k2i
λk
(où cki représente la valeur pour l’individu i de la kième composante ck et
n
2
λk = ∑ pc
i ki )
i=1
C T R ( i) > p i
Mais
CTR (i) >> pi = facteur d’instabilité
effectuer l’analyse en l’éliminant puis le rajouter ensuite en élément
supplémentaire
( les poids sont tous égaux, les contributions n’apportent pas plus d’information que les coordonnées)
34
17
04/11/2015
Principe général de l’analyse factorielle
interprétation externe ACP
variables quantitatives
Interprétation externe avec des variables supplémentaires
Rappel: les éléments supplémentaires n’interviennent pas dans les calculs
Elles peuvent être très utiles a posteriori pour conforter et
enrichir l’interprétation des axes.
cas de variables numériques :
a) simple calcul du coefficient de corrélation entre chaque
variable supplémentaire et les composantes
principales
b) placement sur les cercles de corrélation
c) interprétation : détection des corrélations significatives
ie les plus fortes
35
Principegénéral
général de l’analyse
Principe
l’analysefactorielle
factorielle
interprétation externe ACP- variables qualitatives
cas de variables qualitatives : représentation de
chaque modalité par son centre de gravité. Certains
logiciels fournissent des aides à l’interprétation :
les valeurs-test
mesures de l’éloignement du point représentatif d’une modalité par
rapport à l’origine dont le but est la mise en évidence d’une position
significativement excentrée d’un sous groupe d’individus.
Une modalité sera considérée comme significative
d’un axe si la valeur-test qui lui est associée est
supérieure en valeur absolue à 2.
18
04/11/2015
Principe
l’analysefactorielle
factorielle
Principegénéral
général de l’analyse
interprétation externe ACP- individus
Cas des individus supplémentaires :
Simple positionnement sur les axes principaux par
calcul des combinaisons linéaires de leurs valeurs
pour les variables initiales.
EXEMPLE
Principe
l’analysefactorielle
factorielle
Principegénéral
général de l’analyse
interprétation interne AFC – ACM Modalités
• Pas de cercle de corrélation en analyse des correspondance
• Représentation sur les axes principaux des coordonnées
(barycentriques) des modalités des variables qualitatives.
• Les modalités dont les contributions aux inerties des axes
les plus importantes et supérieures à leur poids donnent
les significations des axes, les signes des coordonnées
permettent de voir si ces contributions sont opposées ou
dans le même sens (c’est une différence importante par rapport à l’ACP)
• On y ajoute les cosinus carrés mesure de qualité locale
19
04/11/2015
généraldes
de l’analyse
3Principe
Interprétation
résultatsfactorielle
d’une AFC
interprétation interne – AFC Modalités
• a et b coordonnées des profils ligne – profils colonnes
les contributions des catégories aux inerties des axes
on a : a’(D1/n)a = λ =
1m
ni.ai2
∑
n i=1
1
1m
n. j bj2
∑
n j =1
2
b’(D2/n)b = λ =
Profil ligne i
ni. 2
ai
n
CTR(i) =
λ
et
profil colonne j
n. j 2
bj
n
CTR(j) =
λ
39
Principe général de l’analyse factorielle
interprétation interne – AFC Modalités
• Comme en ACP : les contributions les plus fortes
sont considérées comme constitutives des axes,
elles donnent le sens aux axes
• Critère: retenir CTR(i) >
ni.
n
(poids de i)
• Le signe des coordonnées permet de mettre en
évidence des contributions opposées
40
20
04/11/2015
Principe général de l’analyse factorielle
3 Interprétation
des résultats
d’une AFC
interprétation interne
– AFC Modalités
• Proximités entre catégories
Comme en ACP : cosinus carrés d’angles entre
individus (profils lignes- profils colonnes) et axe
principal permettent de mesurer la qualité de la
représentation. On évite l’interprétation abusive
des proximités graphiques
41
Principe général de l’analyse factorielle
interprétation interne – ACM Modalités
Comme en AFC ou en ACP mais attention au % d’inertie
- contributions des variables actives
- valeurs test des variables supplémentaires
42
21
04/11/2015
Principe général de l’analyse factorielle
interprétation interne – ACM Modalités
Contributions à un axe factoriel
a-
Effectif de la catégorie j
d’une modalité :
1
1 ∑m
µ= a'Da = ∑ nj (aj )2
np
np j=1
i
Coordonnée de la catégorie
j sur l’axe
nj
(aj )2
np
CTR( j) =
µ
Modalités intéressantes:
CTR(j) > poids = nj/np
43
Principe général de l’analyse factorielle
interprétation interne – ACM Modalités
Contributions à un axe factoriel
b- d’une variable :
cumul des contributions des modalités de la variable
mi
CTR(Xi) = ∑CTR( j) =
j=1
1 m nj
(aj )2
∑
µ j=1 np
i
c- d’un individu :
1 2
zi
1
1n 2
n
µ= zz' = ∑zi
CTR(i) = µ
n
n i=1
On utilise ces contributions
ainsi que les cosinus carrés
pour juger de la qualité des
projections
44
22
04/11/2015
Principe général de l’analyse factorielle
interprétation interne – ACM Modalités
Contributions à l’inertie totale
1 p
Inertie = ∑ mi − 1 = ∑ p j d 2 ( j , g )
j
p i =1
d 2 (j,g) =
On montre que:
n
-1
nj
Une modalité est d’autant plus loin de g
que nj est faible
I(j) =
Inertie d’une catégorie =
nj
n
1
d 2 (j,g) = (1- j )
np
p
n
Fonction décroissante de l’effectif
les modalités à faible effectif risquent
de perturber l’analyse
45
Principe général de l’analyse factorielle
interprétation interne – ACM Modalités
Inertie d’une variable
m
n
1
m -1
I(Xi ) = ∑ I(j) = ∑ (1- j ) = i
j=1 p
n
p
i
Contribution de la variable i:
CTR(Xi ) =
I(Xi ) mi −1
=
Itotale ∑(mi −1)
L’inertie d’une variable est d’autant
plus grande que mi est grand
On évite des différences trop
importantes entre les nombres
Modalités des variables
46
23
04/11/2015
Principe général de l’analyse factorielle
interprétation externe – ACM Modalités
Les variables supplémentaires ne participent pas directement à l’analyse.
Variables quantitatives: pas de représentation sur plans factoriels on se
contente de calculer leur corrélation avec les composantes factorielles
Variables qualitatives: représentation sur les plans factoriels selon le
principe barycentrique et valeurs test pour juger de la significativité de
la liaison
v-test =
aj nj
n -1
n - nj
Significative si
supérieure à 2
pour un seuil
5%
47
Principe général de l’analyse factorielle
Remarques sur l’ACM
La mise sous forme disjonctive est une commodité
mathématique, permet de plus l’étude de variables mixtes
(après mise en classes des variables quantitatives) par une
ACM
En cas de liaison non linéaire entre variables quantitatives
(ACP inefficace) on pourra faire une ACM
ACM permet la transformation de variables qualitatives en
quantitatives (utile pour classification ou discriminante sur
données qualitatives)
48
24
04/11/2015
Méthodes de classification
Analyse descriptive des données
réduction du
nombre de variables
réduction du
nombre
d’individus
analyse factorielle
Classification automatique
association des deux méthodes:
classification sur les points du nuage traité par l’analyse
factorielle , on utilise les composantes principales
49
Méthodes de classification
2 types de méthodes
• Méthodes de
partitionnement :
une partition en un
nombre fixe de classes
• Méthodes
hiérarchiques :
suite de partitions
emboitées
a
b
c
d
e
50
25
04/11/2015
Méthodes de classification
• notion de distance entre individus :
critère de classification
• notion de distance entre parties (distance
entre groupes d’individus) :
stratégie d’agrégation
51
Méthodes de classification
• Réaliser une classification nécessite :
- Un ensemble d’individus à classer
-
Définir une distance entre individus : d(x , y)
« choix d’un critère de classification »
Définir une distance entre groupes : D(X ,Y)
« choix d’une stratégie d’agrégation »
• L’objectif des méthodes de classification automatique
est la construction d’une partition ou d’une suite de
partitions emboîtées d’un ensemble d’objets.
• Les classes formées doivent être le plus homogènes
possible d’où la nécessite de définir un critère à
optimiser.
52
26
04/11/2015
Méthodes de classification
Méthodes de partitionnement direct
• Elles permettent le traitement rapide des ensembles d’effectifs assez
élevés en optimisant localement un critère de type inertie. (les individus
sont des points de Rp espace euclidien)
• But = construire une partition unique des objets en k classes, k fixé a
priori ou déterminé par la méthode.
• Idée centrale = choisir une partition initiale des objets et déplacer les
objets d’une classe à l’autre pour obtenir une partition meilleure.
• Plusieurs algorithmes selon le choix de la partition initiale, la définition
de « meilleure partition » et selon la méthode utilisée pour améliorer la
partition.
53
Méthodes de classification
IW =
∑
Pi I i
inertie intra classe
G. Saporta
2
I B = ∑ Pd
( g i ; g ) inertie inter classe
i
Relation de Huyghens : I = IW + IB
x
x
x
g1
x
x
x
x
x
x
g2
x
g
x
x
x
x
x
gk
x
x
x
54
27
04/11/2015
Méthodes de classification
• Critère usuel
de classification
=
chercher la
partition qui = maximise IB
minimise IW
Rque : k fixé, connu, il peut exister plusieurs partitions qui
minimise IW. On cherche celle à k classes.
• IW ne permet pas de comparer 2 partitions avec des
nombres de classes différents.
55
Méthodes de classification
Affectation des objets aux groupes
Méthode des centres mobiles (Forgy)
Etape 1
a) configuration initiale : C1(0) , C2(0) …. , Ck(0)
b) chaque individu i est affecté à une classe et une seule El(0) de centre Cl(0) telle que : soit
minimum en parcourant tous les centres C1(0) , C2(0) …. , Ck(0)
a la fin de cette étape on a k classes E1(0) , E2(0) …. , Ek(0)
Etape 2
a) On calcule les centres de gravité des classes précedentes : C1(1) , C2(1) …. , Ck(1)
b) chaque individu i est affecté à une classe et une seule El(1) de centre Cl(1) telle que : soit
minimum en parcourant tous les centres C1(1) , C2(1) …. , Ck(1)
a la fin de cette étape on a k classes E1(1) , E2(1) …. , Ek(1)
arrêt de la procédure :
–
–
–
2 étapes successives ne changent pas les classes
le nombre d’itérations fixé est atteint
la valeur du critère reste inchangée
56
28
04/11/2015
Méthodes de classification
• Remarque : formes fortes
• Problème : la partition finale dépend du nombre de
classes et du choix des centres initiaux
• Solution : appliquer l’algorithme sur s tirages
différents, croiser les s partitions pour obtenir une
partition dite en formes fortes ou regroupements
stables
• (formes fortes = ensembles d’éléments ayant
toujours été regroupés dans la partition finale pour
les s passages de l’algorithme).
57
Méthodes de classification
Méthodes hiérarchiques
• Elles consistent à fournir un ensemble de partitions de E en
classes de moins en moins fines par regroupements successifs de
parties.
• On obtient une hiérarchie représentée par un arbre de
classification ou dendrogramme.
• On associe au système de classes résultant une échelle de
niveau : à chaque partition on associe une valeur numérique
représentant le niveau auquel ont lieu les regroupements
• Différentes méthodes selon la stratégie de regroupement
58
29
04/11/2015
Méthodes de classification
Méthodes de classification
Stratégies d’agrégation
le saut minimum ou Single Linkage dmin(A,B) = inf ( d(i,i’) ; i €A , i’€ B)
le diamètre Complete Linkage dmax(A,B) = sup ( d(i,i’) ; i €A , i’€ B)
Moyenne des distances Average Linkage dmoy(A,B) = ( d(i,i’) ; i €A , i’€ B)/( cardAcardB)
Méthode de Ward ou stratégie du moment d’inertie (Cas de distances euclidiennes):
dward = perte d’inertie inter résultant du regroupement dward(A,B) = (pApB/(pA+pB))d2(gA ,gB)
60
30
04/11/2015
Méthodes de classification
Un exemple
a
b
c
d
e
a
0
3
7
3
4
b
3
0
4
4
1
c
7
4
0
2
6
d
3
4
2
0
1/2
e
4
1
6
½
0
G. Saporta
61
Méthodes de classification
3
4.75
2
3.3
1
2.5
1/2
1/2
d
e
b
a
c
d
inf
b
e
a
c
moyenne
7
4
3
0.5
d
G. Saporta
e
b
sup
a
c
62
31
04/11/2015
Méthodes de classification
L’algorithme de l’ inf (Johnson) provoque
souvent un effet de chaîne
3
2
1
1/2
d
e
b
c
a
inf
G. Saporta
63
Méthodes de classification
Classification mixte (SPAD)
Les algorithmes classiques sont plus ou moins adaptés à la
gestion d’un nombre importants d’objets à classer :
• partitionnement : ensemble volumineux à faible coût mais la
partition dépend des centres initiaux et du nombre de classes.
• hiérarchique : non adaptée aux vastes ensembles
D’où les algorithmes mixtes
*
centres mobiles
* classification hiérarchique des groupes obtenus
* réaffectation par centres mobiles (consolidation)
64
32
04/11/2015
Méthodes de classification
coupure de l’arbre : procédure parti
• les procédures produisent un arbre et un histogramme des niveaux
d’agrégation des classes.
•
La coupure de l’arbre s’effectue au niveau d’un saut important de l’indice
(coude) on obtient ainsi une partition de bonne qualité
situation idéale
•
•
•
•
situation plus délicate
******
********
******************
*********************
Coude net
********
*********
***********
*************
pas de coude net
65
Méthodes de classification
Interprétation des classes
Description des classes procédure decla (SPAD) Voirexemple
cette procédure fournit une caractérisation statistique automatique des
classes d’une partition :
•
les éléments les plus significatifs sont recherchés dans l’ensemble
des données et rangés selon le critères des valeurs test (voir définition plus
loin)
•
Decla fournit également les statistiques MOD/CLA et CLA/MOD
caractérisant la classe respectivement par le contenu et le contenant (voir
définitions plus loin)
66
33