Classification ascendante hiérarchique (CAH) - e

Transcription

Classification ascendante hiérarchique (CAH) - e
Introduction
Principes de la CAH
Exemple
K-means
Description des classes
Classification ascendante hiérarchique (CAH)
François Husson
Laboratoire de mathématiques appliquées - Agrocampus Rennes
[email protected]
1 / 33
Introduction
Principes de la CAH
Exemple
K-means
Description des classes
Introduction
• Définitions :
• Classification : action de constituer ou construire des classes
• Classe : ensemble d’individus (ou d’objets) possédant des traits
de caractères communs (groupe, catégorie)
• Exemples
• de classification : règne animal, disque dur d’un ordinateur,
division géographique de la France, etc.
• de classe : classe sociale, classe politique, etc.
• Deux types de classification :
• hiérarchique : arbre, CAH
• méthode de partitionnement : partition
2 / 33
Introduction
Principes de la CAH
Exemple
K-means
Description des classes
Exemple de hiérarchie : le règne animal
3 / 33
Introduction
Principes de la CAH
Exemple
K-means
Description des classes
Quelles données pour quels objectifs ?
3
H
F
E
B
D
G
« naturel » au sein de la population
C
A
• la détection d’un nb de classes
2
hiérarchiques entre individus ou
groupes d’individus
1
• la mise en évidence de liens
0
Objectifs : production d’une structure (arborescence) permettant :
4
La classification s’intéresse à des tableaux de
données individus × variables quantitatives
4 / 33
Introduction
Principes de la CAH
Exemple
K-means
Description des classes
Critères
Ressemblance entre individus :
• distance euclidienne
• indice de similarité
• ...
Ressemblance entre groupes d’individus :
• saut minimum ou lien simple (plus
petite distance)
• lien complet (plus grande distance)
x x x
x x
x xx
xxx x
x x
• critère de Ward
5 / 33
Introduction
Principes de la CAH
Exemple
K-means
Description des classes
Algorithme
ABC
DEFGH 4.07
6e regroupement
ABC
DE
DE 4.72
FGH 4.07 1.81
{ABCDEFGH}
ABC
DE FG
DE 4.72
FG 4.23 1.81
H 4.07 2.90 1.12
3
D
E
FG
H
ABC
D
E FG
4.72
5.55 1.00
4.07 2.01 1.81
4.75 3.16 2.90 1.12
2
4
7e regroupement
ABC
4.72
5.55
4.07
4.68
4.75
1.00
2.01 2.06
2.06 1.81 0.61
3.16 2.90 1.28 1.12
5e regroupement
{ABC},{DEFGH}
{ABC},{DE},{FGH}
{ABC},{DE},{FG},{H}
1
4e regroupement
G
{ABC},{D},{E},{FG},{H}
{ABC},{D},{E},{F},{G},{H}
{AC},{B},{D},{E},{F},{G},{H}
B
D
e
2 regroupement E
F
G
H
AC
0.50
4.80
5.57
4.07
4.68
4.75
B
4.72
5.55
4.23
4.84
5.02
D
E
F
G
1.00
2.01 2.06
2.06 1.81 0.61
3.16 2.90 1.28 1.12
B
C
D
E
F
G
H
A
0.50
0.25
5.00
5.78
4.32
4.92
5.00
B
0.56
4.72
5.55
4.23
4.84
5.02
C
E
H
F
D
G
E
B
D
F
C
E
A
D
0
D
E
F
G
H
3e regroupement
{A},{B},{C},{D},{E},{F},{G},{H}
F
G
1er regroupement
4.80
5.57
4.07
4.68
4.75
1.00
2.01 2.06
2.06 1.81 0.61
3.16 2.90 1.28 1.12
6 / 33
Introduction
Principes de la CAH
Exemple
K-means
Description des classes
●
0.0
0.5
Hierarchical Clustering
Les arbres finissent tous ... par être coupés ! ! !
1.0
1.5
Arbres et partitions
Click to cut the tree
●
Casarsa
Parkhomenko
YURKOV
Lorenzo
NOOL
BOURGUIGNON
MARTINEAU
Karlivans
BARRAS
Uldal
HERNU
Turi
Karpov
Clay
Sebrle
Schoenbeck
Ojaniemi
Barras
Qi
Smirnov
Gomez
Zsivoczky
Macey
Smith
McMULLEN
Bernard
ZSIVOCZKY
Hernu
KARPOV
SEBRLE
Terek
Pogorelov
Korkizoglou
CLAY
BERNARD
Nool
Warners
Drews
WARNERS
Schwarzl
Averyanov
0.0
0.5
En définissant un niveau de
coupure, on construit une
partition
1.0
1.5
inertia gain
Remarque : vu le mode de construction, la partition n’est pas
optimale mais est intéressante
7 / 33
Introduction
Principes de la CAH
Exemple
K-means
Description des classes
Qualité d’une partition
Quand une partition est-elle bonne ?
• Si les individus d’une même classe sont proches
• Si les individus de 2 classes différentes sont éloignés
Et mathématiquement ça se traduit par ?
• Variabilité intra-classe petite
• Variabilité inter-classe grande
=⇒ Deux critères, lequel choisir ?
8 / 33
Introduction
Principes de la CAH
Exemple
K-means
Description des classes
Qualité d’une partition
x̄ moyenne de x , x̄q moyenne de x dans la classe q
Q X
I
X
2
(xiq − x̄ ) =
q=1 i=1
|
Q X
I
X
2
Q X
I
X
}
|
(xiq − x̄q ) +
q=1 i=1
{z
Inertie totale
}
|
(x̄q − x̄ )2
q=1 i=1
{z
Inertie intra
{z
Inertie inter
}
x2
x1
x
x
x3
=⇒ 1 seul critère !
9 / 33
Introduction
Principes de la CAH
Exemple
K-means
Description des classes
Qualité d’une partition
La qualité d’une partition est mesurée par :
0≤
Inertie inter
≤1
Inertie totale
Inertie inter
Inertie totale = 0 =⇒
∀q, x̄q = x̄ : les classes ont même moyennes
Ne permet pas de classifier
Inertie inter
Inertie totale = 1 =⇒
∀q, ∀i, xiq = x̄q : individus d’1 classe identiques
Idéal pour classifier
Attention : ce critère ne peut être jugé en absolu car il dépend du
nb d’individus et du nb de classes
10 / 33
Introduction
Principes de la CAH
Exemple
K-means
Description des classes
Méthode de Ward
• Initialisation : 1 classe = 1 individu =⇒ Inertie inter = 1
• A chaque étape : agréger les classes a et b qui minimisent la
diminution de l’inertie inter
Inertie(a) + Inertie(b) = Inertie(a ∪ b) −
ma mb
d 2 (a, b)
ma + mb
|
{z
à minimiser
}
Regroupe les objets de faible poids et
évite l’effet de chaîne
Saut minimum
Ward
0
2
4
6
8
0
2
4
6
8
1
6
5
10
7
13
8
11
12
2
9
3
15
4
14
16
18
25
26
24
28
29
17
19
20
30
23
21
22
27
10
+
+++++ + +
++*+
*+* +
*
*
***
***
***
***
xx x*x*****
xxx*x*xx**
x
xx x
−2
Regroupe des classes
ayant des centres de
gravité proches
Saut minimum
Saut minimum
Ward
Ward
Intérêt immédiat pour la
classification
1
31
32
6
5
10
33
8
11
12
7
35
34
13
36
2
9
3
15
4
14
16
18
25
24
28
29
17
19
20
30
23
21
53
54
55
22
27
26
57
56
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
−2 0
2
4
6
8 10
−2
1
6
10
5
3
15
2
4
7
13
9
8
11
12
14
16
18
25
26
19
20
30
23
22
27
24
28
29
17
21
xx xx
xxxxxx
x
xx x
1
31
32
6
10
33
7
35
34
13
36
5
37
38
39
40
41
42
43
44
45
46
47
48
49
26
57
56
50
51
52
53
54
55
18
25
3
15
22
27
19
20
30
23
2
4
24
28
29
21
9
8
11
12
14
16
17
−2 0
2
4
6
8 10
+
++++
+
++ ++++
+
10
11 / 33
Introduction
Principes de la CAH
Exemple
K-means
Description des classes
Les données température
• 15 individus : villes de France
• 12 variables : températures mensuelles moyennes (sur 30 ans)
Bordeaux
Brest
Clermont
Grenoble
Lille
Lyon
Marseille
Montpellier
Nantes
Nice
Paris
Rennes
Strasbourg
Toulouse
Vichy
Janv
5.6
6.1
2.6
1.5
2.4
2.1
5.5
5.6
5
7.5
3.4
4.8
0.4
Févr
6.6
5.8
3.7
3.2
2.9
3.3
6.6
6.7
5.3
8.5
4.1
5.3
1.5
Mars
10.3
7.8
7.5
7.7
6
7.7
10
9.9
8.4
10.8
7.6
7.9
5.6
Avri
12.8
9.2
10.3
10.6
8.9
10.9
13
12.8
10.8
13.3
10.7
10.1
9.8
Mai
15.8
11.6
13.8
14.5
12.4
14.9
16.8
16.2
13.9
16.7
14.3
13.1
14
Juin
19.3
14.4
17.3
17.8
15.3
18.5
20.8
20.1
17.2
20.1
17.5
16.2
17.2
juil
20.9
15.6
19.4
20.1
17.1
20.7
23.3
22.7
18.8
22.7
19.1
17.9
19
Août
21
16
19.1
19.5
17.1
20.1
22.8
22.3
18.6
22.5
18.7
17.8
18.3
Sept
18.6
14.7
16.2
16.7
14.7
16.9
19.9
19.3
16.4
20.3
16
15.7
15.1
Octo
13.8
12
11.2
11.4
10.4
11.4
15
14.6
12.2
16
11.4
11.6
9.5
4.7
2.4
5.6
3.4
9.2
7.1
11.6
9.9
14.9
13.6
18.7
17.1
20.9
19.3
20.9
18.8
18.3
16
13.3
11
Nove Déce Lati Long
9.1
6.2
44.5 -0.34
9
7
48.24 -4.29
6.6
3.6 45.47 3.05
6.5
2.3
45.1 5.43
6.1
3.5 50.38 3.04
6.7
3.1 45.45 4.51
10.2
6.9 43.18 5.24
10
6.5 43.36 3.53
8.2
5.5 47.13 -1.33
11.5
8.2 43.42 7.15
7.1
4.3 48.52 2.2
7.8
5.4 48.05 -1.41
4.9
1.3 48.35 7.45
8.6
6.6
5.5
3.4
43.36 1.26
46.08 3.26
Quelles villes ont des profils météo similaires ?
Comment caractériser les groupes de villes ?
12 / 33
Principes de la CAH
Exemple
K-means
Description des classes
Les données température : l’arbre hiérarchique
Hierarchical clustering
6
0
2
4
6
8
Cluster Dendrogram
2
4
inertia gain
Lille
Strasbourg
Vichy
Clermont
Lyon
Paris
Grenoble
Nantes
Brest
Rennes
Marseille
Montpellier
Nice
Toulouse
Bordeaux
0
Introduction
13 / 33
Introduction
Principes de la CAH
Exemple
K-means
Description des classes
Les données température
4
2
0
15 classes en 14 classes : 0.01
14 classes en 13 classes : 0.02
13 classes en 12 classes : 0.03
12 classes en 11 classes : 0.05
11 classes en 10 classes : 0.06
10 classes en 9 classes : 0.09
9 classes en 8 classes : 0.17
8 classes en 7 classes : 0.19
7 classes en 6 classes : 0.26
6 classes en 5 classes : 0.42
5 classes en 4 classes : 0.56
4 classes en 3 classes : 0.69
3 classes en 2 classes : 1.56
2 classes en 1 classe : 7.88
6
Pertes d’inertie inter
lors du passage de
inertia gain
Grosse perte si on passe de
2 classes à 1 seule donc on
préfère garder 2 classes
Somme des pertes d’inertie = 12 ; à quoi cela correspond-il ?
14 / 33
Introduction
Principes de la CAH
Exemple
K-means
Description des classes
Utilisation de l’arbre pour construire une partition
2
7.88
Inertie inter
=
= 66%
Inertie totale
12
4
Découpage en 2 groupes :
6
8
Doit-on faire 2 groupes ? 3 groupes ? 4 ?
Lille
Strasbourg
Vichy
Clermont
Lyon
Paris
Nantes
Grenoble
Brest
Rennes
Marseille
Nice
Montpellier
Bordeaux
Toulouse
0
A quoi comparer ce pourcentage ?
15 / 33
Introduction
Principes de la CAH
Exemple
K-means
Description des classes
6
8
Utilisation de l’arbre pour construire une partition
froides
en
2
4
Séparer villes
groupes :
Lille
Strasbourg
Vichy
Clermont
Lyon
Paris
Nantes
Grenoble
Brest
Rennes
Marseille
Nice
Montpellier
Bordeaux
Toulouse
0
2
Inertie inter
1.56
=
= 13%
Inertie totale
12
16 / 33
Introduction
Principes de la CAH
Exemple
K-means
Description des classes
Détermination d’un nombre de classes
• A partir de l’histogramme
• A partir de l’arbre
des indices de niveau
• Dépend de l’usage
• Critère ultime :
(enquête, . . . )
0
2
2
4
4
6
6
8
interprétabilité des classes
Lille
Strasbourg
Vichy
Clermont
Lyon
Paris
Nantes
Grenoble
Brest
Rennes
Marseille
Nice
Montpellier
Bordeaux
Toulouse
0
inertia gain
17 / 33
Introduction
Principes de la CAH
Exemple
K-means
Description des classes
Algorithme de partitionnement : les K-means
Algorithme d’agrégation autour des centres mobiles (K-means)
Brest
●
●
classes au hasard
2
4
6
−4
0
4
6
−2
0
2
4
2
2
Dim 2 ( 18.97 %)
1
−2
0
4
6
4
●
●
2
Rennes
Nantes
Nice
1
Dim 2 ( 18.97 %)
1
Nice
Bordeaux
●
Toulouse
●
Montpellier
Lille
●
Bordeaux
●
Toulouse
●
Montpellier
Paris
0
Nantes
Paris
●
Vichy
Clermont
●
●
Marseille
Marseille
●
●
●
−1
−1
2
3
4
2
Rennes
Vichy
Clermont
Grenoble
Lyon
Grenoble
Lyon
6
Grenoble
Lyon
Strasbourg
−4
−2
−2
4
●
Marseille
Strasbourg
2
Marseille
Brest
Lille
●
0
●
Dim 1 ( 79.85 %)
−1
0
Dim 2 ( 18.97 %)
●
0
1
Nice
Bordeaux
●
Toulouse
●
●
Montpellier
Dim 1 ( 79.85 %)
●
Strasbourg
−4
3
4
3
2
Nantes
−2
●
0
6
Brest
Paris
Nice
Bordeaux
●
Toulouse
●
Montpellier
Dim 1 ( 79.85 %)
Rennes
−4
1
4
−4
Brest
Vichy
Clermont
6
Grenoble
Lyon
●
Strasbourg
Dim 1 ( 79.85 %)
Lille
4
Nantes
Paris
−1
●
−2
−2
• Calculer les Q
2
2
Rennes
Vichy
Clermont
Marseille
Grenoble
Lyon
0
0
Lille
●
●
●
−2
−2
3
●
−1
−1
−2
−4
Nice
Bordeaux
Toulouse
●
Montpellier
Paris
Grenoble
Lyon
Strasbourg
●
Strasbourg
−4
4
2
Nantes
1
Dim 2 ( 18.97 %)
Rennes
Marseille
●
●
Brest
Vichy
Clermont
●
●
Marseille
Dim 1 ( 79.85 %)
Lille
0
1
Nice
Bordeaux
Toulouse
●
Montpellier
●
Dim 2 ( 18.97 %)
6
3
4
3
2
Nantes
Paris
0
Dim 2 ( 18.97 %)
Rennes
Lille
−2
4
Brest
Vichy
Clermont
centres de gravité
2
Dim 1 ( 79.85 %)
Brest
• Affecter les points
au centre le plus
proche
−2
Dim 1 ( 79.85 %)
●
●
Grenoble
Lyon
●
●
Strasbourg
−2
−2
0
Nice
Bordeaux
Toulouse
●
Montpellier
●
●
●
Grenoble
Lyon
●
●
−2
Nantes
Paris
Vichy
Clermont
Marseille
−1
−1
−2
Grenoble
Lyon
●
●
−4
Rennes
Lille
●
●
●
Strasbourg
Nice
Bordeaux
Toulouse
●
Montpellier
●
Dim 2 ( 18.97 %)
Nantes
Paris
Vichy
Clermont
Marseille
0
Rennes
Lille
●
●
−1
●
3
4
Nice
Bordeaux
●
Toulouse
●
Montpellier
2
3
1
●
●
1
Nantes
Paris
●
Dim 2 ( 18.97 %)
●
●
Vichy
Clermont
• Choisir Q centres de
Brest
0
2
Rennes
Lille
0
Dim 2 ( 18.97 %)
3
4
●
4
Brest
−2
0
2
Dim 1 ( 79.85 %)
4
6
Strasbourg
−4
−2
0
2
4
6
Dim 1 ( 79.85 %)
18 / 33
Introduction
Principes de la CAH
Exemple
K-means
Description des classes
Consolidation d’une partition obtenue par CAH
La partition obtenue par CAH n’est pas optimale et peut être
améliorée, consolidée, par les K-means
Algorithme de consolidation :
• la partition obtenue par CAH est utilisée comme initialisation
de l’algorithme de partitionnement
• quelques étapes de K-means sont itérées
=⇒ amélioration de la partition (souvent non décisive)
Avantage : consolidation de la partition
Inconvénient : perte de l’info de hiérarchie
19 / 33
Introduction
Principes de la CAH
Exemple
K-means
Description des classes
CAH en grandes dimensions
• Si beaucoup de variables : faire une ACP et ne conserver que
les premières dimensions =⇒ on se ramène au cas classique
• Si beaucoup d’individus : algorithme de CAH trop long, voire
impossible
• Faire une partition (avec des K-means) en une centaine de
classes
• Construire la CAH à partir des classes (utiliser l’effectif des
classes dans le calcul)
• Obtention du « haut » de l’arbre de la CAH
20 / 33
Introduction
Principes de la CAH
Exemple
K-means
Description des classes
CAH sur données qualitatives
Deux stratégies pour faire une classification sur données
qualitatives :
• Se ramener à des variables quantitatives
• Faire une ACM et ne conserver que les premières dimensions
• Faire la CAH à partir des composantes principales de l’ACM
• Utiliser des mesures adaptées aux données qualitatives : indice
de similarité, indice de Jacquard, etc.
21 / 33
Introduction
Principes de la CAH
Exemple
K-means
Description des classes
Enchaînement analyse factorielle - classification
• Données qualitatives : ACM renvoie des composantes
principales qui sont quantitatives
• L’analyse factorielle élimine les dernières composantes qui ne
contiennent que du bruit =⇒ classification plus stable
Hierarchical clustering on the factor map
• Représentation de
4
●
Lille
●
−4
Rennes●
Nantes
−2
0
1
●
●
●
●
●
ToulouseBordeaux
Montpellier
Marseille
●
0
Nice
−1
−2
Grenoble
Lyon
Strasbourg
−6
●
●
Paris
Vichy
Clermont
●
●
Dim 2 (18.97%)
8
6
3
2
●
2
height
5
4
●
Brest
0
l’arbre et des classes
sur un plan factoriel
=⇒ vision continue
avec AF, discontinue
avec CAH ; vision de
l’information sur
d’autres axes avec
CAH
cluster 1
cluster 2
cluster 3
−3
2
4
6
8
Dim 1 (79.85%)
22 / 33
Introduction
Principes de la CAH
Exemple
K-means
Description des classes
Constitution des classes - Édition des parangons
Parangon : individu le plus proche du centre d’une classe
> res.pca = PCA(donnees)
> res.hcpc = HCPC(res.pca)
> res.hcpc$desc.ind
$para
cluster: 1
Montpellier
Bordeaux
Marseille
Nice
Toulouse
0.4189157
1.1413337
1.1929910
2.2421547
2.2558797
------------------------------------------------------------cluster: 2
Rennes
Nantes
Brest
0.6405312 1.5857132 2.0450969
------------------------------------------------------------cluster: 3
Vichy Clermont Grenoble
Paris
Lyon
0.4280303 0.6685057 1.1837153 1.3393108 1.6800950
23 / 33
Introduction
Principes de la CAH
Exemple
K-means
Description des classes
Partition en 3 classes
-2
Dim 2 (18.97%)
0
2
4
Parangon : individu le plus proche du centre d’une classe
cluster 1
cluster 2
cluster 3
Brest
cluster 2
Rennes
Nantes
Nice
Lille
Bordeaux
-4
-2
cluster 1
Toulouse
Vichy Paris
Clermont
cluster 3
Grenoble
Lyon
Strasbourg
Montpellier
Marseille
0
2
4
6
Dim 1 (79.85%)
24 / 33
Introduction
Principes de la CAH
Exemple
K-means
Description des classes
Caractérisation des classes
• Objectifs :
• Trouver les variables les plus caractérisantes pour la partition
• Caractériser une classe (ou un groupe d’individus) par des
variables quantitatives
• Trier les variables qui caractérisent les classes
• Question :
• Quelles variables caractérisent le mieux la partition ?
• Comment caractériser les individus de la classe 1 ?
• Quelles variables les caractérisent le mieux ?
25 / 33
Introduction
Principes de la CAH
Exemple
K-means
Description des classes
Caractérisation des classes
Quelles variables caractérisent le mieux la partition ?
• Pour chaque variable quantitative :
• construire le modèle d’analyse de variance entre la variable
quantitative expliquée par la variable de classe
• faire le test de Fisher de l’effet de la classe
• Trier les variables par probabilité critique croissante
Octo
Sept
Févr
Mars
Janv
Nove
Avri
Déce
Août
Juin
Mai
juil
Eta2
0.8362
0.8301
0.8227
0.8126
0.8118
0.8083
0.7929
0.7871
0.7864
0.7241
0.7164
0.7156
P-value
1.930e-05
2.407e-05
3.103e-05
4.326e-05
4.444e-05
4.963e-05
7.890e-05
9.316e-05
9.503e-05
4.409e-04
5.205e-04
5.287e-04
26 / 33
Introduction
Principes de la CAH
Exemple
K-means
Description des classes
Caractérisation d’une classe
Caractérisation d’une classe par les variables quantitatives
Janv
●
Févr
● ●●●
●
●
●
●● ●
● ●
●●
●
●● ●
● ●
●●
Lyon
Paris
Grenoble
Clermont
Vichy
Strasbourg
Lille
Nantes
Rennes
Brest
Nice
Marseille
Montpellier
Bordeaux
Toulouse ●
Mars
Avri
Mai
Juin
juil
Août
Sept
Octo
Nove
Déce
●
0
●
●●
●
●
●
●●
●
●●
●
●
●
● ●
●
●
●● ●
●● ●
●●●●
●
●
●
●
●
●●●
●
● ●●
●
●●● ●
●
●● ●
●
●
●
●
●
●
●
●●●
●●
●
●●
●● ●
●
●●●●
●
● ●●●● ●●
●●
● ●
●●
●● ●
●●
●●
●
●
●
●
●
● ●●
●
●● ● ●
● ● ●●
●●●●●
●
●
●
5
●
●
●
●●
●
● ●●
●
●
● ●
●●●
● ●●
●
●
●
10
15
20
Température
27 / 33
Introduction
Principes de la CAH
Exemple
K-means
Description des classes
Caractérisation d’une classe
Idée 1 : si les valeurs de X pour la classe q semblent tirées au
hasard parmi les valeurs de X , alors X ne caractérise pas la classe q
Aléa
●
●
●
●
●●●
●
●
●
●●
●
●
●
Août
●
●
●
●
●●●
●
●
●
●●
●
●
●
16
17
18
19
20
21
22
23
Température
Idée 2 : plus l’hypothèse d’un tirage au hasard est douteuse, plus X
caractérise la classe q
28 / 33
Introduction
Principes de la CAH
Exemple
K-means
Description des classes
Caractérisation d’une classe
Caractérisation des classes
xq
x
X
X caractérise q
xq x
Comparer moy. de la classe q
et moy. générale (x̄q et x̄ )
Caractérisation des classeX
X ne caractérise pas q
x
3 ues : la moyenne des individus de la classes q à
Comparer
xq
x
la moyenne générale
(pour une variable X)
Cas 1
X
Cas 2
X
Cas 3
X
Cas 1 et 2 : valeurs plus extrêmes dans 1 :
X explique
mieux
X explique
mieuxqq dans
dans 1 cas 1
Cas
2
:
5
individus
au
même
endroit
valeurs plus extrêmes : hasard ?
Cas 3 : 40 individus au même endroit : hasard ?
queRelativiser
parcas
s 2 car
=⇒ relativiser par s
Relativiser
par I q
5 au même endroit dans cas 2, 40 dans cas 3 :
=⇒ relativiser par Iq
hasard ou non ? X explique mieux q dans 3
29 / 33
Introduction
Principes de la CAH
Exemple
K-means
Description des classes
Caractérisation d’une classe
Idée : référence du tirage au hasard de Iq valeurs parmi I
Quelles valeurs peut prendre x̄q ? (i.e. quelle est la loi de X̄q ?)
E(X̄q ) = x̄
L(X̄q ) = N
s2
V(X̄q ) =
Iq
I − Iq
I −1
car X̄q est une moyenne
=⇒ Valeur-test = r
x̄q − x̄
s2
Iq
I−Iq
I−1
∼ N (0, 1)
• Si |Valeur-test| ≥ 2 alors X caractérise la classe q
• X caractérise d’autant mieux la classe q que V-test grande
Idée : classer les variables par |Valeur-test| décroissante
30 / 33
Introduction
Principes de la CAH
Exemple
K-means
Description des classes
Caractérisation des classes par les variables
> res.hcpc$desc.var
$quanti$‘1‘
v.test
Mean in
category
Sept
3.40
19.30
Moye
3.39
13.80
Avri
3.33
12.70
Octo
3.32
14.50
Mars
3.24
10.00
Août
3.18
21.90
Juin
3.00
19.80
Mai
3.00
16.10
Nove
2.97
9.88
juil
2.92
22.10
Févr
2.88
6.80
Déce
2.54
6.66
Janv
2.46
5.78
Overall
mean
17.00
11.80
11.00
12.30
8.23
19.60
17.80
14.40
7.93
19.80
4.83
4.85
3.97
sd in
category
0.755
0.742
0.580
0.941
0.524
0.792
0.727
0.691
0.999
1.000
0.940
0.896
0.924
Overall
sd
1.79
1.55
1.37
1.77
1.48
1.94
1.73
1.45
1.74
2.06
1.81
1.89
1.94
p.value
0.000678
0.000705
0.000871
0.000893
0.001210
0.001490
0.002670
0.002720
0.003020
0.003550
0.003940
0.011200
0.013700
31 / 33
Introduction
Principes de la CAH
Exemple
K-means
Description des classes
Caractérisation des classes par les variables
$‘2‘
v.test
Mai
Août
Juin
juil
Long
Ampl
-2.02
-2.02
-2.05
-2.18
-2.88
-2.95
Mean in
category
12.90
17.50
15.90
17.40
-2.34
12.40
Overall
mean
14.40
19.60
17.80
19.80
2.58
15.90
sd in
category
0.953
1.090
1.160
1.350
1.380
1.560
Overall
sd
1.45
1.94
1.73
2.06
3.21
2.25
Mean in
category
15.90
10.20
10.70
10.90
7.03
6.36
3.16
3.07
2.11
Overall
mean
17.00
11.00
11.80
12.30
8.23
7.93
4.83
4.85
3.97
sd in
category
0.738
0.637
0.620
0.661
0.807
0.654
0.763
0.911
0.876
Overall
sd
1.79
1.37
1.55
1.77
1.48
1.74
1.81
1.89
1.94
p.value
0.04380
0.04330
0.04020
0.02900
0.00404
0.00316
$‘3‘
v.test
Sept
Avri
Moye
Octo
Mars
Nove
Févr
Déce
Janv
-2.05
-2.11
-2.60
-2.81
-2.85
-3.15
-3.25
-3.28
-3.36
p.value
0.040700
0.035100
0.009220
0.004940
0.004310
0.001620
0.001150
0.001020
0.000793
32 / 33
Introduction
Principes de la CAH
Exemple
K-means
Description des classes
Caractérisation des classes par les axes
$‘1‘
v.test
Dim.1
3.39
Mean in
category
3.97
Overall
mean
0
sd in
category
1.46
Overall
sd
3.1
Mean in
category
2.29
Overall
mean
0
sd in
category
1.29
Overall
sd
1.51
Mean in
category
-0.911
-2.270
Overall
mean
0
0
sd in
category
0.927
1.260
Overall
sd
1.51
3.10
p.value
0.000693
$‘2‘
v.test
Dim.2
2.84
p.value
0.00447
$‘3‘
v.test
Dim.2
Dim.1
-2.11
-2.56
p.value
0.0346
0.0104
33 / 33