Classification ascendante hiérarchique (CAH) - e
Transcription
Classification ascendante hiérarchique (CAH) - e
Introduction Principes de la CAH Exemple K-means Description des classes Classification ascendante hiérarchique (CAH) François Husson Laboratoire de mathématiques appliquées - Agrocampus Rennes [email protected] 1 / 33 Introduction Principes de la CAH Exemple K-means Description des classes Introduction • Définitions : • Classification : action de constituer ou construire des classes • Classe : ensemble d’individus (ou d’objets) possédant des traits de caractères communs (groupe, catégorie) • Exemples • de classification : règne animal, disque dur d’un ordinateur, division géographique de la France, etc. • de classe : classe sociale, classe politique, etc. • Deux types de classification : • hiérarchique : arbre, CAH • méthode de partitionnement : partition 2 / 33 Introduction Principes de la CAH Exemple K-means Description des classes Exemple de hiérarchie : le règne animal 3 / 33 Introduction Principes de la CAH Exemple K-means Description des classes Quelles données pour quels objectifs ? 3 H F E B D G « naturel » au sein de la population C A • la détection d’un nb de classes 2 hiérarchiques entre individus ou groupes d’individus 1 • la mise en évidence de liens 0 Objectifs : production d’une structure (arborescence) permettant : 4 La classification s’intéresse à des tableaux de données individus × variables quantitatives 4 / 33 Introduction Principes de la CAH Exemple K-means Description des classes Critères Ressemblance entre individus : • distance euclidienne • indice de similarité • ... Ressemblance entre groupes d’individus : • saut minimum ou lien simple (plus petite distance) • lien complet (plus grande distance) x x x x x x xx xxx x x x • critère de Ward 5 / 33 Introduction Principes de la CAH Exemple K-means Description des classes Algorithme ABC DEFGH 4.07 6e regroupement ABC DE DE 4.72 FGH 4.07 1.81 {ABCDEFGH} ABC DE FG DE 4.72 FG 4.23 1.81 H 4.07 2.90 1.12 3 D E FG H ABC D E FG 4.72 5.55 1.00 4.07 2.01 1.81 4.75 3.16 2.90 1.12 2 4 7e regroupement ABC 4.72 5.55 4.07 4.68 4.75 1.00 2.01 2.06 2.06 1.81 0.61 3.16 2.90 1.28 1.12 5e regroupement {ABC},{DEFGH} {ABC},{DE},{FGH} {ABC},{DE},{FG},{H} 1 4e regroupement G {ABC},{D},{E},{FG},{H} {ABC},{D},{E},{F},{G},{H} {AC},{B},{D},{E},{F},{G},{H} B D e 2 regroupement E F G H AC 0.50 4.80 5.57 4.07 4.68 4.75 B 4.72 5.55 4.23 4.84 5.02 D E F G 1.00 2.01 2.06 2.06 1.81 0.61 3.16 2.90 1.28 1.12 B C D E F G H A 0.50 0.25 5.00 5.78 4.32 4.92 5.00 B 0.56 4.72 5.55 4.23 4.84 5.02 C E H F D G E B D F C E A D 0 D E F G H 3e regroupement {A},{B},{C},{D},{E},{F},{G},{H} F G 1er regroupement 4.80 5.57 4.07 4.68 4.75 1.00 2.01 2.06 2.06 1.81 0.61 3.16 2.90 1.28 1.12 6 / 33 Introduction Principes de la CAH Exemple K-means Description des classes ● 0.0 0.5 Hierarchical Clustering Les arbres finissent tous ... par être coupés ! ! ! 1.0 1.5 Arbres et partitions Click to cut the tree ● Casarsa Parkhomenko YURKOV Lorenzo NOOL BOURGUIGNON MARTINEAU Karlivans BARRAS Uldal HERNU Turi Karpov Clay Sebrle Schoenbeck Ojaniemi Barras Qi Smirnov Gomez Zsivoczky Macey Smith McMULLEN Bernard ZSIVOCZKY Hernu KARPOV SEBRLE Terek Pogorelov Korkizoglou CLAY BERNARD Nool Warners Drews WARNERS Schwarzl Averyanov 0.0 0.5 En définissant un niveau de coupure, on construit une partition 1.0 1.5 inertia gain Remarque : vu le mode de construction, la partition n’est pas optimale mais est intéressante 7 / 33 Introduction Principes de la CAH Exemple K-means Description des classes Qualité d’une partition Quand une partition est-elle bonne ? • Si les individus d’une même classe sont proches • Si les individus de 2 classes différentes sont éloignés Et mathématiquement ça se traduit par ? • Variabilité intra-classe petite • Variabilité inter-classe grande =⇒ Deux critères, lequel choisir ? 8 / 33 Introduction Principes de la CAH Exemple K-means Description des classes Qualité d’une partition x̄ moyenne de x , x̄q moyenne de x dans la classe q Q X I X 2 (xiq − x̄ ) = q=1 i=1 | Q X I X 2 Q X I X } | (xiq − x̄q ) + q=1 i=1 {z Inertie totale } | (x̄q − x̄ )2 q=1 i=1 {z Inertie intra {z Inertie inter } x2 x1 x x x3 =⇒ 1 seul critère ! 9 / 33 Introduction Principes de la CAH Exemple K-means Description des classes Qualité d’une partition La qualité d’une partition est mesurée par : 0≤ Inertie inter ≤1 Inertie totale Inertie inter Inertie totale = 0 =⇒ ∀q, x̄q = x̄ : les classes ont même moyennes Ne permet pas de classifier Inertie inter Inertie totale = 1 =⇒ ∀q, ∀i, xiq = x̄q : individus d’1 classe identiques Idéal pour classifier Attention : ce critère ne peut être jugé en absolu car il dépend du nb d’individus et du nb de classes 10 / 33 Introduction Principes de la CAH Exemple K-means Description des classes Méthode de Ward • Initialisation : 1 classe = 1 individu =⇒ Inertie inter = 1 • A chaque étape : agréger les classes a et b qui minimisent la diminution de l’inertie inter Inertie(a) + Inertie(b) = Inertie(a ∪ b) − ma mb d 2 (a, b) ma + mb | {z à minimiser } Regroupe les objets de faible poids et évite l’effet de chaîne Saut minimum Ward 0 2 4 6 8 0 2 4 6 8 1 6 5 10 7 13 8 11 12 2 9 3 15 4 14 16 18 25 26 24 28 29 17 19 20 30 23 21 22 27 10 + +++++ + + ++*+ *+* + * * *** *** *** *** xx x*x***** xxx*x*xx** x xx x −2 Regroupe des classes ayant des centres de gravité proches Saut minimum Saut minimum Ward Ward Intérêt immédiat pour la classification 1 31 32 6 5 10 33 8 11 12 7 35 34 13 36 2 9 3 15 4 14 16 18 25 24 28 29 17 19 20 30 23 21 53 54 55 22 27 26 57 56 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 −2 0 2 4 6 8 10 −2 1 6 10 5 3 15 2 4 7 13 9 8 11 12 14 16 18 25 26 19 20 30 23 22 27 24 28 29 17 21 xx xx xxxxxx x xx x 1 31 32 6 10 33 7 35 34 13 36 5 37 38 39 40 41 42 43 44 45 46 47 48 49 26 57 56 50 51 52 53 54 55 18 25 3 15 22 27 19 20 30 23 2 4 24 28 29 21 9 8 11 12 14 16 17 −2 0 2 4 6 8 10 + ++++ + ++ ++++ + 10 11 / 33 Introduction Principes de la CAH Exemple K-means Description des classes Les données température • 15 individus : villes de France • 12 variables : températures mensuelles moyennes (sur 30 ans) Bordeaux Brest Clermont Grenoble Lille Lyon Marseille Montpellier Nantes Nice Paris Rennes Strasbourg Toulouse Vichy Janv 5.6 6.1 2.6 1.5 2.4 2.1 5.5 5.6 5 7.5 3.4 4.8 0.4 Févr 6.6 5.8 3.7 3.2 2.9 3.3 6.6 6.7 5.3 8.5 4.1 5.3 1.5 Mars 10.3 7.8 7.5 7.7 6 7.7 10 9.9 8.4 10.8 7.6 7.9 5.6 Avri 12.8 9.2 10.3 10.6 8.9 10.9 13 12.8 10.8 13.3 10.7 10.1 9.8 Mai 15.8 11.6 13.8 14.5 12.4 14.9 16.8 16.2 13.9 16.7 14.3 13.1 14 Juin 19.3 14.4 17.3 17.8 15.3 18.5 20.8 20.1 17.2 20.1 17.5 16.2 17.2 juil 20.9 15.6 19.4 20.1 17.1 20.7 23.3 22.7 18.8 22.7 19.1 17.9 19 Août 21 16 19.1 19.5 17.1 20.1 22.8 22.3 18.6 22.5 18.7 17.8 18.3 Sept 18.6 14.7 16.2 16.7 14.7 16.9 19.9 19.3 16.4 20.3 16 15.7 15.1 Octo 13.8 12 11.2 11.4 10.4 11.4 15 14.6 12.2 16 11.4 11.6 9.5 4.7 2.4 5.6 3.4 9.2 7.1 11.6 9.9 14.9 13.6 18.7 17.1 20.9 19.3 20.9 18.8 18.3 16 13.3 11 Nove Déce Lati Long 9.1 6.2 44.5 -0.34 9 7 48.24 -4.29 6.6 3.6 45.47 3.05 6.5 2.3 45.1 5.43 6.1 3.5 50.38 3.04 6.7 3.1 45.45 4.51 10.2 6.9 43.18 5.24 10 6.5 43.36 3.53 8.2 5.5 47.13 -1.33 11.5 8.2 43.42 7.15 7.1 4.3 48.52 2.2 7.8 5.4 48.05 -1.41 4.9 1.3 48.35 7.45 8.6 6.6 5.5 3.4 43.36 1.26 46.08 3.26 Quelles villes ont des profils météo similaires ? Comment caractériser les groupes de villes ? 12 / 33 Principes de la CAH Exemple K-means Description des classes Les données température : l’arbre hiérarchique Hierarchical clustering 6 0 2 4 6 8 Cluster Dendrogram 2 4 inertia gain Lille Strasbourg Vichy Clermont Lyon Paris Grenoble Nantes Brest Rennes Marseille Montpellier Nice Toulouse Bordeaux 0 Introduction 13 / 33 Introduction Principes de la CAH Exemple K-means Description des classes Les données température 4 2 0 15 classes en 14 classes : 0.01 14 classes en 13 classes : 0.02 13 classes en 12 classes : 0.03 12 classes en 11 classes : 0.05 11 classes en 10 classes : 0.06 10 classes en 9 classes : 0.09 9 classes en 8 classes : 0.17 8 classes en 7 classes : 0.19 7 classes en 6 classes : 0.26 6 classes en 5 classes : 0.42 5 classes en 4 classes : 0.56 4 classes en 3 classes : 0.69 3 classes en 2 classes : 1.56 2 classes en 1 classe : 7.88 6 Pertes d’inertie inter lors du passage de inertia gain Grosse perte si on passe de 2 classes à 1 seule donc on préfère garder 2 classes Somme des pertes d’inertie = 12 ; à quoi cela correspond-il ? 14 / 33 Introduction Principes de la CAH Exemple K-means Description des classes Utilisation de l’arbre pour construire une partition 2 7.88 Inertie inter = = 66% Inertie totale 12 4 Découpage en 2 groupes : 6 8 Doit-on faire 2 groupes ? 3 groupes ? 4 ? Lille Strasbourg Vichy Clermont Lyon Paris Nantes Grenoble Brest Rennes Marseille Nice Montpellier Bordeaux Toulouse 0 A quoi comparer ce pourcentage ? 15 / 33 Introduction Principes de la CAH Exemple K-means Description des classes 6 8 Utilisation de l’arbre pour construire une partition froides en 2 4 Séparer villes groupes : Lille Strasbourg Vichy Clermont Lyon Paris Nantes Grenoble Brest Rennes Marseille Nice Montpellier Bordeaux Toulouse 0 2 Inertie inter 1.56 = = 13% Inertie totale 12 16 / 33 Introduction Principes de la CAH Exemple K-means Description des classes Détermination d’un nombre de classes • A partir de l’histogramme • A partir de l’arbre des indices de niveau • Dépend de l’usage • Critère ultime : (enquête, . . . ) 0 2 2 4 4 6 6 8 interprétabilité des classes Lille Strasbourg Vichy Clermont Lyon Paris Nantes Grenoble Brest Rennes Marseille Nice Montpellier Bordeaux Toulouse 0 inertia gain 17 / 33 Introduction Principes de la CAH Exemple K-means Description des classes Algorithme de partitionnement : les K-means Algorithme d’agrégation autour des centres mobiles (K-means) Brest ● ● classes au hasard 2 4 6 −4 0 4 6 −2 0 2 4 2 2 Dim 2 ( 18.97 %) 1 −2 0 4 6 4 ● ● 2 Rennes Nantes Nice 1 Dim 2 ( 18.97 %) 1 Nice Bordeaux ● Toulouse ● Montpellier Lille ● Bordeaux ● Toulouse ● Montpellier Paris 0 Nantes Paris ● Vichy Clermont ● ● Marseille Marseille ● ● ● −1 −1 2 3 4 2 Rennes Vichy Clermont Grenoble Lyon Grenoble Lyon 6 Grenoble Lyon Strasbourg −4 −2 −2 4 ● Marseille Strasbourg 2 Marseille Brest Lille ● 0 ● Dim 1 ( 79.85 %) −1 0 Dim 2 ( 18.97 %) ● 0 1 Nice Bordeaux ● Toulouse ● ● Montpellier Dim 1 ( 79.85 %) ● Strasbourg −4 3 4 3 2 Nantes −2 ● 0 6 Brest Paris Nice Bordeaux ● Toulouse ● Montpellier Dim 1 ( 79.85 %) Rennes −4 1 4 −4 Brest Vichy Clermont 6 Grenoble Lyon ● Strasbourg Dim 1 ( 79.85 %) Lille 4 Nantes Paris −1 ● −2 −2 • Calculer les Q 2 2 Rennes Vichy Clermont Marseille Grenoble Lyon 0 0 Lille ● ● ● −2 −2 3 ● −1 −1 −2 −4 Nice Bordeaux Toulouse ● Montpellier Paris Grenoble Lyon Strasbourg ● Strasbourg −4 4 2 Nantes 1 Dim 2 ( 18.97 %) Rennes Marseille ● ● Brest Vichy Clermont ● ● Marseille Dim 1 ( 79.85 %) Lille 0 1 Nice Bordeaux Toulouse ● Montpellier ● Dim 2 ( 18.97 %) 6 3 4 3 2 Nantes Paris 0 Dim 2 ( 18.97 %) Rennes Lille −2 4 Brest Vichy Clermont centres de gravité 2 Dim 1 ( 79.85 %) Brest • Affecter les points au centre le plus proche −2 Dim 1 ( 79.85 %) ● ● Grenoble Lyon ● ● Strasbourg −2 −2 0 Nice Bordeaux Toulouse ● Montpellier ● ● ● Grenoble Lyon ● ● −2 Nantes Paris Vichy Clermont Marseille −1 −1 −2 Grenoble Lyon ● ● −4 Rennes Lille ● ● ● Strasbourg Nice Bordeaux Toulouse ● Montpellier ● Dim 2 ( 18.97 %) Nantes Paris Vichy Clermont Marseille 0 Rennes Lille ● ● −1 ● 3 4 Nice Bordeaux ● Toulouse ● Montpellier 2 3 1 ● ● 1 Nantes Paris ● Dim 2 ( 18.97 %) ● ● Vichy Clermont • Choisir Q centres de Brest 0 2 Rennes Lille 0 Dim 2 ( 18.97 %) 3 4 ● 4 Brest −2 0 2 Dim 1 ( 79.85 %) 4 6 Strasbourg −4 −2 0 2 4 6 Dim 1 ( 79.85 %) 18 / 33 Introduction Principes de la CAH Exemple K-means Description des classes Consolidation d’une partition obtenue par CAH La partition obtenue par CAH n’est pas optimale et peut être améliorée, consolidée, par les K-means Algorithme de consolidation : • la partition obtenue par CAH est utilisée comme initialisation de l’algorithme de partitionnement • quelques étapes de K-means sont itérées =⇒ amélioration de la partition (souvent non décisive) Avantage : consolidation de la partition Inconvénient : perte de l’info de hiérarchie 19 / 33 Introduction Principes de la CAH Exemple K-means Description des classes CAH en grandes dimensions • Si beaucoup de variables : faire une ACP et ne conserver que les premières dimensions =⇒ on se ramène au cas classique • Si beaucoup d’individus : algorithme de CAH trop long, voire impossible • Faire une partition (avec des K-means) en une centaine de classes • Construire la CAH à partir des classes (utiliser l’effectif des classes dans le calcul) • Obtention du « haut » de l’arbre de la CAH 20 / 33 Introduction Principes de la CAH Exemple K-means Description des classes CAH sur données qualitatives Deux stratégies pour faire une classification sur données qualitatives : • Se ramener à des variables quantitatives • Faire une ACM et ne conserver que les premières dimensions • Faire la CAH à partir des composantes principales de l’ACM • Utiliser des mesures adaptées aux données qualitatives : indice de similarité, indice de Jacquard, etc. 21 / 33 Introduction Principes de la CAH Exemple K-means Description des classes Enchaînement analyse factorielle - classification • Données qualitatives : ACM renvoie des composantes principales qui sont quantitatives • L’analyse factorielle élimine les dernières composantes qui ne contiennent que du bruit =⇒ classification plus stable Hierarchical clustering on the factor map • Représentation de 4 ● Lille ● −4 Rennes● Nantes −2 0 1 ● ● ● ● ● ToulouseBordeaux Montpellier Marseille ● 0 Nice −1 −2 Grenoble Lyon Strasbourg −6 ● ● Paris Vichy Clermont ● ● Dim 2 (18.97%) 8 6 3 2 ● 2 height 5 4 ● Brest 0 l’arbre et des classes sur un plan factoriel =⇒ vision continue avec AF, discontinue avec CAH ; vision de l’information sur d’autres axes avec CAH cluster 1 cluster 2 cluster 3 −3 2 4 6 8 Dim 1 (79.85%) 22 / 33 Introduction Principes de la CAH Exemple K-means Description des classes Constitution des classes - Édition des parangons Parangon : individu le plus proche du centre d’une classe > res.pca = PCA(donnees) > res.hcpc = HCPC(res.pca) > res.hcpc$desc.ind $para cluster: 1 Montpellier Bordeaux Marseille Nice Toulouse 0.4189157 1.1413337 1.1929910 2.2421547 2.2558797 ------------------------------------------------------------cluster: 2 Rennes Nantes Brest 0.6405312 1.5857132 2.0450969 ------------------------------------------------------------cluster: 3 Vichy Clermont Grenoble Paris Lyon 0.4280303 0.6685057 1.1837153 1.3393108 1.6800950 23 / 33 Introduction Principes de la CAH Exemple K-means Description des classes Partition en 3 classes -2 Dim 2 (18.97%) 0 2 4 Parangon : individu le plus proche du centre d’une classe cluster 1 cluster 2 cluster 3 Brest cluster 2 Rennes Nantes Nice Lille Bordeaux -4 -2 cluster 1 Toulouse Vichy Paris Clermont cluster 3 Grenoble Lyon Strasbourg Montpellier Marseille 0 2 4 6 Dim 1 (79.85%) 24 / 33 Introduction Principes de la CAH Exemple K-means Description des classes Caractérisation des classes • Objectifs : • Trouver les variables les plus caractérisantes pour la partition • Caractériser une classe (ou un groupe d’individus) par des variables quantitatives • Trier les variables qui caractérisent les classes • Question : • Quelles variables caractérisent le mieux la partition ? • Comment caractériser les individus de la classe 1 ? • Quelles variables les caractérisent le mieux ? 25 / 33 Introduction Principes de la CAH Exemple K-means Description des classes Caractérisation des classes Quelles variables caractérisent le mieux la partition ? • Pour chaque variable quantitative : • construire le modèle d’analyse de variance entre la variable quantitative expliquée par la variable de classe • faire le test de Fisher de l’effet de la classe • Trier les variables par probabilité critique croissante Octo Sept Févr Mars Janv Nove Avri Déce Août Juin Mai juil Eta2 0.8362 0.8301 0.8227 0.8126 0.8118 0.8083 0.7929 0.7871 0.7864 0.7241 0.7164 0.7156 P-value 1.930e-05 2.407e-05 3.103e-05 4.326e-05 4.444e-05 4.963e-05 7.890e-05 9.316e-05 9.503e-05 4.409e-04 5.205e-04 5.287e-04 26 / 33 Introduction Principes de la CAH Exemple K-means Description des classes Caractérisation d’une classe Caractérisation d’une classe par les variables quantitatives Janv ● Févr ● ●●● ● ● ● ●● ● ● ● ●● ● ●● ● ● ● ●● Lyon Paris Grenoble Clermont Vichy Strasbourg Lille Nantes Rennes Brest Nice Marseille Montpellier Bordeaux Toulouse ● Mars Avri Mai Juin juil Août Sept Octo Nove Déce ● 0 ● ●● ● ● ● ●● ● ●● ● ● ● ● ● ● ● ●● ● ●● ● ●●●● ● ● ● ● ● ●●● ● ● ●● ● ●●● ● ● ●● ● ● ● ● ● ● ● ● ●●● ●● ● ●● ●● ● ● ●●●● ● ● ●●●● ●● ●● ● ● ●● ●● ● ●● ●● ● ● ● ● ● ● ●● ● ●● ● ● ● ● ●● ●●●●● ● ● ● 5 ● ● ● ●● ● ● ●● ● ● ● ● ●●● ● ●● ● ● ● 10 15 20 Température 27 / 33 Introduction Principes de la CAH Exemple K-means Description des classes Caractérisation d’une classe Idée 1 : si les valeurs de X pour la classe q semblent tirées au hasard parmi les valeurs de X , alors X ne caractérise pas la classe q Aléa ● ● ● ● ●●● ● ● ● ●● ● ● ● Août ● ● ● ● ●●● ● ● ● ●● ● ● ● 16 17 18 19 20 21 22 23 Température Idée 2 : plus l’hypothèse d’un tirage au hasard est douteuse, plus X caractérise la classe q 28 / 33 Introduction Principes de la CAH Exemple K-means Description des classes Caractérisation d’une classe Caractérisation des classes xq x X X caractérise q xq x Comparer moy. de la classe q et moy. générale (x̄q et x̄ ) Caractérisation des classeX X ne caractérise pas q x 3 ues : la moyenne des individus de la classes q à Comparer xq x la moyenne générale (pour une variable X) Cas 1 X Cas 2 X Cas 3 X Cas 1 et 2 : valeurs plus extrêmes dans 1 : X explique mieux X explique mieuxqq dans dans 1 cas 1 Cas 2 : 5 individus au même endroit valeurs plus extrêmes : hasard ? Cas 3 : 40 individus au même endroit : hasard ? queRelativiser parcas s 2 car =⇒ relativiser par s Relativiser par I q 5 au même endroit dans cas 2, 40 dans cas 3 : =⇒ relativiser par Iq hasard ou non ? X explique mieux q dans 3 29 / 33 Introduction Principes de la CAH Exemple K-means Description des classes Caractérisation d’une classe Idée : référence du tirage au hasard de Iq valeurs parmi I Quelles valeurs peut prendre x̄q ? (i.e. quelle est la loi de X̄q ?) E(X̄q ) = x̄ L(X̄q ) = N s2 V(X̄q ) = Iq I − Iq I −1 car X̄q est une moyenne =⇒ Valeur-test = r x̄q − x̄ s2 Iq I−Iq I−1 ∼ N (0, 1) • Si |Valeur-test| ≥ 2 alors X caractérise la classe q • X caractérise d’autant mieux la classe q que V-test grande Idée : classer les variables par |Valeur-test| décroissante 30 / 33 Introduction Principes de la CAH Exemple K-means Description des classes Caractérisation des classes par les variables > res.hcpc$desc.var $quanti$‘1‘ v.test Mean in category Sept 3.40 19.30 Moye 3.39 13.80 Avri 3.33 12.70 Octo 3.32 14.50 Mars 3.24 10.00 Août 3.18 21.90 Juin 3.00 19.80 Mai 3.00 16.10 Nove 2.97 9.88 juil 2.92 22.10 Févr 2.88 6.80 Déce 2.54 6.66 Janv 2.46 5.78 Overall mean 17.00 11.80 11.00 12.30 8.23 19.60 17.80 14.40 7.93 19.80 4.83 4.85 3.97 sd in category 0.755 0.742 0.580 0.941 0.524 0.792 0.727 0.691 0.999 1.000 0.940 0.896 0.924 Overall sd 1.79 1.55 1.37 1.77 1.48 1.94 1.73 1.45 1.74 2.06 1.81 1.89 1.94 p.value 0.000678 0.000705 0.000871 0.000893 0.001210 0.001490 0.002670 0.002720 0.003020 0.003550 0.003940 0.011200 0.013700 31 / 33 Introduction Principes de la CAH Exemple K-means Description des classes Caractérisation des classes par les variables $‘2‘ v.test Mai Août Juin juil Long Ampl -2.02 -2.02 -2.05 -2.18 -2.88 -2.95 Mean in category 12.90 17.50 15.90 17.40 -2.34 12.40 Overall mean 14.40 19.60 17.80 19.80 2.58 15.90 sd in category 0.953 1.090 1.160 1.350 1.380 1.560 Overall sd 1.45 1.94 1.73 2.06 3.21 2.25 Mean in category 15.90 10.20 10.70 10.90 7.03 6.36 3.16 3.07 2.11 Overall mean 17.00 11.00 11.80 12.30 8.23 7.93 4.83 4.85 3.97 sd in category 0.738 0.637 0.620 0.661 0.807 0.654 0.763 0.911 0.876 Overall sd 1.79 1.37 1.55 1.77 1.48 1.74 1.81 1.89 1.94 p.value 0.04380 0.04330 0.04020 0.02900 0.00404 0.00316 $‘3‘ v.test Sept Avri Moye Octo Mars Nove Févr Déce Janv -2.05 -2.11 -2.60 -2.81 -2.85 -3.15 -3.25 -3.28 -3.36 p.value 0.040700 0.035100 0.009220 0.004940 0.004310 0.001620 0.001150 0.001020 0.000793 32 / 33 Introduction Principes de la CAH Exemple K-means Description des classes Caractérisation des classes par les axes $‘1‘ v.test Dim.1 3.39 Mean in category 3.97 Overall mean 0 sd in category 1.46 Overall sd 3.1 Mean in category 2.29 Overall mean 0 sd in category 1.29 Overall sd 1.51 Mean in category -0.911 -2.270 Overall mean 0 0 sd in category 0.927 1.260 Overall sd 1.51 3.10 p.value 0.000693 $‘2‘ v.test Dim.2 2.84 p.value 0.00447 $‘3‘ v.test Dim.2 Dim.1 -2.11 -2.56 p.value 0.0346 0.0104 33 / 33