Analyse exploratoire des données
Transcription
Analyse exploratoire des données
Analyse exploratoire des données Christophe Lalanne [email protected] Centre international d’études pédagogiques juillet 2007 C. Lalanne (CIEP) Analyse exploratoire des données juillet 2007 1 / 25 Organisation Introduction Analyse en composantes principales Échelonnement multidimensionnel Analyse des correspondances C. Lalanne (CIEP) Analyse exploratoire des données juillet 2007 2 / 25 Introduction Objectifs I décrire une structure de données complexes (cadre multivarié ou multidimensionnel) I quantifier et interpréter des associations (distance, similarité, etc.) I différentes techniques adaptées selon le type de variables manipulées et selon la visée – inférentielle ou descriptive (ACP, AFC, ACM, MDS, CAH, k-means, AD, MANOVA, CART, modèle log-linéaire, etc.) C. Lalanne (CIEP) Analyse exploratoire des données juillet 2007 3 / 25 Analyse en composantes principales Object de l’ACP I décrire les variations d’un ensemble de variables corrélées Xi à partir d’un nouvel ensemble de variables non corrélées Yi , obtenues à partir de combinaisons linéaires des premières I procédé itératif de construction de ces variables Yi : maximiser la variance expliquer + combinaisons linéaires orthogonales dans leur ensemble I ces nouvelles variables Yi sont appelées composantes principales et permettent d’expliquer une part substantielle de la variabilité observée (par ordre décroissant) C. Lalanne (CIEP) Analyse exploratoire des données juillet 2007 4 / 25 Analyse en composantes principales Principe général I utilisable avec des variables continues (en principe) I aucune condition de validité I réduction de dimensions du n individus et p variables (en général, n et p sont supérieurs à 10 ou 20) : retenir 2 ou 3 dimensions qui contiennent le maximum d’information sur les données originales I normalisation éventuelle des données originales (cas de variables dont les unités diffèrent fortement et contribuent à augmenter artificiellement les diparités entre variables) : utilisation de la matrice de corrélation des Xi au lieu de la matrice de covariance (dans ce dernier cas, on peut tester l’égalité de groupes de composantes principales) C. Lalanne (CIEP) Analyse exploratoire des données juillet 2007 5 / 25 Analyse en composantes principales Application (1) À partir d’une matrice de corrélation : load ( cor1 . RData ) eigen ( cor ) $ values eigen ( cor ) $ vectors I valeurs propres : part de variance expliquée I vecteurs propres : composantes principales C. Lalanne (CIEP) Analyse exploratoire des données juillet 2007 6 / 25 Analyse en composantes principales Application (2) À partir d’un fichier de données brutes (ex. R) : summary ( pc . cr <- princomp ( USArrests , cor = Importance of components : Comp .1 Comp .2 Comp .4 Standard deviation 1.5748783 0.9948694 0.41644938 Proportion of Variance 0.6200604 0.2474413 0.04335752 Cumulative Proportion 0.6200604 0.8675017 1.00000000 loadings ( pc . cr ) Loadings : Comp .1 Comp .2 Comp .3 Comp .4 Murder -0.536 0.418 -0.341 0.649 Assault -0.583 0.188 -0.268 -0.743 UrbanPop -0.278 -0.873 -0.378 0.134 Rape -0.543 -0.167 0.818 Comp .1 Comp .2 Comp .3 Comp .4 SS loadings 1.00 1.00 1.00 1.00 Proportion Var 0.25 Analyse 0.25 0.25 C. Lalanne (CIEP) exploratoire des données 0.25 TRUE ) ) Comp .3 0.5971291 0.0891408 0.9566425 juillet 2007 7 / 25 Analyse en composantes principales Application (3) C. Lalanne (CIEP) Analyse exploratoire des données juillet 2007 8 / 25 Analyse en composantes principales Application (4) plot ( pc . cr ) biplot ( pc . cr ) I graphique des valeurs propres : critère du coude pour la sélection des axes à retenir I biplot : représentation des point individus et des corrélations entre variables I corrélation entre les variables : cosinus de l’angle formé par les vecteurs I distance entre individus C. Lalanne (CIEP) Analyse exploratoire des données juillet 2007 9 / 25 Analyse en composantes principales Application (5) C. Lalanne (CIEP) Analyse exploratoire des données juillet 2007 10 / 25 Analyse en composantes principales Application (5) C. Lalanne (CIEP) Analyse exploratoire des données juillet 2007 10 / 25 Analyse en composantes principales Application (6) Associé à un arbre de classification hiérarchique : plot ( hclust ( dist ( USArrests ) ) ) C. Lalanne (CIEP) Analyse exploratoire des données juillet 2007 11 / 25 Analyse en composantes principales Remarques sur l’ACP avec R I fonction : princomp (plutôt que prcomp) I 2 packages utiles : ade4 psy C. Lalanne (CIEP) Analyse exploratoire des données juillet 2007 12 / 25 Échelonnement multidimensionnel Objectifs du MDS I ACP : représenter dans un espace de faible dimension des variables en préservant autant que possible les distances euclidiennes entre les observations des p variables initiales I extension de cette technique à un type de variable plus spécifique, non nécessairement continues, et pour lesquelles la notion de distance euclidienne n’a pas de sens 2 cas de figure : I représenter graphiquement des données de type mesure de similitude ou de préférence I adapter l’ACP pour représenter les données non pas sur un plan mais sur une courbe ou un sous-espace : déploiement non-linéaire C. Lalanne (CIEP) Analyse exploratoire des données juillet 2007 13 / 25 Échelonnement multidimensionnel Analyse de similitudes ou de préférences Analyse de similitudes I classement par niveau de similitude (subjectif) décroissant de modalités proches d’une autre modalité I représenter les similitudes entre variables à partir de la matrice de corrélation I identifier des regroupements de modalités permettant de définir des situations particulières Analyse de préférences I ACP sur un tableau n × p regroupant des les rangs de préférence exprimés par les n individus pour chacune des p variables I la première composante résumera « au mieux » l’ensemble des préférences I adaptation de la représentation graphique aux données ordinales C. Lalanne (CIEP) Analyse exploratoire des données juillet 2007 14 / 25 Analyse des correspondances Objectifs de l’AC I représenter graphiquement les associations entre 2 (AFC) ou plusieurs (ACM) variables qualitatives I calcul de nouvelles coordonnées lignes/colonnes permettant de représenter l’association entre variables par leur proximité dans un plan 2 façons de voir l’AC sur le plan mathématique : I méthode de décomposition de la statistique du χ2 en différentes composantes correspondant à plusieurs dimensions de la variance entre les colonnes du tableau de contingence I méthode pour assigner simultanément une échelle aux profils lignes et une autre échelle aux profils colonnes de façon à maximiser la corrélation entre ces deux échelles C. Lalanne (CIEP) Analyse exploratoire des données juillet 2007 15 / 25 Analyse des correspondances Rappels : le test du χ2 I associations entre les modalités de 2 variables qualitatives = écart à l’indépendance I tableau de contingence I × J : représentation des effectifs observés (nij ou O) et des effectifs théoriques (ñij , ou E ) I effectifs théoriques (indépendance entre lignes et colonnes du tableau n ×n des effectifs) : ñij = i·n·· ·j I on définit la distance du χ2 comme suit : d2 = C. Lalanne (CIEP) X (O − E )2 E ∼ χ2 (I − 1)(J − 1) Analyse exploratoire des données juillet 2007 16 / 25 Analyse des correspondances Exemple Consommation de caféine et statut marital (Dalgaard, 2002) : caff . marital <matrix ( c (652 ,1537 ,598 ,242 ,36 ,46 ,38 ,21 ,218 ,327 ,106 ,67) , nrow =3 , byrow = T ) colnames ( caff . marital ) <- c ( " 0 " ," 1 -150 " ," 151 -300 " ," >300 " ) rownames ( caff . marital ) <- c ( " Married " ," Prev . married " ," Single " ) caff . marital 0 1 -150 151 -300 >300 Married 652 1537 598 242 Prev . married 36 46 38 21 Single 218 327 106 67 chisq . test ( caff . marital ) Pearson ’s Chi - squared test data : caff . marital X - squared = 51.6556 , df = 6 , p - value = 2.187 e -09 C. Lalanne (CIEP) Analyse exploratoire des données juillet 2007 17 / 25 Analyse des correspondances Exemple (2) E <- chisq . test ( caff . marital ) $ expected E 0 1 -150 151 -300 >300 Married 705.83179 1488.01183 578.06533 257.09105 Prev . married 32.85648 69.26698 26.90895 11.96759 Single 167.31173 352.72119 137.02572 60.94136 O <- chisq . test ( caff . marital ) $ observed (O - E ) ^2 / E 0 1 -150 151 -300 >300 Married 4.1055981 1.612783 0.6874502 0.8858331 Prev . married 0.3007537 7.815444 4.5713926 6.8171090 Single 15.3563704 1.875645 7.0249243 0.6023355 C. Lalanne (CIEP) Analyse exploratoire des données juillet 2007 18 / 25 Analyse des correspondances Exemple (3) C. Lalanne (CIEP) Analyse exploratoire des données juillet 2007 19 / 25 Analyse des correspondances Principe général de l’AFC I utilisable avec des variables qualitatives (nominales) I aucune condition de validité I peut être dérivée de l’ACP ou du MDS (optimisation de la représentation sptiale dans le cadre de données qualitatives, grâce à la distance du χ2 ) I chaque modalité est représentée par un point dans l’espace 2D I les valeurs propres ne permettent pas (contrairement au cas de l’ACP) d’estimer correctement la part de variance I distinction entre variables actives et illustratives (utilisées après construction de la représentation) I interprétation des axes en fonction de la position des modalités représentées sur le nuage des variables ou de leur contribution à l’inertie et vérification de la qualité de représentation de chaque point sur les différents axes C. Lalanne (CIEP) Analyse exploratoire des données juillet 2007 20 / 25 Analyse des correspondances Interprétation I lorsque les coordonnées pour les modalités en lignes et en colonnes sont larges et positives (ou négatives), cela indique une association entre la ligne i et la colonne j (nij > ñij ) I lorsque les coordonnées sont large en valeurs absolues mais de signe différent pour les lignes et les colonnes, il existe une association négative entre les lignes et les colonnes correspondantes (nij < ñij ) I lorsque le produit des coordonnées est proche de 0, l’association est faible (nij ≈ ñij ) C. Lalanne (CIEP) Analyse exploratoire des données juillet 2007 21 / 25 Analyse des correspondances Application (1) Couleur des yeux et couleur des cheveux, selon le sexe (ex. R) : library ( MASS ) data ( HairEyeColor ) HairEyeColor , , Sex = Male Eye Hair Brown Blue Hazel Green Black 32 11 10 3 Brown 38 50 25 15 Red 10 10 7 7 Blond 3 30 5 8 , , Sex = Female Eye Hair Brown Blue Hazel Green Black 36 9 5 2 Brown 81 34 29 14 Red 16 7 7 7 Blond 4 64 5 8 C. Lalanne (CIEP) Analyse exploratoire des données juillet 2007 22 / 25 Analyse des correspondances Application (2) x <- HairEyeColor [ , ,1]+ HairEyeColor [ , ,2] corresp (x , nf = 2) First canonical correlation ( s ) : 0.4569165 0.1490859 Hair scores : [ ,1] [ ,2] Black -1.1042772 1.4409170 Brown -0.3244635 -0.2191109 Red -0.2834725 -2.1440145 Blond 1.8282287 0.4667063 Eye scores : [ ,1] [ ,2] Brown -1.0771283 0.5924202 Blue 1.1980612 0.5564193 Hazel -0.4652862 -1.1227826 Green 0.3540108 -2.2741218 C. Lalanne (CIEP) Analyse exploratoire des données juillet 2007 23 / 25 Analyse des correspondances Application (3) biplot ( corresp (x , nf = 2) ) C. Lalanne (CIEP) Analyse exploratoire des données juillet 2007 24 / 25 Analyse des correspondances Remarques I distance entre les colonnes i et j : dijJ = J X 1 (pki − pkj )2 pk· k=1 I avec pk· = nnk··· distance entre les lignes i et j : dijI = I X 1 (pik − pjk )2 p·k k=1 n·k n·· I avec p·k = l’AC revient à faire du MDS sur chaque matrice de distance (lignes et colonnes) et à représenter graphiquement les deux premières coordonnées pour les modalités en colonnes et celles pour les modalités en lignes sur le même plan C. Lalanne (CIEP) Analyse exploratoire des données juillet 2007 25 / 25