Analyse exploratoire des données

Transcription

Analyse exploratoire des données
Analyse exploratoire des données
Christophe Lalanne
[email protected]
Centre international d’études pédagogiques
juillet 2007
C. Lalanne (CIEP)
Analyse exploratoire des données
juillet 2007
1 / 25
Organisation
Introduction
Analyse en composantes principales
Échelonnement multidimensionnel
Analyse des correspondances
C. Lalanne (CIEP)
Analyse exploratoire des données
juillet 2007
2 / 25
Introduction
Objectifs
I
décrire une structure de données complexes (cadre multivarié ou
multidimensionnel)
I
quantifier et interpréter des associations (distance, similarité, etc.)
I
différentes techniques adaptées selon le type de variables manipulées
et selon la visée – inférentielle ou descriptive (ACP, AFC, ACM, MDS,
CAH, k-means, AD, MANOVA, CART, modèle log-linéaire, etc.)
C. Lalanne (CIEP)
Analyse exploratoire des données
juillet 2007
3 / 25
Analyse en composantes principales
Object de l’ACP
I
décrire les variations d’un ensemble de variables corrélées Xi à partir
d’un nouvel ensemble de variables non corrélées Yi , obtenues à partir
de combinaisons linéaires des premières
I
procédé itératif de construction de ces variables Yi : maximiser la
variance expliquer + combinaisons linéaires orthogonales dans leur
ensemble
I
ces nouvelles variables Yi sont appelées composantes principales et
permettent d’expliquer une part substantielle de la variabilité observée
(par ordre décroissant)
C. Lalanne (CIEP)
Analyse exploratoire des données
juillet 2007
4 / 25
Analyse en composantes principales
Principe général
I
utilisable avec des variables continues (en principe)
I
aucune condition de validité
I
réduction de dimensions du n individus et p variables (en général, n et
p sont supérieurs à 10 ou 20) : retenir 2 ou 3 dimensions qui
contiennent le maximum d’information sur les données originales
I
normalisation éventuelle des données originales (cas de variables dont
les unités diffèrent fortement et contribuent à augmenter
artificiellement les diparités entre variables) : utilisation de la matrice
de corrélation des Xi au lieu de la matrice de covariance (dans ce
dernier cas, on peut tester l’égalité de groupes de composantes
principales)
C. Lalanne (CIEP)
Analyse exploratoire des données
juillet 2007
5 / 25
Analyse en composantes principales
Application (1)
À partir d’une matrice de corrélation :
load ( cor1 . RData )
eigen ( cor ) $ values
eigen ( cor ) $ vectors
I
valeurs propres : part de variance expliquée
I
vecteurs propres : composantes principales
C. Lalanne (CIEP)
Analyse exploratoire des données
juillet 2007
6 / 25
Analyse en composantes principales
Application (2)
À partir d’un fichier de données brutes (ex. R) :
summary ( pc . cr <- princomp ( USArrests , cor =
Importance of components :
Comp .1
Comp .2
Comp .4
Standard deviation
1.5748783 0.9948694
0.41644938
Proportion of Variance 0.6200604 0.2474413
0.04335752
Cumulative Proportion 0.6200604 0.8675017
1.00000000
loadings ( pc . cr )
Loadings :
Comp .1 Comp .2 Comp .3 Comp .4
Murder
-0.536 0.418 -0.341 0.649
Assault
-0.583 0.188 -0.268 -0.743
UrbanPop -0.278 -0.873 -0.378 0.134
Rape
-0.543 -0.167 0.818
Comp .1 Comp .2 Comp .3 Comp .4
SS loadings
1.00
1.00
1.00
1.00
Proportion
Var
0.25 Analyse
0.25
0.25
C. Lalanne (CIEP)
exploratoire
des données 0.25
TRUE ) )
Comp .3
0.5971291
0.0891408
0.9566425
juillet 2007
7 / 25
Analyse en composantes principales
Application (3)
C. Lalanne (CIEP)
Analyse exploratoire des données
juillet 2007
8 / 25
Analyse en composantes principales
Application (4)
plot ( pc . cr )
biplot ( pc . cr )
I
graphique des valeurs propres : critère du coude pour la sélection des
axes à retenir
I
biplot : représentation des point individus et des corrélations entre
variables
I
corrélation entre les variables : cosinus de l’angle formé par les
vecteurs
I
distance entre individus
C. Lalanne (CIEP)
Analyse exploratoire des données
juillet 2007
9 / 25
Analyse en composantes principales
Application (5)
C. Lalanne (CIEP)
Analyse exploratoire des données
juillet 2007
10 / 25
Analyse en composantes principales
Application (5)
C. Lalanne (CIEP)
Analyse exploratoire des données
juillet 2007
10 / 25
Analyse en composantes principales
Application (6)
Associé à un arbre de classification hiérarchique :
plot ( hclust ( dist ( USArrests ) ) )
C. Lalanne (CIEP)
Analyse exploratoire des données
juillet 2007
11 / 25
Analyse en composantes principales
Remarques sur l’ACP avec R
I
fonction : princomp (plutôt que prcomp)
I
2 packages utiles :
ade4 psy
C. Lalanne (CIEP)
Analyse exploratoire des données
juillet 2007
12 / 25
Échelonnement multidimensionnel
Objectifs du MDS
I
ACP : représenter dans un espace de faible dimension des variables en
préservant autant que possible les distances euclidiennes entre les
observations des p variables initiales
I
extension de cette technique à un type de variable plus spécifique,
non nécessairement continues, et pour lesquelles la notion de distance
euclidienne n’a pas de sens
2 cas de figure :
I
représenter graphiquement des données de type mesure de similitude
ou de préférence
I
adapter l’ACP pour représenter les données non pas sur un plan mais
sur une courbe ou un sous-espace : déploiement non-linéaire
C. Lalanne (CIEP)
Analyse exploratoire des données
juillet 2007
13 / 25
Échelonnement multidimensionnel
Analyse de similitudes ou de préférences
Analyse de similitudes
I
classement par niveau de similitude (subjectif) décroissant de
modalités proches d’une autre modalité
I
représenter les similitudes entre variables à partir de la matrice de
corrélation
I
identifier des regroupements de modalités permettant de définir des
situations particulières
Analyse de préférences
I
ACP sur un tableau n × p regroupant des les rangs de préférence
exprimés par les n individus pour chacune des p variables
I
la première composante résumera « au mieux » l’ensemble des
préférences
I
adaptation de la représentation graphique aux données ordinales
C. Lalanne (CIEP)
Analyse exploratoire des données
juillet 2007
14 / 25
Analyse des correspondances
Objectifs de l’AC
I
représenter graphiquement les associations entre 2 (AFC) ou plusieurs
(ACM) variables qualitatives
I
calcul de nouvelles coordonnées lignes/colonnes permettant de
représenter l’association entre variables par leur proximité dans un
plan
2 façons de voir l’AC sur le plan mathématique :
I
méthode de décomposition de la statistique du χ2 en différentes
composantes correspondant à plusieurs dimensions de la variance
entre les colonnes du tableau de contingence
I
méthode pour assigner simultanément une échelle aux profils lignes et
une autre échelle aux profils colonnes de façon à maximiser la
corrélation entre ces deux échelles
C. Lalanne (CIEP)
Analyse exploratoire des données
juillet 2007
15 / 25
Analyse des correspondances
Rappels : le test du χ2
I
associations entre les modalités de 2 variables qualitatives = écart à
l’indépendance
I
tableau de contingence I × J : représentation des effectifs observés
(nij ou O) et des effectifs théoriques (ñij , ou E )
I
effectifs théoriques (indépendance entre lignes et colonnes du tableau
n ×n
des effectifs) : ñij = i·n·· ·j
I
on définit la distance du χ2 comme suit :
d2 =
C. Lalanne (CIEP)
X (O − E )2
E
∼ χ2 (I − 1)(J − 1)
Analyse exploratoire des données
juillet 2007
16 / 25
Analyse des correspondances
Exemple
Consommation de caféine et statut marital (Dalgaard, 2002) :
caff . marital <matrix ( c (652 ,1537 ,598 ,242 ,36 ,46 ,38 ,21 ,218 ,327 ,106 ,67) ,
nrow =3 , byrow = T )
colnames ( caff . marital ) <- c ( " 0 " ," 1 -150 " ," 151 -300 " ,"
>300 " )
rownames ( caff . marital ) <- c ( " Married " ," Prev . married " ,"
Single " )
caff . marital
0 1 -150 151 -300 >300
Married
652 1537
598 242
Prev . married 36
46
38
21
Single
218
327
106
67
chisq . test ( caff . marital )
Pearson ’s Chi - squared test
data : caff . marital
X - squared = 51.6556 , df = 6 , p - value = 2.187 e -09
C. Lalanne (CIEP)
Analyse exploratoire des données
juillet 2007
17 / 25
Analyse des correspondances
Exemple (2)
E <- chisq . test ( caff . marital ) $ expected
E
0
1 -150
151 -300
>300
Married
705.83179 1488.01183 578.06533 257.09105
Prev . married 32.85648
69.26698 26.90895 11.96759
Single
167.31173 352.72119 137.02572 60.94136
O <- chisq . test ( caff . marital ) $ observed
(O - E ) ^2 / E
0
1 -150
151 -300
>300
Married
4.1055981 1.612783 0.6874502 0.8858331
Prev . married 0.3007537 7.815444 4.5713926 6.8171090
Single
15.3563704 1.875645 7.0249243 0.6023355
C. Lalanne (CIEP)
Analyse exploratoire des données
juillet 2007
18 / 25
Analyse des correspondances
Exemple (3)
C. Lalanne (CIEP)
Analyse exploratoire des données
juillet 2007
19 / 25
Analyse des correspondances
Principe général de l’AFC
I
utilisable avec des variables qualitatives (nominales)
I
aucune condition de validité
I
peut être dérivée de l’ACP ou du MDS (optimisation de la
représentation sptiale dans le cadre de données qualitatives, grâce à la
distance du χ2 )
I
chaque modalité est représentée par un point dans l’espace 2D
I
les valeurs propres ne permettent pas (contrairement au cas de
l’ACP) d’estimer correctement la part de variance
I
distinction entre variables actives et illustratives (utilisées après
construction de la représentation)
I
interprétation des axes en fonction de la position des modalités
représentées sur le nuage des variables ou de leur contribution à
l’inertie et vérification de la qualité de représentation de chaque point
sur les différents axes
C. Lalanne (CIEP)
Analyse exploratoire des données
juillet 2007
20 / 25
Analyse des correspondances
Interprétation
I
lorsque les coordonnées pour les modalités en lignes et en colonnes
sont larges et positives (ou négatives), cela indique une association
entre la ligne i et la colonne j (nij > ñij )
I
lorsque les coordonnées sont large en valeurs absolues mais de signe
différent pour les lignes et les colonnes, il existe une association
négative entre les lignes et les colonnes correspondantes (nij < ñij )
I
lorsque le produit des coordonnées est proche de 0, l’association est
faible (nij ≈ ñij )
C. Lalanne (CIEP)
Analyse exploratoire des données
juillet 2007
21 / 25
Analyse des correspondances
Application (1)
Couleur des yeux et couleur des cheveux, selon le sexe (ex. R) :
library ( MASS )
data ( HairEyeColor )
HairEyeColor
, , Sex = Male
Eye
Hair
Brown Blue Hazel Green
Black
32
11
10
3
Brown
38
50
25
15
Red
10
10
7
7
Blond
3
30
5
8
, , Sex = Female
Eye
Hair
Brown Blue Hazel Green
Black
36
9
5
2
Brown
81
34
29
14
Red
16
7
7
7
Blond
4
64
5
8
C. Lalanne (CIEP)
Analyse exploratoire des données
juillet 2007
22 / 25
Analyse des correspondances
Application (2)
x <- HairEyeColor [ , ,1]+ HairEyeColor [ , ,2]
corresp (x , nf = 2)
First canonical correlation ( s ) : 0.4569165 0.1490859
Hair scores :
[ ,1]
[ ,2]
Black -1.1042772 1.4409170
Brown -0.3244635 -0.2191109
Red
-0.2834725 -2.1440145
Blond 1.8282287 0.4667063
Eye scores :
[ ,1]
[ ,2]
Brown -1.0771283 0.5924202
Blue
1.1980612 0.5564193
Hazel -0.4652862 -1.1227826
Green 0.3540108 -2.2741218
C. Lalanne (CIEP)
Analyse exploratoire des données
juillet 2007
23 / 25
Analyse des correspondances
Application (3)
biplot ( corresp (x , nf = 2) )
C. Lalanne (CIEP)
Analyse exploratoire des données
juillet 2007
24 / 25
Analyse des correspondances
Remarques
I
distance entre les colonnes i et j :
dijJ =
J
X
1
(pki − pkj )2
pk·
k=1
I
avec pk· = nnk···
distance entre les lignes i et j :
dijI =
I
X
1
(pik − pjk )2
p·k
k=1
n·k
n··
I
avec p·k =
l’AC revient à faire du MDS sur chaque matrice de distance (lignes et
colonnes) et à représenter graphiquement les deux premières
coordonnées pour les modalités en colonnes et celles pour les
modalités en lignes sur le même plan
C. Lalanne (CIEP)
Analyse exploratoire des données
juillet 2007
25 / 25