Analyse simultanée de variables quantitatives et qualitatives à l`aide

Transcription

Analyse simultanée de variables quantitatives et qualitatives à l`aide
Analyse simultanée de variables quantitatives et qualitatives
à l’aide de l’analyse factorielle multiple
Jérôme Pagès
Laboratoire de mathématiques appliquées
Agrocampus
France
1
Analyse Factorielle Multiple (AFM)
Un ensemble d’individus décrit par plusieurs groupes de variables
Exposé en deux étapes
1) Un groupe de variables
incluant à la fois des variables quantitatives et qualitatives
2) Plusieurs groupes de variables,
quantitatives, qualitatives ou des deux types (données mixtes)
2
Données
K1 variables
quantitatives
(centrées réduites)
1
k
Q variables
qualitatives
K1 1
q
Q
1
Individus
i
xik
xiq
I
3
Données
Q variables qualitatives
=K2 indicatrices
(codage disjonctif complet)
K1 variables
quantitatives
(centrées réduites)
1
k
K1
1
q
Q
1
kq
kq Kq
K2
1
1
Individus i
xik
xikq
I
4
Objectifs
Mettre en œuvre une analyse factorielle dans laquelle
les deux types de variables jouent un rôle actif
Solution classique
Diviser l’intervalle de variation des variables quantitatives
Coder les variables quantitatives en qualitatives
Mettre en œuvre une Analyse des Correspondances Multiples (ACM)
Benzécri J.-P., Cazes P., Lebart L., etc.
Excellente solution en pratique
Deux cas « limite »
I petit
Q <<K1
5
Autres solutions, moins connues
Introduction de variables quantitatives en ACM
Via un codage particulier
B. Escofier CAD 1979 (PUR 2003)
Introduction d’indicatrices dans une ACP
via une métrique particulière
G. Saporta in Revue Soc. ital. de stat. 1990
AFM de données mixtes
B. Escofier & J. Pagès (Dunod 1988 - 1997)
J. Pagès RSA 2002
idée : une variable = un groupe
Abascal E. et al. Carme 2003
6
Représentation des variables dans RI
RI
Variables quantitatives
en ACP normée
1
k
O
1
7
Représentation des variables dans RI
Variables qualitatives
en ACM
RI
Eq
O
Eq sous-espace engendré par
les indicatrices de la variable q
L’inertie des indicatrices de la variable q
est égale à 1 dans toutes les directions de Eq
8
Critère
Cas de l’ACP normée
RI
2
cos
∑ θ kv
k
k
1
2
r
∑ (k , v)
v
k
θkv
O
1
9
Critère
Cas de l’ACM
RI
2
cos
∑ θ qv
q
∑η
2
v
( q, v )
Eq
q
O
θqv
10
Méthode proposée par B. Escofier (1979)
Critère
2
2
cos
θ
+
cos
∑
∑ θ qv
kv
k
q
RI
k
1
v
θkv
O
Eq
θqv
1
11
Méthode proposée par B. Escofier (1979)
En pratique
Les variables quantitatives sont codées par deux colonnes
et juxtaposées au tableau disjonctif complet
L’ensemble est traité par ACM
Q variables qualitatives
= K2 indicatrices
(codage disjonctif complet)
K1 variables
quantitatives
(centrées réduites)
1
k
1
K1 1
1
q
Q
kq
kq Kq
K2
1
i
1 − xik
2
1 + xik
2
xikq
I
12
Méthode proposée par G. Saporta (1990)
Critère
2
2
r
(
k
,
v
)
+
η
∑
∑ ( q, v )
k
q
En pratique
Les indicatrices sont juxtaposées aux variables quantitatives
L’ensemble est traité par une ACP avec une métrique particulière
Même méthode vue
dans le cadre de l’ACM (B. Escofier)
dans le cadre de l’ACP (G. Saporta)
Analyse factorielle
de données mixtes
(AFDM)
13
AFDM à l’aide d’une ACP
Codage des indicatrices
pour garder, en ACP,
leurs propriétés en ACM
Q variables qualitatives = K2 indicatrices
q
1
1
kq
kq
K
Kq
1
xikq
i
pk q
I
pkq
fréquence de la modalité k de la variable q
14
Représentations fournies par l’AFDM
F2
F2
individu
modalité
k1
i1
k3
C
A
F1
F1
i2
B
k2
15
AFM appliquée à plusieurs groupes de variables :
quantitatifs, qualitatifs ou mixtes
J1 groupes quantitatifs
Groupes 1
Var.
j
1 k Kj
J1
J2 groupes qualitatifs
(codage disjonctif complet)
j
1
1
q
J2
Qj
1 k Kq
1
Ind. i
xik
xik
I
16
Données : exemple
Perception de 5 outils pédagogiques par des étudiants
Cours en ligne :
Livres
1) texte
4) cours
2) animations
5) exercices
3) film sur logiciels
Chaque outil est noté par chaque étudiant sur une échelle en 5 points
de 1= inutile
à
5 = très utile
Tableau : 25 étudiants x 5 outils avec xik la note donnée par l’étudiant i à l’outil k
Analyse exploratoire
Les variables peuvent être considérées comme quantitatives (ACP) ou qualitatives (ACM)
Double objectif
Comparaison ACP - ACM
Introduction des deux points de vue dans une analyse unique
17
Données : exemple
5 outils
= variables quantitatives
(centrées-réduites)
5 outils
= 25 indicatrices
(codage disjonctif complet)
1
1
1
k
5
1
q
k
k
5
25
5
1
Individus i
xik
xik
I
18
Pondération des groupes de variables
Plusieurs groupes de variables actives dans une analyse unique
Question
Comment équilibrer leur influence ?
19
Pondération des groupes de variables
Exemple de référence : deux groupes de variables quantitatives
RI
groupe 1 : 2 var.
groupe 2 : 3 var.
20
Pondération des groupes de variables
ACP des 5 variables, sans considérer les groupes
RI
1ère composante
principale
Groupe 1 : 2 var.
Groupe 2 : 3 var.
21
Exemple de référence
Pondération des groupes dans l’AFM
Equilibrer l’inertie axiale maximum
1
.5
RI
.5
Groupe 1 : 2 var.
1
Groupe 2 : 3 var.
1
Chaque variable du groupe j est pondérée par 1/λ1j
λ1j : 1ère valeur propre de l’ACP séparée du groupe j.
22
Le cœur de l’AFM est une analyse factorielle de tous les groupes actifs
Les groupes de variables peuvent être :
quantitatifs (centrés-réduits ou non)
qualitatifs
mixtes
Critère (cas de 2 groupes : K1 variables quantitatives + Q2 variables qualitatives)
1
∑
λ11 k ∈K
Equivalences en AFM
quand chaque groupe
contient une seule variable
1
r 2 (k ,v ) +
1
2
η
(q ,v )
∑
2
λ1 Q 2 q ∈Q 2
Variables quantitatives
ACP normée
Variables qualitatives
ACM
Données mixtes
AFDM
23
Le cœur de l’AFM est une analyse factorielle de tous les groupes actifs
L’AFM fournit :
1) : les résultats classiques de l’analyse factorielle
Soit, pour chaque axe :
Coordonnées, contributions et Cos² des individus
Coefficient de corrélation entre facteurs et variables continues
Coordonnées des modalités (au barycentre de leurs individus)
F2
F2
individu
modalité
k1
i1
k3
C
A
F1
F1
i2
B
k2
24
Valeurs propres des analyses séparées
MCA
PCA
F1
0,637
2,837
F2
0,617
1,870
F3
0,454
0,148
F4
0,418
0,081
F5
0,369
0,063
Valeurs propres des analyses séparées (% cumulés)
MCA
PCA
F1
15,92
56,75
F2
31,33
94,16
F3
42,68
97,12
F4
53,12
98,74
F5
62,35
100,00
Décomposition de l’inertie dans l’AFM
MFA
F1
1,942
24,14%
F2
1,455
18,09%
F3
0,826
10,27%
F4
0,694
8,63%
F5
0,612
7,61%
MCA
PCA
0,950
0,992
0,864
0,591
0,781
0,045
0,689
0,005
0,597
0,015
25
F2 - 18.09 %
Les 25 étudiants
2
i8
i5
1
i9
i15
i14 i16 i17
i4
i19
i2
i3
i13
i1
F1 - 24.14 %
0
i20
i18
i10
i21
i22
-1
i7
i6
-2
i25
i24
i23
i12
i11
-2
-1
0
1
2
26
F2 - 18.09 %
0.8
0.4
Films sur logiciels
Animations
Texte
F1 - 24.14 %
-0.8
-0.4
0.4
0.8
-0.4
-0.8
Livre d’exercices
Livre du cours
27
F2 - 18.09 %
1.50
Lco1
Tex3
Fil3
Lex2
Lco2
Lex1
Ani3
0.75
Tex4
Lco3
Ani2
0
Tex2
Texte
Fil4
Lex3
Ani4
F1 - 24.14 %
Films sur logiciels
Fil2
Fil5
Ani5
-0.75
Fil1
Lco4
Lex4
Tex5
Tex1
animations
Livre cours
Livre exercices
Ani1
-1.50
Lco5
Lex5
-1.50
-0.75
0
0.75
1.50
28
F2 - 18.09 %
ACPF2
Axes des analyses
séparées
ACMF1
0.4
Films logiciels
Animations
Texte
ACMF2
F1 - 24.14 %
-0.8
-0.4
0.4
0.8
ACPF1
-0.4
-0.8
Livre cours
Livre exercices
29
Représentation globale des groupes de variables
1
1
j
K1
J
1
Kj
1
KJ
1
i1
ij
iJ
i
I
NIj
RK1
i1
j
RKj
NI
ij
j
RKJ
NIJ
iJ
NI : nuage partiel (des individus ; associé au groupe j)
30
6. Représentation des groupe
Etudier les ressemblances globales entre les Ni
RKj
NIj
RK1
NIj
i1
l
1
i
I
j
I
1
l
1
W1(i,l)
i
?
NIJ
iJ
ij
1
1
RKJ
j
J
I
1
l
I
1
Wj(i,l)
I
i
WJ(i,l)
I
matrices des produits scalaires entre individus pour chaque groupe j
W j = X j X ′j
31
Données
1
Produits scalaires
1
Kj
1
i
l
I
1
Æ
xik
i
I
Wj(i,l)
I
RI
RI²
NKj
Wj
NJ
32
NJ : nuage des groupes
RI²
Wj
NJ
Etudier le nuage NJ
Méthode de référence : STATIS (Escoufier Y., Lavit C.)
Axes principaux de NJ
Interprétation de ces axes difficile
33
Etudier NJ avec l’AFM
Données
1
Produits scalaires
Kj
1
1
l
I
1
xik
i
Æ
i
I
Wj(i,l)
I
RI
RI²
NKj
Wj
vs
ws
NJ
ws : W associé à vs
j
inertie de NK projeté sur vs
coordonnée de Wj sur ws
34
Carré des liaisons
1
groupe Kj
Lg (v 1 , K j )
0
0
Kj quantitatif
Kj qualitatif
Lg (v s , K j ) =
Lg (v s , K j ) =
Lg (v 1 , K j )
1
λ1j
∑
k ∈K 1
1
r 2 (k ,v s )
1
2
(q ,v s )
η
∑
j
λ1 Q 2 q ∈Q 2
35
1.00
F2 - 18.09 %
Livre cours (quali.)
Group 1 (ACM)
Livre exercices(quali.)
Livre cours (quanti.)
Livre exercices (quanti.)
0.75
Group 2 (ACP)
0.50
Texte (quali.)
Animations (quali.)
Films logiciels (quali.)
0.25
Animations (quanti.)
Films logiciels (quanti.)
Texte (quanti.)
F1 - 24.14 %
0
0
0.25
0.50
0.75
1.00
36
Conclusion
L’AFM est une méthode factorielle dédiée aux tableaux multiples dans lesquels
Un groupe d’individus est décrit par plusieurs groupes de variables
Les groupes de variables peuvent être quantitatifs, qualitatifs ou mixtes
Le cœur de la méthode est une analyse factorielle pondérée ; elle fonctionne
comme une ACP pour les variables quantitatives
comme une ACM pour les variables qualitatives
Elle fournit des résultats
classiques de l’analyse factorielle
représentation des individus, des variables, etc.
spécifiques de la structure des variables en groupes
représentation des groupes, des axes des analyses séparées, etc.
37
Ces analyses sont disponibles dans
Un package R dédié à
l’analyse exploratoire des données
http://www2.agrocampus-ouest.fr/math/
38