Analyse simultanée de variables quantitatives et qualitatives à l`aide
Transcription
Analyse simultanée de variables quantitatives et qualitatives à l`aide
Analyse simultanée de variables quantitatives et qualitatives à l’aide de l’analyse factorielle multiple Jérôme Pagès Laboratoire de mathématiques appliquées Agrocampus France 1 Analyse Factorielle Multiple (AFM) Un ensemble d’individus décrit par plusieurs groupes de variables Exposé en deux étapes 1) Un groupe de variables incluant à la fois des variables quantitatives et qualitatives 2) Plusieurs groupes de variables, quantitatives, qualitatives ou des deux types (données mixtes) 2 Données K1 variables quantitatives (centrées réduites) 1 k Q variables qualitatives K1 1 q Q 1 Individus i xik xiq I 3 Données Q variables qualitatives =K2 indicatrices (codage disjonctif complet) K1 variables quantitatives (centrées réduites) 1 k K1 1 q Q 1 kq kq Kq K2 1 1 Individus i xik xikq I 4 Objectifs Mettre en œuvre une analyse factorielle dans laquelle les deux types de variables jouent un rôle actif Solution classique Diviser l’intervalle de variation des variables quantitatives Coder les variables quantitatives en qualitatives Mettre en œuvre une Analyse des Correspondances Multiples (ACM) Benzécri J.-P., Cazes P., Lebart L., etc. Excellente solution en pratique Deux cas « limite » I petit Q <<K1 5 Autres solutions, moins connues Introduction de variables quantitatives en ACM Via un codage particulier B. Escofier CAD 1979 (PUR 2003) Introduction d’indicatrices dans une ACP via une métrique particulière G. Saporta in Revue Soc. ital. de stat. 1990 AFM de données mixtes B. Escofier & J. Pagès (Dunod 1988 - 1997) J. Pagès RSA 2002 idée : une variable = un groupe Abascal E. et al. Carme 2003 6 Représentation des variables dans RI RI Variables quantitatives en ACP normée 1 k O 1 7 Représentation des variables dans RI Variables qualitatives en ACM RI Eq O Eq sous-espace engendré par les indicatrices de la variable q L’inertie des indicatrices de la variable q est égale à 1 dans toutes les directions de Eq 8 Critère Cas de l’ACP normée RI 2 cos ∑ θ kv k k 1 2 r ∑ (k , v) v k θkv O 1 9 Critère Cas de l’ACM RI 2 cos ∑ θ qv q ∑η 2 v ( q, v ) Eq q O θqv 10 Méthode proposée par B. Escofier (1979) Critère 2 2 cos θ + cos ∑ ∑ θ qv kv k q RI k 1 v θkv O Eq θqv 1 11 Méthode proposée par B. Escofier (1979) En pratique Les variables quantitatives sont codées par deux colonnes et juxtaposées au tableau disjonctif complet L’ensemble est traité par ACM Q variables qualitatives = K2 indicatrices (codage disjonctif complet) K1 variables quantitatives (centrées réduites) 1 k 1 K1 1 1 q Q kq kq Kq K2 1 i 1 − xik 2 1 + xik 2 xikq I 12 Méthode proposée par G. Saporta (1990) Critère 2 2 r ( k , v ) + η ∑ ∑ ( q, v ) k q En pratique Les indicatrices sont juxtaposées aux variables quantitatives L’ensemble est traité par une ACP avec une métrique particulière Même méthode vue dans le cadre de l’ACM (B. Escofier) dans le cadre de l’ACP (G. Saporta) Analyse factorielle de données mixtes (AFDM) 13 AFDM à l’aide d’une ACP Codage des indicatrices pour garder, en ACP, leurs propriétés en ACM Q variables qualitatives = K2 indicatrices q 1 1 kq kq K Kq 1 xikq i pk q I pkq fréquence de la modalité k de la variable q 14 Représentations fournies par l’AFDM F2 F2 individu modalité k1 i1 k3 C A F1 F1 i2 B k2 15 AFM appliquée à plusieurs groupes de variables : quantitatifs, qualitatifs ou mixtes J1 groupes quantitatifs Groupes 1 Var. j 1 k Kj J1 J2 groupes qualitatifs (codage disjonctif complet) j 1 1 q J2 Qj 1 k Kq 1 Ind. i xik xik I 16 Données : exemple Perception de 5 outils pédagogiques par des étudiants Cours en ligne : Livres 1) texte 4) cours 2) animations 5) exercices 3) film sur logiciels Chaque outil est noté par chaque étudiant sur une échelle en 5 points de 1= inutile à 5 = très utile Tableau : 25 étudiants x 5 outils avec xik la note donnée par l’étudiant i à l’outil k Analyse exploratoire Les variables peuvent être considérées comme quantitatives (ACP) ou qualitatives (ACM) Double objectif Comparaison ACP - ACM Introduction des deux points de vue dans une analyse unique 17 Données : exemple 5 outils = variables quantitatives (centrées-réduites) 5 outils = 25 indicatrices (codage disjonctif complet) 1 1 1 k 5 1 q k k 5 25 5 1 Individus i xik xik I 18 Pondération des groupes de variables Plusieurs groupes de variables actives dans une analyse unique Question Comment équilibrer leur influence ? 19 Pondération des groupes de variables Exemple de référence : deux groupes de variables quantitatives RI groupe 1 : 2 var. groupe 2 : 3 var. 20 Pondération des groupes de variables ACP des 5 variables, sans considérer les groupes RI 1ère composante principale Groupe 1 : 2 var. Groupe 2 : 3 var. 21 Exemple de référence Pondération des groupes dans l’AFM Equilibrer l’inertie axiale maximum 1 .5 RI .5 Groupe 1 : 2 var. 1 Groupe 2 : 3 var. 1 Chaque variable du groupe j est pondérée par 1/λ1j λ1j : 1ère valeur propre de l’ACP séparée du groupe j. 22 Le cœur de l’AFM est une analyse factorielle de tous les groupes actifs Les groupes de variables peuvent être : quantitatifs (centrés-réduits ou non) qualitatifs mixtes Critère (cas de 2 groupes : K1 variables quantitatives + Q2 variables qualitatives) 1 ∑ λ11 k ∈K Equivalences en AFM quand chaque groupe contient une seule variable 1 r 2 (k ,v ) + 1 2 η (q ,v ) ∑ 2 λ1 Q 2 q ∈Q 2 Variables quantitatives ACP normée Variables qualitatives ACM Données mixtes AFDM 23 Le cœur de l’AFM est une analyse factorielle de tous les groupes actifs L’AFM fournit : 1) : les résultats classiques de l’analyse factorielle Soit, pour chaque axe : Coordonnées, contributions et Cos² des individus Coefficient de corrélation entre facteurs et variables continues Coordonnées des modalités (au barycentre de leurs individus) F2 F2 individu modalité k1 i1 k3 C A F1 F1 i2 B k2 24 Valeurs propres des analyses séparées MCA PCA F1 0,637 2,837 F2 0,617 1,870 F3 0,454 0,148 F4 0,418 0,081 F5 0,369 0,063 Valeurs propres des analyses séparées (% cumulés) MCA PCA F1 15,92 56,75 F2 31,33 94,16 F3 42,68 97,12 F4 53,12 98,74 F5 62,35 100,00 Décomposition de l’inertie dans l’AFM MFA F1 1,942 24,14% F2 1,455 18,09% F3 0,826 10,27% F4 0,694 8,63% F5 0,612 7,61% MCA PCA 0,950 0,992 0,864 0,591 0,781 0,045 0,689 0,005 0,597 0,015 25 F2 - 18.09 % Les 25 étudiants 2 i8 i5 1 i9 i15 i14 i16 i17 i4 i19 i2 i3 i13 i1 F1 - 24.14 % 0 i20 i18 i10 i21 i22 -1 i7 i6 -2 i25 i24 i23 i12 i11 -2 -1 0 1 2 26 F2 - 18.09 % 0.8 0.4 Films sur logiciels Animations Texte F1 - 24.14 % -0.8 -0.4 0.4 0.8 -0.4 -0.8 Livre d’exercices Livre du cours 27 F2 - 18.09 % 1.50 Lco1 Tex3 Fil3 Lex2 Lco2 Lex1 Ani3 0.75 Tex4 Lco3 Ani2 0 Tex2 Texte Fil4 Lex3 Ani4 F1 - 24.14 % Films sur logiciels Fil2 Fil5 Ani5 -0.75 Fil1 Lco4 Lex4 Tex5 Tex1 animations Livre cours Livre exercices Ani1 -1.50 Lco5 Lex5 -1.50 -0.75 0 0.75 1.50 28 F2 - 18.09 % ACPF2 Axes des analyses séparées ACMF1 0.4 Films logiciels Animations Texte ACMF2 F1 - 24.14 % -0.8 -0.4 0.4 0.8 ACPF1 -0.4 -0.8 Livre cours Livre exercices 29 Représentation globale des groupes de variables 1 1 j K1 J 1 Kj 1 KJ 1 i1 ij iJ i I NIj RK1 i1 j RKj NI ij j RKJ NIJ iJ NI : nuage partiel (des individus ; associé au groupe j) 30 6. Représentation des groupe Etudier les ressemblances globales entre les Ni RKj NIj RK1 NIj i1 l 1 i I j I 1 l 1 W1(i,l) i ? NIJ iJ ij 1 1 RKJ j J I 1 l I 1 Wj(i,l) I i WJ(i,l) I matrices des produits scalaires entre individus pour chaque groupe j W j = X j X ′j 31 Données 1 Produits scalaires 1 Kj 1 i l I 1 Æ xik i I Wj(i,l) I RI RI² NKj Wj NJ 32 NJ : nuage des groupes RI² Wj NJ Etudier le nuage NJ Méthode de référence : STATIS (Escoufier Y., Lavit C.) Axes principaux de NJ Interprétation de ces axes difficile 33 Etudier NJ avec l’AFM Données 1 Produits scalaires Kj 1 1 l I 1 xik i Æ i I Wj(i,l) I RI RI² NKj Wj vs ws NJ ws : W associé à vs j inertie de NK projeté sur vs coordonnée de Wj sur ws 34 Carré des liaisons 1 groupe Kj Lg (v 1 , K j ) 0 0 Kj quantitatif Kj qualitatif Lg (v s , K j ) = Lg (v s , K j ) = Lg (v 1 , K j ) 1 λ1j ∑ k ∈K 1 1 r 2 (k ,v s ) 1 2 (q ,v s ) η ∑ j λ1 Q 2 q ∈Q 2 35 1.00 F2 - 18.09 % Livre cours (quali.) Group 1 (ACM) Livre exercices(quali.) Livre cours (quanti.) Livre exercices (quanti.) 0.75 Group 2 (ACP) 0.50 Texte (quali.) Animations (quali.) Films logiciels (quali.) 0.25 Animations (quanti.) Films logiciels (quanti.) Texte (quanti.) F1 - 24.14 % 0 0 0.25 0.50 0.75 1.00 36 Conclusion L’AFM est une méthode factorielle dédiée aux tableaux multiples dans lesquels Un groupe d’individus est décrit par plusieurs groupes de variables Les groupes de variables peuvent être quantitatifs, qualitatifs ou mixtes Le cœur de la méthode est une analyse factorielle pondérée ; elle fonctionne comme une ACP pour les variables quantitatives comme une ACM pour les variables qualitatives Elle fournit des résultats classiques de l’analyse factorielle représentation des individus, des variables, etc. spécifiques de la structure des variables en groupes représentation des groupes, des axes des analyses séparées, etc. 37 Ces analyses sont disponibles dans Un package R dédié à l’analyse exploratoire des données http://www2.agrocampus-ouest.fr/math/ 38