Cours sur l`AFM - UP Mathématiques Appliquées
Transcription
Cours sur l`AFM - UP Mathématiques Appliquées
Objectifs ACP globale Etude des groupes Points partiels Analyses séparées Compléments Conclusion Analyse Factorielle Multiple Julie Josse Laboratoire de mathématique appliquées Agrocampus Ouest Rennes 1 / 40 Objectifs ACP globale Etude des groupes Points partiels Analyses séparées Compléments Conclusion Analyse Factorielle Multiple 1 2 3 4 5 6 7 Données - problématique Une ACP globale Etude des groupes Nuages partiels Analyses séparées Compléments Conclusion - pour aller plus loin 2 / 40 Objectifs ACP globale Etude des groupes Points partiels Analyses séparées Compléments Conclusion Tableaux of multiples Groups variables (MFA) Grou varia quan or qu Objectives: - study the link between the qualitatives sets of variables Examples avec des variables continues et/ou : • genomique -: balance ADN, protéines the influence of each group of variables - give the classical but also specific graphs: • analyse sensorielle : sensorielles, graphs physico-chimiques of variables - partial representation • questionnaires :groups santé des étudiants (consommations de produits, conditions psychologiques, sommeil, signalétique) •Examples: economie : indicateurs économiques chaque année - Genomic: DNA, protein - Sensory analysis: sensorial, physico-chemical 3 / 40 Objectifs ACP globale Etude des groupes Points partiels Analyses séparées Compléments Conclusion Données vins - Experts 10 individus (lignes) : vins blancs du Val de Loire 30 variables (colonnes) : 7.1 7.2 6.1 4.9 6.1 5.9 6.3 6.7 7.0 7.3 6.7 6.6 6.1 5.1 5.1 5.6 6.7 6.3 6.1 6.6 5.0 3.4 3.0 4.1 3.6 4.0 6.0 6.4 7.4 6.3 Label 1.4 2.3 2.4 3.0 3.1 2.4 4.0 2.5 3.1 4.3 Odor.preferene 4.1 3.8 4.1 2.5 5.0 3.0 5.0 4.0 4.0 4.3 Overall.preference 5.9 6.8 6.1 5.6 6.6 4.4 6.4 5.7 5.4 5.1 Visual.intensity 3.5 3.3 3.0 3.9 3.4 7.9 3.5 3.0 3.9 3.8 Aroma.persistency … … … … … … … … … … Astringency 5.7 5.3 5.3 3.6 3.5 3.3 1.0 2.5 3.8 2.7 Aroma.intensity 2.4 3.1 4.0 2.4 3.1 0.7 0.7 0.5 0.8 0.9 Acidity 4.3 4.4 5.1 4.3 5.6 3.9 2.1 5.1 5.1 4.1 Bitterness … Sweetness Michaud Renaudie Trotignon Buisse Domaine Buisse Cristal Aub Silex Aub Marigny Font Domaine Font Brûlés Font Coteaux O.citrus S S S S S V V V V V 27 variables quantitatives : descripteurs sensoriels 2 variables quantitatives : appréciation de l'odeur et générale 1 variable qualitative : label (Vouvray - Sauvignon) O.fruity • • • O.passion • • 6.0 5.4 5.0 5.3 6.1 5.0 5.1 4.4 4.4 6.0 5.0 5.5 5.5 4.6 5.0 5.5 4.1 5.1 6.4 5.7 Sauvignon Sauvignon Sauvignon Sauvignon Sauvignon Vouvray Vouvray Vouvray Vouvray Vouvray 4 / 40 Objectifs ACP globale Etude des groupes Points partiels Analyses séparées Compléments Conclusion Données vins Continuous variables Categorical Expert (27) Consu mer (15) Student (15) Preference (60) Label (1) wine 1 wine 2 … wine 10 • • Comment est-ce que les vins sont décrits? Est-ce que les vins sont décrits de la même façon par les diérents panels? Y-a t'il des spécicités par panel? 5 / 40 Objectifs ACP globale Etude des groupes Points partiels Analyses séparées Compléments Conclusion Objectifs • Equilibrer l'inuence de chaque groupe (prendre en compte la structure des données) • Etudier les ressemblances entre individus et les liaisons entre variables Etudier globalement les ressemblances et les diérences entre groupes (voir les spécicités de chaque groupe) Etudier les ressemblances et les diérences entre groupes du point de vue individuel Comparer les typologies issues des analyses séparées • • • 6 / 40 Objectifs ACP globale Etude des groupes Points partiels Analyses séparées Compléments Conclusion Equilibrer l'inuence des groupes de variables L'AFM est une ACP pondérée : • calculer λ1 pour chaque groupe de variables • réaliser l'ACP globale sur le tableau pondéré : j X1 qX2 XJ q ; ; ...; q λ11 λ21 λJ1 ⇒ Même idée que pour l'ACP standardisée : les variables sont pondérées dans le calcul des distances entre les individus i et i 0 i 8 variables highly correlated 2 var i′ 7 / 40 Objectifs ACP globale Etude des groupes Points partiels Analyses séparées Compléments Conclusion Equilibrer l'inuence des groupes de variables λ1 λ2 λ3 • • • • Expert Consommateur Etudiant 11.74 7.17 7.89 6.78 2.59 3.83 2.74 1.63 1.70 Même poids pour toutes les variables d'un même groupe : la structure du groupe est préservée Pour chaque groupe, la variance de la principale dimension de variabilité (première valeur propre) est égale à 1 Aucun groupe ne peut générer à lui seul la première dimension Un groupe multidimensionnel contribue à plus de dimensions qu'un groupe uni-dimensionnel 8 / 40 Objectifs ACP globale Etude des groupes Points partiels Analyses séparées Compléments Conclusion Equilibrer l'inuence des groupes de variables ⇒ Le coeur de l'AFM est une ACP pondérée ⇒ Mêmes représentations qu'en ACP • • • Etudier les ressemblances entre individus du point de vue de l'ensemble des variables Etudier les relations entre variables Décrire les indidus à partir des variables ⇒ Mêmes sorties (coordonnées, cosinus, contributions) ⇒ Ajouter des individus et variables (quantitatives et qualitatives) en supplémentaire 9 / 40 Objectifs ACP globale Etude des groupes Points partiels Analyses séparées Compléments Conclusion Représentation des individus S Trotignon S Renaudie S Michaud • 1 Sauvignon Vouvray Sauvignon V Aub Marigny 0 V Font Coteaux S Buisse Domaine • Vouvray -2 -1 V Font Domaine V Font Brûlés • V Aub Silex -3 Dim 2 (24.42 %) S Buisse Cristal -2 -1 0 1 2 Les deux labels sont bien séparés Les Vouvray sont plus diérents du point de vue sensoriel Plusieurs groupes de vins, ... 3 Dim 1 (42.52 %) 10 / 40 Objectifs ACP globale Etude des groupes Points partiels Analyses séparées Compléments Conclusion 0.0 -0.5 -1.0 Dim 2 (24.42 %) 0.5 1.0 Représentation des variables Expert Consumer Student O.Intensity.before.shaking_S Attack.intensity Expression O.Intensity.before.shaking Acidity Freshness O.Intensity.after.shaking O.passion O.Intensity.before.shaking_C O.Intensity.after.shaking_S O.plante_C O.Intensity.after.shaking_C O.passion_S Astringency_S O.passion_CO.flower A.persistency Bitterness O.citrus Astringency_CBitterness_C Balance_S A.intensity Acidity_S O.plante Smoothness Acidity_C A.intensity_C O.mushroom_S Bitterness_S A.alcohol_C O.fruity O.Typicity_S A.intensity_S O.vanilla O.wooded Typical_S Balance_C O.mushroom_C A.alcohol_S O.alcohol Typical_C Astringency O.Typicity_C Visual.intensity Grade Sweetness_C Surface.feeling O.candied.fruit Sweetness_S O.mushroom Oxidation Sweetness Typicity O.alcohol_C O.plante_S O.alcohol_S -1.5 -1.0 -0.5 0.0 0.5 1.0 1.5 Dim 1 (42.52 %) 11 / 40 Objectifs ACP globale Etude des groupes Points partiels Analyses séparées Compléments Conclusion Expert Consumer Student 0.0 Acidity_S Acidity_C -0.5 Sweetness_C Sweetness_S Sweetness -1.0 Dim 2 (24.42 %) Acidity O.passion O.passion_S O.passion_C 0.5 1.0 Représentation des variables -1.5 -1.0 -0.5 0.0 0.5 1.0 1.5 Dim 1 (42.52 %) 12 / 40 Objectifs ACP globale Etude des groupes Points partiels Analyses séparées Compléments Conclusion Etudes des groupes ⇒ Comparaison synthétique des groupes ⇒ Est-ce que la position relative des individus est similaire d'un groupe à l'autre? Est-ce que les nuages partiels sont similaires? 13 / 40 Objectifs ACP globale Etude des groupes Points partiels Analyses séparées Compléments Conclusion Mesures de similarité entre groupes X ( × ) et X ( × ) ne sont pas directement comparables W ( × ) = X X 0 et W ( × ) = X X 0 sont comparables j I j I K m I j I j Km m I j I m m Matrice de produits scalaires = position relative des individus Covariance entre deux groupes : < Wj , Wm >= X X cov 2 (x. , x. ) k k l ∈Kj l ∈Km Corrélation entre deux groupes : RV (K , K j RV RV m )= < Wj , Wm > kWj k kWm k 0 ≤ RV ≤ 1 = 0 : toutes les variables sont orthogonales = 1 : les deux nuages de points sont homothétiques 14 / 40 Objectifs ACP globale Etude des groupes Points partiels Analyses séparées Compléments Conclusion Mesures de similarité entre groupes ⇒ Le coecient RV : corrélation entre matrices ⇒ Le coecient Lg : Lg (Kj , Km ) = X X k cov x. 2 q k , k l λl1 λ1 ∈Kj l ∈Km x q. ⇒ Le coecient Lg pour un groupe : un indice de dimensionalité Lg (Kj , Kj ) = PK k j j 2 =1 (λk ) (λj1 )2 =1+ PK j k j 2 =2 (λk ) (λj1 )2 15 / 40 Objectifs ACP globale Etude des groupes Points partiels Analyses séparées Compléments Conclusion Mesures de similarité entre groupes > res.mfa$group$Lg Expert Expert 1.45 Consumer 0.94 Student 1.17 Preference 1.01 Label 0.89 MFA 1.33 > res.mfa$group$RV Expert Expert 1.00 Consumer 0.70 Student 0.85 Preference 0.69 Label 0.74 MFA 0.92 • • Consumer 0.94 1.25 1.04 1.11 0.28 1.21 Student 1.17 1.04 1.29 1.03 0.62 1.31 Preference 1.01 1.11 1.03 1.47 0.37 1.18 Label 0.89 0.28 0.62 0.37 1.00 0.67 MFA 1.33 1.21 1.31 1.18 0.67 1.44 Consumer 0.70 1.00 0.82 0.82 0.25 0.90 Student 0.85 0.82 1.00 0.75 0.55 0.96 Preference 0.69 0.82 0.75 1.00 0.31 0.81 Label 0.74 0.25 0.55 0.31 1.00 0.56 MFA 0.92 0.90 0.96 0.81 0.56 1.00 Les Experts donnent une description plus riches (L supérieur) Les groupes Student et Expert sont liés (RV = 0.85) g 16 / 40 Objectifs ACP globale Etude des groupes Points partiels Analyses séparées Compléments Conclusion Première composante de l'AFM ⇒ La première composante principale de l'AFM maximise : J J X X X x.k 2 q cov , v1 = Lg (Kj , v1 ) j =1 k ∈K j =1 λj1 j Inerties des K projectées sur v1 j 17 / 40 Objectifs ACP globale Etude des groupes Points partiels Analyses séparées Compléments Conclusion Représentation des groupes Le groupe j a une coordonnée (L (v1 , K ), L (v2 , K )) g j 1.0 0.8 Expert 0.6 Preference Student Label 0.2 0.4 Consumer 0.0 Dim 2 (24.42 %) g j 2 groupes sont proches quand ils induisent la même structure • Première dimension commune à tous les groupes • Deuxième dimension due au groupe Expert • Les préférences sont liées aux descriptions sensorielles 1 X 0 ≤ L (v1 , K ) = cov 2 (x. , v1 ) ≤ 1 • 0.0 0.2 0.4 0.6 0.8 1.0 Dim 1 (42.52 %) g j λj1 k k ∈Kj | {z ≤λj1 } 18 / 40 Objectifs ACP globale Etude des groupes Points partiels Analyses séparées Compléments Conclusion Autre exemple de représentation des groupes 50 vins mousseux (dont 26 champagnes) décrits par 25 amateurs et 7 oenologues Les données individuelles sont juxtaposées en ligne : tableau produits × juges-descripteurs ⇒ 1 juge = 1 groupe Les amateurs et les oenologues sont ils mélangés? 19 / 40 Objectifs ACP globale Etude des groupes Points partiels Analyses séparées Compléments Conclusion Points partiels ⇒ Comparaison des groupes au travers des individus ⇒ Est-ce qu'il y a des individus très particuliers pour un certain groupe de variables ? 20 / 40 Objectifs ACP globale Etude des groupes Points partiels Analyses séparées Compléments Conclusion Projection des points partiels G1 xxxxxxxx xxxxxxxx xxxxxxxx Data xxxxxxxx i G3 xxxxx xxxxx xxxxx xxxxx xxxxxxxx xxxxx xxxxx xxxxxxxx xxxxx xxxxx xxxxxxxx xxxxx xxxxx xxxxxxxx xxxxxxxx xxxxxxxx Projection of group 1 xxxxxxxx i1 G2 xxxxx xxxxx xxxxx xxxxx 00000 00000 00000 00000 RK = ⊕ RK j i 00000 00000 00000 00000 xxxxxxxx 00000 00000 xxxxxxxx 00000 00000 xxxxxxxx 00000 00000 00000000 00000000 00000000 Projection of group 2 00000000 xxxxx xxxxx xxxxx xxxxx 00000 00000 00000 00000 00000000 xxxxx 00000 2 00000000 xxxxx 00000 00000000 xxxxx 00000 i 00000000 00000000 00000000 Projection of group 3 00000000 i3 MFA individuals configuration 00000 00000 00000 00000 xxxxx xxxxx xxxxx xxxxx 00000000 00000 xxxxx 00000000 00000 xxxxx 00000000 00000 xxxxx Partial point 1 Partial point 2 Mean point Partial point 3 21 / 40 Objectifs ACP globale Etude des groupes Points partiels Analyses séparées Compléments Conclusion Points partiels opinion attitude individuals F2 What you think behavioral conflict individual i What you do F1 22 / 40 ACP globale Etude des groupes Points partiels Analyses séparées Compléments Conclusion Points partiels Tutorial participants Objectifs What you expected for the tutorial What you have learned during the tutorial F2 What you expected for the tutorial What you have learned during the tutorial What you expected for the tutorial What you have learned during the tutorial F1 23 / 40 ACP globale Etude des groupes Points partiels Analyses séparées Compléments Conclusion Points partiels Tutorial participants Objectifs What you expected for the tutorial What you have learned during the tutorial F2 What you expected for the tutorial What you have learned during the tutorial Disappointed learner What you expected for the tutorial Happy learner What you have learned during the tutorial F1 23 / 40 Objectifs ACP globale Etude des groupes Points partiels Analyses séparées Compléments Conclusion Reprsentation des points partiels 2 Expert Consumer Student S Trotignon S Renaudie 1 S Michaud V Aub Marigny V Font Coteaux 0 S Buisse Cristal S Buisse Domaine Vouvray V Font Domaine -1 Dim 2 (24.42 %) Sauvignon -2 V Font Brûlés -3 V Aub Silex -4 -2 0 2 4 Dim 1 (42.52 %) • • Un individu est au barycentre de ses points partiels Un individu est d'autant plus "homogène" que sont "étoile" est petite 24 / 40 Objectifs ACP globale Etude des groupes Points partiels Analyses séparées Compléments Conclusion Optimalité • • Tous les nuages de points doivent être bien représentés ⇒ Maximiser l'inertie projetée globale Les J points representant le même individus doivent être proche les un des autres ⇒ Minimiser l'inertie projetée intra Huygens theorem: inertie totale = inertie inter + inertia intra J I X X (Fi q )2 = J I X X j i =1 j =1 i =1 j =1 (Fiq )2 + J I X X i (Fi j q − Fiq )2 =1 j =1 ⇒ Maximiser l'inertie inter : réaliser une ACP globale sur le tableau de données concaténé 25 / 40 Objectifs ACP globale Etude des groupes Points partiels Analyses séparées Compléments Conclusion Ratio d'inertie J I X X (Fi q )2 = I J X X j i =1 j =1 i (Fiq )2 + =1 j =1 I J X X i (Fi j q − Fiq )2 =1 j =1 inertie totale = inertie inter individus + inertia intra individu > res.mfa$inertia.ratio Dim.1 0.93 • • • Dim.2 0.82 Dim.3 0.78 Dim.4 0.54 Dim.5 0.53 Sur la première dimension, les coordonnées des points partiels sont proches (0.93 proche de 1) L'inertie intra mesure la ressemblance entre les nuages partiels dimension par dimension L'inertie intra peut être décomposée par individus 26 / 40 Objectifs ACP globale Etude des groupes Points partiels Analyses séparées Compléments Conclusion Analyse procrustéenne / AFM ⇒ Les relations de transitions s'appliquent toujours pour les points partiels ⇒ La représentation superposée peut être interprétée dans un cadre unique 27 / 40 Objectifs ACP globale Etude des groupes Points partiels Analyses séparées Compléments Conclusion Analyses séparées ⇒ Comparison des typologies obtenues pour chaque groupe dans un espace commun ⇒ Comparaison des ACP séparées 28 / 40 Objectifs ACP globale Etude des groupes Points partiels Analyses séparées Compléments Conclusion Représentation des composantes principales Est-ce que les analyses séparées donnent les mêmes résultats que ceux de l'AFM? 1 q Q PCA 1 q Q 1 i I 29 / 40 Objectifs ACP globale Etude des groupes Points partiels Analyses séparées Compléments Conclusion Représentation des composantes principales Dim2.Student Dim2.Consumer Dim2.Expert Dim1.Label • 0.5 1.0 Expert Consumer Student Preference Label 0.0 Dim1.Student -0.5 Dim 2 (24.42 %) Dim1.Consumer Dim1.Expert Dim2.Preference -1.0 Dim1.Preference -1.5 -1.0 -0.5 0.0 0.5 • Les deux premières dimensions de chaque groupe sont bien projetées Les étudiants ont les mêmes dimensions que l'AFM 1.0 Dim 1 (42.52 %) ⇒ Les composantes principales des analyses séparées sont projetées en supplémentaires 30 / 40 Objectifs ACP globale Etude des groupes Points partiels Analyses séparées Compléments Conclusion 0.0 -1.0 -0.5 Dim 2 (24.42 %) 0.5 1.0 Représentation des variables supplémentaires -1.0 -0.5 0.0 0.5 1.0 Dim 1 (42.52 %) Les préférences sont liées aux descriptions sensorielles Le vin préféré est le Vouvray Aubussière Silex 31 / 40 Objectifs ACP globale Etude des groupes Points partiels Analyses séparées Compléments Conclusion Description des dimensions Par des variables quantitatives : • corrélation entre chaque variable et la composante principale de rang q est calculée • les coecients de corrélations sont triés et les signicatifs sont donnés > dimdesc(res.pca) $Dim.1$quanti corr p.value O.candied.fruit 0.93 9.5e-05 Grade 0.93 1.2e-04 Surface.feeling 0.89 5.5e-04 Typicity 0.86 1.4e-03 O.mushroom 0.84 2.3e-03 Visual.intensity 0.83 3.1e-03 ... ... ... O.plante -0.87 1.0e-03 O.flower -0.89 4.9e-04 O.passion -0.90 4.5e-04 Freshness -0.91 2.9e-04 $Dim.2$quanti corr p.value Odor.Intensity.before.shaking 0.97 3.1e-06 Odor.Intensity.after.shaking 0.95 3.6e-05 Attack.intensity 0.85 1.7e-03 Expression 0.84 2.2e-03 Aroma.persistency 0.75 1.3e-02 Bitterness 0.71 2.3e-02 Aroma.intensity 0.66 4.0e-02 Sweetness -0.78 8.0e-03 32 / 40 Objectifs ACP globale Etude des groupes Points partiels Analyses séparées Compléments Conclusion Description des dimensions Par des variables qualitatives : • réalise une analyse de variance avec les coordonées des individus (F. ) expliquées par la variable qualitative q • • un F-test par variable pour chaque categorie, un test de Student t -test > dimdesc(res.pca) Dim.1$quali R2 Label 0.874 Dim.1$category Estimate Vouvray 3.203 Sauvignon -3.203 p.value 7.30e-05 p.value 7.30e-05 7.30e-05 33 / 40 Objectifs ACP globale Etude des groupes Points partiels Analyses séparées Compléments Conclusion Données qualitatives Un seul groupe de variables : méthode de référence = ACM ⇒ Même problématique que pour les variables quantitatives : • • • • Equilibrer les groupes de variables dans une analyse globale Représentation superposée des J nuages partiels Représentation globale des groupes de variables Relations entre l'analyse globale et les analyses séparées ⇒ Même démarche en remplaçant ACP par ACM Lorsque chaque groupe est réduit à une variable qualitative : AFM = ACM 34 / 40 Objectifs ACP globale Etude des groupes Points partiels Analyses séparées Compléments Conclusion Données mixtes ⇒ Groupes composés de variables quantitatives et groupes composés de variables qualitatives La pondération de l'AFM permet d'analyser les deux types de variables ensemble L'AFM fonctionne 'localement' comme : • une ACP pour les variables quantitatives • une ACM pour les variables qualitatives ⇒ Lorsque chaque groupe est composé d'une seule variable, quantitative ou qualitative, AFM = Analyse Factorielle pour Données Mixtes (AFDM) 35 / 40 Objectifs ACP globale Etude des groupes Points partiels Analyses séparées Compléments Conclusion Conclusion • • • • • • AFM : une méthode multi-tableaux pour les variables quantitatives et qualitatives Le coeur de l'AFM est une ACP pondérée Equivalence AFM-ACP ou AFM-ACM quand chaque groupe est composé d'une seule variable Sorties classiques (individus, variables) Sorties spéciques (groupes, points partiels) AFM est disponible dans de nombreux logiciels : R (FactoMineR), SPAD, Statgraphics, XLSTAT (Microsoft Excel), SAS (macro B. Gelein) 36 / 40 Objectifs ACP globale Etude des groupes Points partiels Analyses séparées Compléments Conclusion Menu déroulant de FactoMineR source("http://factominer.free.fr/install-facto.r") 37 / 40 Objectifs ACP globale Etude des groupes Points partiels Analyses séparées Compléments Conclusion Mise en ÷uvre d'une AFM 1 2 3 4 5 6 7 8 Denir les groupes actifs et les éléments supplémentaires Réduire ou non les variables? Réaliser une AFM Choisir le nombre de dimensions à interpréter Interprétation simultanée du graphe des individus et des variables Etudes des groupes Analyses partielles Utilisation d'indicateurs pour enrichir l'interprétation 38 / 40 Objectifs ACP globale Etude des groupes Points partiels Analyses séparées Compléments Conclusion Pour aller plus loin • AFM utilisée dans un but méthodologique : • • • • Analyse Factorielle Multiple Hierarchique ⇒ prendre en compte une hierarchie sur les variables : les variables sont structurées en groupes et en sous-groupes • • • comparaison de codage (quantitative ou qualitative?) comparaison entre preprocessing (ACP standardisée et ACP non standardisée) comparaison de résultats de diérentes analyses questionnaires avec des thèmes et des sous-thèmes beaucoup d'applications en analyse sensorielle : exemple de la comparaison entre jury et entre juges au sein des jurys Gestion des données manquantes 39 / 40 Objectifs ACP globale Etude des groupes Points partiels Analyses séparées Compléments Conclusion Bibliographie • • • • • Escoer, B. & Pagès, J. (2008). Analyses Factorielles Simples et Multiples : Objectifs, Méthodes et Interprétation. Dunod, 4th edn. Husson, F., Lê, S. & Pages, J. (2009). Analyse de données aves R. Presse Universitaires de Rennes. Pagès, J. (1996). Quelques apports de l'AFM à l'analyse de données sensorielles. J. int. Sci. Vigne Vin. 30, (4). Pagès, J. & Husson, F. (2001) Inter-laboratory comparison of sensory proles. Methodology and results. Food quality and preference (12) 297-309. Pagès J., Bertrand, C., Ali, R., Husson, F. Lê, S. (2007). Compared sensory analysis of eight biscuits by French and Pakistani panels. Journal of Sensory Studies. (22) 665-686. 40 / 40