Analyse factorielle des correspondances de Benzécri
Transcription
Analyse factorielle des correspondances de Benzécri
Analyse factorielle des correspondances de Benzécri Laboratoire d’Analyse – Recherche en Economie Quantitative One Pager Décembre 2013 Vol. 8 – Num. 011 Copyright © Laréq 2013 http://www.lareq.com Analyse Factorielle des Correspondances de Benzécri Une illustration à l’aide de la métrique de Chi – deux Yannick Mavita Mukwanga « L’incompréhension vient de trois déficits majeurs, à savoir : le manque de pré – requis ; la non maîtrise du jargon ; . . . » Jean – Paul Tsasa Résumé Ce papier présente un outil d’analyse des données, l’analyse factorielle des correspondances, en se basant sur la notion de la métrique de Chi – deux. Mots – clé : métrique de chi –deux, analyse factorielle des correspondances Abstract This paper focuses on the correspondence analysis, based on the notion of chi-squared distance metric. Introduction L’analyse en composantes principales [ACP] permet de produire dans un espace de faible dimension une ou plusieurs représentations graphiques cherchant à mettre en vedette les principales caractéristiques des données initiales [Mavita, 2013, One pager vol.8, num. 11]. De ce fait, son efficacité dépend fortement de la nature des données, dans le sens où cette méthode devient inappropriée en face des données qualitatives. C’est sous cet angle que ce papier propose un outil alternatif de l’analyse factorielle, l’analyse factorielle des correspondances [AFC], permettant de trancher sur l’analyse des données qualitatives. Contrairement à l’ACP, l’AFC s’intéresse plus au lien entre ces variables qu’à leur intensité. Précisons d’ores et déjà que cette méthode des correspondances, permettant la visualisation et la hiérarchisation de l’information a été mise au point dès 1941 par Louis Guttman. Cependant, c’est en 1962 que le statisticien français Jean –Paul Benzécri 1 développa une analyse des correspondances particulière sur base de la métrique de Chi – deux. Depuis lors, cette méthode est devenue très pratique du fait de sa particularité de faire recours à une distribution classique. L’objet de ce papier est de procéder à une présentation succincte et pratique de l’AFC et plus particulièrement de l’AFC de Benzécri. A cet effet, deux sections seront retenues dont la première rappelle la métrique de Chi – deux et la seconde expose la méthode AFC. 1 Jean – Paul Benzécri est un statisticien français né en 1932 et il est le fondateur de l’école française d’analyse des données. Yannick Mavita Mukwanga Laboratoire d’Analyse – Recherche en Economie Quantitative 101 Métrique de Chi - deux Cette section fournit un aperçu global de la métrique de Chi – deux, mise au point par le statisticien britannique Karl Pearson en 1900. Pour une présentation et une démonstration plus rigoureuses, nous renvoyons à Tombola [2013]. S’agissant de variables qualitatives, il sied de noter qu’une variable qualitative est une variable dont les valeurs ne sont pas numériquement mesurables. Selon la hiérarchisation des modalités, ces variables peuvent être ordinales, si les états de la variable ou modalités peuvent être hiérarchisés ou ordonnés ; ou nominales si les modalités peuvent être ordonnées. Selon la variabilité des modalités, on distingue généralement la variable binaire (dichotomique) et la variable polytomique, selon qu’elle prend respectivement deux ou modalités. Ainsi, c’est à la recherche de l’explication de liaison entre deux variables qualitatives que Pearson a pu proposer la métrique de Chi – deux. Ce test est connu sous le nom d’indépendance des caractères étudiés dans un tableau de contingence. . Nous en présentons la démarche. Considérons un tableau de contingence1 de deux variables polytomiques X et Y sur un échantillon de taille T et des modalités respectives et . Tableau 1 Modalités de Y … … … … Total Modalités de X … … … … … … … Total … … … … … … … … … … … … … Ainsi, on peut présenter ce tableau sur base des fréquences qui sont déterminées par : où 1 et représentent les fréquences marginales. Pour plus de détails sur le tableau de contingence, nous pensons à Tombola (2013, p. 55). Yannick Mavita Mukwanga Laboratoire d’Analyse – Recherche en Economie Quantitative 102 En cherchant à éliminer l’incidence des effets marginaux ou conditionnels, on détermine les fréquences relatives. Pour les colonnes, on obtient le tableau des profils – colonnes avec : la probabilité conditionnelle. Il convient de noter que l’avantage de cette transformation est qu’elle autorise une pondération de chaque fréquence par la fréquence marginale de sorte que la comparaison entre deux lignes ne soit pas influencée par la différence de leurs effectifs. Tableau 2 : Tableau des profils – colonnes Modalités de Y … … Distribution Modalités de X marginale selon X … … … … … … … … … … 1 … … … … … 1 1 … … … Total … … … 1 … Par analogie, on trouve le tableau des profils – lignes. Présentation de la méthode AFC L’intérêt de la méthode AFC réside dans le fait que la méthode de l’ACP apparaît inopérante en face des données qualitatives. Aussi, le niveau élevé de la fréquence des analyses des faits intrinsèquement qualitatifs ont poussés les scientifiques à réfléchir sur une méthode pratique traitant des données qualitatives, la méthode de l’AFC. Cette méthode base son analyse sur la comparaison des modalités de deux variables Le choix sur l’AFC de Benzécri se justifie par le simple fait que dans son approche, Benzécri fait appel une notion connue et pratique concernant les données qualitatives, la métrique de Chi – deux. Mise en œuvre de l’AFC1 La méthode de l’AFC suit la même démarche que la méthode de l’ACP, de la transformation des données à l’interprétation en passant par l’analyse de chaque nuage des points. 1 Pour question de détails et d’applications numériques sur la méthode AFC, lire Delgado (2001) et Zouhhad (2002). Yannick Mavita Mukwanga Laboratoire d’Analyse – Recherche en Economie Quantitative 103 Transformation des données en profils : la première démarche consiste à transformer les données en tableaux des profiles – lignes et profiles – colonnes. Analyse des nuages des points Représentation graphique des profils – colonnes Les profils lignes peuvent être représentés dans et les catégories. Chaque profil – ligne donne un point axes du système représentant les de coordonnées , les probabilités conditionnelles de chaque colonne du tableau des profils – colonnes. Ces points ont un barycentre noté et les coordonnées sont calculées par : Figure 1 F2 j2 jn Bj F1 j3 j1 Cette carte factorielle indique que les modalités j1 et j2 sont voisines, la modalité jn est proche du barycentre tandis que la modalité j3 est un point extrême et opposé à tous les autres. Représentation graphique des profiles – lignes Cependant, l’AFC en tant une des méthodes d’analyse factorielle cherche des axes principaux en projetant tous ces points sur un même plan. Le premier axe factoriel des moindres carrés qui ajuste tous points est déterminé par la droite . Cette droite est dans ce plan de projection, suit naturellement la direction d’inertie maximale de tous ces points, passe par déterminée dans . Le deuxième axe factoriel du barycentre par rapport à et l’équation est est déterminé par une perpendiculaire abaissée . Comme les profiles – colonnes, les profiles – lignes peuvent être également représentés dans et n axes représentant les catégories. Chaque profil – ligne donne un point de coordonnées les probabilités conditionnelles de chaque ligne du tableau des profils – lignes. Yannick Mavita Mukwanga Laboratoire d’Analyse – Recherche en Economie Quantitative 104 Ces points ont un barycentre noté dont les coordonnées sont trouvées par : En projetant ces points sur un même plan, le premier axe factoriel F3 est donné par la droite des moindres carrés qui ajuste ces points. Cette droite est dans ce plan de projection, suit naturellement la direction d’inertie maximale de tous ces points, passe par déterminée dans . Le deuxième axe factoriel du barycentre par rapport à et l’équation est est déterminé par une perpendiculaire abaissée . Figure 2 F4 i2 in Bi F3 i3 i1 Cette carte factorielle montre que les modalités i1 et i2 sont voisines, la modalité in est proche du barycentre tandis que la modalité i3 est un point extrême et opposé à tous les autres. Dualité des profils – lignes et des profils - colonnes Il s’agit de représenter sur même graphique les deux cartes factorielles précédentes. Figure 3 F2 F4 j1 i1 F1 Bj j3 i3 Bi i2 F3 j2 M Yannick Mavita Mukwanga Laboratoire d’Analyse – Recherche en Economie Quantitative 105 Les zones encerclées selon les proximités montrent les correspondances entre les modalités. La figure indique que la zone M fait apparaître deux sous zones particulières avec évidemment deux correspondances particulières. Somme toute, le présent papier a donné une vision plus ou moins simplifiée de la méthode d’analyse factorielle des correspondances (AFC). Par ailleurs, il reste une série de méthodes d’analyse factorielle qui seront abordées dans des publications ultérieures, et ce sera également de fournir des illustrations plus pratiques à l’aide des logiciels appropriés. Yannick Mavita Mukwanga Laboratoire d’Analyse – Recherche en Economie Quantitative 106 Références bibliographiques DELGADO Jean – pierre, 2001, Mathématiques appliquées, ESKA, 2è Edition, Paris, 165p. DENIZET Frédéric, 2008, Algèbre et géométrie, Edition Nathan, Paris, 501p. ESCH Louis, 1992, Mathématiques pour économistes et gestionnaires, Edition De Boeck, Bruxelles, 697p. KLOTZ Gérard, 2000, Mathématiques pour les sciences économiques et sociales, Edition Presses universitaires de France, Paris, 344p. MALU Raїssa, 2010, L’indispensable des Mathématiques, Collection savoirs et découvertes, Louvain-la-Neuve, 116p. MAVITA Yannick, 2013, « Analyse en composantes principales », One pager (septembre), 8 (11): 92 – 100. MICHEL Philippe, 1989, Cours de mathématiques pour économistes, Economica, 2è Edition, Paris, 748p. MONIER Jean – Marie, 1993, Géométrie, Editions Dunod, Paris, 347p. PEARSON, Karl, 1901, « On Lines and Planes of Closest Fit to Systems of points in Space”, Philosophical Magazine, 2 (6): 559 – 572. TOMBOLA Cédrick et Jean – Paul TSASA, 2013, « Analyse de la Structure d’Espaces Vectoriels », One Pager Laréq (février), 5 (15): 93 – 99. TOMBOLA Cédrick, « Au délà de la corrélation linéaire : Métrique de Khi – deux et rapport de corrélation », One Pager (février), 5 (9):, 54 – 59. ZOUHHAD Rachid, Jean – Laurent VIVIANI et Françoise BOUFFARD, 2002, Mathématiques appliquées, Dunod, 5è ed, Paris, 335p. Yannick Mavita Mukwanga Laboratoire d’Analyse – Recherche en Economie Quantitative 107