Analyse factorielle des correspondances de Benzécri

Transcription

Analyse factorielle des correspondances de Benzécri
Analyse factorielle des correspondances de Benzécri
Laboratoire d’Analyse – Recherche en Economie Quantitative
One Pager
Décembre 2013
Vol. 8 – Num. 011
Copyright © Laréq 2013
http://www.lareq.com
Analyse Factorielle des Correspondances de Benzécri
Une illustration à l’aide de la métrique de Chi – deux
Yannick Mavita Mukwanga
« L’incompréhension vient de trois déficits majeurs, à savoir : le manque de pré –
requis ; la non maîtrise du jargon ; . . . »
Jean – Paul Tsasa
Résumé
Ce
papier
présente
un
outil
d’analyse
des
données,
l’analyse
factorielle
des
correspondances, en se basant sur la notion de la métrique de Chi – deux.
Mots – clé : métrique de chi –deux, analyse factorielle des correspondances
Abstract
This paper focuses on the correspondence analysis, based on the notion of chi-squared
distance metric.
Introduction
L’analyse en composantes principales [ACP] permet de produire dans un espace de faible
dimension une ou plusieurs représentations graphiques cherchant à mettre en vedette les
principales caractéristiques des données initiales [Mavita, 2013, One pager vol.8, num. 11]. De ce
fait, son efficacité dépend fortement de la nature des données, dans le sens où cette méthode
devient inappropriée en face des données qualitatives. C’est sous cet angle que ce papier propose
un outil alternatif de l’analyse factorielle, l’analyse factorielle des correspondances [AFC],
permettant de trancher sur l’analyse des données qualitatives. Contrairement à l’ACP, l’AFC
s’intéresse plus au lien entre ces variables qu’à leur intensité.
Précisons d’ores et déjà que cette méthode des correspondances, permettant la visualisation et la
hiérarchisation de l’information a été mise au point dès 1941 par Louis Guttman. Cependant, c’est
en 1962 que le statisticien français Jean –Paul Benzécri
1
développa une analyse des
correspondances particulière sur base de la métrique de Chi – deux. Depuis lors, cette méthode
est devenue très pratique du fait de sa particularité de faire recours à une distribution classique.
L’objet de ce papier est de procéder à une présentation succincte et pratique de l’AFC et plus
particulièrement de l’AFC de Benzécri. A cet effet, deux sections seront retenues dont la première
rappelle la métrique de Chi – deux et la seconde expose la méthode AFC.
1
Jean – Paul Benzécri est un statisticien français né en 1932 et il est le fondateur de l’école française d’analyse
des données.
Yannick Mavita Mukwanga
Laboratoire d’Analyse – Recherche en Economie Quantitative
101
Métrique de Chi - deux
Cette section fournit un aperçu global de la métrique de Chi – deux, mise au point par le
statisticien britannique Karl Pearson en 1900. Pour une présentation et une démonstration plus
rigoureuses, nous renvoyons à Tombola [2013].
S’agissant de variables qualitatives, il sied de noter qu’une variable qualitative est une variable
dont les valeurs ne sont pas numériquement mesurables. Selon la hiérarchisation des modalités,
ces variables peuvent être ordinales, si les états de la variable ou modalités peuvent être
hiérarchisés ou ordonnés ; ou nominales si les modalités peuvent être ordonnées.
Selon la variabilité des modalités, on distingue généralement la variable binaire (dichotomique) et
la variable polytomique, selon qu’elle prend respectivement deux ou
modalités.
Ainsi, c’est à la recherche de l’explication de liaison entre deux variables qualitatives que Pearson
a pu proposer la métrique de Chi – deux. Ce test est connu sous le nom d’indépendance des
caractères étudiés dans un tableau de contingence. . Nous en présentons la démarche.
Considérons un tableau de contingence1 de deux variables polytomiques X et Y sur un échantillon
de taille T et des modalités respectives
et
.
Tableau 1
Modalités de Y
…
…
…
…
Total
Modalités de X
…
…
…
…
…
…
…
Total
…
…
…
…
…
…
…
…
…
…
…
…
…
Ainsi, on peut présenter ce tableau sur base des fréquences qui sont déterminées par :
où
1
et
représentent les fréquences marginales.
Pour plus de détails sur le tableau de contingence, nous pensons à Tombola (2013, p. 55).
Yannick Mavita Mukwanga
Laboratoire d’Analyse – Recherche en Economie Quantitative
102
En cherchant à éliminer l’incidence des effets marginaux ou conditionnels, on détermine les
fréquences relatives.
Pour les colonnes, on obtient le tableau des profils – colonnes avec :
la probabilité conditionnelle.
Il convient de noter que l’avantage de cette transformation est qu’elle autorise une pondération de
chaque fréquence par la fréquence marginale de sorte que la comparaison entre deux lignes ne
soit pas influencée par la différence de leurs effectifs.
Tableau 2 : Tableau des profils – colonnes
Modalités de Y
…
…
Distribution
Modalités de X
marginale selon X
…
…
…
…
…
…
…
…
…
…
1
…
…
…
…
…
1
1
…
…
…
Total
…
…
…
1
…
Par analogie, on trouve le tableau des profils – lignes.
Présentation de la méthode AFC
L’intérêt de la méthode AFC réside dans le fait que la méthode de l’ACP apparaît inopérante en
face des données qualitatives. Aussi, le niveau élevé de la fréquence des analyses des faits
intrinsèquement qualitatifs ont poussés les scientifiques à réfléchir sur une méthode pratique
traitant des données qualitatives, la méthode de l’AFC. Cette méthode base son analyse sur la
comparaison des modalités de deux variables
Le choix sur l’AFC de Benzécri se justifie par le simple fait que dans son approche, Benzécri fait
appel une notion connue et pratique concernant les données qualitatives, la métrique de Chi –
deux.
Mise en œuvre de l’AFC1
La méthode de l’AFC suit la même démarche que la méthode de l’ACP, de la transformation des
données à l’interprétation en passant par l’analyse de chaque nuage des points.
1
Pour question de détails et d’applications numériques sur la méthode AFC, lire Delgado (2001) et Zouhhad
(2002).
Yannick Mavita Mukwanga
Laboratoire d’Analyse – Recherche en Economie Quantitative
103
Transformation des données en profils : la première démarche consiste à transformer les
données en tableaux des profiles – lignes et profiles – colonnes.
Analyse des nuages des points
Représentation graphique des profils – colonnes
Les profils lignes peuvent être représentés dans
et les
catégories. Chaque profil – ligne donne un point
axes du système représentant les
de coordonnées
, les probabilités
conditionnelles de chaque colonne du tableau des profils – colonnes.
Ces points ont un barycentre noté
et les coordonnées sont calculées par :
Figure 1
F2
j2
jn
Bj
F1
j3
j1
Cette carte factorielle indique que les modalités j1 et j2 sont voisines, la modalité jn est proche du
barycentre tandis que la modalité j3 est un point extrême et opposé à tous les autres.
Représentation graphique des profiles – lignes
Cependant, l’AFC en tant une des méthodes d’analyse factorielle cherche des axes principaux en
projetant tous ces points sur un même plan. Le premier axe factoriel
des moindres carrés qui ajuste tous
points
est déterminé par la droite
. Cette droite est dans ce plan de projection,
suit naturellement la direction d’inertie maximale de tous ces points, passe par
déterminée dans
. Le deuxième axe factoriel
du barycentre par rapport à
et l’équation est
est déterminé par une perpendiculaire abaissée
.
Comme les profiles – colonnes, les profiles – lignes peuvent être également représentés dans
et n axes représentant les catégories. Chaque profil – ligne donne un point de coordonnées les
probabilités conditionnelles de chaque ligne du tableau des profils – lignes.
Yannick Mavita Mukwanga
Laboratoire d’Analyse – Recherche en Economie Quantitative
104
Ces points ont un barycentre noté
dont les coordonnées sont trouvées par :
En projetant ces points sur un même plan, le premier axe factoriel F3 est donné par la droite des
moindres carrés qui ajuste ces points. Cette droite est dans ce plan de projection, suit
naturellement la direction d’inertie maximale de tous ces points, passe par
déterminée dans
. Le deuxième axe factoriel
du barycentre par rapport à
et l’équation est
est déterminé par une perpendiculaire abaissée
.
Figure 2
F4
i2
in
Bi
F3
i3
i1
Cette carte factorielle montre que les modalités i1 et i2 sont voisines, la modalité in est proche du
barycentre tandis que la modalité i3 est un point extrême et opposé à tous les autres.
Dualité des profils – lignes et des profils - colonnes
Il s’agit de représenter sur même graphique les deux cartes factorielles précédentes.
Figure 3
F2
F4
j1
i1
F1
Bj
j3
i3
Bi
i2
F3
j2
M
Yannick Mavita Mukwanga
Laboratoire d’Analyse – Recherche en Economie Quantitative
105
Les zones encerclées selon les proximités montrent les correspondances entre les modalités. La
figure indique que la zone M fait apparaître deux sous zones particulières avec évidemment deux
correspondances particulières.
Somme toute, le présent papier a donné une vision plus ou moins simplifiée de la méthode
d’analyse factorielle des correspondances (AFC). Par ailleurs, il reste une série de méthodes
d’analyse factorielle qui seront abordées dans des publications ultérieures, et ce sera également
de fournir des illustrations plus pratiques à l’aide des logiciels appropriés.
Yannick Mavita Mukwanga
Laboratoire d’Analyse – Recherche en Economie Quantitative
106
Références bibliographiques

DELGADO Jean – pierre, 2001, Mathématiques appliquées, ESKA, 2è Edition, Paris, 165p.

DENIZET Frédéric, 2008, Algèbre et géométrie, Edition Nathan, Paris, 501p.

ESCH Louis, 1992, Mathématiques pour économistes et gestionnaires, Edition De Boeck,
Bruxelles, 697p.

KLOTZ Gérard, 2000, Mathématiques pour les sciences économiques et sociales, Edition
Presses universitaires de France, Paris, 344p.

MALU Raїssa, 2010, L’indispensable des Mathématiques, Collection savoirs et découvertes,
Louvain-la-Neuve, 116p.

MAVITA Yannick, 2013, « Analyse en composantes principales », One pager (septembre),
8 (11): 92 – 100.

MICHEL Philippe, 1989, Cours de mathématiques pour économistes, Economica, 2è
Edition, Paris, 748p.

MONIER Jean – Marie, 1993, Géométrie, Editions Dunod, Paris, 347p.

PEARSON, Karl, 1901, « On Lines and Planes of Closest Fit to Systems of points in Space”,
Philosophical Magazine, 2 (6): 559 – 572.

TOMBOLA Cédrick et Jean – Paul TSASA, 2013, « Analyse de la Structure d’Espaces
Vectoriels », One Pager Laréq (février), 5 (15): 93 – 99.

TOMBOLA Cédrick, « Au délà de la corrélation linéaire : Métrique de Khi – deux et rapport
de corrélation », One Pager (février), 5 (9):, 54 – 59.

ZOUHHAD Rachid, Jean – Laurent VIVIANI et Françoise BOUFFARD, 2002, Mathématiques
appliquées, Dunod, 5è ed, Paris, 335p.
Yannick Mavita Mukwanga
Laboratoire d’Analyse – Recherche en Economie Quantitative
107