GOUTTE Analyse Statistique des Données Cours 4 Master 2 EID

Transcription

GOUTTE Analyse Statistique des Données Cours 4 Master 2 EID
LUISS,
Université Paris 13
Libera Università
Laboratoire Analyse,
Internazionale
Géométrie et Applications
degli Studi Sociali
UMR 7539
GOUTTE
Analyse Statistique des Données
Cours 4
Master 2 EID
[email protected]
Master 2 EID 07/08
1
1
Introduction
1.1
Les Analyses Factorielles
Nous étudierons les diérents types d'analyses factorielles. Le choix du type dépendra des
variables à analyser.
• ACP
: des variables quantitatives (Analyse en Composante Principale)
• AFC
: deux variables qualitatives (Analyse Factorielle des Correspondances )
• ACM
: plusieurs variables qualitatives (Analyse des Correspondances Multiples )
Le nom de ces procedures sous SAS sont:
•
PROC FACTOR (ACP avec Rotation des axes)
•
PROC PRINCOMP (Regression logistique linéaire methode maximum de vraisemblance)
•
1.2
PROC CORRESP (Analyse des correspondances simples et multiples)
Pourquoi ?
Les méthodes d'analyses factorielles sont souvent regroupées sous le terme générique d'analyse
des données. Les méthodes d'analyses factorielles ou d'analyse des données se situent essentiellement dans un contexte exploratoire. En eet, l'analyse des données peut être dénie
comme l'extension de la statistique descriptive au cas multidimensionnel. Les analyses factorielles sont avant tout descriptives et permettent une analyse simultanée d'un ensemble de
variables.
Les analyses factorielles ont pour but de «résumer» au mieux des tableaux rectangulaires de
données Pour cela diérentes techniques se distinguent selon la nature des données analysées:
quantitatives, qualitatives, les deux.
Leurs démarches consistenet à remplacer les variables d'origine, nombreuses, par de nouvelles
variables, synthétiques, en nombre inférieur et à conserver les premières d'entre elles. Au
sens qu'on ne conservera que celle apportant le plus d'informations. Au nal, les variables
d'origine sont remplacées par des axes, combinaisons des variables d'origine, et perpendiculaires deux à deux. Ces axes permettent de positionner les individus et les variables origines
sur des plans en 2D. C'est ce que nous appelerons projection ( ou nuages)des individus, ou
des variables sur les deux meilleurs axes factorielles.
1.3
Les méthodes
Comme nou sl'avons vu plus haut il y a trois principales méthodes:
• ACP
: des variables quantitatives (Analyse en Composante Principale)
[email protected]
Master 2 EID 07/08
2
• AFC
: deux variables qualitatives (Analyse Factorielle des Correspondances )
• ACM
: plusieurs variables qualitatives (Analyse des Correspondances Multiples )
Avant de s'interesser en détail à l'ACP, parlons des deux autres méthodes.
Analyse Factorielle des Correspondances: AFC
L'AFC traite des données diérentes de celles requises par l'ACP. En eet, l'ACP traite
des données quantitatives alors que l'AFC permet le traitement des tableaux croisés encore
appelés tableaux de contingence. Un tableau de contingence doit vérier la propriété suivante : la somme des éléments en ligne possède une signication, de même que la somme des
éléments en colonnes. L'objectif de l'AFC est alors d'étudier la nature de la liaison éventuelle
entre les deux caractères.
D'un point de vue algorithmique, la diérence entre l'ACP et l'AFC réside seulement
dans le choix de la métrique. En ce sens qu'une métrique permet de mesurer une distance
entre deux vecteurs (un individu est un vecteur dans l'espace des variables, une variable
est un vecteur dans l'espace des individus).
En ACP, la métrique utilisée est la distance
euclidienne. En AFC, la métrique est la distance du Khi-2. A part la métrique et la nature
des données, la démarche en AFC est identique à la démarche en ACP.
Analyse des Correspondances Multiples: ACM
Historiquement, l'ACM est un simple prolongement de l'AFC aux tableaux de données
mis sous forme binaire ou tableaux logiques.
En eet, faire une ACM sur deux variables
qualitatives est identique à faire une AFC sur le tableau de contingence de ces deux variables.
Cependant si l'ACM ressemble à l'AFC sur le plan technique, sur le plan des objectifs elle
s'apparente plus à l'ACP à travers l'analyse de tableaux individus-variables.
Remarque :
L'ACM peut traiter des variables quantitatives, mais celles-ci doivent au
préalable être découper en classes.
Initialement, le tableaux des données se résume à une matrice X, où une ligne correspond à
un individu et une colonne à une modalité d'une variable. Ce tableau est composé de 0 et
de 1. La méthode est alors semblable à celle de l'ACP que nous verrons par la suite.
2
2.1
L'Analyse en Composantes Principales (ACP)
Représentation mathématique
On possède un tableau rectangulaire de mesure (comme une matrice) dont les colonnes sont
des variables (mensurations, taux, températures, ...)
[email protected]
Master 2 EID 07/08
et dont les lignes représentent des
3
individus statistiques (unités élémentaires telles que des êtres humains, des pays, des années
...). On note X ce tableau de données.

X11 · · ·
···
···
X1p

 ..
. 
. 
 .
· · · Xij · · ·
.
Xn1 · · · · · · · · · Xnp
• X:
Tableau de données
• Xij
: Valeur de la
• Xi.
:
ime
• X.j
:
j me
ime
observation pour la
variable
observation du tableau
variable du tableau
• n
: Eectif des individus
• p:
Nombre de variables
2.2
j ime
Objectif
Notre objectif est d'extraire l'essentiel de l'information contenue dans le tableau de données
X
et d'en fournir une représentation se prêtant plus aisément à l'interprétation. Autrement
dit, nous nous proposons de rechercher une représentation des n individus dans un sousespace de l'espace initial. Nous cherchons donc à dénir k nouvelles variables, combinaison
des p de l'espace initial, qui font perdre le moins d'information possible . Ces k variables
seront appelées composantes principales et les axes qu'elles déterminent axes principaux.
2.3
Rappels mathématiques
L'analyse du nuage de points utilise la notion fondamentale de distance. On munit l'espace
des individus de la distance euclidienne classique.
d(Xi. , Xj. )2 =
On désigne par
g
est donc un vecteur de dimension
La matrice
X
k=1
|Xik − Xjk |2
le centre de gravité du nuage :
g=
g
Pn
1
n
Pn
i=1
Xi.
n.
est généralement centrée sur le centre de gravité :

X11 − X̄1 · · ·
.
.
.

X̄ = 
..
X1p − X̄p
.
.
.
.
Xn1 − X̄1 · · · Xnp − X̄p



Elle peut être aussi réduite :
[email protected]
Master 2 EID 07/08
4

X̃ =
X11 −X̄1
 σ(X. 1 )
 ..

Xn1 −X̄1
σ(X1 )
···
..
.
···

X1p −X̄p
σ(Xp )

.

.
.

Xnp −X̄p
σ(Xp )
On peut alors calculer les matrices de covariances et de corrélations. En eet une fois
X transformée en X̄ ou X̃ , il sut de la multiplier par sa transposée X t pour
la matrice
obtenir:
•
la matrice de variance-covariance si
•
la matrice de corrélation si
X
X
est juste centrée.
est centrée réduite, autrement dit normée.
Covariances = 1/n · X̄ t · X̄
Correlations = 1/n · X̃ t · X̃
Ces deux matrices sont des matrice
sont
de taille
diagonalisables dans une base orthonormée.
Dans la suite nous noterons par
2.4
carrées
X
les matrices
X̄
p, symétriques,
et/ou
et
réelles.
Elles
X̃ .
Projections sur un sous-espace
X.j , tel que
u tel
que la pojection orthogonale du nuage sur u ait une variance maximale. Soit C la matrice
de covariance ou de corrélation précédement calculée. La projection de l'échantillon des X
sur u s'écrit :
Le principe de l'ACP est de trouver un axe u, issu d'une combinaison linéaire des
la variance du nuage autour de cet axe soit maximale. Nous cherchons donc le vecteur
πu (X) = X · u
La variance empirique de
πu (X)
vaut donc :
πu (X)t · 1/n · πu (X) = ut · X t · 1/n · X ·u
|
{z
}
C
C est diagonalisable dans une base orthonormée, notons
P la matrice de changement de base associée et ∆ la matrice diagonale associée. On obtient
Comme nous l'avons vu plus haut
ainsi que :
πu (X)0 · 1/n · πu (X) = ut P t ∆P u = (P u)t ∆ (P u)
| {z }
v
Avec cette réécriture, nous cherchons le vecteur unitaire
Diag(λ1 , ..., λp ) est diagonale.
v
Rangeons les valeurs de la diagonale de
v t ∆v
où ∆ =
∆ en ordre décroissant.
qui maximise
On peut rapidement vérier qu'il sut de prendre le premier vecteur unitaire on a alors :
v t · ∆ · v = λ1
[email protected]
Master 2 EID 07/08
5
On a donc que la diagonalisation de la matrice de corrélation (ou de covariance si on
se place dans un modèle non réduit), nous a permis d'écrire que le vecteur qui explique le
plus d'inertie du nuage est le premier vecteur propre correspondant au vecteur propre de la
plus grande valeur propre. De même le deuxième vecteur qui explique la plus grande part
de l'inertie restante est le deuxième vecteur propre, etc.
Finalement, la question de l'ACP se ramène donc à un problème de diagonalisation de
la matrice de corrélation.
2.5
ACP sous SAS
Deux procédures SAS permettent de réaliser des Analyses en composantes principales:
•
PROC PRINCOMP
•
PROC FACTOR
Pour dessiner les plans factoriels (nuages des individus et des variables), deux autres procédures sont utilisées
•
Pour adapter les tables : la PROC TRANSPOSE
•
Pour éditer le graphique : la PROC PLOT
Remarque :
Quand on utilise une PROC PRINCOMP, il est nécessaire d'enchaîner sur une PROC FACTOR METHOD=SCORE si on souhaite dessiner les plans factoriels.
PROC PRINCOMP <options>;
BY variables;
VAR variables;
RUN;
Algorithme 1: Procédure PRINCOMP
Les options sont:
•
DATA=Table-SAS
•
OUT=Table-SAS: Table SAS qui contient les données initiales plus les scores des individus sur les composantes principales.
•
OUTSTAT=Table-SAS: Table SAS qui contient les moyennes, variances, nombres
d'observations, corrélations ou covariances, les valeurs propres et les composantes principales (scores des variables).
[email protected]
Master 2 EID 07/08
6
PROC FACTOR <options>;
BY variables;
VAR variables;
RUN.
Algorithme 2: Procédure FACTOR
Les options sont:
•
DATA=Table-SAS OUT=Table-SAS OUTSTAT=Table-SAS
•
METHOD=Name
Name=PRINCIPAL : réalise une ACP à partir d'un tableau individus-variables
Name=SCORE : réalise une ACP à partir des scores des variables sur des composantes principales (par exemple, la table OUSTAT d'une PROC PRINCOMP).
•
NFACTORS=n :
détermine le nombre de facteur maximum qui doit être extrait.
Nécessaire si on utilise l'option OUT=
[email protected]
Master 2 EID 07/08
7