Analyse en composantes principales durée : 1h30

Transcription

Analyse en composantes principales durée : 1h30
Année Universitaire 2014/2015
Analyse de données
Université de Nice Sophia-Antipolis
L3 MASS
Feuille de TD
Analyse en composantes principales
durée : 1h30
Remarque 1
Cette nouvelle feuille de TD a trait à l’Analyse en Composantes Principales.
1. Exercice 1 : Fin de la feuille précédente
Répondre aux questions demandés ou commentez et identifiez ce qui est fait avec les instructions
:
• Lien entre deux variables continues
(a) récupérer les données du fichier exo3b sous le nom T
(b) créer Y qui est la première colonne de T et X la seconde colonne
(c) que veut dire que X explique linéairement la variable Y. Ecrire le modèle et les estimateurs des paramètres.
(d) A quoi correspond la quantité suivante et que peut-on en conclure dans le cas présent?
1
1
sum[(X− length(X)
∗sum(X))∗(Y − length(Y
∗sum(Y ))]
)
r=
2
2
1
1
sqrt sum [X− length(X) ∗sum(X)] ∗sum [Y − length(Y ) ∗sum(Y )]
(e) Faire une représentation graphique qui confirme votre hypothèse
(f) que fait l’instruction suivante?
reg<-lm(Y X)
(g) Identifier les sorties de l’instruction ci-dessous
summary(reg)
(h) Calculer les résidus qui je vous le rappelle sont Y − Ŷ avec Ŷ qui est la prédiction
associée à Y .
(i) Faire un histogramme des résidus et le commenter.
• Lien entre deux variables qualitatives
Commenter ce qui est fait :
F1=factor(sample(c("bleu","noir","vert","marron"),1000,replace=TRUE))
F2=factor(sample(c("blond","noir","chatain","gris"),1000,replace=TRUE))
TT=table(F1,F2)
chisq.test(TT)
T4=read.table(’exo4b.txt’) après vous être mis dans le bon répertoire.
chisq.test(T4)
2. Exercice 2 : Identification des sorties de la fonction princomp.
Cet exercice va utiliser le jeu de données USArrests.
(a) Tapez A=USArrests puis A=As.matrix(A). Que font ces deux lignes de commandes?
1
(b) A quoi correspondent les données du jeu USArrests?
(c) Que produit la commande pc=princomp(A,cor=TRUE)? On va maintenant chercher à
identifier les différentes sorties?
(d) Que fait m=apply(A,2,mean)?
(e) Construisez la matrice Ac qui n’est autre que la version centrée de A.
(f) On considère v1=var(Ac[,1]). Quelle version de la variance est utilisée dans la fonction
var?
(g) Construisez Ar la version réduite de la matrice Ac, avec la définition de la variance utilisant
n au dénominateur.
(h) A quoi correspond la matrice C définie par C =
d’observations.
1
t(Ar)%
n
∗ %Ar où n est le nombre
(i) Utilisez la fonction eigen afin de diagonaliser la matrice C.
(j) Calculez la racine carrée des valeurs propres et comparez avec une des sorties de pc.
Comparez également les vecteurs propres avec une des sorties de princomp.
(k) Calculez à présent f 1 = Ar% ∗ %v1 où v1 est le vecteur propre de la matrice C associé à
la plus grande valeur propre. Comparez avec une sortie de princomp.
(l) Faites à la main une représentation graphique du nuage des individus dans le premier plan
factoriel.
(m) Comparer avec biplot(pc).
(n) Que fait plot(pc)? Et à quoi cela peut-il servir?
2