Examen : Durée 1h30 Mme Malot

Transcription

Examen : Durée 1h30 Mme Malot
Année Universitaire 2013/20014
Analyse de données
Université de Nice Sophia-Antipolis
M2 IMEA
Examen de Statistique
Examen : Durée 1h30
Mme Malot
Remarque 1
A l’issue des 1h30, vous rendrez votre copie avec votre nom, un script que vous aurez pris soin
d’enregistrer au format .txt et sous la dénomination nomprenom.txt et un fichier datanomprenom.txt.
Prenez soin de toujours bien définir les objets que vous utilisez et d’écrire toutes les formules employées.
Aucun document n’est autorisé.
La sauvegarde de votre script fait partie intégrante de votre travail.
• Question de cours :
– .Qu’appelle t’on données brutes, données individuelles et données regroupées?
– Que signifie le fait qu’une moyenne soit beaucoup plus élévée que la médiane?
• Exercice 1 :
– Créer sur le bureau le répertoire analysedonnees.
– Taper dans R setwd(’chemin du répertoire analysedonnees’) en n’oubliant pas de remplacer
les symboles \ par /.
– Simuler 1000 réalisations d’une loi normale d’espérance 2 et de variance 0.01.
– Faire une représentation graphique par histogramme telle que les limites de classes définies
comme suit : a0 =plus petite valeur observée - 0.1, a1 = a0 + 0.1, a2 = a1 + 0.1 et ainsi de
suite jusqu’à aK de sorte que aK >la plus grande valeur observée.
– Superposer sur cet histogramme la fonction de densité théorique.
– Déterminer le tableau de représentation associé à cet histogramme.
• Exercice 2 :
On considère le jeu de données iris qui est dans le logiciel R. Taper :
1. data(iris)
2. A=iris
– Taper et expliquer les commandes suivantes :
1. u=1:150
2. v=sample(u,100,replace=FALSE)
1
3. Ab=A[v,]
4. Taper write(t(Ab),file=’datanomprenom.txt’,ncolumns=ncol(Ab))
– Expliquer le principe de la classification hiérarchique ascendante.
– Réaliser une classification hiérarchique ascendante à partir des variables numériques de
Ab. (dist et hclust)
– Faire la représentation graphique associée.
– Combien de groupes sont à constituer et pourquoi?
– En tenant compte du choix précédent, procéder à l’application correcte de la procédure
de k-means.
– Identifier les différentes sorties de la procédure k-means.
– Créer u1 , . . . , uk , avec ui contenant les observations dans le cluster numéro i.
• Exercice 3 :
On reprend le jeu de données précédent Ab.
– Réaliser une Analyse en Composantes Principales normée (princomp).
– Combien d’axes conserveriez-vous et pourquoi?
– Faire uniquement une projection du nuage des individus sur le premier plan factoriel.
– Lors d’une ACP normée, quelle matrice est diagonalisée et comment se calcule cette matrice à partir des données initiales?
• Exercice 4 :
Expliquer le programme ligne à ligne suivant et l’exécuter.
1. vig<-function(X,K){
2. r=kmeans(X,K,iter.max=100,nstart=100)
3. xb=apply(X,2,mean)
4. xbg=r[[2]]
5. Xb=matrix(rep(xb,nrow(xbg)),nrow=nrow(xbg),byrow=TRUE)
6. T=xbg-Xb
7. S=T 2
8. R=apply(S,1,sum)
9. n=c()
10. for (i in 1:K){
11. a=length(which(r[[1]]==i))
12. n=c(n,a)}
13. U=R*n
14. vig=sum(U)/(nrow(X)-1)}
2