Examen : Durée 1h30 Mme Malot
Transcription
Examen : Durée 1h30 Mme Malot
Année Universitaire 2013/20014 Analyse de données Université de Nice Sophia-Antipolis M2 IMEA Examen de Statistique Examen : Durée 1h30 Mme Malot Remarque 1 A l’issue des 1h30, vous rendrez votre copie avec votre nom, un script que vous aurez pris soin d’enregistrer au format .txt et sous la dénomination nomprenom.txt et un fichier datanomprenom.txt. Prenez soin de toujours bien définir les objets que vous utilisez et d’écrire toutes les formules employées. Aucun document n’est autorisé. La sauvegarde de votre script fait partie intégrante de votre travail. • Question de cours : – .Qu’appelle t’on données brutes, données individuelles et données regroupées? – Que signifie le fait qu’une moyenne soit beaucoup plus élévée que la médiane? • Exercice 1 : – Créer sur le bureau le répertoire analysedonnees. – Taper dans R setwd(’chemin du répertoire analysedonnees’) en n’oubliant pas de remplacer les symboles \ par /. – Simuler 1000 réalisations d’une loi normale d’espérance 2 et de variance 0.01. – Faire une représentation graphique par histogramme telle que les limites de classes définies comme suit : a0 =plus petite valeur observée - 0.1, a1 = a0 + 0.1, a2 = a1 + 0.1 et ainsi de suite jusqu’à aK de sorte que aK >la plus grande valeur observée. – Superposer sur cet histogramme la fonction de densité théorique. – Déterminer le tableau de représentation associé à cet histogramme. • Exercice 2 : On considère le jeu de données iris qui est dans le logiciel R. Taper : 1. data(iris) 2. A=iris – Taper et expliquer les commandes suivantes : 1. u=1:150 2. v=sample(u,100,replace=FALSE) 1 3. Ab=A[v,] 4. Taper write(t(Ab),file=’datanomprenom.txt’,ncolumns=ncol(Ab)) – Expliquer le principe de la classification hiérarchique ascendante. – Réaliser une classification hiérarchique ascendante à partir des variables numériques de Ab. (dist et hclust) – Faire la représentation graphique associée. – Combien de groupes sont à constituer et pourquoi? – En tenant compte du choix précédent, procéder à l’application correcte de la procédure de k-means. – Identifier les différentes sorties de la procédure k-means. – Créer u1 , . . . , uk , avec ui contenant les observations dans le cluster numéro i. • Exercice 3 : On reprend le jeu de données précédent Ab. – Réaliser une Analyse en Composantes Principales normée (princomp). – Combien d’axes conserveriez-vous et pourquoi? – Faire uniquement une projection du nuage des individus sur le premier plan factoriel. – Lors d’une ACP normée, quelle matrice est diagonalisée et comment se calcule cette matrice à partir des données initiales? • Exercice 4 : Expliquer le programme ligne à ligne suivant et l’exécuter. 1. vig<-function(X,K){ 2. r=kmeans(X,K,iter.max=100,nstart=100) 3. xb=apply(X,2,mean) 4. xbg=r[[2]] 5. Xb=matrix(rep(xb,nrow(xbg)),nrow=nrow(xbg),byrow=TRUE) 6. T=xbg-Xb 7. S=T 2 8. R=apply(S,1,sum) 9. n=c() 10. for (i in 1:K){ 11. a=length(which(r[[1]]==i)) 12. n=c(n,a)} 13. U=R*n 14. vig=sum(U)/(nrow(X)-1)} 2