Université Montpellier 2 Année 2013-2014 IAE - M2
Transcription
Université Montpellier 2 Année 2013-2014 IAE - M2
Université Montpellier 2 IAE - M2 MASS Année 2013-2014 Examen rattrapage Scoring (Analyse mathématique des Risques) - 12 juin 2014 Durée 1h30 - Documents, calculatrices et téléphones interdits 1) (2 pts) Pour un problème de classification supervisée binaire, en quoi consiste le classifieur de Bayes ? 2) (2 pts) Soient X le vecteur aléatoire de dimension d contenant les variables explicatives quantitatives et Y le facteur binaire à expliquer. Décrire le modèle de l’analyse discriminante linéaire. 3) (5 pts) Expliquer en détails les résultats produits par le code R donné ci-dessous (x est une matrice à 500 lignes et 10 colonnes et y est un facteur de dimension 500). library(MASS) M=100 cv.error=matrix(0,M,3) n=length(y) K=c(2,5,10) rap=n/K for (k in 1:M) { ind=sample(1:n,n) x=x[ind,] y=y[ind] for (j in 1:3) { for (i in 0:(K[j]-1)) { test=(rap[j]*i+1):(rap[j]*(i+1)) app=ind[-test] res.cv=lda(x[app,],y[app]) cv.error[k,j]=cv.error[k,j]+rap[j]sum(predict(res.cv,x[test,])$class==y[test]) } } } cv.error=cv.error/500 boxplot(cv.error[,1],cv.error[,2],cv.error[,3], names=c("K=2","K=5","K=10")) 1 4) (5 pts) Sur les données précédentes, donner le code R qui permet d’évaluer par validation croisée à 10 ensembles les performances du modèle de régression logistique contenant toutes les variables explicatives (modèle complet). Ce code doit produire une sortie comparable à celle de la question précédente. On utilise la commande suivante pour créer le jeu de données, appelé dyx, contenant la matrice x et le facteur y dyx=data.frame(y=y,x=x) 5) (3 pts) D’après les résultats suivants, quel modèle de régression linéaire choisit-on en utilisant une stratégie basée sur des tests multiples au seuil de 1% Call: glm(formula = y ~ -1 + ., family = binomial(link = "logit"), data = dyx) Deviance Residuals: Min 1Q Median -2.1520 -0.7213 -0.4175 3Q 0.7846 Max 2.7964 Coefficients: Estimate Std. Error z value Pr(>|z|) x1 -0.558607 0.070204 -7.957 1.76e-15 *** x2 0.037975 0.008499 4.468 7.89e-06 *** x3 -0.362987 0.086159 -4.213 2.52e-05 *** x4 0.003816 0.003804 1.003 0.315845 x5 -0.228678 0.058984 -3.877 0.000106 *** x6 -0.134601 0.075260 -1.788 0.073699 . x7 -0.131665 0.111042 -1.186 0.235732 x8 0.037002 0.080988 0.457 0.647754 x9 0.255636 0.093306 2.740 0.006148 ** X10 -0.003359 0.008163 -0.411 0.680767 6) (3 pts) Donner le code R qui permet de vérifier si le modèle précédent est le même que celui choisi par une méthode descendante (avec arrêt) basée sur le critère AIC. 2