Université Montpellier 2 Année 2013-2014 IAE - M2

Transcription

Université Montpellier 2 Année 2013-2014 IAE - M2
Université Montpellier 2
IAE - M2 MASS
Année 2013-2014
Examen rattrapage Scoring (Analyse mathématique des Risques) - 12 juin 2014
Durée 1h30 - Documents, calculatrices et téléphones interdits
1) (2 pts) Pour un problème de classification supervisée binaire, en quoi consiste le classifieur
de Bayes ?
2) (2 pts) Soient X le vecteur aléatoire de dimension d contenant les variables explicatives
quantitatives et Y le facteur binaire à expliquer. Décrire le modèle de l’analyse discriminante
linéaire.
3) (5 pts) Expliquer en détails les résultats produits par le code R donné ci-dessous (x est
une matrice à 500 lignes et 10 colonnes et y est un facteur de dimension 500).
library(MASS)
M=100
cv.error=matrix(0,M,3)
n=length(y)
K=c(2,5,10)
rap=n/K
for (k in 1:M)
{
ind=sample(1:n,n)
x=x[ind,]
y=y[ind]
for (j in 1:3)
{
for (i in 0:(K[j]-1))
{
test=(rap[j]*i+1):(rap[j]*(i+1))
app=ind[-test]
res.cv=lda(x[app,],y[app])
cv.error[k,j]=cv.error[k,j]+rap[j]sum(predict(res.cv,x[test,])$class==y[test])
}
}
}
cv.error=cv.error/500
boxplot(cv.error[,1],cv.error[,2],cv.error[,3],
names=c("K=2","K=5","K=10"))
1
4) (5 pts) Sur les données précédentes, donner le code R qui permet d’évaluer par validation
croisée à 10 ensembles les performances du modèle de régression logistique contenant toutes les
variables explicatives (modèle complet). Ce code doit produire une sortie comparable à celle de
la question précédente. On utilise la commande suivante pour créer le jeu de données, appelé
dyx, contenant la matrice x et le facteur y
dyx=data.frame(y=y,x=x)
5) (3 pts) D’après les résultats suivants, quel modèle de régression linéaire choisit-on en
utilisant une stratégie basée sur des tests multiples au seuil de 1%
Call:
glm(formula = y ~ -1 + ., family = binomial(link = "logit"),
data = dyx)
Deviance Residuals:
Min
1Q
Median
-2.1520 -0.7213 -0.4175
3Q
0.7846
Max
2.7964
Coefficients:
Estimate Std. Error z value Pr(>|z|)
x1 -0.558607
0.070204 -7.957 1.76e-15 ***
x2
0.037975
0.008499
4.468 7.89e-06 ***
x3 -0.362987
0.086159 -4.213 2.52e-05 ***
x4
0.003816
0.003804
1.003 0.315845
x5 -0.228678
0.058984 -3.877 0.000106 ***
x6 -0.134601
0.075260 -1.788 0.073699 .
x7 -0.131665
0.111042 -1.186 0.235732
x8
0.037002
0.080988
0.457 0.647754
x9
0.255636
0.093306
2.740 0.006148 **
X10 -0.003359
0.008163 -0.411 0.680767
6) (3 pts) Donner le code R qui permet de vérifier si le modèle précédent est le même que
celui choisi par une méthode descendante (avec arrêt) basée sur le critère AIC.
2