Sélection de variables On simule des observations du mod`ele y =1

Transcription

Sélection de variables On simule des observations du mod`ele y =1
Sélection de variables
On simule des observations du modèle
y = 1 + x1 + x2 + 0x3 + 0x4 + ²,
où ² ∼ N (0, 1) de sorte que σ 2 = 1. Pour ce modèle, les termes actifs et inactifs sont
XA = (1, x1 , x2 )
XI = (x3 , x4 ).
Les régresseurs sont simulés comme suit.
Cas I: x1 , x2 , x3 , x4 sont indépendantes N (0, 1).
Cas II: x1 , x2 , x3 , x4 sont N (0, 1) mais ne sont pas indépendantes. Certains des régresseurs
sont fortement corrélés ρ13 = 0.95 et ρ24 = −0.95.
Cas I: n = 100, aucune corrélation entre les régresseurs.
β̂
Ordonnée 0.8022
x1
0.9141
x2
0.9509
x3
-0.0842
x4
-0.2453
s.e.(β̂) test-t
0.0919
8.73
0.0901 10.14
0.0861 11.04
0.1091 -0.77
0.1109 -2.21
p-valeur
0.0000
0.0000
0.0000
0.4423
0.0294
σ̂ = 0.911, df = 95, R2 = 0.714



1 
cov(β̂) =

100 

0.84
0.09
0.01 −0.05
0.02
0.09
0.81 −0.03 −0.04 −0.06 

0.01 −0.03
0.74 −0.16 −0.07 

−0.05 −0.04 −0.16
1.19
0.02 
0.02 −0.06 −0.07
0.02
1.23
1
Cas II: n = 100, corrélation forte entre certains des régresseurs.
β̂
Ordonnée 0.8022
x1
1.1702
x2
0.2045
x3
-0.2696
x4
-0.7856
s.e.(β̂) test-t
0.0919
8.73
0.3476
3.37
0.3426
0.60
0.3494 -0.77
0.3553 -2.21
p-valeur
0.0000
0.0011
0.5519
0.4423
0.0294
σ̂ = 0.911, df = 95, R2 = 0.702


1 

cov(β̂) =
100 


0.84
0.25
0.08 −0.17
0.07
0.25
12.08
0.14 −11.73 −0.34 

0.08
0.14 11.73 −0.36 11.78 

−0.17 −11.73 −0.36
12.21
0.17 
0.07 −0.34 11.78
0.17 12.63
Cas II: n = 1100, corrélation forte entre certains des régresseurs.
β̂
Ordonnée 1.0354
x1
1.0541
x2
1.1262
x3
-0.0106
x4
0.1446
s.e.(β̂) test-t
0.0305 33.92
0.0974 10.83
0.0989 11.39
0.0978 -0.11
0.1006
1.44
p-valeur
0.0000
0.0000
0.0000
0.9136
0.1511
σ̂ = 1.01, df = 1095, R2 = 0.68


1 

cov(β̂) =
1100 

1.02
−0.10
0.00
0.09
−0.05

−0.10
0.00
0.09 −0.05
10.43 −0.07 −9.97 −0.05 

−0.07 10.75
0.06 10.41 

−9.97
0.06 10.52
0.06 
−0.05 10.41
0.06 11.14
2
1
Méthodes pas-à-pas
Toutes ces méthodes sélectionnent un seul modèle.
1.1
Élimination “backward”
Élimination backward démarre avec tous les régresseurs. La procédure calcule la statistique
F (ou le carré de la statistique t) associée à chaque régresseur. Si la plus petite valeur
F est plus petite qu’un seuil prédéterminé (le quantile d’une distribution F de degrés de
liberté appropriés), alors le régresseur correspondant est éliminé. Après l’élimination d’un
régresseur, les valeurs F sont recalculées et la procédure est répétée. L’algorithme prend fin
lorsqu’aucune valeur F est plus petite que le seuil prédéterminé.
Une fois qu’un régresseur est éliminé, il reste éliminé.
SAS: model ... / selection=backward;
1.2
Sélection “forward”
On procède en sens inverse. On commence avec aucune variable dans le modèle. La méthode
forward calcule la statistique F de chaque régresseur s’il était inclu dans le modèle. Si la plus
grand valeur F est plus grande qu’un seuil prédéterminé, alors le régresseur correspondant
est inclus dans le modèle. La méthode forward réévalue les valeurs F de chaque régresseur
restant s’il était inclu dans le modèle. Le même procédé est répété.
Une fois qu’un régresseur est inclu dans le modèle, il reste.
SAS: model ... / selection=forward;
1.3
Méthodes “stepwise”
Cette méthode est une modification de la méthode forward. Comme dans la méthode forward, les régresseurs sont ajoutés un à un et la valeur F d’un régresseur à inclure doit être
plus grande qu’un seuil. Cependant, après qu’un régresseur est ajouté, la méthode stepwise
sort du modèle les régresseurs dont la valeur F n’est pas significative. La sélection s’arrête
lorsque tous les régresseurs à l’extérieur du modèle produisent une valeur F non significative.
Chaque régresseur peut entrer et sortir du modèle plus d’une fois.
SAS: model ... / selection=stepwise;
2
Méthodes basées sur un critère
Certains critères représente un compromis entre l’ajustement, mesurée par la somme de carré
résiduelle (SSE), et la complexité du modèle. Les critères de ce type les plus utilisés sont
AIC = n log(SSEC /n) + 2pC : Akaike information criteria
BIC = n log(SSEC /n) + pC log(n) : Bayes information criteria
SSEC
CpC =
+ 2pC − n : CpC de Mallows.
σ̂ 2
3
Idéalement, on évalue le critère choisi sur tous les 2k modèles possibles. Cependant, si k
est grand, cela peut devenir impossible.
SAS: model ... / aic bic best=10 selection=cp;
Un autre type de critère issu de la validation croisée est le
P RESS =
n
X
e2i,−1 ,
i=1
où les ei,−1 sont les résidus PRESS. Ce critère est basé sur l’identification d’un modèle
donnant la meilleure prévision d’une observation future. Il est le plus lourd d’un point de
vue numérique. L’option selection=press n’existe pas en SAS. On évalue plutôt le PRESS
sur les meilleurs modèles sélectionnés suivant un autre critère comme celui du Cp de Mallows.
La sélection de modèle est le problème le plus épineux en régression. Les possibilités sont
pour ainsi dire infinies. Le choix des régresseurs n’est pas nécessairement limité à ceux du
tableau initial. On peut transformer les régresseurs du tableau, mais aussi ajouter d’autres
régresseurs pour introduire des effets quadratiques, des effets d’interactions entre régresseurs,
etc.
4