Sélection de variables On simule des observations du mod`ele y =1

Transcription

Sélection de variables
On simule des observations du modèle
y = 1 + x1 + x2 + 0x3 + 0x4 + ²,
où ² ∼ N (0, 1) de sorte que σ 2 = 1. Pour ce modèle, les termes actifs et inactifs sont
XA = (1, x1 , x2 )
XI = (x3 , x4 ).
Les régresseurs sont simulés comme suit.
Cas I: x1 , x2 , x3 , x4 sont indépendantes N (0, 1).
Cas II: x1 , x2 , x3 , x4 sont N (0, 1) mais ne sont pas indépendantes. Certains des régresseurs
sont fortement corrélés ρ13 = 0.95 et ρ24 = −0.95.
Cas I: n = 100, aucune corrélation entre les régresseurs.
β̂
Ordonnée 0.8022
x1
0.9141
x2
0.9509
x3
-0.0842
x4
-0.2453
s.e.(β̂) test-t
0.0919
8.73
0.0901 10.14
0.0861 11.04
0.1091 -0.77
0.1109 -2.21
p-valeur
0.0000
0.0000
0.0000
0.4423
0.0294
σ̂ = 0.911, df = 95, R2 = 0.714



1 
cov(β̂) =

100 

0.84
0.09
0.01 −0.05
0.02
0.09
0.81 −0.03 −0.04 −0.06 

0.01 −0.03
0.74 −0.16 −0.07 

−0.05 −0.04 −0.16
1.19
0.02 
0.02 −0.06 −0.07
0.02
1.23
1
Cas II: n = 100, corrélation forte entre certains des régresseurs.
β̂
Ordonnée 0.8022
x1
1.1702
x2
0.2045
x3
-0.2696
x4
-0.7856
s.e.(β̂) test-t
0.0919
8.73
0.3476
3.37
0.3426
0.60
0.3494 -0.77
0.3553 -2.21
p-valeur
0.0000
0.0011
0.5519
0.4423
0.0294
σ̂ = 0.911, df = 95, R2 = 0.702


1 

cov(β̂) =
100 


0.84
0.25
0.08 −0.17
0.07
0.25
12.08
0.14 −11.73 −0.34 

0.08
0.14 11.73 −0.36 11.78 

−0.17 −11.73 −0.36
12.21
0.17 
0.07 −0.34 11.78
0.17 12.63
Cas II: n = 1100, corrélation forte entre certains des régresseurs.
β̂
Ordonnée 1.0354
x1
1.0541
x2
1.1262
x3
-0.0106
x4
0.1446
s.e.(β̂) test-t
0.0305 33.92
0.0974 10.83
0.0989 11.39
0.0978 -0.11
0.1006
1.44
p-valeur
0.0000
0.0000
0.0000
0.9136
0.1511
σ̂ = 1.01, df = 1095, R2 = 0.68


1 

cov(β̂) =
1100 

1.02
−0.10
0.00
0.09
−0.05

−0.10
0.00
0.09 −0.05
10.43 −0.07 −9.97 −0.05 

−0.07 10.75
0.06 10.41 

−9.97
0.06 10.52
0.06 
−0.05 10.41
0.06 11.14
2
1
Méthodes pas-à-pas
Toutes ces méthodes sélectionnent un seul modèle.
1.1
Élimination “backward”
Élimination backward démarre avec tous les régresseurs. La procédure calcule la statistique
F (ou le carré de la statistique t) associée à chaque régresseur. Si la plus petite valeur
F est plus petite qu’un seuil prédéterminé (le quantile d’une distribution F de degrés de
liberté appropriés), alors le régresseur correspondant est éliminé. Après l’élimination d’un
régresseur, les valeurs F sont recalculées et la procédure est répétée. L’algorithme prend fin
lorsqu’aucune valeur F est plus petite que le seuil prédéterminé.
Une fois qu’un régresseur est éliminé, il reste éliminé.
SAS: model ... / selection=backward;
1.2
Sélection “forward”
On procède en sens inverse. On commence avec aucune variable dans le modèle. La méthode
forward calcule la statistique F de chaque régresseur s’il était inclu dans le modèle. Si la plus
grand valeur F est plus grande qu’un seuil prédéterminé, alors le régresseur correspondant
est inclus dans le modèle. La méthode forward réévalue les valeurs F de chaque régresseur
restant s’il était inclu dans le modèle. Le même procédé est répété.
Une fois qu’un régresseur est inclu dans le modèle, il reste.
SAS: model ... / selection=forward;
1.3
Méthodes “stepwise”
Cette méthode est une modification de la méthode forward. Comme dans la méthode forward, les régresseurs sont ajoutés un à un et la valeur F d’un régresseur à inclure doit être
plus grande qu’un seuil. Cependant, après qu’un régresseur est ajouté, la méthode stepwise
sort du modèle les régresseurs dont la valeur F n’est pas significative. La sélection s’arrête
lorsque tous les régresseurs à l’extérieur du modèle produisent une valeur F non significative.
Chaque régresseur peut entrer et sortir du modèle plus d’une fois.
SAS: model ... / selection=stepwise;
2
Méthodes basées sur un critère
Certains critères représente un compromis entre l’ajustement, mesurée par la somme de carré
résiduelle (SSE), et la complexité du modèle. Les critères de ce type les plus utilisés sont
AIC = n log(SSEC /n) + 2pC : Akaike information criteria
BIC = n log(SSEC /n) + pC log(n) : Bayes information criteria
SSEC
CpC =
+ 2pC − n : CpC de Mallows.
σ̂ 2
3
Idéalement, on évalue le critère choisi sur tous les 2k modèles possibles. Cependant, si k
est grand, cela peut devenir impossible.
SAS: model ... / aic bic best=10 selection=cp;
Un autre type de critère issu de la validation croisée est le
P RESS =
n
X
e2i,−1 ,
i=1
où les ei,−1 sont les résidus PRESS. Ce critère est basé sur l’identification d’un modèle
donnant la meilleure prévision d’une observation future. Il est le plus lourd d’un point de
vue numérique. L’option selection=press n’existe pas en SAS. On évalue plutôt le PRESS
sur les meilleurs modèles sélectionnés suivant un autre critère comme celui du Cp de Mallows.
La sélection de modèle est le problème le plus épineux en régression. Les possibilités sont
pour ainsi dire infinies. Le choix des régresseurs n’est pas nécessairement limité à ceux du
tableau initial. On peut transformer les régresseurs du tableau, mais aussi ajouter d’autres
régresseurs pour introduire des effets quadratiques, des effets d’interactions entre régresseurs,
etc.
4

Sélection de variables On simule des observations du mod`ele y =1

Transcription

Documents pareils

237 Méthodes de calcul des valeurs approchées d`une intégrale.

Etalonnage de robots par vision

formulaire d`inscription carte culture jeunes - Ville d`Esch-sur

ACTIVER MA CARTE CADHOC NOEL 2015 - cfdt

Méthodes de Monte-Carlo Calcul d`intégrales et réduction de variance

TP 6 : Procédé d`orthonormalisation de Gram

TP2 - SoC

Calcul de la fréquence des mots d`un texte Cahier des charges

TP - Agence de location

Stage de M2 Génération de tests structurels pour des crit`eres

Classification automatique sur facteurs