Sélection de variables On simule des observations du mod`ele y =1
Transcription
Sélection de variables On simule des observations du mod`ele y =1
Sélection de variables On simule des observations du modèle y = 1 + x1 + x2 + 0x3 + 0x4 + ², où ² ∼ N (0, 1) de sorte que σ 2 = 1. Pour ce modèle, les termes actifs et inactifs sont XA = (1, x1 , x2 ) XI = (x3 , x4 ). Les régresseurs sont simulés comme suit. Cas I: x1 , x2 , x3 , x4 sont indépendantes N (0, 1). Cas II: x1 , x2 , x3 , x4 sont N (0, 1) mais ne sont pas indépendantes. Certains des régresseurs sont fortement corrélés ρ13 = 0.95 et ρ24 = −0.95. Cas I: n = 100, aucune corrélation entre les régresseurs. β̂ Ordonnée 0.8022 x1 0.9141 x2 0.9509 x3 -0.0842 x4 -0.2453 s.e.(β̂) test-t 0.0919 8.73 0.0901 10.14 0.0861 11.04 0.1091 -0.77 0.1109 -2.21 p-valeur 0.0000 0.0000 0.0000 0.4423 0.0294 σ̂ = 0.911, df = 95, R2 = 0.714 1 cov(β̂) = 100 0.84 0.09 0.01 −0.05 0.02 0.09 0.81 −0.03 −0.04 −0.06 0.01 −0.03 0.74 −0.16 −0.07 −0.05 −0.04 −0.16 1.19 0.02 0.02 −0.06 −0.07 0.02 1.23 1 Cas II: n = 100, corrélation forte entre certains des régresseurs. β̂ Ordonnée 0.8022 x1 1.1702 x2 0.2045 x3 -0.2696 x4 -0.7856 s.e.(β̂) test-t 0.0919 8.73 0.3476 3.37 0.3426 0.60 0.3494 -0.77 0.3553 -2.21 p-valeur 0.0000 0.0011 0.5519 0.4423 0.0294 σ̂ = 0.911, df = 95, R2 = 0.702 1 cov(β̂) = 100 0.84 0.25 0.08 −0.17 0.07 0.25 12.08 0.14 −11.73 −0.34 0.08 0.14 11.73 −0.36 11.78 −0.17 −11.73 −0.36 12.21 0.17 0.07 −0.34 11.78 0.17 12.63 Cas II: n = 1100, corrélation forte entre certains des régresseurs. β̂ Ordonnée 1.0354 x1 1.0541 x2 1.1262 x3 -0.0106 x4 0.1446 s.e.(β̂) test-t 0.0305 33.92 0.0974 10.83 0.0989 11.39 0.0978 -0.11 0.1006 1.44 p-valeur 0.0000 0.0000 0.0000 0.9136 0.1511 σ̂ = 1.01, df = 1095, R2 = 0.68 1 cov(β̂) = 1100 1.02 −0.10 0.00 0.09 −0.05 −0.10 0.00 0.09 −0.05 10.43 −0.07 −9.97 −0.05 −0.07 10.75 0.06 10.41 −9.97 0.06 10.52 0.06 −0.05 10.41 0.06 11.14 2 1 Méthodes pas-à-pas Toutes ces méthodes sélectionnent un seul modèle. 1.1 Élimination “backward” Élimination backward démarre avec tous les régresseurs. La procédure calcule la statistique F (ou le carré de la statistique t) associée à chaque régresseur. Si la plus petite valeur F est plus petite qu’un seuil prédéterminé (le quantile d’une distribution F de degrés de liberté appropriés), alors le régresseur correspondant est éliminé. Après l’élimination d’un régresseur, les valeurs F sont recalculées et la procédure est répétée. L’algorithme prend fin lorsqu’aucune valeur F est plus petite que le seuil prédéterminé. Une fois qu’un régresseur est éliminé, il reste éliminé. SAS: model ... / selection=backward; 1.2 Sélection “forward” On procède en sens inverse. On commence avec aucune variable dans le modèle. La méthode forward calcule la statistique F de chaque régresseur s’il était inclu dans le modèle. Si la plus grand valeur F est plus grande qu’un seuil prédéterminé, alors le régresseur correspondant est inclus dans le modèle. La méthode forward réévalue les valeurs F de chaque régresseur restant s’il était inclu dans le modèle. Le même procédé est répété. Une fois qu’un régresseur est inclu dans le modèle, il reste. SAS: model ... / selection=forward; 1.3 Méthodes “stepwise” Cette méthode est une modification de la méthode forward. Comme dans la méthode forward, les régresseurs sont ajoutés un à un et la valeur F d’un régresseur à inclure doit être plus grande qu’un seuil. Cependant, après qu’un régresseur est ajouté, la méthode stepwise sort du modèle les régresseurs dont la valeur F n’est pas significative. La sélection s’arrête lorsque tous les régresseurs à l’extérieur du modèle produisent une valeur F non significative. Chaque régresseur peut entrer et sortir du modèle plus d’une fois. SAS: model ... / selection=stepwise; 2 Méthodes basées sur un critère Certains critères représente un compromis entre l’ajustement, mesurée par la somme de carré résiduelle (SSE), et la complexité du modèle. Les critères de ce type les plus utilisés sont AIC = n log(SSEC /n) + 2pC : Akaike information criteria BIC = n log(SSEC /n) + pC log(n) : Bayes information criteria SSEC CpC = + 2pC − n : CpC de Mallows. σ̂ 2 3 Idéalement, on évalue le critère choisi sur tous les 2k modèles possibles. Cependant, si k est grand, cela peut devenir impossible. SAS: model ... / aic bic best=10 selection=cp; Un autre type de critère issu de la validation croisée est le P RESS = n X e2i,−1 , i=1 où les ei,−1 sont les résidus PRESS. Ce critère est basé sur l’identification d’un modèle donnant la meilleure prévision d’une observation future. Il est le plus lourd d’un point de vue numérique. L’option selection=press n’existe pas en SAS. On évalue plutôt le PRESS sur les meilleurs modèles sélectionnés suivant un autre critère comme celui du Cp de Mallows. La sélection de modèle est le problème le plus épineux en régression. Les possibilités sont pour ainsi dire infinies. Le choix des régresseurs n’est pas nécessairement limité à ceux du tableau initial. On peut transformer les régresseurs du tableau, mais aussi ajouter d’autres régresseurs pour introduire des effets quadratiques, des effets d’interactions entre régresseurs, etc. 4