Sélection de modèle dans le cas gaussien

Transcription

Sélection de modèle dans le cas gaussien
1
Sélection de modèle dans le cas
gaussien
Sélection de modèle dans le cas gaussien
que l’espérance de Y appartient au sous-espace de Rn engendré par
{1, X 1 , . . . , X p } où 1 désigne le vecteur de Rn constitué de “1” . C’est-àdire que les (p + 1) variables aléatoires vérifient :
Yi = β0 + β1 Xi1 + β2 Xi2 + · · · + βp Xip + εi i = 1, 2, . . . , n
Résumé
Le modèle linéaire gaussien ou régression multiple est considéré
pour l’objectif de la prévision d’une variable quantitative par un
ensemble de variables quantitatives ou quantitatives et qualitatives
(analyse de covariance). Recherche d’un modèle parcimonieux assurant un bon équilibre entre la qualité de l’ajustement et la variance
des paramètres afin de minimiser le risque empirique. Algorithmes
(backward, forward, stepwise...) de sélection de modèle par sélection
de variables et minimisation de critères pénalisés (Cp , AIC, BIC).
Algorithmes de sélection de modèle par pénalisation (ridge, lasso,
elastic net).
Retour au plan du cours
1
Régression multiple
avec les hypothèses suivantes :
1. Les εi sont des termes d’erreur indépendants et identiquement distribués ;
E(εi ) = 0, V ar(ε) = σ 2 I.
2. Les termes X j sont supposés déterministes (facteurs contrôlés) ou bien
l’erreur ε est indépendante de la distribution conjointe de X 1 , . . . , X p .
On écrit dans ce dernier cas que :
E(Y|X 1 , . . . , X p ) = β0 +β1 X 1 +β2 X 2 +· · ·+βp X p et V ar(Y|X 1 , . . . , X p ) = σ 2 .
3. Les paramètres inconnus β0 , . . . , βp sont supposés constants.
4. En option, pour l’étude spécifique des lois des estimateurs, une quatrième
hypothèse considère la normalité de la variable d’erreur ε (N (0, σ 2 I)).
Les εi sont alors i.i.d. de loi N (0, σ 2 ).
Les données sont rangées dans une matrice X(n × (p + 1)) de terme général Xij , dont la première colonne contient le vecteur 1 (X0i = 1), et dans
Le modèle de régression linéaire multiple est l’outil statistique le plus ha- un vecteur Y de terme général Yi . En notant les vecteurs ε = [ε1 · · · εp ]0 et
bituellement mis en œuvre pour l’étude de données multidimensionnelles. Cas β = [β0 β1 · · · βp ]0 , le modèle s’écrit matriciellement :
particulier de modèle linéaire, il constitue la généralisation naturelle de la régression simple.
Y = Xβ + ε.
1.1
Modèle
Une variable quantitative Y dite à expliquer (ou encore, réponse, exogène,
dépendante) est mise en relation avec p variables quantitatives X 1 , . . . , X p
dites explicatives (ou encore de contrôle, endogènes, indépendantes, régresseurs).
1.2
Estimation
Conditionnellement à la connaissance des valeurs des X j , les paramètres
Les données sont supposées provenir de l’observation d’un échantillon sta- inconnus du modèle : le vecteur β et σ 2 (paramètre de nuisance), sont estimés par minimisation des carrés des écarts (M.C.) ou encore, en supposant
tistique de taille n (n > p + 1) de R(p+1) :
(4.), par maximisation de la vraisemblance (M.V.). Les estimateurs ont alors
j
p
(x1i , . . . , xi , . . . , xi , yi ) i = 1, . . . , n.
les mêmes expressions, l’hypothèse de normalité et l’utilisation de la vraisemblance conférant à ces derniers des propriétés complémentaires.
L’écriture du modèle linéaire dans cette situation conduit à supposer
2
1.3
1.4
Estimation par M.C.
L’expression à minimiser sur β ∈ Rp+1 s’écrit :
n
X
(Yi − β0 − β1 Xi1 − · · · − βp Xip )2
Sélection de modèle dans le cas gaussien
2
=
kY − Xβk
=
(Y − Xβ)0 (Y − Xβ)
=
Y0 Y − 2β 0 X0 Y + β 0 X0 Xβ.
i=1
Propriétés
Les estimateurs des M.C. βb0 , βb1 , . . . , βbp sont des estimateurs sans biais :
b = β, et, parmi les estimateurs sans biais fonctions linéaires des Yi ,
E(β)
ils sont de variance minimum (théorème de Gauss-Markov) ; ils sont donc
“BLUE” : best linear unbiaised estimators. Sous hypothèse de normalité, les
estimateurs du M.V. sont uniformément meilleurs (efficaces) et coïncident avec
ceux des M.C.
On montre que la matrice de covariance des estimateurs se met sous la forme
Par dérivation matricielle de la dernière équation on obtient les “équations
b − β)(β
b − β)0 ] = σ 2 (X0 X)−1 ,
E[(β
normales” :
X0 Y − X0 Xβ = 0
celle des prédicteurs est
0
dont la solution correspond bien à un minimum car la matrice hessienne 2X X
b − Xβ)(Y
b − Xβ)0 ] = σ 2 H
E[(Y
est semi définie-positive.
Nous faisons l’hypothèse supplémentaire que la matrice X0 X est inversible, et celle des estimateurs des résidus est
c’est-à-dire que la matrice X est de rang (p + 1) et donc qu’il n’existe pas de
E[ee0 ] = σ 2 (I − H)
colinéarité entre ses colonnes. En pratique, si cette hypothèse n’est pas vérifiée,
2
il suffit de supprimer des colonnes de X et donc des variables du modèle ou tandis qu’un estimateur sans biais de σ est fourni par :
une autre approche de réduction de dimension (régression ridge, Lasso, PLS
2
2
kek
kY − Xβk
SSE
...) est à mettre en oeuvre.
σ
b2 =
=
=
.
n−p−1
n−p−1
n−p−1
Alors, l’estimation des paramètres βj est donnée par :
Ainsi, les termes σ
b2 hii sont des estimations des variances des prédicteurs Ybi .
0
−1 0
b
β = (X X) X Y
La conséquence immédiate importante est que si la matrice X0 X est mal
et les valeurs ajustées (ou estimées, prédites) de Y ont pour expression :
b = X(X0 X)−1 X0 Y = HY
b = Xβ
Y
−1
où H = X(X0 X) X0 est appelée “hat matrix” ; elle met un chapeau à Y.
Géométriquement, c’est la matrice de projection orthogonale dans Rn sur le
sous-espace Vect(X) engendré par les vecteurs colonnes de X.
On note
b = (I − H)Y
b = Y − Xβ
e=Y−Y
le vecteur des résidus ; c’est la projection de Y sur le sous-espace orthogonal
de Vect(X) dans Rn .
conditionnée (déterminant proche de 0), son inversion fait apparaître des
termes très élevés sur la diagonale et conduit donc à des variances très importantes des estimations des paramètres.
1.5
Sommes des carrés
SSE est la somme des carrés des résidus (sum of squared errors),
2
2
b
SSE = Y − Y
= kek .
On définit également la somme totale des carrés (total sum of squares) par
2
2
SST = Y − Y1 = Y0 Y − nY
3
et la somme des carrés de la régression (regression sum of squares) par
2
b
b 0 X0 Y − nY2 .
b 0Y
b − nY2 = Y0 HY − nY2 = β
− Y1 = Y
SSR = Y
Sélection de modèle dans le cas gaussien
suit une loi de Student à (n − p − 1) degrés de liberté. Cette statistique est
donc utilisée pour tester une hypothèse H0 : βj = a ou pour construire un
intervalle de confiance de niveau 100(1 − α)% :
βbj ± tα/2;(n−p−1) σ
bj2 .
On vérifie alors : SST = SSR + SSE.
1.6
Coefficient de détermination
Attention, cette statistique concerne un coefficient et ne permet pas d’inférer
conjointement
(cf. §3.4) sur d’autres coefficients car ils sont corrélés entre eux ;
On appelle coefficient de détermination le rapport
de plus elle dépend des absences ou présences des autres variables X k dans le
SSR
modèle. Par exemple, dans le cas particulier de deux variables X 1 et X 2 très
R2 =
SST
corrélées, chaque variable, en l’absence de l’autre, peut apparaître avec un coqui est donc la part de variation de Y expliquée par le modèle de régression. efficient significativement différent de 0 ; mais, si les deux sont présentes dans
Géométriquement, c’est un rapport de carrés de longueur de deux vecteurs. le modèle, elles peuvent chacune apparaître avec des coefficients insignifiants.
b
C’est donc le cosinus carré de l’angle entre ces vecteurs : Y et sa projection Y
De façon plus générale, si c désigne un vecteur non nul de (p+1) constantes
sur Vect(X).
réelles, il est possible de tester la valeur d’une combinaison linéaire c0 β des
Attention, dans le cas extrême où n = (p + 1), c’est-à-dire si le nombre de paramètres en considérant l’hypothèse nulle H0 : c0 β = a ; a connu. Sous
variables explicatives est grand comparativement au nombre d’observations, H0 , la statistique
b −a
R2 = 1. Ou encore, il est géométriquement facile de voir que l’ajout de vac0 β
−1
riables explicatives ne peut que faire croître le coefficient de détermination.
(b
σ 2 c0 (X0 X) c)1/2
La quantité R est appelée coefficient de corrélation multiple entre Y et les suit une loi de Student à (n − p − 1) degrés de liberté.
variables explicatives, c’est le coefficient de corrélation usuel entre Y et sa
b
Inférence sur le modèle
prévision Y.
1.7
Inférence dans le cas gaussien
Le modèle peut être testé globalement. Sous l’hypothèse nulle H0 : β1 =
β2 = . . . = βp = 0, la statistique
En principe, l’hypothèse optionnelle (4.) de normalité des erreurs est nécesSSR/p
MSR
saire pour cette section. En pratique, des résultats asymptotiques, donc valides
=
SSE/(n − p − 1)
MSE
pour de grands échantillons, ainsi que des études de simulation, montrent que
cette hypothèse n’est pas celle dont la violation est la plus pénalisante pour la suit une loi de Fisher avec p et (n − p − 1) degrés de liberté. Les résultats sont
fiabilité des modèles.
habituellement présentés dans un tableau “d’analyse de la variance” sous la
forme
suivante :
Inférence sur les coefficients
Pour chaque coefficient βj on note σ
bj2 l’estimateur de la variance de βbj
obtenu en prenant j-ème terme diagonal de la matrice σ
b2 (X0 X)−1 . On montre
que la statistique
βbj − βj
σ
bj
Source de
variation
d.d.l.
Somme des
carrés
Régression
Erreur
Total
p
n−p−1
n−1
SSR
SSE
SST
Variance
MSR=SSR/p
MSE=SSE/(n − p − 1)
F
MSR/MSE
4
Inférence sur un modèle réduit
Le test précédent amène à rejeter H0 dès que l’une des variables X j est
liée à Y. Il est donc d’un intérêt limité. Il est souvent plus utile de tester un
modèle réduit c’est-à-dire dans lequel certains coefficients, à l’exception de
la constante, sont nuls contre le modèle complet avec toutes les variables. En
ayant éventuellement réordonné les variables, on considère l’hypothèse nulle
H0 : β1 = β2 = . . . = βq = 0, q < p.
Sélection de modèle dans le cas gaussien
• linéarité du modèle : paramètres βj constant,
• absence de points influents : distance de Cook
Di =
1
b(i) )0 (b
b(i) ),
(b
y−y
y−y
s2 (p + 1)
• éventuellement la normalité des résidus.
Ces
diagnostics obtenus par l’étude des résidus du modèle sont très classique
Notons respectivement SSRq , SSEq , Rq2 les sommes de carrés et le coef- en régression linéaire, ils ne sont pas repris ici afin de se focaliser sur ceux liés
ficient de détermination du modèle réduit à (p − q) variables. Sous H0 , la à la possible colinéarité des variables explicatives.
statistique
En effet, l’estimation des paramètres ainsi que celle de leur écart-type (stan(R2 − Rq2 )/q
(SSR − SSRq )/q
=
dard
error) nécessite le calcul explicite de la matrice (X0 X)−1 . Dans le cas dit
SSE/(n − p − 1)
(1 − R2 )/(n − p − 1)
mal conditionné où le déterminant de la matrice X0 X n’est que légèrement difsuit une loi de Fisher à q et (n − p − 1) degrés de liberté.
férent de 0, les résultats conduiront à des estimateurs de variances importantes.
Dans le cas particulier où q = 1 (βj = 0), la F -statistique est alors le carré Il s’agit donc de diagnostiquer ces situations critiques puis d’y remédier. Dans
de la t-statistique de l’inférence sur un paramètre et conduit donc au même les cas descriptif ou prédictif on supprime des variables à l’aide des procédures de choix de modèle mais, pour un objectif explicatif nécessitant toutes
test.
les variables, d’autres solutions doivent être envisagées : régression biaisée ou
1.8 Prévision
pénalisée (ridge, lasso), régression sur composantes principales ou PLS.
Connaissant les valeurs des variables X j pour une nouvelle observation : VIF
= [x10 , x20 , . . . , xp0 ] appartenant au domaine dans lequel l’hypothèse de liLa plupart des logiciels proposent des diagnostics de colinéarité. Le plus
néarité reste valide, une prévision, notée yb0 de Y ou E(Y) est donnée par :
classique est le facteur d’inflation de la variance (VIF)
yb0 = βb0 + βb1 x10 + · · · + βbp xp0 .
1
Vj =
Les intervalles de confiance des prévisions de Y et E(Y), pour une valeur
1 − Rj2
x0 ∈ Rp et en posant v0 = (1|x00 )0 ∈ Rp+1 , sont respectivement
x00
où Rj2 désigne le coefficient de détermination de la régression de la variable
X j sur les autres variables explicatives ; Rj est alors un coefficient de corréyb0 ± tα/2;(n−p−1) σ
b(v00 (X0 X)−1 v0 )1/2 .
lation multiple, c’est le cosinus de l’angle dans Rn entre X j et le sous-espace
vectoriel engendré par les variables {X 1 , . . . , X j−1 , X j+1 , . . . , X p }. Plus
1.9 Diagnostics de colinéarité
X j est “linéairement” proche de ces variables et plus Rj est proche de 1 ;
on montre alors que la variance de l’estimateur de βj est d’autant plus éleLa validité d’un modèle de régression multiple dépend de la bonne vérificavée. Évidemment, cette variance est minimum lorsque X j est orthogonal au
tion des hypothèses préalables :
sous-espace engendré par les autres variables.
• homoscédasticité : variance σ 2 des résidus constante,
yb0
±
tα/2;(n−p−1) σ
b(1 + v00 (X0 X)−1 v0 )1/2 ,
5
Conditionnement
Sélection de modèle dans le cas gaussien
Modèle complet
De façon classique, les qualités numériques de l’inversion d’une matrice
La procédure SAS/REG fournit les résultats classiques de la régression mulsont quantifiées par son indice de conditionnement. On note λ1 , . . . , λp les va- tiple.
leurs propres de la matrice des corrélations R rangées par ordre décroissant. Le Analysis of Variance
Sum of
Mean
déterminant de R est égal au produit des valeurs propres. Ainsi, des problèmes Source
DF
Squares
Square
F Value
Prob>F
(1)
numériques, ou de variances excessives apparaissent dès que les dernières va- Model
12
0.55868 (2)
0.04656 (5)
8.408 (7)
0.0001 (8)
27
0.14951 (3)
0.00554 (6)
leurs propres sont relativement trop petites. L’indice de conditionnement est le Error
C Total
39
0.70820 (4)
Root MSE
0.07441 (9)
R-square
0.7889 (12)
rapport
Dep Mean
0.14275 (10)
Adj R-sq
0.6951 (13)
C.V.
κ = λ1 /λp
de la plus grande sur la plus petite valeur propre.
En pratique, si κ < 100 on considère qu’il n’y a pas de problème. Celui-ci
devient sévère pour κ > 1000. Cet indice de conditionnement donne un aperçu
global des problèmes de colinéarité tandis que les VIF, les tolérances ou encore
l’étude des vecteurs propres associés au plus petites valeurs propres permettent
d’identifier les variables les plus problématiques.
1.10
Exemple
Les données sont extraites de Jobson (1991)[3] et décrivent les résultats
comptables de 40 entreprises du Royaume Uni.
RETCAP
WCFTDT
LOGSALE
LOGASST
CURRAT
QUIKRAT
NFATAST
FATTOT
PAYOUT
WCFTCL
GEARRAT
CAPINT
INVTAST
Return on capital employed
Ratio of working capital flow to total debt
Log to base 10 of total sales
Log to base 10 of total assets
Current ratio
Quick ratio
Ratio of net fixed assets to total assets
Gross sixed assets to total assets
Payout ratio
Ratio of working capital flow to total current liabilities
Gearing ratio (debt-equity ratio)
Capital intensity (ratio of total sales to total assets)
Ratio of total inventories to total assets
(1)
(2)
(3)
(4)
(5)
(6)
(7)
(8)
(9)
(10)
(11)
(12)
(13)
52.12940 (11)
degrés de liberté de la loi de Fisher du test global
SSR
SSE ou déviance
SST=SSE+SSR
SSR/DF
MSE=SSE/DF est l’estimation de σ 2
Statistique F du test de Fisher du modèle global
P (fp;n−p−1 > F ) ; H0 est rejetée au niveau α si P < α
s =racine de MSE
moyenne empirique de la variable à expliquée
Coefficient de variation 100× (9)/(10)
Coefficient de détermination R2
2
Coefficient de détermination ajusté R0
Parameter Estimates
Parameter
Variable DF
Estimate
(1)
INTERCEP
1
0.188072
WCFTCL
1
0.215130
WCFTDT
1
0.305557
GEARRAT
1
-0.040436
LOGSALE
1
0.118440
LOGASST
1
-0.076960
...
(1)
(2)
(3)
(4)
(5)
(6)
Standard
Error
(2)
0.13391661
0.19788455
0.29736579
0.07677092
0.03611612
0.04517414
T for H0:
Parameter=0 Prob>|T|
(3)
(4)
1.404
0.1716
1.087
0.2866
1.028
0.3133
-0.527
0.6027
3.279
0.0029
-1.704
0.0999
Tolerance
(5)
.
0.03734409
0.02187972
0.45778579
0.10629382
0.21200778
Variance
Inflation
(6)
0.00000000
26.77799793
45.70441500
2.18442778
9.40788501
4.71680805
estimations des paramètres (βbj )
écarts-types de ces estimations σ
bj
statistique T du test de Student de H0 : βj = 0
P (tn−p−1 > T ) ; H0 est rejetée au niveau α si P < α
2
1 − R(j)
2
VIF=1/(1 − R(j)
)
Ces résultats soulignent les problèmes de colinéarités. De grands “VIF” (fac-
6
Sélection de modèle dans le cas gaussien
teurs d’inflation de la variance) sont associés à de grands écart-types des estiOn suppose que les moyennes conditionnelles E[Y|T ], c’est-à-dire calcumations des paramètres. D’autre part les nombreux tests de Student non signifi- lées à l’intérieur de chaque cellule, sont dans le sous-espace vectoriel engendré
catifs montrent que trop de variables sont présentes dans le modèle. Cette idée par les variables explicatives quantitatives, ici X. Ceci s’écrit :
est renforcée par le calcul de l’indice de conditionnement : 8.76623/0.00125.
Yij = β0j + β1j Xij + εij ; j = 1, . . . , J; i = 1, · · · , nj
2
Analyse de covariance
L’analyse de covariance se situe encore dans le cadre général du modèle linéaire et où une variable quantitative est expliquée par plusieurs variables à la
fois quantitatives et qualitatives. Dans les cas les plus complexes, on peut avoir
plusieurs facteurs (variables qualitatives) avec une structure croisée ou hiérarchique ainsi que plusieurs variables quantitatives intervenant de manière linéaire ou polynomiale. Le principe général, dans un but explicatif ou décisionnel, est toujours d’estimer des modèles “intra-groupes” et de faire apparaître
(tester) des effets différentiels “inter-groupes” des paramètres des régressions.
Ainsi, dans le cas plus simple où seulement une variable parmi les explicatives
est quantitative, nous sommes amenés à tester l’hétérogénéité des constantes
et celle des pentes (interaction) entre différents modèles de régression linéaire.
où les εij sont i.i.d. suivant une loi centrée de variance σ 2 qui sera supposée
N (0, σ 2 ) pour la construction des tests.
Notons Y le vecteur des observations [Yij |i = 1, nj ; j = 1, J]0 mis en
colonne, x le vecteur [Xij |i = 1, nj ; j = 1, J]0 , ε = [εij |i = 1, nj ; j = 1, J]0
le vecteur des erreurs, 1j les variables indicatrices des niveaux et 1 la colonne
de 1s. On note encore x.1j le produit terme à terme des deux vecteurs, c’està-dire le vecteur contenant les observations de x sur les individus prenant le
niveau j de T et des zéros ailleurs.
La résolution simultanée des J modèles de régression est alors obtenue en
considérant globalement le modèle :
Y = Xβ + ε
Ce type de modèle permet donc, toujours avec un objectif prédictif, de s’intéresser à la modélisation d’une variable quantitative par un ensemble de vadans lequel X est la matrice n × 2J constituée des blocs [1j |X.1j ] ; j =
riables explicatives à la fois quantitatives et qualitatives. La possible prise en
1, . . . , J. L’estimation de ce modèle global conduit, par bloc, à estimer les
compte d’interactions complique singulièrement la procédure de sélection de
modèles de régression dans chacune des cellules.
variables.
Comme pour l’analyse de variance, les logiciels opèrent une reparamétrisation faisant apparaître des effets différentiels par rapport au dernier niveau
2.1 Modèle
(SAS/GLM, SAS/INSIGHT) ou par rapport à un effet moyen (Systat), afin
Le modèle est explicité dans le cas élémentaire où une variable quantitative d’obtenir directement les bonnes hypothèses dans les tests. Ainsi, dans le preY est expliquée par une variable qualitative T à J niveaux et une variable mier cas, on considère la matrice de même rang (sans la Jème indicatrice)
quantitative, appelée encore covariable, X. Pour chaque niveau j de T , on
observe nj valeurs X1j , . . . , Xnj j de X et nj valeurs Y1j , . . . , Ynj j de Y ;
X = [1|X|11 | · · · |1J−1 |x.11 | · · · |x.1J−1 ]
PJ
n = j=1 nj est la taille de l’échantillon.
En pratique, avant de lancer une procédure de modélisation et tests, une associée aux modèles :
démarche exploratoire s’appuyant sur une représentation en couleur (une par
modalité j de T) du nuage de points croisant Y et X et associant les droites de
Yij = β0J + (β0j − β0J ) + β1J Xij + (β1j − β1J )Xij + εij ;
régression permet de se faire une idée sur les effets respectifs des variables :
j = 1, . . . , J − 1; i = 1, . . . , nj .
parallélisme des droites, étirement, imbrication des sous-nuages.
7
2.2
Tests
Sélection de modèle dans le cas gaussien
cette stratégie, à laquelle peuvent contribuer des Analyses en Composantes Principales, correspond des algorithmes de recherche (pas à pas)
Différentes hypothèses sont alors testées en comparant le modèle complet
moins performants mais économiques en temps de calcul si p est grand.
Attention, si n est petit, et la recherche suffisamment longue avec beauY = β0J 1 + (β01 − β0J )11 + · · · + (β0J−1 − β0J )1J−1 + β1J x +
coup de variables explicatives, il sera toujours possible de trouver un
+ (β11 − β1J )x.11 + · · · + (β1J−1 − β1J )x.1J−1 + ε
“bon” modèle expliquant y ; c’est l’effet data mining dans les modèles
économétriques
appelé maintenant data snooping.
à chacun des modèles réduits :
Explicatif : Le deuxième objectif est sous-tendu par une connaissance a
(i) Y = β0J 1 + (β01 − β0J )11 + · · · + (β0J−1 − β0J )1J−1 + β1J x + ε
priori du domaine concerné et dont des résultats théoriques peuvent vou(ii) Y = β0J 1 + (β01 − β0J )11 + · · · + (β0J−1 − β0J )1J−1 + ε
loir être confirmés, infirmés ou précisés par l’estimation des paramètres.
Dans ce cas, les résultats inférentiels précédents permettent de construire
(iii) Y = β0J 1 + β1J x + (β1j − β1J )x.11 + · · · +
le bon test conduisant à la prise de décision recherchée. Utilisées hors de
+(β1J−1 − β1J )x.1J−1 + ε
ce contexte, les statistiques de test n’ont plus alors qu’une valeur indica(iv) Y = β0J 1 + ε
tive au même titre que d’autres critères plus empiriques.
Prédictif : Dans le troisième cas, l’accent est mis sur la qualité des estipar un test de Fisher. Ceci revient à considérer les hypothèses suivantes :
mateurs et des prédicteurs qui doivent, par exemple, minimiser une er• H0i : pas d’interaction entre variables X et T, β11 = · · · = β1J , les droites
reur quadratique moyenne. C’est la situation rencontrée en apprentissage.
partagent la même pente β1J .
Ceci conduit à rechercher des modèles parcimonieux c’est-à-dire avec un
• H0ii : β11 = · · · = β1J =0 (pas d’effet de x)
nombre volontairement restreint de variables explicatives. Le “meilleur”
• H0iii :β01 = · · · = β0J , les droites partagent la même constante à l’origine
modèle ainsi obtenu peut donner des estimateurs légèrement biaisés au
β0J .
profit d’un compromis pour une variance plus faible. Un bon modèle n’est
• H0iv les variables X et T n’ont aucun effet sur Y.
donc plus celui qui explique le mieux les données au sens d’une déviance
On commence donc par évaluer i, si le test n’est pas significatif, on regarde ii
(SSE) minimale (ou d’un R2 max) au prix d’un nombre important de vaqui, s’il n’est pas non plus significatif, conduit à l’absence d’effet de la variable
riables pouvant introduire des colinéarités. Le bon modèle est celui qui
X. De même, toujours si i n’est pas significatif, on s’intéresse à iii pour juger
conduit aux prévisions les plus fiables.
de l’effet du facteur T .
Certes, le théorème de Gauss-Markov indique que, parmi les estimateurs
3 Choix de modèle par sélection de variables sans biais, celui des moindres carrés est de variance minimum. Néanmoins,
il peut être important de préférer un estimateur légèrement biaisé si le gain
en variance est lui plus significatif. C’est tout le problème de trouver un bon
3.1 Introduction
équilibre entre biais et variance afin de minimiser un risque quadratique de
De façon un peu schématique, on peut associer la pratique de la modélisa- prévision. Nous allons illustrer ceci par un exemple très simple (mais pédagotion statistique à trois objectifs qui peuvent éventuellement être poursuivis en gique) en régression polynomiale : on représente ci-dessous un jeu de données
complémentarité.
pour lesquelles Yi = f (xi ) + εi , i = 1, . . . , n et xi ∈ [0, 1]. On ajuste des
Descriptif : Il vise à rechercher de façon exploratoire les liaisons entre Y polynômes de degrés croissants sur ces données, le critère R2 augmente pour
et d’autres variables, potentiellement explicatives, X j qui peuvent être atteindre la valeur 1 pour le polynôme qui passe par toutes les observations.
nombreuses afin, par exemple d’en sélectionner un sous-ensemble. À L’ajustement du modèle mesuré par la R2 croît logiquement avec le nombre
8
Polynôme de degré 5
●
Polynôme de degré 10
2.5
Polynôme de degré 2
●
2.5
Régression linéaire simple
Sélection de modèle dans le cas gaussien
●
●
●
●
●
●
●
2.0
●
●
●
2.0
2
●
●
●
2
●
●
●
●
●
1.5
1.5
●
●
●
●
●
●
●
●
●
●
●
y
1.0
y
1
y
y
●
●
●
●
1.0
1
●
●
●
●
0.2
0.4
0.6
0.8
1.0
●
0.0
x
0.2
0.4
0.6
0.8
1.0
x
F IGURE 1 – A gauche : y = β0 + β1 x + , R2 = 0.03, A droite :
β0 + β1 x + β2 x2 + , R2 = 0.73.
0.5
0.0
●
0.0
0.2
0.4
0.6
0.8
1.0
−0.5
●
0.0
−0.5
−1
0.0
0
0
0.5
●
●
0.0
0.2
x
y =
0.4
0.6
0.8
1.0
x
F IGURE 2 – A gauche : y = β0 +β1 x+. . .+β5 x5 +, R2 = 0.874,
A droite : y = β0 + β1 x + . . . + β10 x10 + , R2 = 1.
avec Y = (Y1 , . . . , Yn )0 , µ = (f (X1 ), . . . , f (Xn ))0 et = (1 , . . . , n )0 .
b de µ est :
b = Xβ
Le risque quadratique moyen de l’estimateur µ
de paramètres.
Le R2 ne peut-être un “bon” critère de sélection de modèles ; il ne peut
b k2 ],
R(b
µ) = EY0 ,Y [kY0 − µ
servir qu’à comparer des modèles de même dimension car sinon conduit à
sélectionner le modèle le plus complexe, c’est-à-dire celui correspond au plus où Y0 est un vecteur de Rn indépendant de Y et de même loi que Y. On a
grand espace de projection, et conduit donc au sur-ajustement.
alors, en utilisant le théorème de Cochran,
Il y a principalement deux façons de “biaiser” un modèle dans le but de
R(b
µ) = nσ 2 + pσ 2 + kµ − ΠV (µ)k2 .
restreindre la variance :
• en réduisant le nombre de variables explicatives et donc en simplifiant le
modèle (sélection ou pénalisation lasso),
2
de biais, il décroit lorsque l’espace V
• en contraignant les paramètres du modèle, en les rétrécissant (schrinkage), kµ − ΠV (µ)k représente le terme
2
croit
(au
sens
de
l’inclusion),
pσ
représente
la variance de l’estimateur :
en régression ridge qui opère une régularisation.
2
E[kb
µ
−
E(b
µ
)k
]
et
croit
avec
la
dimension
de
V
,
nσ 2 correspond au risque de
Commençons par décrire les procédures de sélection.
l’oracle µ.
3.2
Etude du risque quadratique
On se place ici sur Y = Rn , muni de la norme euclidienne. On écrit le
modèle sous la forme :
Y = µ + ,
3.3
Critères de sélection de variables
De nombreux critères de choix de modèle sont présentés dans la littérature
sur la régression linéaire multiple. Citons le critère d’information d’Akaïke
9
Sélection de modèle dans le cas gaussien
Ce coefficient s’exprime encore par
(AIC), celui bayésien de Sawa (BIC). . . Ils sont équivalents lorsque le nombre
de variables à sélectionner, ou niveau du modèle, est fixé. Le choix du critère
(n − 1)MSE
est déterminant lorsqu’il s’agit de comparer des modèles de niveaux différents.
1−
SST
Certains critères se ramènent, dans le cas gaussien, à l’utilisation d’une expression pénalisée de la fonction de vraisemblance afin de favoriser des modèles ainsi dans la comparaison de deux modèles partageant la même SST, on obparcimonieux. En pratique, les plus utilisés ou ceux généralement fournis par serve que R0 2 > R0 2j si et seulement si MSE<MSEj ; MSE et MSEj désignant
les logiciels sont les suivants.
respectivement l’erreur quadratique moyenne du modèle complet et celle d’un
modèle à j variables explicatives. Maximiser le R2 ajusté revient donc à miniStatistique du F de Fisher
miser l’erreur quadratique moyenne.
Ce critère, justifié dans le cas explicatif car basé sur une qualité d’ajustement est aussi utilisé à titre indicatif pour comparer des séquences de modèles Cas des variables ordonnées
emboîtés. La statistique partielle de Fisher est
Nous avons considéré ci-dessus un modèle linéaire avec les p covariables
(1)
X
, . . . , X (p) , mais on peut envisager d’autres estimateurs, et déterminer un
2
2
(R − Rq ) n − p − 1
(SSR − SSRq )/q
=
critère pour sélectionner le "meilleur" estimateur de la collection considérée.
SSE/(n − p − 1)
(1 − R2 )
q
Si on sait à priori que les variables X (1) , . . . , X (p) sont classées par ordre
dans laquelle l’indice q désigne les expressions concernant le modèle réduit d’importance, on peut envisager, pour tout m de 1 à p, l’estimateur linéaire
avec (p − q) variables explicatives. On considère alors que si l’accroissement fonction des m − 1 premières variables : X (1) , . . . , X (m−1) . En notant Vm le
(R2 − Rq2 ) est suffisamment grand :
sous-espace vectoriel de Rn engendré par ces variables et le vecteur 1 de Rn ,
b m l’estimateur associé : µ
b m = ΠVm (Y), on obtient
et µ
q
Fα;q,(n−p−1) ,
R2 − Rq2 >
(n − p − 1)
R(b
µm ) = nσ 2 + mσ 2 + kµ − ΠVm (µ)k2 .
l’ajout des q variables au modèle est justifié.
On cherche à déterminer, parmi la collection d’estimateurs (b
µm , m = 1, . . . p)
R2 et R2 ajusté
un estimateur de risque minimal. Par Pythagore,
Le coefficient de détermination R2 = 1−SSE/SST, directement lié à la déR(b
µm ) = nσ 2 + mσ 2 + kµk2 − kΠVm (µ)k2 .
viance (SSE) est aussi un indice de qualité mais qui a la propriété d’être monoµm )
tone croissant en fonction du nombre de variables. Il ne peut donc servir qu’à Puisque nσ 2 + kµk2 ne dépend pas du modèle considéré, minimiser R(b
µm ) = mσ 2 − kΠVm (µ)k2 .
comparer deux modèles de même niveau c’est-à-dire avec le même nombre de équivaut à minimiser R0 (b
En notant que kΠVm (Y)k2 − mσ 2 est un estimateur sans biais de kΠVm (µ)k2 ,
variables.
on obtient un estimateur sans biais du risque R0 (b
µm ) :
En revanche, le R2 ajusté :
2
R0 = 1 −
n−1
SSE/(n − p − 1)
(1 − R2 ) = 1 −
.
n−p−1
SST/(n − 1)
b0 (b
R
µm ) = −kΠVm (Y)k2 + 2mσ 2 .
Ceci conduit au critère CP de Mallows (1973)[5], qui consiste à sélectionner
dans lequel le rapport SSE/SST est remplacé par un rapport des estimations le modèle m qui minimise le critère
sans biais des quantités σ 2 et σy2 introduit une pénalisation liée au nombre de
Crit(m) = −kΠVm (Y)k2 + 2mσ 2 .
paramètres à estimer.
10
Sélection de modèle dans le cas gaussien
CP de Mallows
m
b = argminm=1,...,p Crit(m),
Polynôme de degré 3
●
●
2
8
●
7
●
Cp de Mallows
●
●
6
●
●
1
●
y
5
CP
●
−1
3
4
0
●
●
2
bm
µ est alors estimé par µ
b . On peut montrer (mais la démonstration est loin
d’être triviale !) que le risque de l’estimateur ainsi sélectionné est "proche" de
celui de l’oracle. (cf Concentration inequalities and statistical applications, P.
Massart).
Remarque : On peut estimer la variance σ 2 des variables i par kY −
ΠV (Y)k2 /(n − p − 1), cet estimateur est sans biais si Y obéit au modèle
linéaire Y = Xβ + ε.
Un autre critère, classiquement utilisé, est le critère BIC, pour lequel le facteur
2 dans la pénalité est remplacé par log(n).
●
●
●
●
●
●
●
2
●
●
4
6
k
8
10
0.0
0.2
0.4
0.6
0.8
1.0
x
F IGURE 3 – Cp de Mallow en fonction du degré du polynôme et modèle sélection de degré 3.
Dans le cas général et évidemment le plus courant en pratique, les variables
“vrai” modèle complet est moins fiable qu’un modèle réduit donc biaisé mais
ne sont pas pré-ordonnées par importance. L’indicateur proposé par Mallows
d’estimation plus précise.
(1973)[5] est une estimation de l’erreur quadratique moyenne de prévision qui
La figure 3 montre le comportement du Cp dans l’exemple de la régress’écrit aussi comme la somme d’une variance et du carré d’un biais. L’erreur
sion polynomial. Ce critère décroît avec le biais jusqu’à un choix optimal de
quadratique moyenne de prévision s’écrit ainsi :
dimension 3 avec de ré-augmenter avec la variance.
MSE(Ybi ) = Var(Ybi ) + [Biais(Ybi )]2
AIC, BIC et PRESS
puis après sommation et réduction :
n
n
n
X
X
1 X
bi ) = 1
bi ) + 1
MSE(
Y
Var(
Y
[Biais(Ybi )]2 .
σ 2 i=1
σ 2 i=1
σ 2 i=1
Dans le cas du modèle linéaire, et si la variance des observations est supposée connue, le critère AIC (Akaïke’s Information criterion) est équivalent au
critère Cp de Mallows.
Le PRESS de Allen est l’introduction historique de la validation croisée
ou leave one out (loo). On désigne par Yb(i) la prévision de Yi calculée sans
En supposant que les estimations du modèle complet sont sans biais et en uti- tenir compte de la ième observation (Y , X 1 , . . . , X p ), la somme des erreurs
i
i
i
lisant des estimateurs de Var(Ybi ) et σ 2 , l’expression de l’erreur quadratique quadratiques de prévision (PRESS) est définie
par
moyenne totale standardisée (ou réduite) pour un modèle à j variables expli"
#2
catives s’écrit :
n
n
i2
X
b(xi )
1 Xh
1
y
−
f
i
(−i)
yi − fb (xi ) =
.
MSEj
n i=1
n i=1
1 − hii
− [n − 2(q + 1)]
Cp = (n − q − 1)
MSE
et définit la valeur du C de Mallows pour les q variables considérées. Il est et permet de comparer les capacités prédictives de deux modèles.
p
alors d’usage de rechercher un modèle qui minimise le Cp tout en fournissant
La vignette sur Qualité de prévision et risque donne plus de détails sur ces
une valeur inférieure et proche de (q + 1). Ceci revient à considérer que le derniers critères.
11
3.4
Algorithmes de sélection de variables
3.5
Sélection de modèle dans le cas gaussien
Sélection en analyse de covariance
Lorsque p est grand, il n’est pas raisonnable de penser explorer les 2p modèles possibles afin de sélectionner le “meilleur” au sens de l’un des critères
ci-dessus. Différentes stratégies sont donc proposées qui doivent être choisies
en fonction de l’objectif recherché, de la valeur de p et des moyens de calcul disponibles ! deux types d’algorithmes sont résumés ci-dessous par ordre
croissant de temps de calcul nécessaire c’est-à-dire par nombre croissant de
modèles considérés parmi les 2p et donc par capacité croissante d’optimalité.
On donne pour chaque algorithme l’option selection à utiliser dans la procédure REG de SAS.
Un modèle d’analyse de covariance pose des problèmes spécifiques de sélection notamment par la prise en compte possible d’interactions entre variables
dans la définition du modèle. La recherche d’un modèle efficace, donc parcimonieux, peut conduire à négliger des interactions ou effets principaux lorsqu’une faible amélioration du R2 le justifie et même si le test correspondant
apparaît comme significatif. L’utilisation du Cp est théoriquement possible
mais en général ce critère n’est pas calculé car d’utilisation délicate. En effet, il nécessite la considération d’un “vrai” modèle de référence ou tout du
moins d’un modèle de faible biais pour obtenir une estimation raisonnable de
la variance de l’erreur. En régression multiple (toutes les variables explicatives
Pas à pas
quantitatives), le modèle complet est considéré comme étant celui de faible
Sélection (forward) À chaque pas, une variable est ajoutée au modèle. C’est biais mais analyse de covariance quels niveaux de complexité des interactions
celle dont la valeur p (“prob value”)associée à la statistique partielle du faut-il considérer pour construire le modèle complet jugé de faible biais ? Il st
test de Fisher qui compare les deux modèles est minimum. La procédure alors plus simple et plus efficace d’utiliser le critère AIC ou le PRESS ; AIC
s’arrête lorsque toutes les variables sont introduites ou lorsque p reste plus est systématiquement utilisé dans plusieurs logiciels comme R ou Enterprise
Miner de SAS.
grande qu’une valeur seuil fixée par défaut à 0, 50.
L’algorithme de recherche descendant est le plus couramment utilisé avec la
Élimination (backward) L’algorithme démarre cette fois du modèle complet. À chaque étape, la variable associée à la plus grande valeur p est contrainte suivante :
éliminée du modèle. La procédure s’arrête lorsque les variables restant
un effet principal n’est supprimé qu’à la condition qu’il n’apparaisse plus
dans le modèle ont des valeurs p plus petites qu’un seuil fixé par défaut à dans une interaction.
0, 10.
Voici, à titre d’exemple, une étape intermédiaire d’une sélection de variables
Mixte (stepwise) Cet algorithme introduit une étape d’élimination de va- pas à pas stepwize avec l’option both de la fonction StepAIC de R. A chaque
riable après chaque étape de sélection afin de retirer du modèle d’éven- étape, le critère AIC est évalué par suppression ou rajout de chacune des vatuels variables qui seraient devenues moins indispensables du fait de la riables. L’option minimisant le critère AIC est retenue avant de passer à l’étape
présence de celles nouvellement introduites.
suivante. Le modèle ne comprend pas d’interactions.
Global
L’algorithme de Furnival et Wilson (1974)[2]est utilisé pour comparer tous
les modèles possibles en cherchant à optimiser l’un des critères : R2 , R2 ajusté,
ou Cp de Mallows (rsquare, adjrsq, cp) choisi par l’utilisateur. Par
souci d’économie, cet algorithme évite de considérer des modèles de certaines
sous-branches de l’arborescence dont on peut savoir a priori qu’ils ne sont
pas compétitifs. En général les logiciels exécutant cet algorithme affichent le
(best=1) ou les meilleurs modèles de chaque niveau q.
Step: AIC=-60.79
lpsa ~ lcavol + lweight + age + lbph + svi + pgg45
- pgg45
<none>
+ lcp
- age
Df Sum of Sq RSS
1 0.6590
45.526
44.867
1 0.6623
44.204
1 1.2649
46.132
AIC
-61.374
-60.788
-60.231
-60.092
12
+
-
lbph
gleason
lweight
svi
lcavol
1 1.6465
3 1.2918
1 3.5646
1 4.2503
1 25.4190
46.513
43.575
48.431
49.117
70.286
-59.293
-57.622
-55.373
-54.009
-19.248
Sélection de modèle dans le cas gaussien
8 0.769 0.709
9 0.776 0.708
7.507 -193.8 WCFTDT LOGSALE LOGASST NFATAST FATTOT
8.641 -191.5 WCFTCL WCFTDT LOGSALE LOGASST NFATAST
CURRAT
10 0.783 0.708 9.744 -189.1 WCFTCL WCFTDT LOGSALE LOGASST NFATAST
QUIKRAT CURRAT
11 0.786 0.702 11.277 -186.4 WCFTCL WCFTDT LOGSALE LOGASST NFATAST
PAYOUT QUIKRAT CURRAT
12 0.788 0.695 13.000 -183.5 WCFTCL WCFTDT GEARRAT LOGSALE LOGASST
INVTAST PAYOUT QUIKRAT CURRAT
INVTAST QUIKRAT CURRAT
FATTOT INVTAST QUIKRAT
FATTOT INVTAST PAYOUT
CAPINT FATTOT INVTAST
NFATAST CAPINT FATTOT
Step: AIC=-61.37
lpsa ~ lcavol + lweight + age + lbph + svi
Dans cet exemple, Cp et BIC se comportent de la même façon. Avec peu de
variables, le modèle est trop biaisé. Ils atteignent un minimum pour un modèle
à 4 variables explicatives puis croissent de nouveau selon la première bissecEn effet, supprimer un effet principal alors que la variable est présente
trice. La maximisation du R2 ajusté conduirait à une solution beaucoup moins
dans une interaction ne change en rien le modèle car l’espace engendré par
parcimonieuse. On note par ailleurs que l’algorithme remplace WCFTCL par
l’ensemble des indicatrices sélectionnées reste le même ; la matrice X est
WCFTDT. Un algorithme par sélection ne peut pas aboutir à la solution opticonstruite sous contrainte de rang et retirer une colonne (effet principal) fait
male retenue.
automatiquement entrer une indicatrice d’interaction supplémentaire. Le modèle est inchangé mais l’interprétation plus compliquée car il ne s’agit plus de
4 Régression régularisée ou pénalisée
décomposer un effet principal et ses interactions.
C
3.6
L’autre stratégie qui cherche à conserver l’ensemble ou tout du moins la
plupart des variables explicatives pose un problème de multicolinéarité. Il est
résolu par une procédure de régularisation.
Exemple de sélection
Parmi les trois types d’algorithmes et les différents critères de choix, une
des façons les plus efficaces consiste à choisir les options du programme ci- 4.1 Régression ridge
dessous. Tous les modèles (parmi les plus intéressants selon l’algorithme de
Furnival et Wilson) sont considérés. Seul le meilleur pour chaque niveau, c’est- Modèle et estimation
à-dire pour chaque valeur p du nombre de variables explicatives sont donnés.
Ayant diagnostiqué un problème mal conditionné mais désirant conserver
Il est alors facile de choisir celui minimisant l’un des critères globaux (Cp ou
BIC).
toutes les variables, il est possible d’améliorer les propriétés numériques et la
variance des estimations en considérant un estimateur légèrement biaisé des
options linesize=110 pagesize=30 nodate nonumber;
paramètres.
title;
proc reg data=sasuser.ukcomp2 ;
model RETCAP = WCFTCL
WCFTDT
GEARRAT
LOGSALE
NFATAST CAPINT
FATTOT
INVTAST
PAYOUT
/ selection=rsquare cp rsquare bic best=1;
run;
In
1
2
3
4
5
6
7
LOGASST
QUIKRAT
On se place dans le modèle linéaire
CURRAT
N = 40
Regression Models for Dependent Variable: RETCAP
R-sq. Adjust. C(p)
BIC
Variables in Model
R-sq
0.105 0.081 78.393 -163.2 WCFTCL
0.340 0.305 50.323 -173.7 WCFTDT QUIKRAT
0.615 0.583 17.181 -191.1 WCFTCL NFATAST CURRAT
0.720 0.688 5.714 -199.2 WCFTDT LOGSALE NFATAST CURRAT
0.731 0.692 6.304 -198.0 WCFTDT LOGSALE NFATAST QUIKRAT CURRAT
0.748 0.702 6.187 -197.2 WCFTDT LOGSALE NFATAST INVTAST QUIKRAT CURRAT
0.760 0.707 6.691 -195.7 WCFTDT LOGSALE LOGASST NFATAST FATTOT QUIKRAT CURRAT
e + ,
eβ
Y=X
où

1
 1
e

X=
.
1
(
X1
X21
.
Xn1
X12
X22
.
Xn2

. X1p
. X2p 
,
.
. 
. Xnp
13


β0
 β1 
 
e

β=
 . ,
.
βp


β1
 β2 
 

β=
 . .
.
βp
On obtient :
0
−1 0
b
β
Ridge = (X X + λIp ) X Y.
La solution est donc explicite et linéaire en Y.
Remarques :
e privée de sa première coOn note X 0 = (1, 1, . . . , 1)0 , et X la matrice X
lonne. L’estimateur ridge est défini par un critère des moindres carrés, avec
une pénalité de type L2 :
e + ,
eβ
Y=X
est défini par :


p
p
n
X
X
X
(j)
b
 (Yi −
β
Xi βj )2 + λ
βj2  ,
Ridge = argminβ∈Rp+1
j=0
1. X0 X est une matrice symétrique positive (pour tout vecteur u de Rp ,
u0 (X0 X)u = kXuk2 ≥ 0. Il en résulte que pour tout λ > 0, X0 X + λIp
est nécessaire inversible.
2. La constante β0 n’intervient pas dans la pénalité, sinon, le choix de l’origine pour Y aurait une influence sur l’estimation de l’ensemble des paramètres. On obtient βb0 = Y, ajouter une constante à Y ne modifie pas les
βbj pour j ≥ 1.
e dans le modèle
D ÉFINITION 1. — L’estimateur ridge de β
i=1
Sélection de modèle dans le cas gaussien
j=1
où λ est un paramètre positif, à choisir.
A noter que le paramètre β0 n’est pas pénalisé.
P ROPOSITION 2. — L’estimateur ridge s’exprime aussi sous la forme :
 
c1
β
c
 β2 
 
c0
β
= argminβ∈Rp kY(c) − X(c) βk2 + λkβk2 .
.
Ridge = Ȳ , 
 
.
cp
β
3. L’estimateur ridge n’est pas invariant par renormalisation des vecteurs
X (j) , il est préférable de normaliser les vecteurs avant de minimiser le
critère.
4. On montre que la régression ridge revient encore à estimer le modèle
par les moindres carrés sous la contrainte que la norme du vecteur β des
paramètres ne soit pas trop grande :
n
o
2
2
b
β
=
arg
min
kY
−
Xβk
;
kβk
<
c
.
Ridge
β
La régression Ridge conserve toutes les variables mais, contraignant la
norme des paramètres βj , elle les empêche de prendre de trop grandes
valeurs et limite ainsi la variance.
Optimisation de la pénalisation
La figure 4 montre quelques résultats obtenus par la méthode ridge en fonction de la valeur de la pénalité λ = l sur l’exemple de la régression polynomiale. Plus la pénalité augmente et plus la solution obtenue est régulière ou
où X(c) désigne la matrice X recentrée (par colonnes) et Y(c) désigne le encore, plus le biais augmente et la variance diminue. Il y a sur-ajustement
vecteur Y recentré.
avec une pénalité nulle : le modèle passe par tous les points mais oscille dangeureusement ; il y a sous-ajustement avec une pénalité trop grande.
On suppose désormais que X et Y sont centrés. On trouve l’estimateur ridge
Comme dans tout problème de régularisation, le choix de la valeur du paraen résolvant les équations normales qui s’expriment sous la forme :
mètre λ est crucial est déterminera le choix de modèle. La validation croisée
est généralement utilisée pour optimiser le choix car la lecture du graphique
X0 Y = (X0 X + λIp )β.
Ridge
14
Régression Ridge, l=10^−7
20
Régression Ridge, l=0
Sélection de modèle dans le cas gaussien
●
●
●
10
2.5
●
●
●
1.5
●
●
●
●
y
●
●
1.0
y
1.0
●
−10
1.5
●
0
●
2.0
2.0
●
t(x$coef)
2.5
●
●
●
0.5
0.5
0.0
0.0
−20
●
0e+00
1e−04
2e−04
3e−04
4e−04
5e−04
−0.5
−0.5
x$lambda
●
0.0
0.2
0.4
0.6
0.8
1.0
●
0.0
0.2
0.4
0.6
x
x
Régression Ridge, l=10^−4
Régression Ridge, l=0.1
●
2.5
2.5
2.0
2.0
●
●
●
1.5
1.5
●
●
●
y
●
1.0
●
●
0.0
−0.5
−0.5
0.0
0.5
●
0.5
●
●
0.0
0.2
0.4
0.6
0.8
1.0
●
0.0
0.2
0.4
0.6
x
Régression Ridge, l=10^4
2.5
2.5
La décomposition en valeur singulière (SVD) de la matrice X donne une
nouvel éclairage sur la régression ridge, et permet de l’interpréter comme une
méthode de seuillage. La décomposition SVD de X s’écrit sous la forme :
●
●
2.0
●
2.0
1.0
●
●
●
●
1.5
●
●
●
●
X = UDV0 ,
●
y
●
●
1.0
●
●
0.0
●
0.2
0.4
0.6
x
0.8
1.0
−0.5
−0.5
0.0
0.5
●
0.5
●
0.0
Le principe de la validation croisée qui permet d’estimer sans biais une erreur de prévision est détaillé par ailleurs.
Interprétation par la SVD
x
●
1.5
0.8
Régression Ridge, l=10
●
y
(cf. figure 5) montrant l’évolution des paramètres en fonction du coefficient
ou chemins de régularisation ridge n’est pas suffisante pour déterminer une
valeur “optimale”.
●
●
●
y
F IGURE 5 – Chemin de régularisation en régression ridge en fonction du paramètre de la pénalisation. A droite, régression polynomiale et à gauche, retour
sur capital).
●
●
1.0
1.0
●
●
●
1.0
0.8
●
0.0
0.2
0.4
0.6
0.8
x
F IGURE 4 – Pénalisation ridge du modèle polynomial
1.0
où X est de taille n × p, U de taille n × n, D est une matrice "diagonale" de
taille n × p dont tous les éléments sont ≥ 0 et ordonnés par ordre décroissant,
et V est de taille p × p. De plus, les matrices U et V sont orthogonales :
UU0 = U0 U = In , VV0 = V0 V = Ip .
On a alors
0
−1 0 0
b
Xβ
Ridge = UD(D D + λIp ) D U Y.
On suppose n ≤ p. On note u(1) , . . . , u(n) les colonnes de la matrice U. En
notant d1 ≥ . . . ≥ dp ≥ 0 les éléments diagonaux de la matrice D, UD est la
15
matrice de taille n × p dont la j-ème colonne est dj u(j) . On a alors
!
p
2
X
d
j
b
(uj )0 Y.
Xβ
uj
Ridge =
2+λ
d
j
j=1
Sélection de modèle dans le cas gaussien
On voit donc que la régression ridge seuille peu les premières composantes
principales (pour lesquelles dj est grand, et davantage les dernières composantes principales).
On associe à la procédure ridge la quantité df (λ) appelée nombre de degrés de
liberté effectifs dans la régression ridge et définie par :
Comparons cet estimateur à l’estimateur des moindres carrés (qui correspond
à λ = 0) :
p
X
b=
Xβ
uj (uj )0 Y.
j=1
j 0
(u ) Y correspond à la j-ème composante de Y dans la base formée de
u1 , . . . , un .
Dans le cas de
la régression ridge, on multiplie cette composante par le facteur
d2j / d2j + λ ∈]0, 1[, on dit que cette composante est seuillée.
Remarques :
1) Plus λ est grand, plus les coefficients sont seuillés.
2) x 7→ x/(x + λ) est croissante de x pour x > 0. Les plus grands coefficients
sont peu seuillés : si d2j >> λ, d2j / d2j + λ est proche de 1. Le seuil décroit
lorsque j augmente puisque dj décroit.
On peut donner une interprétation en termes d’Analyse en composantes principales. X étant centrée, X0 X/n est la matrice de variance-covariance empirique des vecteurs qui composent la matrice X.
df (λ) =
p
X
d2j
.
+λ
d2
j=1 j
Si λ = 0, df (λ) = p (pas de seuillage), si λ → ∞, df (λ) → 0, à la limite,
tous les coefficients sont nuls.
4.2
Régression LASSO
La régression ridge permet donc de contourner les problèmes de colinéarité
même en présence d’un nombre important de variables explicatives ou prédicteurs (p > n). La principale faiblesse de cette méthode est liée aux difficultés
d’interprétation car, sans sélection, toutes les variables sont concernées dans
le modèle. D’autres approches par régularisation permettent également une sélection, c’est le cas de la régression LASSO.
Modèle et estimation
X0 X = VD0 DV0 ,
La méthode Lasso (Tibshirani, 1996)[8] correspond à la minimisation d’un
critère des moindres carrés avec une pénalité
Pde type l1 (et non plus l2 comme
où D0 D est la matrice diagonale des d2i . On note v1 , . . . , vp les vecteurs co- dans la régression ridge). On note kβk1 = pj=1 |βj |.
lonnes de Rp de la matrice V.
Soit v un vecteur de Rp de norme 1.
D ÉFINITION 3. — L’estimateur Lasso de β dans le modèle
V ar(Xv) = (Xv)0 (Xv) = v 0 (X0 X)v,
Y = Xβ + ,
ceci est maximal pour v = v1 et vaut d21 .
est défini par :
z 1 = Xv1 est la première composante principale de la matrice X.


p
p
n
Les vecteurs propres orthogonaux v 1 , . . . , v p sont les directions principales
X
X
X
(j)
b
 (Yi −
β
Xi βj )2 + λ
|βj | ,
(ou directions de Karhunen Loeve) de X. Les variables z j = Xv j sont les
Lasso = argminβ∈Rp
i=1
j=0
j=1
composantes principales. On remarque que
z j = Xv j = UDV0 v j = dj u(j) .
où λ est un paramètre positif, à choisir.
16
On peut montrer que ceci équivaut au problème de minimisation suivant :
2
b
β
Lasso = argminβ,kβk1 ≤t (kY − Xβk ),
pour un t convenablement choisi.
Sélection de modèle dans le cas gaussien
logiciel R introduit une contrainte sous forme d’une borne relative pour
PLe
p
j=1 |βj | : la contrainte s’exprime sous la forme
p
X
|βj | ≤ κ
p
X
(0)
|β̂j |,
j=1
j=1
Comme dans le cas de la régression Ridge, le paramètre λ est un paramètre
de régularisation :
où β̂ (0) est l’estimateur des moindres carrés et κ ∈ [0, 1].
• Si λ = 0, on retrouve l’estimateur des moindres carrés.
• Si λ tend vers l’infini, on annule tous les β̂j , j = 1, . . . , p.
Pour κ = 1 on retrouve l’estimateur des moindres carrés (pas de contrainte)
La solution obtenue est dite parcimonieuse (sparse en anglais), car elle com- et pour κ = 0, tous les β̂j , j ≥ 1, sont nuls (contrainte maximale).
porte beaucoup de coefficients nuls. Si la matrice X est orthogonale (X0 X =
Utilisation de la régression Lasso
Id), on obtient une solution explicite.
La pénalisation est optimisée comme en régression ridge par validation croiP ROPOSITION 4. — Si X0 X = Ip , la solution de la minimisation en β du sée.
critère Lasso
Grâce à ses solutions parcimonieuses, cette méthode est surtout utilisée pour
kY − Xβk2 + 2λkβk1
sélectionner des variables dans des modèles de grande dimension ; on peut
l’utiliser si p > n c’est-à-dire s’il y a plus de variables que d’observations. Bien
est la suivante : pour tout j = 1, . . . , p,
entendu, dans ce cas, les colonnes de la matrice X ne sont pas linéairement
indépendantes. Il n’y a donc pas de solution explicite, on utilise des procédures
βj = signe(βbj )(|βbj | − λ)1|βbj |≥λ ,
d’optimisation pour trouver la solution. Il faut néanmoins utiliser la méthode
avec précaution lorsque les variables explicatives sont corrélées. Pour que la
0
b
b
où β est l’estimateur des moindres carrés : β = X Y.
méthode fonctionne, il faut néanmoins que le nombre de variables influentes
(correspondant à des βj différents de 0) ne dépasse pas n et que les variables
L’estimateur ainsi obtenu correspond à un seuillage doux (soft thresholding) non influentes ne soient pas trop corrélées à celles qui le sont.
de l’estimateur des moindres carrés. Les coefficients βbj sont remplacés par
Attention aux grandes ou “ultra grandes” dimensions : Verzalen (2012)[9] a
φλ (βbj ) où
montré (risque minimax) que si
φλ : x 7→ signe(x)(|x| − λ)+ .
k
p
1
log( ) >
Autre pénalisation
n
k
2
La méthode LASSO équivaut à minimiser le critère
où k est le nombre de coefficients non nuls, aucune méthode d’estimation et
n
de sélection de variables n’est pertinente. Exemples en analyse de données
X
(1)
(2)
(p)
Crit(β) =
(Yi − β0 − β1 Xi − β2 Xi − . . . − βp Xi )2
transcriptomiques :
k
i=1
• p = 5000 gènes et n = 40 microarrays, k = 4, n
log( kp ) = 0.71,
k
Pp
• p = 600 gènes et n = 40 microarrays, k = 4, n log( kp ) = 0.50.
sous la contrainte j=1 |βj | ≤ t, pour un t > 0.
17
4.3
Sélection de modèle dans le cas gaussien
Elastic Net
ont été retenus pour le nombre important de pics de pollution qui ont été détectés dans les périodes considérées (étés 2002, 2003, 2005). Un pic de polLa méthode Elastic Net permet de combiner la régression ridge et la régres- lution est défini ici par une concentration dépassant le seuil de 150µg/m3 .
sion Lasso, en introduisant les deux types de pénalités simultanément.
Météo-France dispose déjà d’une prévision (MOCAGE), à partir d’um modèle
Le critère à minimiser est :
physique basé sur les équations du comportement dynamique de l’atmosphère
(Navier et Stockes). Cette prévision fait partie du dispositif d’alerte des poun
X
(1)
(2)
(p) 2
voirs publics et prévoit donc une concentration de pollution à 17h locale pour
(Yi − β0 − β1 Xi − β2 Xi − . . . − βp Xi )
le lendemain. L’objet du travail est d’en faire une évaluation statistique puis
i=1


de l’améliorer en tenant compte d’autres variables ou plutôt d’autres prévip
p
X
X
2
sions faites par Météo-France. Il s’agit donc d’intégrer ces informations dans

+λ α
|βj | + (1 − α)
βj
un modèle statistique global.
j=1
j=1
• Pour α = 1, on retrouve la méthode LASSO.
• Pour α = 0, on retrouve la régression Ridge.
Il ya dans ce dernier cas deux paramètres à optimiser par validation croisée.
4.4
Sélection par réduction de dimension
Le principe de ces approches consiste à calculer la régression sur un ensemble de variables orthogonales deux à deux. celles-ci peuvent être obtenues
à la suite d’une analyse en composantes principales ou décomposition en valeur singulière de la matrice X : C’est la régression sur les composantes principales associées aux plus grandes valeurs propres.
Les variables
Certaines variables de concentration ont été transformées afin de rendre symétrique (plus gaussienne) leur distribution.
O3-o Concentration d’ozone effectivement observée ou variable à prédire,
03-pr prévision "mocage" qui sert de variable explicative ;
Tempe Température prévue pour le lendemain,
vmodule Force du vent prévue pour le lendemain,
lno Logarithme de la concentration observée en monoxyde d’azote,
lno2 Logarithme de la concentration observée en dioxyde d’azote,
L’autre approche ou régression PLS (partial least square consiste à recher- rmh20 Racine de la concentration en vapeur d’eau,
cher itérativement une composante linéaire des variables de plus forte cova- Jour Variable à deux modalités pour distinguer les jours "ouvrables" (0) des
riance avec la variable à expliquer sous une contrainte d’orthogonalité avec les
jours "fériés-WE" (1).
composantes précédentes.
Station Une variable qualitative indique la station concernée : Aix-enCe deux méthodes sont développées dans une vignette spécifique.
Provence, Rambouillet, Munchhausen, Cadarache, et Plan de Cuques.
5
Exemples
Modèle physique
Les graphiques de la figure 6 représente la première prévision de la concentration d’ozone observée, ainsi que ses résidus, c’est-à-dire celle obtenue par
le modèle physique MOCAGE. Ces graphes témoignent de la mauvaise quaLes données
lité de ce modèle : les résidus ne sont pas répartis de façon symétrique et les
Les données proviennent des services de Météo-France et s’intéresse à la deux nuages présentent une légère forme de "banane" signifiant que des comprévision de la concentration en Ozone dans 5 stations de mesure ; ces sites posantes non linéaires du modèle n’ont pas été prises en compte. D’autre part,
5.1
Prévision de la concentration d’ozone
18
50
100
200
Valeurs predites
300
50.69567
1.85389
3.37517
3.07893
3.74155
3.05338
0.23170
2.680 0.00747 **
-0.186 0.85215
2.687 0.00733 **
4.650 3.76e-06 ***
5.759 1.12e-08 ***
2.247 0.02484 *
20.074 < 2e-16 ***
Residual standard error: 27.29 on 1028 degrees of freedom
Multiple R-Squared: 0.5616,
Adjusted R-squared: 0.5569
F-statistic: 119.7 on 11 and 1028 DF, p-value: < 2.2e-16
−100 −50
0
135.88280
-0.34561
9.06874
14.31603
21.54765
6.86130
4.65120
0
Résidus
50
250
150
50
0
Valeurs observees
100
s_rmh2o
jour1
stationAls
stationCad
stationPla
stationRam
TEMPE
Sélection de modèle dans le cas gaussien
0
50
100
200
300
Valeurs predites
A l’exception de la variable indiquant la nature du jour, l’ensemble des coefficients sont jugés significativement différent de zéro mais la qualité de l’ajustement est faible (R2 ).
F IGURE 6 – Ozone : prévision et résidus du modèle MOCAGE de Météo- Modèle avec interaction
France pour 5 stations.
La qualité d’ajustement du modèle précédent n’étant pas très bonne, un autre
modèle est considéré en prenant en compte les interactions d’ordre 2 entre les
la forme d’entonnoir des résidus montrent une forte hétéroscédasticité. Cela variables. Compte tenu de la complexité du modèle qui un découle, un choix
signifie que la variance des résidus et donc des prévisions croît avec la valeur. automatique est lancé par élimination successive des termes non significatifs
En d’autre terme, la qualité de la prévision se dégrade pour les concentrations (algorithme backward). Le critère optimisé est celui (AIC) d’Akaïke. Plusieurs
élevées justement dans la zone "sensible".
interactions ont été éliminées au cours de la procédure mais beaucoup subsistent dans le modèle. Attention, les effets principaux lno2, vmodule ne
Modèle sans interaction
peuvent être retirés car ces variables apparaissent dans une interaction. En reUn premier modèle est estimé avec R :
vanche on peut s’interroger sur l’opportunité de conserver celle entre la force
du vent et la concentration de dioxyde d’azote.
fit.lm=lm(O3-o~O3-pr+vmodule+lno2+lno+s-rmh2o+
jour+station+TEMPE,data=donne)
Il introduit l’ensemble des variables explicatives mais sans interaction. Les
résultats numériques sont fournis ci-dessous.
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) -4.99738
7.87028 -0.635 0.52559
O3_pr
0.62039
0.05255 11.805 < 2e-16 ***
vmodule
-1.73179
0.35411 -4.891 1.17e-06 ***
lno2
-48.17248
6.19632 -7.774 1.83e-14 ***
lno
50.95171
5.98541
8.513 < 2e-16 ***
NULL
O3_pr
station
vmodule
lno2
s_rmh2o
TEMPE
O3_pr:station
O3_pr:vmodule
O3_pr:TEMPE
station:vmodule
station:lno2
station:s_rmh2o
station:TEMPE
vmodule:lno2
vmodule:s_rmh2o
lno2:TEMPE
s_rmh2o:TEMPE
Df Deviance Resid. Df Resid. Dev
F
Pr(>F)
1039
1745605
1
611680
1038
1133925 969.9171 < 2.2e-16 ***
4
39250
1034
1094674 15.5594 2.339e-12 ***
1
1151
1033
1093523
1.8252 0.1769957
1
945
1032
1092578
1.4992 0.2210886
1
24248
1031
1068330 38.4485 8.200e-10 ***
1
248891
1030
819439 394.6568 < 2.2e-16 ***
4
16911
1026
802528
6.7038 2.520e-05 ***
1
8554
1025
793974 13.5642 0.0002428 ***
1
41129
1024
752845 65.2160 1.912e-15 ***
4
7693
1020
745152
3.0497 0.0163595 *
4
12780
1016
732372
5.0660 0.0004811 ***
4
19865
1012
712508
7.8746 2.997e-06 ***
4
27612
1008
684896 10.9458 1.086e-08 ***
1
1615
1007
683280
2.5616 0.1098033
1
2407
1006
680873
3.8163 0.0510351 .
1
4717
1005
676156
7.4794 0.0063507 **
1
42982
1004
633175 68.1543 4.725e-16 ***
19
Sélection de modèle dans le cas gaussien
100
50
−100 −50
0
Résidus
0
−100 −50
Résidus
50
100
Les données
0
50
100
200
300
0
Valeurs predites
50
100
200
300
Les données originales sont dues à Osbone et al. (1984) [6] et ont été souvent utilisées pour la comparaison de méthodes (Stone et al. 1990 [7], Brown
et al. 2001 [1], Krämer et al. 2008 [4]). Elles sont accessibles dans R au sein de
la librairie ppls. Les mesures ont été faites sur deux échantillons, l’un de taille
40 prévu pour l’apprentissage, l’autre de taille 32 pour les tests. Pour chacun
de ces 72 biscuits, les compositions en lipides, sucre, farine, eau, sont mesurées par une approche classique tandis que le spectre est observé sur toutes les
longueurs d’ondes entre 1100 et 2498 nanomètres, régulièrement espacés de 2
nanomètres. Nous avons donc 700 valeurs observées, ou variables potentiellement explicatives, par échantillon de pâte à biscuit.
Valeurs predites
Résultats par régression pénalisée
F IGURE 7 – Ozone : Résidus des modèles linéaire et quadratique.
Typiquement, cette étude se déroule dans un contexte de très grande dimension avec p >> n. L’étude détaillée de ces données fait l’objet d’un scénario
avec le logiciel R.
Ce sont surtout les graphes de la figure 7 qui renseignent sur l’adéquation des
Voici quelques résultats partiels concernant les méthodes de régression par
modèles. Le modèle quadratique fournit une forme plus "linéaire" des résidus régression ridge et régression LASSO. La comparaison globale des résultats
et un meilleur ajustement avec un R2 de 0,64 mais l’hétéroscédasticité reste des différentes approches de modélisation est reportée en conclusion.
présente, d’autres approches s’avèrent nécessaires afin de réduire la variance
liée à la prévision des concentrations élevées.
Références
5.2
Données de spectrométrie NIR
Objectif
Ce type de problème se rencontre en contrôle de qualité sur une chaîne
de fabrication agroalimentaire, ici des biscuits (cookies). Il est nécessaire de
contrôler le mélange des ingrédients avant cuisson afin de s’assurer que les
proportions en lipides, sucre, farine, eau, sont bien respectées. Il s’agit de savoir s’il est possible de dépister au plus tôt une dérive afin d’intervenir sur
les équipements concernés. Les mesures et analyses, faites dans un laboratoire
classique de chimie, sont relativement longues et coûteuses ; elles ne peuvent
être entreprises pour un suivi régulier ou même en continue de la production.
Dans ce contexte, un spectromètre en proche infrarouge (NIR) mesure l’absorbance c’est-à-dire les spectres dans les longueurs d’ondes afin de construire un
modèle de prévision de la concentration en sucre.
[1] P.J. Brown, T. Fearn et M. Vannucci, Bayesian Wavelet Regression on
Curves with Applications to a Spectroscopic Calibration Problem, Journal of the American Statistical Society 96 (2001), 398–408.
[2] G. M. Furnival et R. W. Wilson, Regression by leaps and bounds, Technometrics 16 (1974), 499–511.
[3] J.D. Jobson, Applied Multivariate Data Analysis, t. I : Regression and experimental design, Springer-Verlag, 1991.
[4] Nicole Krämer, Anne Laure Boulesteix et Gerhard Tutz, Penalized Partial
Least Squares with applications to B-spline transformations and functional data, Chemometrics and Intelligent Laboratory Systems 94 (2008),
60–69.
[5] C.L. Mallows, Some Comments on Cp, Technometrics 15 (1973), 661–
675.
20
Sélection de modèle dans le cas gaussien
[6] B. G. Osborne, T. Fearn, A. R. Miller et S. Douglas, Application of Near
Infrared Reflectance spectroscopy to the compositional analysis of biscuits
and biscuit doughs, J. Sci. Food Agric. 35 (1984), 99–105.
[7] M. Stone et R. J. Brooks, Continuum regression : cross-validated sequentially constructed prediction embracing ordinary least squares, partial
least squares and principal components regression, Journal of The Royal
Statistical Society B 52 (1990), 237–269.
[8] R. Tibshirani, Regression shrinkage and selection via the lasso, J. Royal.
Statist. Soc B 58 (1996), 267–288.
[9] Nicolas Verzelen, Minimax risks for sparse regressions : Ultra-highdimensional phenomenons, Electron. J. Statistics 6 (2012), 38–90, http:
//arxiv.org/pdf/1008.0526.pdf.
F IGURE 8 – Cookies : Régression ridge ; chemin de régularisation des paramètres et optimisation de la pénalisation.
F IGURE 9 – Cookies : Régression lasso ; chemin de régularisation des paramètres et optimisation de la pénalisation.