Université Paris 7- Denis Diderot Notes de cours pour le Module

Transcription

Université Paris 7- Denis Diderot Notes de cours pour le Module
1
Université Paris 7- Denis Diderot
Notes de cours pour
le Module
DATA MINING
Dominique Picard
1
1. Copyright @ 2009 Universite Paris-Diderot Dominique Picard
2
Table des matières
1 Introduction aux modèles de régression
2
5
Modèle de régression linéaire
2.1 Description du modèle . . . . . . . . . . . . . . . . . . . . . .
2.1.1 Exemples . . . . . . . . . . . . . . . . . . . . . . . . .
2.2 Méthode des Moindres Carrés Ordinaires . . . . . . . . . . . .
2.3 Estimation de β . . . . . . . . . . . . . . . . . . . . . . . . . .
2.3.1 Interprétation géométrique . . . . . . . . . . . . . . . .
2.3.2 Calcul récursif, Méthode de Gram Schmidt . . . . . .
2.4 Lois des estimateurs. Estimation de σ 2 . . . . . . . . . . . . . .
2.5 Théorème de Gauss Markov et Moindres Carrés pondérés. . .
2.6 Etude du modèle ajusté : estimation et tests . . . . . . . . . .
2.6.1 Intervalles de confiance pour a∗ β et σ 2 . . . . . . . . .
2.6.2 σ 2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
2.6.3 Test d’une sous hypothèse linéaire. . . . . . . . . . . .
2.6.4 Résolution . . . . . . . . . . . . . . . . . . . . . . . . .
2.6.5 Calcul pratique de F . . . . . . . . . . . . . . . . . . .
2.6.6 Version ’RSS’ de ce test . . . . . . . . . . . . . . . . .
2.7 Exemples :Etude du modèle ajusté en pratique . . . . . . . . .
2.7.1 Significativité globale : le test dit du R2 . . . . . . . .
2.7.2 Etude de la validité du modèle : Tests non paramétrique
sur les résidus . . . . . . . . . . . . . . . . . . . . . .
2.7.3 Significativité de chacune des variables explicatives . .
2.8 Multi-colinéarité . . . . . . . . . . . . . . . . . . . . . . . . .
2.8.1 Diagnostics . . . . . . . . . . . . . . . . . . . . . . . .
2.8.2 Modèles curvilinéaires . . . . . . . . . . . . . . . . . .
2.9 Sélection de variables et Choix de modèles . . . . . . . . . . .
2.9.1 Statistique de Fisher : . . . . . . . . . . . . . . . . . .
2.9.2 Critères de choix : AIC, BIC, Cp . . . . . . . . . . . .
2.9.3 Algorithmes de sélection . . . . . . . . . . . . . . . . .
2.10 Théorèmes de Student et de Cochran . . . . . . . . . . . . . .
3 Régression non paramétrique
3.1 Modèle . . . . . . . . . . . . . .
3.2 Réduction à un modèle linéaire
3.2.1 Base polynomiale . . . .
3.2.2 Base trigonométrique . .
3
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
7
7
8
9
9
10
12
13
14
17
17
18
18
19
20
20
21
21
.
.
.
.
.
.
.
.
.
.
22
23
24
24
25
25
25
26
27
27
.
.
.
.
31
31
31
32
32
4
TABLE DES MATIÈRES
3.3
3.4
3.5
3.6
3.2.3 Base de Haar . . . . . . . . .
3.2.4 Base d’ondelettes . . . . . . .
Estimation de f par projection . . .
3.3.1 Dans la base trigonométrique
3.3.2 Dans la base de Haar . . . . .
Calcul de l’erreur . . . . . . . . . . .
3.4.1 Base de Fourier . . . . . . . .
3.4.2 Base d’ondelettes . . . . . . .
Optimalité . . . . . . . . . . . . . . .
Méthode des noyaux . . . . . . . . .
3.6.1 Choix de la fenêtre . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
4 p grand, Sparsités
4.1 Evaluation de la prédiction . . . . . . . . . . . . . . . . . . . .
4.2 Le cas orthonormal : n1 X ∗ X = Ip . . . . . . . . . . . . . . . .
4.3 Contraintes de sparsité de type ellipsoidales . . . . . . . . . .
4.4 Cadre ’minimax’ . . . . . . . . . . . . . . . . . . . . . . . . .
4.5 Résolution minimax sous contrainte de sparsité ellipsoidale, cas
orthonormal . . . . . . . . . . . . . . . . . . . . . . . . . . . .
4.5.1 Le cas diagonal décroissant . . . . . . . . . . . . . . . .
4.5.2 Cadre asymptotique . . . . . . . . . . . . . . . . . . .
4.6 Contrainte de type sparsité lq , et lq,∞ , Classes de Lorentz . . .
4.6.1 Lien avec la contrainte de sparsité ellipsoidale . . . . .
4.6.2 Minimax : bornes inférieures sur les espaces de types lp ,
et lq,∞ . . . . . . . . . . . . . . . . . . . . . . . . . . .
.
.
.
.
.
.
.
.
.
.
.
33
33
33
34
34
35
35
37
38
39
40
.
.
.
.
41
41
42
42
43
.
.
.
.
.
43
44
45
45
47
. 48
5 Méthodes d’estimations parcimonieuses
51
5.1 Seuillage . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51
5.1.1 Quasi minimax optimalité : cas orthonormal homoscédastique 51
5.2 Hors orthonormalité : Ridge regression . . . . . . . . . . . . . . 53
5.2.1 Ridge regression, interprétation Bayesienne . . . . . . . . 54
5.2.2 ACP et Ridge . . . . . . . . . . . . . . . . . . . . . . . . 55
Chapitre 1
Introduction aux modèles de
régression
1
Une première citation de H.G. Wells (1866-1946) : ’Statistical
thinking will one day be as necessary for efficient citizenship as the
ability to read and write.’
Une deuxième citation de Hal Varian, The McKinsey Quarterly,
January 2009 : “I keep saying the sexy job in the next ten years will
be statisticians. ”
Je remercie Karine Tribouley pour m’avoir communiqué son cours à Paris
X Nanterre. Je lui ai emprunté certaines parties.
Le modèle de régression est probablement le modèle le plus vaste et le plus
utilisé et étudié (encore maintenant des milliers d’articles paraissent dans des
revues mathématiques chaque année sur le sujet) en statistique.
Il consiste à proposer une modélisation dans le cas de figure suivant. Pour
employer un vocabulaire d’économiste, on dispose d’une variable endogène ou
expliquée que l’on note généralement Y et d’un certain nombre p de variables
exogènes ou explicatives que l’on note généralement X 1 , . . . , X p . Les variables
X j pour j = 1, . . . , p apparaissant comme les causes d’un phénomème et la
variable Y comme une conséquence, on a envie d’écrire qu’il existe une relation
fonctionnelle entre la variable Y et les variables X j pour j = 1, . . . , p soit
Y = f (X 1 , . . . , X p )
pour une certaine fonction f sur laquelle on veut avoir des informations.
Le but de ce cours est d’étudier les principales méthodes d’estimation de
cette fonction f lorsqu’on dispose de n données sur les variables Y, X 1 , . . . , X p .
Nous serons amenés à distinguer le cas où p < n du cas où p >> n, plus
difficile mais aussi très important dans le cadre actuel marqué plutot par la
surabondance des données.
1. Copyright @ 2009 Universite Paris-Diderot Dominique Picard
5
6
CHAPITRE 1. INTRODUCTION AUX MODÈLES DE RÉGRESSION
Suivant les hypothèses que l’on est pret à faire a priori, plusieurs méthodes
seront envisagées. En particulier nous envisagerons plusieurs types de modèles.
– le modèle linéaire : f est supposée être une fonction linéaire. On s’intéresse
à des variables X j quantitatives.
– L’ANOVA ou le modèle logistique : f est supposée être linéaire. On
s’intéresse à des variables X j qualitatives ou catégorielles.
– le modèle de classification où les variables X j sont quantitatives et où la
variable Y est qualitative.
– le modèle paramétrique : f est supposée dépendre d’un paramètre θ
inconnu. Mais la forme f := fθ est connue.
– le modèle non paramétrique : f est supposée être complêtement inconnue.
Cependant, on suppose qu’elle admet une certaine régularité.
Ces modèles sont très utilisés dans la pratique et dans de nombreux domaines. Donnons quelques exemples.
– Dans le domaine de l’économie : En vue d’une politique de relance par
la consommation, on veut connaitre l’influence du revenu sur la consommation. Soit R le revenu d’un ménage et C sa consommation. L’INSEE
modélise généralement la relation entre R et C par un modèle linéaire
R = a + bC.
Le paramètre a représente la consommation incompressible d’un ménage
(même sans revenu) et le paramètre b est appelé la propension marginale à consommer. Une estimation de b proposée par l’INSEE est
environ 0.8.
– Dans le domaine de la biomédecine : On veut évaluer le risque d’apparition d’un cancer selon que la personne a été (ou non) exposée au
tabac. La variable explicative est ici X qui prend 2 valeurs (”Fumeur”
ou ”NonFumeur”) et la variable à expliquer est Y qui est une probabilité
de risque (valeur comprise entre 0 et 1). On propose comme modèle
Logit(Y ) = a + bX.
– Dans le domaine de l’environnement : il s’agit de prévoir la concentration
d’ozone à partir des variables suivantes : force du vent, température et
concentration d’oxyde d’azote. La forme particulière de la fonction fθ
est donnée par des physiciens qui utilisent des équations provenant de la
mécanique des fluides.
– En signal : On enregistre un concert. On discrétise le signal en échantillonnant
toutes les secondes. On note Yi le signal recu au temps i. Ce signal est
fonction du temps et on modélise par
Yi = f (i) + i
où i contient tous les ”bruits” enregistrés mais indésirables (les toux des
gens, le bruit de la ventilation, ect..).
Chapitre 2
Modèle de régression linéaire
1
Ce modèle de régression est le plus utilisé et le mieux connu de toutes les
personnes traitant des données dans des domaines divers.
2.1
Description du modèle
Soit Y la variable que l’on veut expliquer grâce aux p variables explicatives
X , . . . X p . On note X la matrice n×p qui contient les échantillons des variables
X j pour j = 1, . . . p :
X = Xij 1≤i≤n,1≤j≤p .
1
La modélisation dite de régression linéaire multiple est la suivante
Yi = β1 Xi1 + . . . + βp Xip + i ,
1≤i≤n
ce qui est équivalent, en écriture matricielle à
Y
=
X
β
+
(n, 1)
(n, p) (p, 1)
(n, 1)
(2.1)
avec :
1. β est un paramètre de Rp inconnu et non aléatoire.
2. on impose au vecteur aléatoire de RN :
– centrage : E() = 0n .
– indépendance et homoscédasticité : notons Σ la matrice de variancecovariance de . Alors Σ = σ 2 Idn pour σ 2 > 0 inconnu, déterministe.
On ne connait pas forcément la loi de . On appelle l’erreur ou la
perturbation.
Remarquons qu’en géneral, la constante 1n de Rn fait partie des régresseurs
(par défaut dans les logiciels). Le modèle est dit linéaire car il est linéaire en
les paramètres βj pour j = 1, . . . , p.
La plupart du temps dans ce cours, nous ferons l’hypothèse que les εi sont
i.i.d. de loi normale N (0, σ 2 ).
Une fois la modélisation choisie, il s’agit d’estimer les paramètres inconnus
β, σ 2 du modèle (il y en a donc p + 1 au total).
1. Copyright @ 2009 Universite Paris-Diderot Dominique Picard
7
8
CHAPITRE 2. MODÈLE DE RÉGRESSION LINÉAIRE
2.1.1
Exemples
1. Comparaison de 2 populations de même variance : On dispose de 2
0
échantillons Z1 , . . . , Zm i.i.d. N (µ1 , σ 2 ) et Z10 , . . . , Zm
i.i.d. N (µ2 , σ 2 ). On
les concatène pour former le vecteur
0 ∗
Y = (Z1 , . . . , Zn , Z10 , . . . , Xm
) = (Y1 , . . . , Ym+n )∗
Si on considère la matrice X de taille n × 2, telle que
1
1
X11 = . . . = Xn1 = 1, Xn+1
= . . . = Xn+m
=0
2
2
X12 = . . . = Xn2 = 0, Xn+1
= . . . = Xn+m
=1
et le vecteur β = (µ1 , µ2 )∗ , il est facile de mettre notre modèle sous la
forme (2.1).
2. Droite de régression. Supposons que l’on sache par des arguments théoriques
( agronomiques, biologiques, économiques, physiques,...) que 2 quantités
x (par exemple le temps) et y (par exemple la taille d’un animal) sont
liées par une équation affine de la forme y = ax + b, dont on veut identifier les coefficients a et b. Une façon de procéder est de mesurer yi pour
différentes valeurs de xi (appelée variable contrôlée ) et de modèliser
les erreurs par des N (0, σ 2 ) indépendantes. On a alors la représentation
(2.1), avec
X11 = x1 , . . . , Xn1 = xn ,
X12 = . . . = Xn2 = 1,
β
= (a, b)∗
Cet exemple peut se généraliser en remplaçant la relation affine par une
relation de la forme :
p
X
y=
βj fj (x)
j=0
Une régression polynomiale s’obtient par exemple en prenant
f0 = 1, f1 (x) = x, . . . , fp (x) = xp
3. On appelle Analyse de la variance (Anova) le cas où la matrice X est
uniquement constituée de 1 et de 0.
Donnons un exemple : Dans des conditions de culture de référence (0),
une variété de blé a un rendement moyen de µ. On la soumet, dans des
parcelles expérimentales à un traitement à 2 facteurs :
1er facteur (par exemple, un engrais) auquel, outre le niveau 0 de référence,
on donne 2 niveaux, notés 1 et 2 (par exemple, 2 doses différentes d’engrais).
2eme facteur (par exemple, un niveau d’ensoleillement) auquel on donne
soit le niveau de référence 0 soit le niveau 1.
2.2. MÉTHODE DES MOINDRES CARRÉS ORDINAIRES
9
Le modèle de base choisi est le suivant :
y = µ + αi + βj
Il est dit additif : Le effets des facteurs s’ajoutent simplement sans interférences. αi représente l’effet du 1er facteur au niveau i = 0, 1, 2, βj
représente l’effet du 2eme facteur au niveau j = 0, 1. α0 = β0 = 0. Le
terme additif signifie que les effets des 2 facteurs s’ajoutent. Il est clair
qu’on aurait pu aussi rajouter “une interaction” de la forme γij , mais
par souci de simplicité, nous ne l’avons pas fait ici.
Le but est d’obtenir des informations (estimation ou test) sur les αi et
les βj . Pour cela, on réalise une expérimentation : On divise un champs
en parcelles numérotées (6, dans l’exemple qui suit). Sur chaque parcelle,
on applique les facteurs à un niveau prescrit. La description des niveux
affectés aux parcelles s’appelle le plan de l’expérience. Ici, il est donné
par le tableau suivant.
Parcelle 1 2 3 4
Facteur 1 0 1 2 0
Facteur 2 0 0 0 0
5 6
1 0
0 1
Si l’on suppose que l’on modèlise le rendement sur chaque parcelle par un
effet de type (3) auquel s’ajoute une erreur N (0, σ 2 ), et si l’on suppose
les erreurs indépendantes, on obtient une équation du type Y = Xβ + ε,
où Y est le vecteur des rendements, ε est le vecteur des erreurs, β =
(µ, α1 , α2 , β1 )∗ et X est la matrice suivante


1 0 0 0
 1 1 0 0 


 1 0 1 0 


X=

1
0
0
0


 1 1 0 0 
1 0 0 1
2.2
Méthode des Moindres Carrés Ordinaires
2.3
Estimation de β
Nous allons utiliser ici la méthode dite des moindres carrés : Pour cela, on
introduit la fonction,
n
X
γ(β, Y ) =
(Yi − (Xβ)i )2
i=1
Cette fonction mesure la distance dans Rn entre le vecteur Y et sa prédiction
par Xβ. Il est relativement naturel de choisir comme estimateur de β, un point
β̂ rendant cette quantité minimum.
β̂ = Argmin{γ(β, Y ); β ∈ Rp }
10
2.3.1
CHAPITRE 2. MODÈLE DE RÉGRESSION LINÉAIRE
Interprétation géométrique
Si β parcourt Rp , Xβ parcourt l’espace vectoriel V engendré, dans Rn , par
les colonnes de la matrice X :
V = X(Rp ) ⊂ Rn
Comme γ(β, Y ) = kY − Xβk2 , nécessairement X β̂, existe, est unique puisque
c’est la projection sur V de Y , X β̂ = ProjV (Y ). On en déduit que β̂ existe
aussi toujours, mais n’est unique que si X est injectif.
Proposition 1 Si p ≤ n, la matrice X, de dimension n × p est injective si et
seulement si X ∗ X est inversible.
Démonstration de la Proposition.
Il sufit de démontrer que ker(X) = ker(X ∗ X). Il est clair que ker(X) ⊂
ker(X ∗ X). Maintenant, soit u ∈ ker(X ∗ X), on a X ∗ Xu = 0, d’où u∗ X ∗ Xu =
0, i.e. kXuk2 = 0 =⇒ Xu = 0 =⇒ u ∈ ker X.
Résolution algébrique
X β̂ = ProjV (Y ) ⇐⇒ hY − X β̂, Xbi = 0,
⇐⇒ b∗ X ∗ Y = b∗ X ∗ X β̂,
⇐⇒ X ∗ Y = X ∗ X β̂
∀b ∈ Rp
∀b ∈ Rp
D’oú, en utilisant la proposition si X est injective,
β̂ = (X ∗ X)−1 X ∗ Y
Remarque : Si X ∗ X n’est pas inversible, on n’a pas unicité de β̂, mais existence.
Donnons une solution, utilisant la pseudoinverse : X ∗ X étant une matrice
symétrique, positive, elle s’écrit M ∗ DM avec M matrice orthogonale et D
est une matrice diagonale, dont les coefficients diagonaux sont notés ri2 . On
suppose ri2 > 0, ∀i = 1, . . . , k, ri2 = 0, ∀i ≥ k + 1. Appelons pseudoinverse de
X ∗ X la matrice

 1
... ... 0 0 0
r12


...


1


(X ∗ X)(−1∗) = M ∗  0 . . . rk2 . . . 0 0  M


..


.
0
...
0
... 0 0
Notons que si X ∗ X est inversible, alors pseudoinverse et inverse coincident.
On vérifie facilement que
β̂ = (X ∗ X)(−1∗) X ∗ Y
est une solution de notre problème, et que l’opérateur de projection sur V est
donné par :
X β̂ = X(X ∗ X)(−1∗) X ∗ Y = ProjV (Y )
2.3. ESTIMATION DE β
11
4
Rappelons que si V ⊥ est le supplémentaire orthogonal de V ,
ProjV ⊥ (Y ) = Y − ProjV (Y ) = [In − ProjV ](Y ) = [In − X(X ∗ X)−1 X ∗ ]Y
Définition 1 On appelle vecteur des résidus, le vecteur
ε̂ = [In − X(X ∗ X)−1 X ∗ ]Y.
Il représente l’erreur de prédiction. Le carré de sa norme s’appelle l’erreur
quadratique.
Exemples :
1. Dans le cas élémentaire suivant :
Y i = µ + εi
l’estimateur
des moindres carrés se calcule facilement et vaut Ȳn =
Pn
i=1 Yi
.
n
2. Dans le cas d’une régression linéaire, nous avons vu que β = (a, b)∗ et


x1 1


X =  ... ... 
xn 1
De sorte que
Pn 2 Pn
xi
xi
i=1
i=1
P
X X=
n
n
i=1 xi
∗
Dans ce cas, un changement de paramètres
peut rendre les choses plus
Pn
i=1 xi
aisées : En effet, si on introduit x̄n = n , le modèle s’ecrit :
Yi = azi + b0 + εi , zi = xi − x̄n , b0 = b + x̄n
P
P
et clairement minimiser ni=1 (Yi −azi +b0 )2 équivaut à minimiser ni=1 (Yi −
axi + b)2 , avec la relation suivante b̂0 = b̂ + âx̄n . L’équation (2) introduit
un nouveau modèle linéaire dont la matrice X 0 s’écrit :
Pn 2
zi 0
0∗ 0
i=1
X X =
0
n
P
Cette matrice est inversible si et seulement si ni=1 zi2 6= 0, c’est à dire si
les xi ne sont pas tous égaux. Dans ce cas, on obtient facilement :
Pn
(xi − x̄n )Yi
â = Pi=1
, b̂ = Ȳn + âx̄n
n
2
i=1 (xi − x̄n )
12
CHAPITRE 2. MODÈLE DE RÉGRESSION LINÉAIRE
3. Considérons maintenant la régression périodique suivante :
i
i
Yi = a0 + a1 cos(2π ) + a2 sin(2π ) + εi , i = 1, . . . , n
n
n
On vérifie que en utilisant les relations sur les racines de l’unité que X ∗ X
se met sous la forme suivante :
 


Pn
Pn
i
i
)
sin(2π
)
n
0
0
n
cos(2π
i=1
i=1
n
n
P
Pn
Pn
i
i 2
 ni=1 cos(2π i )
) sin(2π ni )  =  0 n2 0 
i=1
i=1 cos(2π n )
n
n
Pn
P
Pcos(2π
n
n
i
i
i
i 2
0 0 n2
i=1 sin(2π n )
i=1 cos(2π n ) sin(2π n )
i=1 sin(2π n )
On en déduit que
â0 = Ȳn , â1 =
n
X
i=1
n
X
i
i
sin(2π )Yi
cos(2π )Yi , â2 =
n
n
i=1
4
2.3.2
Calcul récursif, Méthode de Gram Schmidt
Nous proposons ici une méthode pour calculer β̂ de façon récursive. Appelons X j la colonne numéro j de la matrice X pour 1 ≤ j ≤ p.
Considérons le cas suivant dans lequel les MCO sont particulièrement faciles
à calculer : Supposons que les colonnes de X soient orthogonales (i.e. X t X
est une matrice diagonale
P dont les coeficients diagonaux sont les carrés des
normes des colonnes : ni=1 [Xij ]2 = hX j , X j i. Dans ce cas, les coefficients β̂j
valent simplement :
hX j , Y i
β̂j =
hX j , X j i
Rappelons nous maintenant le procédé d’orthonormalisation de Gram Schmidt
qui pour des vecteurs quelconques u1 , . . . , uk (tels que l’espace engendré par ces
vecteurs (sp {u1 , . . . , uk }) soit de dimension k) introduit les vecteurs v1 , . . . , vk
qui sont orthogonaux et vérifient sp {u1 , . . . , ul } = sp {v1 , . . . , vl }, pour tout
1 ≤ l ≤ k. Ce procédé consiste simplement à construire les vl sous la forme
suivante : v1 = u1 ,
v` = u` − Pv`−1 u` − . . . − Pv1 u` ,
` ≥ 2.
(Pvj désigne la projection sur le vecteur vj ).
Remarquons que pour 1 ≤ j ≤ ` − 1,
Pvj u` =
hvj , u` i
.
hvj , vj i
De plus comme les vj sont orthogonaux, Pv`−1 u` +. . .+Pv1 u` est la projection de
u` sur l’espace sp{v1 , . . . , v`−1 }. Donc vl est en fait le ’résidu’ de la projection
de la projection de u` sur l’espace sp{v1 , . . . , v`−1 }.
Considérons maintenant, dans le cas p ≤ n et où la matrice X est de rang
p, l’algorithme suivant :
2.4. LOIS DES ESTIMATEURS. ESTIMATION DE σ 2 .
13
– Initialisation : Z 1 = X 1
– Pour l = 2 jusqu’à p calculer : Z l le résidu de la projection de X l sur
Z l−1 , . . . , Z 1 , i.e.
hZ l−1 , X l i l−1
hZ 1 , X l i 1
Z = X − l−1 l−1 Z − . . . − 1 1 Z .
hZ , Z i
hZ , Z i
l
l
Montrer qu’alors
β̂p =
hZ p , Y i
.
hZ p , Z p i
En changeant l’ordre des colonnes de la matrice X, on peut s’arranger pour
faire apparaitre X j en dernier pour chaque j. Cela donne une façon de calculer
les β̂j sans inverser la matrice. (Attention on a donc p calculs différents.)
Cet algorithme permet aussi de mesurer les problèmes qui peuvent arriver
au cours d’une telle estimation. Supposons en effet que le vecteur X p soit très
corrélé avec (par exemple) X p−1 (ou soit proche d’une combinaison linéaire
de X 1 , . . . , X p−1 ) ; dans ce cas le résidu Zp va être très petit et par voie de
conséquence l’estimation de β̂p très instable.
2.4
Lois des estimateurs. Estimation de σ 2.
Nous allons maintenant montrer la proposition suivante sous l’hypothèse
que les εi sont i.i.d. N (0, σ 2 ) :
Proposition 2 Sous la condition, p ≤ n, X ∗ X inversible, le vecteur de dimension p + n :
β̂
ε̂
est un vecteur gaussien de moyenne et variance :
β
0
,
σ
2
(X ∗ X)−1
0
0
In − X(X ∗ X)−1 X ∗
Preuve de la Proposition
Espérances et variances de β̂ Dans ce paragraphe, l’hypothèse de gaussiannité sur les εi est inutile. Les résultats sont encore vrais si l’on suppose que
Eε = 0, Varε = σ 2 In .
Comme β̂ = (X ∗ X)−1 X ∗ Y , on a Eβ̂ = E(X ∗ X)−1 X ∗ (Xβ + ε) = β.
D’autre part,
Var(β̂) = (X ∗ X)−1 X ∗ [Var(Y )]X(X ∗ X)−1
= (X ∗ X)−1 X ∗ [Var(εX)](X ∗ X)−1
= σ 2 (X ∗ X)−1 X ∗ X(X ∗ X)−1 = σ 2 (X ∗ X)−1 .
14
CHAPITRE 2. MODÈLE DE RÉGRESSION LINÉAIRE
Loi du vecteur Le vecteur
β̂
ε̂
est fonction linéaire du vecteur Y , c’est donc un vecteur gaussien. Nous avons
calculé la moyenne de β̂ au paragraphe précédent. Il est immédiat que Eε̂ = 0.
Nous avons vu que : X β̂ = ProjV (Y ) = Xβ + e avec e = ProjV (ε).
De plus, ε̂ = [In − ProjV ](Y ) = ProjV ⊥ (Y ) = ProjV ⊥ (ε) = ε − e.
Soit maintenant P1 = ProjV = X(X ∗ X)−1 X ∗ et P2 = ProjV ⊥ = In −
X(X ∗ X)−1 X ∗ . On a donc X β̂ = Xβ + P1 ε, ε̂ = P2 ε.
Par ailleurs, P1 + P2 = In , rg(P1 ) = dim V = rgX = p, rg(P2 ) = n − p.
On peut donc appliquer le th’eorème de Cochran et en déduire que e et ε̂ sont
indépendants. Par conséquent, X β̂ et ε̂ sont indépendants. Il en est de même
pour X ∗ X β̂ et ε̂, et donc pour β̂ et ε̂. Il nous reste à calculer la matrice de
covariance du vecteur ε̂. Mais, comme ε̂ = P2 ε, elle est égale à σ 2 P2 . Ceci
achève la preuve de la proposition.
Estimation de σ 2 . En appliquant le résultat de la Proposition 3, nous
2
est d’espérance
avons : kε̂k2 suit une loi σ 2 χ2 (n−p). En conséquence, σ̂ 2 = kε̂k
n−p
2
2
σ . C’est donc un estimateur assez naturel de σ .
Construction de nouvelles ’erreurs’ A partir des résidus on peut construire
des nouvelles variables η1 , . . . , ηn−p qui, elles sont i.i.d.N (0, σ 2 )(et indépendantes
de β̂) :
La matrice P2 est une matrice de projection orthogonale, donc P2 = P2∗ =
P22 , de plus c’est une matrice positive. Donc il existe une matrice orthogonale
U (U U ∗ = U ∗ U = In ), telle que
P2 = U ∗ DU
où D est une matrice diagonale telle que ses coefficients diagonaux valent 1
jusqu’à rang(P2 ) = n − p et 0 ensuite. Il est facile de voir que le vecteur
Z = U ε̂ = DU Y = DU ε suit une loi N (0, σ 2 D), ce qui signifie que Zn−p+1 =
. . . = Zn = 0 et si l’on pose η1 = Z1 , . . . , ηn−p = Zn−p les ηi sont les nouvelles
erreurs cherchées : i.i.d. N (0, σ 2 ) (et indépendantes de β̂).
En résumé :
2
σ
β̂ ∼ N (β, σ 2 (X ∗ X)−1 ), σ̂ 2 ∼ n−p
χ2 (n − p)
De plus ces 2 estimateurs sont indépendants.
2.5
Théorème de Gauss Markov et Moindres
Carrés pondérés.
Considérons le modèle suivant :
Y = Xβ + E
2.5. THÉORÈME DE GAUSS MARKOV ET MOINDRES CARRÉS PONDÉRÉS.15
où E est un vecteur gaussien centré, de matrice de covariance σ 2 G. G est une
matrice symétrique définie positive, connue. Un exemple est la matrice


0
0 

,

. . . vn
v1 0 . . .
 0 v2 . . .

G=
..

.
0
0
qui correspond au fait que les observations sont encore indépendantes mais
chaque observation est entachée d’une variance propre (cas hétéroscédastique).
La question que l’on se pose est doit-on, dans ce cas conserver l’estimateur
de β, β̂ = (X ∗ X)−1 X ∗ Y ?
La question se pose avec d’autant plus d’acuité qu’un autre estimateur peut
sembler tout aussi naturel : En effet, on peut assez simplement transformer le
modèle (2.5) en modèle linéaire ordinaire Z = X 0 β + ε : En posant G =
BB ∗ , Z = B −1 Y, X 0 = B −1 X, ε = B −1 E. Dans ce nouveau modèle, on peut
calculer l’estimateur usuel des moindres carrés (on remarque en particulier que
du fait que G est définie symétrique positive, B est inversible) :
β̃ = (X 0∗ X 0 )−1 X 0∗ Z = (X ∗ G−1 X)−1 X ∗ B −1∗ B −1 Y = (X ∗ G−1 X)−1 X ∗ G−1 Y.
Remarques :
1. Remarquons que par définition, cet estimateur rend minimale la quantité :
kB −1 Y − B −1 Xβk2 = (Y − Xβ)∗ G−1 (Y − Xβ)
qui représente la norme du vecteur Y − Xβ, dans la norme G−1 , d’où le
nom donné à cet estimateur de moindres carrés pondérés.
Si on considère le cas particulier où G est diagonale, on doit minimiser
l’expression
n
X
1
(Yi − (Xβ)i )2
2
v
i=1 i
qui tient compte de la crédibilité de chaque observation en raison inverse
de sa variance.
2. Var(a∗ β̃a) = a∗ (X ∗ G−1 X)−1 a..
3. Une autre façon d’énoncer la remarque 1 est d’observer que
PVG = X(X ∗ G−1 X)−1 X ∗ G−1
est la matrice associée à l’opérateur de projection dans V , défini avec la
métrique G−1 . (Rappelons que si A est une matrice symétrique définie
positive de Rn , x∗ Ay définit un produit scalaire sur Rn et on peut donc
considérer la métrique associée.)
16
CHAPITRE 2. MODÈLE DE RÉGRESSION LINÉAIRE
Remarquons que dans ce cas les relations matricielles PV = PV∗ , PV2 =
PV , In = PV + PV ⊥ valides en métrique euclidienne doivent être remplacées par
PVG = G(PVG )∗ G−1 , (PVG )2 = PVG , In = PVG + PVG⊥,G .
(2.2)
où V ⊥,G désigne le supplémentaire orthogonal de V , pour le produit
scalaire G−1 . Ces relations se démontrent à partir des relations classiques
en observant que
kxk2G−1 = x∗ B −1∗ B −1 x = kB −1 xk2In .
On en déduit facilement que
PVG = BPB −1 V B −1 , V ⊥,G = B(B −1 V )⊥
PVG⊥,G = BP(B −1 V )⊥ B −1
4
Nous allons montrer que cet estimateur possède en fait des propriétés d’optimalité très intéressantes :
Définition 2 L’estimateur β̄ est dit linéaire s’il existe une matrice A telle que
β̄ = AY .
Théorème 1 Considérons le modèle Y = Xβ +E où E est un vecteur aléatoire
centré, de matrice de covariance σ 2 G. G est une matrice symétrique définie
positive, connue. Si β̄ est un estimateur linéaire, tel que Eβ β̄ − β = 0, ∀β ∈
Rp , Alors, il existe R matrice symétrique positive de Rp , telle que Var(β̄) =
Var(β̃) + R.
Remarque : La signification de ce théorème, est que ∀a ∈ Rp , Var(a∗ β̄a) ≥
Var(a∗ β̃a). Or cette inégalité est très importante, en particulier si le vecteur E
est gaussien et que l’on veut construire un intervalle de confiance. En suivant
la démarche du paragraphe suivant, on montre très facilement que dans le cas
σ connu, cet intervalle est
q
q
∗
∗
∗
[a β̄ − zα/2 Var(a β̄a)σ, a β̄ + zα/2 Var(a∗ β̄a)σ]
si on utilise β̄ et
∗
[a β̃ − zα/2
q
Var(a∗ β̃a)σ, a∗ β̃
q
+ zα/2 Var(a∗ β̃a)σ]
si on utilise β̃. Il est clair qu’on a intérêt à prendre la seconde solution puisque
la longueur de l’intervalle est plus petite. 4
Preuve :
Remarquons d’abord que la condition Eβ β̄ − β = 0, ∀β ∈ Rp , se traduit
encore par (AX − In )β = 0, ∀β ∈ Rp , c’est à dire AX = In .
2.6. ETUDE DU MODÈLE AJUSTÉ : ESTIMATION ET TESTS
17
Par ailleurs, Var(β̄) = AGA∗ . Mais on a In = PVG + PVG⊥,G , en utilisant
(2.2). On en déduit :
Var(β̄) = A(PVG + PVG⊥,G )GA∗
= AX(X ∗ G−1 X)−1 X ∗ G−1 GA∗ + APVG⊥,G GA∗
= AX(X ∗ G−1 X)−1 X ∗ A∗ + R
= Var(β̃) + R
On finit la démonstration en remarquant que
R = APVG⊥,G GA∗ = ABPB −1 V ⊥ B −1 BB ∗ A∗ = ABPB −1 V ⊥ B ∗ A∗
Cette quantité est bien symétrique et positive par les propriétés de la projection
en métrique euclidienne.
4
2.6
2.6.1
Etude du modèle ajusté : estimation et
tests
Intervalles de confiance pour a∗ β et σ 2
Soit a∗ un vecteur de L(Rp , R), on se propose d’estimer a∗ β.
Exemples :
1. Si a∗ = (1, 0, . . . , 0), on s’intéresse à estimer β1 .
2. Dans l’exemple d’une comparaison de 2 populations, p = 2, prendre
a∗ = (1, −1) consiste à estimer la différence des moyennes. 4
On va prendre naturellement a∗ β̂ comme estimateur de a∗ β. Nous nous
proposons de construire un intervalle de confiance associé à cette estimation.
Rappel : Supposons que l’on cherche à estimer une quantité q(θ) réelle.
Définition 3 Soit α fixé dans (0, 1). Soit, dans une expérience arbitraire E = (Y, Pθ , θ ∈
Θ), S = hoY, T = h0 oY , 2 estimateurs de q(θ), on dira que [S, T ] est un intervalle de
confiance au niveau α, si
∀θ ∈ Θ,
Pθ {q(θ) ∈ [S, T ]} ≥ 1 − α.
Remarque : Bien entendu, S = −∞, T = ∞ convient toujours mais n’est guère
intéressant. En effet, l’intérêt pratique sera toujours de rendre T − S le plus petit possible.
4
Estimation de a∗ β, σ 2 étant connu
On vérifie que a∗ (β̂ − β) ∼ N (0, σ 2 a∗ (X ∗ X)−1 a), de sorte que si Φ(zα/2 ) =
α/2, où
Φ(u) = P rob(ξ ≥ u), ξ ∼ N (0, 1).
p
p
[a∗ β̂ − zα/2 a∗ (X ∗ X)−1 aσ, a∗ β̂ + zα/2 a∗ (X ∗ X)−1 aσ]
est un intervalle de confiance pour la quantité a∗ β, au niveau d’erreur α.
18
CHAPITRE 2. MODÈLE DE RÉGRESSION LINÉAIRE
Estimation de a∗ β, σ 2 étant inconnu
On a, outre le fait que a∗ (β̂ −β) ∼ N (0, σ 2 a∗ (X ∗ X)−1 a), σ̂ 2 ∼
De plus ces 2 variables aléatoires sont indépendantes. Donc √
σ̂
σ2
χ2 (n−p)
n−p
a∗ (β̂−β)
a∗ (X ∗ X)−1 a
∼
T (n − p) de sorte que si Φn−p (zα/2,n−p ) = α/2, où
Φn−p (u) = P rob(ξ ≥ u), ξ ∼ T (n − p).
p
p
[a∗ β̂ − zα/2 (n − p) a∗ (X ∗ X)−1 aσ̂, a∗ β̂ + zα/2 (n − p) a∗ (X ∗ X)−1 aσ̂]
est un intervalle de confiance pour la quantité a∗ β, au niveau d’erreur α.
2.6.2
σ2
2
σ
χ2 (n − p), et la définition de P (χ2 (k) >
En utilisant le fait que σ̂ 2 ∼ n−p
cα,k ) = α, on vérifie facilement que
[
σ̂ 2 (n − p) σ̂ 2 (n − p)
,
]
cα,n−p c1−α/2,n−p
est un intervalle de confiance pour la variance au niveau d’erreur α.
2.6.3
Test d’une sous hypothèse linéaire.
Rappel : On se donne un modèle E = (Y, Pθ , θ ∈ Θ). On se donne une partition de Θ en
deux ensembles (non vides) Θ0 et Θ1 . Le but du jeu est alors de décider si θ appartient à
Θ0 ou Θ1 .
Définition 4 Dans le contexte ci-dessus une variable aléatoire φ(X) à valeurs dans {0, 1}
est appelée test. La procédure de décision associée consiste à décider Θ0 si φ(x) = 0 et Θ1
sinon.
Notation :
On note généralement :
H0 ,
l’hypothèse ’nulle’ :
{θ ∈ Θ0 }
H1 ,
’l’alternative’ :
{θ ∈ Θ1 }
Quand on fait un test, il y a deux façon de se tromper, déclarer H1 alors que H0 est vrai ou
l’inverse. Ceci conduit aux deux définitions suivantes :
Définition 5 Etant donnée l’epérience E et le problème de test associé à la partition Θ0 , Θ1 ,
α ∈ [0, 1], on dit que le test φ(X) est de niveau α ssi
sup Eθ φ(X) ≤ α
θ∈Θ0
Définition 6 Etant donnée l’expérience E et le problème de test associé à la partition
Θ0 , Θ1 , α ∈ [0, 1], on appelle erreur de deuxième espèce (resp. puissance) la fonction
θ ∈ Θ1 7→ Eθ (1 − φ(X)) (resp. Eθ φ(X))
2.6. ETUDE DU MODÈLE AJUSTÉ : ESTIMATION ET TESTS
19
Nous nous plaçons, comme dans les paragraphes précédents dans le cadre
d’un modèle linéaire gaussien, dont la matrice exogène est de rang p ≤ n. On
se donne C, une matrice fixée de dimension l × p, avec l < p, on suppose que
le rang de C est l et on se propose de tester l’hypothèse Cβ = 0.
Exemples :
1. Si l = 1, on se ramène à tester la nullit’e d’une forme linéaire. On retrouve
donc l’étude du paragraphe précédent.
2. Si par exemple Yi est la mesure d’un taux de pollution, que l’on cherche
à expliquer par différentes variables : X 1 quantité de précipitations, X 2
vitesse du vent, X 3 température, X 4 nombre d’usines, à travers le modèle
suivant :
Yi = β1 Xi1 + β2 Xi2 + β3 Xi3 + β4 Xi4 + εi
or, plus modèle contient de paramètres, en général, moins il est interprétable. Donc on peut se poser la question de diminuer le nombre
de paramètres, par exemple, en testant β1 = β3 = 0. 4
2.6.4
Résolution
Soit V1 le sous espace vectoriel de V ,
V1 = {Xβ, Cβ = 0}
Comme rg(C) = l, dim(V1 ) = dim(ker(C)) = p − l. Soit W1 le supplémentaire
orthogonal de V1 dans V . On a
In = PV1 + PW1 + PV⊥ ,
PV1 , PW1 , PV⊥ sont des projecteurs respectivement de rang p−l, l, n−p et donc
en appliquant le théorème de Cochran, on a que (σ)−1 PV1 ε, (σ)−1 PW1 ε, (σ)−1 PV⊥ ε
sont des vecteurs gaussiens, indépendants de lois respectives N (0, PV1 ), N (0, PW1 ), N (0, PV⊥ ).
D’où, (σ)−1 PV1 Y, (σ)−1 PW1 Y, (σ)−1 PV⊥ Y sont des vecteurs gaussiens indépendants
de lois respectives N (PV1 Xβ, PV1 ), N (PW1 Xβ, PW1 ), N (0, PV⊥ ). On en déduit
que :
1. k(σ)−1 PV⊥ Y k2 ∼ χ2 (n − p).
2. k(σ)−1 PV⊥ Y k2 et k(σ)−1 PW1 Y k2 sont indépendants.
3. – Si Cβ = 0, PW1 (Xβ) = 0 et donc k(σ)−1 PW1 Y k2 ∼ χ2 (l).
– Si Cβ 6= 0, k(σ)−1 PW1 Y k2 ∼ χ02 (l, kPW1 (Xβ))k2 ).
On en déduit que sous l’hypothèse Cβ = 0, la statistique
F =
kPW1 Y k2 /l
∼ F (l, n − p).
kPV⊥ Y k2 /(n − p)
D’où, si fα (n1 , n2 ), est déterminé par P (F (n1 , n2 ) > fα (n1 , n2 )) = α, on a
1 − α = P (F ∈ [0, fα (l, n − p)]) .
Donc,
20
CHAPITRE 2. MODÈLE DE RÉGRESSION LINÉAIRE
– Si la statistique F , évaluée sur nos données, tombe en dehors de l’intervalle [0, fα (l, n − p)], on rejettera l’hypothèse Cβ = 0.
– En revanche, si elle tombe dans cet intervalle, on acceptera l’hypothèse.
Ce que l’on vient de décrire s’énonce par la phrase suivante : Le test φ qui
vaut 1 si F ≥ fα (l, n − p), 0 sinon est un test de niveau α.
2.6.5
Calcul pratique de F
On a
F =
kX β̂ − PV1 Y k2 /l
kY − X β̂k2 /(n − p)


1 0 ... 0 0 ... 0
 0 1 ... 0 0 ... 0 


Si C = 
,
..


.
0 0 ... 1 0 ... 0
–
dans ce cas, on cherche à tester β1 = . . . = βl = 0. Soit X̃ = (Xl+1 , . . . , Xp ),
la matrice des l − p vecteurs colonnes de X. Il est facile de montrer que
PV1 Y = X̃(X̃ ∗ X̃)−1 X̃ ∗ Y , et T se calcule aisément en fonction de X et
X̃.
– Dans le cas général, où C est une matrice quelconque, on commence par
compléter C en une matrice C 0 p × p et inversible, puis on pose η = C 0 β.
Le modèle linéaire Y = Xβ + ε est équivalent au modèle linéaire suivant,
dans lequel on a fait le changement de paramètre µ = C 0 β, X 0 = XC 0−1 :
Y = X 0 µ + ε.
Dans ce nouveau modèle l’hypothèse à tester est µ1 = . . . = µl = 0 et on
est ramené au cas précédent.
2.6.6
Version ’RSS’ de ce test
Une autre façon, plus habituelle dans les logiciels d’écrire la statistique
F , consiste à introduire les ’sommes des carrés des résidus’ dans chaque
hypothèse (H0 et H1 ) residuals sum of squares : RSS.
Commençons par H1 , une fois la donnée Y ’expliquée par X, ce qui ’reste
à expliquer’, les résidus, contribuent pour :
RSS1 =: kY − X β̂k2 (= kε̂k2 )
De même, sous H0 , la donnée Y est expliquée par PV1 Y , donc ce qui
’reste à expliquer’ (de façon résiduelle sous H0 ) contribue pour :
ˆ
ˆ 2 ).
RSS0 =: kY − PV1 Y k2 = kY − X β̂k2 (= kε̂k
Il est clair que RSS1 ≤ RSS0 et plus précisément, le théorème de Pythagore nous donne :
RSS0 − RSS1 = kPW1 Y k2
2.7. EXEMPLES :ETUDE DU MODÈLE AJUSTÉ EN PRATIQUE
21
De sorte que l’on peut écrire F sous la forme suivante en introduisant
p0 = dimension sous H0 (= p−l dans ce qui précède), p1 = dimension sous H1 (=
p dans ce qui précède) :
F =
2.7
[RSS0 − RSS1]/(p1 − p0 )
.
RSS1/(n − p1 )
Exemples :Etude du modèle ajusté en pratique
Nous allons donner ici des exemples d’utilisation en pratique (et donnés
dans les logiciels) des résultats trouvés précédemment.
2.7.1
Significativité globale : le test dit du R2
Le R2 en particulier est une quantité à peu près systématiquement donnée
dans les logiciels.
Considérons le cas où la constante 1n = X 1 fait partie des régresseurs. Pour
tester la significativité globale du modèle de régression proposé, on peut
tester l’hypothèse
H0 :
β2 = β3 = . . . = βp = 0
contre
H1 :
∃j = 2, . . . p, βj 6= 0.
Ce qui est bien un test du modèle puisqu’on se demande si on ne ferait pas
aussi bien si on ajustait les données simplement par une constante. P
Il est clair que l = p − 1, V1 = sp{1n }, PV1 Y = Ȳ 1n , si Ȳ = n1 ni=1 Yi .
Donc
RSS0 = kY − Ȳ 1n k2 .
P
Par ailleurs, si on note Ŷ = pj=1 β̂j X j , et on a par le théorème de Pythagore,
RSS1 = kY − Ŷ k2 ,
RSS0 − RSS1 = kŶ − Ȳ 1n k2 .
(2.3)
On a donc que la statistique de test s’écrit :
F =
n−p
p−1
kŶ − Ȳ 1n k2
kY − Ŷ k2
.
Pour effectuer un test au niveau α, on cherche donc le quantile qα = fα (p −
1, n − p) de la loi de Fisher avec les degrés de liberté p − 1, n − p et on applique
la règle de décision
– si F > qα , H0 est rejtée et les coefficients ne sont pas globalement nuls.
La régression est donc globalement significative.
– si F ≤ qα , H0 est acceptée et les coefficients sont tous nuls. La régression
n’est donc pas globalement significative.
Remarque importante p− value : Pour résoudre ( ! ?) le problème du choix
du niveau du test à prendre (α = 0.01, 0.05, 0.1, 0.001 ... ?) généralement,
les logiciels donnent les p−values au lieu des quantiles. La p−value est par
22
CHAPITRE 2. MODÈLE DE RÉGRESSION LINÉAIRE
définiftion le plus petit niveau auquel les données rejetteraient l’hypothèse
H0 . En effet si on considère la famille de tests que l’on obtient en faisant
varier le niveau α (et donc ici la fonction quantile gα , mais ceci est utilisé
plus généralement) si les données nous amènent à rejeter pour une valeur de α
elles amènent à rejeter pour toute valeur plus grande. Il est donc intéressant
de connaitre la quantité (aléatoire, fonction des données ) qui nous indique le
plus petit niveau pour lequel les données rejettent. La p−value est donc un
indice de signifiance de l’hypothèse nulle H0 . Plus la p− value est grande, plus
H0 doit être acceptée. Réciproquement, évidemment plus elle est petite plus
on a tendance à la rejeter.
Il est clair que le modèle linéaire est d’autant mieux adapté aux données
que la variance expliquée est plus grande ou bien la variance résiduelle est plus
faible c’est-à-dire que l’angle ω entre le vecteur centré Y − Y 1n (prédiction
par une constante) et le vecteur Y − Ŷ est plus proche de ±π/2. De facon
équivalente, on s’intéresse donc traditionnellement au sinus de cet angle.
sin2 ω = R2 =
kŶ − Ȳ 1n k2
.
kY − Ȳ 1n k2
Il est facile de voir qu’on a la relation suivante entre R2 et notre statistique de
test F (d’où son nom)
n−p
R2
F =
.
p − 1 1 − R2
Le R2 est une quantité qui se donne systématiquement dans les logiciels
lorsqu’on fait une régression. Cependant il faut noter que lorsque la constante
1n n’appartient pas au plan de régression, le R2 défini comme précédemment
n’a plus grande signification. On peut changer de définition et introduire R20
le cosinus de l’angle entre Y et son ajusté Ŷ .
t
cos2 θ =
t
ˆˆ
Ŷ Ŷ
=
1
−
.
t yy
tY Y
Cette quantité aussi permet de qualifier l’adéquation du modèle linéaire à nos
données.
2.7.2
Etude de la validité du modèle : Tests non paramétrique sur les résidus
Plus haut nous avons construit des nouvelles variables η1 , . . . , ηn−p à partir
des résidus on peut construire des nouvelles variables qui, elles sont i.i.d.N (0, σ 2 )(et
indépendantes de β̂) :
Ces nouvelles variables (fonction des observations) peuvent nous servir à
tester le modèle. On peut en effet tester l’hypothèse H0 : les ηi sont i.i.d.
N (0, σ 2 ), contre H1 : il existe m 6= 0 tel que les ηi sont i.i.d. N (m, σ 2 ), qui
correspondrait à l’oubli d’un centrage par exemple.
En général on a tendance à ne pas avoir d’idée sur la forme de ce qu’on
pourrait avoir oublié dans le modèle on a alors recours à des tests de type non
paramétriques.
2.7. EXEMPLES :ETUDE DU MODÈLE AJUSTÉ EN PRATIQUE
23
On peut par exemple si σ 2 est connu, utiliser un test de Kolmogorov Smirnov. Si σ est inconnu, on peut ’standardiser’ c’est à dire diviser les ηi par un
estimateur bien choisi de σ. Le problème alors est que les ηi une fois standardisées ne sont plus i.i.d.... On peut aussi utiliser un test de signes ou de rangs
ou de signes et rangs sur le ηi .
Souvent les logiciels prennent d’assez grandes libertés avec la théorie puisqu’ils proposent fréquemment un test de Kolmogorov Smirnov calculé directement sur les résidus ε̂ standardisés ou fournissent des indices graphiques (Q×Q
plot,...).
2.7.3
Significativité de chacune des variables explicatives
On s’intéresse à éliminer de l’étude toutes les variables non significatives
pour le modèle proposé. Pour chaque variable explicative X j , on veut effectuer
le test
H0 :
βj = 0
contre
H1 :
βj 6= 0
qui revient à tester
H0 :
X j est non significative
contre
H1 :
X j est significative .
Dans ce cas, le test étudié plus haut nous permet de construire la statistique
kPW1 Y k2 /l
F =
kε̂k2 /(n − p)
où ici l = 1. Prenons le cas (les autres s’en déduisent par permutation des
colonnes) j = p. Il est facile de voir que, si on reprend l’orthonormalisation de
Gram Schmidt détaillée au paragraphe
2.3.2 ainsi que le résultat de ce parahY,Z p i
p
graphe, W1 = sp{Z }, PW1 Y = hZ p ,Z p i Z p = β̂p Z p . De sorte que la statistique
de test s’écrit :
β̂p2 kZ p k2
F =
.
kε̂k2 /(n − p)
On peut soit calculer directement kZ p k2 soit remarquer que cette quantité
doit nécessairement être l’inverse de la variance de β̂p ( divisée par σ 2 ), ce
qu’on a aussi calculé au paragraphe 2.6.1 et vaut xpp le p-ème élément de la
diagonale de la matrice (t XX)−1 (mais cela demande alors de l’avoir inversée
exactement).
En remarquant qu’un loi F (1, n − p) est le carré d’une loi de Student
T (n − p), on a tendance (ce qui est strictement équivalent) à utiliser comme
statistique de test
β̂j
T =q
σ̂b2 xjj
où xjj est le j-ième élément de la diagonale de la matrice (t XX)−1 . Sous
l’hypothèse nulle H0 , T suit donc une loi de student à n − p degrés de liberté.
Pour tester la significativité du régresseur X j au niveau α, on trouve donc le
α−quantile qα de la loi tn−p et on applique la règle de décision
24
CHAPITRE 2. MODÈLE DE RÉGRESSION LINÉAIRE
– si |T | > qα , on refuse H0 et X j est significative,
– si |T | < qα , on accepte H0 et X j n’est pas significative.
Bien sur, on peut aussi utiliser la p−value pour prendre la décision.
2.8
Multi-colinéarité
Pour estimer les paramètres et leur variance, on a besoin de calculer l’inverse de la matrice (t XX). Lorsque le déterminant de cette matrice est nul
ou très proche de 0, on dit que le problème est mal conditionné. On est
confronté à des estimateurs qui ont des grandes variances (donc peu précis) et
il apparait souvent des problèmes de précision numérique. Il faut donc pouvoir
diagnostiquer ces situations et proposer des solutions.
2.8.1
Diagnostics
La matrice de variance-covariance de l’estimateur des MCO s’écrit
V = σ 2 (t XX)−1
et on a montré dans le paragraphe précédent que chaque élément de la diagonale de cette matrice (qui est la variance des paramètres estimés) peut s’exprimer sous la forme suivante : prenons d’abord le dernier pour faire les calculs
Vpp =
=
=
1
kZ p k2
1
kX p
− Psp{X 1 ,...,X p−1 } X p k2
1
kX p k2 [1 −
Soit encore
Vjj =
kPsp{X 1 ,...,X p−1 } X p k2
kX p k2
.
]
1
kX j k2 (1
− Rj2 )
où Rj2 est le coefficient de détermination de la variable X j sur celles qui restent
(c’est le cosinus carré de l’angle entre X j et la projection de X j sur l’espace
engendré par les autres variables X 1 , . . . X j−1 , X j+1 , . . . X p ). Il est évident que
plus X j est linéairement proche de cet espace, plus Rj2 est proche de 1 et
plus Vjj est grand. Cette variance est minimum (c’est-à-dire l’estimateur est
le plus précis) lorsque X j est orthogonale aux autres variables. On appelle Vjj
le facteur d’inflation de la variance.
En examinant la matrice des corrélations entre les variables, on peut détecter
les variables très corrélées 2 à 2 mais pas les corrélations multiples. Il faut donc
calculer effectivement les Vjj ou plutôt les tolérances 1 − Rj2 .
Pour regarder les problèmes de colinéarité 2 à 2, on peut calculer l’indice
de conditionnement
κ = max(λj )/ min(λj ),
2.9. SÉLECTION DE VARIABLES ET CHOIX DE MODÈLES
25
où λj , j = 1, . . . p sont les valeurs propres de la matrice des corrélations. En
pratique si κ < 100, on considère qu’il n’y a pas de problème. Par contre, il faut
s’inquiéter si κ > 1000. Cet indice donne une idée globale des problèmes de
colinéarité mais pour savoir quelles variables posent problème, il faut calculer
les facteurs d’inflation et les tolérances.
2.8.2
Modèles curvilinéaires
En cas de non validité de l’hypothèse de linéarité, il est intéressant de
considérer des modèles polynomiaux
Y = β1 + . . . βp X p + . . . ckl X k X l + . . . dj (X j )2 + . . .
qui sont appelés aussi surfaces de réponse. Ces modèles sont très simples
à étudier : il suffit de rajouter les nouvelles variables produit des anciennes.
Attention, ce type de modèles accroit les risques de colinarité : dans la pratique,
il est rare de considérer des modèles autres que quadratiques.
2.9
Sélection de variables et Choix de modèles
La modélisation statistique couvre 3 objectifs
1. description : on veut explorer les liaisons entre Y et X 1 , . . . X p pour p
grand. Le but est de sélectionner un sous ensemble de variables explicatives dont le cardinal n’est pas trop grand. Attention, si n est petit et p
grand, il est toujours possible de trouver un ”bon” modèle : c’est l’effet
data mining.
2. explication : on a des connaissances a priori et on veut valider ou invalider ces résultats théoriques. Le modèle exploratoire précédant permet
de faire de l’inférence : tests et intervalles de confiance.
3. prédiction : On veut avoir de ”bons” estimateurs (par rapport au critère
de risque quadratique par exemple) afin de faire des prédictions correctes.
On veut en général trouver des modèles parcimonieux (c’est-à-dire avec
peu de variables explicatives). On préfère avoir des modèles avec des estimateurs légèrement biaisés pour avoir un bon compromis biais/variance.
Ici, un ”bon” modèle n’est plus celui qui explique le mieux (bon R2 ou
petite SCR) mais celui qui prédit le mieux.
Il existe beaucoup de critères permettant de choisir le modèle : AIC, BIC,
erreur quadratique de prédiction .... Ils sont tous équivalents lorsqu’on fixe
le nombre de variables p à sélectionner. Mais, par contre le choix du critère
joue un rôle important lorsqu’on veut comparer 2 modèles utilisant un nombre
différent de variables explicatives.
2.9.1
Statistique de Fisher :
On utilise ce critère pour comparer des suites de modèles emboités. Rappelons qu’on a aussi utilisé la statistique de Fisher dans le cadre explicatif pour
tester la validité globale d’un modèle (test du R2 ).
26
CHAPITRE 2. MODÈLE DE RÉGRESSION LINÉAIRE
On a un modèle (gros) avec p variables noté M1 , un modèle (petit) avec
q variables (choisies parmi les p utilisées dans le ”gros” modèle) noté M0 . On
calcule la statistique de Fisher où pour bien marquer la dépendance dans les
variables nous écrirons RSS0(q) et RSS1(p) à la place de RSS0 et RSS1
F =
(RSS0(q) − RSS1(p))/(p − q)
n − p RSS0(q)
=
[
− 1].
RSS1(p)/(n − p)
p − q RSS1(p)
Si cette statistique est assez grande (supérieure à fα (p − q, n − p)) alors l’ajout
des p − q variables supplémentaires est justifié. Sinon, on peut se contenter du
petit modèle à q variables. Plus exactement, cette statistique permet d’effectuer
le test
H0 : M0 valide
contre
H1 : M1 valide
soit
H0 : βq+1 = βq+2 = . . . = βp = 0 contre H1 : ∃j ∈ {q + 1, . . . , p},
2.9.2
βj 6= 0.
Critères de choix : AIC, BIC, Cp
Il y a un problème avec ce type de test, c’est qu’on ne contrôle vraiment
son erreur que si on le pratique une fois pour un choix bien précis de variable.
Il est clair que si on fait plusieurs tests les uns après les autres pour choisir
les variables, le calcul du niveau devient très vite fastidieux. On ne procède
pas de cette façon mais on conserve l’idée de regarder les fluctuations de la
statistique. Supposons que nos variables soient ordonnées et que l’on se pose
la question d’en rajouter de plus en plus. Dans ce cas, on ne procède pas avec
un test mais on conserve l’idée de regarder les fluctuations de la statistique.
q 7→
(n − p)RSS0(q)
RSS1(p)
qui représente bien l’erreur que l’on fait en prédisant le modèle si on s’arrête
aux q premières variables normalisée par l’erreur faite avec toutes les variables
possibles. Evidemment, à mesure que ’lon augmente le nombre q de variables
explicatives, cette statistique se rapproche de 1. Donc cela ne nous donne
pas un critère de choix : on prédit d’autant mieux qu’on a plus de variables
explicatives.
Pour remédier à ce problèmes plusieurs critères sont proposés dans la
littérature, qui consistent à pénaliser le nombre de variables explicatives.
Citons parmi eux
(n − p)RSS0(q)
+ [log n]q (Schwarz 0 76)
RSS1(p)
(n − p)RSS0(q)
+ q. (Akaike 0 70,0 73)
AIC(q) =
RSS1(p)
(n − p)RSS0(q)
Cp (q) =
+ 2q. (M allows 0 73)
RSS1(p)
BIC(q) =
(2.4)
(2.5)
(2.6)
2.10. THÉORÈMES DE STUDENT ET DE COCHRAN
2.9.3
27
Algorithmes de sélection
Avec p variables explicatives, on 2p choix de modèles possibles. Si p est
grand, il n’est pas raisonnable d’explorer tous les modèles pour trouver le
meilleur. Il existe 3 types d’algorithmes :
1. Pas à pas :
– forward : On commence avec une variable et à chaque pas, on en
ajoute une : celle qui apporte le plus pour le critère de la statistique
de Fisher. On s’arrète soit lorsqu’il n’y a plus de variable, soit quand
aucune variable n’apporte quelque chose ou en applicant un critère de
type AIC ou BIC.
– backward : On fait la même chose mais en démarrant du modèle
complet. On élimine la variable qui apporte le moins par rapport au
critère de Fisher. On s’arrète lorsque les variables restantes donnent
toutes un critère satisfaisant (pour un α fixé à l’avance).
– stepwise : Après chaque sélection de modèle donnée par la méthode
”forward”, on enlève les variables qui deviennent inutiles du fait de
l’ajout de nouvelles variables.
2. Par échange :
– maximisation du R2 : On travaille avec un nombre q fixé de variables
explicatives du modèle. On cherche alors une nouvelle variable qui
maximise l’accroissement du R2 . Puis, on cherche avec quelle variable
présente dans le modèle l’échanger de facon à rester avec q variables.
On recommence tant que le R2 croı̂t.
– minimisation du R2 : Idem que précédemment mais on sélectionne
la variable qui minimise l’accroissement du R2 . On explore alors plus
de modèles et on a plus de chance de tomber sur un meilleur optimum.
3. Global : L’algorithme de Furnival et Wilson est utilisé pour comparer
tous les modèles possibles en optimisant le R2 , ou un critère de type Cp
AIC ou BIC. L’algorithme parcourt un arbre, évite les sous branches dont
on sait a priori qu’elles ne sont pas compétitives. En général, les logiciels
donnent le meilleur modèle pour chaque q. Mais ceci n’est possible que
pour un nombre raisonnable de variables explicatives.
2.10
Théorèmes de Student et de Cochran
Théorème 2 (Student) Soit X1 , . . . , Xn , des variables indépendantes identiquement distribuées (notation i.i.d.) de loi commune N (m, σ 2 ). Alors,
1. X̄n =
n
X
Xi suit une loi N (m, σ 2 /n).
i=1
n
X
2. Rn =
(Xi − X̄n )2 suit une loi σ 2 χ(n − 1).
i=1
3. X̄n et Rn sont indépendants.
28
CHAPITRE 2. MODÈLE DE RÉGRESSION LINÉAIRE
r
4. Si Sn désigne la variable
√
n(X̄n − m)
suit une loi
Sn
Rn
, alors Tn =
n−1
de Student T(n-1).
Démonstration du Thérème de Student
– 1 est évident.
– Les quantités que nous étudions sont homogènes. Par le changement de
variables Xi0 = (Xi − m)/σ, on se ramène au cas où m = 0, σ 2 = 1.
– Notons qu’on a la relation suivante :
n
X
2
2
(Xi − X̄n ) + nX̄n =
i=1
n
X
Xi2 .
(2.7)
i=1
On considère une matrice orthogonale M telle que sa première ligne est
( √1n , . . . , √1n ). Soit Z = M X où X = (X1 , . . . , Xn )∗ . Puisque M est
√
orthogonale, Z est un vecteur gaussien standard de Rn , et Z1 = nX̄n
est indépendant de (Z2 , . . . , Zn ). Par ailleurs, toujours parce que M est
orthogonale,
2
2
kM Xk = kXk =
n
X
Xi2
n
X
√
2
Zi2 .
= ( nX̄n ) +
i=2
i=1
P
√
On en déduit que i=2 Zi2 = i=1 Xi2 − ( nX̄n )2 = ni=1 (Xi − X̄n )2
(en utilisant (2.7)) est indépendant de X̄n et suit un χ2 (n − 1).
Pn
Pn
Théorème 3 (COCHRAN) Soit X ∼ N (ξ, In )
1. Soit P1 , P2 , . . . , Pk , k matrices n × n autoadjointes, verifiant
In =
d
X
Pi ,
et
i=1
d
X
rangPi ≤ n.
i=1
Alors les matrices Pi sont des projecteurs (Pi2 = Pi ) et les variables Pi X
sont des Gaussiennes mutuellement indépendantes de loi N (Pi ξ, Pi ).
2. Soit Q1 , Q2 , . . . Qk , k formes quadratiques
sur Rn verifiant :
n
∀x ∈ R ,
2
kxk =
d
X
Qi (x)
et
d
X
i=1
rangPi ≤ n.
i=1
0
Alors les variables Qi X sont mutuellement indépendantes de loi χ 2 (Qi ξ, rangQi ).
Démonstration du Théorème : La démonstration repose sur un lemme de
pure algébre linéaire :
k matrices n × n , vÈrifiant
Lemme 1 Soit P1 , P2 , . . . , Pk ,
In =
d
X
i=1
On a alors l’equivalence entre :
Pi ,
et
Pi = Pi∗
2.10. THÉORÈMES DE STUDENT ET DE COCHRAN
1.
Pd
i=1
rang Pi ≤ n.
2. ∀i 6= j
3. ∀i
29
Pi2
P i Pj = 0
= Pi
Preuve du Lemme : Remarquons
que 1 signifie : ∀x ∈ Rn ,
Pk
manière unique sous la forme i=1 ui ; ui ∈ Pi (Rn ).
P
P
1. 2 ⇒ 3 Pi = Pi ( j Pj ) = j Pi Pj = Pi2
x s’écrit de
2. 3 ⇒ 2 On a
∀x ∈ Rn ,
kxk2 = hx, xi = hx,
X
Pj xi = hx,
j
X
Pj2 xi =
j
X
kPj xk2 .
j
Appliquons cette relation à Pi x :
X
X
∀x ∈ Rn , kPi xk2 =
kPj Pi xk2 = kPi xk2 +
kPj Pi xk2 .
j
j6=i
Donc j 6= i ⇒ Pj Pi = 0
P
3. 3&2 ⇒ 1 Soit x = i Pi yi . On a donc :
X
Pj x =
Pj Pi yi = Pj2 yj = Pj yj .
i
P
D’o˘ l’Ècriture unique x = i Pi x.
P
P
4. 1 ⇒ 3&2 Pj = ( i Pi )Pj = i Pi Pj . On en déduit ;
X
∀x ∈ Rn , Pj (x − Pj x) =
Pi Pj x.
i6=j
L’unicité de la representation implique le resultat.
Démonstration du Théorème, (fin)
1. C’est une conséquence du fait que pour des vecteurs gaussiens orthogonalité signifie indépendance.
2. Soit Pj = Pj∗ la matrice definissant la forme quadratique Qj : ∀x ∈
Rn Qj (x) = x∗ Pj x. Par polarisation de la relation ∀x ∈ Rn , kxk2 =
Pd
i=1 Qi (x), on obtient :
X
∀x, y ∈ Rn , hx, yi =
hx, Pj yi
j
P
ce qui implique In =
j Pj . Le point 2 du théorème est donc une
conséquence du point 1 et de la proposition 3 suivante.
Proposition 3 .
1. Si P est une matrice de projection (i.e. P = P ∗ = P 2 ), et si W ∼
0
N (ξ, P ), avec P (ξ) = ξ, alors kW k2 ∼ χ 2 (rang (P ), kξk2 )
30
CHAPITRE 2. MODÈLE DE RÉGRESSION LINÉAIRE
2. Si P est une matrice de projection (i.e. P = P ∗ = P 2 ), et si X ∼ N (ξ, In )
0
alors, kP Xk2 ∼ χ 2 (rang (P ), kP (ξ)k2 ).
Démonstration de la Proposition :
1. En effet , on peut écrire, au moyen de la matrice R orthogonale, P =
RDR∗ où D est une matrice diagonale dont les d = (rang(P )) premiers
coefficients sont égaux à 1, les autres à 0. Soit Z = R∗ W . On a W = RZ,
et Z ∼ N (η, D), R∗ ξ = η. Comme ξ = RDR∗ ξ, on a η = Dη.
Donc les n−d dernières composantes de Z sont nulles,
les d premières,suivent
Pet
P
n
des lois normales N (ηi , 1) indépendantes. De plus i=1 ξi2 = di=1 ηi2 .
0
Comme kW k2 = kZk2 , kW k2 ∼ χ 2 (d, kξk2 ).
2. On remarque P X ∼ N (P ξ, P ).
Chapitre 3
Régression non paramétrique
Attention cette partie n’a pas été traitée exactement de la même façon en
cours. Voir le scan du cours de la semaine 4.
On s’intéresse dans ce chapitre à des modèles de régression non paramétriques
gaussiens lorsque le design est fixe.
3.1
Modèle
Considérons le modèle suivant
Yi = f (xi ) + i ,
i = 1, . . . , n
avec où
– Yi sont les observations, xi est le design fixe de l’expérience
– i sont les erreurs que l’on suppose indépendantes, centrées et de même
variance inconnue σ 2 .
L’objet d’interêt est la fonction f qui est inconnue.
Un modèle particulièrement intéressant est celui du signal lorsque le design
xi = i/n est équidistribué. Alors f est une fonction dont le support est [0, 1].
3.2
Réduction à un modèle linéaire
L’idée (simple... et de ce fait très jolie...) consiste à supposer que f peut
être approximée par un dictionnaire de fonctions. Par exemple, on peut prendre
le dictionnaire de tous les polynômes, ou le dictionnaire des fonctions trigonométriques, ou un dictionnaire constitué des deux types de fonctions, ou tout
autre... Bien entendu on ne pourra pas prendre la totalité du dictionnaire donc
on choisit p fonctions dedans (ou encore, on se réduit à un dictionnaire de taille
p).
D = {g1 , . . . , gp }.
La fonction f cherchée s’écrit
f (x) =
p
X
βj gj (x) + u(x).
j=1
31
(3.1)
32
CHAPITRE 3. RÉGRESSION NON PARAMÉTRIQUE
A priori, cette écriture n’est pas unique, mais supposons (on y reviendra) qu’on
dispose d’une écriture ’privilégiée’, dans laquelle on espère de plus que la fonction u est ’petite’. En d’autres termes, on suppose que f est bien approximée
par une combinaison linéaire du dictionnaire.
On va donc prendre vraiment au sérieux cette hypothèse de ’bonne approximation’, au point qu’on va construire le modèle de remplacement, dans lequel
on remplace u par 0. Dans ce modèle de remplacement, chaque observation
s’écrit :
p
X
βj gj (xi ) + εi , i = 1, . . . , n.
Yi =
j=1
On a donc un modèle linéaire de la forme
Y = Xβ + ε,
Xij = gj (xi ).
(3.2)
Dans la suite nous supposerons en général que xi = ni , pour donner plus
de structure à notre propos. Nous allons en particulier détailler une approche
où nous allons rendre plus précise l’utilisation de ce modèle de remplacement,
ainsi que certaines méthodes qui sont spécifiques à ce modèle de régression
fonctionnelle.
On va d’abord supposer
R 1 2que f appartient à l’espace L2 ce qui signifie que f
est de carré intégrable : 0 f < +∞. Cette hypothèse n’est pas très restrictive :
par exemple, dès que f est continue sur [0, 1], elle est vérifiée. Ce cadre anodin
d’apparence, permet de mettre de la rigueur dans notre approche précédente.
En effet, si {e` , ` = 1, . . . ∞} est une base de L2 , alors, on peut donner une
signification claire à l’équation (3.1), en posant gl = e` , les coefficients βl
peuvent alors être uniquement déterminés par
Z 1
e` f.
β` = < e` , f > =
0
de même,
u=
X
β` e l
l>p
qui tend vers 0 dans L2 . Donnons quelques exemples de bases.
3.2.1
Base polynomiale
L’espace L2 admet quantité de bases {e` , ` = 1, . . . ∞}. On peut penser
aux bases polynomiales. Si l’on orthonormalise à l’aide du procédé de Gram
Schmidt la suite {1, x, x2 , . . . , xk , . . .} on obtient ainsi une base associée aux
polynômes de Legendre.
3.2.2
Base trigonométrique
La base {e` , ` = 1, . . . ∞}, la plus connue est certainement la base de Fourier
ou base trigonométrique donnée par
– e1 (x) = 1
3.3. ESTIMATION DE F PAR PROJECTION
33
√
– si ` est pair, e` (x) = 2√cos(2π`x)
– si ` est impair, e` (x) = 2 sin(2π`x)
Alors les fonctions de la famille {e` , ` = 1, . . . ∞} sont normées et orthogonales
Z 1
e` e`0 = δ` (`0 ).
< e` e`0 > =
0
et engendrent dans L2 l’ensemble des fonctions périodiques f (0) = f (1). Cette
base est particulièrement simple ce qui explique qu’elle est beaucoup utilisée.
3.2.3
Base de Haar
Une autre base intéressante est la base de Haar qui est définie à partir des
translations/dilatations
φj,k (x) = 2j/2 φ(2j x − k) et ψj,k (x) = 2j/2 ψ(2j x − k)
d’une ondelette de Haar
φ(x) = 1[0,1] et ψ(x) = 1[0,1/2] − 1]1/2,1] .
Fixons un niveau j0 ≥ 0 et considérons la famille
{φj0 ,k pour k = 0, . . . , 2j0 , ψj,` pour j = j0 , . . . , ∞, ` = 0, . . . , 2j }
Il est très simple de montrer que cette famille est orthonormée, et que c’est
une base
2j0
∞ X
2j
X
X
f=
αj0 ,k φj0 ,k (x) +
βj,` ψj,` (x).
j=j0 `=0
k=0
Cette égalité comporte deux termes : un terme qui donne la tendance de la
fonction f et un terme qui donne les détails de la fonction f . De même que dans
le cas de la base trigonométrique, le fait que la base de Haar soit orthogonale
amène le fait remarquable que les coefficients de f sur la base sont les produits
scalaires
Z 1
Z 1
αj0 ,k = < φj0 ,k , f > =
φj0 ,k f et βj,` = < ψj,` , f > =
φj,` f.
0
3.2.4
0
Base d’ondelettes
De la même facon que pour la base de Haar, on définit d’autres bases
d’ondelettes en choisissant des père et mères φ et ψ différents : Daubechies,
Meyer, Coiflets, Symlets ....
3.3
Estimation de f par projection
Le terme ’estimation par projection’ réfère de façon générique à l’utilisation du modèle d’emprunt (3.2) en utilisant comme dictionnaire une base
orthonormée de L2 tronquée.
34
CHAPITRE 3. RÉGRESSION NON PARAMÉTRIQUE
Dans le cas où xi = ni , le fait que la base soit orthonormée, a une conséquence
importante. En effet, dans ce cas, la matrice X t X est telle que
n
1 t
1X
i
i
X Xlm =
gl ( )gm ( ).
n
n i=1
n
n
Pn
i
i
1
Comme
i=1 gl ( n )gm ( n ) est l’approximation de Riemmann de l’intégrale
n
R
g (x)gm (x)dx = δml . Cette matrice est donc ’presque’ l’identité. On en
[0,1] l
déduit que par conséquent l’estimateur des MCO, β̂l est ’presque’
n
1X
i
β̃l =
gl ( )Yi .
n i=1
n
(3.3)
L’estimation par projection réfère en fait -donc- à la fois l’utilisation du modèle
d’emprunt (3.2) en utilisant comme dictionnaire une base orthonormée, mais
aussi le fait d’utiliser (3.3) comme estimateur.
3.3.1
Dans la base trigonométrique
Travaillons dans la base trigonométrique {e` , ` = 1, . . . ∞}. Alors f se
décompose
Z 1
∞
X
e` f.
f (x) =
θ` e` (x) avec θ` =
0
`=1
Donc on estime chaque coefficient par
n
1X
e`
θb` =
n i=1
i
Yi .
n
Finalement, on reconstruit un estimateur de la fonction f
fˆ =
p
X
θb` e` .
`=1
Le problème fondamental qui se pose alors est : comment choisir p ?
3.3.2
Dans la base de Haar
On se fixe un niveau j0 . Dans la base de Haar, f se décompose en une
tendance au niveau j0 et des détails à des niveaux plus élevés
X
XX
f (x) =
αj0 ,k φj0 ,k (x) +
βj,` ψj,` (x)
j≥j0
k
avec
Z
αj0 ,k =
`
1
Z
φj0 ,k f et βj,` =
0
1
ψj,` f.
0
3.4. CALCUL DE L’ERREUR
35
On se concentre sur la tendance en oubliant les ’détails’ pour estimer f . Il
s’agit donc d’estimer les coefficients αj0 ,k . On estime donc chaque coefficient
par
n
1X
i
αd
φj0 ,k
Yi .
j0 ,k =
n i=1
n
Finalement, on reconstruit un estimateur de la fonction f en estimant seulement la tendance de f au niveau j0
X
fˆ =
αd
j0 ,k φj0 ,k .
k
Le problème fondamental qui se pose est : comment choisir le niveau j0 ?
3.4
Calcul de l’erreur
On s’intéresse à l’erreur L2 (encore appelée MISE) définie par
Z 2
2
ˆ
f −f .
M ISE = E
0
En utilisant l’orthonormalité des bases, on obtient
 P
P∞
N

 E `=1 (θb` − θ` )2 + `=N +1 θ`2
M ISE =

 E P2j0 (αd − α )2 + P∞ P β 2
j0 ,k
j0 ,k
j=j0
k=1
k j,k
3.4.1
base trigo
ondelettes
Base de Fourier
Commencons par l’estimateur avec la base trigonométrique. On a un terme
de biais et un terme de variance
1. Variance : On montre facilement que
n
1X
i
i
b
e`
E θ` =
f
n i=1
n
n
et que
n
2 X
σ
i
σ2
2
V ar(θb` ) = 2
e`
≤ .
n i=1
n
n
Comme
E
N
X
`=1
(θb` − θ` )2 = E
!
N
N
X
X
(θb` − E θb` )2 +
(E θb` − θ` )2 ,
`=1
`=1
on a

N
N
2
X
X
σ +
E
(θb` − θ` )2 ≤
n
`=1
`=1
Z 1
n
1X
i
i
e`
f
−
e` f
n i=1
n
n
0
!2 
.
36
CHAPITRE 3. RÉGRESSION NON PARAMÉTRIQUE
Il faut évaluer l’erreur Rn de l’approximation de Riemann. Remarquons
que
Z 1
Z (i+1)/n
n Z (i+1)/n
X
1
e` (t) f (t)dt =
e` (t) f (t)dt et
=
dt
n
0
i/n
i/n
i=1
alors on peut écrire
Rn =
n Z
X
i=1
(i+1)/n
i/n
i
i
e`
f
− e` (t) f (t) dt
n
n
Par le théorème des accroissements finis, il existe une suite θi (l, t) de
nombres de [0, 1] telle que
e` (t)f (t) − e` (i/n)f (i/n) = (e` f )0 (θi (l, t))(t − i/n).
On déduit
n
1 X
M (1 + 2πl)
√
|Rn | ≤ | 2
k(e` f )0 k∞ ≤
2n i=1
2n
sous la condition que f est dérivable et de dérivée bornée par M . Par
suite,
N
X
N
4π 2 N 3
|Rn |2 ≤ M 2 [ 2 +
]
n
n2
l=1
Le terme de variance est donc majoré par une quantité de l’ordre de
dès que l’on impose N 2 ≤ n. Plus exactement
V ≤
N
n
N (σ 2 + 4π 2 M 2 )
.
n
2. Biais. On majore le terme de biais en faisant des hypothèses de régularité
sur l’objet inconnu à estimer, comme on l’a fait dans le chapitre 5 Dans
le cadre de la base trigonométrique, les classes de régularité usuelles sont
les classes de Sobolev notées W (s, L) où s est le degré de régularité des
fonctions et L le rayon des boules considérées qui correspondent aux
contraintes ellipsoidales introduites au chapitre 5
(
)
∞
X
X
W (s, L) = g ∈ L2 , g =
θ` e` avec
(`)2s θ`2 ≤ L pour tout ` .
`=1
`
Exercice : Démontrer que si s est dans N∗ alors f est une fonction
périodique, s fois dérivable, dont les dérivées sont dans RL2 alors f appar1
tient à W (s, L), si et seulement si il existe L0 tel que 0 [f (m) ]2 (x)dx ≤
L0 , ∀m ≤ s. Le terme de biais est alors majoré par L2 N −2s sous l’hypothèse que f appartient à une classe de Sobolev W (s, L) pour s > 0 et
L > 0.
Nous avons démontré le résultat suivant
3.4. CALCUL DE L’ERREUR
37
Théorème 1 Soit s, L, M > 0 fixés. Sous les hypothèses
1. f est dérivable de dérivée bornée par M
2. f est dans la boule Sobolev W (s, L)
√
3. N ≤ n
on a la décomposition Biais/Variance de l’erreur MISE
2 −2s
2
2
2 N
M ISE ≤ (σ + 4π M ) + L N
n
Le meilleur choix de N est donc
N ∗ = (σ 2 + 4π 2 M 2 + L2 ) n
1
1+2s
2s
qui mène
à une erreur de l’ordre de n− 1+2s . Cet optimum n’est possible que si
√
N ∗ ≤ n, ce qui est le cas si s > 12 - ce qui est en fait lié à l’hypothèse(1)-.
Le problème pratique auquel nous sommes confrontés est que, en général, nous
ne connaissons pas a priori les paramètres de régularité s, L. Il est donc impossible de choisir la fenêtre optimale.
3.4.2
Base d’ondelettes
Les calculs sont identiques
1. Variance : On montre facilement que
n
1X
φj ,k
E αd
j0 ,k =
n i=1 0
i
i
f
n
n
et que
n
n
2 X
σ2 X 2
σ2
k k+1 i
i
j0 σ
V ar(αd
φj0 ,k
≤2 2
I{[ j0 , j0 ]}( ) ≤ .
j0 ,k ) = 2
n i=1
n
n i=1
2
2
n
n
Comme

j
20
X
2
E(αd
j0 ,k − αj0 ,k )

2j0
2j0
X
X
2
2
=  (E αd
E(αd
d
,
j0 ,k − αj0 ,k ) +
j0 ,k − E α
j0 ,k )
k=0
k=0
k=0
et que par ailleurs on peut montrer (exercice) sous l’hypothèse que f
est lipschizienne(1) de constante M que le terme d’approximation de
Riemann se majore par :
M(
2j0 /2
22j0 /2 2−j0 /2
+
) ≤ 3M
.
n
n
n
On en déduit que
j
20
X
2
j0 +1
(αd
d
(
j0 ,k − E α
j0 ,k ) ≤ 2
k=0
σ2
2j0
+ c2 M 2 2 )
n
n
σ 2 + c2 M 2
n
j0
si on suppose de plus de choisir j0 tel que 2 ≤ n.
≤ 2j0 +1
38
CHAPITRE 3. RÉGRESSION NON PARAMÉTRIQUE
2. Biais. On majore le terme de biais en faisant des hypothèses de régularité
sur l’objet inconnu à estimer. Dans le cadre des bases d’ondelettes, les
classes de régularité usuelles sont les espaces de Besov notés Bsp (L) où s
est le degré de régularité des fonctions, p est le degré d’intégration et L
le rayon des boules considérées
(
Bsp (L) =
g ∈ L2 , ∀ j0 ≥ 0, kg −
j0
X
)
αj0 k Φj0 k kp ≤ L2−j0 s , αj,k = hg, Φjk i
k=0
Ici, on prend p = 2. En faisant l’hypothèse que f appartient à l’espace
de Besov Bs2 (L), on majore le biais par L2 2−2j0 s .
Nous avons démontré le résultat suivant
Théorème 2 Soit s, L, M > 0 fixés. Sous les hypothèses
– f est Lipschizienne de constante M
– f est dans la boule Besov Bs2 (L)
on a la décomposition Biais/Variance de l’erreur MISE
M ISE ≤
2(σ 2 + c2 M 2 )2j0
+ L2 2−2j0 s
n
Le meilleur choix de j0 est donc
1
2j∗ ∼ n 1+2s
2s
qui mène à une erreur de l’ordre de n− 1+2s .
3.5
Optimalité
Pour avoir une idée de la qualité d’un estimateur, il faut se donner un
critère. Nous choisissons le critère L2 qui s’appuie donc sur M ISE. Nous allons
définir le risque minimax sur un espace fonctionnel donné F par
Rn (F) = inf sup Ekfb − f k22
fb f ∈F
où l’infimum est pris sur tous les estimateurs de f (c’est-à-dire sur toutes les
fonctions mesurables des données).
Ce concept est utilisé dans d’autres domaines que les statistiques. Par
exemple, John Rawls (1921-2002) philosophe ayant travaillé sur une théorie
de la justice a utilisé cette notion en donnant comme exemple un politique
pour les prisons. (Harvard puis MIT).
C’est une notion qui est ”pessimiste” puisqu’on calcule ce risque minimax
en prenant en compte les pires fonctions de F (même si celles ci sont très peu
nombreuses et peu représentatives de leur classe). On peut montrer le résultat
de borne inférieure suivant
3.6. MÉTHODE DES NOYAUX
39
Théorème 3 Soit s, L > 0 et p ≥ 2. Alors, il existe une constante C telle que
2s
Rn (F) ≥ C n− 1+2s
pour
F = W (s, L) ou Bsp (L).
On déduit immédiatement le corollaire suivant
Corollaire 1 Les estimateurs par projection dont les paramètres de lissage
sont
∗
2j = n1/(1+2s)
N ∗ = n1/(1+2s)
dans le cas de la base d’ondelettes
dans le cas de la base de Fourier
sont optimaux parmi tous les estimateurs de f .
3.6
Méthode des noyaux
On s’intéresse dans cette section au modèle de régression à design fixe mais
non nécessairement équidistribué. Dans le modèle de régression, la méthode des
noyaux est aussi appelée méthode de Nadaraya-Watson. Très géneralement, on
s’intéresse à des estimateurs de la fonction de régression qui sont des moyennes
pondérées des données observées Yi
fb(x) =
n
X
Yi Wi (x)
i=1
où Wi (x) est la fonction de poids qui dépend du design Xi (et pas des observations Yi ) et qui vérifie
Wi (x) ≥ 0 et
n
X
Wi (x) = 1.
i=1
L’idée président au choix de la fonction de poids pour estimer f (x) est qu’il
faut donner beaucoup d’inportance aux données Xi qui sont proches de x et
très peu aux données qui sont loin de x. La fenètre h quantifie la distance entre
x et Xi :
– si −h ≤ x − Xi ≤ h, Xi est proche de x,
– si |x − Xi | > h, Xi est loin de x.
Le noyau rectangulaire est donné par
∀u,
K(u) = 1[−1,1] (u)
menant aux poids
Wi (x) = K
x − Xi
h
40
CHAPITRE 3. RÉGRESSION NON PARAMÉTRIQUE
ou plutôt
Wi (x) =
x−Xi
h
Pn
x−Xi
K
i=1
h
K
car on veut que la somme des poids fasse 1. On généralise cette construction
à toutes sortes de noyaux K. Nous définissons la notion de noyau par
Z
K est un noyau ssi K = 1 et K(u) = K(−u).
Citons par exemple le noyau triangulaire
K(u) = (1 − |u|) 1(|u|≤1) ,
le noyau Epachnikov
3
K(u) = (1 − u2 ) 1(|u|≤1) ,
4
ou le noyau gaussien
1 2
1
K(u) = √ e− 2 u .
2π
3.6.1
Choix de la fenêtre
Remarquons que la méthode des noyaux dépend aussi d’un paramètre de
lissage : la fenêtre h. Heuristiquement parlant
– si h est très petit, la fonction de poids vaut 1 en Xi et zero partout
ailleurs ; ce qui signifie que l’estimateur fbh reproduit les données en attribuant la valeur Yi en Xi et en mettant zero partout ailleurs. L’estimateur
de f est donc très oscillant : l’erreur stochastique est très grande.
– si h est très grand, la fonction de poids vaut 1 en toutes données du
design Xi et donc l’estimateur de f vaut la moyenne des Yi est constant.
L’erreur stochastique est alors nulle (pas de variance) mais evidemment
l’erreur de biais est très grande.
De même que pour l’estimateur par projection, on peut montrer le théoreme
suivant
Théorème 4 Supposons que la fonction de régression appartienne à C s . Alors
il existe une constante positive C telle que
1
2s
+h
.
M ISE ≤ C
nh
On déduit la proposition suivante
Théorème 5 Soit h∗ = O n1/(1+2s) . Si f ∈ C s alors
2
−2s/(2s+1)
Ekfc
.
h∗ − f k2 ≤ C n
En utilisant le résultat de borne inférieure prédemment énoncé, nous avons
prouvé l’optimalité de la procédure par noyau lorsque la fenêtre est h∗ . Il est
à noter que le noyau K n’a pas d’influence sur la vitesse de convergence de
l’estimateur fc
h∗ . Par contre, il intervient dans les constantes C et donc peut
être important lorsque le nombre de données n est petit.
Chapitre 4
p grand, Sparsités
1
4.1
Evaluation de la prédiction
Supposons que notre but soit de prédire, Y∗ (= x∗ β + ε∗ ) -non observé- au
vu de la seule observation des régresseurs
x∗ = x1∗ , . . . , xp∗
en supposant que Y∗ (ou ε∗ ) est indépendante de notre échantillon préalable
(appelé échantillon d’apprentissage). On suppose aussi que x∗ est soit déterministe,
soit aléatoire mais indépendante de ε∗ et de l’échantillon d’apprentissage. Supposons que nous proposions à partir de cet échantillon d’apprentissage un
’estimateur’ (celui des MCO ou un autre) β̂(n). Le prédicteur naturellement
associé est
Ŷ := x∗ β̂(n).
Le risque quadratique que l’on commet est alors (on utilise l’indépendance
entre x∗ et ε∗ ainsi qu’entre l’échantillon d’apprentissage et la nouvelle observation ) :
E(Ŷ − Y∗ )2 = E(x∗ (β̂(n) − β) + ε∗ )2
= E(x∗ (β̂(n) − β))2 + E(ε∗ )2
≤ Ekx∗ k2 Ekβ̂(n) − βk2 + E(ε∗ )2
On voit dans cette majoration qu’il y a une partie ’incompressible’ ( :
E(ε∗ )2 ), une partie qui dépend de la nouvelle observation ( : Ekx∗ k2 ) et donc
difficile à maitriser. Nous allons donc nous intéresser à minimiser :
Ekβ̂(n) − βk2
1. Copyright @ 2009 Universite Paris-Diderot Dominique Picard
41
42
CHAPITRE 4. P GRAND, SPARSITÉS
4.2
Le cas orthonormal : n1 X ∗X = Ip
On observe donc
Y = Xβ + ε
avec le fait que les vecteurs colonne de la matrice X sont orthonormaux dans
le produit scalaire empirique ( n1 X ∗ X = Ip ) -ou ont été orthonormalises-.
L’estimateur de β des moindres carrés s’écrit alors
β̂ =
1
XY = β + ξ
n
avec ξ = n1 X ∗ ε. Comme les εi ont même loi N (0, σ 2 ), sont indépendantes, le
vecteur ξ est normal centré de variance σn2 Ip (ξ ∼ N (0, σn2 Ip )), avec
σ
σn = √ .
n
Nous dirons que le modèle est ’diagonal’ si X 0 X = D2 (D est une matrice
diagonale inversible) : dans ce cas,
β̂ = D−2 X 0 Y = β + ξ 0
ξ 0 = D−2 Xε
Le vecteur ξ 0 a donc pour loi N (0, D−2 Ip ). On supposera toujours que les
valeurs sur la diagonale sont rangées par ordre décroissant.
4.3
Contraintes de sparsité de type ellipsoidales
L’idée principale dans ce chapitre est que si p est très grand (même bien
plus grand que n dans certaines applications) on ne peut pas prétendre aux
miracles, donc il nous faut trouver des méthodes qui marcheront si certaines
contraintes sont vraies sur le modèle. Nous allons donc étudier plusieurs formes
de contraintes, voir à quelles solutions elles nous mènent et discuter leurs validité dans la pratique. Le premier type de contrainte que nous allons étudier
est la contrainte ellipsoidale.
On va supposer que θ appartient à l’ensemble
p
Θs (M ) = {β ∈ R , sup
l
p
X
βj2 ≤ M l−2s }
j≥l
Remarquons que ces espaces sont emboités de plus en plus petits quand s
augmente. On remarque de plus que cette contrainte qui depend fortement du
paramètre s > 0 appelé paramètre de régularité, est satisfaite si β appartient
à l’ensemble
X
Θ0(a) (M ) = {β ∈ Rp ,
a2j βj2 ≤ M }
0≤j≤p
4.4. CADRE ’MINIMAX’
43
si la suite (a) est croissante et vérifie al ≥ ls ce qui justifie la dénomination
contrainte ellipsoidale.
Preuve : En effet,
p
X
j≥l
βj2 ≤
X a2j
β2
2 j
a
l≤j≤p l
≤M
1
≤ M l−2s
2
al
4
4.4
Cadre ’minimax’
Nous allons nous placer dans une perspective relativement pessimiste qui
consiste à regarder le pire risque d’un estimateur. Plus précisément, étant
donné un estimateur β̂ de β, nous allons nous intéresser si l’on a de plus la
contrainte Θ, à la quantité
Env(β̂(n), Θ) := sup Ekβ̂(n) − βk2 .
β∈Θ
Maintenant, si on s’intéresse à une classe particulière d’estimateurs B, on dira
que β̃ est ’minimax dans la classe B relativement à la contrainte Θ si il appartient à B et
Env(β̃, Θ) = inf Env(β̂(n), Θ).
β̂(n)∈B
4.5
Résolution minimax sous contrainte de sparsité ellipsoidale, cas orthonormal
Nous avons dans l’idée que comme les β ont une contrainte de forme (β ∈
Θs (M )), nécessairement, ils sont très petits à partir d’un certain rang. Il est
donc raisonnable de considérer des procédures qui remplacent par 0 les derniers
coefficients au lieu de les estimer.
Supposons donc qu’on s’intéresse aux estimateurs de la forme
β̂iK = β̂i , si i ≤ K, 0 si i > K
et étudions s’il y a une façon de choisir K.
On a la proposition suivante :
Proposition 4 Pour s > 0, M > 0, on a pour 1 ≤ K ≤ n
Env(β̂ K , Θs (M )) = Kσn2 + M K −2s .
(4.1)
44
CHAPITRE 4. P GRAND, SPARSITÉS
Preuve : Considérons le risque quadratique d’un tel estimateur.
K
2
Ekβ̂ − βk = E
p
X
(β̂jK − βj )2
j=1
=
K
X
E(β̂jK − βj )2 +
j=1
≤
Kσn2
p
X
(βj )2
j=K+1
−2s
+ MK
.
Il est ensuite facile de montrer que la borne est atteinte ce qui donne l’égalité
dans la proposition. 4
On voit que le premier terme est croissant en K et donc nous incite à choisir
K le plus petit possible, alors que le second est décroissant et nous incite à
choisir K très grand. Mais il est clair que s’il existe K tel que (n − K)σn2 >
M K −2s , on a plus intérêt à utiliser β̂ K plutôt que β̂ = β̂ p . En d’autres termes,
il est alors plus avantageux de remplacer les derniers termes par 0 que de les
estimer.
Ce principe est très important. Nous allons l’exploiter sous différents aspects.
Plaçons nous dans le cas où :
2sM
≤ σn2 ≤ 2sM
p2s+1
Dans ce cas, on peut optimiser la borne que l’on vient de trouver conduit à
choisir (on annule la dérivée) :
#
"
2
−1
σ
K = K ∗ (s) := ( n ) 1+2s .
2sM
Ceci conduit au théorème suivant
Théorème 4 Si on a
2sM
p2s+1
≤ σn2 ≤ 2sM , alors en définissant K ∗ (s) comme
∗
indiqué plus haut, on a que β̂ K (s) est ’minimax dans la classe des estimateurs{β̂ K , K ∈
{1, . . . , p}} relativement à la contrainte Θs (M ).
4.5.1
Le cas diagonal décroissant
Dans le cas diagonal, on a les proposition et théorème parallèles à ceux du
cas orthonormal : On a la proposition suivante :
Proposition 5 Pour s > 0, M > 0, on a pour 1 ≤ K ≤ p ≤ n
Env(β̂ K , Θs (M )) =
K
X
−2s
d−2
.
i + MK
i=1
Dans ce cas, on peut aussi optimiser la borne que l’on vient de trouver conduit
à choisir :
K
X
−2s
K = K ∗∗ (s) := sup{K,
d−2
}.
i ≤ MK
i=1
Ceci conduit au théorème suivant
4.6. CONTRAINTE DE TYPE SPARSITÉ LQ , ET LQ,∞ , CLASSES DE LORENTZ45
Théorème 5 Si on a s, p et M sont tels que 1 ≤ K ∗∗ (s) ≤ p, alors en
∗∗
définissant K ∗∗ (s) comme indiqué plus haut, on a que β̂ K (s) est ’minimax
dans la classe des estimateurs {β̂ K , K ∈ {1, . . . , p}} relativement à la contrainte
Θs (M ).
4.5.2
Cadre asymptotique
Si on se place à nouveau dans le cadre orthonormal et que l’on fait tendre σ 2
vers 0 et (éventuellement aussi à la fois p vers l’infini, mais pas nécessairement).
Le théoreme 4 a pour conséquence :
σ2
sup Ekβ̂ − βk ≤ [ n
2sM
1≤K≤p
K
2
−1
1+2s
]σn2
σ2
+ M[ n
2sM
−1
1+2s
4s
]−2s ≤ Cσn1+2s
où C est une constante qui ne dépend que de s et M . On voit donc alors que
cette quantité tend vers 0 si s > 0. On note que ceci n’est pas vrai dans le cas
où s = 0.
On peut montrer que si au lieu de se limiter aux estimateurs de la forme β̂ K
qui donc, impose aux coordonnées après K à valoir 0, on considère le minimax
sur TOUS les estimateurs (B est l’ensemble de tous les estimateurs possible
de β ), alors on a l’inégalité suivante : il existe une autre constante C 0 , telle
que
4s
inf Env(β̂(n), Θs (M )) ≥ C 0 σn1+2s .
(4.2)
β̂(n)∈B
Ceci prouve qu’à une constante près, la ’vitesse minimax’ d’estimation pour
la classe précédente est aussi bonne que si l’on considère tous les estimateurs.
4.6
Contrainte de type sparsité lq , et lq,∞, Classes
de Lorentz
Pour q > 0, I un sous ensemble de N, on note
(
)
X
q 1/q
lq (I) = θ = (θi )i∈I , /(
|θk | ) := kθklq < ∞ .
k∈I
Le lemme suivant va nous permettre de considérer des espaces où l’on prend
en considération la relative importance de la taille des coefficients, d’une façon
plus subtile encore.
Lemme 1 Soit (ai )i∈I une famille de nombres réels et q > 0. Les assertions
suivantes sont équivalentes
1. Il existe C, telle que, pour tout λ > 0, #{i ∈ I/|a|i ≥ λ} ≤ (C/λ)q .
2. Il existe r > q, Cr , tel que
X
∀λ > 0,
|ai |r 1|ai |≤λ ≤ Cr λr−q .
i∈I
46
CHAPITRE 4. P GRAND, SPARSITÉS
3. Pour tous r > q, il existe Cr , tel que
X
∀λ > 0,
|ai |r 1|ai |≤λ ≤ Cr λr−q .
i∈I
4. Il existe r > q, Cr , such that :
X
∀λ > 0,
(|ai | ∧ λ)r ≤ Cr λr−q .
i∈I
5. Pour tous r > q, il existe Cr , such that :
X
∀λ > 0,
(|ai | ∧ λ)r ≤ Cr λr−q .
i∈I
6. |a|(n) ≤ Cn−1/q , ∀n ∈ N∗ .
Finalement, on définit
q
q
lq,∞ (I) := θ = (θi )i∈I , / sup λ #{i ∈ I/|θ|i ≥ λ} := kθklq,∞ (I) < ∞ . (4.3)
λ>0
Preuve : Nous démontrerons que 2 =⇒ 1 =⇒
5 =⇒ 4 =⇒ 3 =⇒ 2.
P 6 =⇒
r
2 =⇒ 1 : Supposons qu’il existe r > q, tel que, i |ai | 1|ai |≤λ #{i} ≤ Cr λr−q ,
P
#{2j+1 λ > |ai | ≥ 2j λ}
#{i ∈ I, |ai | ≥ λ} =
Pj≥0 j −r P
|ai |r 12j+1 λ≥|ai |
(2 λ)
≤
Pj≥0 j −r i j+1
≤
λ)r−q
j≥0 (2 λ) Cr (2
≤ Cr0 ( λ1 )q .
1 =⇒ 6 : Car |a|(n) = inf[λ; card {i ∈ I/|a|i > λ} < n] ≤ inf[λ; (C/λ)q
< n] = Cn−1/q .
6 =⇒ 5 :
X
X
(|ai | ∧ λ)r =
(|a(i) | ∧ λ)r
i
i
≤
X
(Ci−1/q )r +
i≥C q λ−q
X
i≤C q λ−q
r
C
≤ C r [C q λ−q ]− q +1 + [ ]q λr
λ
≤ 2C q λr−q
4 =⇒ 3 : Si p0 ≥ r, on a
X
0
|ai |p 1|ai |≤λ ≤
X
≤
X
i
0
|ai |r 1|ai |≤λ λp −r
i
0
(|ai | ∧ λ)r λp −r
i
0
≤ Cp λp −q
λr
4.6. CONTRAINTE DE TYPE SPARSITÉ LQ , ET LQ,∞ , CLASSES DE LORENTZ47
Si p0 < r, on doit raffiner un peu :
X
0
|ai |p 1|ai |≤λ =
XX
≤
XX
i
i
l≥0
0
|ai |p [
i
l≥0
≤c
0
|ai |p 12−l−1 λ≤|ai |≤2−l λ
XX
l≥0
|ai | r−p0
]
1|ai |≤2−l λ
−l−1
2
λ
0
0
|ai |r 1|ai |≤2−l λ 2l(r−p ) λp −r
i
≤ cCr
X
≤ cCr
X
0
0
[2−l λ]r−q 2l(r−p ) λp −r
l≥0
0
0
2−l(p −q) λp −q
l≥0
4
Les propriétés suivantes sont élémentaires mais caractérisent les liens entre
les contraintes lq et les contraintes lq,∞ :
1. ∀ q > 0, ∀ µ, lq (I) ⊂ lq,∞ (I) (puisque P
en utilisant la propriété de
Markov, on obtient : #{i ∈ I/|a|i ≥ λ} ≤ ( |ai |q )λ−q ).
P
P
r
r
2. ∀ r > q; lq,∞ (I) ⊂ lr (I). (Evidemment,
n≥1 |a|(n) ≤
i∈I |ai | =
P
kakrl(q,∞) n≥1 n−r/q ).
4.6.1
Lien avec la contrainte de sparsité ellipsoidale
On voit donc que les contraintes précédentes concernent directement le
nombre de coefficients grands en module sans faire référence à leur ordre. Montrons maintenant que c’est en fait (comme on peut s’y attendre) une contrainte
plus faible que la contrainte ellipsoidale.
Proposition 6 Pour s > 0 et
qs :=
1
s+
1
2
on a
ΘsM ⊂ lqs ,∞ .
Preuve : On remarque que de par l’appartenance à ΘsM , tous les |βi | sont
nécessairement bornés par M , donc on ne va être intéressé que par le comportement des ’petits’ λ (à ecrire mieux)( inférieurs à M ). Calculons en utilisant
48
CHAPITRE 4. P GRAND, SPARSITÉS
les propriétés précédentes,
Card{i, |βi | > λ} =
∞
X
Card{i, |βi | > λ, 2j ≤ i < 2j+1 }
j=0
∞
X
1
≤
2 +
λ2
j=0
j=J+1
J
X
X
j
≤ 2J+1 +
|βi |2
2j ≤i<2j+1
∞
X
1 X
|βi |2
2
λ
j
j=J+1
2 ≤i
∞
X
1
J+1
≤2
+
M 2−2js
2
λ
j=J+1
≤ 2J+1 + M 2−2(J+1)s
λ2 (1
1
.
− 2−2s )
−2
Maintenant, si on choisit J tel que 2J+1 = λ 1+2s = λ−qs on observe que
−2
4s
2−2(J+1)s λ12 = λ 1+2s −2 = λ 1+2s . On en déduit qu’il existe une constante c(s, M )
telle que
Card{i, |βi | > λ} ≤ c(s, M )λ−qs .
4
4.6.2
Minimax : bornes inférieures sur les espaces de
types lp , et lq,∞
Plaçons nous maintenant dans le cadre asymptotique (σn −→ 0) et considérons
la classe d’estimateurs dont les coordonnées sont soit β̂i soit 0
C = {β̂(n)/ β̂(n)i ∈ {β̂i , 0}}.
La différence avec la classe précédente réside dans le fait que les 0 peuvent être
placés n’importe où et non plus seulement à la fin. On a donc une classe plus
grande. On a alors la proposition suivante,
Proposition 7 Pour 0 < q ≤ 2, si on désigne par
Θq,∞ (M ) := {β, sup Card{i, |βi | > λ}λq ≤ M }
λ>0
il existe une constante C(M ) telle que :
inf Env(β̂(n), Θq,∞ (M )) ≥ C(M )σn2−q .
β̂(n)∈C
4.6. CONTRAINTE DE TYPE SPARSITÉ LQ , ET LQ,∞ , CLASSES DE LORENTZ49
Preuve : On a, si β̂(n) ∈ C :
E
p
X
2
(β̂(n)i − βi ) ≥
p
X
E(β̂i − βi )2 ∧ βi2
i=1
i=1
=
p
X
σn2 ∧ βi2
i=1
=
σn2 Card{|βi |
>
σn2 }
+
p
X
βi2 I{|βi | ≤ σn2 }
i=1
On en déduit qu’il existe des constantes, telles que
p
X
(β̂(n)i − βi )2 ≥
E
sup
β∈Θq,∞ (M )
sup
σn2 Card{i,
|βi | > σn } +
β∈Θq,∞ (M )
i=1
p
X
βi2 I{|βi | ≤ σn }
i=1
p
≥ C(M )[σn2 Card{i, |i−1/q | > σn } +
X
(i−1/q )2 I{i−1/q ≤ σn }]
i=1
=
2C(M )σn2−q .
4 On remarque qu’on a un paralléle intéressant avec le théorème 4 puisque
4s
2 − q = 1+2s
. Dans la prochaine section nous allons montrer qu’en fait
Théorème 6 Pour 0 < q ≤ 2, si on désigne par
Θq,∞ (M ) := {β, sup Card{i, |βi | > λ}λq ≤ M }
λ>0
il existe des constantes C(M ) et C 0 telles que :
C(M )σn2−q ≤ inf Env(β̂(n), Θq,∞ (M )) ≤ C 0 {[log
β̂(n)∈C
1 1/2
] σn }2−q .
σn
50
CHAPITRE 4. P GRAND, SPARSITÉS
Chapitre 5
Méthodes d’estimations
parcimonieuses
1
5.1
Seuillage
Nous allons considérer l’estimateur suivant (appelé estimateur par seuillage)
β̂iT := t(β̂i )
avec
t(u) := uI{|u| ≥ κσn [log
1 1/2
] }
σn
Nous allons montrer le théorème suivant
5.1.1
Quasi minimax optimalité : cas orthonormal homoscédastique
Théorème 7 Pour 0 < q ≤ 2, si on désigne par
Θq,∞ (M ) := {β, sup Card{i, |βi | > λ}λq ≤ M }
λ>0
p
Si κ2 ≥ 4 ∨ 16 loglog1/σ
, il existe une constante C 0 telle que :
n
Env(β̂ T , Θq,∞ (M )) ≤ C 0 {[log
1 1/2
] σn }2−q .
σn
Ce théorème montre que cet estimateur est quasi minimax. Il faut noter qu’il
est non linéaire (en Y ) (noter la différence avec l’estimateur du chapitre précédent
qui -lui- était linéaire. Il est par ailleurs simple à calculer et surtout adaptatif (en ce sens que sa construction ne dépend pas de la connaissance de
q)...
Preuve : Nous allons d’abord démontrer la proposition suivante
1. Copyright @ 2009 Universite Paris-Diderot Dominique Picard
51
52
CHAPITRE 5. MÉTHODES D’ESTIMATIONS PARCIMONIEUSES
Proposition 8
E|β̂i − βi |4 ≤ Cσn4 , ∀ 0 ≤ i ≤ p
1
2 2
P |β̂i − βi | ≥ τ κσn [log ]1/2 ) ≤ σnτ κ /2 , ∀ 0 ≤ i ≤ p.
σn
(5.1)
(5.2)
Remarquons que β̂i − βi suit une loi normale centrée de variance σn2 . (5.1) est
donc une conséquence naturelle de la propriété de ’scaling’ de la loi normale.
(5.2) est une conséquence du lemme suivant :
Lemme 2 Si Z ∼ N (0, 1),
2
2
2
exp −x2
exp −x2
x2 exp −x2
√
√
} ∀x > 0
≤
P
(Z
≥
x)
≤
{
}
∧
{
1 + x2 x 2π
2
x 2π
Preuve :
Posons Φ(x) = P (Z ≥ x), on a
Z ∞
Z ∞
−x2
−v 2 dv
√
Φ(x) =
ϕ(u)du =
exp
exp −xv exp
2
2
2π
x
0
en utilisant le changement de variable u = v +x. Maintenant, en majorant tour
2
à tour exp −xv puis, exp −v2 par 1, puis en intégrant on obtient les majorations
par
exp
−x2
2
2
2
puis
Φ(x) ≥
=
exp −x
√ 2
x 2π
R∞
x
2
√x
2π
x2
u2
2
exp −u2
R∞
x
. Par ailleurs,
√du
2π
2
d(− u1 ) exp −u2 du =
2
√x ( 1
2π x
2
exp −x2 −
R∞
x
2
exp −u2 du)
2
On a utilisé une intégration par partie. On en déduit : Φ(x) ≥ √x2π exp −x2 −
x2 Φ(x). 4 Ce qui finit aussi la démonstration de la proposition.
Passons maintenant à la démonstration du théorème. P
Posons si = κσn [log σ1 n ]1/2 Le risque de l’estimateur E i≤p (β̂i 1|βˆi |>sii − βi )2
peut être séparé en 2 parties :
#
"
# "
X
X
A+B =
E(1|βˆi n |>si |β̂i − βi |2 ) +
E|βi |2 1|βˆi |≤si
i≤p
i≤p,
En ce qui concerne le premier terme, à nouveau on le sépare en deux parties.
P
2
A = A1 + A2 =
i≤p 1|βi |≤si/2 E1|βˆi |>si |β̂i − βi |
P
+ i≤p 1|βi |>si/2 E1|βˆi |>si |β̂i − βi |2
Pour A1 on utilise l’inégalité de Cauchy Schwarz,
E1|βi −βˆi |>si/2 |β̂i − βi |2≤(P (|βi − β̂i |>si/2))1/2 (E|β̂i − βi |4 )1/2.
Donc,
2
i≤p,|βi |≤si/2 E1|βi −βˆi |>si/2 |β̂i − βi |
P
2
2
κ /16
κ /16
≤ C i≤p σn σn2 ≤ pσn σn2
A1 ≤
P
5.2. HORS ORTHONORMALITÉ : RIDGE REGRESSION
53
log p
A1 sera donc du bon ordre dés que κ2 ≥ 16 log(1/σ
.
n)
P
2
A2 ≤
i≤p,|βi |>si/2 E|β̂i − βi |
P
≤ C i≤p,|βi |>si/2 σn2 ≤ Cσn2−q M q ,
en utilisant la définition de Θq,∞ (M ).
En ce qui concerne le deuxième terme, on a
B = B1 + B2 =
B1 ≤
≤
P
n
2
i≤p, |βi |>2si |βi | P (|β̂i | ≤ si)
P
n
+ i≤p, |βi |≤2si |βi |2 P (|β̂i | ≤ si)
n
2
i≤p, |βi |>2si |βi | P (|βi − β̂i | ≥ si)
κ2 /2 P
κ2 /2
2
2σn
M 2.
i≤p, |βi |>2si |βi | ≤ 2σn
P
Ce terme est du bon ordre dès que κ2 ≥ 4. Maintenant le dernier terme se
majore en utilisant
de Θq,∞ (M ) :
P la définition
2
q
B2 ≤
|β
|
≤
M
[2si]2−q , qui est exactement du bon ordre.
i
|βi |≤2si
4
5.2
Hors orthonormalité : Ridge regression
La ’Ridge’ (traduction : crête, arête...) regression consiste à ’contracter’ les
coefficients, en imposant une contrainte de pénalisation sur leur taille. Plus
précisément, on a la définition suivante :
β̂
ridge
p
n
X
X
2
:= Argminβ
(Yi − [Xβ]i ) + λ
βi2 }.
i=1
i=1
Ici λ ≥ 0 est un paramétre de réglage qui contrôle la quantité de ’contraction’
qu’on va imposer à l’estimateur : λ = 0 correspond aux MCO, à l’inverse λ
très grand pousserait à prendre tous les coefficients égaux à 0. En utilisant les
multiplicateurs de Lagrange, on peut montrer que pour tout λ, il existe u tel
que β̂ ridge est aussi solution de
β̂
ridge
:= Argminβ
n
X
(Yi − [Xβ]i )2
i=1
sous contrainte
p
X
βi2 ≤ u.
i=1
Ce qui montre de façon explicite, la contrainte sur les paramètres. L’idée de
base de cette régression tient à la possibilité de correlation entre les colonnes
X j (précisément, le cas non orthonormal). Dans ce cas, il est clair que s’il y a
de fortes corrélations entre plusieurs colonnes, la matrice X 0 X devient quasiment (ou effectivement... ) non inversible, ce qui entraine une instabilité dans
la détermination des βi (ou simplement une grande variance pour ces coefficients). Par exemple, on voit bien que si deux colonnes (X 1 et X 2 par exemple)
54
CHAPITRE 5. MÉTHODES D’ESTIMATIONS PARCIMONIEUSES
sont presque égales, on peut artifiellement augmenter le coefficient β̂1 positivement, à condition de compenser négativement sur β̂2 . Evidemment, imposer
une contrainte sur la taille des coefficients réduira ce genre d’aberration.
Il est simple de montrer que comme la matrice [X t X + λI] est inversible,
on a
β̂ ridge = [X t X + λI]−1 X t Y.
(5.3)
On voit en particulier que même si X t X n’est pas inversible (par exemple parce
que p est très grand) la formule (5.3) aura un sens. C’est la raison historique
pour l’introduction de cet estimateur. On voit aussi (exercice) que dans le cas
orthonormé n1 X t X = I, cet estimateur vaut
β̂i
ridge
=
M CO
1
β̂
λ i
1+ n
(ce qui explique l’idée de contraction) et a un risque qui vaut
X ridge
E
(β̂i
− βi )2 = (1 + λ/n)−2 pσn2 +
i≤p
(λ/n)2 X 2
β .
(1 + λ/n)2 i≤p i
Il est intéressant de noter que dans ce cas, la méthode Ridge est moins intéressante
qu’une méthode qui annule certain coefficients soit de maniére linéaire soit par
seuillage si l’on sait que l’on cherche un paramètre sous contrainte de sparsité.
Il est aussi intéressant de considérer le cas où la matrice X = D est une matrice diagonale à coefficients vi > 0 décroissants. i.e. Yi = vi βi + εi , l’estimateur
des MCO est
Yi
β̂i = .
vi
on a alors, en ce qui concerne l’estimateur ridge
β̂iridge =
vi2
β̂i .
vi2 + λ
(5.4)
On est donc amené à pénaliser fortement les β̂i qui correspondent aux vi les plus
petits. On retrouvera cette interprétation plus bas. Le risque de l’estimateur
ridge vaut dans ce cas :
E
X
i≤p
(β̂i
ridge
− βi )2 =
X
i≤p
vi2
λ2 βi2
2
σ
+
.
(vi2 + λ)2
(vi2 + λ)2
On voit que dans ce cas on peut améliorer la performance par rapport à l’estimateur MCO par exemple.
5.2.1
Ridge regression, interprétation Bayesienne
(voir l’appendice pour les estimateurs bayesiens) On peut se placer dans
un cadre bayesien pour interpréter cet estimateur. Supposons en effet que l’on
suppose σ connu et que l’on mette sur βl une loi de type Normale centrée et
5.2. HORS ORTHONORMALITÉ : RIDGE REGRESSION
55
de matrice de covariance τ 2 I. Les βl étant supposés indépendants. Il est alors
clair que la loi a posteriori admet une densité proportionnelle à :
p
X
1 X
2
2
exp − 2 { (Yi − [Xβ]i ) + σ λ
βi2 }.
2σ i≤n
i=1
2
Il est donc évident que si on fixe λ = στ 2 , β̂ ridge est le mode de cette loi a
posteriori. Comme par ailleurs, cette loi a posteriori est Normale, sa moyenne
est aussi son mode. Donc β̂ ridge est l’estimateur Bayesien associé à une perte
quadratique ou à une perte de type l1 .
5.2.2
ACP et Ridge
ACP
X t X est une matrice p × p symétrique. Donc il existe une matrice orthogonale V (V t = V −1 ) et une matrice D2 diagonale (positive ou nulle) telle
que
X t X = V D2 V t .
(5.5)
Les vecteurs colonnes vi de V sont les vecteurs propres de X t X et sont appelés les composantes principales de X (ou encore décomposition de KarhunenLoeve). Les éléments de la matrices diagonale D2 sont les valeurs propres associées à ces vecteurs propres. Supposons-les ordonnés par ordre décroissant.
Interprétation de l’ACP
Cette décomposition a beaucoup de propriétés remarquables. On en donne
souvent l’interprétation suivante. Si l’on suppose que les lignes de X sont en
fait des réalisations de vecteurs aléatoires centrés, de matrice de covariance Γ,
indépendants et de même loi. Alors n1 X t X est une estimation de la matrice de
covariance Γ, et si l’on assimile Γ et n1 X t X (estimation parfaite) ; Alors, v1 , la
première composante principale a la propriété que z1 = Xv1 est la réalisation
de n copies indépendantes d’une variable aléatoire centrée de variance v1t Γv1 =
v1t n1 X t Xv1 = n1 d21 . C’est donc parmi les combinaisons linéaires (normées) de X,
celle qui est la plus variante. On peut poursuivre le raisonnement en cherchant
la combinaison linéaire (normées), orthogonale à la précédente, la plus variante.
On trouve alors v2 , et ainsi de suite.
ACP et Ridge
Supposons pour simplifier que X t X est inversible. (Sinon, on peut mettre
à jour la plupart de ce qui suit avec quelques précautions) Si on introduit la
matrice
U = XV D−1 .
Cette matrice n × p est donc constituée de p vecteurs de Rn qui sont orthonormés par construction. (U t U = I). Par ailleurs l’estimateur des MCO, β̂
vérifie :
X β̂ = X(X t X)−1 X t Y = XV D−2 V t X t Y = U U t Y.
56
CHAPITRE 5. MÉTHODES D’ESTIMATIONS PARCIMONIEUSES
Par ailleurs, l’estimateur ridge β̂ ridge vérifie :
X β̂ ridge = X[X t X + λI]−1 X t Y
= X[V D2 V t + λV V t ]−1 X t Y
= XV [D2 + λI]−1 V t X t Y
= U D[D2 + λI]−1 DU t Y
p
X
d2j
=
uj 2
utj Y
d
+
λ
j
j=1
où les uj sont les vecteurs colonnes de la matrice U . Si on compare donc les
2 formules précédentes, exprimées sur la base des ui MCO et ridge calculent
leurs coordonnées par simple projection de Y sur cette base, la différence, c’est
d2j
que ridge ’contracte’ chaque coefficient d’un facteur d2 +λ
. Donc on contracte de
j
plus en plus à mesure que dj diminue. Maintenant, si on revient au paragraphe
précédent, on a ui = d−1
i zi . On contracte donc le plus les directions de l’espace
qui ont le moins de variance.