Université Paris 7- Denis Diderot Notes de cours pour le Module

Transcription

1
Université Paris 7- Denis Diderot
Notes de cours pour
le Module
DATA MINING
Dominique Picard
1
1. Copyright @ 2009 Universite Paris-Diderot Dominique Picard
2
Table des matières
1 Introduction aux modèles de régression
2
5
Modèle de régression linéaire
2.1 Description du modèle . . . . . . . . . . . . . . . . . . . . . .
2.1.1 Exemples . . . . . . . . . . . . . . . . . . . . . . . . .
2.2 Méthode des Moindres Carrés Ordinaires . . . . . . . . . . . .
2.3 Estimation de β . . . . . . . . . . . . . . . . . . . . . . . . . .
2.3.1 Interprétation géométrique . . . . . . . . . . . . . . . .
2.3.2 Calcul récursif, Méthode de Gram Schmidt . . . . . .
2.4 Lois des estimateurs. Estimation de σ 2 . . . . . . . . . . . . . .
2.5 Théorème de Gauss Markov et Moindres Carrés pondérés. . .
2.6 Etude du modèle ajusté : estimation et tests . . . . . . . . . .
2.6.1 Intervalles de confiance pour a∗ β et σ 2 . . . . . . . . .
2.6.2 σ 2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
2.6.3 Test d’une sous hypothèse linéaire. . . . . . . . . . . .
2.6.4 Résolution . . . . . . . . . . . . . . . . . . . . . . . . .
2.6.5 Calcul pratique de F . . . . . . . . . . . . . . . . . . .
2.6.6 Version ’RSS’ de ce test . . . . . . . . . . . . . . . . .
2.7 Exemples :Etude du modèle ajusté en pratique . . . . . . . . .
2.7.1 Significativité globale : le test dit du R2 . . . . . . . .
2.7.2 Etude de la validité du modèle : Tests non paramétrique
sur les résidus . . . . . . . . . . . . . . . . . . . . . .
2.7.3 Significativité de chacune des variables explicatives . .
2.8 Multi-colinéarité . . . . . . . . . . . . . . . . . . . . . . . . .
2.8.1 Diagnostics . . . . . . . . . . . . . . . . . . . . . . . .
2.8.2 Modèles curvilinéaires . . . . . . . . . . . . . . . . . .
2.9 Sélection de variables et Choix de modèles . . . . . . . . . . .
2.9.1 Statistique de Fisher : . . . . . . . . . . . . . . . . . .
2.9.2 Critères de choix : AIC, BIC, Cp . . . . . . . . . . . .
2.9.3 Algorithmes de sélection . . . . . . . . . . . . . . . . .
2.10 Théorèmes de Student et de Cochran . . . . . . . . . . . . . .
3 Régression non paramétrique
3.1 Modèle . . . . . . . . . . . . . .
3.2 Réduction à un modèle linéaire
3.2.1 Base polynomiale . . . .
3.2.2 Base trigonométrique . .
3
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
7
7
8
9
9
10
12
13
14
17
17
18
18
19
20
20
21
21
.
.
.
.
.
.
.
.
.
.
22
23
24
24
25
25
25
26
26
27
.
.
.
.
31
31
31
32
32
4
TABLE DES MATIÈRES
3.3
3.4
3.5
3.6
3.2.3 Base de Haar . . . . . . . . .
3.2.4 Base d’ondelettes . . . . . . .
Estimation de f par projection . . .
3.3.1 Dans la base trigonométrique
3.3.2 Dans la base de Haar . . . . .
Calcul de l’erreur . . . . . . . . . . .
3.4.1 Base de Fourier . . . . . . . .
3.4.2 Base d’ondelettes . . . . . . .
Optimalité . . . . . . . . . . . . . . .
Méthode des noyaux . . . . . . . . .
3.6.1 Choix de la fenêtre . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
4 p grand, Sparsités
4.1 Evaluation de la prédiction . . . . . . . . . . . . . . . . . . . .
4.2 Le cas orthonormal : X ∗ X = Ip . . . . . . . . . . . . . . . . .
4.3 Contraintes de sparsité de type ellipsoidales . . . . . . . . . .
4.4 Cadre ’minimax’ . . . . . . . . . . . . . . . . . . . . . . . . .
4.5 Résolution minimax sous contrainte de sparsité ellipsoidale, cas
orthonormal . . . . . . . . . . . . . . . . . . . . . . . . . . . .
4.5.1 Le cas diagonal décroissant . . . . . . . . . . . . . . . .
4.5.2 Cadre asymptotique . . . . . . . . . . . . . . . . . . .
4.6 Contrainte de type sparsité lq , et lq,∞ , Classes de Lorentz . . .
4.6.1 Lien avec la contrainte de sparsité ellipsoidale . . . . .
4.6.2 Minimax : bornes inférieures sur les espaces de types lp ,
et lq,∞ . . . . . . . . . . . . . . . . . . . . . . . . . . .
.
.
.
.
.
.
.
.
.
.
.
33
33
33
34
34
35
35
37
38
39
40
.
.
.
.
41
41
42
42
43
.
.
.
.
.
43
44
45
45
47
. 48
5 Méthodes d’estimations parcimonieuses
51
5.1 Seuillage . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51
5.1.1 Quasi minimax optimalité : cas orthonormal homoscédastique 51
5.2 Hors orthonormalité : Ridge regression . . . . . . . . . . . . . . 53
5.2.1 Ridge regression, interprétation Bayesienne . . . . . . . . 54
5.2.2 ACP et Ridge . . . . . . . . . . . . . . . . . . . . . . . . 55
5.3 LASSO . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 56
5.3.1 LASSO, cas orthonormal, X t X = I . . . . . . . . . . . . 56
5.3.2 LASSO, interprétation Bayesienne . . . . . . . . . . . . . 57
5.4 AIC, BIC, méthodes pénalisées . . . . . . . . . . . . . . . . . . 57
5.5 Appendice : Méthodes bayesiennes en statistique classique . . . 58
5.6 Calcul de loi a posteriori, Exemples . . . . . . . . . . . . . . . . 59
5.7 Calcul de l’estimateur bayesien. . . . . . . . . . . . . . . . . . . 60
5.7.1 Perte quadratique ou de type L1 . . . . . . . . . . . . . . 60
5.7.2 Problème de classification. . . . . . . . . . . . . . . . . . 64
Chapitre 1
Introduction aux modèles de
régression
1
Une première citation de H.G. Wells (1866-1946) : ’Statistical
thinking will one day be as necessary for efficient citizenship as the
ability to read and write.’
Une deuxième citation de Hal Varian, The McKinsey Quarterly,
January 2009 : “I keep saying the sexy job in the next ten years will
be statisticians. ”
Je remercie Karine Tribouley pour m’avoir communiqué son cours à Paris
X Nanterre. Je lui ai emprunté certaines parties.
Le modèle de régression est probablement le modèle le plus vaste et le plus
utilisé et étudié (encore maintenant des milliers d’articles paraissent dans des
revues mathématiques chaque année sur le sujet) en statistique.
Il consiste à proposer une modélisation dans le cas de figure suivant. Pour
employer un vocabulaire d’économiste, on dispose d’une variable endogène ou
expliquée que l’on note généralement Y et d’un certain nombre p de variables
exogènes ou explicatives que l’on note généralement X 1 , . . . , X p . Les variables
X j pour j = 1, . . . , p apparaissant comme les causes d’un phénomème et la
variable Y comme une conséquence, on a envie d’écrire qu’il existe une relation
fonctionnelle entre la variable Y et les variables X j pour j = 1, . . . , p soit
Y = f (X 1 , . . . , X p )
pour une certaine fonction f sur laquelle on veut avoir des informations.
Le but de ce cours est d’étudier les principales méthodes d’estimation de
cette fonction f lorsqu’on dispose de n données sur les variables Y, X 1 , . . . , X p .
Nous serons amenés à distinguer le cas où p < n du cas où p >> n, plus
difficile mais aussi très important dans le cadre actuel marqué plutot par la
surabondance des données.
5
6
CHAPITRE 1. INTRODUCTION AUX MODÈLES DE RÉGRESSION
Suivant les hypothèses que l’on est pret à faire a priori, plusieurs méthodes
seront envisagées. En particulier nous envisagerons plusieurs types de modèles.
– le modèle linéaire : f est supposée être une fonction linéaire. On s’intéresse
à des variables X j quantitatives.
– L’ANOVA ou le modèle logistique : f est supposée être linéaire. On
s’intéresse à des variables X j qualitatives ou catégorielles.
– le modèle de classification où les variables X j sont quantitatives et où la
variable Y est qualitative.
– le modèle paramétrique : f est supposée dépendre d’un paramètre θ
inconnu. Mais la forme f := fθ est connue.
– le modèle non paramétrique : f est supposée être complêtement inconnue.
Cependant, on suppose qu’elle admet une certaine régularité.
Ces modèles sont très utilisés dans la pratique et dans de nombreux domaines. Donnons quelques exemples.
– Dans le domaine de l’économie : En vue d’une politique de relance par
la consommation, on veut connaitre l’influence du revenu sur la consommation. Soit R le revenu d’un ménage et C sa consommation. L’INSEE
modélise généralement la relation entre R et C par un modèle linéaire
R = a + bC.
Le paramètre a représente la consommation incompressible d’un ménage
(même sans revenu) et le paramètre b est appelé la propension marginale à consommer. Une estimation de b proposée par l’INSEE est
environ 0.8.
– Dans le domaine de la biomédecine : On veut évaluer le risque d’apparition d’un cancer selon que la personne a été (ou non) exposée au
tabac. La variable explicative est ici X qui prend 2 valeurs (”Fumeur”
ou ”NonFumeur”) et la variable à expliquer est Y qui est une probabilité
de risque (valeur comprise entre 0 et 1). On propose comme modèle
Logit(Y ) = a + bX.
– Dans le domaine de l’environnement : il s’agit de prévoir la concentration
d’ozone à partir des variables suivantes : force du vent, température et
concentration d’oxyde d’azote. La forme particulière de la fonction fθ
est donnée par des physiciens qui utilisent des équations provenant de la
mécanique des fluides.
– En signal : On enregistre un concert. On discrétise le signal en échantillonnant
toutes les secondes. On note Yi le signal recu au temps i. Ce signal est
fonction du temps et on modélise par
Yi = f (i) + i
où i contient tous les ”bruits” enregistrés mais indésirables (les toux des
gens, le bruit de la ventilation, ect..).
Chapitre 2
Modèle de régression linéaire
1
Ce modèle de régression est le plus utilisé et le mieux connu de toutes les
personnes traitant des données dans des domaines divers.
2.1
Description du modèle
Soit Y la variable que l’on veut expliquer grâce aux p variables explicatives
X , . . . X p . On note X la matrice n×p qui contient les échantillons des variables
X j pour j = 1, . . . p :
X = Xij 1≤i≤n,1≤j≤p .
1
La modélisation dite de régression linéaire multiple est la suivante
Yi = β1 Xi1 + . . . + βp Xip + i ,
1≤i≤n
ce qui est équivalent, en écriture matricielle à
Y
=
X
β
+
(n, 1)
(n, p) (p, 1)
(n, 1)
(2.1)
avec :
1. β est un paramètre de Rp inconnu et non aléatoire.
2. on impose au vecteur aléatoire de RN :
– centrage : E() = 0n .
– indépendance et homoscédasticité : notons Σ la matrice de variancecovariance de . Alors Σ = σ 2 Idn pour σ 2 > 0 inconnu, déterministe.
On ne connait pas forcément la loi de . On appelle l’erreur ou la
perturbation.
Remarquons qu’en géneral, la constante 1n de Rn fait partie des régresseurs
(par défaut dans les logiciels). Le modèle est dit linéaire car il est linéaire en
les paramètres βj pour j = 1, . . . , p.
La plupart du temps dans ce cours, nous ferons l’hypothèse que les εi sont
i.i.d. de loi normale N (0, σ 2 ).
Une fois la modélisation choisie, il s’agit d’estimer les paramètres inconnus
β, σ 2 du modèle (il y en a donc p + 1 au total).
7
8
CHAPITRE 2. MODÈLE DE RÉGRESSION LINÉAIRE
2.1.1
Exemples
1. Comparaison de 2 populations de même variance : On dispose de 2
0
échantillons Z1 , . . . , Zm i.i.d. N (µ1 , σ 2 ) et Z10 , . . . , Zm
i.i.d. N (µ2 , σ 2 ). On
les concatène pour former le vecteur
0 ∗
Y = (Z1 , . . . , Zn , Z10 , . . . , Xm
) = (Y1 , . . . , Ym+n )∗
Si on considère la matrice X de taille n × 2, telle que
1
1
X11 = . . . = Xn1 = 1, Xn+1
= . . . = Xn+m
=0
2
2
X12 = . . . = Xn2 = 0, Xn+1
= . . . = Xn+m
=1
et le vecteur β = (µ1 , µ2 )∗ , il est facile de mettre notre modèle sous la
forme (2.1).
2. Droite de régression. Supposons que l’on sache par des arguments théoriques
( agronomiques, biologiques, économiques, physiques,...) que 2 quantités
x (par exemple le temps) et y (par exemple la taille d’un animal) sont
liées par une équation affine de la forme y = ax + b, dont on veut identifier les coefficients a et b. Une façon de procéder est de mesurer yi pour
différentes valeurs de xi (appelée variable contrôlée ) et de modèliser
les erreurs par des N (0, σ 2 ) indépendantes. On a alors la représentation
(2.1), avec
X11 = x1 , . . . , Xn1 = xn ,
X12 = . . . = Xn2 = 1,
β
= (a, b)∗
Cet exemple peut se généraliser en remplaçant la relation affine par une
relation de la forme :
p
X
y=
βj fj (x)
j=0
Une régression polynomiale s’obtient par exemple en prenant
f0 = 1, f1 (x) = x, . . . , fp (x) = xp
3. On appelle Analyse de la variance (Anova) le cas où la matrice X est
uniquement constituée de 1 et de 0.
Donnons un exemple : Dans des conditions de culture de référence (0),
une variété de blé a un rendement moyen de µ. On la soumet, dans des
parcelles expérimentales à un traitement à 2 facteurs :
1er facteur (par exemple, un engrais) auquel, outre le niveau 0 de référence,
on donne 2 niveaux, notés 1 et 2 (par exemple, 2 doses différentes d’engrais).
2eme facteur (par exemple, un niveau d’ensoleillement) auquel on donne
soit le niveau de référence 0 soit le niveau 1.
2.2. MÉTHODE DES MOINDRES CARRÉS ORDINAIRES
9
Le modèle de base choisi est le suivant :
y = µ + αi + βj
Il est dit additif : Le effets des facteurs s’ajoutent simplement sans interférences. αi représente l’effet du 1er facteur au niveau i = 0, 1, 2, βj
représente l’effet du 2eme facteur au niveau j = 0, 1. α0 = β0 = 0. Le
terme additif signifie que les effets des 2 facteurs s’ajoutent. Il est clair
qu’on aurait pu aussi rajouter “une interaction” de la forme γij , mais
par souci de simplicité, nous ne l’avons pas fait ici.
Le but est d’obtenir des informations (estimation ou test) sur les αi et
les βj . Pour cela, on réalise une expérimentation : On divise un champs
en parcelles numérotées (6, dans l’exemple qui suit). Sur chaque parcelle,
on applique les facteurs à un niveau prescrit. La description des niveux
affectés aux parcelles s’appelle le plan de l’expérience. Ici, il est donné
par le tableau suivant.
Parcelle 1 2 3 4
Facteur 1 0 1 2 0
Facteur 2 0 0 0 0
5 6
1 0
0 1
Si l’on suppose que l’on modèlise le rendement sur chaque parcelle par un
effet de type (3) auquel s’ajoute une erreur N (0, σ 2 ), et si l’on suppose
les erreurs indépendantes, on obtient une équation du type Y = Xβ + ε,
où Y est le vecteur des rendements, ε est le vecteur des erreurs, β =
(µ, α1 , α2 , β1 )∗ et X est la matrice suivante


1 0 0 0
 1 1 0 0 


 1 0 1 0 


X=

1
0
0
0


 1 1 0 0 
1 0 0 1
2.2
Méthode des Moindres Carrés Ordinaires
2.3
Estimation de β
Nous allons utiliser ici la méthode dite des moindres carrés : Pour cela, on
introduit la fonction,
n
X
γ(β, Y ) =
(Yi − (Xβ)i )2
i=1
Cette fonction mesure la distance dans Rn entre le vecteur Y et sa prédiction
par Xβ. Il est relativement naturel de choisir comme estimateur de β, un point
β̂ rendant cette quantité minimum.
β̂ = Argmin{γ(β, Y ); β ∈ Rp }
10
2.3.1
Interprétation géométrique
Si β parcourt Rp , Xβ parcourt l’espace vectoriel V engendré, dans Rn , par
les colonnes de la matrice X :
V = X(Rp ) ⊂ Rn
Comme γ(β, Y ) = kY − Xβk2 , nécessairement X β̂, existe, est unique puisque
c’est la projection sur V de Y , X β̂ = ProjV (Y ). On en déduit que β̂ existe
aussi toujours, mais n’est unique que si X est injectif.
Proposition 1 Si p ≤ n, la matrice X, de dimension n × p est injective si et
seulement si X ∗ X est inversible.
Démonstration de la Proposition.
Il sufit de démontrer que ker(X) = ker(X ∗ X). Il est clair que ker(X) ⊂
ker(X ∗ X). Maintenant, soit u ∈ ker(X ∗ X), on a X ∗ Xu = 0, d’où u∗ X ∗ Xu =
0, i.e. kXuk2 = 0 =⇒ Xu = 0 =⇒ u ∈ ker X.
Résolution algébrique
X β̂ = ProjV (Y ) ⇐⇒ hY − X β̂, Xbi = 0,
⇐⇒ b∗ X ∗ Y = b∗ X ∗ X β̂,
⇐⇒ X ∗ Y = X ∗ X β̂
∀b ∈ Rp
∀b ∈ Rp
D’oú, en utilisant la proposition si X est injective,
β̂ = (X ∗ X)−1 X ∗ Y
Remarque : Si X ∗ X n’est pas inversible, on n’a pas unicité de β̂, mais existence.
Donnons une solution, utilisant la pseudoinverse : X ∗ X étant une matrice
symétrique, positive, elle s’écrit M ∗ DM avec M matrice orthogonale et D
est une matrice diagonale, dont les coefficients diagonaux sont notés ri2 . On
suppose ri2 > 0, ∀i = 1, . . . , k, ri2 = 0, ∀i ≥ k + 1. Appelons pseudoinverse de
X ∗ X la matrice

 1
... ... 0 0 0
r12


...


1


(X ∗ X)(−1∗) = M ∗  0 . . . rk2 . . . 0 0  M


..


.
0
...
0
... 0 0
Notons que si X ∗ X est inversible, alors pseudoinverse et inverse coincident.
On vérifie facilement que
β̂ = (X ∗ X)(−1∗) X ∗ Y
est une solution de notre problème, et que l’opérateur de projection sur V est
donné par :
X β̂ = X(X ∗ X)(−1∗) X ∗ Y = ProjV (Y )
2.3. ESTIMATION DE β
11
4
Rappelons que si V ⊥ est le supplémentaire orthogonal de V ,
ProjV ⊥ (Y ) = Y − ProjV (Y ) = [In − ProjV ](Y ) = [In − X(X ∗ X)−1 X ∗ ]Y
Définition 1 On appelle vecteur des résidus, le vecteur
ε̂ = [In − X(X ∗ X)−1 X ∗ ]Y.
Il représente l’erreur de prédiction. Le carré de sa norme s’appelle l’erreur
quadratique.
Exemples :
1. Dans le cas élémentaire suivant :
Y i = µ + εi
l’estimateur
des moindres carrés se calcule facilement et vaut Ȳn =
Pn
i=1 Yi
.
n
2. Dans le cas d’une régression linéaire, nous avons vu que β = (a, b)∗ et


x1 1


X =  ... ... 
xn 1
De sorte que
Pn 2 Pn
xi
xi
i=1
i=1
P
X X=
n
n
i=1 xi
∗
Dans ce cas, un changement de paramètres
peut rendre les choses plus
Pn
i=1 xi
aisées : En effet, si on introduit x̄n = n , le modèle s’ecrit :
Yi = azi + b0 + εi , zi = xi − x̄n , b0 = b + x̄n
P
P
et clairement minimiser ni=1 (Yi −azi +b0 )2 équivaut à minimiser ni=1 (Yi −
axi + b)2 , avec la relation suivante b̂0 = b̂ + âx̄n . L’équation (2) introduit
un nouveau modèle linéaire dont la matrice X 0 s’écrit :
Pn 2
zi 0
0∗ 0
i=1
X X =
0
n
P
Cette matrice est inversible si et seulement si ni=1 zi2 6= 0, c’est à dire si
les xi ne sont pas tous égaux. Dans ce cas, on obtient facilement :
Pn
(xi − x̄n )Yi
â = Pi=1
, b̂ = Ȳn + âx̄n
n
2
i=1 (xi − x̄n )
12
3. Considérons maintenant la régression périodique suivante :
i
i
Yi = a0 + a1 cos(2π ) + a2 sin(2π ) + εi , i = 1, . . . , n
n
n
On vérifie que en utilisant les relations sur les racines de l’unité que X ∗ X
se met sous la forme suivante :
 


Pn
Pn
i
i
)
sin(2π
)
n
0
0
n
cos(2π
i=1
i=1
n
n
P
Pn
Pn
i
i 2
 ni=1 cos(2π i )
) sin(2π ni )  =  0 n2 0 
i=1
i=1 cos(2π n )
n
n
Pn
P
Pcos(2π
n
n
i
i
i
i 2
0 0 n2
i=1 sin(2π n )
i=1 cos(2π n ) sin(2π n )
i=1 sin(2π n )
On en déduit que
â0 = Ȳn , â1 =
n
X
i=1
n
X
i
i
sin(2π )Yi
cos(2π )Yi , â2 =
n
n
i=1
4
2.3.2
Calcul récursif, Méthode de Gram Schmidt
Nous proposons ici une méthode pour calculer β̂ de façon récursive. Appelons X j la colonne numéro j de la matrice X pour 1 ≤ j ≤ p.
Considérons le cas suivant dans lequel les MCO sont particulièrement faciles
à calculer : Supposons que les colonnes de X soient orthogonales (i.e. X t X
est une matrice diagonale
P dont les coeficients diagonaux sont les carrés des
normes des colonnes : ni=1 [Xij ]2 = hX j , X j i. Dans ce cas, les coefficients β̂j
valent simplement :
hX j , Y i
β̂j =
hX j , X j i
Rappelons nous maintenant le procédé d’orthonormalisation de Gram Schmidt
qui pour des vecteurs quelconques u1 , . . . , uk (tels que l’espace engendré par ces
vecteurs (sp {u1 , . . . , uk }) soit de dimension k) introduit les vecteurs v1 , . . . , vk
qui sont orthogonaux et vérifient sp {u1 , . . . , ul } = sp {v1 , . . . , vl }, pour tout
1 ≤ l ≤ k. Ce procédé consiste simplement à construire les vl sous la forme
suivante : v1 = u1 ,
v` = u` − Pv`−1 u` − . . . − Pv1 u` ,
` ≥ 2.
(Pvj désigne la projection sur le vecteur vj ).
Remarquons que pour 1 ≤ j ≤ ` − 1,
Pvj u` =
hvj , u` i
.
hvj , vj i
De plus comme les vj sont orthogonaux, Pv`−1 u` +. . .+Pv1 u` est la projection de
u` sur l’espace sp{v1 , . . . , v`−1 }. Donc vl est en fait le ’résidu’ de la projection
de la projection de u` sur l’espace sp{v1 , . . . , v`−1 }.
Considérons maintenant, dans le cas p ≤ n et où la matrice X est de rang
p, l’algorithme suivant :
2.4. LOIS DES ESTIMATEURS. ESTIMATION DE σ 2 .
13
– Initialisation : Z 1 = X 1
– Pour l = 2 jusqu’à p calculer : Z l le résidu de la projection de X l sur
Z l−1 , . . . , Z 1 , i.e.
hZ l−1 , X l i l−1
hZ 1 , X l i 1
Z = X − l−1 l−1 Z − . . . − 1 1 Z .
hZ , Z i
hZ , Z i
l
l
Montrer qu’alors
β̂p =
hZ p , Y i
.
hZ p , Z p i
En changeant l’ordre des colonnes de la matrice X, on peut s’arranger pour
faire apparaitre X j en dernier pour chaque j. Cela donne une façon de calculer
les β̂j sans inverser la matrice. (Attention on a donc p calculs différents.)
Cet algorithme permet aussi de mesurer les problèmes qui peuvent arriver
au cours d’une telle estimation. Supposons en effet que le vecteur X p soit très
corrélé avec (par exemple) X p−1 (ou soit proche d’une combinaison linéaire
de X 1 , . . . , X p−1 ) ; dans ce cas le résidu Zp va être très petit et par voie de
conséquence l’estimation de β̂p très instable.
2.4
Lois des estimateurs. Estimation de σ 2.
Nous allons maintenant montrer la proposition suivante sous l’hypothèse
que les εi sont i.i.d. N (0, σ 2 ) :
Proposition 2 Sous la condition, p ≤ n, X ∗ X inversible, le vecteur de dimension p + n :
β̂
ε̂
est un vecteur gaussien de moyenne et variance :
β
0
,
σ
2
(X ∗ X)−1
0
0
In − X(X ∗ X)−1 X ∗
Preuve de la Proposition
Espérances et variances de β̂ Dans ce paragraphe, l’hypothèse de gaussiannité sur les εi est inutile. Les résultats sont encore vrais si l’on suppose que
Eε = 0, Varε = σ 2 In .
Comme β̂ = (X ∗ X)−1 X ∗ Y , on a Eβ̂ = E(X ∗ X)−1 X ∗ (Xβ + ε) = β.
D’autre part,
Var(β̂) = (X ∗ X)−1 X ∗ [Var(Y )]X(X ∗ X)−1
= (X ∗ X)−1 X ∗ [Var(εX)](X ∗ X)−1
= σ 2 (X ∗ X)−1 X ∗ X(X ∗ X)−1 = σ 2 (X ∗ X)−1 .
14
Loi du vecteur Le vecteur
β̂
ε̂
est fonction linéaire du vecteur Y , c’est donc un vecteur gaussien. Nous avons
calculé la moyenne de β̂ au paragraphe précédent. Il est immédiat que Eε̂ = 0.
Nous avons vu que : X β̂ = ProjV (Y ) = Xβ + e avec e = ProjV (ε).
De plus, ε̂ = [In − ProjV ](Y ) = ProjV ⊥ (Y ) = ProjV ⊥ (ε) = ε − e.
Soit maintenant P1 = ProjV = X(X ∗ X)−1 X ∗ et P2 = ProjV ⊥ = In −
X(X ∗ X)−1 X ∗ . On a donc X β̂ = Xβ + P1 ε, ε̂ = P2 ε.
Par ailleurs, P1 + P2 = In , rg(P1 ) = dim V = rgX = p, rg(P2 ) = n − p.
On peut donc appliquer le th’eorème de Cochran et en déduire que e et ε̂ sont
indépendants. Par conséquent, X β̂ et ε̂ sont indépendants. Il en est de même
pour X ∗ X β̂ et ε̂, et donc pour β̂ et ε̂. Il nous reste à calculer la matrice de
covariance du vecteur ε̂. Mais, comme ε̂ = P2 ε, elle est égale à σ 2 P2 . Ceci
achève la preuve de la proposition.
Estimation de σ 2 . En appliquant le résultat de la Proposition 3, nous
2
est d’espérance
avons : kε̂k2 suit une loi σ 2 χ2 (n−p). En conséquence, σ̂ 2 = kε̂k
n−p
2
2
σ . C’est donc un estimateur assez naturel de σ .
Construction de nouvelles ’erreurs’ A partir des résidus on peut construire
des nouvelles variables η1 , . . . , ηn−p qui, elles sont i.i.d.N (0, σ 2 )(et indépendantes
de β̂) :
La matrice P2 est une matrice de projection orthogonale, donc P2 = P2∗ =
P22 , de plus c’est une matrice positive. Donc il existe une matrice orthogonale
U (U U ∗ = U ∗ U = In ), telle que
P2 = U ∗ DU
où D est une matrice diagonale telle que ses coefficients diagonaux valent 1
jusqu’à rang(P2 ) = n − p et 0 ensuite. Il est facile de voir que le vecteur
Z = U ε̂ = DU Y = DU ε suit une loi N (0, σ 2 D), ce qui signifie que Zn−p+1 =
. . . = Zn = 0 et si l’on pose η1 = Z1 , . . . , ηn−p = Zn−p les ηi sont les nouvelles
erreurs cherchées : i.i.d. N (0, σ 2 ) (et indépendantes de β̂).
En résumé :
2
σ
β̂ ∼ N (β, σ 2 (X ∗ X)−1 ), σ̂ 2 ∼ n−p
χ2 (n − p)
De plus ces 2 estimateurs sont indépendants.
2.5
Théorème de Gauss Markov et Moindres
Carrés pondérés.
Considérons le modèle suivant :
Y = Xβ + E
2.5. THÉORÈME DE GAUSS MARKOV ET MOINDRES CARRÉS PONDÉRÉS.15
où E est un vecteur gaussien centré, de matrice de covariance σ 2 G. G est une
matrice symétrique définie positive, connue. Un exemple est la matrice


0
0 

,

. . . vn
v1 0 . . .
 0 v2 . . .

G=
..

.
0
0
qui correspond au fait que les observations sont encore indépendantes mais
chaque observation est entachée d’une variance propre (cas hétéroscédastique).
La question que l’on se pose est doit-on, dans ce cas conserver l’estimateur
de β, β̂ = (X ∗ X)−1 X ∗ Y ?
La question se pose avec d’autant plus d’acuité qu’un autre estimateur peut
sembler tout aussi naturel : En effet, on peut assez simplement transformer le
modèle (2.5) en modèle linéaire ordinaire Z = X 0 β + ε : En posant G =
BB ∗ , Z = B −1 Y, X 0 = B −1 X, ε = B −1 E. Dans ce nouveau modèle, on peut
calculer l’estimateur usuel des moindres carrés (on remarque en particulier que
du fait que G est définie symétrique positive, B est inversible) :
β̃ = (X 0∗ X 0 )−1 X 0∗ Z = (X ∗ G−1 X)−1 X ∗ B −1∗ B −1 Y = (X ∗ G−1 X)−1 X ∗ G−1 Y.
Remarques :
1. Remarquons que par définition, cet estimateur rend minimale la quantité :
kB −1 Y − B −1 Xβk2 = (Y − Xβ)∗ G−1 (Y − Xβ)
qui représente la norme du vecteur Y − Xβ, dans la norme G−1 , d’où le
nom donné à cet estimateur de moindres carrés pondérés.
Si on considère le cas particulier où G est diagonale, on doit minimiser
l’expression
n
X
1
(Yi − (Xβ)i )2
2
v
i=1 i
qui tient compte de la crédibilité de chaque observation en raison inverse
de sa variance.
2. Var(a∗ β̃a) = a∗ (X ∗ G−1 X)−1 a..
3. Une autre façon d’énoncer la remarque 1 est d’observer que
PVG = X(X ∗ G−1 X)−1 X ∗ G−1
est la matrice associée à l’opérateur de projection dans V , défini avec la
métrique G−1 . (Rappelons que si A est une matrice symétrique définie
positive de Rn , x∗ Ay définit un produit scalaire sur Rn et on peut donc
considérer la métrique associée.)
16
Remarquons que dans ce cas les relations matricielles PV = PV∗ , PV2 =
PV , In = PV + PV ⊥ valides en métrique euclidienne doivent être remplacées par
PVG = G(PVG )∗ G−1 , (PVG )2 = PVG , In = PVG + PVG⊥,G .
(2.2)
où V ⊥,G désigne le supplémentaire orthogonal de V , pour le produit
scalaire G−1 . Ces relations se démontrent à partir des relations classiques
en observant que
kxk2G−1 = x∗ B −1∗ B −1 x = kB −1 xk2In .
On en déduit facilement que
PVG = BPB −1 V B −1 , V ⊥,G = B(B −1 V )⊥
PVG⊥,G = BP(B −1 V )⊥ B −1
4
Nous allons montrer que cet estimateur possède en fait des propriétés d’optimalité très intéressantes :
Définition 2 L’estimateur β̄ est dit linéaire s’il existe une matrice A telle que
β̄ = AY .
Théorème 1 Considérons le modèle Y = Xβ +E où E est un vecteur aléatoire
centré, de matrice de covariance σ 2 G. G est une matrice symétrique définie
positive, connue. Si β̄ est un estimateur linéaire, tel que Eβ β̄ − β = 0, ∀β ∈
Rp , Alors, il existe R matrice symétrique positive de Rp , telle que Var(β̄) =
Var(β̃) + R.
Remarque : La signification de ce théorème, est que ∀a ∈ Rp , Var(a∗ β̄a) ≥
Var(a∗ β̃a). Or cette inégalité est très importante, en particulier si le vecteur E
est gaussien et que l’on veut construire un intervalle de confiance. En suivant
la démarche du paragraphe suivant, on montre très facilement que dans le cas
σ connu, cet intervalle est
q
q
∗
∗
∗
[a β̄ − zα/2 Var(a β̄a)σ, a β̄ + zα/2 Var(a∗ β̄a)σ]
si on utilise β̄ et
∗
[a β̃ − zα/2
q
Var(a∗ β̃a)σ, a∗ β̃
q
+ zα/2 Var(a∗ β̃a)σ]
si on utilise β̃. Il est clair qu’on a intérêt à prendre la seconde solution puisque
la longueur de l’intervalle est plus petite. 4
Preuve :
Remarquons d’abord que la condition Eβ β̄ − β = 0, ∀β ∈ Rp , se traduit
encore par (AX − In )β = 0, ∀β ∈ Rp , c’est à dire AX = In .
2.6. ETUDE DU MODÈLE AJUSTÉ : ESTIMATION ET TESTS
17
Par ailleurs, Var(β̄) = AGA∗ . Mais on a In = PVG + PVG⊥,G , en utilisant
(2.2). On en déduit :
Var(β̄) = A(PVG + PVG⊥,G )GA∗
= AX(X ∗ G−1 X)−1 X ∗ G−1 GA∗ + APVG⊥,G GA∗
= AX(X ∗ G−1 X)−1 X ∗ A∗ + R
= Var(β̃) + R
On finit la démonstration en remarquant que
R = APVG⊥,G GA∗ = ABPB −1 V ⊥ B −1 BB ∗ A∗ = ABPB −1 V ⊥ B ∗ A∗
Cette quantité est bien symétrique et positive par les propriétés de la projection
en métrique euclidienne.
4
2.6
2.6.1
Etude du modèle ajusté : estimation et
tests
Intervalles de confiance pour a∗ β et σ 2
Soit a∗ un vecteur de L(Rp , R), on se propose d’estimer a∗ β.
Exemples :
1. Si a∗ = (1, 0, . . . , 0), on s’intéresse à estimer β1 .
2. Dans l’exemple d’une comparaison de 2 populations, p = 2, prendre
a∗ = (1, −1) consiste à estimer la différence des moyennes. 4
On va prendre naturellement a∗ β̂ comme estimateur de a∗ β. Nous nous
proposons de construire un intervalle de confiance associé à cette estimation.
Rappel : Supposons que l’on cherche à estimer une quantité q(θ) réelle.
Définition 3 Soit α fixé dans (0, 1). Soit, dans une expérience arbitraire E = (Y, Pθ , θ ∈
Θ), S = hoY, T = h0 oY , 2 estimateurs de q(θ), on dira que [S, T ] est un intervalle de
confiance au niveau α, si
∀θ ∈ Θ,
Pθ {q(θ) ∈ [S, T ]} ≥ 1 − α.
Remarque : Bien entendu, S = −∞, T = ∞ convient toujours mais n’est guère
intéressant. En effet, l’intérêt pratique sera toujours de rendre T − S le plus petit possible.
4
Estimation de a∗ β, σ 2 étant connu
On vérifie que a∗ (β̂ − β) ∼ N (0, σ 2 a∗ (X ∗ X)−1 a), de sorte que si Φ(zα/2 ) =
α/2, où
Φ(u) = P rob(ξ ≥ u), ξ ∼ N (0, 1).
p
p
[a∗ β̂ − zα/2 a∗ (X ∗ X)−1 aσ, a∗ β̂ + zα/2 a∗ (X ∗ X)−1 aσ]
est un intervalle de confiance pour la quantité a∗ β, au niveau d’erreur α.
18
Estimation de a∗ β, σ 2 étant inconnu
On a, outre le fait que a∗ (β̂ −β) ∼ N (0, σ 2 a∗ (X ∗ X)−1 a), σ̂ 2 ∼
De plus ces 2 variables aléatoires sont indépendantes. Donc √
σ̂
σ2
χ2 (n−p)
n−p
a∗ (β̂−β)
a∗ (X ∗ X)−1 a
∼
T (n − p) de sorte que si Φn−p (zα/2,n−p ) = α/2, où
Φn−p (u) = P rob(ξ ≥ u), ξ ∼ T (n − p).
p
p
[a∗ β̂ − zα/2 (n − p) a∗ (X ∗ X)−1 aσ̂, a∗ β̂ + zα/2 (n − p) a∗ (X ∗ X)−1 aσ̂]
est un intervalle de confiance pour la quantité a∗ β, au niveau d’erreur α.
2.6.2
σ2
2
σ
χ2 (n − p), et la définition de P (χ2 (k) >
En utilisant le fait que σ̂ 2 ∼ n−p
cα,k ) = α, on vérifie facilement que
[
σ̂ 2 (n − p) σ̂ 2 (n − p)
,
]
cα,n−p c1−α/2,n−p
est un intervalle de confiance pour la variance au niveau d’erreur α.
2.6.3
Test d’une sous hypothèse linéaire.
Rappel : On se donne un modèle E = (Y, Pθ , θ ∈ Θ). On se donne une partition de Θ en
deux ensembles (non vides) Θ0 et Θ1 . Le but du jeu est alors de décider si θ appartient à
Θ0 ou Θ1 .
Définition 4 Dans le contexte ci-dessus une variable aléatoire φ(X) à valeurs dans {0, 1}
est appelée test. La procédure de décision associée consiste à décider Θ0 si φ(x) = 0 et Θ1
sinon.
Notation :
On note généralement :
H0 ,
l’hypothèse ’nulle’ :
{θ ∈ Θ0 }
H1 ,
’l’alternative’ :
{θ ∈ Θ1 }
Quand on fait un test, il y a deux façon de se tromper, déclarer H1 alors que H0 est vrai ou
l’inverse. Ceci conduit aux deux définitions suivantes :
Définition 5 Etant donnée l’epérience E et le problème de test associé à la partition Θ0 , Θ1 ,
α ∈ [0, 1], on dit que le test φ(X) est de niveau α ssi
sup Eθ φ(X) ≤ α
θ∈Θ0
Définition 6 Etant donnée l’expérience E et le problème de test associé à la partition
Θ0 , Θ1 , α ∈ [0, 1], on appelle erreur de deuxième espèce (resp. puissance) la fonction
θ ∈ Θ1 7→ Eθ (1 − φ(X)) (resp. Eθ φ(X))
2.6. ETUDE DU MODÈLE AJUSTÉ : ESTIMATION ET TESTS
19
Nous nous plaçons, comme dans les paragraphes précédents dans le cadre
d’un modèle linéaire gaussien, dont la matrice exogène est de rang p ≤ n. On
se donne C, une matrice fixée de dimension l × p, avec l < p, on suppose que
le rang de C est l et on se propose de tester l’hypothèse Cβ = 0.
Exemples :
1. Si l = 1, on se ramène à tester la nullit’e d’une forme linéaire. On retrouve
donc l’étude du paragraphe précédent.
2. Si par exemple Yi est la mesure d’un taux de pollution, que l’on cherche
à expliquer par différentes variables : X 1 quantité de précipitations, X 2
vitesse du vent, X 3 température, X 4 nombre d’usines, à travers le modèle
suivant :
Yi = β1 Xi1 + β2 Xi2 + β3 Xi3 + β4 Xi4 + εi
or, plus modèle contient de paramètres, en général, moins il est interprétable. Donc on peut se poser la question de diminuer le nombre
de paramètres, par exemple, en testant β1 = β3 = 0. 4
2.6.4
Résolution
Soit V1 le sous espace vectoriel de V ,
V1 = {Xβ, Cβ = 0}
Comme rg(C) = l, dim(V1 ) = dim(ker(C)) = p − l. Soit W1 le supplémentaire
orthogonal de V1 dans V . On a
In = PV1 + PW1 + PV⊥ ,
PV1 , PW1 , PV⊥ sont des projecteurs respectivement de rang p−l, l, n−p et donc
en appliquant le théorème de Cochran, on a que (σ)−1 PV1 ε, (σ)−1 PW1 ε, (σ)−1 PV⊥ ε
sont des vecteurs gaussiens, indépendants de lois respectives N (0, PV1 ), N (0, PW1 ), N (0, PV⊥ ).
D’où, (σ)−1 PV1 Y, (σ)−1 PW1 Y, (σ)−1 PV⊥ Y sont des vecteurs gaussiens indépendants
de lois respectives N (PV1 Xβ, PV1 ), N (PW1 Xβ, PW1 ), N (0, PV⊥ ). On en déduit
que :
1. k(σ)−1 PV⊥ Y k2 ∼ χ2 (n − p).
2. k(σ)−1 PV⊥ Y k2 et k(σ)−1 PW1 Y k2 sont indépendants.
3. – Si Cβ = 0, PW1 (Xβ) = 0 et donc k(σ)−1 PW1 Y k2 ∼ χ2 (l).
– Si Cβ 6= 0, k(σ)−1 PW1 Y k2 ∼ χ02 (l, kPW1 (Xβ))k2 ).
On en déduit que sous l’hypothèse Cβ = 0, la statistique
F =
kPW1 Y k2 /l
∼ F (l, n − p).
kPV⊥ Y k2 /(n − p)
D’où, si fα (n1 , n2 ), est déterminé par P (F (n1 , n2 ) > fα (n1 , n2 )) = α, on a
1 − α = P (F ∈ [0, fα (l, n − p)]) .
Donc,
20
– Si la statistique F , évaluée sur nos données, tombe en dehors de l’intervalle [0, fα (l, n − p)], on rejettera l’hypothèse Cβ = 0.
– En revanche, si elle tombe dans cet intervalle, on acceptera l’hypothèse.
Ce que l’on vient de décrire s’énonce par la phrase suivante : Le test φ qui
vaut 1 si F ≥ fα (l, n − p), 0 sinon est un test de niveau α.
2.6.5
Calcul pratique de F
On a
F =
kX β̂ − PV1 Y k2 /l
kY − X β̂k2 /(n − p)


1 0 ... 0 0 ... 0
 0 1 ... 0 0 ... 0 


Si C = 
,
..


.
0 0 ... 1 0 ... 0
–
dans ce cas, on cherche à tester β1 = . . . = βl = 0. Soit X̃ = (Xl+1 , . . . , Xp ),
la matrice des l − p vecteurs colonnes de X. Il est facile de montrer que
PV1 Y = X̃(X̃ ∗ X̃)−1 X̃ ∗ Y , et T se calcule aisément en fonction de X et
X̃.
– Dans le cas général, où C est une matrice quelconque, on commence par
compléter C en une matrice C 0 p × p et inversible, puis on pose η = C 0 β.
Le modèle linéaire Y = Xβ + ε est équivalent au modèle linéaire suivant,
dans lequel on a fait le changement de paramètre µ = C 0 β, X 0 = XC 0−1 :
Y = X 0 µ + ε.
Dans ce nouveau modèle l’hypothèse à tester est µ1 = . . . = µl = 0 et on
est ramené au cas précédent.
2.6.6
Version ’RSS’ de ce test
Une autre façon, plus habituelle dans les logiciels d’écrire la statistique
F , consiste à introduire les ’sommes des carrés des résidus’ dans chaque
hypothèse (H0 et H1 ) residuals sum of squares : RSS.
Commençons par H1 , une fois la donnée Y ’expliquée par X, ce qui ’reste
à expliquer’, les résidus, contribuent pour :
RSS1 =: kY − X β̂k2 (= kε̂k2 )
De même, sous H0 , la donnée Y est expliquée par PV1 Y , donc ce qui
’reste à expliquer’ (de façon résiduelle sous H0 ) contribue pour :
ˆ
ˆ 2 ).
RSS0 =: kY − PV1 Y k2 = kY − X β̂k2 (= kε̂k
Il est clair que RSS1 ≤ RSS0 et plus précisément, le théorème de Pythagore nous donne :
RSS0 − RSS1 = kPW1 Y k2
2.7. EXEMPLES :ETUDE DU MODÈLE AJUSTÉ EN PRATIQUE
21
De sorte que l’on peut écrire F sous la forme suivante en introduisant
p0 = dimension sous H0 (= p−l dans ce qui précède), p1 = dimension sous H1 (=
p dans ce qui précède) :
F =
2.7
[RSS0 − RSS1]/(p1 − p0 )
.
RSS1/(n − p1 )
Exemples :Etude du modèle ajusté en pratique
Nous allons donner ici des exemples d’utilisation en pratique (et donnés
dans les logiciels) des résultats trouvés précédemment.
2.7.1
Significativité globale : le test dit du R2
Le R2 en particulier est une quantité à peu près systématiquement donnée
dans les logiciels.
Considérons le cas où la constante 1n = X 1 fait partie des régresseurs. Pour
tester la significativité globale du modèle de régression proposé, on peut
tester l’hypothèse
H0 :
β2 = β3 = . . . = βp = 0
contre
H1 :
∃j = 2, . . . p, βj 6= 0.
Ce qui est bien un test du modèle puisqu’on se demande si on ne ferait pas
aussi bien si on ajustait les données simplement par une constante. P
Il est clair que l = p − 1, V1 = sp{1n }, PV1 Y = Ȳ 1n , si Ȳ = n1 ni=1 Yi .
Donc
RSS0 = kY − Ȳ 1n k2 .
P
Par ailleurs, si on note Ŷ = pj=1 β̂j X j , et on a par le théorème de Pythagore,
RSS1 = kY − Ŷ k2 ,
RSS0 − RSS1 = kŶ − Ȳ 1n k2 .
(2.3)
On a donc que la statistique de test s’écrit :
F =
n−p
p−1
kŶ − Ȳ 1n k2
kY − Ŷ k2
.
Pour effectuer un test au niveau α, on cherche donc le quantile qα = fα (p −
1, n − p) de la loi de Fisher avec les degrés de liberté p − 1, n − p et on applique
la règle de décision
– si F > qα , H0 est rejtée et les coefficients ne sont pas globalement nuls.
La régression est donc globalement significative.
– si F ≤ qα , H0 est acceptée et les coefficients sont tous nuls. La régression
n’est donc pas globalement significative.
Remarque importante : Pour résoudre ( ! ?) le problème du choix du niveau
du test à prendre (α = 0.01, 0.05, 0.1, 0.001 ... ?) généralement, les logiciels
donnent les p−values au lieu des quantiles. La p−value est par définiftion le
22
plus petit niveau auquel les données rejetteraient l’hypothèse H0 . En effet si
on considère la famille de tests que l’on obtient en faisant varier le niveau α (et
donc ici la fonction quantile gα , mais ceci est utilisé plus généralement) si les
données nous amènent à rejeter pour une valeur de α elles amènent à rejeter
pour toute valeur plus grande. Il est donc intéressant de connaitre la quantité
(aléatoire, fonction des données ) qui nous indique le plus petit niveau pour
lequel les données rejettent. La p−value est donc un indice de signifiance de
l’hypothèse nulle H0 . Plus la p− value est grande, plus H0 doit être acceptée.
Réciproquement, évidemment plus elle est petite plus on a tendance à la rejeter.
Il est clair que le modèle linéaire est d’autant mieux adapté aux données
que la variance expliquée est plus grande ou bien la variance résiduelle est
plus faible c’est-à-dire que l’angle ω entre le vecteur centré Y − Y 1n et son
ajustement centré Ŷ − Y 1n est plus proche de 0 ou π. De facon équivalente,
on s’intéresse traditionnellement au cosinus de cet angle.
cos2 ω = R2 =
kŶ − Ȳ 1n k2
.
kY − Ȳ 1n k2
Il est facile de voir qu’on a la relation suivante entre R2 et notre statistique de
test F (d’où son nom)
n−p
R2
F =
.
p − 1 1 − R2
Le R2 ’est une quantité qui se donne systématiquement lorsqu’on fait une
régression. Cependant lorsque la constante 1n n’appartient pas au plan de
régression, le R2 défini comme précédemment ne veut alors plus rien dire. On
peut changer de définition et introduire R20 le cosinus de l’angle entre Y et son
ajusté Ŷ .
t
t
ˆˆ
Ŷ Ŷ
=1− t
.
cos2 θ = t
yy
YY
Cette quantité aussi permet de qualifier l’adéquation du modèle linéaire à nos
données.
2.7.2
Etude de la validité du modèle : Tests non paramétrique sur les résidus
Plus haut nous avons construit des nouvelles variables η1 , . . . , ηn−p à partir
des résidus on peut construire des nouvelles variables qui, elles sont i.i.d.N (0, σ 2 )(et
indépendantes de β̂) :
Ces nouvelles variables (fonction des observations) peuvent nous servir à
tester le modèle. On peut en effet tester l’hypothèse H0 : les ηi sont i.i.d.
N (0, σ 2 ), contre H1 : il existe m 6= 0 tel que les ηi sont i.i.d. N (m, σ 2 ), qui
correspondrait à l’oubli d’un centrage par exemple.
En général on a tendance à ne pas avoir d’idée sur la forme de ce qu’on
pourrait avoir oublié dans le modèle on a alors recours à des tests de type non
paramétriques.
On peut par exemple si σ 2 est connu, utiliser un test de Kolmogorov Smirnov. Si σ est inconnu, on peut ’standardiser’ c’est à dire diviser les ηi par un
2.7. EXEMPLES :ETUDE DU MODÈLE AJUSTÉ EN PRATIQUE
23
estimateur bien choisi de σ. Le problème alors est que les ηi une fois standardisées ne sont plus i.i.d.... On peut aussi utiliser un test de signes ou de rangs
ou de signes et rangs sur le ηi .
Souvent les logiciels prennent d’assez grandes libertés avec la théorie puisqu’ils proposent fréquemment un test de Kolmogorov Smirnov calculé directement sur les résidus ε̂ standardisés ou fournissent des indices graphiques (Q×Q
plot,...).
2.7.3
Significativité de chacune des variables explicatives
On s’intéresse à éliminer de l’étude toutes les variables non significatives
pour le modèle proposé. Pour chaque variable explicative X j , on veut effectuer
le test
H0 :
βj = 0
contre
H1 :
βj 6= 0
qui revient à tester
H0 :
X j est non significative
contre
H1 :
X j est significative .
Dans ce cas, le test étudié plus haut nous permet de construire la statistique
F =
kPW1 Y k2 /l
kε̂k2 /(n − p)
où ici l = 1. Prenons le cas (les autres s’en déduisent par permutation des
colonnes) j = p. Il est facile de voir que, si on reprend l’orthonormalisation de
Gram Schmidt détaillée au paragraphe
2.3.2 ainsi que le résultat de ce parahY,Z p i
p
graphe, W1 = sp{Z }, PW1 Y = hZ p ,Z p i Z p = β̂p Z p . De sorte que la statistique
de test s’écrit :
β̂p2 kZ p k2
F =
.
kε̂k2 /(n − p)
On peut soit calculer directement kZ p k2 soit remarquer que cette quantité
doit nécessairement être l’inverse de la variance de β̂p ( divisée par σ 2 ), ce
qu’on a aussi calculé au paragraphe 2.6.1 et vaut xpp le p-ème élément de la
diagonale de la matrice (t XX)−1 (mais cela demande alors de l’avoir inversée
exactement).
En remarquant qu’un loi F (1, n − p) est le carré d’une loi de Student
T (n − p), on a tendance (ce qui est strictement équivalent) à utiliser comme
statistique de test
β̂j
T =q
σ̂b2 xjj
où xjj est le j-ième élément de la diagonale de la matrice (t XX)−1 . Sous
l’hypothèse nulle H0 , T suit donc une loi de student à n − p degrés de liberté.
Pour tester la significativité du régresseur X j au niveau α, on trouve donc le
α−quantile qα de la loi tn−p et on applique la règle de décision
– si |T | > qα , on refuse H0 et X j est significative,
– si |T | < qα , on accepte H0 et X j n’est pas significative.
Bien sur, on peut aussi utiliser la p−value pour prendre la décision.
24
2.8
Multi-colinéarité
Pour estimer les paramètres et leur variance, on a besoin de calculer l’inverse de la matrice (t XX). Lorsque le déterminant de cette matrice est nul
ou très proche de 0, on dit que le problème est mal conditionné. On est
confronté à des estimateurs qui ont des grandes variances (donc peu précis) et
il apparait souvent des problèmes de précision numérique. Il faut donc pouvoir
diagnostiquer ces situations et proposer des solutions.
2.8.1
Diagnostics
La matrice de variance-covariance de l’estimateur des MCO s’écrit
V = σ 2 (t XX)−1
et on a montré dans le paragraphe précédent que chaque élément de la diagonale de cette matrice (qui est la variance des paramètres estimés) peut s’exprimer sous la forme suivante : prenons d’abord le dernier pour faire les calculs
Vpp =
=
=
1
kZ p k2
1
kX p
− Psp{X 1 ,...,X p−1 } X p k2
1
kX p k2 [1 −
Soit encore
Vjj =
kPsp{X 1 ,...,X p−1 } X p k2
kX p k2
.
]
1
kX j k2 (1
− Rj2 )
où Rj2 est le coefficient de détermination de la variable X j sur celles qui restent
(c’est le cosinus carré de l’angle entre X j et la projection de X j sur l’espace
engendré par les autres variables X 1 , . . . X j−1 , X j+1 , . . . X p ). Il est évident que
plus X j est linéairement proche de cet espace, plus Rj2 est proche de 1 et
plus Vjj est grand. Cette variance est minimum (c’est-à-dire l’estimateur est
le plus précis) lorsque X j est orthogonale aux autres variables. On appelle Vjj
le facteur d’inflation de la variance.
En examinant la matrice des corrélations entre les variables, on peut détecter
les variables très corrélées 2 à 2 mais pas les corrélations multiples. Il faut donc
calculer effectivement les Vjj ou plutôt les tolérances 1 − Rj2 .
Pour regarder les problèmes de colinéarité 2 à 2, on peut calculer l’indice
de conditionnement
κ = max(λj )/ min(λj ),
où λj , j = 1, . . . p sont les valeurs propres de la matrice des corrélations. En
pratique si κ < 100, on considère qu’il n’y a pas de problème. Par contre, il faut
s’inquiéter si κ > 1000. Cet indice donne une idée globale des problèmes de
colinéarité mais pour savoir quelles variables posent problème, il faut calculer
les facteurs d’inflation et les tolérances.
2.9. SÉLECTION DE VARIABLES ET CHOIX DE MODÈLES
2.8.2
25
Modèles curvilinéaires
En cas de non validité de l’hypothèse de linéarité, il est intéressant de
considérer des modèles polynomiaux
Y = β1 + . . . βp X p + . . . ckl X k X l + . . . dj (X j )2 + . . .
qui sont appelés aussi surfaces de réponse. Ces modèles sont très simples
à étudier : il suffit de rajouter les nouvelles variables produit des anciennes.
Attention, ce type de modèles accroit les risques de colinarité : dans la pratique,
il est rare de considérer des modèles autres que quadratiques.
2.9
Sélection de variables et Choix de modèles
La modélisation statistique couvre 3 objectifs
1. description : on veut explorer les liaisons entre Y et X 1 , . . . X p pour p
grand. Le but est de sélectionner un sous ensemble de variables explicatives dont le cardinal n’est pas trop grand. Attention, si n est petit et p
grand, il est toujours possible de trouver un ”bon” modèle : c’est l’effet
data mining.
2. explication : on a des connaissances a priori et on veut valider ou invalider ces résultats théoriques. Le modèle exploratoire précédant permet
de faire de l’inférence : tests et intervalles de confiance.
3. prédiction : On veut avoir de ”bons” estimateurs (par rapport au critère
de risque quadratique par exemple) afin de faire des prédictions correctes.
On veut en général trouver des modèles parcimonieux (c’est-à-dire avec
peu de variables explicatives). On préfère avoir des modèles avec des estimateurs légèrement biaisés pour avoir un bon compromis biais/variance.
Ici, un ”bon” modèle n’est plus celui qui explique le mieux (bon R2 ou
petite SCR) mais celui qui prédit le mieux.
Il existe beaucoup de critères permettant de choisir le modèle : AIC, BIC,
erreur quadratique de prédiction .... Ils sont tous équivalents lorsqu’on fixe
le nombre de variables p à sélectionner. Mais, par contre le choix du critère
joue un rôle important lorsqu’on veut comparer 2 modèles utilisant un nombre
différent de variables explicatives.
2.9.1
Statistique de Fisher :
On utilise ce critère pour comparer des suites de modèles emboités. Rappelons qu’on a aussi utilisé la statistique de Fisher dans le cadre explicatif pour
tester la validité globale d’un modèle (test du R2 ).
On a un modèle (gros) avec p variables noté M1 , un modèle (petit) avec
q variables (choisies parmi les p utilisées dans le ”gros” modèle) noté M0 . On
calcule la statistique de Fisher où pour bien marquer la dépendance dans les
variables nous écrirons RSS0(q) et RSS1(p) à la place de RSS0 et RSS1
F =
n − p RSS0(q)
(RSS0(q) − RSS1(p))/(p − q)
=
[
− 1].
RSS1(p)/(n − p)
p − q RSS1(p)
26
Si cette statistique est assez grande (supérieure à fα (p − q, n − p)) alors l’ajout
des p − q variables supplémentaires est justifié. Sinon, on peut se contenter du
petit modèle à q variables. Plus exactement, cette statistique permet d’effectuer
le test
H0 : M0 valide
contre
H1 : M1 valide
soit
H0 : βq+1 = βq+2 = . . . = βp = 0 contre H1 : ∃j ∈ {q + 1, . . . , p},
2.9.2
βj 6= 0.
Critères de choix : AIC, BIC, Cp
Il y a un problème avec ce type de test, c’est qu’on ne contrôle vraiment
son erreur que si on le pratique une fois pour un choix bien précis de variable.
Il est clair que si on fait plusieurs tests les uns après les autres pour choisir
les variables, le calcul du niveau devient très vite fastidieux. On ne procède
pas de cette façon mais on conserve l’idée de regarder les fluctuations de la
statistique. Supposons que nos variables soient ordonnées et que l’on se pose
la question d’en rajouter de plus en plus. Dans ce cas, on ne procède pas avec
un test mais on conserve l’idée de regarder les fluctuations de la statistique.
q 7→
(n − p)RSS0(q)
RSS1(p)
qui représente bien l’erreur que l’on fait en prédisant le modèle si on s’arrête
aux q premières variables normalisée par l’erreur faite avec toutes les variables
possibles. Evidemment, à mesure que ’lon augmente le nombre q de variables
explicatives, cette statistique se rapproche de 1. Donc cela ne nous donne
pas un critère de choix : on prédit d’autant mieux qu’on a plus de variables
explicatives.
Pour remédier à ce problèmes plusieurs critères sont proposés dans la
littérature, qui consistent à pénaliser le nombre de variables explicatives.
Citons parmi eux
(n − p)RSS0(q)
+ [log n]q (Schwarz 0 76)
RSS1(p)
(n − p)RSS0(q)
AIC(q) =
+ q. (Akaike 0 70,0 73)
RSS1(p)
(n − p)RSS0(q)
Cp (q) =
+ 2q. (M allows 0 73)
RSS1(p)
BIC(q) =
2.9.3
(2.4)
(2.5)
(2.6)
Algorithmes de sélection
Avec p variables explicatives, on 2p choix de modèles possibles. Si p est
grand, il n’est pas raisonnable d’explorer tous les modèles pour trouver le
meilleur. Il existe 3 types d’algorithmes :
1. Pas à pas :
2.10. THÉORÈMES DE STUDENT ET DE COCHRAN
27
– forward : On commence avec une variable et à chaque pas, on en
ajoute une : celle qui apporte le plus pour le critère de la statistique
de Fisher. On s’arrète soit lorsqu’il n’y a plus de variable, soit quand
aucune variable n’apporte quelque chose ou en applicant un critère de
type AIC ou BIC.
– backward : On fait la même chose mais en démarrant du modèle
complet. On élimine la variable qui apporte le moins par rapport au
critère de Fisher. On s’arrète lorsque les variables restantes donnent
toutes un critère satisfaisant (pour un α fixé à l’avance).
– stepwise : Après chaque sélection de modèle donnée par la méthode
”forward”, on enlève les variables qui deviennent inutiles du fait de
l’ajout de nouvelles variables.
2. Par échange :
– maximisation du R2 : On travaille avec un nombre q fixé de variables
explicatives du modèle. On cherche alors une nouvelle variable qui
maximise l’accroissement du R2 . Puis, on cherche avec quelle variable
présente dans le modèle l’échanger de facon à rester avec q variables.
On recommence tant que le R2 croı̂t.
– minimisation du R2 : Idem que précédemment mais on sélectionne
la variable qui minimise l’accroissement du R2 . On explore alors plus
de modèles et on a plus de chance de tomber sur un meilleur optimum.
3. Global : L’algorithme de Furnival et Wilson est utilisé pour comparer
tous les modèles possibles en optimisant le R2 , ou un critère de type Cp
AIC ou BIC. L’algorithme parcourt un arbre, évite les sous branches dont
on sait a priori qu’elles ne sont pas compétitives. En général, les logiciels
donnent le meilleur modèle pour chaque q. Mais ceci n’est possible que
pour un nombre raisonnable de variables explicatives.
2.10
Théorèmes de Student et de Cochran
Théorème 2 (Student) Soit X1 , . . . , Xn , des variables indépendantes identiquement distribuées (notation i.i.d.) de loi commune N (m, σ 2 ). Alors,
n
X
1. X̄n =
Xi suit une loi N (m, σ 2 /n).
i=1
n
X
2. Rn =
(Xi − X̄n )2 suit une loi σ 2 χ(n − 1).
i=1
3. X̄n et Rn sont indépendants.
r
4. Si Sn désigne la variable
Rn
, alors Tn =
n−1
√
n(X̄n − m)
suit une loi
Sn
de Student T(n-1).
Démonstration du Thérème de Student
– 1 est évident.
– Les quantités que nous étudions sont homogènes. Par le changement de
variables Xi0 = (Xi − m)/σ, on se ramène au cas où m = 0, σ 2 = 1.
28
– Notons qu’on a la relation suivante :
n
X
2
2
(Xi − X̄n ) + nX̄n =
i=1
n
X
Xi2 .
(2.7)
i=1
On considère une matrice orthogonale M telle que sa première ligne est
( √1n , . . . , √1n ). Soit Z = M X où X = (X1 , . . . , Xn )∗ . Puisque M est
√
orthogonale, Z est un vecteur gaussien standard de Rn , et Z1 = nX̄n
est indépendant de (Z2 , . . . , Zn ). Par ailleurs, toujours parce que M est
orthogonale,
2
2
kM Xk = kXk =
n
X
Xi2
n
X
√
2
= ( nX̄n ) +
Zi2 .
i=1
i=2
P
√
On en déduit que i=2 Zi2 = i=1 Xi2 − ( nX̄n )2 = ni=1 (Xi − X̄n )2
(en utilisant (2.7)) est indépendant de X̄n et suit un χ2 (n − 1).
Pn
Pn
Théorème 3 (COCHRAN) Soit X ∼ N (ξ, In )
1. Soit P1 , P2 , . . . , Pk ,
k matrices n × n autoadjointes, verifiant
In =
d
X
Pi ,
et
i=1
d
X
rangPi ≤ n.
i=1
Alors les matrices Pi sont des projecteurs (Pi2 = Pi ) et les variables Pi X
sont des Gaussiennes mutuellement indépendantes de loi N (Pi ξ, Pi ).
2. Soit Q1 , Q2 , . . . Qk ,
sur Rn verifiant :
n
∀x ∈ R ,
k formes quadratiques
2
kxk =
d
X
Qi (x)
et
d
X
i=1
rangPi ≤ n.
i=1
0
Alors les variables Qi X sont mutuellement indépendantes de loi χ 2 (Qi ξ, rangQi ).
Démonstration du Théorème : La démonstration repose sur un lemme de
pure algébre linéaire :
k matrices n × n , vÈrifiant
Lemme 1 Soit P1 , P2 , . . . , Pk ,
In =
d
X
i=1
On a alors l’equivalence entre :
Pd
1.
i=1 rang Pi ≤ n.
2. ∀i 6= j
3. ∀i
P i Pj = 0
Pi2 = Pi
Pi ,
et
Pi = Pi∗
2.10. THÉORÈMES DE STUDENT ET DE COCHRAN
29
Preuve du Lemme : Remarquons
que 1 signifie : ∀x ∈ Rn ,
Pk
manière unique sous la forme i=1 ui ; ui ∈ Pi (Rn ).
P
P
1. 2 ⇒ 3 Pi = Pi ( j Pj ) = j Pi Pj = Pi2
x s’écrit de
2. 3 ⇒ 2 On a
∀x ∈ Rn ,
kxk2 = hx, xi = hx,
X
Pj xi = hx,
j
X
Pj2 xi =
j
X
kPj xk2 .
j
Appliquons cette relation à Pi x :
X
X
∀x ∈ Rn , kPi xk2 =
kPj Pi xk2 = kPi xk2 +
kPj Pi xk2 .
j
j6=i
Donc j 6= i ⇒ Pj Pi = 0
P
3. 3&2 ⇒ 1 Soit x = i Pi yi . On a donc :
X
Pj x =
Pj Pi yi = Pj2 yj = Pj yj .
i
P
D’o˘ l’Ècriture unique x = i Pi x.
P
P
4. 1 ⇒ 3&2 Pj = ( i Pi )Pj = i Pi Pj . On en déduit ;
X
Pi Pj x.
∀x ∈ Rn , Pj (x − Pj x) =
i6=j
L’unicité de la representation implique le resultat.
Démonstration du Théorème, (fin)
1. C’est une conséquence du fait que pour des vecteurs gaussiens orthogonalité signifie indépendance.
2. Soit Pj = Pj∗ la matrice definissant la forme quadratique Qj : ∀x ∈
Rn Qj (x) = x∗ Pj x. Par polarisation de la relation ∀x ∈ Rn , kxk2 =
Pd
i=1 Qi (x), on obtient :
X
∀x, y ∈ Rn , hx, yi =
hx, Pj yi
j
P
ce qui implique In =
j Pj . Le point 2 du théorème est donc une
conséquence du point 1 et de la proposition 3 suivante.
Proposition 3 .
1. Si P est une matrice de projection (i.e. P = P ∗ = P 2 ), et si W ∼
0
N (ξ, P ), avec P (ξ) = ξ, alors kW k2 ∼ χ 2 (rang (P ), kξk2 )
2. Si P est une matrice de projection (i.e. P = P ∗ = P 2 ), et si X ∼ N (ξ, In )
0
alors, kP Xk2 ∼ χ 2 (rang (P ), kP (ξ)k2 ).
30
Démonstration de la Proposition :
1. En effet , on peut écrire, au moyen de la matrice R orthogonale, P =
RDR∗ où D est une matrice diagonale dont les d = (rang(P )) premiers
coefficients sont égaux à 1, les autres à 0. Soit Z = R∗ W . On a W = RZ,
et Z ∼ N (η, D), R∗ ξ = η. Comme ξ = RDR∗ ξ, on a η = Dη.
Donc les n−d dernières composantes de Z sont nulles,
les d premières,suivent
Pet
P
n
des lois normales N (ηi , 1) indépendantes. De plus i=1 ξi2 = di=1 ηi2 .
0
Comme kW k2 = kZk2 , kW k2 ∼ χ 2 (d, kξk2 ).
2. On remarque P X ∼ N (P ξ, P ).
Chapitre 3
Régression non paramétrique
On s’intéresse dans ce chapitre à des modèles de régression non paramétriques
gaussiens lorsque le design est fixe.
3.1
Modèle
Considérons le modèle suivant
Yi = f (xi ) + i ,
i = 1, . . . , n
avec où
– Yi sont les observations, xi est le design fixe de l’expérience
– i sont les erreurs que l’on suppose indépendantes, centrées et de même
variance inconnue σ 2 .
L’objet d’interêt est la fonction f qui est inconnue.
Un modèle particulièrement intéressant est celui du signal lorsque le design
xi = i/n est équidistribué. Alors f est une fonction dont le support est [0, 1].
3.2
Réduction à un modèle linéaire
L’idée (simple... et de ce fait très jolie...) consiste à supposer que f peut
être approximée par un dictionnaire de fonctions. Par exemple, on peut prendre
le dictionnaire de tous les polynômes, ou le dictionnaire des fonctions trigonométriques, ou un dictionnaire constitué des deux types de fonctions, ou tout
autre... Bien entendu on ne pourra pas prendre la totalité du dictionnaire donc
on choisit p fonctions dedans (ou encore, on se réduit à un dictionnaire de taille
p).
D = {g1 , . . . , gp }.
La fonction f cherchée s’écrit
f (x) =
p
X
βj gj (x) + u(x).
j=1
31
(3.1)
32
CHAPITRE 3. RÉGRESSION NON PARAMÉTRIQUE
A priori, cette écriture n’est pas unique, mais supposons (on y reviendra) qu’on
dispose d’une écriture ’privilégiée’, dans laquelle on espère de plus que la fonction u est ’petite’. En d’autres termes, on suppose que f est bien approximée
par une combinaison linéaire du dictionnaire.
On va donc prendre vraiment au sérieux cette hypothèse de ’bonne approximation’, au point qu’on va construire le modèle de remplacement, dans lequel
on remplace u par 0. Dans ce modèle de remplacement, chaque observation
s’écrit :
p
X
βj gj (xi ) + εi , i = 1, . . . , n.
Yi =
j=1
On a donc un modèle linéaire de la forme
Y = Xβ + ε,
Xij = gj (xi ).
(3.2)
Dans la suite nous supposerons en général que xi = ni , pour donner plus
de structure à notre propos. Nous allons en particulier détailler une approche
où nous allons rendre plus précise l’utilisation de ce modèle de remplacement,
ainsi que certaines méthodes qui sont spécifiques à ce modèle de régression
fonctionnelle.
On va d’abord supposer
R 1 2que f appartient à l’espace L2 ce qui signifie que f
est de carré intégrable : 0 f < +∞. Cette hypothèse n’est pas très restrictive :
par exemple, dès que f est continue sur [0, 1], elle est vérifiée. Ce cadre anodin
d’apparence, permet de mettre de la rigueur dans notre approche précédente.
En effet, si {e` , ` = 1, . . . ∞} est une base de L2 , alors, on peut donner une
signification claire à l’équation (3.1), en posant gl = e` , les coefficients βl
peuvent alors être uniquement déterminés par
Z 1
e` f.
β` = < e` , f > =
0
de même,
u=
X
β` e l
l>p
qui tend vers 0 dans L2 . Donnons quelques exemples de bases.
3.2.1
Base polynomiale
L’espace L2 admet quantité de bases {e` , ` = 1, . . . ∞}. On peut penser
aux bases polynomiales. Si l’on orthonormalise à l’aide du procédé de Gram
Schmidt la suite {1, x, x2 , . . . , xk , . . .} on obtient ainsi une base associée aux
polynômes de Legendre.
3.2.2
Base trigonométrique
La base {e` , ` = 1, . . . ∞}, la plus connue est certainement la base de Fourier
ou base trigonométrique donnée par
– e1 (x) = 1
3.3. ESTIMATION DE F PAR PROJECTION
33
√
– si ` est pair, e` (x) = 2√cos(2π`x)
– si ` est impair, e` (x) = 2 sin(2π`x)
Alors les fonctions de la famille {e` , ` = 1, . . . ∞} sont normées et orthogonales
Z 1
e` e`0 = δ` (`0 ).
< e` e`0 > =
0
et engendrent dans L2 l’ensemble des fonctions périodiques f (0) = f (1). Cette
base est particulièrement simple ce qui explique qu’elle est beaucoup utilisée.
3.2.3
Base de Haar
Une autre base intéressante est la base de Haar qui est définie à partir des
translations/dilatations
φj,k (x) = 2j/2 φ(2j x − k) et ψj,k (x) = 2j/2 ψ(2j x − k)
d’une ondelette de Haar
φ(x) = 1[0,1] et ψ(x) = 1[0,1/2] − 1]1/2,1] .
Fixons un niveau j0 ≥ 0 et considérons la famille
{φj0 ,k pour k = 0, . . . , 2j0 , ψj,` pour j = j0 , . . . , ∞, ` = 0, . . . , 2j }
Il est très simple de montrer que cette famille est orthonormée, et que c’est
une base
2j0
∞ X
2j
X
X
f=
αj0 ,k φj0 ,k (x) +
βj,` ψj,` (x).
j=j0 `=0
k=0
Cette égalité comporte deux termes : un terme qui donne la tendance de la
fonction f et un terme qui donne les détails de la fonction f . De même que dans
le cas de la base trigonométrique, le fait que la base de Haar soit orthogonale
amène le fait remarquable que les coefficients de f sur la base sont les produits
scalaires
Z 1
Z 1
αj0 ,k = < φj0 ,k , f > =
φj0 ,k f et βj,` = < ψj,` , f > =
φj,` f.
0
3.2.4
0
Base d’ondelettes
De la même facon que pour la base de Haar, on définit d’autres bases
d’ondelettes en choisissant des père et mères φ et ψ différents : Daubechies,
Meyer, Coiflets, Symlets ....
3.3
Estimation de f par projection
Le terme ’estimation par projection’ réfère de façon générique à l’utilisation du modèle d’emprunt (3.2) en utilisant comme dictionnaire une base
orthonormée de L2 tronquée.
34
Dans le cas où xi = ni , le fait que la base soit orthonormée, a une conséquence
importante. En effet, dans ce cas, la matrice X t X est telle que
n
1 t
1X
i
i
X Xlm =
gl ( )gm ( ).
n
n i=1
n
n
Pn
i
i
1
Comme
i=1 gl ( n )gm ( n ) est l’approximation de Riemmann de l’intégrale
n
R
g (x)gm (x)dx = δml . Cette matrice est donc ’presque’ l’identité. On en
[0,1] l
déduit que par conséquent l’estimateur des MCO, β̂l est ’presque’
n
1X
i
β̃l =
gl ( )Yi .
n i=1
n
(3.3)
L’estimation par projection réfère en fait -donc- à la fois l’utilisation du modèle
d’emprunt (3.2) en utilisant comme dictionnaire une base orthonormée, mais
aussi le fait d’utiliser (3.3) comme estimateur.
3.3.1
Dans la base trigonométrique
Travaillons dans la base trigonométrique {e` , ` = 1, . . . ∞}. Alors f se
décompose
Z 1
∞
X
e` f.
f (x) =
θ` e` (x) avec θ` =
0
`=1
Donc on estime chaque coefficient par
n
1X
e`
θb` =
n i=1
i
Yi .
n
Finalement, on reconstruit un estimateur de la fonction f
fˆ =
p
X
θb` e` .
`=1
Le problème fondamental qui se pose alors est : comment choisir p ?
3.3.2
Dans la base de Haar
On se fixe un niveau j0 . Dans la base de Haar, f se décompose en une
tendance au niveau j0 et des détails à des niveaux plus élevés
X
XX
f (x) =
αj0 ,k φj0 ,k (x) +
βj,` ψj,` (x)
j≥j0
k
avec
Z
αj0 ,k =
`
1
Z
φj0 ,k f et βj,` =
0
1
ψj,` f.
0
3.4. CALCUL DE L’ERREUR
35
On se concentre sur la tendance en oubliant les ’détails’ pour estimer f . Il
s’agit donc d’estimer les coefficients αj0 ,k . On estime donc chaque coefficient
par
n
1X
i
αd
φj0 ,k
Yi .
j0 ,k =
n i=1
n
Finalement, on reconstruit un estimateur de la fonction f en estimant seulement la tendance de f au niveau j0
X
fˆ =
αd
j0 ,k φj0 ,k .
k
Le problème fondamental qui se pose est : comment choisir le niveau j0 ?
3.4
Calcul de l’erreur
On s’intéresse à l’erreur L2 (encore appelée MISE) définie par
Z 2
2
ˆ
f −f .
M ISE = E
0
En utilisant l’orthonormalité des bases, on obtient
 P
P∞
N

 E `=1 (θb` − θ` )2 + `=N +1 θ`2
M ISE =

 E P2j0 (αd − α )2 + P∞ P β 2
j0 ,k
j0 ,k
j=j0
k=1
k j,k
3.4.1
base trigo
ondelettes
Base de Fourier
Commencons par l’estimateur avec la base trigonométrique. On a un terme
de biais et un terme de variance
1. Variance : On montre facilement que
n
1X
i
i
b
e`
E θ` =
f
n i=1
n
n
et que
n
2 X
σ
i
σ2
2
V ar(θb` ) = 2
e`
≤ .
n i=1
n
n
Comme
E
N
X
`=1
(θb` − θ` )2 = E
!
N
N
X
X
(θb` − E θb` )2 +
(E θb` − θ` )2 ,
`=1
`=1
on a

N
N
2
X
X
σ +
E
(θb` − θ` )2 ≤
n
`=1
`=1
Z 1
n
1X
i
i
e`
f
−
e` f
n i=1
n
n
0
!2 
.
36
Il faut évaluer l’erreur Rn de l’approximation de Riemann. Remarquons
que
Z 1
Z (i+1)/n
n Z (i+1)/n
X
1
e` (t) f (t)dt =
e` (t) f (t)dt et
=
dt
n
0
i/n
i/n
i=1
alors on peut écrire
Rn =
n Z
X
i=1
(i+1)/n
i/n
i
i
e`
f
− e` (t) f (t) dt
n
n
Par le théorème des accroissements finis, il existe une suite θi (l, t) de
nombres de [0, 1] telle que
e` (t)f (t) − e` (i/n)f (i/n) = (e` f )0 (θi (l, t))(t − i/n).
On déduit
√
n
1 X
M (1 + 2 πl)
0
|Rn | ≤ | 2
k(e` f ) k∞ ≤
2n i=1
n
sous la condition que f est dérivable et de dérivée bornée par M . Par
suite,
N
X
N
πN 3
|Rn |2 ≤ 2M 2 [ 2 + 2 ]
n
n
l=1
Le terme de variance est donc majoré par une quantité de l’ordre de
dès que l’on impose N 2 ≤ n. Plus exactement
V ≤
N
n
N (σ 2 + 10M 2 )
.
n
2. Biais. On majore le terme de biais en faisant des hypothèses de régularité
sur l’objet inconnu à estimer, comme on l’a fait dans le chapitre 5 Dans
le cadre de la base trigonométrique, les classes de régularité usuelles sont
les classes de Sobolev notées W (s, L) où s est le degré de régularité des
fonctions et L le rayon des boules considérées qui correspondent aux
contraintes ellipsoidales introduites au chapitre 5
(
)
∞
X
X
W (s, L) = g ∈ L2 , g =
θ` e` avec
(`)2s θ`2 ≤ L pour tout ` .
`=1
`
Exercice : Démontrer que si s est dans N∗ alors f est une fonction
périodique, s fois dérivable, dont les dérivées sont dans RL2 alors f appar1
tient à W (s, L), si et seulement si il existe L0 tel que 0 [f (m) ]2 (x)dx ≤
L0 , ∀m ≤ s. Le terme de biais est alors majoré par L2 N −2s sous l’hypothèse que f appartient à une classe de Sobolev W (s, L) pour s > 0 et
L > 0.
Nous avons démontré le résultat suivant
3.4. CALCUL DE L’ERREUR
37
Théorème 1 Soit s, L, M > 0 fixés. Sous les hypothèses
1. f est dérivable de dérivée bornée par M
2. f est dans la boule Sobolev W (s, L)
√
3. N ≤ n
on a la décomposition Biais/Variance de l’erreur MISE
2 −2s
2
2 N
M ISE ≤ (σ + 10M ) + L N
n
Le meilleur choix de N est donc
1
N ∗ = (σ 2 + 10M 2 + L2 ) n 1+2s
2s
qui mène
à une erreur de l’ordre de n− 1+2s . Cet optimum n’est possible que si
√
N ∗ ≤ n, ce qui est le cas si s > 12 - ce qui est en fait lié à l’hypothèse(1)-.
Le problème pratique auquel nous sommes confrontés est que, en général, nous
ne connaissons pas a priori les paramètres de régularité s, L. Il est donc impossible de choisir la fenêtre optimale.
3.4.2
Base d’ondelettes
Les calculs sont identiques
1. Variance : On montre facilement que
n
1X
φj ,k
E αd
j0 ,k =
n i=1 0
i
i
f
n
n
et que
n
n
2 X
σ2 X 2
σ2
k k+1 i
i
j0 σ
V ar(αd
φj0 ,k
≤2 2
I{[ j0 , j0 ]}( ) ≤ .
j0 ,k ) = 2
n i=1
n
n i=1
2
2
n
n
Comme
j
20
X
2
(αd
d
j0 ,k − E α
j0 ,k )


2j0
2j0
X
X
2
2
≤ 2  (E αd
(αd
,
j0 ,k − αj0 ,k ) +
j0 ,k − αj0 ,k )
k=0
k=0
k=0
et que par ailleurs on peut montrer (exercice) sous l’hypothèse que f
est lipschizienne(1) de constante M que le terme d’approximation de
Riemann se majore par :
cM (
2j0 /2
22j0 /2 2−j0 /2
+
) ≤ 3M
.
n
n
n
On en déduit que
j
20
X
2
j0 +1
(αd
d
(
j0 ,k − E α
j0 ,k ) ≤ 2
k=0
σ2
2j0
+ c2 M 2 2 )
n
n
σ 2 + c2 M 2
n
j0
si on suppose de plus de choisir j0 tel que 2 ≤ n.
≤ 2j0 +1
38
2. Biais. On majore le terme de biais en faisant des hypothèses de régularité
sur l’objet inconnu à estimer. Dans le cadre des bases d’ondelettes, les
classes de régularité usuelles sont les espaces de Besov notés Bsp (L) où s
est le degré de régularité des fonctions, p est le degré d’intégration et L
le rayon des boules considérées
(
Bsp (L) =
g ∈ L2 , ∀ j0 ≥ 0, kg −
j0
X
)
αj0 k Φj0 k kp ≤ L2−j0 s , αj,k = hg, Φjk i
k=0
Ici, on prend p = 2. En faisant l’hypothèse que f appartient à l’espace
de Besov Bs2 (L), on majore le biais par L2 2−2j0 s .
Nous avons démontré le résultat suivant
Théorème 2 Soit s, L, M > 0 fixés. Sous les hypothèses
– f est Lipschizienne de constante M
– f est dans la boule Besov Bs2 (L)
on a la décomposition Biais/Variance de l’erreur MISE
M ISE ≤
2(σ 2 + c2 M 2 )2j0
+ L2 2−2j0 s
n
Le meilleur choix de j0 est donc
1
2j∗ ∼ n 1+2s
2s
qui mène à une erreur de l’ordre de n− 1+2s .
3.5
Optimalité
Pour avoir une idée de la qualité d’un estimateur, il faut se donner un
critère. Nous choisissons le critère L2 qui s’appuie donc sur M ISE. Nous allons
définir le risque minimax sur un espace fonctionnel donné F par
Rn (F) = inf sup Ekfb − f k22
fb f ∈F
où l’infimum est pris sur tous les estimateurs de f (c’est-à-dire sur toutes les
fonctions mesurables des données).
Ce concept est utilisé dans d’autres domaines que les statistiques. Par
exemple, John Rawls (1921-2002) philosophe ayant travaillé sur une théorie
de la justice a utilisé cette notion en donnant comme exemple un politique
pour les prisons. (Harvard puis MIT).
C’est une notion qui est ”pessimiste” puisqu’on calcule ce risque minimax
en prenant en compte les pires fonctions de F (même si celles ci sont très peu
nombreuses et peu représentatives de leur classe). On peut montrer le résultat
de borne inférieure suivant
3.6. MÉTHODE DES NOYAUX
39
Théorème 3 Soit s, L > 0 et p ≥ 2. Alors, il existe une constante C telle que
2s
Rn (F) ≥ C n− 1+2s
pour
F = W (s, L) ou Bsp (L).
On déduit immédiatement le corollaire suivant
Corollaire 1 Les estimateurs par projection dont les paramètres de lissage
sont
∗
2j = n1/(1+2s)
N ∗ = n1/(1+2s)
dans le cas de la base d’ondelettes
dans le cas de la base de Fourier
sont optimaux parmi tous les estimateurs de f .
3.6
Méthode des noyaux
On s’intéresse dans cette section au modèle de régression à design fixe mais
non nécessairement équidistribué. Dans le modèle de régression, la méthode des
noyaux est aussi appelée méthode de Nadaraya-Watson. Très géneralement, on
s’intéresse à des estimateurs de la fonction de régression qui sont des moyennes
pondérées des données observées Yi
fb(x) =
n
X
Yi Wi (x)
i=1
où Wi (x) est la fonction de poids qui dépend du design Xi (et pas des observations Yi ) et qui vérifie
Wi (x) ≥ 0 et
n
X
Wi (x) = 1.
i=1
L’idée président au choix de la fonction de poids pour estimer f (x) est qu’il
faut donner beaucoup d’inportance aux données Xi qui sont proches de x et
très peu aux données qui sont loin de x. La fenètre h quantifie la distance entre
x et Xi :
– si −h ≤ x − Xi ≤ h, Xi est proche de x,
– si |x − Xi | > h, Xi est loin de x.
Le noyau rectangulaire est donné par
∀u,
K(u) = 1[−1,1] (u)
menant aux poids
Wi (x) = K
x − Xi
h
40
ou plutôt
Wi (x) =
x−Xi
h
Pn
x−Xi
K
i=1
h
K
car on veut que la somme des poids fasse 1. On généralise cette construction
à toutes sortes de noyaux K. Nous définissons la notion de noyau par
Z
K est un noyau ssi K = 1 et K(u) = K(−u).
Citons par exemple le noyau triangulaire
K(u) = (1 − |u|) 1(|u|≤1) ,
le noyau Epachnikov
3
K(u) = (1 − u2 ) 1(|u|≤1) ,
4
ou le noyau gaussien
1 2
1
K(u) = √ e− 2 u .
2π
3.6.1
Choix de la fenêtre
Remarquons que la méthode des noyaux dépend aussi d’un paramètre de
lissage : la fenêtre h. Heuristiquement parlant
– si h est très petit, la fonction de poids vaut 1 en Xi et zero partout
ailleurs ; ce qui signifie que l’estimateur fbh reproduit les données en attribuant la valeur Yi en Xi et en mettant zero partout ailleurs. L’estimateur
de f est donc très oscillant : l’erreur stochastique est très grande.
– si h est très grand, la fonction de poids vaut 1 en toutes données du
design Xi et donc l’estimateur de f vaut la moyenne des Yi est constant.
L’erreur stochastique est alors nulle (pas de variance) mais evidemment
l’erreur de biais est très grande.
De même que pour l’estimateur par projection, on peut montrer le théoreme
suivant
Théorème 4 Supposons que la fonction de régression appartienne à C s . Alors
il existe une constante positive C telle que
1
2s
+h
.
M ISE ≤ C
nh
On déduit la proposition suivante
Théorème 5 Soit h∗ = O n1/(1+2s) . Si f ∈ C s alors
2
−2s/(2s+1)
Ekfc
.
h∗ − f k2 ≤ C n
En utilisant le résultat de borne inférieure prédemment énoncé, nous avons
prouvé l’optimalité de la procédure par noyau lorsque la fenêtre est h∗ . Il est
à noter que le noyau K n’a pas d’influence sur la vitesse de convergence de
l’estimateur fc
h∗ . Par contre, il intervient dans les constantes C et donc peut
être important lorsque le nombre de données n est petit.
Chapitre 4
p grand, Sparsités
1
4.1
Evaluation de la prédiction
Supposons que notre but soit de prédire, Y∗ (= x∗ β + ε∗ ) -non observé- au
vu de la seule observation des régresseurs
x∗ = x1∗ , . . . , xp∗
en supposant que Y∗ (ou ε∗ ) est indépendante de notre échantillon préalable
(appelé échantillon d’apprentissage). On suppose aussi que x∗ est soit déterministe,
soit aléatoire mais indépendante de ε∗ et de l’échantillon d’apprentissage. Supposons que nous proposions à partir de cet échantillon d’apprentissage un
’estimateur’ (celui des MCO ou un autre) β̂(n). Le prédicteur naturellement
associé est
Ŷ := x∗ β̂(n).
Le risque quadratique que l’on commet est alors (on utilise l’indépendance
entre x∗ et ε∗ ainsi qu’entre l’échantillon d’apprentissage et la nouvelle observation ) :
E(Ŷ − Y∗ )2 = E(x∗ (β̂(n) − β) + ε∗ )2
= E(x∗ (β̂(n) − β))2 + E(ε∗ )2
≤ Ekx∗ k2 Ekβ̂(n) − βk2 + E(ε∗ )2
On voit dans cette majoration qu’il y a une partie ’incompressible’ ( :
E(ε∗ )2 ), une partie qui dépend de la nouvelle observation ( : Ekx∗ k2 ) et donc
difficile à maitriser. Nous allons donc nous intéresser à minimiser :
Ekβ̂(n) − βk2
41
42
CHAPITRE 4. P GRAND, SPARSITÉS
4.2
Le cas orthonormal : X ∗X = Ip
On observe donc
Y = Xβ + ε
avec le fait que les vecteurs colonne de la matrice X sont orthonormaux
(X ∗ X = Ip ) -ou ont été orthonormalises-.
L’estimateur de β des moindres carrés s’écrit alors
β̂ = XY = β + ξ
avec ξ = X ∗ ε. Comme les εi ont même loi N (0, σ 2 ), sont indépendantes, le
vecteur ξ est normal centré de variance σ 2 Ip (ξ ∼ N (0, σ 2 Ip )).
Nous dirons que le modèle est ’diagonal’ si X 0 X = D2 (D est une matrice
diagonale inversible) : dans ce cas,
β̂ = D−2 X 0 Y = β + ξ 0
ξ 0 = D−2 Xε
Le vecteur ξ 0 a donc pour loi N (0, D−2 Ip ). On supposera toujours que les
valeurs sur la diagonale sont rangées par ordre décroissant.
4.3
Contraintes de sparsité de type ellipsoidales
L’idée principale dans ce chapitre est que si p est très grand (même bien
plus grand que n dans certaines applications) on ne peut pas prétendre aux
miracles, donc il nous faut trouver des méthodes qui marcheront si certaines
contraintes sont vraies sur le modèle. Nous allons donc étudier plusieurs formes
de contraintes, voir à quelles solutions elles nous mènent et discuter leurs validité dans la pratique. Le premier type de contrainte que nous allons étudier
est la contrainte ellipsoidale.
On va supposer que θ appartient à l’ensemble
p
Θs (M ) = {β ∈ R , sup
l
p
X
βj2 ≤ M l−2s }
j≥l
Remarquons que ces espaces sont emboités de plus en plus petits quand s
augmente. On remarque de plus que cette contrainte qui depend fortement du
paramètre s > 0 appelé paramètre de régularité, est satisfaite si β appartient
à l’ensemble
X
Θ0(a) (M ) = {β ∈ Rp ,
a2j βj2 ≤ M }
0≤j≤p
si la suite (a) est croissante et vérifie al ≥ ls ce qui justifie la dénomination
contrainte ellipsoidale.
4.4. CADRE ’MINIMAX’
43
Preuve : En effet,
p
X
βj2
j≥l
X a2j
≤
β2
2 j
a
l≤j≤p l
≤M
1
≤ M l−2s
a2l
4
4.4
Cadre ’minimax’
Nous allons nous placer dans une perspective relativement pessimiste qui
consiste à regarder le pire risque d’un estimateur. Plus précisément, étant
donné un estimateur β̂ de β, nous allons nous intéresser si l’on a de plus la
contrainte Θ, à la quantité
Env(β̂(n), Θ) := sup Ekβ̂(n) − βk2 .
β∈Θ
Maintenant, si on s’intéresse à une classe particulière d’estimateurs B, on dira
que β̃ est ’minimax dans la classe B relativement à la contrainte Θ si il appartient à B et
Env(β̃, Θ) = inf Env(β̂(n), Θ).
β̂(n)∈B
4.5
Résolution minimax sous contrainte de sparsité ellipsoidale, cas orthonormal
Nous avons dans l’idée que comme les β ont une contrainte de forme (β ∈
Θs (M )), nécessairement, ils sont très petits à partir d’un certain rang. Il est
donc raisonnable de considérer des procédures qui remplacent par 0 les derniers
coefficients au lieu de les estimer.
Supposons donc qu’on s’intéresse aux estimateurs de la forme
β̂iK = β̂i , si i ≤ K, 0 si i > K
(4.1)
et étudions s’il y a une façon de choisir K.
On a la proposition suivante :
Proposition 4 Pour s > 0, M > 0, on a pour 1 ≤ K ≤ n
Env(β̂ K , Θs (M )) = Kσ 2 + M K −2s .
Preuve : Considérons le risque quadratique d’un tel estimateur.
K
2
Ekβ̂ − βk = E
p
X
(β̂jK − βj )2
j=1
=
K
X
E(β̂jK
2
− βj ) +
j=1
p
X
(βj )2
j=K+1
2
≤ Kσ + M K
−2s
.
44
Il est ensuite facile de montrer que la borne est atteinte ce qui donne l’égalité
dans la proposition. 4
On voit que le premier terme est croissant en K et donc nous incite à choisir
K le plus petit possible, alors que le second est décroissant et nous incite à
choisir K très grand. Mais il est clair que s’il existe K tel que (n − K)σ 2 >
M K −2s , on a plus intérêt à utiliser β̂ K plutôt que β̂ = β̂ p . En d’autres termes,
il est alors plus avantageux de remplacer les derniers termes par 0 que de les
estimer.
Ce principe est très important. Nous allons l’exploiter sous différents aspects.
Plaçons nous dans le cas où :
2sM
≤ σ 2 ≤ 2sM
2s+1
p
Dans ce cas, on peut optimiser la borne que l’on vient de trouver conduit à
choisir (on annule la dérivée) :
#
"
2
−1
σ
) 1+2s .
K = K ∗ (s) := (
2sM
Ceci conduit au théorème suivant
Théorème 4 Si on a
2sM
≤ σ2
p2s+1
K ∗ (s)
≤ 2sM , alors en définissant K ∗ (s) comme in-
diqué plus haut, on a que β̂
est ’minimax dans la classe des estimateurs{β̂ K , K ∈
{1, . . . , p}} relativement à la contrainte Θs (M ).
4.5.1
Le cas diagonal décroissant
Dans le cas diagonal, on a les proposition et théorème parallèles à ceux du
cas orthonormal : On a la proposition suivante :
Proposition 5 Pour s > 0, M > 0, on a pour 1 ≤ K ≤ p ≤ n
K
Env(β̂ , Θs (M )) =
K
X
−2s
d−2
.
i + MK
i=1
Dans ce cas, on peut aussi optimiser la borne que l’on vient de trouver conduit
à choisir :
K
X
∗∗
−2s
K = K (s) := sup{K,
d−2
}.
i ≤ MK
i=1
Ceci conduit au théorème suivant
Théorème 5 Si on a s, p et M sont tels que 1 ≤ K ∗∗ (s) ≤ p, alors en
∗∗
définissant K ∗∗ (s) comme indiqué plus haut, on a que β̂ K (s) est ’minimax
dans la classe des estimateurs {β̂ K , K ∈ {1, . . . , p}} relativement à la contrainte
Θs (M ).
4.6. CONTRAINTE DE TYPE SPARSITÉ LQ , ET LQ,∞ , CLASSES DE LORENTZ45
4.5.2
Cadre asymptotique
Si on se place à nouveau dans le cadre orthonormal et que l’on fait tendre σ 2
vers 0 et (éventuellement aussi à la fois p vers l’infini, mais pas nécessairement).
Noter aussi que si au lieu de supposer une normalisation de type X t X = Ip
t
on suppose XnX = Ip , on peut facilement mettre β̂j sous la forme β̂j = βj + ηj
où les ηj sont maintenant des variables gaussiennes indépendantes centrées et
de variance n1 V ar(εi ), ce qui alors justifie pleinement de faire tendre σ 2 vers
0 et montre le rôle de n
Le théoreme 4 a pour conséquence :
σ2
sup Ekβ̂ − βk ≤ [
2sM
1≤K≤p
K
2
−1
1+2s
σ2
]σ + M [
2sM
2
−1
1+2s
4s
]−2s ≤ Cσ 1+2s
où C est une constante qui ne dépend que de s et M . On voit donc alors que
cette quantité tend vers 0 si s > 0. On note que ceci n’est pas vrai dans le cas
où s = 0.
On peut montrer que si au lieu de se limiter aux estimateurs de la forme β̂ K
qui donc, impose aux coordonnées après K à valoir 0, on considère le minimax
sur TOUS les estimateurs (B est l’ensemble de tous les estimateurs possible
de β ), alors on a l’inégalité suivante : il existe une autre constante C 0 , telle
que
4s
inf Env(β̂(n), Θs (M )) ≥ C 0 σ 1+2s .
(4.2)
β̂(n)∈B
Ceci prouve qu’à une constante près, la ’vitesse minimax’ d’estimation pour
la classe précédente est aussi bonne que si l’on considère tous les estimateurs.
4.6
Contrainte de type sparsité lq , et lq,∞, Classes
de Lorentz
Pour q > 0, I un sous ensemble de N, on note
)
(
X
lq (I) = θ = (θi )i∈I , /(
|θk |q )1/q := kθklq < ∞ .
k∈I
Le lemme suivant va nous permettre de considérer des espaces où l’on prend
en considération la relative importance de la taille des coefficients, d’une façon
plus subtile encore.
Lemme 1 Soit (ai )i∈I une famille de nombres réels et q > 0. Les assertions
suivantes sont équivalentes
1. Il existe C, telle que, pour tout λ > 0, #{i ∈ I/|a|i ≥ λ} ≤ (C/λ)q .
2. Il existe r > q, Cr , tel que
∀λ > 0,
X
i∈I
|ai |r 1|ai |≤λ ≤ Cr λr−q .
46
3. Pour tous r > q, il existe Cr , tel que
X
∀λ > 0,
|ai |r 1|ai |≤λ ≤ Cr λr−q .
i∈I
4. Il existe r > q, Cr , such that :
X
∀λ > 0,
(|ai | ∧ λ)r ≤ Cr λr−q .
i∈I
5. Pour tous r > q, il existe Cr , such that :
X
∀λ > 0,
(|ai | ∧ λ)r ≤ Cr λr−q .
i∈I
6. |a|(n) ≤ Cn−1/q , ∀n ∈ N∗ .
Finalement, on définit
q
q
lq,∞ (I) := θ = (θi )i∈I , / sup λ #{i ∈ I/|θ|i ≥ λ} := kθklq,∞ (I) < ∞ . (4.3)
λ>0
Preuve : Nous démontrerons que 2 =⇒ 1 =⇒
5 =⇒ 4 =⇒ 3 =⇒ 2.
P 6 =⇒
r
2 =⇒ 1 : Supposons qu’il existe r > q, tel que, i |ai | 1|ai |≤λ #{i} ≤ Cr λr−q ,
P
#{2j+1 λ > |ai | ≥ 2j λ}
#{i ∈ I, |ai | ≥ λ} =
Pj≥0 j −r P
|ai |r 12j+1 λ≥|ai |
(2 λ)
≤
Pj≥0 j −r i j+1
≤
λ)r−q
j≥0 (2 λ) Cr (2
≤ Cr0 ( λ1 )q .
1 =⇒ 6 : Car |a|(n) = inf[λ; card {i ∈ I/|a|i > λ} < n] ≤ inf[λ; (C/λ)q
< n] = Cn−1/q .
6 =⇒ 5 :
X
X
(|ai | ∧ λ)r =
(|a(i) | ∧ λ)r
i
i
≤
X
(Ci−1/q )r +
i≥C q λ−q
X
i≤C q λ−q
r
C
≤ C r [C q λ−q ]− q +1 + [ ]q λr
λ
≤ 2C q λr−q
4 =⇒ 3 : Si p0 ≥ r, on a
X
0
|ai |p 1|ai |≤λ ≤
X
≤
X
i
0
|ai |r 1|ai |≤λ λp −r
i
0
(|ai | ∧ λ)r λp −r
i
0
≤ Cp λp −q
λr
Si p0 < r, on doit raffiner un peu :
X
0
|ai |p 1|ai |≤λ =
XX
≤
XX
i
i
l≥0
0
|ai |p [
i
l≥0
≤c
0
|ai |p 12−l−1 λ≤|ai |≤2−l λ
XX
l≥0
|ai | r−p0
]
1|ai |≤2−l λ
−l−1
2
λ
0
0
|ai |r 1|ai |≤2−l λ 2l(r−p ) λp −r
i
≤ cCr
X
≤ cCr
X
0
0
[2−l λ]r−q 2l(r−p ) λp −r
l≥0
0
0
2−l(p −q) λp −q
l≥0
4
Les propriétés suivantes sont élémentaires mais caractérisent les liens entre
les contraintes lq et les contraintes lq,∞ :
1. ∀ q > 0, ∀ µ, lq (I) ⊂ lq,∞ (I) (puisque P
en utilisant la propriété de
Markov, on obtient : #{i ∈ I/|a|i ≥ λ} ≤ ( |ai |q )λ−q ).
P
P
r
r
2. ∀ r > q; lq,∞ (I) ⊂ lr (I). (Evidemment,
n≥1 |a|(n) ≤
i∈I |ai | =
P
kakrl(q,∞) n≥1 n−r/q ).
4.6.1
Lien avec la contrainte de sparsité ellipsoidale
On voit donc que les contraintes précédentes concernent directement le
nombre de coefficients grands en module sans faire référence à leur ordre. Montrons maintenant que c’est en fait (comme on peut s’y attendre) une contrainte
plus faible que la contrainte ellipsoidale.
Proposition 6 Pour s > 0 et
qs :=
1
s+
1
2
on a
ΘsM ⊂ lqs ,∞ .
Preuve : On remarque que de par l’appartenance à ΘsM , tous les |βi | sont
nécessairement bornés par M , donc on ne va être intéressé que par le comportement des ’petits’ λ (à ecrire mieux)( inférieurs à M ). Calculons en utilisant
48
les propriétés précédentes,
Card{i, |βi | > λ} =
∞
X
Card{i, |βi | > λ, 2j ≤ i < 2j+1 }
j=0
∞
X
1
≤
2 +
λ2
j=0
j=J+1
J
X
X
j
≤ 2J+1 +
|βi |2
2j ≤i<2j+1
∞
X
1 X
|βi |2
2
λ
j
j=J+1
2 ≤i
∞
X
1
J+1
≤2
+
M 2−2js
2
λ
j=J+1
≤ 2J+1 + M 2−2(J+1)s
λ2 (1
1
.
− 2−2s )
−2
Maintenant, si on choisit J tel que 2J+1 = λ 1+2s = λ−qs on observe que
−2
4s
2−2(J+1)s λ12 = λ 1+2s −2 = λ 1+2s . On en déduit qu’il existe une constante c(s, M )
telle que
Card{i, |βi | > λ} ≤ c(s, M )λ−qs .
4
4.6.2
Minimax : bornes inférieures sur les espaces de
types lp , et lq,∞
Plaçons nous maintenant dans le cadre asymptotique (σ −→ 0) et considérons
la classe d’estimateurs dont les coordonnées sont soit β̂i soit 0
C = {β̂(n)/ β̂(n)i ∈ {β̂i , 0}}.
La différence avec la classe précédente réside dans le fait que les 0 peuvent être
placés n’importe où et non plus seulement à la fin. On a donc une classe plus
grande. On a alors la proposition suivante,
Proposition 7 Pour 0 < q ≤ 2, si on désigne par
Θq,∞ (M ) := {β, sup Card{i, |βi | > λ}λq ≤ M }
λ>0
il existe une constante C(M ) telle que :
inf Env(β̂(n), Θq,∞ (M )) ≥ C(M )σ 2−q .
β̂(n)∈C
Preuve : On a, si β̂(n) ∈ C :
p
p
X
X
2
E(β̂i − βi )2 ∧ βi2
(β̂(n)i − βi ) ≥
E
i=1
i=1
=
p
X
σ 2 ∧ βi2
i=1
2
2
= σ Card{|βi | > σ } +
p
X
βi2 I{|βi | ≤ σ 2 }
i=1
On en déduit qu’il existe des constantes, telles que
sup
E
β∈Θq,∞ (M )
p
X
i=1
2
(β̂(n)i − βi ) ≥
2
σ Card{i, |βi | > σ} +
sup
β∈Θq,∞ (M )
p
X
βi2 I{|βi | ≤ σ}
i=1
p
≥ C(M )[σ 2 Card{i, |i−1/q | > σ} +
X
(i−1/q )2 I{i−1/q ≤ σ}]
i=1
= 2C(M )σ
2−q
.
4 On remarque qu’on a un paralléle intéressant avec le théorème 4 puisque
4s
. Dans la prochaine section nous allons montrer qu’en fait
2 − q = 1+2s
Théorème 6 Pour 0 < q ≤ 2, si on désigne par
λ>0
il existe des constantes C(M ) et C 0 telles que :
1
C(M )σ 2−q ≤ inf Env(β̂(n), Θq,∞ (M )) ≤ C 0 {[log ]1/2 σ}2−q .
σ
β̂(n)∈C
50
Chapitre 5
Méthodes d’estimations
parcimonieuses
1
5.1
Seuillage
Nous allons considérer l’estimateur suivant (appelé estimateur par seuillage)
β̂iT := t(β̂i )
avec
1
t(u) := uI{|u| ≥ κσ[log ]1/2 }
σ
Nous allons montrer le théorème suivant
5.1.1
Quasi minimax optimalité : cas orthonormal homoscédastique
Théorème 7 Pour 0 < q ≤ 2, si on désigne par
λ>0
log p
Si κ2 ≥ 4 ∨ 16 log
, il existe une constante C 0 telle que :
1/σ
1
Env(β̂ T , Θq,∞ (M )) ≤ C 0 {[log ]1/2 σ}2−q .
σ
Ce théorème montre que cet estimateur est quasi minimax. Il faut noter qu’il
est non linéaire (en Y ) (noter la différence avec l’estimateur du chapitre précédent
qui -lui- était linéaire. Il est par ailleurs simple à calculer et surtout adaptatif (en ce sens que sa construction ne dépend pas de la connaissance de
q)...
Preuve : Nous allons d’abord démontrer la proposition suivante
51
52
CHAPITRE 5. MÉTHODES D’ESTIMATIONS PARCIMONIEUSES
Proposition 8
E|β̂i − βi |4 ≤ Cσ 4 , ∀ 0 ≤ i ≤ p
1
2 2
P |β̂i − βi | ≥ τ κσ[log ]1/2 ) ≤ σ τ κ /2 , ∀ 0 ≤ i ≤ p.
σ
(5.1)
(5.2)
Remarquons que β̂i − βi suit une loi normale centrée de variance σ 2 . (5.1) est
donc une conséquence naturelle de la propriété de ’scaling’ de la loi normale.
(5.2) est une conséquence du lemme suivant :
Lemme 2 Si Z ∼ N (0, 1),
2
2
2
exp −x2
exp −x2
x2 exp −x2
√
√
} ∀x > 0
≤
P
(Z
≥
x)
≤
{
}
∧
{
1 + x2 x 2π
2
x 2π
Preuve :
Posons Φ(x) = P (Z ≥ x), on a
Z ∞
Z ∞
−x2
−v 2 dv
√
Φ(x) =
ϕ(u)du =
exp
exp −xv exp
2
2
2π
x
0
en utilisant le changement de variable u = v +x. Maintenant, en majorant tour
2
à tour exp −xv puis, exp −v2 par 1, puis en intégrant on obtient les majorations
par
exp
−x2
2
2
2
puis
Φ(x) ≥
=
exp −x
√ 2
x 2π
R∞
x
2
√x
2π
x2
u2
2
exp −u2
R∞
x
. Par ailleurs,
√du
2π
2
d(− u1 ) exp −u2 du =
2
√x ( 1
2π x
2
exp −x2 −
R∞
x
2
exp −u2 du)
2
On a utilisé une intégration par partie. On en déduit : Φ(x) ≥ √x2π exp −x2 −
x2 Φ(x). 4 Ce qui finit aussi la démonstration de la proposition.
Passons maintenant à la démonstration du théorème.
P
Posons si = κσ[log σ1 ]1/2 Le risque de l’estimateur E i≤p (β̂i 1|βî |>sii − βi )2 peut
être séparé en 2 parties :
"
# "
#
X
X
A+B =
E(1|βî n |>si |β̂i − βi |2 ) +
E|βi |2 1|βî |≤si
i≤p
i≤p,
En ce qui concerne le premier terme, à nouveau on le sépare en deux parties.
P
2
A = A1 + A2 =
i≤p 1|βi |≤si/2 E1|βî |>si |β̂i − βi |
P
+ i≤p 1|βi |>si/2 E1|βî |>si |β̂i − βi |2
Pour A1 on utilise l’inégalité de Cauchy Schwarz,
E1|βi −βî |>si/2 |β̂i − βi |2≤(P (|βi − β̂i |>si/2))1/2 (E|β̂i − βi |4 )1/2.
Donc,
P
2
A1 ≤
i≤p,|βi |≤si/2 E1|βi −βî |>si/2 |β̂i − βi |
P
2
2
≤ C i≤p σ κ /16 σ 2 ≤ pσ κ /16 σ 2
5.2. HORS ORTHONORMALITÉ : RIDGE REGRESSION
53
log p
A1 sera donc du bon ordre dés que κ2 ≥ 16 log(1/σ)
.
P
2
A2 ≤
i≤p,|βi |>si/2 E|β̂i − βi |
P
≤ C i≤p,|βi |>si/2 σ 2 ≤ Cσ 2−q M q ,
en utilisant la définition de Θq,∞ (M ).
En ce qui concerne le deuxième terme, on a
B = B1 + B2 =
P
n
2
i≤p, |βi |>2si |βi | P (|β̂i | ≤ si)
P
n
+ i≤p, |βi |≤2si |βi |2 P (|β̂i | ≤ si)
P
n
2
B1 ≤
i≤p, |βi |>2si |βi | P (|βi − β̂i | ≥ si)
P
2
2
≤ 2σ κ /2 i≤p, |βi |>2si |βi |2 ≤ 2σ κ /2 M 2 .
Ce terme est du bon ordre dès que κ2 ≥ 4. Maintenant le dernier terme se
majore en utilisant
de Θq,∞ (M ) :
P la définition
2
q
B2 ≤
|β
|
≤
M
[2si]2−q , qui est exactement du bon ordre.
i
|βi |≤2si
4
5.2
Hors orthonormalité : Ridge regression
La ’Ridge’ (traduction : crête, arête...) regression consiste à ’contracter’ les
coefficients, en imposant une contrainte de pénalisation sur leur taille. Plus
précisément, on a la définition suivante :
β̂
ridge
:= Argminβ
n
X
2
(Yi − [Xβ]i ) + λ
i=1
p
X
βi2 }.
i=1
Ici λ ≥ 0 est un paramétre de réglage qui contrôle la quantité de ’contraction’
qu’on va imposer à l’estimateur : λ = 0 correspond aux MCO, à l’inverse λ
très grand pousserait à prendre tous les coefficients égaux à 0. En utilisant les
multiplicateurs de Lagrange, on peut montrer que pour tout λ, il existe u tel
que β̂ ridge est aussi solution de
β̂
ridge
n
X
:= Argminβ
(Yi − [Xβ]i )2
i=1
sous contrainte
p
X
βi2 ≤ u.
i=1
Ce qui montre de façon explicite, la contrainte sur les paramètres. L’idée de
base de cette régression tient à la possibilité de correlation entre les colonnes
X j (précisément, le cas non orthonormal). Dans ce cas, il est clair que s’il y a
de fortes corrélations entre plusieurs colonnes, la matrice X 0 X devient quasiment (ou effectivement... ) non inversible, ce qui entraine une instabilité dans
la détermination des βi (ou simplement une grande variance pour ces coefficients). Par exemple, on voit bien que si deux colonnes (X 1 et X 2 par exemple)
54
sont presque égales, on peut artifiellement augmenter le coefficient β̂1 positivement, à condition de compenser négativement sur β̂2 . Evidemment, imposer
une contrainte sur la taille des coefficients réduira ce genre d’aberration.
Il est simple de montrer que comme la matrice [X t X + λI] est inversible,
on a
β̂ ridge = [X t X + λI]−1 X t Y.
(5.3)
On voit en particulier que même si X t X n’est pas inversible (par exemple parce
que p est très grand) la formule (5.3) aura un sens. C’est la raison historique
pour l’introduction de cet estimateur. On voit aussi (exercice) que dans le cas
orthonormé X t X = I, cet estimateur vaut
β̂i
ridge
=
M CO
1
β̂i
1+λ
(ce qui explique l’idée de contraction) et a un risque qui vaut
E
X ridge
(β̂i
− βi )2 = (1 + λ)−2 pσ 2 +
i≤p
X
λ2
βi2 .
2
(1 + λ) i≤p
Il est intéressant de noter que dans ce cas, la méthode Ridge est moins intéressante
qu’une méthode qui annule certain coefficients soit de maniére linéaire soit par
seuillage si l’on sait que l’on cherche un paramètre sous contrainte de sparsité.
Il est aussi intéressant de considérer le cas où la matrice X = D est une matrice diagonale à coefficients vi > 0 décroissants. i.e. Yi = vi βi + εi , l’estimateur
des MCO est
Yi
β̂i = .
vi
on a alors, en ce qui concerne l’estimateur ridge
β̂iridge =
vi2
β̂i .
vi2 + λ
(5.4)
On est donc amené à pénaliser fortement les β̂i qui correspondent aux vi les plus
petits. On retrouvera cette interprétation plus bas. Le risque de l’estimateur
ridge vaut dans ce cas :
E
X
i≤p
(β̂i
ridge
− βi )2 =
X
i≤p
vi2
λ2 βi2
2
σ
+
.
(vi2 + λ)2
(vi2 + λ)2
On voit que dans ce cas on peut améliorer la performance par rapport à l’estimateur MCO par exemple.
5.2.1
Ridge regression, interprétation Bayesienne
(voir l’appendice pour les estimateurs bayesiens) On peut se placer dans
un cadre bayesien pour interpréter cet estimateur. Supposons en effet que l’on
suppose σ connu et que l’on mette sur βl une loi de type Normale centrée et
5.2. HORS ORTHONORMALITÉ : RIDGE REGRESSION
55
de matrice de covariance τ 2 I. Les βl étant supposés indépendants. Il est alors
clair que la loi a posteriori admet une densité proportionnelle à :
p
X
1 X
2
2
exp − 2 { (Yi − [Xβ]i ) + σ λ
βi2 }.
2σ i≤n
i=1
2
Il est donc évident que si on fixe λ = στ 2 , β̂ ridge est le mode de cette loi a
posteriori. Comme par ailleurs, cette loi a posteriori est Normale, sa moyenne
est aussi son mode. Donc β̂ ridge est l’estimateur Bayesien associé à une perte
quadratique ou à une perte de type l1 .
5.2.2
ACP et Ridge
ACP
X t X est une matrice p × p symétrique. Donc il existe une matrice orthogonale V (V t = V −1 ) et une matrice D2 diagonale (positive ou nulle) telle
que
X t X = V D2 V t .
(5.5)
Les vecteurs colonnes vi de V sont les vecteurs propres de X t X et sont appelés les composantes principales de X (ou encore décomposition de KarhunenLoeve). Les éléments de la matrices diagonale D2 sont les valeurs propres associées à ces vecteurs propres. Supposons-les ordonnés par ordre décroissant.
Interprétation de l’ACP
Cette décomposition a beaucoup de propriétés remarquables. On en donne
souvent l’interprétation suivante. Si l’on suppose que les lignes de X sont en
fait des réalisations de vecteurs aléatoires centrés, de matrice de covariance Γ,
indépendants et de même loi. Alors n1 X t X est une estimation de la matrice de
covariance Γ, et si l’on assimile Γ et n1 X t X (estimation parfaite) ; Alors, v1 , la
première composante principale a la propriété que z1 = Xv1 est la réalisation
de n copies indépendantes d’une variable aléatoire centrée de variance v1t Γv1 =
v1t n1 X t Xv1 = n1 d21 . C’est donc parmi les combinaisons linéaires (normées) de X,
celle qui est la plus variante. On peut poursuivre le raisonnement en cherchant
la combinaison linéaire (normées), orthogonale à la précédente, la plus variante.
On trouve alors v2 , et ainsi de suite.
ACP et Ridge
Supposons pour simplifier que X t X est inversible. (Sinon, on peut mettre
à jour la plupart de ce qui suit avec quelques précautions) Si on introduit la
matrice
U = XV D−1 .
Cette matrice n × p est donc constituée de p vecteurs de Rn qui sont orthonormés par construction. (U t U = I). Par ailleurs l’estimateur des MCO, β̂
vérifie :
X β̂ = X(X t X)−1 X t Y = XV D−2 V t X t Y = U U t Y.
56
Par ailleurs, l’estimateur ridge β̂ ridge vérifie :
X β̂ ridge = X[X t X + λI]−1 X t Y
= X[V D2 V t + λV V t ]−1 X t Y
= XV [D2 + λI]−1 V t X t Y
= U D[D2 + λI]−1 DU t Y
p
X
d2j
=
uj 2
utj Y
d
+
λ
j
j=1
où les uj sont les vecteurs colonnes de la matrice U . Si on compare donc les
2 formules précédentes, exprimées sur la base des ui MCO et ridge calculent
leurs coordonnées par simple projection de Y sur cette base, la différence, c’est
d2j
que ridge ’contracte’ chaque coefficient d’un facteur d2 +λ
. Donc on contracte de
j
plus en plus à mesure que dj diminue. Maintenant, si on revient au paragraphe
précédent, on a ui = d−1
i zi . On contracte donc le plus les directions de l’espace
qui ont le moins de variance.
5.3
LASSO
La méthode LASSO est une méthode de ’shrinkage’ (ou contraction) comme
la méthode ridge, avec des différences apparemment subtiles mais en fait essentielles. L’estimateur β̂ lasso est défini comme solution de
β̂
ridge
n
X
:= Argminβ
(Yi − [Xβ]i )2
i=1
sous contrainte
p
X
|βi | ≤ u.
i=1
Apparemment, cette définition est très proche de celle de l’estimateur ridge.
Toutefois, le calcul de l’optimum est à l’évidence non linéaire alors qu’il était
linéaire pour l’estimateur ridge. Par ailleurs, on voit que pour u suffisamment
petit, l’estimateur lasso conduit à annuler un ou plusieurs des coefficients.
Prenons l’exemple du cas orthonormal :
5.3.1
LASSO, cas orthonormal, X t X = I
En utilisant les multiplicateurs de Lagrange on montre qu’il existe λ tel
que β̂ lasso est solution de
β̂
lasso
:= Argminβ
n
X
i=1
2
(Yi − [Xβ]i ) + λ
p
X
|βi |}
i=1
Pn
2
Pour
minimiser
la
première
quantité,
on
remarque
que
i=1 (Yi − [Xβ]i ) +
Pn
Pn
P
P
n
n
λ i=1 |βi | = i=1 (Yi )2 −2 i=1 Yi [Xβ]i + i=1 [Xβ]2i . Si on dérivePcette quantité par rapport à βl , (qui est dérivable en dehors de 0), on a −2 ni=1 Yi Xil +
5.4. AIC, BIC, MÉTHODES PÉNALISÉES
57
P
P
P
2 ni=1 Xil pj=1 Xij βj +λsign(βl ). Dans le cas orthonormal, cela vaut −2 ni=1 Yi Xil +
2βl + λsign(β
voit donc qu’il y a 3 possibilités
: soit βl = 0, soit βl > 0
Pn l ). On
Pn
λ
l
l
et βl = i=1 Yi Xi − 2 , soit βl > 0 et βl = i=1 Yi Xi + λ2 . Soit encore, puisque
ces différents cas sont exclusifs,
β̂llasso
n
n
n
n
X
X
X
X
λ
λ
λ
λ
l
l
l
=[
Yi Xi − ]I{[
Yi Xi − ] > 0} + [
Yi Xi + ]I{[
Yi Xil + ] < 0}
2
2
2
2
i=1
i=1
i=1
i=1
(5.6)
n
n
n
X
X
X
λ
λ
=[
Yi Xil − sign(
Yi Xil ) ]I{|
Yi Xil | > }
2
2
i=1
i=1
i=1
(5.7)
Cet estimateur particulier porte le nom de seuillage doux. On voit que certains
coefficients seront efectivement estimés par O. Il reste à déterminer λ, que l’on
choisit en respectant la contrainte de façon la plus serrée possible : i.e. λ
maximum sous la contrainte :
p
n
n
n
X
X
X
X
λ
l
l λ
Yi Xil | > }| ≤ u.
|[
Yi Xi − sign(
Yi Xi ) ]I{|
2
2
i=1
i=1
i=1
l=1
5.3.2
LASSO, interprétation Bayesienne
(voir l’appendice pour les estimateurs bayesiens) On peut se placer dans
un cadre bayesien pour interpréter cet estimateur. Supposons en effet que l’on
suppose σ connu et que l’on mette sur chaque βl une loi de type Laplace, c’est
à dire une loi de densité proportionnelle à
h(x) = exp −λ|x|.
Les βl étant supposés indépendants. Il est alors clair que la loi a posteriori
admet une densité proportionnelle à :
exp −
p
σ2 X
1 X
2
{
(Y
−
[Xβ]
)
+
|βi |}.
i
i
2σ 2 i≤n
τ 2 i=1
Donc β̂ lasso est le mode de cette loi a posteriori. Maintenant cette loi a posteriori est n’est plus Normale ; on ne peut plus donc dire qu’on a là un estimateur
de type bayesien. En revanche il s’interprête comme le maximum a posteriori.
5.4
AIC, BIC, méthodes pénalisées
Akaike (1973, 1974) proposent de selectionner les modèles en minimisant
la divergence de Kullback-Leibler (KL) estimée par rapport au vrai modèle.
Akaike (1973) propose de choisir l’estimateur minimisant (critère AIC)
−Ln (β̂) + λ
p
X
j=1
I{βj 6= 0}.
58
Ln est le logarithme de la vraisemblance et β̂ le maximum de vraisemblance
Schwartz propose avec des arguments bayesien le critère BIC, où on choisit
λ = log2 n .
Supposons les erreurs gaussiennes et σ 2 connu, dans ce cas
−Ln (β) =
1
kY − Xβk2 .
2σ 2
et si β̂ est l’estimateur des MCO, on est amené à minimiser
p
X
1
2
2
[kY − X β̂k + kX β̂ − Xβk ] + λ
I{βj 6= 0}.
2σ 2
j=1
La première partie ne dépend pas de β , on doit donc minimiser :
p
X
1
2
kX β̂ − Xβk + λ
I{βj 6= 0}.
2σ 2
j=1
(5.8)
Si RSS(d) correspond aux sommes des carrés des résidus quand on prend d
variables, le Cp de Mallows
Cp =
RSS(d)
+ 2d − n
RSS(p)
correspond à prendre λ = 1 et à estimer σ 2 . Le R2 ajusté
2
Radj
=1−
n − 1 RSS(d)
n − d RSS(p)
revient aussi (à peu près) à une méthode de type MCO penalisés.
Si on est dans le cas orthonormal (X t X = I), on doit donc minimiser
p
X
1
2
kβ̂ − βk + λ
I{βj 6= 0}.
2σ 2
j=1
Dans ce cas, il est facile de voir que la solution consiste à prendre βi = β̂i
quand βi 6= 0, et à choisir pour cela les i tels que β̂i2 ≥ 2σ 2 λ. Ceci donc conduit
à l’estimateur seuillé :
1
β̂(λ)i = β̂i I{|β̂i | ≥ σ[2λ] 2 }.
Une généralisation naturelle des méthodes pénalisées l0 est d’introduire une
penalisation lq pour q ≤ 2. On retrouve ainsi les méthodes Ridge (q=2), Bridge
0 < q < 2, et Lasso (l1 ).
5.5
Appendice : Méthodes bayesiennes en statistique classique
La différence fondamentale du contexte bayesien avec le contexte classique
réside dans l’introduction d’une loi de probabilité a priori ν sur l’ensemble des
5.6. CALCUL DE LOI A POSTERIORI, EXEMPLES
59
paramètres. Cela nécessite au préalable de munir Θ d’une tribu T . La loi ν
reflète alors, ce qu’on est sensé savoir du paramètre, avant l’espérience.
Ceci n’est pas sans conséquence sur notre modèle, puisque, de ce fait, θ est
une variable aléatoire, et donc Pθ , représente maintenant la loi de l’observation
X, conditionnellement à θ.
On appelle alors loi conjointe la loi du vecteur (X, θ) et loi a posteriori la
loi de θ conditionnelle à l’observation X ( θ|X) qui reflète alors, ce que l’on
sait sur le paramètre après l’expérience.
Étant donné une fonction de perte définie comme au paragraphe précédent,
et un estimateur T de la quantité q(θ), on définit alors le risque bayesien de
T,
Z
R(T, θ)dν(θ).
R(T, ν) =
Θ
On a alors la defintion suivante :
Définition 7 Dans le cadre précédent, un estimateur T ∗ est dit bayesien associé à la fonction de perte l et à la mesure a priori ν, s’il vérifie :
R(T ∗ , ν) ≤ R(T, ν)
pour tout estimateur T .
5.6
Calcul de loi a posteriori, Exemples
Notons maintenant p(x|θ) une densité de Pθ par rapport à la mesure dominante µ. (Nous supposons toujours le modèle dominé.) Notons que le changement de notation correspond à la nouvelle interprétation dans le cadre bayesien
de la loi Pθ .
Pour faciliter les calculs, nous considérerons une mesure m sur (Θ, T ) qui
domine ν, et nous noterons n(θ), une densité de ν par rapport à m.
Il est alors facile de vérifier que la loi conjointe de (X, θ) sur (X ×Θ), (A⊗T )
est dominée par la mesure produit µ ⊗ m par rapport à laquelle elle admet la
densité :
π(x, θ) = p(x|θ)n(θ).
Par le théorème de Bayes, la loi a posteriori sur Θ, T est aussi dominée par
m, et admet la densité :
p(θ|x) = R
p(x|θ)n(θ)
p(x|θ)n(θ)dm(θ)
Θ
Exemple 1 Prenons à nouveau, le cas du modèle binomial où le paramètre
inconnu
est θ = p ∈ Θ = [0, 1]. Le modèle est dominé par la mesure µ =
Pn
k=0 δk et
p(x|θ) = Cnk θx (1 − θ)n−x
60
Supposons que l’on choisisse la loi a priori de la façon suivante :(Ce choix
sera discuté ultérieurement.) On prend pour ν une loi Beta(r, s).
On rappelle que pour des paramètres r et s strictement positifs, on appelle loi Beta(r, s), la
loi dont la densité par rapport à la mesure (m, ici) de Lebesgue sur [0, 1] est donnée par
n(θ) = c(r, s)θr−1 (1 − θ)s−1 .
hR
i−1
On rappelle que c(r, s) = [0,1] θr−1 (1 − θ)s−1 dθ
, que la moyenne de cette loi est
rs
et sa variance est
.
(r + s)(r + s + 1)
r
r+s ,
La loi conjointe admet alors une densité par rapport à µ ⊗ m donnée par :
π(x, θ) = c(r, s)Cnk θx+r−1 (1 − θ)n−x+s−1 .
La loi a posteriori admet par rapport à m la densité :
θx+r−1 (1 − θ)n−x+s−1
= c(r + x, n − x + s)θx+r−1 (1 − θ)n−x+s−1
x+r−1 (1 − θ)n−x+s−1 dθ
θ
[0,1]
p(θ|x) = R
C’est donc une loi Beta(r + x, s + n − x). (Ne pas perdre de vue que x est
notre observation, c’est donc une quantité aléatoire.)
Ceci nous permet d’interpréter les paramètres r, s de la loi a priori. En
effet, en observant comment s’opère la modification de notre connaissance sur
le paramètre avant et après observation, on remarque que r et x jouent des
rôles analogues, de même pour r + s et n. On peut donc interpréter la loi
a priori comme une observation préalable à l’expérience, portant sur r + s
observations (au sens où une binomiale B(n, θ) peut toujours être considérée
comme la somme de n variables de Bernoulli indépendantes), et au cours de
laquelle l’observation aurait été x0 = r.
Le fait que les lois a priori et a posteriori se retrouvent dans la même
famille de lois n’est pas un hasard. On dit alors que cette famille de lois est
conjuguée au modèle. Nous verrons d’autres exemples de ce phénomène.
5.7
5.7.1
Calcul de l’estimateur bayesien.
Perte quadratique ou de type L1 .
Nous nous plaçons maintenant dans le cas suivant : Θ ⊂ R, q(θ) = θ. Nous
allons démontrer les théorèmes suivants :
Théorème 6 avec les notations précédentes, si la fonction de perte est :
l(t, θ) = (t − θ)2
5.7. CALCUL DE L’ESTIMATEUR BAYESIEN.
61
si le modèle et la loi a priori sont choisis de sorte que :
Z
θ2 p(θ|x)dm(θ) < +∞, ∀x ∈ X , µ − p.s.
Θ
alors l’estimateur bayesien du problème est donné par
Z
∗
θp(θ|x)dm(θ)
T (x) =
Θ
Théorème 7 avec les notations précédentes, si la fonction de perte est :
l(t, θ) = |t − θ|
si le modèle et la loi a priori sont choisis de sorte que : ∀ x dans X , µ − p.s.,
il existe τ (x) vérifiant
Z
Z
p(θ|x)dm(θ) =
p(θ|x)dm(θ) = 1/2.
θ≤τ (x)
θ≥τ (x)
(τ (x) est unique médiane de la loi a posteriori.) alors l’estimateur bayesien du
problème est donné par
T ∗ (x) = τ (x)
Les deux théorèmes sont une conséquence des lemmes suivants.
Lemme 2 Avec les notations précédentes, pour que T ∗ soit un estimateur
bayesien associé à la fonction de perte l, il suffit que, pour tout x dans X , µ −
p.s., T ∗ (x) minimise la fonction :
Z
r ∈ R 7→
l(r, θ)p(θ|x)dm(θ)
Θ
Démonstration du lemme 2 :
Définissons la marginale en X, de densité par rapport à la mesure µ(x),
Z
π(x, θ)dm(θ).
p(x) =
Θ
Il suffit de remarquer qu’on cherche à minimiser (en T (x)) la quantité suivante,
que l’on transforme en utilisant le théorème de Fubini :
Z
Z Z
[R(T, θ)]dν(θ) =
[ l(T (x), θ)p(x|θ)dµ(x)]n(θ)dm(θ)
Θ
Θ
Z ZX
=
l(T (x), θ)π(x, θ)dµ(x)dm(θ)
ZΘ ZX
=
l(T (x), θ)p(θ|x)p(x)dµ(x)dm(θ)
Θ
X
Z Z
=
{ l(T (x), θ)p(θ|x)dm(θ)}p(x)dµ(x)
X
Θ
62
On voit alors que si on minimise la quantité entre parenthèses pour tout x
dans X , µ − p.s., on minimisera à coup sûr l’intégrale.
Lemme 3 Si Z est une variable aléatoire réelle, telle que EZ 2 < ∞, alors la
fonction :
r ∈ R 7→ E(Z − r)2 admet un unique minimum en r = EZ.
Démonstration du lemme 3 : On remarque simplement que :
E(Z − r)2 = E(Z − EZ)2 + (r − EZ)2
Lemme 4 Si Z est une variable aléatoire réelle, telle qu’il existe τ , P (Z ≤
τ ) = P (Z ≥ τ ) = 1/2 alors la fonction :
r ∈ R 7→ φ(r) = E|Z − r| admet un unique minimum pour r = τ .
Démonstration du lemme 4
1. Remarquons d’abord que φ est une fonction convexe : Pour tout λ ∈
[0, 1],
φ(λr1 + (1 − λ)r2 ) = E|λ(Z − r1 ) + (1 − λ)(Z − r2 )|
≤ λφ(r1 ) + (1 − λ)φ(r2 )
2. Par ailleurs φ(r) ≥ |r − E|Z|| donc φ tend vers l’infini quand |r| tend
vers l’infini.
3. Nous pouvons donc en conclure que φ admet en tout point une dérivée à
gauche et une dérivée à droite et un minimum en un point r0 vérifiant :
φ0 ((r0 )− ) ≤ 0, φ0 ((r0 )+ ) ≥ 0
4. On a :
Z
Z
φ(r) = −
(x − r)dP (x) +
(x − r)dP (x)
x≥r
Z
= EZ − r − 2
(x − r)dP (x)
x≤r
x≤r
5. ROn a en utilisant
R ∞Fubini :
R∞
R
F
(x)dx
=
I{x ≤ r}[ −∞ I{z ≤ x}dP (z)]dx = R2 I{z ≤ x ≤
x≤r
−∞
R
r}dxdP (z) = R I{z ≤ r}(z − r)dP (z)
6. On déduit de 4. et 5. que :
Z
φ(r) = EZ − r + 2
F (x)dx
x≤r
63
7. Pour h > 0, on peut donc écrire :
1
φ(r + h) − φ(r)
= −1 + 2
h
h
r+h
Z
h→0
F (x)dx −→ −1 + 2F (r+ )
r
8. le lemme s’obtient en faisant un calcul identique pour h < 0 et en utilisant
3.
Exemples
1. Reprenons l’exemple du modéle binomial, doté d’une loi a priori de type
Beta(r, s). On a vu que la loi a posteriori, étant donné une observation
x ∈ {0, . . . , n} était une loi Beta(r+x, s+n−x). On peut donc appliquer,
par exemple le théorème 6. On obtient alors que l’estimateur bayesien
est
r+x
T ∗ (x) =
.
n+r+s
Nous retrouvons la famille d’estimateurs considérée dans le premier paragraphe de ce chapitre. On retrouve aussi les rôles respectifs joués par
les paramètres de la loi a priori.
2. Supposons que l’on observe un n-échantillon de variables aléatoires gaussiennes N (θ, 1). On se propose d’estimer q(θ) = θ.
t et v 2 étant des paramètres arbitrairement fixés, choisissons comme loi
a priori sur θ une loi normale N (t, v 2 ). On peut alors prendre pour µ la
mesure de Lebesgue sur Rn , et pour m, la mesure de Lebesgue sur R. On
a alors, pour x = (x1 , . . . , xn )
n
−1 X
1
(xi − θ)2
p(x1 , . . . , xn |θ) =
n exp
2 i=1
(2π) 2
π(x1 , . . . , xn , θ) =
1
v(2π)
exp
n+1
2
n
−1 X
(θ − t)2
[ (xi − θ)2 +
]
2 i=1
v2
n
−1 X
(θ − t)2
p(θ|x1 , . . . , xn ) = C(x1 , . . . , xn ) exp
[ (xi − θ)2 +
]
2 i=1
v2
Pn
xi +
−1
1
0
= C (x1 , . . . , xn ) exp
[(n + 2 )(θ − i=1 1
2
v
n + v2
t
v2 2
)]
On déduit de cette dernière écriture que la loi a posteriori est une normale
Pn
N(
xi +
n + v12
i=1
t
v2
,
1
)
n + v12
On peut alors facilement appliquer les théorèmes 6 et 7. On obtient pour
les deux fonctions de perte le même estimateur :
∗
T (x1 , . . . , xn ) =
Pn
xi +
n + v12
i=1
t
v2
.
64
On voit bien tant sur la loi a posteriori que sur l’estimateur la façon
dont on peut interpréter les différents paramètres de la loi a priori : Elle
s’interprête à nouveau comme une observation préalable ayant portée
sur un n0 ≈ v12 -échantillon (n joue le même rôle que v12 ), et donnant
des
Pn
i=1 xi
observations sont la moyenne est t (t joue le même rôle que n .
3. (Exercice) Reprendre le modèle du n-échantillon gaussien. Supposons
maintenant qu’il s’agit de gaussienne N (θ, σ 2 ) où σ 2 aussi est inconnu.
Quelle famille de loi a priori doit-on choisir, pour que la loi a posteriori
reste dans cette famille ?
5.7.2
Problème de classification.
Étudions maintenant le problème suivant très important en pratique : On
observe le vecteur aléatoire de Rk , Y . On sait que la loi du vecteur Y se
trouve nécessairement parmi les lois N (β1 , Γ), . . . , N (βl , Γ). β1 , . . . , βl sont des
vecteurs connus (et différents) de Rk , Γ est une matrice de covariance de dimension k × k, connue et définie positive.
Notre problème est donc simplement de choisir entre les βi .
Nous nous placer en contexte bayesien et mettre une loi a priori sur notre
ensemble de paramètres :
νi = ν{β = βi }.
Nous allons considérer avec un intérêt particulier le cas où νi = 1l . Il correspond au fait de ne vouloir privilégier aucune des hypothèses.
Nous prenons pour perte la fonction :
l(β, βi ) = 1β6=βi .
Pour trouver l’estimateur β ∗ (Y ) ∈ {β1 , . . . , βl }, nous allons donc minimiser
le risque bayesien du problème :
l
X
∗
Eβi l(β (Y ), βi )νi =
i=1
=
l
X
Eβi 1β ∗ (Y )6=βi νi
i=1
l Z
X
Z
=
1β ∗ (Y )6=βi p(y, βi )dyνi
Rk
i=1
[
l
X
1β ∗ (Y )6=βi p(y, βi )νi ]dy
Rk i=1
Il est clair, sur cette dernière expression que si on emploie la stratégie suivante :
β ∗ = βi∗
65
avec i∗ = Argsupi p(y, βi )νi , on minimisera certainement le risque bayesien.
1
Il est en particulier intéressant de considérer le cas νi = . Un calcul simple
l
montre que dans ce cas, on a
i∗ = Arginfi (y − βi )∗ Γ−1 (y − βi )
Ce qui correspond à choisir le vecteur des moyennes qui est le plus près de
l’observation y au sens de la forme quadratique associée à l’inverse de la covariance.
Exercice : Etudier le cas où l = 2 et comparer le résultat trouvé au théorème
de Neymann- Pearson.

Université Paris 7- Denis Diderot Notes de cours pour le Module

Transcription

Documents pareils

Extrait - Librinova

Proj` Courte

Banque PT Mathématiques - Oral 1, 30 min au tableau. Pour l`X, l

Modélisation non paramétrique de la régression pour variables

TOURVILLE Pressoir C AEN Gare Routière

Projet : réalisation d`un jeu simple

l`heure de la retraite a sonne

Statistiques Master Statistique et econométrie TD sur les tests

Tu es mon autre - Lara Fabian

Master 2 Biostatistiques - UE Bayes