Université Paris 7- Denis Diderot Notes de cours pour le Module
Transcription
Université Paris 7- Denis Diderot Notes de cours pour le Module
1 Université Paris 7- Denis Diderot Notes de cours pour le Module DATA MINING Dominique Picard 1 1. Copyright @ 2009 Universite Paris-Diderot Dominique Picard 2 Table des matières 1 Introduction aux modèles de régression 2 5 Modèle de régression linéaire 2.1 Description du modèle . . . . . . . . . . . . . . . . . . . . . . 2.1.1 Exemples . . . . . . . . . . . . . . . . . . . . . . . . . 2.2 Méthode des Moindres Carrés Ordinaires . . . . . . . . . . . . 2.3 Estimation de β . . . . . . . . . . . . . . . . . . . . . . . . . . 2.3.1 Interprétation géométrique . . . . . . . . . . . . . . . . 2.3.2 Calcul récursif, Méthode de Gram Schmidt . . . . . . 2.4 Lois des estimateurs. Estimation de σ 2 . . . . . . . . . . . . . . 2.5 Théorème de Gauss Markov et Moindres Carrés pondérés. . . 2.6 Etude du modèle ajusté : estimation et tests . . . . . . . . . . 2.6.1 Intervalles de confiance pour a∗ β et σ 2 . . . . . . . . . 2.6.2 σ 2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.6.3 Test d’une sous hypothèse linéaire. . . . . . . . . . . . 2.6.4 Résolution . . . . . . . . . . . . . . . . . . . . . . . . . 2.6.5 Calcul pratique de F . . . . . . . . . . . . . . . . . . . 2.6.6 Version ’RSS’ de ce test . . . . . . . . . . . . . . . . . 2.7 Exemples :Etude du modèle ajusté en pratique . . . . . . . . . 2.7.1 Significativité globale : le test dit du R2 . . . . . . . . 2.7.2 Etude de la validité du modèle : Tests non paramétrique sur les résidus . . . . . . . . . . . . . . . . . . . . . . 2.7.3 Significativité de chacune des variables explicatives . . 2.8 Multi-colinéarité . . . . . . . . . . . . . . . . . . . . . . . . . 2.8.1 Diagnostics . . . . . . . . . . . . . . . . . . . . . . . . 2.8.2 Modèles curvilinéaires . . . . . . . . . . . . . . . . . . 2.9 Sélection de variables et Choix de modèles . . . . . . . . . . . 2.9.1 Statistique de Fisher : . . . . . . . . . . . . . . . . . . 2.9.2 Critères de choix : AIC, BIC, Cp . . . . . . . . . . . . 2.9.3 Algorithmes de sélection . . . . . . . . . . . . . . . . . 2.10 Théorèmes de Student et de Cochran . . . . . . . . . . . . . . 3 Régression non paramétrique 3.1 Modèle . . . . . . . . . . . . . . 3.2 Réduction à un modèle linéaire 3.2.1 Base polynomiale . . . . 3.2.2 Base trigonométrique . . 3 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7 7 8 9 9 10 12 13 14 17 17 18 18 19 20 20 21 21 . . . . . . . . . . 22 23 24 24 25 25 25 26 26 27 . . . . 31 31 31 32 32 4 TABLE DES MATIÈRES 3.3 3.4 3.5 3.6 3.2.3 Base de Haar . . . . . . . . . 3.2.4 Base d’ondelettes . . . . . . . Estimation de f par projection . . . 3.3.1 Dans la base trigonométrique 3.3.2 Dans la base de Haar . . . . . Calcul de l’erreur . . . . . . . . . . . 3.4.1 Base de Fourier . . . . . . . . 3.4.2 Base d’ondelettes . . . . . . . Optimalité . . . . . . . . . . . . . . . Méthode des noyaux . . . . . . . . . 3.6.1 Choix de la fenêtre . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4 p grand, Sparsités 4.1 Evaluation de la prédiction . . . . . . . . . . . . . . . . . . . . 4.2 Le cas orthonormal : X ∗ X = Ip . . . . . . . . . . . . . . . . . 4.3 Contraintes de sparsité de type ellipsoidales . . . . . . . . . . 4.4 Cadre ’minimax’ . . . . . . . . . . . . . . . . . . . . . . . . . 4.5 Résolution minimax sous contrainte de sparsité ellipsoidale, cas orthonormal . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4.5.1 Le cas diagonal décroissant . . . . . . . . . . . . . . . . 4.5.2 Cadre asymptotique . . . . . . . . . . . . . . . . . . . 4.6 Contrainte de type sparsité lq , et lq,∞ , Classes de Lorentz . . . 4.6.1 Lien avec la contrainte de sparsité ellipsoidale . . . . . 4.6.2 Minimax : bornes inférieures sur les espaces de types lp , et lq,∞ . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33 33 33 34 34 35 35 37 38 39 40 . . . . 41 41 42 42 43 . . . . . 43 44 45 45 47 . 48 5 Méthodes d’estimations parcimonieuses 51 5.1 Seuillage . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51 5.1.1 Quasi minimax optimalité : cas orthonormal homoscédastique 51 5.2 Hors orthonormalité : Ridge regression . . . . . . . . . . . . . . 53 5.2.1 Ridge regression, interprétation Bayesienne . . . . . . . . 54 5.2.2 ACP et Ridge . . . . . . . . . . . . . . . . . . . . . . . . 55 5.3 LASSO . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 56 5.3.1 LASSO, cas orthonormal, X t X = I . . . . . . . . . . . . 56 5.3.2 LASSO, interprétation Bayesienne . . . . . . . . . . . . . 57 5.4 AIC, BIC, méthodes pénalisées . . . . . . . . . . . . . . . . . . 57 5.5 Appendice : Méthodes bayesiennes en statistique classique . . . 58 5.6 Calcul de loi a posteriori, Exemples . . . . . . . . . . . . . . . . 59 5.7 Calcul de l’estimateur bayesien. . . . . . . . . . . . . . . . . . . 60 5.7.1 Perte quadratique ou de type L1 . . . . . . . . . . . . . . 60 5.7.2 Problème de classification. . . . . . . . . . . . . . . . . . 64 Chapitre 1 Introduction aux modèles de régression 1 Une première citation de H.G. Wells (1866-1946) : ’Statistical thinking will one day be as necessary for efficient citizenship as the ability to read and write.’ Une deuxième citation de Hal Varian, The McKinsey Quarterly, January 2009 : “I keep saying the sexy job in the next ten years will be statisticians. ” Je remercie Karine Tribouley pour m’avoir communiqué son cours à Paris X Nanterre. Je lui ai emprunté certaines parties. Le modèle de régression est probablement le modèle le plus vaste et le plus utilisé et étudié (encore maintenant des milliers d’articles paraissent dans des revues mathématiques chaque année sur le sujet) en statistique. Il consiste à proposer une modélisation dans le cas de figure suivant. Pour employer un vocabulaire d’économiste, on dispose d’une variable endogène ou expliquée que l’on note généralement Y et d’un certain nombre p de variables exogènes ou explicatives que l’on note généralement X 1 , . . . , X p . Les variables X j pour j = 1, . . . , p apparaissant comme les causes d’un phénomème et la variable Y comme une conséquence, on a envie d’écrire qu’il existe une relation fonctionnelle entre la variable Y et les variables X j pour j = 1, . . . , p soit Y = f (X 1 , . . . , X p ) pour une certaine fonction f sur laquelle on veut avoir des informations. Le but de ce cours est d’étudier les principales méthodes d’estimation de cette fonction f lorsqu’on dispose de n données sur les variables Y, X 1 , . . . , X p . Nous serons amenés à distinguer le cas où p < n du cas où p >> n, plus difficile mais aussi très important dans le cadre actuel marqué plutot par la surabondance des données. 1. Copyright @ 2009 Universite Paris-Diderot Dominique Picard 5 6 CHAPITRE 1. INTRODUCTION AUX MODÈLES DE RÉGRESSION Suivant les hypothèses que l’on est pret à faire a priori, plusieurs méthodes seront envisagées. En particulier nous envisagerons plusieurs types de modèles. – le modèle linéaire : f est supposée être une fonction linéaire. On s’intéresse à des variables X j quantitatives. – L’ANOVA ou le modèle logistique : f est supposée être linéaire. On s’intéresse à des variables X j qualitatives ou catégorielles. – le modèle de classification où les variables X j sont quantitatives et où la variable Y est qualitative. – le modèle paramétrique : f est supposée dépendre d’un paramètre θ inconnu. Mais la forme f := fθ est connue. – le modèle non paramétrique : f est supposée être complêtement inconnue. Cependant, on suppose qu’elle admet une certaine régularité. Ces modèles sont très utilisés dans la pratique et dans de nombreux domaines. Donnons quelques exemples. – Dans le domaine de l’économie : En vue d’une politique de relance par la consommation, on veut connaitre l’influence du revenu sur la consommation. Soit R le revenu d’un ménage et C sa consommation. L’INSEE modélise généralement la relation entre R et C par un modèle linéaire R = a + bC. Le paramètre a représente la consommation incompressible d’un ménage (même sans revenu) et le paramètre b est appelé la propension marginale à consommer. Une estimation de b proposée par l’INSEE est environ 0.8. – Dans le domaine de la biomédecine : On veut évaluer le risque d’apparition d’un cancer selon que la personne a été (ou non) exposée au tabac. La variable explicative est ici X qui prend 2 valeurs (”Fumeur” ou ”NonFumeur”) et la variable à expliquer est Y qui est une probabilité de risque (valeur comprise entre 0 et 1). On propose comme modèle Logit(Y ) = a + bX. – Dans le domaine de l’environnement : il s’agit de prévoir la concentration d’ozone à partir des variables suivantes : force du vent, température et concentration d’oxyde d’azote. La forme particulière de la fonction fθ est donnée par des physiciens qui utilisent des équations provenant de la mécanique des fluides. – En signal : On enregistre un concert. On discrétise le signal en échantillonnant toutes les secondes. On note Yi le signal recu au temps i. Ce signal est fonction du temps et on modélise par Yi = f (i) + i où i contient tous les ”bruits” enregistrés mais indésirables (les toux des gens, le bruit de la ventilation, ect..). Chapitre 2 Modèle de régression linéaire 1 Ce modèle de régression est le plus utilisé et le mieux connu de toutes les personnes traitant des données dans des domaines divers. 2.1 Description du modèle Soit Y la variable que l’on veut expliquer grâce aux p variables explicatives X , . . . X p . On note X la matrice n×p qui contient les échantillons des variables X j pour j = 1, . . . p : X = Xij 1≤i≤n,1≤j≤p . 1 La modélisation dite de régression linéaire multiple est la suivante Yi = β1 Xi1 + . . . + βp Xip + i , 1≤i≤n ce qui est équivalent, en écriture matricielle à Y = X β + (n, 1) (n, p) (p, 1) (n, 1) (2.1) avec : 1. β est un paramètre de Rp inconnu et non aléatoire. 2. on impose au vecteur aléatoire de RN : – centrage : E() = 0n . – indépendance et homoscédasticité : notons Σ la matrice de variancecovariance de . Alors Σ = σ 2 Idn pour σ 2 > 0 inconnu, déterministe. On ne connait pas forcément la loi de . On appelle l’erreur ou la perturbation. Remarquons qu’en géneral, la constante 1n de Rn fait partie des régresseurs (par défaut dans les logiciels). Le modèle est dit linéaire car il est linéaire en les paramètres βj pour j = 1, . . . , p. La plupart du temps dans ce cours, nous ferons l’hypothèse que les εi sont i.i.d. de loi normale N (0, σ 2 ). Une fois la modélisation choisie, il s’agit d’estimer les paramètres inconnus β, σ 2 du modèle (il y en a donc p + 1 au total). 1. Copyright @ 2009 Universite Paris-Diderot Dominique Picard 7 8 CHAPITRE 2. MODÈLE DE RÉGRESSION LINÉAIRE 2.1.1 Exemples 1. Comparaison de 2 populations de même variance : On dispose de 2 0 échantillons Z1 , . . . , Zm i.i.d. N (µ1 , σ 2 ) et Z10 , . . . , Zm i.i.d. N (µ2 , σ 2 ). On les concatène pour former le vecteur 0 ∗ Y = (Z1 , . . . , Zn , Z10 , . . . , Xm ) = (Y1 , . . . , Ym+n )∗ Si on considère la matrice X de taille n × 2, telle que 1 1 X11 = . . . = Xn1 = 1, Xn+1 = . . . = Xn+m =0 2 2 X12 = . . . = Xn2 = 0, Xn+1 = . . . = Xn+m =1 et le vecteur β = (µ1 , µ2 )∗ , il est facile de mettre notre modèle sous la forme (2.1). 2. Droite de régression. Supposons que l’on sache par des arguments théoriques ( agronomiques, biologiques, économiques, physiques,...) que 2 quantités x (par exemple le temps) et y (par exemple la taille d’un animal) sont liées par une équation affine de la forme y = ax + b, dont on veut identifier les coefficients a et b. Une façon de procéder est de mesurer yi pour différentes valeurs de xi (appelée variable contrôlée ) et de modèliser les erreurs par des N (0, σ 2 ) indépendantes. On a alors la représentation (2.1), avec X11 = x1 , . . . , Xn1 = xn , X12 = . . . = Xn2 = 1, β = (a, b)∗ Cet exemple peut se généraliser en remplaçant la relation affine par une relation de la forme : p X y= βj fj (x) j=0 Une régression polynomiale s’obtient par exemple en prenant f0 = 1, f1 (x) = x, . . . , fp (x) = xp 3. On appelle Analyse de la variance (Anova) le cas où la matrice X est uniquement constituée de 1 et de 0. Donnons un exemple : Dans des conditions de culture de référence (0), une variété de blé a un rendement moyen de µ. On la soumet, dans des parcelles expérimentales à un traitement à 2 facteurs : 1er facteur (par exemple, un engrais) auquel, outre le niveau 0 de référence, on donne 2 niveaux, notés 1 et 2 (par exemple, 2 doses différentes d’engrais). 2eme facteur (par exemple, un niveau d’ensoleillement) auquel on donne soit le niveau de référence 0 soit le niveau 1. 2.2. MÉTHODE DES MOINDRES CARRÉS ORDINAIRES 9 Le modèle de base choisi est le suivant : y = µ + αi + βj Il est dit additif : Le effets des facteurs s’ajoutent simplement sans interférences. αi représente l’effet du 1er facteur au niveau i = 0, 1, 2, βj représente l’effet du 2eme facteur au niveau j = 0, 1. α0 = β0 = 0. Le terme additif signifie que les effets des 2 facteurs s’ajoutent. Il est clair qu’on aurait pu aussi rajouter “une interaction” de la forme γij , mais par souci de simplicité, nous ne l’avons pas fait ici. Le but est d’obtenir des informations (estimation ou test) sur les αi et les βj . Pour cela, on réalise une expérimentation : On divise un champs en parcelles numérotées (6, dans l’exemple qui suit). Sur chaque parcelle, on applique les facteurs à un niveau prescrit. La description des niveux affectés aux parcelles s’appelle le plan de l’expérience. Ici, il est donné par le tableau suivant. Parcelle 1 2 3 4 Facteur 1 0 1 2 0 Facteur 2 0 0 0 0 5 6 1 0 0 1 Si l’on suppose que l’on modèlise le rendement sur chaque parcelle par un effet de type (3) auquel s’ajoute une erreur N (0, σ 2 ), et si l’on suppose les erreurs indépendantes, on obtient une équation du type Y = Xβ + ε, où Y est le vecteur des rendements, ε est le vecteur des erreurs, β = (µ, α1 , α2 , β1 )∗ et X est la matrice suivante 1 0 0 0 1 1 0 0 1 0 1 0 X= 1 0 0 0 1 1 0 0 1 0 0 1 2.2 Méthode des Moindres Carrés Ordinaires 2.3 Estimation de β Nous allons utiliser ici la méthode dite des moindres carrés : Pour cela, on introduit la fonction, n X γ(β, Y ) = (Yi − (Xβ)i )2 i=1 Cette fonction mesure la distance dans Rn entre le vecteur Y et sa prédiction par Xβ. Il est relativement naturel de choisir comme estimateur de β, un point β̂ rendant cette quantité minimum. β̂ = Argmin{γ(β, Y ); β ∈ Rp } 10 2.3.1 CHAPITRE 2. MODÈLE DE RÉGRESSION LINÉAIRE Interprétation géométrique Si β parcourt Rp , Xβ parcourt l’espace vectoriel V engendré, dans Rn , par les colonnes de la matrice X : V = X(Rp ) ⊂ Rn Comme γ(β, Y ) = kY − Xβk2 , nécessairement X β̂, existe, est unique puisque c’est la projection sur V de Y , X β̂ = ProjV (Y ). On en déduit que β̂ existe aussi toujours, mais n’est unique que si X est injectif. Proposition 1 Si p ≤ n, la matrice X, de dimension n × p est injective si et seulement si X ∗ X est inversible. Démonstration de la Proposition. Il sufit de démontrer que ker(X) = ker(X ∗ X). Il est clair que ker(X) ⊂ ker(X ∗ X). Maintenant, soit u ∈ ker(X ∗ X), on a X ∗ Xu = 0, d’où u∗ X ∗ Xu = 0, i.e. kXuk2 = 0 =⇒ Xu = 0 =⇒ u ∈ ker X. Résolution algébrique X β̂ = ProjV (Y ) ⇐⇒ hY − X β̂, Xbi = 0, ⇐⇒ b∗ X ∗ Y = b∗ X ∗ X β̂, ⇐⇒ X ∗ Y = X ∗ X β̂ ∀b ∈ Rp ∀b ∈ Rp D’oú, en utilisant la proposition si X est injective, β̂ = (X ∗ X)−1 X ∗ Y Remarque : Si X ∗ X n’est pas inversible, on n’a pas unicité de β̂, mais existence. Donnons une solution, utilisant la pseudoinverse : X ∗ X étant une matrice symétrique, positive, elle s’écrit M ∗ DM avec M matrice orthogonale et D est une matrice diagonale, dont les coefficients diagonaux sont notés ri2 . On suppose ri2 > 0, ∀i = 1, . . . , k, ri2 = 0, ∀i ≥ k + 1. Appelons pseudoinverse de X ∗ X la matrice 1 ... ... 0 0 0 r12 ... 1 (X ∗ X)(−1∗) = M ∗ 0 . . . rk2 . . . 0 0 M .. . 0 ... 0 ... 0 0 Notons que si X ∗ X est inversible, alors pseudoinverse et inverse coincident. On vérifie facilement que β̂ = (X ∗ X)(−1∗) X ∗ Y est une solution de notre problème, et que l’opérateur de projection sur V est donné par : X β̂ = X(X ∗ X)(−1∗) X ∗ Y = ProjV (Y ) 2.3. ESTIMATION DE β 11 4 Rappelons que si V ⊥ est le supplémentaire orthogonal de V , ProjV ⊥ (Y ) = Y − ProjV (Y ) = [In − ProjV ](Y ) = [In − X(X ∗ X)−1 X ∗ ]Y Définition 1 On appelle vecteur des résidus, le vecteur ε̂ = [In − X(X ∗ X)−1 X ∗ ]Y. Il représente l’erreur de prédiction. Le carré de sa norme s’appelle l’erreur quadratique. Exemples : 1. Dans le cas élémentaire suivant : Y i = µ + εi l’estimateur des moindres carrés se calcule facilement et vaut Ȳn = Pn i=1 Yi . n 2. Dans le cas d’une régression linéaire, nous avons vu que β = (a, b)∗ et x1 1 X = ... ... xn 1 De sorte que Pn 2 Pn xi xi i=1 i=1 P X X= n n i=1 xi ∗ Dans ce cas, un changement de paramètres peut rendre les choses plus Pn i=1 xi aisées : En effet, si on introduit x̄n = n , le modèle s’ecrit : Yi = azi + b0 + εi , zi = xi − x̄n , b0 = b + x̄n P P et clairement minimiser ni=1 (Yi −azi +b0 )2 équivaut à minimiser ni=1 (Yi − axi + b)2 , avec la relation suivante b̂0 = b̂ + âx̄n . L’équation (2) introduit un nouveau modèle linéaire dont la matrice X 0 s’écrit : Pn 2 zi 0 0∗ 0 i=1 X X = 0 n P Cette matrice est inversible si et seulement si ni=1 zi2 6= 0, c’est à dire si les xi ne sont pas tous égaux. Dans ce cas, on obtient facilement : Pn (xi − x̄n )Yi â = Pi=1 , b̂ = Ȳn + âx̄n n 2 i=1 (xi − x̄n ) 12 CHAPITRE 2. MODÈLE DE RÉGRESSION LINÉAIRE 3. Considérons maintenant la régression périodique suivante : i i Yi = a0 + a1 cos(2π ) + a2 sin(2π ) + εi , i = 1, . . . , n n n On vérifie que en utilisant les relations sur les racines de l’unité que X ∗ X se met sous la forme suivante : Pn Pn i i ) sin(2π ) n 0 0 n cos(2π i=1 i=1 n n P Pn Pn i i 2 ni=1 cos(2π i ) ) sin(2π ni ) = 0 n2 0 i=1 i=1 cos(2π n ) n n Pn P Pcos(2π n n i i i i 2 0 0 n2 i=1 sin(2π n ) i=1 cos(2π n ) sin(2π n ) i=1 sin(2π n ) On en déduit que â0 = Ȳn , â1 = n X i=1 n X i i sin(2π )Yi cos(2π )Yi , â2 = n n i=1 4 2.3.2 Calcul récursif, Méthode de Gram Schmidt Nous proposons ici une méthode pour calculer β̂ de façon récursive. Appelons X j la colonne numéro j de la matrice X pour 1 ≤ j ≤ p. Considérons le cas suivant dans lequel les MCO sont particulièrement faciles à calculer : Supposons que les colonnes de X soient orthogonales (i.e. X t X est une matrice diagonale P dont les coeficients diagonaux sont les carrés des normes des colonnes : ni=1 [Xij ]2 = hX j , X j i. Dans ce cas, les coefficients β̂j valent simplement : hX j , Y i β̂j = hX j , X j i Rappelons nous maintenant le procédé d’orthonormalisation de Gram Schmidt qui pour des vecteurs quelconques u1 , . . . , uk (tels que l’espace engendré par ces vecteurs (sp {u1 , . . . , uk }) soit de dimension k) introduit les vecteurs v1 , . . . , vk qui sont orthogonaux et vérifient sp {u1 , . . . , ul } = sp {v1 , . . . , vl }, pour tout 1 ≤ l ≤ k. Ce procédé consiste simplement à construire les vl sous la forme suivante : v1 = u1 , v` = u` − Pv`−1 u` − . . . − Pv1 u` , ` ≥ 2. (Pvj désigne la projection sur le vecteur vj ). Remarquons que pour 1 ≤ j ≤ ` − 1, Pvj u` = hvj , u` i . hvj , vj i De plus comme les vj sont orthogonaux, Pv`−1 u` +. . .+Pv1 u` est la projection de u` sur l’espace sp{v1 , . . . , v`−1 }. Donc vl est en fait le ’résidu’ de la projection de la projection de u` sur l’espace sp{v1 , . . . , v`−1 }. Considérons maintenant, dans le cas p ≤ n et où la matrice X est de rang p, l’algorithme suivant : 2.4. LOIS DES ESTIMATEURS. ESTIMATION DE σ 2 . 13 – Initialisation : Z 1 = X 1 – Pour l = 2 jusqu’à p calculer : Z l le résidu de la projection de X l sur Z l−1 , . . . , Z 1 , i.e. hZ l−1 , X l i l−1 hZ 1 , X l i 1 Z = X − l−1 l−1 Z − . . . − 1 1 Z . hZ , Z i hZ , Z i l l Montrer qu’alors β̂p = hZ p , Y i . hZ p , Z p i En changeant l’ordre des colonnes de la matrice X, on peut s’arranger pour faire apparaitre X j en dernier pour chaque j. Cela donne une façon de calculer les β̂j sans inverser la matrice. (Attention on a donc p calculs différents.) Cet algorithme permet aussi de mesurer les problèmes qui peuvent arriver au cours d’une telle estimation. Supposons en effet que le vecteur X p soit très corrélé avec (par exemple) X p−1 (ou soit proche d’une combinaison linéaire de X 1 , . . . , X p−1 ) ; dans ce cas le résidu Zp va être très petit et par voie de conséquence l’estimation de β̂p très instable. 2.4 Lois des estimateurs. Estimation de σ 2. Nous allons maintenant montrer la proposition suivante sous l’hypothèse que les εi sont i.i.d. N (0, σ 2 ) : Proposition 2 Sous la condition, p ≤ n, X ∗ X inversible, le vecteur de dimension p + n : β̂ ε̂ est un vecteur gaussien de moyenne et variance : β 0 , σ 2 (X ∗ X)−1 0 0 In − X(X ∗ X)−1 X ∗ Preuve de la Proposition Espérances et variances de β̂ Dans ce paragraphe, l’hypothèse de gaussiannité sur les εi est inutile. Les résultats sont encore vrais si l’on suppose que Eε = 0, Varε = σ 2 In . Comme β̂ = (X ∗ X)−1 X ∗ Y , on a Eβ̂ = E(X ∗ X)−1 X ∗ (Xβ + ε) = β. D’autre part, Var(β̂) = (X ∗ X)−1 X ∗ [Var(Y )]X(X ∗ X)−1 = (X ∗ X)−1 X ∗ [Var(εX)](X ∗ X)−1 = σ 2 (X ∗ X)−1 X ∗ X(X ∗ X)−1 = σ 2 (X ∗ X)−1 . 14 CHAPITRE 2. MODÈLE DE RÉGRESSION LINÉAIRE Loi du vecteur Le vecteur β̂ ε̂ est fonction linéaire du vecteur Y , c’est donc un vecteur gaussien. Nous avons calculé la moyenne de β̂ au paragraphe précédent. Il est immédiat que Eε̂ = 0. Nous avons vu que : X β̂ = ProjV (Y ) = Xβ + e avec e = ProjV (ε). De plus, ε̂ = [In − ProjV ](Y ) = ProjV ⊥ (Y ) = ProjV ⊥ (ε) = ε − e. Soit maintenant P1 = ProjV = X(X ∗ X)−1 X ∗ et P2 = ProjV ⊥ = In − X(X ∗ X)−1 X ∗ . On a donc X β̂ = Xβ + P1 ε, ε̂ = P2 ε. Par ailleurs, P1 + P2 = In , rg(P1 ) = dim V = rgX = p, rg(P2 ) = n − p. On peut donc appliquer le th’eorème de Cochran et en déduire que e et ε̂ sont indépendants. Par conséquent, X β̂ et ε̂ sont indépendants. Il en est de même pour X ∗ X β̂ et ε̂, et donc pour β̂ et ε̂. Il nous reste à calculer la matrice de covariance du vecteur ε̂. Mais, comme ε̂ = P2 ε, elle est égale à σ 2 P2 . Ceci achève la preuve de la proposition. Estimation de σ 2 . En appliquant le résultat de la Proposition 3, nous 2 est d’espérance avons : kε̂k2 suit une loi σ 2 χ2 (n−p). En conséquence, σ̂ 2 = kε̂k n−p 2 2 σ . C’est donc un estimateur assez naturel de σ . Construction de nouvelles ’erreurs’ A partir des résidus on peut construire des nouvelles variables η1 , . . . , ηn−p qui, elles sont i.i.d.N (0, σ 2 )(et indépendantes de β̂) : La matrice P2 est une matrice de projection orthogonale, donc P2 = P2∗ = P22 , de plus c’est une matrice positive. Donc il existe une matrice orthogonale U (U U ∗ = U ∗ U = In ), telle que P2 = U ∗ DU où D est une matrice diagonale telle que ses coefficients diagonaux valent 1 jusqu’à rang(P2 ) = n − p et 0 ensuite. Il est facile de voir que le vecteur Z = U ε̂ = DU Y = DU ε suit une loi N (0, σ 2 D), ce qui signifie que Zn−p+1 = . . . = Zn = 0 et si l’on pose η1 = Z1 , . . . , ηn−p = Zn−p les ηi sont les nouvelles erreurs cherchées : i.i.d. N (0, σ 2 ) (et indépendantes de β̂). En résumé : 2 σ β̂ ∼ N (β, σ 2 (X ∗ X)−1 ), σ̂ 2 ∼ n−p χ2 (n − p) De plus ces 2 estimateurs sont indépendants. 2.5 Théorème de Gauss Markov et Moindres Carrés pondérés. Considérons le modèle suivant : Y = Xβ + E 2.5. THÉORÈME DE GAUSS MARKOV ET MOINDRES CARRÉS PONDÉRÉS.15 où E est un vecteur gaussien centré, de matrice de covariance σ 2 G. G est une matrice symétrique définie positive, connue. Un exemple est la matrice 0 0 , . . . vn v1 0 . . . 0 v2 . . . G= .. . 0 0 qui correspond au fait que les observations sont encore indépendantes mais chaque observation est entachée d’une variance propre (cas hétéroscédastique). La question que l’on se pose est doit-on, dans ce cas conserver l’estimateur de β, β̂ = (X ∗ X)−1 X ∗ Y ? La question se pose avec d’autant plus d’acuité qu’un autre estimateur peut sembler tout aussi naturel : En effet, on peut assez simplement transformer le modèle (2.5) en modèle linéaire ordinaire Z = X 0 β + ε : En posant G = BB ∗ , Z = B −1 Y, X 0 = B −1 X, ε = B −1 E. Dans ce nouveau modèle, on peut calculer l’estimateur usuel des moindres carrés (on remarque en particulier que du fait que G est définie symétrique positive, B est inversible) : β̃ = (X 0∗ X 0 )−1 X 0∗ Z = (X ∗ G−1 X)−1 X ∗ B −1∗ B −1 Y = (X ∗ G−1 X)−1 X ∗ G−1 Y. Remarques : 1. Remarquons que par définition, cet estimateur rend minimale la quantité : kB −1 Y − B −1 Xβk2 = (Y − Xβ)∗ G−1 (Y − Xβ) qui représente la norme du vecteur Y − Xβ, dans la norme G−1 , d’où le nom donné à cet estimateur de moindres carrés pondérés. Si on considère le cas particulier où G est diagonale, on doit minimiser l’expression n X 1 (Yi − (Xβ)i )2 2 v i=1 i qui tient compte de la crédibilité de chaque observation en raison inverse de sa variance. 2. Var(a∗ β̃a) = a∗ (X ∗ G−1 X)−1 a.. 3. Une autre façon d’énoncer la remarque 1 est d’observer que PVG = X(X ∗ G−1 X)−1 X ∗ G−1 est la matrice associée à l’opérateur de projection dans V , défini avec la métrique G−1 . (Rappelons que si A est une matrice symétrique définie positive de Rn , x∗ Ay définit un produit scalaire sur Rn et on peut donc considérer la métrique associée.) 16 CHAPITRE 2. MODÈLE DE RÉGRESSION LINÉAIRE Remarquons que dans ce cas les relations matricielles PV = PV∗ , PV2 = PV , In = PV + PV ⊥ valides en métrique euclidienne doivent être remplacées par PVG = G(PVG )∗ G−1 , (PVG )2 = PVG , In = PVG + PVG⊥,G . (2.2) où V ⊥,G désigne le supplémentaire orthogonal de V , pour le produit scalaire G−1 . Ces relations se démontrent à partir des relations classiques en observant que kxk2G−1 = x∗ B −1∗ B −1 x = kB −1 xk2In . On en déduit facilement que PVG = BPB −1 V B −1 , V ⊥,G = B(B −1 V )⊥ PVG⊥,G = BP(B −1 V )⊥ B −1 4 Nous allons montrer que cet estimateur possède en fait des propriétés d’optimalité très intéressantes : Définition 2 L’estimateur β̄ est dit linéaire s’il existe une matrice A telle que β̄ = AY . Théorème 1 Considérons le modèle Y = Xβ +E où E est un vecteur aléatoire centré, de matrice de covariance σ 2 G. G est une matrice symétrique définie positive, connue. Si β̄ est un estimateur linéaire, tel que Eβ β̄ − β = 0, ∀β ∈ Rp , Alors, il existe R matrice symétrique positive de Rp , telle que Var(β̄) = Var(β̃) + R. Remarque : La signification de ce théorème, est que ∀a ∈ Rp , Var(a∗ β̄a) ≥ Var(a∗ β̃a). Or cette inégalité est très importante, en particulier si le vecteur E est gaussien et que l’on veut construire un intervalle de confiance. En suivant la démarche du paragraphe suivant, on montre très facilement que dans le cas σ connu, cet intervalle est q q ∗ ∗ ∗ [a β̄ − zα/2 Var(a β̄a)σ, a β̄ + zα/2 Var(a∗ β̄a)σ] si on utilise β̄ et ∗ [a β̃ − zα/2 q Var(a∗ β̃a)σ, a∗ β̃ q + zα/2 Var(a∗ β̃a)σ] si on utilise β̃. Il est clair qu’on a intérêt à prendre la seconde solution puisque la longueur de l’intervalle est plus petite. 4 Preuve : Remarquons d’abord que la condition Eβ β̄ − β = 0, ∀β ∈ Rp , se traduit encore par (AX − In )β = 0, ∀β ∈ Rp , c’est à dire AX = In . 2.6. ETUDE DU MODÈLE AJUSTÉ : ESTIMATION ET TESTS 17 Par ailleurs, Var(β̄) = AGA∗ . Mais on a In = PVG + PVG⊥,G , en utilisant (2.2). On en déduit : Var(β̄) = A(PVG + PVG⊥,G )GA∗ = AX(X ∗ G−1 X)−1 X ∗ G−1 GA∗ + APVG⊥,G GA∗ = AX(X ∗ G−1 X)−1 X ∗ A∗ + R = Var(β̃) + R On finit la démonstration en remarquant que R = APVG⊥,G GA∗ = ABPB −1 V ⊥ B −1 BB ∗ A∗ = ABPB −1 V ⊥ B ∗ A∗ Cette quantité est bien symétrique et positive par les propriétés de la projection en métrique euclidienne. 4 2.6 2.6.1 Etude du modèle ajusté : estimation et tests Intervalles de confiance pour a∗ β et σ 2 Soit a∗ un vecteur de L(Rp , R), on se propose d’estimer a∗ β. Exemples : 1. Si a∗ = (1, 0, . . . , 0), on s’intéresse à estimer β1 . 2. Dans l’exemple d’une comparaison de 2 populations, p = 2, prendre a∗ = (1, −1) consiste à estimer la différence des moyennes. 4 On va prendre naturellement a∗ β̂ comme estimateur de a∗ β. Nous nous proposons de construire un intervalle de confiance associé à cette estimation. Rappel : Supposons que l’on cherche à estimer une quantité q(θ) réelle. Définition 3 Soit α fixé dans (0, 1). Soit, dans une expérience arbitraire E = (Y, Pθ , θ ∈ Θ), S = hoY, T = h0 oY , 2 estimateurs de q(θ), on dira que [S, T ] est un intervalle de confiance au niveau α, si ∀θ ∈ Θ, Pθ {q(θ) ∈ [S, T ]} ≥ 1 − α. Remarque : Bien entendu, S = −∞, T = ∞ convient toujours mais n’est guère intéressant. En effet, l’intérêt pratique sera toujours de rendre T − S le plus petit possible. 4 Estimation de a∗ β, σ 2 étant connu On vérifie que a∗ (β̂ − β) ∼ N (0, σ 2 a∗ (X ∗ X)−1 a), de sorte que si Φ(zα/2 ) = α/2, où Φ(u) = P rob(ξ ≥ u), ξ ∼ N (0, 1). p p [a∗ β̂ − zα/2 a∗ (X ∗ X)−1 aσ, a∗ β̂ + zα/2 a∗ (X ∗ X)−1 aσ] est un intervalle de confiance pour la quantité a∗ β, au niveau d’erreur α. 18 CHAPITRE 2. MODÈLE DE RÉGRESSION LINÉAIRE Estimation de a∗ β, σ 2 étant inconnu On a, outre le fait que a∗ (β̂ −β) ∼ N (0, σ 2 a∗ (X ∗ X)−1 a), σ̂ 2 ∼ De plus ces 2 variables aléatoires sont indépendantes. Donc √ σ̂ σ2 χ2 (n−p) n−p a∗ (β̂−β) a∗ (X ∗ X)−1 a ∼ T (n − p) de sorte que si Φn−p (zα/2,n−p ) = α/2, où Φn−p (u) = P rob(ξ ≥ u), ξ ∼ T (n − p). p p [a∗ β̂ − zα/2 (n − p) a∗ (X ∗ X)−1 aσ̂, a∗ β̂ + zα/2 (n − p) a∗ (X ∗ X)−1 aσ̂] est un intervalle de confiance pour la quantité a∗ β, au niveau d’erreur α. 2.6.2 σ2 2 σ χ2 (n − p), et la définition de P (χ2 (k) > En utilisant le fait que σ̂ 2 ∼ n−p cα,k ) = α, on vérifie facilement que [ σ̂ 2 (n − p) σ̂ 2 (n − p) , ] cα,n−p c1−α/2,n−p est un intervalle de confiance pour la variance au niveau d’erreur α. 2.6.3 Test d’une sous hypothèse linéaire. Rappel : On se donne un modèle E = (Y, Pθ , θ ∈ Θ). On se donne une partition de Θ en deux ensembles (non vides) Θ0 et Θ1 . Le but du jeu est alors de décider si θ appartient à Θ0 ou Θ1 . Définition 4 Dans le contexte ci-dessus une variable aléatoire φ(X) à valeurs dans {0, 1} est appelée test. La procédure de décision associée consiste à décider Θ0 si φ(x) = 0 et Θ1 sinon. Notation : On note généralement : H0 , l’hypothèse ’nulle’ : {θ ∈ Θ0 } H1 , ’l’alternative’ : {θ ∈ Θ1 } Quand on fait un test, il y a deux façon de se tromper, déclarer H1 alors que H0 est vrai ou l’inverse. Ceci conduit aux deux définitions suivantes : Définition 5 Etant donnée l’epérience E et le problème de test associé à la partition Θ0 , Θ1 , α ∈ [0, 1], on dit que le test φ(X) est de niveau α ssi sup Eθ φ(X) ≤ α θ∈Θ0 Définition 6 Etant donnée l’expérience E et le problème de test associé à la partition Θ0 , Θ1 , α ∈ [0, 1], on appelle erreur de deuxième espèce (resp. puissance) la fonction θ ∈ Θ1 7→ Eθ (1 − φ(X)) (resp. Eθ φ(X)) 2.6. ETUDE DU MODÈLE AJUSTÉ : ESTIMATION ET TESTS 19 Nous nous plaçons, comme dans les paragraphes précédents dans le cadre d’un modèle linéaire gaussien, dont la matrice exogène est de rang p ≤ n. On se donne C, une matrice fixée de dimension l × p, avec l < p, on suppose que le rang de C est l et on se propose de tester l’hypothèse Cβ = 0. Exemples : 1. Si l = 1, on se ramène à tester la nullit’e d’une forme linéaire. On retrouve donc l’étude du paragraphe précédent. 2. Si par exemple Yi est la mesure d’un taux de pollution, que l’on cherche à expliquer par différentes variables : X 1 quantité de précipitations, X 2 vitesse du vent, X 3 température, X 4 nombre d’usines, à travers le modèle suivant : Yi = β1 Xi1 + β2 Xi2 + β3 Xi3 + β4 Xi4 + εi or, plus modèle contient de paramètres, en général, moins il est interprétable. Donc on peut se poser la question de diminuer le nombre de paramètres, par exemple, en testant β1 = β3 = 0. 4 2.6.4 Résolution Soit V1 le sous espace vectoriel de V , V1 = {Xβ, Cβ = 0} Comme rg(C) = l, dim(V1 ) = dim(ker(C)) = p − l. Soit W1 le supplémentaire orthogonal de V1 dans V . On a In = PV1 + PW1 + PV⊥ , PV1 , PW1 , PV⊥ sont des projecteurs respectivement de rang p−l, l, n−p et donc en appliquant le théorème de Cochran, on a que (σ)−1 PV1 ε, (σ)−1 PW1 ε, (σ)−1 PV⊥ ε sont des vecteurs gaussiens, indépendants de lois respectives N (0, PV1 ), N (0, PW1 ), N (0, PV⊥ ). D’où, (σ)−1 PV1 Y, (σ)−1 PW1 Y, (σ)−1 PV⊥ Y sont des vecteurs gaussiens indépendants de lois respectives N (PV1 Xβ, PV1 ), N (PW1 Xβ, PW1 ), N (0, PV⊥ ). On en déduit que : 1. k(σ)−1 PV⊥ Y k2 ∼ χ2 (n − p). 2. k(σ)−1 PV⊥ Y k2 et k(σ)−1 PW1 Y k2 sont indépendants. 3. – Si Cβ = 0, PW1 (Xβ) = 0 et donc k(σ)−1 PW1 Y k2 ∼ χ2 (l). – Si Cβ 6= 0, k(σ)−1 PW1 Y k2 ∼ χ02 (l, kPW1 (Xβ))k2 ). On en déduit que sous l’hypothèse Cβ = 0, la statistique F = kPW1 Y k2 /l ∼ F (l, n − p). kPV⊥ Y k2 /(n − p) D’où, si fα (n1 , n2 ), est déterminé par P (F (n1 , n2 ) > fα (n1 , n2 )) = α, on a 1 − α = P (F ∈ [0, fα (l, n − p)]) . Donc, 20 CHAPITRE 2. MODÈLE DE RÉGRESSION LINÉAIRE – Si la statistique F , évaluée sur nos données, tombe en dehors de l’intervalle [0, fα (l, n − p)], on rejettera l’hypothèse Cβ = 0. – En revanche, si elle tombe dans cet intervalle, on acceptera l’hypothèse. Ce que l’on vient de décrire s’énonce par la phrase suivante : Le test φ qui vaut 1 si F ≥ fα (l, n − p), 0 sinon est un test de niveau α. 2.6.5 Calcul pratique de F On a F = kX β̂ − PV1 Y k2 /l kY − X β̂k2 /(n − p) 1 0 ... 0 0 ... 0 0 1 ... 0 0 ... 0 Si C = , .. . 0 0 ... 1 0 ... 0 – dans ce cas, on cherche à tester β1 = . . . = βl = 0. Soit X̃ = (Xl+1 , . . . , Xp ), la matrice des l − p vecteurs colonnes de X. Il est facile de montrer que PV1 Y = X̃(X̃ ∗ X̃)−1 X̃ ∗ Y , et T se calcule aisément en fonction de X et X̃. – Dans le cas général, où C est une matrice quelconque, on commence par compléter C en une matrice C 0 p × p et inversible, puis on pose η = C 0 β. Le modèle linéaire Y = Xβ + ε est équivalent au modèle linéaire suivant, dans lequel on a fait le changement de paramètre µ = C 0 β, X 0 = XC 0−1 : Y = X 0 µ + ε. Dans ce nouveau modèle l’hypothèse à tester est µ1 = . . . = µl = 0 et on est ramené au cas précédent. 2.6.6 Version ’RSS’ de ce test Une autre façon, plus habituelle dans les logiciels d’écrire la statistique F , consiste à introduire les ’sommes des carrés des résidus’ dans chaque hypothèse (H0 et H1 ) residuals sum of squares : RSS. Commençons par H1 , une fois la donnée Y ’expliquée par X, ce qui ’reste à expliquer’, les résidus, contribuent pour : RSS1 =: kY − X β̂k2 (= kε̂k2 ) De même, sous H0 , la donnée Y est expliquée par PV1 Y , donc ce qui ’reste à expliquer’ (de façon résiduelle sous H0 ) contribue pour : ˆ ˆ 2 ). RSS0 =: kY − PV1 Y k2 = kY − X β̂k2 (= kε̂k Il est clair que RSS1 ≤ RSS0 et plus précisément, le théorème de Pythagore nous donne : RSS0 − RSS1 = kPW1 Y k2 2.7. EXEMPLES :ETUDE DU MODÈLE AJUSTÉ EN PRATIQUE 21 De sorte que l’on peut écrire F sous la forme suivante en introduisant p0 = dimension sous H0 (= p−l dans ce qui précède), p1 = dimension sous H1 (= p dans ce qui précède) : F = 2.7 [RSS0 − RSS1]/(p1 − p0 ) . RSS1/(n − p1 ) Exemples :Etude du modèle ajusté en pratique Nous allons donner ici des exemples d’utilisation en pratique (et donnés dans les logiciels) des résultats trouvés précédemment. 2.7.1 Significativité globale : le test dit du R2 Le R2 en particulier est une quantité à peu près systématiquement donnée dans les logiciels. Considérons le cas où la constante 1n = X 1 fait partie des régresseurs. Pour tester la significativité globale du modèle de régression proposé, on peut tester l’hypothèse H0 : β2 = β3 = . . . = βp = 0 contre H1 : ∃j = 2, . . . p, βj 6= 0. Ce qui est bien un test du modèle puisqu’on se demande si on ne ferait pas aussi bien si on ajustait les données simplement par une constante. P Il est clair que l = p − 1, V1 = sp{1n }, PV1 Y = Ȳ 1n , si Ȳ = n1 ni=1 Yi . Donc RSS0 = kY − Ȳ 1n k2 . P Par ailleurs, si on note Ŷ = pj=1 β̂j X j , et on a par le théorème de Pythagore, RSS1 = kY − Ŷ k2 , RSS0 − RSS1 = kŶ − Ȳ 1n k2 . (2.3) On a donc que la statistique de test s’écrit : F = n−p p−1 kŶ − Ȳ 1n k2 kY − Ŷ k2 . Pour effectuer un test au niveau α, on cherche donc le quantile qα = fα (p − 1, n − p) de la loi de Fisher avec les degrés de liberté p − 1, n − p et on applique la règle de décision – si F > qα , H0 est rejtée et les coefficients ne sont pas globalement nuls. La régression est donc globalement significative. – si F ≤ qα , H0 est acceptée et les coefficients sont tous nuls. La régression n’est donc pas globalement significative. Remarque importante : Pour résoudre ( ! ?) le problème du choix du niveau du test à prendre (α = 0.01, 0.05, 0.1, 0.001 ... ?) généralement, les logiciels donnent les p−values au lieu des quantiles. La p−value est par définiftion le 22 CHAPITRE 2. MODÈLE DE RÉGRESSION LINÉAIRE plus petit niveau auquel les données rejetteraient l’hypothèse H0 . En effet si on considère la famille de tests que l’on obtient en faisant varier le niveau α (et donc ici la fonction quantile gα , mais ceci est utilisé plus généralement) si les données nous amènent à rejeter pour une valeur de α elles amènent à rejeter pour toute valeur plus grande. Il est donc intéressant de connaitre la quantité (aléatoire, fonction des données ) qui nous indique le plus petit niveau pour lequel les données rejettent. La p−value est donc un indice de signifiance de l’hypothèse nulle H0 . Plus la p− value est grande, plus H0 doit être acceptée. Réciproquement, évidemment plus elle est petite plus on a tendance à la rejeter. Il est clair que le modèle linéaire est d’autant mieux adapté aux données que la variance expliquée est plus grande ou bien la variance résiduelle est plus faible c’est-à-dire que l’angle ω entre le vecteur centré Y − Y 1n et son ajustement centré Ŷ − Y 1n est plus proche de 0 ou π. De facon équivalente, on s’intéresse traditionnellement au cosinus de cet angle. cos2 ω = R2 = kŶ − Ȳ 1n k2 . kY − Ȳ 1n k2 Il est facile de voir qu’on a la relation suivante entre R2 et notre statistique de test F (d’où son nom) n−p R2 F = . p − 1 1 − R2 Le R2 ’est une quantité qui se donne systématiquement lorsqu’on fait une régression. Cependant lorsque la constante 1n n’appartient pas au plan de régression, le R2 défini comme précédemment ne veut alors plus rien dire. On peut changer de définition et introduire R20 le cosinus de l’angle entre Y et son ajusté Ŷ . t t ˆˆ Ŷ Ŷ =1− t . cos2 θ = t yy YY Cette quantité aussi permet de qualifier l’adéquation du modèle linéaire à nos données. 2.7.2 Etude de la validité du modèle : Tests non paramétrique sur les résidus Plus haut nous avons construit des nouvelles variables η1 , . . . , ηn−p à partir des résidus on peut construire des nouvelles variables qui, elles sont i.i.d.N (0, σ 2 )(et indépendantes de β̂) : Ces nouvelles variables (fonction des observations) peuvent nous servir à tester le modèle. On peut en effet tester l’hypothèse H0 : les ηi sont i.i.d. N (0, σ 2 ), contre H1 : il existe m 6= 0 tel que les ηi sont i.i.d. N (m, σ 2 ), qui correspondrait à l’oubli d’un centrage par exemple. En général on a tendance à ne pas avoir d’idée sur la forme de ce qu’on pourrait avoir oublié dans le modèle on a alors recours à des tests de type non paramétriques. On peut par exemple si σ 2 est connu, utiliser un test de Kolmogorov Smirnov. Si σ est inconnu, on peut ’standardiser’ c’est à dire diviser les ηi par un 2.7. EXEMPLES :ETUDE DU MODÈLE AJUSTÉ EN PRATIQUE 23 estimateur bien choisi de σ. Le problème alors est que les ηi une fois standardisées ne sont plus i.i.d.... On peut aussi utiliser un test de signes ou de rangs ou de signes et rangs sur le ηi . Souvent les logiciels prennent d’assez grandes libertés avec la théorie puisqu’ils proposent fréquemment un test de Kolmogorov Smirnov calculé directement sur les résidus ε̂ standardisés ou fournissent des indices graphiques (Q×Q plot,...). 2.7.3 Significativité de chacune des variables explicatives On s’intéresse à éliminer de l’étude toutes les variables non significatives pour le modèle proposé. Pour chaque variable explicative X j , on veut effectuer le test H0 : βj = 0 contre H1 : βj 6= 0 qui revient à tester H0 : X j est non significative contre H1 : X j est significative . Dans ce cas, le test étudié plus haut nous permet de construire la statistique F = kPW1 Y k2 /l kε̂k2 /(n − p) où ici l = 1. Prenons le cas (les autres s’en déduisent par permutation des colonnes) j = p. Il est facile de voir que, si on reprend l’orthonormalisation de Gram Schmidt détaillée au paragraphe 2.3.2 ainsi que le résultat de ce parahY,Z p i p graphe, W1 = sp{Z }, PW1 Y = hZ p ,Z p i Z p = β̂p Z p . De sorte que la statistique de test s’écrit : β̂p2 kZ p k2 F = . kε̂k2 /(n − p) On peut soit calculer directement kZ p k2 soit remarquer que cette quantité doit nécessairement être l’inverse de la variance de β̂p ( divisée par σ 2 ), ce qu’on a aussi calculé au paragraphe 2.6.1 et vaut xpp le p-ème élément de la diagonale de la matrice (t XX)−1 (mais cela demande alors de l’avoir inversée exactement). En remarquant qu’un loi F (1, n − p) est le carré d’une loi de Student T (n − p), on a tendance (ce qui est strictement équivalent) à utiliser comme statistique de test β̂j T =q σ̂b2 xjj où xjj est le j-ième élément de la diagonale de la matrice (t XX)−1 . Sous l’hypothèse nulle H0 , T suit donc une loi de student à n − p degrés de liberté. Pour tester la significativité du régresseur X j au niveau α, on trouve donc le α−quantile qα de la loi tn−p et on applique la règle de décision – si |T | > qα , on refuse H0 et X j est significative, – si |T | < qα , on accepte H0 et X j n’est pas significative. Bien sur, on peut aussi utiliser la p−value pour prendre la décision. 24 CHAPITRE 2. MODÈLE DE RÉGRESSION LINÉAIRE 2.8 Multi-colinéarité Pour estimer les paramètres et leur variance, on a besoin de calculer l’inverse de la matrice (t XX). Lorsque le déterminant de cette matrice est nul ou très proche de 0, on dit que le problème est mal conditionné. On est confronté à des estimateurs qui ont des grandes variances (donc peu précis) et il apparait souvent des problèmes de précision numérique. Il faut donc pouvoir diagnostiquer ces situations et proposer des solutions. 2.8.1 Diagnostics La matrice de variance-covariance de l’estimateur des MCO s’écrit V = σ 2 (t XX)−1 et on a montré dans le paragraphe précédent que chaque élément de la diagonale de cette matrice (qui est la variance des paramètres estimés) peut s’exprimer sous la forme suivante : prenons d’abord le dernier pour faire les calculs Vpp = = = 1 kZ p k2 1 kX p − Psp{X 1 ,...,X p−1 } X p k2 1 kX p k2 [1 − Soit encore Vjj = kPsp{X 1 ,...,X p−1 } X p k2 kX p k2 . ] 1 kX j k2 (1 − Rj2 ) où Rj2 est le coefficient de détermination de la variable X j sur celles qui restent (c’est le cosinus carré de l’angle entre X j et la projection de X j sur l’espace engendré par les autres variables X 1 , . . . X j−1 , X j+1 , . . . X p ). Il est évident que plus X j est linéairement proche de cet espace, plus Rj2 est proche de 1 et plus Vjj est grand. Cette variance est minimum (c’est-à-dire l’estimateur est le plus précis) lorsque X j est orthogonale aux autres variables. On appelle Vjj le facteur d’inflation de la variance. En examinant la matrice des corrélations entre les variables, on peut détecter les variables très corrélées 2 à 2 mais pas les corrélations multiples. Il faut donc calculer effectivement les Vjj ou plutôt les tolérances 1 − Rj2 . Pour regarder les problèmes de colinéarité 2 à 2, on peut calculer l’indice de conditionnement κ = max(λj )/ min(λj ), où λj , j = 1, . . . p sont les valeurs propres de la matrice des corrélations. En pratique si κ < 100, on considère qu’il n’y a pas de problème. Par contre, il faut s’inquiéter si κ > 1000. Cet indice donne une idée globale des problèmes de colinéarité mais pour savoir quelles variables posent problème, il faut calculer les facteurs d’inflation et les tolérances. 2.9. SÉLECTION DE VARIABLES ET CHOIX DE MODÈLES 2.8.2 25 Modèles curvilinéaires En cas de non validité de l’hypothèse de linéarité, il est intéressant de considérer des modèles polynomiaux Y = β1 + . . . βp X p + . . . ckl X k X l + . . . dj (X j )2 + . . . qui sont appelés aussi surfaces de réponse. Ces modèles sont très simples à étudier : il suffit de rajouter les nouvelles variables produit des anciennes. Attention, ce type de modèles accroit les risques de colinarité : dans la pratique, il est rare de considérer des modèles autres que quadratiques. 2.9 Sélection de variables et Choix de modèles La modélisation statistique couvre 3 objectifs 1. description : on veut explorer les liaisons entre Y et X 1 , . . . X p pour p grand. Le but est de sélectionner un sous ensemble de variables explicatives dont le cardinal n’est pas trop grand. Attention, si n est petit et p grand, il est toujours possible de trouver un ”bon” modèle : c’est l’effet data mining. 2. explication : on a des connaissances a priori et on veut valider ou invalider ces résultats théoriques. Le modèle exploratoire précédant permet de faire de l’inférence : tests et intervalles de confiance. 3. prédiction : On veut avoir de ”bons” estimateurs (par rapport au critère de risque quadratique par exemple) afin de faire des prédictions correctes. On veut en général trouver des modèles parcimonieux (c’est-à-dire avec peu de variables explicatives). On préfère avoir des modèles avec des estimateurs légèrement biaisés pour avoir un bon compromis biais/variance. Ici, un ”bon” modèle n’est plus celui qui explique le mieux (bon R2 ou petite SCR) mais celui qui prédit le mieux. Il existe beaucoup de critères permettant de choisir le modèle : AIC, BIC, erreur quadratique de prédiction .... Ils sont tous équivalents lorsqu’on fixe le nombre de variables p à sélectionner. Mais, par contre le choix du critère joue un rôle important lorsqu’on veut comparer 2 modèles utilisant un nombre différent de variables explicatives. 2.9.1 Statistique de Fisher : On utilise ce critère pour comparer des suites de modèles emboités. Rappelons qu’on a aussi utilisé la statistique de Fisher dans le cadre explicatif pour tester la validité globale d’un modèle (test du R2 ). On a un modèle (gros) avec p variables noté M1 , un modèle (petit) avec q variables (choisies parmi les p utilisées dans le ”gros” modèle) noté M0 . On calcule la statistique de Fisher où pour bien marquer la dépendance dans les variables nous écrirons RSS0(q) et RSS1(p) à la place de RSS0 et RSS1 F = n − p RSS0(q) (RSS0(q) − RSS1(p))/(p − q) = [ − 1]. RSS1(p)/(n − p) p − q RSS1(p) 26 CHAPITRE 2. MODÈLE DE RÉGRESSION LINÉAIRE Si cette statistique est assez grande (supérieure à fα (p − q, n − p)) alors l’ajout des p − q variables supplémentaires est justifié. Sinon, on peut se contenter du petit modèle à q variables. Plus exactement, cette statistique permet d’effectuer le test H0 : M0 valide contre H1 : M1 valide soit H0 : βq+1 = βq+2 = . . . = βp = 0 contre H1 : ∃j ∈ {q + 1, . . . , p}, 2.9.2 βj 6= 0. Critères de choix : AIC, BIC, Cp Il y a un problème avec ce type de test, c’est qu’on ne contrôle vraiment son erreur que si on le pratique une fois pour un choix bien précis de variable. Il est clair que si on fait plusieurs tests les uns après les autres pour choisir les variables, le calcul du niveau devient très vite fastidieux. On ne procède pas de cette façon mais on conserve l’idée de regarder les fluctuations de la statistique. Supposons que nos variables soient ordonnées et que l’on se pose la question d’en rajouter de plus en plus. Dans ce cas, on ne procède pas avec un test mais on conserve l’idée de regarder les fluctuations de la statistique. q 7→ (n − p)RSS0(q) RSS1(p) qui représente bien l’erreur que l’on fait en prédisant le modèle si on s’arrête aux q premières variables normalisée par l’erreur faite avec toutes les variables possibles. Evidemment, à mesure que ’lon augmente le nombre q de variables explicatives, cette statistique se rapproche de 1. Donc cela ne nous donne pas un critère de choix : on prédit d’autant mieux qu’on a plus de variables explicatives. Pour remédier à ce problèmes plusieurs critères sont proposés dans la littérature, qui consistent à pénaliser le nombre de variables explicatives. Citons parmi eux (n − p)RSS0(q) + [log n]q (Schwarz 0 76) RSS1(p) (n − p)RSS0(q) AIC(q) = + q. (Akaike 0 70,0 73) RSS1(p) (n − p)RSS0(q) Cp (q) = + 2q. (M allows 0 73) RSS1(p) BIC(q) = 2.9.3 (2.4) (2.5) (2.6) Algorithmes de sélection Avec p variables explicatives, on 2p choix de modèles possibles. Si p est grand, il n’est pas raisonnable d’explorer tous les modèles pour trouver le meilleur. Il existe 3 types d’algorithmes : 1. Pas à pas : 2.10. THÉORÈMES DE STUDENT ET DE COCHRAN 27 – forward : On commence avec une variable et à chaque pas, on en ajoute une : celle qui apporte le plus pour le critère de la statistique de Fisher. On s’arrète soit lorsqu’il n’y a plus de variable, soit quand aucune variable n’apporte quelque chose ou en applicant un critère de type AIC ou BIC. – backward : On fait la même chose mais en démarrant du modèle complet. On élimine la variable qui apporte le moins par rapport au critère de Fisher. On s’arrète lorsque les variables restantes donnent toutes un critère satisfaisant (pour un α fixé à l’avance). – stepwise : Après chaque sélection de modèle donnée par la méthode ”forward”, on enlève les variables qui deviennent inutiles du fait de l’ajout de nouvelles variables. 2. Par échange : – maximisation du R2 : On travaille avec un nombre q fixé de variables explicatives du modèle. On cherche alors une nouvelle variable qui maximise l’accroissement du R2 . Puis, on cherche avec quelle variable présente dans le modèle l’échanger de facon à rester avec q variables. On recommence tant que le R2 croı̂t. – minimisation du R2 : Idem que précédemment mais on sélectionne la variable qui minimise l’accroissement du R2 . On explore alors plus de modèles et on a plus de chance de tomber sur un meilleur optimum. 3. Global : L’algorithme de Furnival et Wilson est utilisé pour comparer tous les modèles possibles en optimisant le R2 , ou un critère de type Cp AIC ou BIC. L’algorithme parcourt un arbre, évite les sous branches dont on sait a priori qu’elles ne sont pas compétitives. En général, les logiciels donnent le meilleur modèle pour chaque q. Mais ceci n’est possible que pour un nombre raisonnable de variables explicatives. 2.10 Théorèmes de Student et de Cochran Théorème 2 (Student) Soit X1 , . . . , Xn , des variables indépendantes identiquement distribuées (notation i.i.d.) de loi commune N (m, σ 2 ). Alors, n X 1. X̄n = Xi suit une loi N (m, σ 2 /n). i=1 n X 2. Rn = (Xi − X̄n )2 suit une loi σ 2 χ(n − 1). i=1 3. X̄n et Rn sont indépendants. r 4. Si Sn désigne la variable Rn , alors Tn = n−1 √ n(X̄n − m) suit une loi Sn de Student T(n-1). Démonstration du Thérème de Student – 1 est évident. – Les quantités que nous étudions sont homogènes. Par le changement de variables Xi0 = (Xi − m)/σ, on se ramène au cas où m = 0, σ 2 = 1. 28 CHAPITRE 2. MODÈLE DE RÉGRESSION LINÉAIRE – Notons qu’on a la relation suivante : n X 2 2 (Xi − X̄n ) + nX̄n = i=1 n X Xi2 . (2.7) i=1 On considère une matrice orthogonale M telle que sa première ligne est ( √1n , . . . , √1n ). Soit Z = M X où X = (X1 , . . . , Xn )∗ . Puisque M est √ orthogonale, Z est un vecteur gaussien standard de Rn , et Z1 = nX̄n est indépendant de (Z2 , . . . , Zn ). Par ailleurs, toujours parce que M est orthogonale, 2 2 kM Xk = kXk = n X Xi2 n X √ 2 = ( nX̄n ) + Zi2 . i=1 i=2 P √ On en déduit que i=2 Zi2 = i=1 Xi2 − ( nX̄n )2 = ni=1 (Xi − X̄n )2 (en utilisant (2.7)) est indépendant de X̄n et suit un χ2 (n − 1). Pn Pn Théorème 3 (COCHRAN) Soit X ∼ N (ξ, In ) 1. Soit P1 , P2 , . . . , Pk , k matrices n × n autoadjointes, verifiant In = d X Pi , et i=1 d X rangPi ≤ n. i=1 Alors les matrices Pi sont des projecteurs (Pi2 = Pi ) et les variables Pi X sont des Gaussiennes mutuellement indépendantes de loi N (Pi ξ, Pi ). 2. Soit Q1 , Q2 , . . . Qk , sur Rn verifiant : n ∀x ∈ R , k formes quadratiques 2 kxk = d X Qi (x) et d X i=1 rangPi ≤ n. i=1 0 Alors les variables Qi X sont mutuellement indépendantes de loi χ 2 (Qi ξ, rangQi ). Démonstration du Théorème : La démonstration repose sur un lemme de pure algébre linéaire : k matrices n × n , vÈrifiant Lemme 1 Soit P1 , P2 , . . . , Pk , In = d X i=1 On a alors l’equivalence entre : Pd 1. i=1 rang Pi ≤ n. 2. ∀i 6= j 3. ∀i P i Pj = 0 Pi2 = Pi Pi , et Pi = Pi∗ 2.10. THÉORÈMES DE STUDENT ET DE COCHRAN 29 Preuve du Lemme : Remarquons que 1 signifie : ∀x ∈ Rn , Pk manière unique sous la forme i=1 ui ; ui ∈ Pi (Rn ). P P 1. 2 ⇒ 3 Pi = Pi ( j Pj ) = j Pi Pj = Pi2 x s’écrit de 2. 3 ⇒ 2 On a ∀x ∈ Rn , kxk2 = hx, xi = hx, X Pj xi = hx, j X Pj2 xi = j X kPj xk2 . j Appliquons cette relation à Pi x : X X ∀x ∈ Rn , kPi xk2 = kPj Pi xk2 = kPi xk2 + kPj Pi xk2 . j j6=i Donc j 6= i ⇒ Pj Pi = 0 P 3. 3&2 ⇒ 1 Soit x = i Pi yi . On a donc : X Pj x = Pj Pi yi = Pj2 yj = Pj yj . i P D’o˘ l’Ècriture unique x = i Pi x. P P 4. 1 ⇒ 3&2 Pj = ( i Pi )Pj = i Pi Pj . On en déduit ; X Pi Pj x. ∀x ∈ Rn , Pj (x − Pj x) = i6=j L’unicité de la representation implique le resultat. Démonstration du Théorème, (fin) 1. C’est une conséquence du fait que pour des vecteurs gaussiens orthogonalité signifie indépendance. 2. Soit Pj = Pj∗ la matrice definissant la forme quadratique Qj : ∀x ∈ Rn Qj (x) = x∗ Pj x. Par polarisation de la relation ∀x ∈ Rn , kxk2 = Pd i=1 Qi (x), on obtient : X ∀x, y ∈ Rn , hx, yi = hx, Pj yi j P ce qui implique In = j Pj . Le point 2 du théorème est donc une conséquence du point 1 et de la proposition 3 suivante. Proposition 3 . 1. Si P est une matrice de projection (i.e. P = P ∗ = P 2 ), et si W ∼ 0 N (ξ, P ), avec P (ξ) = ξ, alors kW k2 ∼ χ 2 (rang (P ), kξk2 ) 2. Si P est une matrice de projection (i.e. P = P ∗ = P 2 ), et si X ∼ N (ξ, In ) 0 alors, kP Xk2 ∼ χ 2 (rang (P ), kP (ξ)k2 ). 30 CHAPITRE 2. MODÈLE DE RÉGRESSION LINÉAIRE Démonstration de la Proposition : 1. En effet , on peut écrire, au moyen de la matrice R orthogonale, P = RDR∗ où D est une matrice diagonale dont les d = (rang(P )) premiers coefficients sont égaux à 1, les autres à 0. Soit Z = R∗ W . On a W = RZ, et Z ∼ N (η, D), R∗ ξ = η. Comme ξ = RDR∗ ξ, on a η = Dη. Donc les n−d dernières composantes de Z sont nulles, les d premières,suivent Pet P n des lois normales N (ηi , 1) indépendantes. De plus i=1 ξi2 = di=1 ηi2 . 0 Comme kW k2 = kZk2 , kW k2 ∼ χ 2 (d, kξk2 ). 2. On remarque P X ∼ N (P ξ, P ). Chapitre 3 Régression non paramétrique On s’intéresse dans ce chapitre à des modèles de régression non paramétriques gaussiens lorsque le design est fixe. 3.1 Modèle Considérons le modèle suivant Yi = f (xi ) + i , i = 1, . . . , n avec où – Yi sont les observations, xi est le design fixe de l’expérience – i sont les erreurs que l’on suppose indépendantes, centrées et de même variance inconnue σ 2 . L’objet d’interêt est la fonction f qui est inconnue. Un modèle particulièrement intéressant est celui du signal lorsque le design xi = i/n est équidistribué. Alors f est une fonction dont le support est [0, 1]. 3.2 Réduction à un modèle linéaire L’idée (simple... et de ce fait très jolie...) consiste à supposer que f peut être approximée par un dictionnaire de fonctions. Par exemple, on peut prendre le dictionnaire de tous les polynômes, ou le dictionnaire des fonctions trigonométriques, ou un dictionnaire constitué des deux types de fonctions, ou tout autre... Bien entendu on ne pourra pas prendre la totalité du dictionnaire donc on choisit p fonctions dedans (ou encore, on se réduit à un dictionnaire de taille p). D = {g1 , . . . , gp }. La fonction f cherchée s’écrit f (x) = p X βj gj (x) + u(x). j=1 31 (3.1) 32 CHAPITRE 3. RÉGRESSION NON PARAMÉTRIQUE A priori, cette écriture n’est pas unique, mais supposons (on y reviendra) qu’on dispose d’une écriture ’privilégiée’, dans laquelle on espère de plus que la fonction u est ’petite’. En d’autres termes, on suppose que f est bien approximée par une combinaison linéaire du dictionnaire. On va donc prendre vraiment au sérieux cette hypothèse de ’bonne approximation’, au point qu’on va construire le modèle de remplacement, dans lequel on remplace u par 0. Dans ce modèle de remplacement, chaque observation s’écrit : p X βj gj (xi ) + εi , i = 1, . . . , n. Yi = j=1 On a donc un modèle linéaire de la forme Y = Xβ + ε, Xij = gj (xi ). (3.2) Dans la suite nous supposerons en général que xi = ni , pour donner plus de structure à notre propos. Nous allons en particulier détailler une approche où nous allons rendre plus précise l’utilisation de ce modèle de remplacement, ainsi que certaines méthodes qui sont spécifiques à ce modèle de régression fonctionnelle. On va d’abord supposer R 1 2que f appartient à l’espace L2 ce qui signifie que f est de carré intégrable : 0 f < +∞. Cette hypothèse n’est pas très restrictive : par exemple, dès que f est continue sur [0, 1], elle est vérifiée. Ce cadre anodin d’apparence, permet de mettre de la rigueur dans notre approche précédente. En effet, si {e` , ` = 1, . . . ∞} est une base de L2 , alors, on peut donner une signification claire à l’équation (3.1), en posant gl = e` , les coefficients βl peuvent alors être uniquement déterminés par Z 1 e` f. β` = < e` , f > = 0 de même, u= X β` e l l>p qui tend vers 0 dans L2 . Donnons quelques exemples de bases. 3.2.1 Base polynomiale L’espace L2 admet quantité de bases {e` , ` = 1, . . . ∞}. On peut penser aux bases polynomiales. Si l’on orthonormalise à l’aide du procédé de Gram Schmidt la suite {1, x, x2 , . . . , xk , . . .} on obtient ainsi une base associée aux polynômes de Legendre. 3.2.2 Base trigonométrique La base {e` , ` = 1, . . . ∞}, la plus connue est certainement la base de Fourier ou base trigonométrique donnée par – e1 (x) = 1 3.3. ESTIMATION DE F PAR PROJECTION 33 √ – si ` est pair, e` (x) = 2√cos(2π`x) – si ` est impair, e` (x) = 2 sin(2π`x) Alors les fonctions de la famille {e` , ` = 1, . . . ∞} sont normées et orthogonales Z 1 e` e`0 = δ` (`0 ). < e` e`0 > = 0 et engendrent dans L2 l’ensemble des fonctions périodiques f (0) = f (1). Cette base est particulièrement simple ce qui explique qu’elle est beaucoup utilisée. 3.2.3 Base de Haar Une autre base intéressante est la base de Haar qui est définie à partir des translations/dilatations φj,k (x) = 2j/2 φ(2j x − k) et ψj,k (x) = 2j/2 ψ(2j x − k) d’une ondelette de Haar φ(x) = 1[0,1] et ψ(x) = 1[0,1/2] − 1]1/2,1] . Fixons un niveau j0 ≥ 0 et considérons la famille {φj0 ,k pour k = 0, . . . , 2j0 , ψj,` pour j = j0 , . . . , ∞, ` = 0, . . . , 2j } Il est très simple de montrer que cette famille est orthonormée, et que c’est une base 2j0 ∞ X 2j X X f= αj0 ,k φj0 ,k (x) + βj,` ψj,` (x). j=j0 `=0 k=0 Cette égalité comporte deux termes : un terme qui donne la tendance de la fonction f et un terme qui donne les détails de la fonction f . De même que dans le cas de la base trigonométrique, le fait que la base de Haar soit orthogonale amène le fait remarquable que les coefficients de f sur la base sont les produits scalaires Z 1 Z 1 αj0 ,k = < φj0 ,k , f > = φj0 ,k f et βj,` = < ψj,` , f > = φj,` f. 0 3.2.4 0 Base d’ondelettes De la même facon que pour la base de Haar, on définit d’autres bases d’ondelettes en choisissant des père et mères φ et ψ différents : Daubechies, Meyer, Coiflets, Symlets .... 3.3 Estimation de f par projection Le terme ’estimation par projection’ réfère de façon générique à l’utilisation du modèle d’emprunt (3.2) en utilisant comme dictionnaire une base orthonormée de L2 tronquée. 34 CHAPITRE 3. RÉGRESSION NON PARAMÉTRIQUE Dans le cas où xi = ni , le fait que la base soit orthonormée, a une conséquence importante. En effet, dans ce cas, la matrice X t X est telle que n 1 t 1X i i X Xlm = gl ( )gm ( ). n n i=1 n n Pn i i 1 Comme i=1 gl ( n )gm ( n ) est l’approximation de Riemmann de l’intégrale n R g (x)gm (x)dx = δml . Cette matrice est donc ’presque’ l’identité. On en [0,1] l déduit que par conséquent l’estimateur des MCO, β̂l est ’presque’ n 1X i β̃l = gl ( )Yi . n i=1 n (3.3) L’estimation par projection réfère en fait -donc- à la fois l’utilisation du modèle d’emprunt (3.2) en utilisant comme dictionnaire une base orthonormée, mais aussi le fait d’utiliser (3.3) comme estimateur. 3.3.1 Dans la base trigonométrique Travaillons dans la base trigonométrique {e` , ` = 1, . . . ∞}. Alors f se décompose Z 1 ∞ X e` f. f (x) = θ` e` (x) avec θ` = 0 `=1 Donc on estime chaque coefficient par n 1X e` θb` = n i=1 i Yi . n Finalement, on reconstruit un estimateur de la fonction f fˆ = p X θb` e` . `=1 Le problème fondamental qui se pose alors est : comment choisir p ? 3.3.2 Dans la base de Haar On se fixe un niveau j0 . Dans la base de Haar, f se décompose en une tendance au niveau j0 et des détails à des niveaux plus élevés X XX f (x) = αj0 ,k φj0 ,k (x) + βj,` ψj,` (x) j≥j0 k avec Z αj0 ,k = ` 1 Z φj0 ,k f et βj,` = 0 1 ψj,` f. 0 3.4. CALCUL DE L’ERREUR 35 On se concentre sur la tendance en oubliant les ’détails’ pour estimer f . Il s’agit donc d’estimer les coefficients αj0 ,k . On estime donc chaque coefficient par n 1X i αd φj0 ,k Yi . j0 ,k = n i=1 n Finalement, on reconstruit un estimateur de la fonction f en estimant seulement la tendance de f au niveau j0 X fˆ = αd j0 ,k φj0 ,k . k Le problème fondamental qui se pose est : comment choisir le niveau j0 ? 3.4 Calcul de l’erreur On s’intéresse à l’erreur L2 (encore appelée MISE) définie par Z 2 2 ˆ f −f . M ISE = E 0 En utilisant l’orthonormalité des bases, on obtient P P∞ N E `=1 (θb` − θ` )2 + `=N +1 θ`2 M ISE = E P2j0 (αd − α )2 + P∞ P β 2 j0 ,k j0 ,k j=j0 k=1 k j,k 3.4.1 base trigo ondelettes Base de Fourier Commencons par l’estimateur avec la base trigonométrique. On a un terme de biais et un terme de variance 1. Variance : On montre facilement que n 1X i i b e` E θ` = f n i=1 n n et que n 2 X σ i σ2 2 V ar(θb` ) = 2 e` ≤ . n i=1 n n Comme E N X `=1 (θb` − θ` )2 = E ! N N X X (θb` − E θb` )2 + (E θb` − θ` )2 , `=1 `=1 on a N N 2 X X σ + E (θb` − θ` )2 ≤ n `=1 `=1 Z 1 n 1X i i e` f − e` f n i=1 n n 0 !2 . 36 CHAPITRE 3. RÉGRESSION NON PARAMÉTRIQUE Il faut évaluer l’erreur Rn de l’approximation de Riemann. Remarquons que Z 1 Z (i+1)/n n Z (i+1)/n X 1 e` (t) f (t)dt = e` (t) f (t)dt et = dt n 0 i/n i/n i=1 alors on peut écrire Rn = n Z X i=1 (i+1)/n i/n i i e` f − e` (t) f (t) dt n n Par le théorème des accroissements finis, il existe une suite θi (l, t) de nombres de [0, 1] telle que e` (t)f (t) − e` (i/n)f (i/n) = (e` f )0 (θi (l, t))(t − i/n). On déduit √ n 1 X M (1 + 2 πl) 0 |Rn | ≤ | 2 k(e` f ) k∞ ≤ 2n i=1 n sous la condition que f est dérivable et de dérivée bornée par M . Par suite, N X N πN 3 |Rn |2 ≤ 2M 2 [ 2 + 2 ] n n l=1 Le terme de variance est donc majoré par une quantité de l’ordre de dès que l’on impose N 2 ≤ n. Plus exactement V ≤ N n N (σ 2 + 10M 2 ) . n 2. Biais. On majore le terme de biais en faisant des hypothèses de régularité sur l’objet inconnu à estimer, comme on l’a fait dans le chapitre 5 Dans le cadre de la base trigonométrique, les classes de régularité usuelles sont les classes de Sobolev notées W (s, L) où s est le degré de régularité des fonctions et L le rayon des boules considérées qui correspondent aux contraintes ellipsoidales introduites au chapitre 5 ( ) ∞ X X W (s, L) = g ∈ L2 , g = θ` e` avec (`)2s θ`2 ≤ L pour tout ` . `=1 ` Exercice : Démontrer que si s est dans N∗ alors f est une fonction périodique, s fois dérivable, dont les dérivées sont dans RL2 alors f appar1 tient à W (s, L), si et seulement si il existe L0 tel que 0 [f (m) ]2 (x)dx ≤ L0 , ∀m ≤ s. Le terme de biais est alors majoré par L2 N −2s sous l’hypothèse que f appartient à une classe de Sobolev W (s, L) pour s > 0 et L > 0. Nous avons démontré le résultat suivant 3.4. CALCUL DE L’ERREUR 37 Théorème 1 Soit s, L, M > 0 fixés. Sous les hypothèses 1. f est dérivable de dérivée bornée par M 2. f est dans la boule Sobolev W (s, L) √ 3. N ≤ n on a la décomposition Biais/Variance de l’erreur MISE 2 −2s 2 2 N M ISE ≤ (σ + 10M ) + L N n Le meilleur choix de N est donc 1 N ∗ = (σ 2 + 10M 2 + L2 ) n 1+2s 2s qui mène à une erreur de l’ordre de n− 1+2s . Cet optimum n’est possible que si √ N ∗ ≤ n, ce qui est le cas si s > 12 - ce qui est en fait lié à l’hypothèse(1)-. Le problème pratique auquel nous sommes confrontés est que, en général, nous ne connaissons pas a priori les paramètres de régularité s, L. Il est donc impossible de choisir la fenêtre optimale. 3.4.2 Base d’ondelettes Les calculs sont identiques 1. Variance : On montre facilement que n 1X φj ,k E αd j0 ,k = n i=1 0 i i f n n et que n n 2 X σ2 X 2 σ2 k k+1 i i j0 σ V ar(αd φj0 ,k ≤2 2 I{[ j0 , j0 ]}( ) ≤ . j0 ,k ) = 2 n i=1 n n i=1 2 2 n n Comme j 20 X 2 (αd d j0 ,k − E α j0 ,k ) 2j0 2j0 X X 2 2 ≤ 2 (E αd (αd , j0 ,k − αj0 ,k ) + j0 ,k − αj0 ,k ) k=0 k=0 k=0 et que par ailleurs on peut montrer (exercice) sous l’hypothèse que f est lipschizienne(1) de constante M que le terme d’approximation de Riemann se majore par : cM ( 2j0 /2 22j0 /2 2−j0 /2 + ) ≤ 3M . n n n On en déduit que j 20 X 2 j0 +1 (αd d ( j0 ,k − E α j0 ,k ) ≤ 2 k=0 σ2 2j0 + c2 M 2 2 ) n n σ 2 + c2 M 2 n j0 si on suppose de plus de choisir j0 tel que 2 ≤ n. ≤ 2j0 +1 38 CHAPITRE 3. RÉGRESSION NON PARAMÉTRIQUE 2. Biais. On majore le terme de biais en faisant des hypothèses de régularité sur l’objet inconnu à estimer. Dans le cadre des bases d’ondelettes, les classes de régularité usuelles sont les espaces de Besov notés Bsp (L) où s est le degré de régularité des fonctions, p est le degré d’intégration et L le rayon des boules considérées ( Bsp (L) = g ∈ L2 , ∀ j0 ≥ 0, kg − j0 X ) αj0 k Φj0 k kp ≤ L2−j0 s , αj,k = hg, Φjk i k=0 Ici, on prend p = 2. En faisant l’hypothèse que f appartient à l’espace de Besov Bs2 (L), on majore le biais par L2 2−2j0 s . Nous avons démontré le résultat suivant Théorème 2 Soit s, L, M > 0 fixés. Sous les hypothèses – f est Lipschizienne de constante M – f est dans la boule Besov Bs2 (L) on a la décomposition Biais/Variance de l’erreur MISE M ISE ≤ 2(σ 2 + c2 M 2 )2j0 + L2 2−2j0 s n Le meilleur choix de j0 est donc 1 2j∗ ∼ n 1+2s 2s qui mène à une erreur de l’ordre de n− 1+2s . 3.5 Optimalité Pour avoir une idée de la qualité d’un estimateur, il faut se donner un critère. Nous choisissons le critère L2 qui s’appuie donc sur M ISE. Nous allons définir le risque minimax sur un espace fonctionnel donné F par Rn (F) = inf sup Ekfb − f k22 fb f ∈F où l’infimum est pris sur tous les estimateurs de f (c’est-à-dire sur toutes les fonctions mesurables des données). Ce concept est utilisé dans d’autres domaines que les statistiques. Par exemple, John Rawls (1921-2002) philosophe ayant travaillé sur une théorie de la justice a utilisé cette notion en donnant comme exemple un politique pour les prisons. (Harvard puis MIT). C’est une notion qui est ”pessimiste” puisqu’on calcule ce risque minimax en prenant en compte les pires fonctions de F (même si celles ci sont très peu nombreuses et peu représentatives de leur classe). On peut montrer le résultat de borne inférieure suivant 3.6. MÉTHODE DES NOYAUX 39 Théorème 3 Soit s, L > 0 et p ≥ 2. Alors, il existe une constante C telle que 2s Rn (F) ≥ C n− 1+2s pour F = W (s, L) ou Bsp (L). On déduit immédiatement le corollaire suivant Corollaire 1 Les estimateurs par projection dont les paramètres de lissage sont ∗ 2j = n1/(1+2s) N ∗ = n1/(1+2s) dans le cas de la base d’ondelettes dans le cas de la base de Fourier sont optimaux parmi tous les estimateurs de f . 3.6 Méthode des noyaux On s’intéresse dans cette section au modèle de régression à design fixe mais non nécessairement équidistribué. Dans le modèle de régression, la méthode des noyaux est aussi appelée méthode de Nadaraya-Watson. Très géneralement, on s’intéresse à des estimateurs de la fonction de régression qui sont des moyennes pondérées des données observées Yi fb(x) = n X Yi Wi (x) i=1 où Wi (x) est la fonction de poids qui dépend du design Xi (et pas des observations Yi ) et qui vérifie Wi (x) ≥ 0 et n X Wi (x) = 1. i=1 L’idée président au choix de la fonction de poids pour estimer f (x) est qu’il faut donner beaucoup d’inportance aux données Xi qui sont proches de x et très peu aux données qui sont loin de x. La fenètre h quantifie la distance entre x et Xi : – si −h ≤ x − Xi ≤ h, Xi est proche de x, – si |x − Xi | > h, Xi est loin de x. Le noyau rectangulaire est donné par ∀u, K(u) = 1[−1,1] (u) menant aux poids Wi (x) = K x − Xi h 40 CHAPITRE 3. RÉGRESSION NON PARAMÉTRIQUE ou plutôt Wi (x) = x−Xi h Pn x−Xi K i=1 h K car on veut que la somme des poids fasse 1. On généralise cette construction à toutes sortes de noyaux K. Nous définissons la notion de noyau par Z K est un noyau ssi K = 1 et K(u) = K(−u). Citons par exemple le noyau triangulaire K(u) = (1 − |u|) 1(|u|≤1) , le noyau Epachnikov 3 K(u) = (1 − u2 ) 1(|u|≤1) , 4 ou le noyau gaussien 1 2 1 K(u) = √ e− 2 u . 2π 3.6.1 Choix de la fenêtre Remarquons que la méthode des noyaux dépend aussi d’un paramètre de lissage : la fenêtre h. Heuristiquement parlant – si h est très petit, la fonction de poids vaut 1 en Xi et zero partout ailleurs ; ce qui signifie que l’estimateur fbh reproduit les données en attribuant la valeur Yi en Xi et en mettant zero partout ailleurs. L’estimateur de f est donc très oscillant : l’erreur stochastique est très grande. – si h est très grand, la fonction de poids vaut 1 en toutes données du design Xi et donc l’estimateur de f vaut la moyenne des Yi est constant. L’erreur stochastique est alors nulle (pas de variance) mais evidemment l’erreur de biais est très grande. De même que pour l’estimateur par projection, on peut montrer le théoreme suivant Théorème 4 Supposons que la fonction de régression appartienne à C s . Alors il existe une constante positive C telle que 1 2s +h . M ISE ≤ C nh On déduit la proposition suivante Théorème 5 Soit h∗ = O n1/(1+2s) . Si f ∈ C s alors 2 −2s/(2s+1) Ekfc . h∗ − f k2 ≤ C n En utilisant le résultat de borne inférieure prédemment énoncé, nous avons prouvé l’optimalité de la procédure par noyau lorsque la fenêtre est h∗ . Il est à noter que le noyau K n’a pas d’influence sur la vitesse de convergence de l’estimateur fc h∗ . Par contre, il intervient dans les constantes C et donc peut être important lorsque le nombre de données n est petit. Chapitre 4 p grand, Sparsités 1 4.1 Evaluation de la prédiction Supposons que notre but soit de prédire, Y∗ (= x∗ β + ε∗ ) -non observé- au vu de la seule observation des régresseurs x∗ = x1∗ , . . . , xp∗ en supposant que Y∗ (ou ε∗ ) est indépendante de notre échantillon préalable (appelé échantillon d’apprentissage). On suppose aussi que x∗ est soit déterministe, soit aléatoire mais indépendante de ε∗ et de l’échantillon d’apprentissage. Supposons que nous proposions à partir de cet échantillon d’apprentissage un ’estimateur’ (celui des MCO ou un autre) β̂(n). Le prédicteur naturellement associé est Ŷ := x∗ β̂(n). Le risque quadratique que l’on commet est alors (on utilise l’indépendance entre x∗ et ε∗ ainsi qu’entre l’échantillon d’apprentissage et la nouvelle observation ) : E(Ŷ − Y∗ )2 = E(x∗ (β̂(n) − β) + ε∗ )2 = E(x∗ (β̂(n) − β))2 + E(ε∗ )2 ≤ Ekx∗ k2 Ekβ̂(n) − βk2 + E(ε∗ )2 On voit dans cette majoration qu’il y a une partie ’incompressible’ ( : E(ε∗ )2 ), une partie qui dépend de la nouvelle observation ( : Ekx∗ k2 ) et donc difficile à maitriser. Nous allons donc nous intéresser à minimiser : Ekβ̂(n) − βk2 1. Copyright @ 2009 Universite Paris-Diderot Dominique Picard 41 42 CHAPITRE 4. P GRAND, SPARSITÉS 4.2 Le cas orthonormal : X ∗X = Ip On observe donc Y = Xβ + ε avec le fait que les vecteurs colonne de la matrice X sont orthonormaux (X ∗ X = Ip ) -ou ont été orthonormalises-. L’estimateur de β des moindres carrés s’écrit alors β̂ = XY = β + ξ avec ξ = X ∗ ε. Comme les εi ont même loi N (0, σ 2 ), sont indépendantes, le vecteur ξ est normal centré de variance σ 2 Ip (ξ ∼ N (0, σ 2 Ip )). Nous dirons que le modèle est ’diagonal’ si X 0 X = D2 (D est une matrice diagonale inversible) : dans ce cas, β̂ = D−2 X 0 Y = β + ξ 0 ξ 0 = D−2 Xε Le vecteur ξ 0 a donc pour loi N (0, D−2 Ip ). On supposera toujours que les valeurs sur la diagonale sont rangées par ordre décroissant. 4.3 Contraintes de sparsité de type ellipsoidales L’idée principale dans ce chapitre est que si p est très grand (même bien plus grand que n dans certaines applications) on ne peut pas prétendre aux miracles, donc il nous faut trouver des méthodes qui marcheront si certaines contraintes sont vraies sur le modèle. Nous allons donc étudier plusieurs formes de contraintes, voir à quelles solutions elles nous mènent et discuter leurs validité dans la pratique. Le premier type de contrainte que nous allons étudier est la contrainte ellipsoidale. On va supposer que θ appartient à l’ensemble p Θs (M ) = {β ∈ R , sup l p X βj2 ≤ M l−2s } j≥l Remarquons que ces espaces sont emboités de plus en plus petits quand s augmente. On remarque de plus que cette contrainte qui depend fortement du paramètre s > 0 appelé paramètre de régularité, est satisfaite si β appartient à l’ensemble X Θ0(a) (M ) = {β ∈ Rp , a2j βj2 ≤ M } 0≤j≤p si la suite (a) est croissante et vérifie al ≥ ls ce qui justifie la dénomination contrainte ellipsoidale. 4.4. CADRE ’MINIMAX’ 43 Preuve : En effet, p X βj2 j≥l X a2j ≤ β2 2 j a l≤j≤p l ≤M 1 ≤ M l−2s a2l 4 4.4 Cadre ’minimax’ Nous allons nous placer dans une perspective relativement pessimiste qui consiste à regarder le pire risque d’un estimateur. Plus précisément, étant donné un estimateur β̂ de β, nous allons nous intéresser si l’on a de plus la contrainte Θ, à la quantité Env(β̂(n), Θ) := sup Ekβ̂(n) − βk2 . β∈Θ Maintenant, si on s’intéresse à une classe particulière d’estimateurs B, on dira que β̃ est ’minimax dans la classe B relativement à la contrainte Θ si il appartient à B et Env(β̃, Θ) = inf Env(β̂(n), Θ). β̂(n)∈B 4.5 Résolution minimax sous contrainte de sparsité ellipsoidale, cas orthonormal Nous avons dans l’idée que comme les β ont une contrainte de forme (β ∈ Θs (M )), nécessairement, ils sont très petits à partir d’un certain rang. Il est donc raisonnable de considérer des procédures qui remplacent par 0 les derniers coefficients au lieu de les estimer. Supposons donc qu’on s’intéresse aux estimateurs de la forme β̂iK = β̂i , si i ≤ K, 0 si i > K (4.1) et étudions s’il y a une façon de choisir K. On a la proposition suivante : Proposition 4 Pour s > 0, M > 0, on a pour 1 ≤ K ≤ n Env(β̂ K , Θs (M )) = Kσ 2 + M K −2s . Preuve : Considérons le risque quadratique d’un tel estimateur. K 2 Ekβ̂ − βk = E p X (β̂jK − βj )2 j=1 = K X E(β̂jK 2 − βj ) + j=1 p X (βj )2 j=K+1 2 ≤ Kσ + M K −2s . 44 CHAPITRE 4. P GRAND, SPARSITÉS Il est ensuite facile de montrer que la borne est atteinte ce qui donne l’égalité dans la proposition. 4 On voit que le premier terme est croissant en K et donc nous incite à choisir K le plus petit possible, alors que le second est décroissant et nous incite à choisir K très grand. Mais il est clair que s’il existe K tel que (n − K)σ 2 > M K −2s , on a plus intérêt à utiliser β̂ K plutôt que β̂ = β̂ p . En d’autres termes, il est alors plus avantageux de remplacer les derniers termes par 0 que de les estimer. Ce principe est très important. Nous allons l’exploiter sous différents aspects. Plaçons nous dans le cas où : 2sM ≤ σ 2 ≤ 2sM 2s+1 p Dans ce cas, on peut optimiser la borne que l’on vient de trouver conduit à choisir (on annule la dérivée) : # " 2 −1 σ ) 1+2s . K = K ∗ (s) := ( 2sM Ceci conduit au théorème suivant Théorème 4 Si on a 2sM ≤ σ2 p2s+1 K ∗ (s) ≤ 2sM , alors en définissant K ∗ (s) comme in- diqué plus haut, on a que β̂ est ’minimax dans la classe des estimateurs{β̂ K , K ∈ {1, . . . , p}} relativement à la contrainte Θs (M ). 4.5.1 Le cas diagonal décroissant Dans le cas diagonal, on a les proposition et théorème parallèles à ceux du cas orthonormal : On a la proposition suivante : Proposition 5 Pour s > 0, M > 0, on a pour 1 ≤ K ≤ p ≤ n K Env(β̂ , Θs (M )) = K X −2s d−2 . i + MK i=1 Dans ce cas, on peut aussi optimiser la borne que l’on vient de trouver conduit à choisir : K X ∗∗ −2s K = K (s) := sup{K, d−2 }. i ≤ MK i=1 Ceci conduit au théorème suivant Théorème 5 Si on a s, p et M sont tels que 1 ≤ K ∗∗ (s) ≤ p, alors en ∗∗ définissant K ∗∗ (s) comme indiqué plus haut, on a que β̂ K (s) est ’minimax dans la classe des estimateurs {β̂ K , K ∈ {1, . . . , p}} relativement à la contrainte Θs (M ). 4.6. CONTRAINTE DE TYPE SPARSITÉ LQ , ET LQ,∞ , CLASSES DE LORENTZ45 4.5.2 Cadre asymptotique Si on se place à nouveau dans le cadre orthonormal et que l’on fait tendre σ 2 vers 0 et (éventuellement aussi à la fois p vers l’infini, mais pas nécessairement). Noter aussi que si au lieu de supposer une normalisation de type X t X = Ip t on suppose XnX = Ip , on peut facilement mettre β̂j sous la forme β̂j = βj + ηj où les ηj sont maintenant des variables gaussiennes indépendantes centrées et de variance n1 V ar(εi ), ce qui alors justifie pleinement de faire tendre σ 2 vers 0 et montre le rôle de n Le théoreme 4 a pour conséquence : σ2 sup Ekβ̂ − βk ≤ [ 2sM 1≤K≤p K 2 −1 1+2s σ2 ]σ + M [ 2sM 2 −1 1+2s 4s ]−2s ≤ Cσ 1+2s où C est une constante qui ne dépend que de s et M . On voit donc alors que cette quantité tend vers 0 si s > 0. On note que ceci n’est pas vrai dans le cas où s = 0. On peut montrer que si au lieu de se limiter aux estimateurs de la forme β̂ K qui donc, impose aux coordonnées après K à valoir 0, on considère le minimax sur TOUS les estimateurs (B est l’ensemble de tous les estimateurs possible de β ), alors on a l’inégalité suivante : il existe une autre constante C 0 , telle que 4s inf Env(β̂(n), Θs (M )) ≥ C 0 σ 1+2s . (4.2) β̂(n)∈B Ceci prouve qu’à une constante près, la ’vitesse minimax’ d’estimation pour la classe précédente est aussi bonne que si l’on considère tous les estimateurs. 4.6 Contrainte de type sparsité lq , et lq,∞, Classes de Lorentz Pour q > 0, I un sous ensemble de N, on note ) ( X lq (I) = θ = (θi )i∈I , /( |θk |q )1/q := kθklq < ∞ . k∈I Le lemme suivant va nous permettre de considérer des espaces où l’on prend en considération la relative importance de la taille des coefficients, d’une façon plus subtile encore. Lemme 1 Soit (ai )i∈I une famille de nombres réels et q > 0. Les assertions suivantes sont équivalentes 1. Il existe C, telle que, pour tout λ > 0, #{i ∈ I/|a|i ≥ λ} ≤ (C/λ)q . 2. Il existe r > q, Cr , tel que ∀λ > 0, X i∈I |ai |r 1|ai |≤λ ≤ Cr λr−q . 46 CHAPITRE 4. P GRAND, SPARSITÉS 3. Pour tous r > q, il existe Cr , tel que X ∀λ > 0, |ai |r 1|ai |≤λ ≤ Cr λr−q . i∈I 4. Il existe r > q, Cr , such that : X ∀λ > 0, (|ai | ∧ λ)r ≤ Cr λr−q . i∈I 5. Pour tous r > q, il existe Cr , such that : X ∀λ > 0, (|ai | ∧ λ)r ≤ Cr λr−q . i∈I 6. |a|(n) ≤ Cn−1/q , ∀n ∈ N∗ . Finalement, on définit q q lq,∞ (I) := θ = (θi )i∈I , / sup λ #{i ∈ I/|θ|i ≥ λ} := kθklq,∞ (I) < ∞ . (4.3) λ>0 Preuve : Nous démontrerons que 2 =⇒ 1 =⇒ 5 =⇒ 4 =⇒ 3 =⇒ 2. P 6 =⇒ r 2 =⇒ 1 : Supposons qu’il existe r > q, tel que, i |ai | 1|ai |≤λ #{i} ≤ Cr λr−q , P #{2j+1 λ > |ai | ≥ 2j λ} #{i ∈ I, |ai | ≥ λ} = Pj≥0 j −r P |ai |r 12j+1 λ≥|ai | (2 λ) ≤ Pj≥0 j −r i j+1 ≤ λ)r−q j≥0 (2 λ) Cr (2 ≤ Cr0 ( λ1 )q . 1 =⇒ 6 : Car |a|(n) = inf[λ; card {i ∈ I/|a|i > λ} < n] ≤ inf[λ; (C/λ)q < n] = Cn−1/q . 6 =⇒ 5 : X X (|ai | ∧ λ)r = (|a(i) | ∧ λ)r i i ≤ X (Ci−1/q )r + i≥C q λ−q X i≤C q λ−q r C ≤ C r [C q λ−q ]− q +1 + [ ]q λr λ ≤ 2C q λr−q 4 =⇒ 3 : Si p0 ≥ r, on a X 0 |ai |p 1|ai |≤λ ≤ X ≤ X i 0 |ai |r 1|ai |≤λ λp −r i 0 (|ai | ∧ λ)r λp −r i 0 ≤ Cp λp −q λr 4.6. CONTRAINTE DE TYPE SPARSITÉ LQ , ET LQ,∞ , CLASSES DE LORENTZ47 Si p0 < r, on doit raffiner un peu : X 0 |ai |p 1|ai |≤λ = XX ≤ XX i i l≥0 0 |ai |p [ i l≥0 ≤c 0 |ai |p 12−l−1 λ≤|ai |≤2−l λ XX l≥0 |ai | r−p0 ] 1|ai |≤2−l λ −l−1 2 λ 0 0 |ai |r 1|ai |≤2−l λ 2l(r−p ) λp −r i ≤ cCr X ≤ cCr X 0 0 [2−l λ]r−q 2l(r−p ) λp −r l≥0 0 0 2−l(p −q) λp −q l≥0 4 Les propriétés suivantes sont élémentaires mais caractérisent les liens entre les contraintes lq et les contraintes lq,∞ : 1. ∀ q > 0, ∀ µ, lq (I) ⊂ lq,∞ (I) (puisque P en utilisant la propriété de Markov, on obtient : #{i ∈ I/|a|i ≥ λ} ≤ ( |ai |q )λ−q ). P P r r 2. ∀ r > q; lq,∞ (I) ⊂ lr (I). (Evidemment, n≥1 |a|(n) ≤ i∈I |ai | = P kakrl(q,∞) n≥1 n−r/q ). 4.6.1 Lien avec la contrainte de sparsité ellipsoidale On voit donc que les contraintes précédentes concernent directement le nombre de coefficients grands en module sans faire référence à leur ordre. Montrons maintenant que c’est en fait (comme on peut s’y attendre) une contrainte plus faible que la contrainte ellipsoidale. Proposition 6 Pour s > 0 et qs := 1 s+ 1 2 on a ΘsM ⊂ lqs ,∞ . Preuve : On remarque que de par l’appartenance à ΘsM , tous les |βi | sont nécessairement bornés par M , donc on ne va être intéressé que par le comportement des ’petits’ λ (à ecrire mieux)( inférieurs à M ). Calculons en utilisant 48 CHAPITRE 4. P GRAND, SPARSITÉS les propriétés précédentes, Card{i, |βi | > λ} = ∞ X Card{i, |βi | > λ, 2j ≤ i < 2j+1 } j=0 ∞ X 1 ≤ 2 + λ2 j=0 j=J+1 J X X j ≤ 2J+1 + |βi |2 2j ≤i<2j+1 ∞ X 1 X |βi |2 2 λ j j=J+1 2 ≤i ∞ X 1 J+1 ≤2 + M 2−2js 2 λ j=J+1 ≤ 2J+1 + M 2−2(J+1)s λ2 (1 1 . − 2−2s ) −2 Maintenant, si on choisit J tel que 2J+1 = λ 1+2s = λ−qs on observe que −2 4s 2−2(J+1)s λ12 = λ 1+2s −2 = λ 1+2s . On en déduit qu’il existe une constante c(s, M ) telle que Card{i, |βi | > λ} ≤ c(s, M )λ−qs . 4 4.6.2 Minimax : bornes inférieures sur les espaces de types lp , et lq,∞ Plaçons nous maintenant dans le cadre asymptotique (σ −→ 0) et considérons la classe d’estimateurs dont les coordonnées sont soit β̂i soit 0 C = {β̂(n)/ β̂(n)i ∈ {β̂i , 0}}. La différence avec la classe précédente réside dans le fait que les 0 peuvent être placés n’importe où et non plus seulement à la fin. On a donc une classe plus grande. On a alors la proposition suivante, Proposition 7 Pour 0 < q ≤ 2, si on désigne par Θq,∞ (M ) := {β, sup Card{i, |βi | > λ}λq ≤ M } λ>0 il existe une constante C(M ) telle que : inf Env(β̂(n), Θq,∞ (M )) ≥ C(M )σ 2−q . β̂(n)∈C 4.6. CONTRAINTE DE TYPE SPARSITÉ LQ , ET LQ,∞ , CLASSES DE LORENTZ49 Preuve : On a, si β̂(n) ∈ C : p p X X 2 E(β̂i − βi )2 ∧ βi2 (β̂(n)i − βi ) ≥ E i=1 i=1 = p X σ 2 ∧ βi2 i=1 2 2 = σ Card{|βi | > σ } + p X βi2 I{|βi | ≤ σ 2 } i=1 On en déduit qu’il existe des constantes, telles que sup E β∈Θq,∞ (M ) p X i=1 2 (β̂(n)i − βi ) ≥ 2 σ Card{i, |βi | > σ} + sup β∈Θq,∞ (M ) p X βi2 I{|βi | ≤ σ} i=1 p ≥ C(M )[σ 2 Card{i, |i−1/q | > σ} + X (i−1/q )2 I{i−1/q ≤ σ}] i=1 = 2C(M )σ 2−q . 4 On remarque qu’on a un paralléle intéressant avec le théorème 4 puisque 4s . Dans la prochaine section nous allons montrer qu’en fait 2 − q = 1+2s Théorème 6 Pour 0 < q ≤ 2, si on désigne par Θq,∞ (M ) := {β, sup Card{i, |βi | > λ}λq ≤ M } λ>0 il existe des constantes C(M ) et C 0 telles que : 1 C(M )σ 2−q ≤ inf Env(β̂(n), Θq,∞ (M )) ≤ C 0 {[log ]1/2 σ}2−q . σ β̂(n)∈C 50 CHAPITRE 4. P GRAND, SPARSITÉS Chapitre 5 Méthodes d’estimations parcimonieuses 1 5.1 Seuillage Nous allons considérer l’estimateur suivant (appelé estimateur par seuillage) β̂iT := t(β̂i ) avec 1 t(u) := uI{|u| ≥ κσ[log ]1/2 } σ Nous allons montrer le théorème suivant 5.1.1 Quasi minimax optimalité : cas orthonormal homoscédastique Théorème 7 Pour 0 < q ≤ 2, si on désigne par Θq,∞ (M ) := {β, sup Card{i, |βi | > λ}λq ≤ M } λ>0 log p Si κ2 ≥ 4 ∨ 16 log , il existe une constante C 0 telle que : 1/σ 1 Env(β̂ T , Θq,∞ (M )) ≤ C 0 {[log ]1/2 σ}2−q . σ Ce théorème montre que cet estimateur est quasi minimax. Il faut noter qu’il est non linéaire (en Y ) (noter la différence avec l’estimateur du chapitre précédent qui -lui- était linéaire. Il est par ailleurs simple à calculer et surtout adaptatif (en ce sens que sa construction ne dépend pas de la connaissance de q)... Preuve : Nous allons d’abord démontrer la proposition suivante 1. Copyright @ 2009 Universite Paris-Diderot Dominique Picard 51 52 CHAPITRE 5. MÉTHODES D’ESTIMATIONS PARCIMONIEUSES Proposition 8 E|β̂i − βi |4 ≤ Cσ 4 , ∀ 0 ≤ i ≤ p 1 2 2 P |β̂i − βi | ≥ τ κσ[log ]1/2 ) ≤ σ τ κ /2 , ∀ 0 ≤ i ≤ p. σ (5.1) (5.2) Remarquons que β̂i − βi suit une loi normale centrée de variance σ 2 . (5.1) est donc une conséquence naturelle de la propriété de ’scaling’ de la loi normale. (5.2) est une conséquence du lemme suivant : Lemme 2 Si Z ∼ N (0, 1), 2 2 2 exp −x2 exp −x2 x2 exp −x2 √ √ } ∀x > 0 ≤ P (Z ≥ x) ≤ { } ∧ { 1 + x2 x 2π 2 x 2π Preuve : Posons Φ(x) = P (Z ≥ x), on a Z ∞ Z ∞ −x2 −v 2 dv √ Φ(x) = ϕ(u)du = exp exp −xv exp 2 2 2π x 0 en utilisant le changement de variable u = v +x. Maintenant, en majorant tour 2 à tour exp −xv puis, exp −v2 par 1, puis en intégrant on obtient les majorations par exp −x2 2 2 2 puis Φ(x) ≥ = exp −x √ 2 x 2π R∞ x 2 √x 2π x2 u2 2 exp −u2 R∞ x . Par ailleurs, √du 2π 2 d(− u1 ) exp −u2 du = 2 √x ( 1 2π x 2 exp −x2 − R∞ x 2 exp −u2 du) 2 On a utilisé une intégration par partie. On en déduit : Φ(x) ≥ √x2π exp −x2 − x2 Φ(x). 4 Ce qui finit aussi la démonstration de la proposition. Passons maintenant à la démonstration du théorème. P Posons si = κσ[log σ1 ]1/2 Le risque de l’estimateur E i≤p (β̂i 1|βˆi |>sii − βi )2 peut être séparé en 2 parties : " # " # X X A+B = E(1|βˆi n |>si |β̂i − βi |2 ) + E|βi |2 1|βˆi |≤si i≤p i≤p, En ce qui concerne le premier terme, à nouveau on le sépare en deux parties. P 2 A = A1 + A2 = i≤p 1|βi |≤si/2 E1|βˆi |>si |β̂i − βi | P + i≤p 1|βi |>si/2 E1|βˆi |>si |β̂i − βi |2 Pour A1 on utilise l’inégalité de Cauchy Schwarz, E1|βi −βˆi |>si/2 |β̂i − βi |2≤(P (|βi − β̂i |>si/2))1/2 (E|β̂i − βi |4 )1/2. Donc, P 2 A1 ≤ i≤p,|βi |≤si/2 E1|βi −βˆi |>si/2 |β̂i − βi | P 2 2 ≤ C i≤p σ κ /16 σ 2 ≤ pσ κ /16 σ 2 5.2. HORS ORTHONORMALITÉ : RIDGE REGRESSION 53 log p A1 sera donc du bon ordre dés que κ2 ≥ 16 log(1/σ) . P 2 A2 ≤ i≤p,|βi |>si/2 E|β̂i − βi | P ≤ C i≤p,|βi |>si/2 σ 2 ≤ Cσ 2−q M q , en utilisant la définition de Θq,∞ (M ). En ce qui concerne le deuxième terme, on a B = B1 + B2 = P n 2 i≤p, |βi |>2si |βi | P (|β̂i | ≤ si) P n + i≤p, |βi |≤2si |βi |2 P (|β̂i | ≤ si) P n 2 B1 ≤ i≤p, |βi |>2si |βi | P (|βi − β̂i | ≥ si) P 2 2 ≤ 2σ κ /2 i≤p, |βi |>2si |βi |2 ≤ 2σ κ /2 M 2 . Ce terme est du bon ordre dès que κ2 ≥ 4. Maintenant le dernier terme se majore en utilisant de Θq,∞ (M ) : P la définition 2 q B2 ≤ |β | ≤ M [2si]2−q , qui est exactement du bon ordre. i |βi |≤2si 4 5.2 Hors orthonormalité : Ridge regression La ’Ridge’ (traduction : crête, arête...) regression consiste à ’contracter’ les coefficients, en imposant une contrainte de pénalisation sur leur taille. Plus précisément, on a la définition suivante : β̂ ridge := Argminβ n X 2 (Yi − [Xβ]i ) + λ i=1 p X βi2 }. i=1 Ici λ ≥ 0 est un paramétre de réglage qui contrôle la quantité de ’contraction’ qu’on va imposer à l’estimateur : λ = 0 correspond aux MCO, à l’inverse λ très grand pousserait à prendre tous les coefficients égaux à 0. En utilisant les multiplicateurs de Lagrange, on peut montrer que pour tout λ, il existe u tel que β̂ ridge est aussi solution de β̂ ridge n X := Argminβ (Yi − [Xβ]i )2 i=1 sous contrainte p X βi2 ≤ u. i=1 Ce qui montre de façon explicite, la contrainte sur les paramètres. L’idée de base de cette régression tient à la possibilité de correlation entre les colonnes X j (précisément, le cas non orthonormal). Dans ce cas, il est clair que s’il y a de fortes corrélations entre plusieurs colonnes, la matrice X 0 X devient quasiment (ou effectivement... ) non inversible, ce qui entraine une instabilité dans la détermination des βi (ou simplement une grande variance pour ces coefficients). Par exemple, on voit bien que si deux colonnes (X 1 et X 2 par exemple) 54 CHAPITRE 5. MÉTHODES D’ESTIMATIONS PARCIMONIEUSES sont presque égales, on peut artifiellement augmenter le coefficient β̂1 positivement, à condition de compenser négativement sur β̂2 . Evidemment, imposer une contrainte sur la taille des coefficients réduira ce genre d’aberration. Il est simple de montrer que comme la matrice [X t X + λI] est inversible, on a β̂ ridge = [X t X + λI]−1 X t Y. (5.3) On voit en particulier que même si X t X n’est pas inversible (par exemple parce que p est très grand) la formule (5.3) aura un sens. C’est la raison historique pour l’introduction de cet estimateur. On voit aussi (exercice) que dans le cas orthonormé X t X = I, cet estimateur vaut β̂i ridge = M CO 1 β̂i 1+λ (ce qui explique l’idée de contraction) et a un risque qui vaut E X ridge (β̂i − βi )2 = (1 + λ)−2 pσ 2 + i≤p X λ2 βi2 . 2 (1 + λ) i≤p Il est intéressant de noter que dans ce cas, la méthode Ridge est moins intéressante qu’une méthode qui annule certain coefficients soit de maniére linéaire soit par seuillage si l’on sait que l’on cherche un paramètre sous contrainte de sparsité. Il est aussi intéressant de considérer le cas où la matrice X = D est une matrice diagonale à coefficients vi > 0 décroissants. i.e. Yi = vi βi + εi , l’estimateur des MCO est Yi β̂i = . vi on a alors, en ce qui concerne l’estimateur ridge β̂iridge = vi2 β̂i . vi2 + λ (5.4) On est donc amené à pénaliser fortement les β̂i qui correspondent aux vi les plus petits. On retrouvera cette interprétation plus bas. Le risque de l’estimateur ridge vaut dans ce cas : E X i≤p (β̂i ridge − βi )2 = X i≤p vi2 λ2 βi2 2 σ + . (vi2 + λ)2 (vi2 + λ)2 On voit que dans ce cas on peut améliorer la performance par rapport à l’estimateur MCO par exemple. 5.2.1 Ridge regression, interprétation Bayesienne (voir l’appendice pour les estimateurs bayesiens) On peut se placer dans un cadre bayesien pour interpréter cet estimateur. Supposons en effet que l’on suppose σ connu et que l’on mette sur βl une loi de type Normale centrée et 5.2. HORS ORTHONORMALITÉ : RIDGE REGRESSION 55 de matrice de covariance τ 2 I. Les βl étant supposés indépendants. Il est alors clair que la loi a posteriori admet une densité proportionnelle à : p X 1 X 2 2 exp − 2 { (Yi − [Xβ]i ) + σ λ βi2 }. 2σ i≤n i=1 2 Il est donc évident que si on fixe λ = στ 2 , β̂ ridge est le mode de cette loi a posteriori. Comme par ailleurs, cette loi a posteriori est Normale, sa moyenne est aussi son mode. Donc β̂ ridge est l’estimateur Bayesien associé à une perte quadratique ou à une perte de type l1 . 5.2.2 ACP et Ridge ACP X t X est une matrice p × p symétrique. Donc il existe une matrice orthogonale V (V t = V −1 ) et une matrice D2 diagonale (positive ou nulle) telle que X t X = V D2 V t . (5.5) Les vecteurs colonnes vi de V sont les vecteurs propres de X t X et sont appelés les composantes principales de X (ou encore décomposition de KarhunenLoeve). Les éléments de la matrices diagonale D2 sont les valeurs propres associées à ces vecteurs propres. Supposons-les ordonnés par ordre décroissant. Interprétation de l’ACP Cette décomposition a beaucoup de propriétés remarquables. On en donne souvent l’interprétation suivante. Si l’on suppose que les lignes de X sont en fait des réalisations de vecteurs aléatoires centrés, de matrice de covariance Γ, indépendants et de même loi. Alors n1 X t X est une estimation de la matrice de covariance Γ, et si l’on assimile Γ et n1 X t X (estimation parfaite) ; Alors, v1 , la première composante principale a la propriété que z1 = Xv1 est la réalisation de n copies indépendantes d’une variable aléatoire centrée de variance v1t Γv1 = v1t n1 X t Xv1 = n1 d21 . C’est donc parmi les combinaisons linéaires (normées) de X, celle qui est la plus variante. On peut poursuivre le raisonnement en cherchant la combinaison linéaire (normées), orthogonale à la précédente, la plus variante. On trouve alors v2 , et ainsi de suite. ACP et Ridge Supposons pour simplifier que X t X est inversible. (Sinon, on peut mettre à jour la plupart de ce qui suit avec quelques précautions) Si on introduit la matrice U = XV D−1 . Cette matrice n × p est donc constituée de p vecteurs de Rn qui sont orthonormés par construction. (U t U = I). Par ailleurs l’estimateur des MCO, β̂ vérifie : X β̂ = X(X t X)−1 X t Y = XV D−2 V t X t Y = U U t Y. 56 CHAPITRE 5. MÉTHODES D’ESTIMATIONS PARCIMONIEUSES Par ailleurs, l’estimateur ridge β̂ ridge vérifie : X β̂ ridge = X[X t X + λI]−1 X t Y = X[V D2 V t + λV V t ]−1 X t Y = XV [D2 + λI]−1 V t X t Y = U D[D2 + λI]−1 DU t Y p X d2j = uj 2 utj Y d + λ j j=1 où les uj sont les vecteurs colonnes de la matrice U . Si on compare donc les 2 formules précédentes, exprimées sur la base des ui MCO et ridge calculent leurs coordonnées par simple projection de Y sur cette base, la différence, c’est d2j que ridge ’contracte’ chaque coefficient d’un facteur d2 +λ . Donc on contracte de j plus en plus à mesure que dj diminue. Maintenant, si on revient au paragraphe précédent, on a ui = d−1 i zi . On contracte donc le plus les directions de l’espace qui ont le moins de variance. 5.3 LASSO La méthode LASSO est une méthode de ’shrinkage’ (ou contraction) comme la méthode ridge, avec des différences apparemment subtiles mais en fait essentielles. L’estimateur β̂ lasso est défini comme solution de β̂ ridge n X := Argminβ (Yi − [Xβ]i )2 i=1 sous contrainte p X |βi | ≤ u. i=1 Apparemment, cette définition est très proche de celle de l’estimateur ridge. Toutefois, le calcul de l’optimum est à l’évidence non linéaire alors qu’il était linéaire pour l’estimateur ridge. Par ailleurs, on voit que pour u suffisamment petit, l’estimateur lasso conduit à annuler un ou plusieurs des coefficients. Prenons l’exemple du cas orthonormal : 5.3.1 LASSO, cas orthonormal, X t X = I En utilisant les multiplicateurs de Lagrange on montre qu’il existe λ tel que β̂ lasso est solution de β̂ lasso := Argminβ n X i=1 2 (Yi − [Xβ]i ) + λ p X |βi |} i=1 Pn 2 Pour minimiser la première quantité, on remarque que i=1 (Yi − [Xβ]i ) + Pn Pn P P n n λ i=1 |βi | = i=1 (Yi )2 −2 i=1 Yi [Xβ]i + i=1 [Xβ]2i . Si on dérivePcette quantité par rapport à βl , (qui est dérivable en dehors de 0), on a −2 ni=1 Yi Xil + 5.4. AIC, BIC, MÉTHODES PÉNALISÉES 57 P P P 2 ni=1 Xil pj=1 Xij βj +λsign(βl ). Dans le cas orthonormal, cela vaut −2 ni=1 Yi Xil + 2βl + λsign(β voit donc qu’il y a 3 possibilités : soit βl = 0, soit βl > 0 Pn l ). On Pn λ l l et βl = i=1 Yi Xi − 2 , soit βl > 0 et βl = i=1 Yi Xi + λ2 . Soit encore, puisque ces différents cas sont exclusifs, β̂llasso n n n n X X X X λ λ λ λ l l l =[ Yi Xi − ]I{[ Yi Xi − ] > 0} + [ Yi Xi + ]I{[ Yi Xil + ] < 0} 2 2 2 2 i=1 i=1 i=1 i=1 (5.6) n n n X X X λ λ =[ Yi Xil − sign( Yi Xil ) ]I{| Yi Xil | > } 2 2 i=1 i=1 i=1 (5.7) Cet estimateur particulier porte le nom de seuillage doux. On voit que certains coefficients seront efectivement estimés par O. Il reste à déterminer λ, que l’on choisit en respectant la contrainte de façon la plus serrée possible : i.e. λ maximum sous la contrainte : p n n n X X X X λ l l λ Yi Xil | > }| ≤ u. |[ Yi Xi − sign( Yi Xi ) ]I{| 2 2 i=1 i=1 i=1 l=1 5.3.2 LASSO, interprétation Bayesienne (voir l’appendice pour les estimateurs bayesiens) On peut se placer dans un cadre bayesien pour interpréter cet estimateur. Supposons en effet que l’on suppose σ connu et que l’on mette sur chaque βl une loi de type Laplace, c’est à dire une loi de densité proportionnelle à h(x) = exp −λ|x|. Les βl étant supposés indépendants. Il est alors clair que la loi a posteriori admet une densité proportionnelle à : exp − p σ2 X 1 X 2 { (Y − [Xβ] ) + |βi |}. i i 2σ 2 i≤n τ 2 i=1 Donc β̂ lasso est le mode de cette loi a posteriori. Maintenant cette loi a posteriori est n’est plus Normale ; on ne peut plus donc dire qu’on a là un estimateur de type bayesien. En revanche il s’interprête comme le maximum a posteriori. 5.4 AIC, BIC, méthodes pénalisées Akaike (1973, 1974) proposent de selectionner les modèles en minimisant la divergence de Kullback-Leibler (KL) estimée par rapport au vrai modèle. Akaike (1973) propose de choisir l’estimateur minimisant (critère AIC) −Ln (β̂) + λ p X j=1 I{βj 6= 0}. 58 CHAPITRE 5. MÉTHODES D’ESTIMATIONS PARCIMONIEUSES Ln est le logarithme de la vraisemblance et β̂ le maximum de vraisemblance Schwartz propose avec des arguments bayesien le critère BIC, où on choisit λ = log2 n . Supposons les erreurs gaussiennes et σ 2 connu, dans ce cas −Ln (β) = 1 kY − Xβk2 . 2σ 2 et si β̂ est l’estimateur des MCO, on est amené à minimiser p X 1 2 2 [kY − X β̂k + kX β̂ − Xβk ] + λ I{βj 6= 0}. 2σ 2 j=1 La première partie ne dépend pas de β , on doit donc minimiser : p X 1 2 kX β̂ − Xβk + λ I{βj 6= 0}. 2σ 2 j=1 (5.8) Si RSS(d) correspond aux sommes des carrés des résidus quand on prend d variables, le Cp de Mallows Cp = RSS(d) + 2d − n RSS(p) correspond à prendre λ = 1 et à estimer σ 2 . Le R2 ajusté 2 Radj =1− n − 1 RSS(d) n − d RSS(p) revient aussi (à peu près) à une méthode de type MCO penalisés. Si on est dans le cas orthonormal (X t X = I), on doit donc minimiser p X 1 2 kβ̂ − βk + λ I{βj 6= 0}. 2σ 2 j=1 Dans ce cas, il est facile de voir que la solution consiste à prendre βi = β̂i quand βi 6= 0, et à choisir pour cela les i tels que β̂i2 ≥ 2σ 2 λ. Ceci donc conduit à l’estimateur seuillé : 1 β̂(λ)i = β̂i I{|β̂i | ≥ σ[2λ] 2 }. Une généralisation naturelle des méthodes pénalisées l0 est d’introduire une penalisation lq pour q ≤ 2. On retrouve ainsi les méthodes Ridge (q=2), Bridge 0 < q < 2, et Lasso (l1 ). 5.5 Appendice : Méthodes bayesiennes en statistique classique La différence fondamentale du contexte bayesien avec le contexte classique réside dans l’introduction d’une loi de probabilité a priori ν sur l’ensemble des 5.6. CALCUL DE LOI A POSTERIORI, EXEMPLES 59 paramètres. Cela nécessite au préalable de munir Θ d’une tribu T . La loi ν reflète alors, ce qu’on est sensé savoir du paramètre, avant l’espérience. Ceci n’est pas sans conséquence sur notre modèle, puisque, de ce fait, θ est une variable aléatoire, et donc Pθ , représente maintenant la loi de l’observation X, conditionnellement à θ. On appelle alors loi conjointe la loi du vecteur (X, θ) et loi a posteriori la loi de θ conditionnelle à l’observation X ( θ|X) qui reflète alors, ce que l’on sait sur le paramètre après l’expérience. Étant donné une fonction de perte définie comme au paragraphe précédent, et un estimateur T de la quantité q(θ), on définit alors le risque bayesien de T, Z R(T, θ)dν(θ). R(T, ν) = Θ On a alors la defintion suivante : Définition 7 Dans le cadre précédent, un estimateur T ∗ est dit bayesien associé à la fonction de perte l et à la mesure a priori ν, s’il vérifie : R(T ∗ , ν) ≤ R(T, ν) pour tout estimateur T . 5.6 Calcul de loi a posteriori, Exemples Notons maintenant p(x|θ) une densité de Pθ par rapport à la mesure dominante µ. (Nous supposons toujours le modèle dominé.) Notons que le changement de notation correspond à la nouvelle interprétation dans le cadre bayesien de la loi Pθ . Pour faciliter les calculs, nous considérerons une mesure m sur (Θ, T ) qui domine ν, et nous noterons n(θ), une densité de ν par rapport à m. Il est alors facile de vérifier que la loi conjointe de (X, θ) sur (X ×Θ), (A⊗T ) est dominée par la mesure produit µ ⊗ m par rapport à laquelle elle admet la densité : π(x, θ) = p(x|θ)n(θ). Par le théorème de Bayes, la loi a posteriori sur Θ, T est aussi dominée par m, et admet la densité : p(θ|x) = R p(x|θ)n(θ) p(x|θ)n(θ)dm(θ) Θ Exemple 1 Prenons à nouveau, le cas du modèle binomial où le paramètre inconnu est θ = p ∈ Θ = [0, 1]. Le modèle est dominé par la mesure µ = Pn k=0 δk et p(x|θ) = Cnk θx (1 − θ)n−x 60 CHAPITRE 5. MÉTHODES D’ESTIMATIONS PARCIMONIEUSES Supposons que l’on choisisse la loi a priori de la façon suivante :(Ce choix sera discuté ultérieurement.) On prend pour ν une loi Beta(r, s). On rappelle que pour des paramètres r et s strictement positifs, on appelle loi Beta(r, s), la loi dont la densité par rapport à la mesure (m, ici) de Lebesgue sur [0, 1] est donnée par n(θ) = c(r, s)θr−1 (1 − θ)s−1 . hR i−1 On rappelle que c(r, s) = [0,1] θr−1 (1 − θ)s−1 dθ , que la moyenne de cette loi est rs et sa variance est . (r + s)(r + s + 1) r r+s , La loi conjointe admet alors une densité par rapport à µ ⊗ m donnée par : π(x, θ) = c(r, s)Cnk θx+r−1 (1 − θ)n−x+s−1 . La loi a posteriori admet par rapport à m la densité : θx+r−1 (1 − θ)n−x+s−1 = c(r + x, n − x + s)θx+r−1 (1 − θ)n−x+s−1 x+r−1 (1 − θ)n−x+s−1 dθ θ [0,1] p(θ|x) = R C’est donc une loi Beta(r + x, s + n − x). (Ne pas perdre de vue que x est notre observation, c’est donc une quantité aléatoire.) Ceci nous permet d’interpréter les paramètres r, s de la loi a priori. En effet, en observant comment s’opère la modification de notre connaissance sur le paramètre avant et après observation, on remarque que r et x jouent des rôles analogues, de même pour r + s et n. On peut donc interpréter la loi a priori comme une observation préalable à l’expérience, portant sur r + s observations (au sens où une binomiale B(n, θ) peut toujours être considérée comme la somme de n variables de Bernoulli indépendantes), et au cours de laquelle l’observation aurait été x0 = r. Le fait que les lois a priori et a posteriori se retrouvent dans la même famille de lois n’est pas un hasard. On dit alors que cette famille de lois est conjuguée au modèle. Nous verrons d’autres exemples de ce phénomène. 5.7 5.7.1 Calcul de l’estimateur bayesien. Perte quadratique ou de type L1 . Nous nous plaçons maintenant dans le cas suivant : Θ ⊂ R, q(θ) = θ. Nous allons démontrer les théorèmes suivants : Théorème 6 avec les notations précédentes, si la fonction de perte est : l(t, θ) = (t − θ)2 5.7. CALCUL DE L’ESTIMATEUR BAYESIEN. 61 si le modèle et la loi a priori sont choisis de sorte que : Z θ2 p(θ|x)dm(θ) < +∞, ∀x ∈ X , µ − p.s. Θ alors l’estimateur bayesien du problème est donné par Z ∗ θp(θ|x)dm(θ) T (x) = Θ Théorème 7 avec les notations précédentes, si la fonction de perte est : l(t, θ) = |t − θ| si le modèle et la loi a priori sont choisis de sorte que : ∀ x dans X , µ − p.s., il existe τ (x) vérifiant Z Z p(θ|x)dm(θ) = p(θ|x)dm(θ) = 1/2. θ≤τ (x) θ≥τ (x) (τ (x) est unique médiane de la loi a posteriori.) alors l’estimateur bayesien du problème est donné par T ∗ (x) = τ (x) Les deux théorèmes sont une conséquence des lemmes suivants. Lemme 2 Avec les notations précédentes, pour que T ∗ soit un estimateur bayesien associé à la fonction de perte l, il suffit que, pour tout x dans X , µ − p.s., T ∗ (x) minimise la fonction : Z r ∈ R 7→ l(r, θ)p(θ|x)dm(θ) Θ Démonstration du lemme 2 : Définissons la marginale en X, de densité par rapport à la mesure µ(x), Z π(x, θ)dm(θ). p(x) = Θ Il suffit de remarquer qu’on cherche à minimiser (en T (x)) la quantité suivante, que l’on transforme en utilisant le théorème de Fubini : Z Z Z [R(T, θ)]dν(θ) = [ l(T (x), θ)p(x|θ)dµ(x)]n(θ)dm(θ) Θ Θ Z ZX = l(T (x), θ)π(x, θ)dµ(x)dm(θ) ZΘ ZX = l(T (x), θ)p(θ|x)p(x)dµ(x)dm(θ) Θ X Z Z = { l(T (x), θ)p(θ|x)dm(θ)}p(x)dµ(x) X Θ 62 CHAPITRE 5. MÉTHODES D’ESTIMATIONS PARCIMONIEUSES On voit alors que si on minimise la quantité entre parenthèses pour tout x dans X , µ − p.s., on minimisera à coup sûr l’intégrale. Lemme 3 Si Z est une variable aléatoire réelle, telle que EZ 2 < ∞, alors la fonction : r ∈ R 7→ E(Z − r)2 admet un unique minimum en r = EZ. Démonstration du lemme 3 : On remarque simplement que : E(Z − r)2 = E(Z − EZ)2 + (r − EZ)2 Lemme 4 Si Z est une variable aléatoire réelle, telle qu’il existe τ , P (Z ≤ τ ) = P (Z ≥ τ ) = 1/2 alors la fonction : r ∈ R 7→ φ(r) = E|Z − r| admet un unique minimum pour r = τ . Démonstration du lemme 4 1. Remarquons d’abord que φ est une fonction convexe : Pour tout λ ∈ [0, 1], φ(λr1 + (1 − λ)r2 ) = E|λ(Z − r1 ) + (1 − λ)(Z − r2 )| ≤ λφ(r1 ) + (1 − λ)φ(r2 ) 2. Par ailleurs φ(r) ≥ |r − E|Z|| donc φ tend vers l’infini quand |r| tend vers l’infini. 3. Nous pouvons donc en conclure que φ admet en tout point une dérivée à gauche et une dérivée à droite et un minimum en un point r0 vérifiant : φ0 ((r0 )− ) ≤ 0, φ0 ((r0 )+ ) ≥ 0 4. On a : Z Z φ(r) = − (x − r)dP (x) + (x − r)dP (x) x≥r Z = EZ − r − 2 (x − r)dP (x) x≤r x≤r 5. ROn a en utilisant R ∞Fubini : R∞ R F (x)dx = I{x ≤ r}[ −∞ I{z ≤ x}dP (z)]dx = R2 I{z ≤ x ≤ x≤r −∞ R r}dxdP (z) = R I{z ≤ r}(z − r)dP (z) 6. On déduit de 4. et 5. que : Z φ(r) = EZ − r + 2 F (x)dx x≤r 5.7. CALCUL DE L’ESTIMATEUR BAYESIEN. 63 7. Pour h > 0, on peut donc écrire : 1 φ(r + h) − φ(r) = −1 + 2 h h r+h Z h→0 F (x)dx −→ −1 + 2F (r+ ) r 8. le lemme s’obtient en faisant un calcul identique pour h < 0 et en utilisant 3. Exemples 1. Reprenons l’exemple du modéle binomial, doté d’une loi a priori de type Beta(r, s). On a vu que la loi a posteriori, étant donné une observation x ∈ {0, . . . , n} était une loi Beta(r+x, s+n−x). On peut donc appliquer, par exemple le théorème 6. On obtient alors que l’estimateur bayesien est r+x T ∗ (x) = . n+r+s Nous retrouvons la famille d’estimateurs considérée dans le premier paragraphe de ce chapitre. On retrouve aussi les rôles respectifs joués par les paramètres de la loi a priori. 2. Supposons que l’on observe un n-échantillon de variables aléatoires gaussiennes N (θ, 1). On se propose d’estimer q(θ) = θ. t et v 2 étant des paramètres arbitrairement fixés, choisissons comme loi a priori sur θ une loi normale N (t, v 2 ). On peut alors prendre pour µ la mesure de Lebesgue sur Rn , et pour m, la mesure de Lebesgue sur R. On a alors, pour x = (x1 , . . . , xn ) n −1 X 1 (xi − θ)2 p(x1 , . . . , xn |θ) = n exp 2 i=1 (2π) 2 π(x1 , . . . , xn , θ) = 1 v(2π) exp n+1 2 n −1 X (θ − t)2 [ (xi − θ)2 + ] 2 i=1 v2 n −1 X (θ − t)2 p(θ|x1 , . . . , xn ) = C(x1 , . . . , xn ) exp [ (xi − θ)2 + ] 2 i=1 v2 Pn xi + −1 1 0 = C (x1 , . . . , xn ) exp [(n + 2 )(θ − i=1 1 2 v n + v2 t v2 2 )] On déduit de cette dernière écriture que la loi a posteriori est une normale Pn N( xi + n + v12 i=1 t v2 , 1 ) n + v12 On peut alors facilement appliquer les théorèmes 6 et 7. On obtient pour les deux fonctions de perte le même estimateur : ∗ T (x1 , . . . , xn ) = Pn xi + n + v12 i=1 t v2 . 64 CHAPITRE 5. MÉTHODES D’ESTIMATIONS PARCIMONIEUSES On voit bien tant sur la loi a posteriori que sur l’estimateur la façon dont on peut interpréter les différents paramètres de la loi a priori : Elle s’interprête à nouveau comme une observation préalable ayant portée sur un n0 ≈ v12 -échantillon (n joue le même rôle que v12 ), et donnant des Pn i=1 xi observations sont la moyenne est t (t joue le même rôle que n . 3. (Exercice) Reprendre le modèle du n-échantillon gaussien. Supposons maintenant qu’il s’agit de gaussienne N (θ, σ 2 ) où σ 2 aussi est inconnu. Quelle famille de loi a priori doit-on choisir, pour que la loi a posteriori reste dans cette famille ? 5.7.2 Problème de classification. Étudions maintenant le problème suivant très important en pratique : On observe le vecteur aléatoire de Rk , Y . On sait que la loi du vecteur Y se trouve nécessairement parmi les lois N (β1 , Γ), . . . , N (βl , Γ). β1 , . . . , βl sont des vecteurs connus (et différents) de Rk , Γ est une matrice de covariance de dimension k × k, connue et définie positive. Notre problème est donc simplement de choisir entre les βi . Nous nous placer en contexte bayesien et mettre une loi a priori sur notre ensemble de paramètres : νi = ν{β = βi }. Nous allons considérer avec un intérêt particulier le cas où νi = 1l . Il correspond au fait de ne vouloir privilégier aucune des hypothèses. Nous prenons pour perte la fonction : l(β, βi ) = 1β6=βi . Pour trouver l’estimateur β ∗ (Y ) ∈ {β1 , . . . , βl }, nous allons donc minimiser le risque bayesien du problème : l X ∗ Eβi l(β (Y ), βi )νi = i=1 = l X Eβi 1β ∗ (Y )6=βi νi i=1 l Z X Z = 1β ∗ (Y )6=βi p(y, βi )dyνi Rk i=1 [ l X 1β ∗ (Y )6=βi p(y, βi )νi ]dy Rk i=1 Il est clair, sur cette dernière expression que si on emploie la stratégie suivante : β ∗ = βi∗ 5.7. CALCUL DE L’ESTIMATEUR BAYESIEN. 65 avec i∗ = Argsupi p(y, βi )νi , on minimisera certainement le risque bayesien. 1 Il est en particulier intéressant de considérer le cas νi = . Un calcul simple l montre que dans ce cas, on a i∗ = Arginfi (y − βi )∗ Γ−1 (y − βi ) Ce qui correspond à choisir le vecteur des moyennes qui est le plus près de l’observation y au sens de la forme quadratique associée à l’inverse de la covariance. Exercice : Etudier le cas où l = 2 et comparer le résultat trouvé au théorème de Neymann- Pearson.