Estimation de paramètres non-linéaires par des méthodes non
Transcription
Estimation de paramètres non-linéaires par des méthodes non
Estimation de paramètres non-linéaires par des méthodes non-paramétriques en population finie : ”model-calibration” et ”model-assisted” Camelia Goga(1) et Anne Ruiz-Gazen(2) (1) IMB, Université de Bourgogne-Dijon, [email protected] (2) TSE, Université des Sciences Sociales-Toulouse, [email protected] Neuchâtel -2009 L’estimation d’un paramètre non-linéaire I I une population finie U = {1, . . . , k, . . . , N} un échantillon s ∈ S et s ⊂ U selon un plan p(s); πk et πkl . L’estimation d’un paramètre non-linéaire I I une population finie U = {1, . . . , k, . . . , N} un échantillon s ∈ S et s ⊂ U selon un plan p(s); πk et πkl . Objectif : estimer un paramètre non-linéaire avec information auxiliaire à l’aide d’un modèle non-paramètrique. ty Exemples : le cas d’un ratio R = tx I sans information auxiliaire : P yk /πk R = Ps s xk /πk I avec information auxiliaire : Särndal et al. (1992) avec des estimateurs de type GREG, R̂GREG = I t̂y ,GREG t̂x,GREG Deville (1999) plus général, avec des poids de calage ; D’autres paramètres non-linéaires avec information auxiliaire P 1. Pour l’estimation d’une moyenne, y = N1 U yk , Wu and Sitter (JASA, 2001) proposent ”model-calibration” en introduisant une équation de calage supplémentaire ; 2. Pour l’estimation des quantiles, Harms and Duchesne (Survey Methodology, 2006) réalisent un calage sur les quantiles en généralisant les travaux de Ren (2000, PhD) ; 3. Pour l’estimation du seuil de pauvreté, Berger and Skinner (Appl. Statist., 2003) utilisent la méthode proposée par Deville (1999) Nous voulons proposer une approche qui généralise celle proposée par Deville en utilisant des méthodes non-paramètriques. Paramètres non-linéaires plus généraux I fonctions de la fonction de répartition ou des quantiles : l’indice de Gini X G= yk (2F (yk ) − 1) /ty U Paramètres non-linéaires plus généraux I fonctions de la fonction de répartition ou des quantiles : l’indice de Gini X G= yk (2F (yk ) − 1) /ty U I les éléments propres d’une ACP fonctionnelle (Cardot et al. JSPI, 2009) : Γvj (t) = λj vj (t), I t ∈ [0, 1] les quantiles multidimensionnels (Chaouch & Goga, CSDA en révision, 2009), X Yk − θ +u =0 ||Yk − θ|| U Approche proposée I On écrit le paramètre d’intérêt comme une fonction de totaux, Φ = Φ(tx , ty , . . .) I On estime chaque total en utilisant l’information auxiliaire, modèle non-paramètrique (NP), par des estimateurs de type calage ou model-assisted, Φ̂np = Φ(t̂x , t̂y , . . .) avec X X t̂x = wks xk , t̂y = wks yk , . . . s wks s les poids calculés par calage NP ou model-assisted NP I On linéarise Φ̂np (en deux étapes) en utilisant la méthode de la fonction d’influence (Deville, 1999) et on obtient la variance asymptotique. Φ̂np − Φ ' X s wks uk − X U uk ' X Ek s πk + X predictionk U avec uk la variable linéarisée, Ek le résidu estimé de uk au niveau de la population et prediction k par le modèle. Difficulté : la non-linéarité du paramètre (première approximation) et celle de l’estimateur (deuxième approximation). Linéarisation par la fonction d’influence • Paramètre non-linéaire Φ P • On considère la mesure M = k∈U δxk sur Rp et φ = T (M) pour une fonctionnelle homogène T de degré α (Ex : un total est de degré 1 et un ratio de degré 0). Linéarisation par la fonction d’influence • Paramètre non-linéaire Φ P • On considère la mesure M = k∈U δxk sur Rp et φ = T (M) pour une fonctionnelle homogène T de degré α (Ex : un total est de degré 1 et un ratio de degré 0). P • On estime M par M̂ = k∈s wk δxk , wk = π1k (ou poids de calage) φ̂ = T (M̂) l’estimateur par substitution de φ Linéarisation par la fonction d’influence • Paramètre non-linéaire Φ P • On considère la mesure M = k∈U δxk sur Rp et φ = T (M) pour une fonctionnelle homogène T de degré α (Ex : un total est de degré 1 et un ratio de degré 0). P • On estime M par M̂ = k∈s wk δxk , wk = π1k (ou poids de calage) φ̂ = T (M̂) l’estimateur par substitution de φ b Objectif : donner un développement asymptotique de T (M/N) autour de M/N Linéarisation par la fonction d’influence • Paramètre non-linéaire Φ P • On considère la mesure M = k∈U δxk sur Rp et φ = T (M) pour une fonctionnelle homogène T de degré α (Ex : un total est de degré 1 et un ratio de degré 0). P • On estime M par M̂ = k∈s wk δxk , wk = π1k (ou poids de calage) φ̂ = T (M̂) l’estimateur par substitution de φ b Objectif : donner un développement asymptotique de T (M/N) autour de M/N Résultat asymptotique Définition La fonction d’influence de T (M) est définie comme la dérivée au sens de Gateaux de T par rapport à M dans la direction de la masse de Dirac en x, T (M + εδx ) − T (M) IT (M, x) = lim ε−→0 ε lorsque cette limite existe. Définition La variable linéarisée uk pour k ∈ U est uk = IT (M, xk ), k ∈ U. Résultats asymptotiques Résultat Sous des conditions générales, √ nN −α (φ̂ − φ) = √ nN −α X uk (wk − 1) + o(1). U P Var(φ̂) ' Var Pour wk = 1/πk , s uk πk La variance est estimée par c φ̂) = Var( avec ûk = IT (M̂, xk ). X X ∆kl ûk ûl πkl πk πl s s = XX U U ∆kl uk ul πk πl Exemples 1. Le ratio R = P U yk / P U xk , uk = (yk − Rxk )/tx , ûk = (yk − R̂xk )/t̂xπ 2. L’estimateur par le ratio t̂yrat = tx R̂ est un estimateur non-linéaire pour un paramètre linéaire, le total ty . R t̂yrat = tx R̂ = tx R ûk = a t̂xπ yd M̂ xd M̂ , =⇒ ty = a · R (yk − R̂xk ) = non-linéaire tx (yk − R̂xk ) t̂xπ 2 X X ∆ ŷ − R̂x ŷ − R̂x kl k k l l c t̂yrat ) = tx Var( 2 π π π t̂xπ kl k l s s Plus général, comment construire les poids wk qui tiennent compte de l’information auxiliaire à l’aide d’un modèle non-paramètrique ? On estime le total ty en utilisant un modèle non-paramètrique et 1. la classe d’estimateurs ”model-assisted” 2. la classe d’estimateurs ”model-calibration” Le total : estimation avec information auxiliaire et régression non-paramètrique Objectif : utiliser l’information auxiliaire Z pour estimer X ty = yk U Le total : estimation avec information auxiliaire et régression non-paramètrique Objectif : utiliser l’information auxiliaire Z pour estimer X ty = yk U Approche ”model-assisted” : modèle de superpopulation ξ : yk , k ∈ U sont des variables iid, ξ: Eξ (yk ) = f (zk ) Vξ (yk ) = v (zk ) Le total : estimation avec information auxiliaire et régression non-paramètrique Objectif : utiliser l’information auxiliaire Z pour estimer X ty = yk U Approche ”model-assisted” : modèle de superpopulation ξ : yk , k ∈ U sont des variables iid, ξ: Eξ (yk ) = f (zk ) Vξ (yk ) = v (zk ) L’estimateur par la différence généralisée (Cassel et al., 1976) t̂y ,diff = X yk − f (zk ) X + f (zk ) πk k∈s Si f = Z 0 β alors estimateur GREG. k∈U Estimation d’un total par une régression non-paramètrique (NP) et de type ”model-assisted” 1. ”Population level” : Construire fˆy en utilisant (yk )k∈U et une régression non-paramétrique : I I méthodes à noyau : les polynômes locaux (Breidt & Opsomer, 2000), splines en utilisant les bases des polynômes tronqués et une pénalisation (Breidt & Opsomer, 2005) ou B-splines (Goga, 2005). Estimation d’un total par une régression non-paramètrique (NP) et de type ”model-assisted” 1. ”Population level” : Construire fˆy en utilisant (yk )k∈U et une régression non-paramétrique : I I méthodes à noyau : les polynômes locaux (Breidt & Opsomer, 2000), splines en utilisant les bases des polynômes tronqués et une pénalisation (Breidt & Opsomer, 2005) ou B-splines (Goga, 2005). 2. ”Sample level” : Construire des estimateurs f˜y basés sur le plan s pour fˆy et estimer le total ty par X X yk − f˜y (zk ) X ma + f˜y (zk ) = wks yk πk k∈U k∈s k∈s ! X yk − fˆy (zk ) Var (t̂y ,ma ) ' Var πk s t̂y ,ma = ma ne Important : pour les trois méthodes NP les poids wks dépendent pas de Y et contient Z Calage non-paramètrique Objectif : utiliser l’information auxiliaire Z pour estimer X ty = yk U modèle de superpopulation ξ : yk , k ∈ U sont des variables iid, ξ: Eξ (yk ) = f (zk ) Vξ (yk ) = v (zk ) v connue Calage non-paramètrique Objectif : utiliser l’information auxiliaire Z pour estimer X ty = yk U modèle de superpopulation ξ : yk , k ∈ U sont des variables iid, ξ: Eξ (yk ) = f (zk ) Vξ (yk ) = v (zk ) v connue Approche ”model-calibration” (Wu and Sitter, 2001) pour f non-linéaire mais connue ; Non-paramètrique model-calibration (Montanari and Ranalli, 2005) pour f inconnue : calage sur les estimations ”sample-level” de f ( P s cal f˜ (z ) = wks y k cal wks = P ˜ U fy (zk ) argmin équation de calage P (wk −1/πk )2 s qk /πk Résultats asymptotiques L’estimateur ”model-calibration” est ( ) X yk X X f˜y (zk ) X cal wks yk , t̂y ,cal = + f˜y (zk ) − B̂N = π π k k s s s U P qk f˜y (zk )yk /πk B̃N = Ps 2 ˜ s qk fy (zk ) /πk La variance approximative est donnée par ! X yk − fˆy (zk )B̂N Var (t̂y ,cal ) ' Var avec πk s cal ne dépendent pas de y . Les poids wks P B̂N = PU U qk fˆy (zk )yk qk fˆy (zk )2 Un résultat d’optimalité pour l’estimateur non-paramètrique ”model-calibration” Wu (2003) montre que pour une fonction de régression connue f du modèle ξ ξ : Eξ (yk |zk ) = f (zk ) l’estimateur calé sur les fonctions f (zk ), k ∈ U est optimal de point de vue de la variance anticipée. Cette variance optimale est asymptotiquement égale à la borne de Godambe and Joshi (1965), X 1 Eξ (Var (t̂y ,cal )) ' − 1 v (zk ). πk U On peut montrer que l’estimateur obtenu en estimant f (zk ) est asymptotiquement optimal. Paramètre non-linéaire : estimateur ”model-assisted” ou ”model-calibration” et régression non-paramètrique • Objectif : estimer Φ = Φ(tx , ty ) en prenant en compte Z. • Méthode : I écrire Φ = T (M) I estimer M en utilisant des poids wks obtenus en faisant une ma pour ”model-assisted” ou régression non-paramétrique (wks cal pour ”model-calibration”) : wks b np = M X wks δ(xk ,yk ) s I et construire l’estimateur non-paramétrique par substitution b np = T (M b np ). Φ Résultat asymptotique Sous des conditions générales, b np − Φ N −α Φ = N −α (t̂u,diff − tu ) + op (n−1/2 ), avec ma t̂u, = diff X uk − fˆu (zk ) X + fˆu (zk ) πk k∈s cal t̂u, = diff k∈U X uk − fˆu (zk )B̂N X + fˆu (zk )B̂N πk k∈s k∈U où fˆu est l’estimateur (inconnu) non-paramétrique de f obtenu en régressant le vecteur de variables linéarisées (u1 , . . . , uN ) sur Z. Important : l’usage des modèles NP est encore plus justifié car la relation entre uk et zk est inconnue et peut être plus compliquée que la relation entre yk et zk . Estimation d’un total par une régression non-paramètrique par des B-splines (Goga, The Canadian Journal of Statistics, 2005) Le modèle ξ pour k = 1, . . . , N : ξ: Eξ (yk ) = f (zk ) Vξ (yk ) = v (zk ) Objectif : ”trouver” la vraie relation f qui gouverne le nuage de points (zk , yk ). Estimation d’un total par une régression non-paramètrique par des B-splines (Goga, The Canadian Journal of Statistics, 2005) Le modèle ξ pour k = 1, . . . , N : ξ: Eξ (yk ) = f (zk ) Vξ (yk ) = v (zk ) Objectif : ”trouver” la vraie relation f qui gouverne le nuage de points (zk , yk ). Méthode : approcher f par fˆ appartenant à un sous-espace de dimension beaucoup plus petite que N : I si l’espace des fonctions affines de Z, régression simple ou multiple Estimation d’un total par une régression non-paramètrique par des B-splines (Goga, The Canadian Journal of Statistics, 2005) Le modèle ξ pour k = 1, . . . , N : ξ: Eξ (yk ) = f (zk ) Vξ (yk ) = v (zk ) Objectif : ”trouver” la vraie relation f qui gouverne le nuage de points (zk , yk ). Méthode : approcher f par fˆ appartenant à un sous-espace de dimension beaucoup plus petite que N : I si l’espace des fonctions affines de Z, régression simple ou multiple I plus générale : l’espace des fonctions polynômes par morceaux : fonctions splines Critère : moindres carrés Base de B-splines I L’ensemble SK ,m de fonctions splines de degré m (m ≥ 2) avec K noeuds intérieurs équidistants 0 = ξ0 < ξ1 < . . . < ξK < ξK +1 = 1 SK ,m = {s ∈ C m−2 [0, 1] : s(x) est un polynôme de degré m−1 sur (ξj , ξj+1 )}. Base de B-splines I L’ensemble SK ,m de fonctions splines de degré m (m ≥ 2) avec K noeuds intérieurs équidistants 0 = ξ0 < ξ1 < . . . < ξK < ξK +1 = 1 SK ,m = {s ∈ C m−2 [0, 1] : s(x) est un polynôme de degré m−1 I sur (ξj , ξj+1 )}. SK ,m est de dimension q = K + m (Schumaker 1981, Dieckx 1993) et une base est donnée par les fonctions B-splines B1 , . . . , Bq et q X j=1 Bj = 1 Base de B-splines I L’ensemble SK ,m de fonctions splines de degré m (m ≥ 2) avec K noeuds intérieurs équidistants 0 = ξ0 < ξ1 < . . . < ξK < ξK +1 = 1 SK ,m = {s ∈ C m−2 [0, 1] : s(x) est un polynôme de degré m−1 I sur (ξj , ξj+1 )}. SK ,m est de dimension q = K + m (Schumaker 1981, Dieckx 1993) et une base est donnée par les fonctions B-splines B1 , . . . , Bq et q X Bj = 1 j=1 I I pour m = 2, SK ,2 : les fonctions continues et linéaires par morceaux ; pour m = 2 et K = 0, S0,2 : les droites → la régression simple. Fonctions B-splines de degré 3 et 3 noeuds équidistants 0.2 0.4 0.6 0.8 1.0 0.8 0.0 0.2 0.4 0.6 0.8 1.0 0.0 0.4 0.6 0.8 Fonction B4 Fonction B5 Fonction B6 0.4 0.6 x 0.8 1.0 0.8 0.0 0.2 0.4 B6 0.6 0.8 0.0 0.2 0.4 B5 0.6 0.8 0.6 B4 0.4 0.2 0.2 1.0 1.0 x 1.0 x 0.0 0.0 0.2 x 1.0 0.0 0.0 0.2 0.4 B3 0.6 0.8 0.6 B2 0.4 0.2 0.0 0.0 0.2 0.4 B1 0.6 0.8 1.0 Fonction B3 1.0 Fonction B2 1.0 Fonction B1 0.0 0.2 0.4 0.6 x 0.8 1.0 0.0 0.2 0.4 0.6 x 0.8 1.0 Estimation de la fonction de régression f On note BU = (Bj (zk ))k∈U,j=1,...q et b0 (zk ) les vecteurs lignes ; fˆy (zk ) = PSK ,m yU = q X θ̂j Bj (zk ) = b0 (zk )θ̂ y j=1 PSK ,m est le projecteur sur SK ,m qui est fixe une fois la base choisie Estimation de la fonction de régression f On note BU = (Bj (zk ))k∈U,j=1,...q et b0 (zk ) les vecteurs lignes ; fˆy (zk ) = PSK ,m yU = q X θ̂j Bj (zk ) = b0 (zk )θ̂ y j=1 PSK ,m est le projecteur sur SK ,m qui est fixe une fois la base choisie θ̂ y = θ̂ y = (B0 U BU )−1 B0 U yU = Arg minθ∈Rq PN k=1 X i∈U yk − 2 Pq j=1 θj Bj (zk ) !−1 b(zi )b0 (zi ) P i∈U b(zi )yi Estimation de la fonction de régression f On note BU = (Bj (zk ))k∈U,j=1,...q et b0 (zk ) les vecteurs lignes ; fˆy (zk ) = PSK ,m yU = q X θ̂j Bj (zk ) = b0 (zk )θ̂ y j=1 PSK ,m est le projecteur sur SK ,m qui est fixe une fois la base choisie θ̂ y = θ̂ y = (B0 U BU )−1 B0 U yU = Arg minθ∈Rq PN k=1 X yk − 2 Pq j=1 θj Bj (zk ) !−1 b(zi )b0 (zi ) P i∈U i∈U −1 0 −1 f˜y (zk ) = b0 (zk )θ̃y = b0 (zk )(B0 s Π−1 s Bs ) B s Π s y s Πs = diag(πk )k∈s et B0 s = (b0 (zk ))k∈s . b(zi )yi Les poids non-paramètriques wks Le total ty = t̂y ,BS P U yk est estimé par : X yk − f˜y (zk ) X = + f˜y (zk ) = πk k∈U k∈s | {z } =0 X = wks yk s ! X U b0 (zk ) θ̃ y Les poids non-paramètriques wks Le total ty = t̂y ,BS P U yk est estimé par : X yk − f˜y (zk ) X = + f˜y (zk ) = πk k∈U k∈s | {z } =0 X = wks yk ! X b0 (zk ) θ̃ y U s Propriétés I un GREG sur b0 = (B1 , . . . , Bq ) et q → ∞, P P calage : s wks Bj (zk ) = U Bj (zk ) pour j = 1, . . . , K P U wks = N I asymptotiquement sans biais et convergent. I I Estimation par des B-splines et ”model-assited” d’un paramètre non-linéaire I Le paramètre non-linéaire Φ = T (M); I L’estimateur non-paramètrique Φ̂np = T (M̂np ) qui utilise les poids ! P −1 0 1 X 0 i∈s b(zi )b (zi ) wks = b (zi ) b(zk ) πk πi U I Var (Φ̂np ) ' Var I I X uk − fˆu (zk ) avec πk s uk la variable linéarisée de Φ fˆu (zk ) = PSK ,m uU = b0 (zk )(B0 U BU )−1 B0 U uU Étude sur des données simulées : le cas d’un ratio P PU yk U xk I R= I La variable linéarisée associée à R est uk = I L’estimateur sans information auxiliaire de R est R̂HT = I L’estimateur GREG de R est P P k∈s (yk − zk β̃y )/πk + U zk β̃y R̂GREG = P P k∈s (xk − zk β̃x )/πk + U zk β̃x I L’estimateur par des B-splines de R est P P 0 P 0 wks yk k∈s (yk − b (zk )θ̃ y )/πk + U b (zk )θ̃ y s R̂BS = P = P P 0 0 s wks xk k∈s (xk − b (zk )θ̃ x )/πk + U b (zk )θ̃ x 1 (yk − Rxk ). tx yk s πk xk s πk P P ∼ N(0, 0.1) I yk = f (zk ) + k , I xk = g (zk ) + k , ∼ N(0, 0.1) z ∈ [0, 1], distribution uniforme. I 3 fonctions différentes flin (x) = 1 + 2(x − 0.5), fexp (x) = 0.6 + exp(−8x), fsaut (x) = 1.5 + [0.35 + 2(x − 0.5)2 ]I{x≤0.65} I Une population U, N = 1000. I Sondage aléatoire simple sans remise de taille n = 100, πk = n/N. I Splines avec 5 noeuds intérieurs positionnés aux quantiles de Z dans la population et m = 3. Dépendence de la variable linéarisée u de R en fonction de la variable auxiliaire z Fig.: Gauche : R = ylin xexp et droite : R = ylin xsaut Comparaison de trois estimateurs de R Le ratio R = ty tx estimé par RHT , RGREG et RBS Modèles HT GREG BS f : lin, g : exp 100 77 32 f : lin, g : saut 100 85 39 Ratio EQM estimateur sur EQM HT EQM(θ̂) = 1 b Pb r =1 (θ̂r − θ)2 pour b = 10000 simulations. Étude sur des données réelles : le cas de l’indice de Gini On considère une base de sondage constituée de 22741 salariés pour lesquels on dispose des salaires en 1999 et en 2000 (extrait enquêtes emploi INSEE). On s’intéresse à l’estimation de l’indice de Gini en 2000, Y est le salaire en 2000, X G= yk (2F (yk ) − 1) /ty U et on suppose que la variable auxiliaire Z est le salaire en 1999. La linéarisée uk de G est donnée par uk = 2F (yk ) yk − ȳk,< G +1 1−G − yk + tY tY N Étude sur des données réelles : le cas de l’indice de Gini Fig.: Diagrammes de dispersion (salaire 2000 à gauche (linéarisée de Gini à droite) en fonction de salaire 1999. Étude sur des données réelles : le cas de l’indice de Gini Lorsque l’on modélise la variable salaire en 2000 en fonction du salaire en 1999, le gain en terme de rapport des écarts-type des résidus entre régression linéaire et B-splines (mêmes paramétrage que précédemment) est de 7% (Exemple de l’estimation du total ou de la moyenne). Lorsque l’on modélise la variable linéarisée pour le coefficient de Gini du salaire en 2000 en fonction du salaire en 1999, le gain en terme de rapport des écarts-type des résidus entre régression linéaire et B-splines (mêmes paramétrage que précédemment) est de 50%. Conclusion et perspectives Une approche ”simple” qui permet d’utiliser l’information auxiliaire pour estimer un paramètre non-linéaire : 1. exprimer de façon implicite à l’aide des équations estimantes ; 2. extension à une variable Z multidimensionnelle en utilisant les modèles additifs ou single index (Wang, 2008) I Extension : utilisation des informations auxiliaires différentes par la techniques de linéarisation avec des fonctions d’influence partielles (Goga, Deville and Ruiz-Gazen, Biometrika 2009), P wks,z1 yk R̂ = Ps w s ks,z2 xk I Estimation de la variance.