Estimation de paramètres non-linéaires par des méthodes non

Transcription

Estimation de paramètres non-linéaires par des
méthodes non-paramétriques en population finie :
”model-calibration” et ”model-assisted”
Camelia Goga(1) et Anne Ruiz-Gazen(2)
(1) IMB, Université de Bourgogne-Dijon,
[email protected]
(2) TSE, Université des Sciences Sociales-Toulouse,
[email protected]
Neuchâtel -2009
L’estimation d’un paramètre non-linéaire
I
I
une population finie U = {1, . . . , k, . . . , N}
un échantillon s ∈ S et s ⊂ U selon un plan p(s); πk et πkl .
L’estimation d’un paramètre non-linéaire
I
I
une population finie U = {1, . . . , k, . . . , N}
un échantillon s ∈ S et s ⊂ U selon un plan p(s); πk et πkl .
Objectif : estimer un paramètre non-linéaire avec information
auxiliaire à l’aide d’un modèle non-paramètrique.
ty
Exemples : le cas d’un ratio R =
tx
I sans information auxiliaire :
P
yk /πk
R = Ps
s xk /πk
I
avec information auxiliaire : Särndal et al. (1992) avec des
estimateurs de type GREG,
R̂GREG =
I
t̂y ,GREG
t̂x,GREG
Deville (1999) plus général, avec des poids de calage ;
D’autres paramètres non-linéaires avec information
auxiliaire
P
1. Pour l’estimation d’une moyenne, y = N1 U yk , Wu and
Sitter (JASA, 2001) proposent ”model-calibration” en
introduisant une équation de calage supplémentaire ;
2. Pour l’estimation des quantiles, Harms and Duchesne (Survey
Methodology, 2006) réalisent un calage sur les quantiles en
généralisant les travaux de Ren (2000, PhD) ;
3. Pour l’estimation du seuil de pauvreté, Berger and Skinner
(Appl. Statist., 2003) utilisent la méthode proposée par
Deville (1999)
Nous voulons proposer une approche qui généralise celle proposée
par Deville en utilisant des méthodes non-paramètriques.
Paramètres non-linéaires plus généraux
I
fonctions de la fonction de répartition ou des quantiles :
l’indice de Gini
X
G=
yk (2F (yk ) − 1) /ty
U
Paramètres non-linéaires plus généraux
I
fonctions de la fonction de répartition ou des quantiles :
l’indice de Gini
X
G=
yk (2F (yk ) − 1) /ty
U
I
les éléments propres d’une ACP fonctionnelle (Cardot et al.
JSPI, 2009) :
Γvj (t) = λj vj (t),
I
t ∈ [0, 1]
les quantiles multidimensionnels (Chaouch & Goga, CSDA en
révision, 2009),
X Yk − θ
+u =0
||Yk − θ||
U
Approche proposée
I
On écrit le paramètre d’intérêt comme une fonction de totaux,
Φ = Φ(tx , ty , . . .)
I
On estime chaque total en utilisant l’information auxiliaire,
modèle non-paramètrique (NP), par des estimateurs de type
calage ou model-assisted,
Φ̂np = Φ(t̂x , t̂y , . . .) avec
X
X
t̂x =
wks xk , t̂y =
wks yk , . . .
s
wks
s
les poids calculés par calage NP ou model-assisted NP
I
On linéarise Φ̂np (en deux étapes) en utilisant la méthode de
la fonction d’influence (Deville, 1999) et on obtient la
variance asymptotique.
Φ̂np − Φ '
X
s
wks uk −
X
U
uk '
X Ek
s
πk
+
X
predictionk
U
avec uk la variable linéarisée, Ek le résidu estimé de uk au
niveau de la population et prediction k par le modèle.
Difficulté : la non-linéarité du paramètre (première approximation)
et celle de l’estimateur (deuxième approximation).
Linéarisation par la fonction d’influence
• Paramètre non-linéaire Φ
P
• On considère la mesure M = k∈U δxk sur Rp et
φ = T (M)
pour une fonctionnelle homogène T de degré α
(Ex : un total est de degré 1 et un ratio de degré 0).
P
φ = T (M)
P
• On estime M par M̂ = k∈s wk δxk , wk = π1k (ou poids de
calage)
φ̂ = T (M̂)
l’estimateur par substitution de
φ
P
φ = T (M)
P
calage)
φ̂ = T (M̂)
φ
b
Objectif : donner un développement asymptotique de T (M/N)
autour de M/N
P
φ = T (M)
P
calage)
φ̂ = T (M̂)
φ
b
Objectif : donner un développement asymptotique de T (M/N)
autour de M/N
Résultat asymptotique
Définition
La fonction d’influence de T (M) est définie comme la dérivée au
sens de Gateaux de T par rapport à M dans la direction de la
masse de Dirac en x,
T (M + εδx ) − T (M)
IT (M, x) = lim
ε−→0
ε
lorsque cette limite existe.
Définition
La variable linéarisée uk pour k ∈ U est uk = IT (M, xk ),
k ∈ U.
Résultats asymptotiques
Résultat
Sous des conditions générales,
√
nN −α (φ̂ − φ) =
√
nN −α
X
uk (wk − 1) + o(1).
U
P
Var(φ̂) ' Var
Pour wk = 1/πk ,
s
uk
πk
La variance est estimée par
c φ̂) =
Var(
avec ûk = IT (M̂, xk ).
X X ∆kl ûk ûl
πkl πk πl
s
s
=
XX
U
U
∆kl
uk ul
πk πl
Exemples
1. Le ratio R =
P
U
yk /
P
U
xk ,
uk = (yk − Rxk )/tx ,
ûk = (yk − R̂xk )/t̂xπ
2. L’estimateur par le ratio t̂yrat = tx R̂ est un estimateur
non-linéaire pour un paramètre linéaire, le total ty .
R
t̂yrat = tx R̂ = tx R
ûk =
a
t̂xπ
yd M̂
xd M̂
,
=⇒ ty = a · R
(yk − R̂xk ) =
non-linéaire
tx
(yk − R̂xk )
t̂xπ
2 X X ∆ ŷ − R̂x ŷ − R̂x
kl k
k l
l
c t̂yrat ) = tx
Var(
2
π
π
π
t̂xπ
kl
k
l
s
s
Plus général, comment construire les poids wk qui tiennent compte
de l’information auxiliaire à l’aide d’un modèle non-paramètrique ?
On estime le total ty en utilisant un modèle non-paramètrique et
1. la classe d’estimateurs ”model-assisted”
2. la classe d’estimateurs ”model-calibration”
Le total : estimation avec information auxiliaire et
régression non-paramètrique
Objectif : utiliser l’information auxiliaire Z pour estimer
X
ty =
yk
U
X
ty =
yk
U
Approche ”model-assisted” :
modèle de superpopulation ξ : yk , k ∈ U sont des variables iid,
ξ:
Eξ (yk ) = f (zk )
Vξ (yk ) = v (zk )
X
ty =
yk
U
Approche ”model-assisted” :
ξ:
Eξ (yk ) = f (zk )
Vξ (yk ) = v (zk )
L’estimateur par la différence généralisée (Cassel et al., 1976)
t̂y ,diff
=
X yk − f (zk ) X
+
f (zk )
πk
k∈s
Si f = Z 0 β alors estimateur GREG.
k∈U
Estimation d’un total par une régression non-paramètrique
(NP) et de type ”model-assisted”
1. ”Population level” : Construire fˆy en utilisant (yk )k∈U et une
régression non-paramétrique :
I
I
méthodes à noyau : les polynômes locaux (Breidt & Opsomer,
2000),
splines en utilisant les bases des polynômes tronqués et une
pénalisation (Breidt & Opsomer, 2005) ou B-splines (Goga,
2005).
(NP) et de type ”model-assisted”
1. ”Population level” : Construire fˆy en utilisant (yk )k∈U et une
régression non-paramétrique :
I
I
méthodes à noyau : les polynômes locaux (Breidt & Opsomer,
2000),
splines en utilisant les bases des polynômes tronqués et une
pénalisation (Breidt & Opsomer, 2005) ou B-splines (Goga,
2005).
2. ”Sample level” : Construire des estimateurs f˜y basés sur le
plan s pour fˆy et estimer le total ty par
X
X yk − f˜y (zk ) X
ma
+
f˜y (zk ) =
wks
yk
πk
k∈U
k∈s
k∈s
!
X yk − fˆy (zk )
Var (t̂y ,ma ) ' Var
πk
s
t̂y ,ma =
ma ne
Important : pour les trois méthodes NP les poids wks
dépendent pas de Y et contient Z
Calage non-paramètrique
X
ty =
yk
U
ξ:
Eξ (yk ) =
f (zk )
Vξ (yk ) = v (zk ) v connue
Calage non-paramètrique
X
ty =
yk
U
ξ:
Eξ (yk ) =
f (zk )
Vξ (yk ) = v (zk ) v connue
Approche ”model-calibration” (Wu and Sitter, 2001) pour f
non-linéaire mais connue ;
Non-paramètrique model-calibration (Montanari and Ranalli, 2005)
pour f inconnue : calage sur les estimations ”sample-level” de f
( P
s
cal f˜ (z ) =
wks
y k
cal
wks
=
P
˜
U fy (zk )
argmin
équation de calage
P (wk −1/πk )2
s
qk /πk
Résultats asymptotiques
L’estimateur ”model-calibration” est
(
)
X yk
X
X f˜y (zk )
X
cal
wks
yk ,
t̂y ,cal =
+
f˜y (zk ) −
B̂N =
π
π
k
k
s
s
s
U
P
qk f˜y (zk )yk /πk
B̃N = Ps
2
˜
s qk fy (zk ) /πk
La variance approximative est donnée par
!
X yk − fˆy (zk )B̂N
Var (t̂y ,cal ) ' Var
avec
πk
s
cal ne dépendent pas de y .
Les poids wks
P
B̂N = PU
U
qk fˆy (zk )yk
qk fˆy (zk )2
Un résultat d’optimalité pour l’estimateur
non-paramètrique ”model-calibration”
Wu (2003) montre que pour une fonction de régression connue f
du modèle ξ
ξ : Eξ (yk |zk ) = f (zk )
l’estimateur calé sur les fonctions f (zk ), k ∈ U est optimal de
point de vue de la variance anticipée.
Cette variance optimale est asymptotiquement égale à la borne de
Godambe and Joshi (1965),
X 1
Eξ (Var (t̂y ,cal )) '
− 1 v (zk ).
πk
U
On peut montrer que l’estimateur obtenu en estimant f (zk ) est
asymptotiquement optimal.
Paramètre non-linéaire : estimateur ”model-assisted” ou
”model-calibration” et régression non-paramètrique
• Objectif : estimer Φ = Φ(tx , ty ) en prenant en compte Z.
• Méthode :
I
écrire Φ = T (M)
I
estimer M en utilisant des poids wks obtenus en faisant une
ma pour ”model-assisted” ou
régression non-paramétrique (wks
cal pour ”model-calibration”) :
wks
b np =
M
X
wks δ(xk ,yk )
s
I
et construire l’estimateur non-paramétrique par substitution
b np = T (M
b np ).
Φ
Résultat asymptotique
Sous des conditions générales,
b np − Φ
N −α Φ
= N −α (t̂u,diff − tu ) + op (n−1/2 ), avec
ma
t̂u,
=
diff
X uk − fû (zk ) X
+
fû (zk )
πk
k∈s
cal
t̂u,
=
diff
k∈U
X uk − fû (zk )B̂N X
+
fû (zk )B̂N
πk
k∈s
k∈U
où fû est l’estimateur (inconnu) non-paramétrique de f obtenu en
régressant le vecteur de variables linéarisées (u1 , . . . , uN ) sur Z.
Important : l’usage des modèles NP est encore plus justifié car la
relation entre uk et zk est inconnue et peut être plus compliquée
que la relation entre yk et zk .
par des B-splines (Goga, The Canadian Journal of
Statistics, 2005)
Le modèle ξ pour k = 1, . . . , N :
ξ:
Eξ (yk ) = f (zk )
Vξ (yk ) = v (zk )
Objectif : ”trouver” la vraie relation f qui gouverne le nuage de
points (zk , yk ).
Statistics, 2005)
ξ:
Eξ (yk ) = f (zk )
Vξ (yk ) = v (zk )
points (zk , yk ).
Méthode : approcher f par fˆ appartenant à un sous-espace de
dimension beaucoup plus petite que N :
I
si l’espace des fonctions affines de Z, régression simple ou
multiple
Statistics, 2005)
ξ:
Eξ (yk ) = f (zk )
Vξ (yk ) = v (zk )
points (zk , yk ).
Méthode : approcher f par fˆ appartenant à un sous-espace de
dimension beaucoup plus petite que N :
I
si l’espace des fonctions affines de Z, régression simple ou
multiple
I
plus générale : l’espace des fonctions polynômes par
morceaux : fonctions splines
Critère : moindres carrés
Base de B-splines
I
L’ensemble SK ,m de fonctions splines de degré m (m ≥ 2)
avec K noeuds intérieurs équidistants
0 = ξ0 < ξ1 < . . . < ξK < ξK +1 = 1
SK ,m = {s ∈ C m−2 [0, 1] : s(x) est un polynôme de degré
m−1
sur
(ξj , ξj+1 )}.
Base de B-splines
I
0 = ξ0 < ξ1 < . . . < ξK < ξK +1 = 1
m−1
I
sur
(ξj , ξj+1 )}.
SK ,m est de dimension q = K + m (Schumaker 1981, Dieckx
1993) et une base est donnée par les fonctions B-splines
B1 , . . . , Bq
et
q
X
j=1
Bj = 1
Base de B-splines
I
0 = ξ0 < ξ1 < . . . < ξK < ξK +1 = 1
m−1
I
sur
(ξj , ξj+1 )}.
SK ,m est de dimension q = K + m (Schumaker 1981, Dieckx
1993) et une base est donnée par les fonctions B-splines
B1 , . . . , Bq
et
q
X
Bj = 1
j=1
I
I
pour m = 2, SK ,2 : les fonctions continues et linéaires par
morceaux ;
pour m = 2 et K = 0, S0,2 : les droites → la régression simple.
Fonctions B-splines de degré 3 et 3 noeuds équidistants
0.2
0.4
0.6
0.8
1.0
0.8
0.0
0.2
0.4
0.6
0.8
1.0
0.0
0.4
0.6
0.8
Fonction B4
Fonction B5
Fonction B6
0.4
0.6
x
0.8
1.0
0.8
0.0
0.2
0.4
B6
0.6
0.8
0.0
0.2
0.4
B5
0.6
0.8
0.6
B4
0.4
0.2
0.2
1.0
1.0
x
1.0
x
0.0
0.0
0.2
x
1.0
0.0
0.0
0.2
0.4
B3
0.6
0.8
0.6
B2
0.4
0.2
0.0
0.0
0.2
0.4
B1
0.6
0.8
1.0
Fonction B3
1.0
Fonction B2
1.0
Fonction B1
0.0
0.2
0.4
0.6
x
0.8
1.0
0.0
0.2
0.4
0.6
x
0.8
1.0
Estimation de la fonction de régression f
On note BU = (Bj (zk ))k∈U,j=1,...q et b0 (zk ) les vecteurs lignes ;
fˆy (zk ) = PSK ,m yU =
q
X
θ̂j Bj (zk ) = b0 (zk )θ̂ y
j=1
PSK ,m est le projecteur sur SK ,m qui est fixe une fois la base choisie
q
X
j=1




 θ̂ y
=


θ̂

 y
= (B0 U BU )−1 B0 U yU =
Arg minθ∈Rq
PN
k=1
X
i∈U
yk −
2
Pq
j=1 θj Bj (zk )
!−1
b(zi )b0 (zi )
P
i∈U
b(zi )yi
q
X
j=1




 θ̂ y
=


θ̂

 y
= (B0 U BU )−1 B0 U yU =
Arg minθ∈Rq
PN
k=1
X
yk −
2
Pq
j=1 θj Bj (zk )
!−1
b(zi )b0 (zi )
P
i∈U
i∈U
−1 0
−1
f˜y (zk ) = b0 (zk )θ̃y = b0 (zk )(B0 s Π−1
s Bs ) B s Π s y s
Πs = diag(πk )k∈s et B0 s = (b0 (zk ))k∈s .
b(zi )yi
Les poids non-paramètriques wks
Le total ty =
t̂y ,BS
P
U
yk est estimé par :
=
+
f˜y (zk ) =
πk
k∈U
k∈s
|
{z
}
=0
X
=
wks yk
s
!
X
U
b0 (zk ) θ̃ y
Les poids non-paramètriques wks
Le total ty =
t̂y ,BS
P
U
yk est estimé par :
=
+
f˜y (zk ) =
πk
k∈U
k∈s
|
{z
}
=0
X
=
wks yk
!
X
b0 (zk ) θ̃ y
U
s
Propriétés
I
un GREG sur b0 = (B1 , . . . , Bq ) et q → ∞,
P
P
calage : s wks Bj (zk ) = U Bj (zk ) pour j = 1, . . . , K
P
U wks = N
I
asymptotiquement sans biais et convergent.
I
I
Estimation par des B-splines et ”model-assited” d’un
paramètre non-linéaire
I
Le paramètre non-linéaire Φ = T (M);
I
L’estimateur non-paramètrique Φ̂np = T (M̂np ) qui utilise les
poids
! P
−1
0
1 X 0
i∈s b(zi )b (zi )
wks =
b (zi )
b(zk )
πk
πi
U
I
Var (Φ̂np ) ' Var
I
I
X uk − fû (zk )
avec
πk
s
uk la variable linéarisée de Φ
fû (zk ) = PSK ,m uU = b0 (zk )(B0 U BU )−1 B0 U uU
Étude sur des données simulées : le cas d’un ratio
P
PU yk
U xk
I
R=
I
La variable linéarisée associée à R est uk =
I
L’estimateur sans information auxiliaire de R est R̂HT =
I
L’estimateur GREG de R est
P
P
k∈s (yk − zk β̃y )/πk +
U zk β̃y
R̂GREG = P
P
k∈s (xk − zk β̃x )/πk +
U zk β̃x
I
L’estimateur par des B-splines de R est
P
P 0
P
0
wks yk
k∈s (yk − b (zk )θ̃ y )/πk +
U b (zk )θ̃ y
s
R̂BS = P
= P
P
0
0
s wks xk
k∈s (xk − b (zk )θ̃ x )/πk +
U b (zk )θ̃ x
1
(yk − Rxk ).
tx
yk
s πk
xk
s πk
P
P
∼ N(0, 0.1)
I
yk = f (zk ) + k ,
I
xk = g (zk ) + k , ∼ N(0, 0.1)
z ∈ [0, 1], distribution uniforme.
I
3 fonctions différentes
flin (x) = 1 + 2(x − 0.5),
fexp (x) = 0.6 + exp(−8x),
fsaut (x) = 1.5 + [0.35 + 2(x − 0.5)2 ]I{x≤0.65}
I
Une population U, N = 1000.
I
Sondage aléatoire simple sans remise de taille n = 100,
πk = n/N.
I
Splines avec 5 noeuds intérieurs positionnés aux quantiles de
Z dans la population et m = 3.
Dépendence de la variable linéarisée u de R en fonction de
la variable auxiliaire z
Fig.: Gauche : R =
ylin
xexp
et droite : R =
ylin
xsaut
Comparaison de trois estimateurs de R
Le ratio R =
ty
tx
estimé par RHT , RGREG et RBS
Modèles
HT
GREG
BS
f : lin, g : exp
100
77
32
f : lin, g : saut
100
85
39
Ratio EQM estimateur sur EQM HT
EQM(θ̂) =
1
b
Pb
r =1 (θ̂r
− θ)2 pour b = 10000 simulations.
Étude sur des données réelles : le cas de l’indice de Gini
On considère une base de sondage constituée de 22741 salariés
pour lesquels on dispose des salaires en 1999 et en 2000 (extrait
enquêtes emploi INSEE).
On s’intéresse à l’estimation de l’indice de Gini en 2000, Y est le
salaire en 2000,
X
G=
yk (2F (yk ) − 1) /ty
U
et on suppose que la variable auxiliaire Z est le salaire en 1999.
La linéarisée uk de G est donnée par
uk = 2F (yk )
yk − ȳk,<
G +1 1−G
− yk
+
tY
tY
N
Fig.: Diagrammes de dispersion (salaire 2000 à gauche (linéarisée de
Gini à droite) en fonction de salaire 1999.
Lorsque l’on modélise la variable salaire en 2000 en fonction du
salaire en 1999, le gain en terme de rapport des écarts-type des
résidus entre régression linéaire et B-splines (mêmes paramétrage
que précédemment) est de 7% (Exemple de l’estimation du total
ou de la moyenne).
Lorsque l’on modélise la variable linéarisée pour le coefficient de
Gini du salaire en 2000 en fonction du salaire en 1999, le gain en
terme de rapport des écarts-type des résidus entre régression
linéaire et B-splines (mêmes paramétrage que précédemment) est
de 50%.
Conclusion et perspectives
Une approche ”simple” qui permet d’utiliser l’information auxiliaire
pour estimer un paramètre non-linéaire :
1. exprimer de façon implicite à l’aide des équations estimantes ;
2. extension à une variable Z multidimensionnelle en utilisant les
modèles additifs ou single index (Wang, 2008)
I
Extension : utilisation des informations auxiliaires différentes
par la techniques de linéarisation avec des fonctions
d’influence partielles (Goga, Deville and Ruiz-Gazen,
Biometrika 2009),
P
wks,z1 yk
R̂ = Ps
w
s ks,z2 xk
I
Estimation de la variance.

Estimation de paramètres non-linéaires par des méthodes non

Transcription

Documents pareils

Probl`eme EasyDyn: robot `a 5 degrés de liberté

PLR A - Ratp

Correction de l`interrogation de matématiques no 7 Exercice 1 (5

Sandrine CASANOVA

1 Description 2 Références

La droite de Williamson : une technique de

Introduction aux effets audio

Intégrales curvilignes et Formule de Green

Sandra Plancade Laboratoire MAP5 Université Paris Descartes 45

fiche machine / detail machine