Chapitre 4. Méthodes d`estimation et leur comparaison

Transcription

Chapitre 4. Méthodes d`estimation et leur comparaison
Chapitre 4. Méthodes d’estimation et leur comparaison
Dans ce chapitre, l’observation est une série de n variables i.i.d. X = (X1 , . . . , Xn ). On
notera (X n , B(X n )) l’espace des valeurs des observations X (espace d’échantillonnage). On
écrira le modèle statistique paramétrique comme P = {Pθ⊗n : θ ∈ Θ} où Pθ est une loi sur
X.
Notons Pθ0 la vraie loi (inconnue) commune des Xi . Dans un problème d’estimation, on
s’intéresse à identifier g(θ0 ), une transformation du paramètre θ0 , avec g mesurable Θ → Rd .
Très souvent d = 1. On notera S = g(Θ).
Puisque θ0 est inconnue par définition, la discussion mathématique n’est raisonnable que
si elle est valide quelque soit θ ∈ Θ. C’est pourquoi nous dirons des phrases du type : “si X
a la loi Pθ , ou encore sous Pθ , alors, etc. ”.
Définition. Un estimateur de g(θ) est une v.a. de la forme T (X1 , . . . , Xn ) où T est une
fonction mesurable de X n dans Rd .
Une valeur particulière T (x1 , . . . , xn ) d’un estimateur sur un échantillon numérique
x1 , . . . , xn s’appelle une estimation de g(θ).
1. Méthode des moments
Supposons que les obseravtions sont scalaires : les {Pθ } sont des lois sur R ou Z.
Pour chaque θ, soit le vecteur des s premiers moments
ψ(θ) = [Eθ (X1 ), . . . , Eθ (X1s )] .
Étant données les observations X = (X1 , . . . , Xn ), on définit les s premiers moments empiriques
n
1X s
Xj , 1 ≤ k ≤ s.
α
bk :=
n
i=1
b solution des
Définition 1.1. — On appelle estimateur des moments de θ, tout estimateur θ,
équations des moments
Eθ [X1k ] = α
bk , k = 1, . . . , s.
Ces équations s’écrivent aussi : ψ(θ) = α
b avec le vecteur α
b = (b
αk )1≤k≤s . Par la loi des
b est
grands nombres et sous les conditions d’existence des moments, pour n grand, α
b = ψ(θ)
proche de ψ(θ0 ) où Pθ0 dénote la vraie loi des obseravtions. Ainsi, sous de bonnes propriétés
d’inversion de ψ, θb sera proche de θ0 .
Exemple.
Lois exponentielles. Lois de Poisson.
2. Méthode du maximum de vraisemblance
Considérons un modèle statistique dominé P = {Pθ } dont on note {f (·, θ)} la famille des
fonctions de densité.
Etant donnée l’observation X, la “probabilité” de son apparition suivant Pθ peut être
mesurée par f (X, θ). Puisque θ est inconnue, il semble alors naturel de favoriser les valeurs de θ
pour lesquelles f (X, θ) est élevée : c’est la notion de la vraisemblance de θ pour l’observation X.
Cette idée date de Gauss (vers 1821) dans ses études de lois qui portent son nom. Cependant,
la fondation d’une entière méthodologie développant cette idée revient au statisticien anglais
R.A. Fisher (vers 1922).
1
Définition 2.1. — On appelle fonction de vraisemblance (likelihood en angalis) la fonction
θ 7→ f (X, θ) ,
et estimateur du maximum de vraisemblance (E.M.V.) du paramètre θ tout point maximal
de cette fonction :
(1)
θbmv = arg max f (X, θ) .
θ∈Θ
Remarquons qu’en cas de n observations X = (X1 , . . . , Xn ), notant {f (·, θ)} les densités
de X1 , la fonction de vraisemblance devient
θ 7→ L(X, θ) =
n
Y
f (Xi , θ) .
i=1
Si on souhaite estimer g(θ) par la méthode du M.V., on peut appliquer la méthode de
substitution (plug-in en anglais) : gb(θ) := g(θbmv ).
Exemple numérique. Cas de deux lois binaires.
Exemple.
Lois de Poisson.
3. Fonction de perte et risque
La comparaison des estimateurs s’effectue à l’aide des fonctions de risque.
Définition 3.1. — Une fonction de perte L est une fonction mesurable : Θ × S → [0, ∞[
vérifiant L(θ, g(θ)) = 0.
La fonction de risque d’un estimateur T est :
Z
Z
(2)
θ 7→ R(θ, T ) = Eθ [L(θ, T )] = · · · L(θ, T (x1 , . . . , xn ))dPθ (x1 ) · · · dPθ (xn ) .
Exemple. perte quadratique L(θ, s) = ks − g(θ)k2 . Le risque qudratique d’un estimateur T
est donc R(θ, T ) = Eθ kT − g(θ)k2 .
Définition 3.2. — On dit qu’un estimateur T est préférable à un autre estimateur G, noté
T < R, si R(·, T ) ≤ R(·, G) ; il est meilleur, noté T R, si de plus, R(θ, T ) < R(θ, G) pour
au moins un θ.
La relation < est reflexive et transitive : c’est un pré-ordre. C’est un ordre partiel.
Définition 3.3. — Un estimateur T est inadmissible si il existe un aucun estimateur G qui
lui est meilleur. Il est admissible dans le cas contraire.
Cette notion d’admissibilité permet de s’intéresser uniquement à la classe des estimateurs
admissibles : on ne peut améliorer de tels estimateurs.
La seule notion d’admissibilité ne suffit pas.
Pour un φ ∈ Θ fixe, considérons
l’estimateur constant T ≡ g(φ). Cet estimateur ignore les observations X1 , . . . , Xn , semble
ainsi absurde. Mais il est admissible dans un modèle homogène. En effet, supposons que la
fonction de perte verifie L(θ, s) = 0 ⇔ s = g(θ). Si T est inadmissible : il existe alors un
estimateur G T . Nécessairement, R(φ, G) ≤ R(φ, T ) = 0. Donc G = g(φ), Pφn -p.p. Puisque
le modèle est homogène, on a aussi G = g(φ), Pθn -p.p. pour tout θ. Autrement dit G = T
Pθn -p.p. pour tout θ.
D’autre critères sur les estimateurs doivent être considérés.
2
Master de Mathématiques
G11 : Statistique mathématique
4. Biais
Définition 4.1. — Un estimateur T de g(θ) est dit sans biais si Eθ [T ] = g(θ) pour tout
θ ∈ Θ.
Plus généralement, on appelle le biais d’un estimateur T la quantité Eθ [T ] − g(θ).
Un estimateur constant T ≡ g(φ) est ainsi très mauvais eu égard à son biais constant.
Un estimateur T (X1 , . . . , Xn ) peut être biaisé, mais intéressant : il suffit pour cela que son
biais tend vers 0 quand le nombre d’observations n tend vers l’infini.
Définition 4.2. — Un estimateur T (X1 , . . . , Xn ) de g(θ) est dit asymptotiquement sans
biais si pour tout θ ∈ Θ, limn {Eθ [T ] − g(θ)} = 0 quand n → ∞.
De façon générale, le mot asymptotique signifie n = ∞.
P
Exemple 4.3. — Si gθ = Varθ (X) < ∞, la variance empirique Sn = n1 i (Xi − X n )2 vérifie
Eθ [Sn ] = (1− n1 )g(θ). Il est biaisé et asymptotiquement sans biais. On en déduit un estimateur
P
sans biais et voisin : Sn0 = nSn /(n − 1) = (n − 1)−1 i (Xi − X n )2 .
Un estimateur sans biais peut être inadmissible. — Considérons le modèle des lois
de Poisson {Pθ } où θ > 0, et Pθ la loi de Poisson de paramètre θ restreinte à N∗
θk
, k ∈ N∗ .
k!
Soit g(θ) :=P
e−θ et on dispose d’une observation X (n = 1). Un estimateur G(X) sans biais de
g(θ) vérifie k≥1 θk G(k)/k! = 1 − e−θ pour tout θ. Necessairement, G(k) = (−1)k+1 , k ≥ 1
et c’est le seul estimateur sans biais. Pour une observation X paire, l’estimation vaut -1, ce
qui est absurde, puisque g(θ) > 0. En effet, pour toute fonction de perte L(θ, s) croissante en
l’écart |s − g(θ)|, l’estimateur T (X) = 1I{X impair} , i.e. en remplaçant -1 par 0, sera meilleur :
G est inadmissible. De plus, T est également inadmissible : on peut l’améliorer en remplaçant
la valeur 1 par une fonction décroissante en k.
f (k, θ) = (1 − e−θ )e−θ
Curiosité. — Dans le modèle gaussien {Pθ } avec Pθ la loi gaussienne N(µ, σ 2 ) et n = 1,
il n’existe aucun estimateur sans biais de la variance g(θ) = σ 2 . En effet, supposons qu’un
tel estimateur T (X) existe : Eθ [T (X)] = σ 2 pour tout θ. Rappelons que x 7→ T (x) est une
fonction réelle borélienne. Soit Y et Z deux variables gaussienne standard et indépendantes
définie sur un espace de probabilité (Ω, A , P). D’après ce qui précède, on a E[T (Y + Z)] = 2,
puisque Y + Z ∼ N(0, 2). Par ailleurs, étant donnée Y = y, la loi de Y + Z est N(y, 1), et
donc E[T (Y + Z)|Y = y] = 1. Il en résulte que E[T (Y + Z)] = 1. Une contradiction.
3
, Université de Rennes 1, http ://perso.univ-rennes1.fr/jian-feng.yao/pedago
4

Documents pareils