Chapitre 4. Méthodes d`estimation et leur comparaison

Transcription

Chapitre 4. Méthodes d’estimation et leur comparaison
Dans ce chapitre, l’observation est une série de n variables i.i.d. X = (X1 , . . . , Xn ). On
notera (X n , B(X n )) l’espace des valeurs des observations X (espace d’échantillonnage). On
écrira le modèle statistique paramétrique comme P = {Pθ⊗n : θ ∈ Θ} où Pθ est une loi sur
X.
Notons Pθ0 la vraie loi (inconnue) commune des Xi . Dans un problème d’estimation, on
s’intéresse à identifier g(θ0 ), une transformation du paramètre θ0 , avec g mesurable Θ → Rd .
Très souvent d = 1. On notera S = g(Θ).
Puisque θ0 est inconnue par définition, la discussion mathématique n’est raisonnable que
si elle est valide quelque soit θ ∈ Θ. C’est pourquoi nous dirons des phrases du type : “si X
a la loi Pθ , ou encore sous Pθ , alors, etc. ”.
Définition. Un estimateur de g(θ) est une v.a. de la forme T (X1 , . . . , Xn ) où T est une
fonction mesurable de X n dans Rd .
Une valeur particulière T (x1 , . . . , xn ) d’un estimateur sur un échantillon numérique
x1 , . . . , xn s’appelle une estimation de g(θ).
1. Méthode des moments
Supposons que les obseravtions sont scalaires : les {Pθ } sont des lois sur R ou Z.
Pour chaque θ, soit le vecteur des s premiers moments
ψ(θ) = [Eθ (X1 ), . . . , Eθ (X1s )] .
Étant données les observations X = (X1 , . . . , Xn ), on définit les s premiers moments empiriques
n
1X s
Xj , 1 ≤ k ≤ s.
α
bk :=
n
i=1
b solution des
Définition 1.1. — On appelle estimateur des moments de θ, tout estimateur θ,
équations des moments
Eθ [X1k ] = α
bk , k = 1, . . . , s.
Ces équations s’écrivent aussi : ψ(θ) = α
b avec le vecteur α
b = (b
αk )1≤k≤s . Par la loi des
b est
grands nombres et sous les conditions d’existence des moments, pour n grand, α
b = ψ(θ)
proche de ψ(θ0 ) où Pθ0 dénote la vraie loi des obseravtions. Ainsi, sous de bonnes propriétés
d’inversion de ψ, θb sera proche de θ0 .
Exemple.
Lois exponentielles. Lois de Poisson.
2. Méthode du maximum de vraisemblance
Considérons un modèle statistique dominé P = {Pθ } dont on note {f (·, θ)} la famille des
fonctions de densité.
Etant donnée l’observation X, la “probabilité” de son apparition suivant Pθ peut être
mesurée par f (X, θ). Puisque θ est inconnue, il semble alors naturel de favoriser les valeurs de θ
pour lesquelles f (X, θ) est élevée : c’est la notion de la vraisemblance de θ pour l’observation X.
Cette idée date de Gauss (vers 1821) dans ses études de lois qui portent son nom. Cependant,
la fondation d’une entière méthodologie développant cette idée revient au statisticien anglais
R.A. Fisher (vers 1922).
1
Définition 2.1. — On appelle fonction de vraisemblance (likelihood en angalis) la fonction
θ 7→ f (X, θ) ,
et estimateur du maximum de vraisemblance (E.M.V.) du paramètre θ tout point maximal
de cette fonction :
(1)
θbmv = arg max f (X, θ) .
θ∈Θ
Remarquons qu’en cas de n observations X = (X1 , . . . , Xn ), notant {f (·, θ)} les densités
de X1 , la fonction de vraisemblance devient
θ 7→ L(X, θ) =
n
Y
f (Xi , θ) .
i=1
Si on souhaite estimer g(θ) par la méthode du M.V., on peut appliquer la méthode de
substitution (plug-in en anglais) : gb(θ) := g(θbmv ).
Exemple numérique. Cas de deux lois binaires.
Exemple.
Lois de Poisson.
3. Fonction de perte et risque
La comparaison des estimateurs s’effectue à l’aide des fonctions de risque.
Définition 3.1. — Une fonction de perte L est une fonction mesurable : Θ × S → [0, ∞[
vérifiant L(θ, g(θ)) = 0.
La fonction de risque d’un estimateur T est :
Z
Z
(2)
θ 7→ R(θ, T ) = Eθ [L(θ, T )] = · · · L(θ, T (x1 , . . . , xn ))dPθ (x1 ) · · · dPθ (xn ) .
Exemple. perte quadratique L(θ, s) = ks − g(θ)k2 . Le risque qudratique d’un estimateur T
est donc R(θ, T ) = Eθ kT − g(θ)k2 .
Définition 3.2. — On dit qu’un estimateur T est préférable à un autre estimateur G, noté
T < R, si R(·, T ) ≤ R(·, G) ; il est meilleur, noté T R, si de plus, R(θ, T ) < R(θ, G) pour
au moins un θ.
La relation < est reflexive et transitive : c’est un pré-ordre. C’est un ordre partiel.
Définition 3.3. — Un estimateur T est inadmissible si il existe un aucun estimateur G qui
lui est meilleur. Il est admissible dans le cas contraire.
Cette notion d’admissibilité permet de s’intéresser uniquement à la classe des estimateurs
admissibles : on ne peut améliorer de tels estimateurs.
La seule notion d’admissibilité ne suffit pas.
Pour un φ ∈ Θ fixe, considérons
l’estimateur constant T ≡ g(φ). Cet estimateur ignore les observations X1 , . . . , Xn , semble
ainsi absurde. Mais il est admissible dans un modèle homogène. En effet, supposons que la
fonction de perte verifie L(θ, s) = 0 ⇔ s = g(θ). Si T est inadmissible : il existe alors un
estimateur G T . Nécessairement, R(φ, G) ≤ R(φ, T ) = 0. Donc G = g(φ), Pφn -p.p. Puisque
le modèle est homogène, on a aussi G = g(φ), Pθn -p.p. pour tout θ. Autrement dit G = T
Pθn -p.p. pour tout θ.
D’autre critères sur les estimateurs doivent être considérés.
2
Master de Mathématiques
G11 : Statistique mathématique
4. Biais
Définition 4.1. — Un estimateur T de g(θ) est dit sans biais si Eθ [T ] = g(θ) pour tout
θ ∈ Θ.
Plus généralement, on appelle le biais d’un estimateur T la quantité Eθ [T ] − g(θ).
Un estimateur constant T ≡ g(φ) est ainsi très mauvais eu égard à son biais constant.
Un estimateur T (X1 , . . . , Xn ) peut être biaisé, mais intéressant : il suffit pour cela que son
biais tend vers 0 quand le nombre d’observations n tend vers l’infini.
Définition 4.2. — Un estimateur T (X1 , . . . , Xn ) de g(θ) est dit asymptotiquement sans
biais si pour tout θ ∈ Θ, limn {Eθ [T ] − g(θ)} = 0 quand n → ∞.
De façon générale, le mot asymptotique signifie n = ∞.
P
Exemple 4.3. — Si gθ = Varθ (X) < ∞, la variance empirique Sn = n1 i (Xi − X n )2 vérifie
Eθ [Sn ] = (1− n1 )g(θ). Il est biaisé et asymptotiquement sans biais. On en déduit un estimateur
P
sans biais et voisin : Sn0 = nSn /(n − 1) = (n − 1)−1 i (Xi − X n )2 .
Un estimateur sans biais peut être inadmissible. — Considérons le modèle des lois
de Poisson {Pθ } où θ > 0, et Pθ la loi de Poisson de paramètre θ restreinte à N∗
θk
, k ∈ N∗ .
k!
Soit g(θ) :=P
e−θ et on dispose d’une observation X (n = 1). Un estimateur G(X) sans biais de
g(θ) vérifie k≥1 θk G(k)/k! = 1 − e−θ pour tout θ. Necessairement, G(k) = (−1)k+1 , k ≥ 1
et c’est le seul estimateur sans biais. Pour une observation X paire, l’estimation vaut -1, ce
qui est absurde, puisque g(θ) > 0. En effet, pour toute fonction de perte L(θ, s) croissante en
l’écart |s − g(θ)|, l’estimateur T (X) = 1I{X impair} , i.e. en remplaçant -1 par 0, sera meilleur :
G est inadmissible. De plus, T est également inadmissible : on peut l’améliorer en remplaçant
la valeur 1 par une fonction décroissante en k.
f (k, θ) = (1 − e−θ )e−θ
Curiosité. — Dans le modèle gaussien {Pθ } avec Pθ la loi gaussienne N(µ, σ 2 ) et n = 1,
il n’existe aucun estimateur sans biais de la variance g(θ) = σ 2 . En effet, supposons qu’un
tel estimateur T (X) existe : Eθ [T (X)] = σ 2 pour tout θ. Rappelons que x 7→ T (x) est une
fonction réelle borélienne. Soit Y et Z deux variables gaussienne standard et indépendantes
définie sur un espace de probabilité (Ω, A , P). D’après ce qui précède, on a E[T (Y + Z)] = 2,
puisque Y + Z ∼ N(0, 2). Par ailleurs, étant donnée Y = y, la loi de Y + Z est N(y, 1), et
donc E[T (Y + Z)|Y = y] = 1. Il en résulte que E[T (Y + Z)] = 1. Une contradiction.
3
, Université de Rennes 1, http ://perso.univ-rennes1.fr/jian-feng.yao/pedago
4

Chapitre 4. Méthodes d`estimation et leur comparaison

Transcription

Documents pareils

EMV de la loi uniforme

TD1 : méthode des moments et maximum de vraisemblance

Probabilités et statistique II

Sandra Plancade Laboratoire MAP5 Université Paris Descartes 45

Chap 9: Estimateurs au maximum de vraisemblance

TD n 7 Estimation par le quotient Corrigé

Durées de vie - Approche non paramétriques Exercice 1. estimateur

Estimation d`une courbe moyenne de consommation

Exercice 1

1 Description 2 Références

Abstract

Question 1 : tnhtnh

T. d. n 6 information de fisher et maximum de

Notes de cours Statistique avec le logiciel R

Tre Bicchieri Gambero Rosso Tre Bicchieri Gambero Rosso DRO IT d

Chapitre 3 Estimation non-paramétrique d`une fonction de

Apprentissage non paramétrique en régression

Chagny

Cours 5 : ESTIMATION PONCTUELLE

Avis sur les méthodes d`estimation pour petites régions dans le

MAP-STA1

Détection, Estimation, Information. - GIPSA-Lab