Chapitre 4. Méthodes d`estimation et leur comparaison
Transcription
Chapitre 4. Méthodes d`estimation et leur comparaison
Chapitre 4. Méthodes d’estimation et leur comparaison Dans ce chapitre, l’observation est une série de n variables i.i.d. X = (X1 , . . . , Xn ). On notera (X n , B(X n )) l’espace des valeurs des observations X (espace d’échantillonnage). On écrira le modèle statistique paramétrique comme P = {Pθ⊗n : θ ∈ Θ} où Pθ est une loi sur X. Notons Pθ0 la vraie loi (inconnue) commune des Xi . Dans un problème d’estimation, on s’intéresse à identifier g(θ0 ), une transformation du paramètre θ0 , avec g mesurable Θ → Rd . Très souvent d = 1. On notera S = g(Θ). Puisque θ0 est inconnue par définition, la discussion mathématique n’est raisonnable que si elle est valide quelque soit θ ∈ Θ. C’est pourquoi nous dirons des phrases du type : “si X a la loi Pθ , ou encore sous Pθ , alors, etc. ”. Définition. Un estimateur de g(θ) est une v.a. de la forme T (X1 , . . . , Xn ) où T est une fonction mesurable de X n dans Rd . Une valeur particulière T (x1 , . . . , xn ) d’un estimateur sur un échantillon numérique x1 , . . . , xn s’appelle une estimation de g(θ). 1. Méthode des moments Supposons que les obseravtions sont scalaires : les {Pθ } sont des lois sur R ou Z. Pour chaque θ, soit le vecteur des s premiers moments ψ(θ) = [Eθ (X1 ), . . . , Eθ (X1s )] . Étant données les observations X = (X1 , . . . , Xn ), on définit les s premiers moments empiriques n 1X s Xj , 1 ≤ k ≤ s. α bk := n i=1 b solution des Définition 1.1. — On appelle estimateur des moments de θ, tout estimateur θ, équations des moments Eθ [X1k ] = α bk , k = 1, . . . , s. Ces équations s’écrivent aussi : ψ(θ) = α b avec le vecteur α b = (b αk )1≤k≤s . Par la loi des b est grands nombres et sous les conditions d’existence des moments, pour n grand, α b = ψ(θ) proche de ψ(θ0 ) où Pθ0 dénote la vraie loi des obseravtions. Ainsi, sous de bonnes propriétés d’inversion de ψ, θb sera proche de θ0 . Exemple. Lois exponentielles. Lois de Poisson. 2. Méthode du maximum de vraisemblance Considérons un modèle statistique dominé P = {Pθ } dont on note {f (·, θ)} la famille des fonctions de densité. Etant donnée l’observation X, la “probabilité” de son apparition suivant Pθ peut être mesurée par f (X, θ). Puisque θ est inconnue, il semble alors naturel de favoriser les valeurs de θ pour lesquelles f (X, θ) est élevée : c’est la notion de la vraisemblance de θ pour l’observation X. Cette idée date de Gauss (vers 1821) dans ses études de lois qui portent son nom. Cependant, la fondation d’une entière méthodologie développant cette idée revient au statisticien anglais R.A. Fisher (vers 1922). 1 Définition 2.1. — On appelle fonction de vraisemblance (likelihood en angalis) la fonction θ 7→ f (X, θ) , et estimateur du maximum de vraisemblance (E.M.V.) du paramètre θ tout point maximal de cette fonction : (1) θbmv = arg max f (X, θ) . θ∈Θ Remarquons qu’en cas de n observations X = (X1 , . . . , Xn ), notant {f (·, θ)} les densités de X1 , la fonction de vraisemblance devient θ 7→ L(X, θ) = n Y f (Xi , θ) . i=1 Si on souhaite estimer g(θ) par la méthode du M.V., on peut appliquer la méthode de substitution (plug-in en anglais) : gb(θ) := g(θbmv ). Exemple numérique. Cas de deux lois binaires. Exemple. Lois de Poisson. 3. Fonction de perte et risque La comparaison des estimateurs s’effectue à l’aide des fonctions de risque. Définition 3.1. — Une fonction de perte L est une fonction mesurable : Θ × S → [0, ∞[ vérifiant L(θ, g(θ)) = 0. La fonction de risque d’un estimateur T est : Z Z (2) θ 7→ R(θ, T ) = Eθ [L(θ, T )] = · · · L(θ, T (x1 , . . . , xn ))dPθ (x1 ) · · · dPθ (xn ) . Exemple. perte quadratique L(θ, s) = ks − g(θ)k2 . Le risque qudratique d’un estimateur T est donc R(θ, T ) = Eθ kT − g(θ)k2 . Définition 3.2. — On dit qu’un estimateur T est préférable à un autre estimateur G, noté T < R, si R(·, T ) ≤ R(·, G) ; il est meilleur, noté T R, si de plus, R(θ, T ) < R(θ, G) pour au moins un θ. La relation < est reflexive et transitive : c’est un pré-ordre. C’est un ordre partiel. Définition 3.3. — Un estimateur T est inadmissible si il existe un aucun estimateur G qui lui est meilleur. Il est admissible dans le cas contraire. Cette notion d’admissibilité permet de s’intéresser uniquement à la classe des estimateurs admissibles : on ne peut améliorer de tels estimateurs. La seule notion d’admissibilité ne suffit pas. Pour un φ ∈ Θ fixe, considérons l’estimateur constant T ≡ g(φ). Cet estimateur ignore les observations X1 , . . . , Xn , semble ainsi absurde. Mais il est admissible dans un modèle homogène. En effet, supposons que la fonction de perte verifie L(θ, s) = 0 ⇔ s = g(θ). Si T est inadmissible : il existe alors un estimateur G T . Nécessairement, R(φ, G) ≤ R(φ, T ) = 0. Donc G = g(φ), Pφn -p.p. Puisque le modèle est homogène, on a aussi G = g(φ), Pθn -p.p. pour tout θ. Autrement dit G = T Pθn -p.p. pour tout θ. D’autre critères sur les estimateurs doivent être considérés. 2 Master de Mathématiques G11 : Statistique mathématique 4. Biais Définition 4.1. — Un estimateur T de g(θ) est dit sans biais si Eθ [T ] = g(θ) pour tout θ ∈ Θ. Plus généralement, on appelle le biais d’un estimateur T la quantité Eθ [T ] − g(θ). Un estimateur constant T ≡ g(φ) est ainsi très mauvais eu égard à son biais constant. Un estimateur T (X1 , . . . , Xn ) peut être biaisé, mais intéressant : il suffit pour cela que son biais tend vers 0 quand le nombre d’observations n tend vers l’infini. Définition 4.2. — Un estimateur T (X1 , . . . , Xn ) de g(θ) est dit asymptotiquement sans biais si pour tout θ ∈ Θ, limn {Eθ [T ] − g(θ)} = 0 quand n → ∞. De façon générale, le mot asymptotique signifie n = ∞. P Exemple 4.3. — Si gθ = Varθ (X) < ∞, la variance empirique Sn = n1 i (Xi − X n )2 vérifie Eθ [Sn ] = (1− n1 )g(θ). Il est biaisé et asymptotiquement sans biais. On en déduit un estimateur P sans biais et voisin : Sn0 = nSn /(n − 1) = (n − 1)−1 i (Xi − X n )2 . Un estimateur sans biais peut être inadmissible. — Considérons le modèle des lois de Poisson {Pθ } où θ > 0, et Pθ la loi de Poisson de paramètre θ restreinte à N∗ θk , k ∈ N∗ . k! Soit g(θ) :=P e−θ et on dispose d’une observation X (n = 1). Un estimateur G(X) sans biais de g(θ) vérifie k≥1 θk G(k)/k! = 1 − e−θ pour tout θ. Necessairement, G(k) = (−1)k+1 , k ≥ 1 et c’est le seul estimateur sans biais. Pour une observation X paire, l’estimation vaut -1, ce qui est absurde, puisque g(θ) > 0. En effet, pour toute fonction de perte L(θ, s) croissante en l’écart |s − g(θ)|, l’estimateur T (X) = 1I{X impair} , i.e. en remplaçant -1 par 0, sera meilleur : G est inadmissible. De plus, T est également inadmissible : on peut l’améliorer en remplaçant la valeur 1 par une fonction décroissante en k. f (k, θ) = (1 − e−θ )e−θ Curiosité. — Dans le modèle gaussien {Pθ } avec Pθ la loi gaussienne N(µ, σ 2 ) et n = 1, il n’existe aucun estimateur sans biais de la variance g(θ) = σ 2 . En effet, supposons qu’un tel estimateur T (X) existe : Eθ [T (X)] = σ 2 pour tout θ. Rappelons que x 7→ T (x) est une fonction réelle borélienne. Soit Y et Z deux variables gaussienne standard et indépendantes définie sur un espace de probabilité (Ω, A , P). D’après ce qui précède, on a E[T (Y + Z)] = 2, puisque Y + Z ∼ N(0, 2). Par ailleurs, étant donnée Y = y, la loi de Y + Z est N(y, 1), et donc E[T (Y + Z)|Y = y] = 1. Il en résulte que E[T (Y + Z)] = 1. Une contradiction. 3 , Université de Rennes 1, http ://perso.univ-rennes1.fr/jian-feng.yao/pedago 4