4 Lois a priori

Transcription

4 Lois a priori
M1 ISD
Statistique Bayésienne
Cours 3
4
Lois a priori
Le choix des lois a priori est une étape fondamentale dans l’analyse bayésienne. Ce choix
peut avoir différentes motivations. Les stratégies sont diverses. Elle peuvent se baser sur des
expériences du passé ou sur un intuition, une idée que le particien a du phénomène aléatoire
qu’il est en train de suivre. Elles peuvent être également motivées par des aspects calculabilité .
Enfin, ces stratégies peuvent également tenir compte du fait qu’on ne sait rien par le truchement
des lois non informatives.
4.1
Lois conjuguées
Une des difficultés de l’approche bayésienne est le calcul de la loi a posteriori. Ce calcul est
facilité lorsque loi a priori et loi a posteriori ont la même forme. Dans ce cas, on parle de loi a
priori conjuguée.
Définition 9 – Une famille F de lois sur Θ est dite conjuguée si, pour tout π appartenant à
cette famille, la loi π(θ/x) appartient également à celle-ci.
Dans ce cas, le praticien induit directement la forme de son estimateur dès qu’il a choisi sa loi a
priori.
Exemples de lois conjuguées
f (x/θ)
π(θ)
π(θ/x)
E(θ/x)
N (θ, σ 2 )
N (µ, τ 2 )
N x/σ 2 + µ/τ 2 , [1/σ 2 + 1/τ 2 ]−1
G(n, θ)
G(α, β)
G(α + n, β + x)
(α + n)/(β + x)
B(n, θ)
Bêta(α, β)
Bêta(α + n, β + x)
(α + n)/(α + n + β + x)
P(θ)
G(α, β)
G(α + x, β + 1)
(α + x)/(β + 1)
M(θ1 , θ2 , ..., θn )
D(α1 , α2 , ..., αn )
D(α1 + x1 , α2 + x2 , ..., αn + xn )
x/σ 2 + µ/τ 2
Une loi conjuguée peut être déterminée en considérant la forme de la vraisemblance f (x|θ)
et en prenant une loi a priori de la même forme que cette dernière vue comme une fonction du
paramètre. Les lois a priori conjuguées obtenues par ce procédé sont dites naturelles.
Exemples :
11
M1 ISD
Statistique Bayésienne
• Considérons une loi Pareto de paramètres (α, a).
f (x|θ, a) =
θaθ
1
(x).
xθ+1 [a,+∞[
Supposons a connu, f (x|θ) ∝ θeθ log(a/x) , on pourrait donc prendre une loi a priori de type
gamma.
• Dans le cas d’une loi binomiale négative de paramètre (n, p),
x
P (X = x | p ) = Cn+x−1
px (1 − p )n , 0 < p < 1, x ∈ N.
On voit clairement qu’une loi naturelle conjuguée sera une loi bêta puisque : P (X = x |
p ) ∝ px (1 − p )n .
Etudions maintenant en détail le cas d’une famille de lois très importante : la famille des lois
exponentielles.
4.2
Cas du modèle exponentiel
On rappelle tout d’abord la définition du modèle exponentielle.
Définition 10 On appelle famille exponentielle à s-paramètres, toute famille de loi de distribution {Pθ } dont la densité a la forme suivante :
" s
#
X
f (x|θ) = exp
ηi (θ)Ti (x) − B(θ) h(x)
(2)
i=1
où ηi (.) et B(.) sont des fonctions du paramètre θ et Ti (.) sont des statistiques.
Exemples :
• Loi exponentielle :
1 −x/θ
e
1[0,+∞[ (x)
θ 1
= exp − x − log θ 1[0,+∞[ (x).
θ
f (x | θ) =
Ici, s vaut 1, η1 (θ) = 1/θ, T1 (x) = x, B(θ) = log θ et h(x) = 1[0,+∞[ (x).
• Loi binomiale :
P (X = x | θ) = Cnx θx (1 − θ)n−x
= Cnx exp{x log θ + (n − x) log(1 − θ)}
= Cnx exp{x log[θ/(1 − θ)] + n log(1 − θ)}
On a s = 1, η1 (θ) = log(θ/(1 − θ)), T1 (x) = x, B(θ) = n log(1 − θ) et h(x) = Cnx .
12
M1 ISD
Statistique Bayésienne
• Loi Gamma f (x|α, β) = (β α /Γ(α))xα−1 e−βx .
En remarquant que : xα−1 e−βx = exp{−βx + (α − 1) log x} et s = 2, on peut écrire :
η1 (α, β) = −β , η2 (α, β) = α − 1, T1 (x) = x, T2 (x) = log x,B(α, β) = log(Γ(α)/β α .
Il est classique d’écrire le modèle exponentiel sous la forme dite canonique en reparamétrisant :
ηi (θ) ≡ θi .
f (x | θ) = exp
"
s
X
i=1
#
θi Ti (x) − A(θ) h(x).
On a le résultat suivant qui donne la forme des lois naturelles conjuguées dans le cas du modèle
exponentiel.
Proposition 4 – Soit f (x | θ) appartenant à une famille exponentielle. Alors une famille de loi
a priori conjuguée pour f (x | θ) est donnée par :
π(θ | µ, λ) = K(µ, λ) exp(θµ − λA(θ))
où K(µ, λ) est une constante de normalisation.
Et la loi a posteriori est de la forme :
π(θ | x) ∝ exp((µ + x)θ − (λ + 1)A(θ)).
Exemple : Considérons le modèle :
P (X = x) =
e(θ−β)x
, x ∈ {0, 1}.
1 + eθ−β
Il s’agit d’une loi logistique. Elle appartient bien à la famille exponentielle.
On a :
P (X = x) = exp[(θ − β)x − log(1 + eθ−β )]
et la représentation : h(x) = 1, θ = [θ β]0 , T (x) = [x − x]0
et A(θ, β) = log(1 + eθ−β ).
En appliquant le théorème, on obtient une loi a priori de la forme :
π(θ, β | µ1 , µ2 , λ) ∝ exp{[θ β][µ1 µ2 ]0 − λA(θ, β)] =
eµ1 θ+µ2 β
.
(1 + eθ−β )λ
On remarquera que cette loi est impropre. La loi a posteriori aura la forme suivante :
π(θ, β | x) ∝
e(µ1 +x)θ+(µ2 +x)β
.
(1 + eθ−β )λ+1
13
M1 ISD
Statistique Bayésienne
Proposition 5 – Soit f (x | θ) appartenant à une famille exponentielle. Si θ ∼ exp{θx0 −
λA(θ)}, x0 ∈ X,
Alors
E π (µ(θ)) = E π [∇A(θ)] =
x0
λ
où µ(θ) est la moyenne de f (x|θ).
Si x1 , x2 , · · · , xn iid de loi f (x|θ),
E π (µ(θ)|x1 , · · · , xn ) =
x0 + nx̄
.
λ+n
La preuve de ce théorème s’appuie sur les propriétés de l’emv.
4.3
Lois impropres
La loi a priori peut être impropre i.e.
Z
π(θ)dθ = +∞. Ce choix de type de loi n’a donc
Θ
plus d’intérêt que calculatoire et s’interprète difficilement. Nous verrons par la suite que la
construction de lois non informative peut conduire à des lois a priori de ce type.
Exemple : Considérons la loi 1R+ (x), loi uniforme sur R+ . Supposons f (x|λ) = λ exp{−λx}.
R +∞
La loi a posteriori est : π(λ|x) = λ exp{−λx}/ 0 λe−λx .
Le dénominateur est égal à Γ(2)/x2 d’où π(λ|x) = [x2 /Γ(2)]λ exp{−λx}, une loi gamma de
paramètre (2, x).
4.4
Lois non informatives
Une loi non informative est une loi qui porte une information sur le paramètre à estimer
dont le poids dans l’inférence est réduit. Certains auteurs la définissent également comme une
loi a priori qui ne contient aucune information sur θ ou encore comme une loi qui ne donne pas
davantage de poids à telle ou telle valeur du paramètre.
Par exemple, supposons Θ un ensemble fini de taille q, une loi a priori non informative pourra
être une loi de la forme :
P (θi ) = 1/q.
On a équiprobabilité, les valeurs possibles de θ se voit attribuer le même poids.
La règle de Jeffreys – Une méthode proposée par Jeffreys (1961) permet de fabriquer des
lois a priori non informative. Cette méthode utilise l’information de Fischer : I(θ). L’argument
pourrait être le suivant. I(θ) représente une mesure de la quantité d’information sur θ contenue
dans l’observation. Plus I(θ) est grande, plus l’observation apporte de l’information. Il semble
alors naturel de favoriser (au sens rendre plus probable suivant π(θ)), les valeurs de θ pour
lesquels I(θ) est grande ; ce qui minimise l’influence de la loi a priori au profit de l’observation.
14
M1 ISD
Statistique Bayésienne
Le choix de ce type de loi conduit ainsi souvent à des estimateurs classiques du type maximum
de vraisemblance.
La règle de Jeffreys consiste donc à considérer des lois a priori de la forme :
p
∂2
π(θ) = C I(θ) où I(θ) = E − 2 log f (x | θ) ,
∂θ
dans le cas unidimensionnel.
Rappels sur l’information de Fisher – Soit un n-échantillon (X1 , · · · , Xn ) de loi f (x | θ).
On a le résultat suivant. Sous certaines conditions de régularité, l’estimateur du maximum de
√
vraisemblance θ̂n de θ est tel que, pour n assez grand, n(θ̂ − θ) suit une loi normale centrée,
de variance 1/I(θ).
Autre résultat important : l’inégalité de Cràmer-Rao.
Soit tn , un estimateur de g(θ), alors :
E(tn − g(θ))2 ≥
(g 0 (θ) + b0n (θ))2
,
nI(θ)
où bn (θ) = E(tn ) − g(θ), est le biais.
Si g(θ) = θ et si l’estimateur est sans biais, on a :
V ar(tn ) ≥
1
.
nI(θ)
Ces résultats illustrent l’idée que l’information de Fisher se compare à une variance.
Exemple : Soit f (x | θ) = λ exp{−λx}1[0,+∞[ (x). On calcule l’information de Fischer :
1
1
∂2
∂
log f (x | λ) = − 2
log f (x|λ) = − x,
2
∂λ
λ
∂λ
λ
d’où π(λ) ∝ 1/λ.
Ce type de construction conduit très souvent à des lois impropres, des lois telles que :
On appelle également ces lois des quasi a priori.
Z
π(θ)dθ = +∞.
Θ
Remarquons que l’on peut normaliser ces lois (à condition de se donner de l’information sur θ,
ce qui est, dans ce cadre non informatif, certes paradoxale).
15
M1 ISD
Statistique Bayésienne
Exemple (suite) : π(λ) ∝ 1/λ, si on prend λ ∈ [a, b] ; on cherche C tel que : C
Z b
1/λdλ = log b − log a.
et
Z
b
π(θ)dθ = 1
a
a
Ainsi, on pourra prendre : π(λ) = [log(b/a)]−1 1[a,b] (λ).
Dans le cas multidimensionnel, θ = (θ1 , · · · , θq ), on peut considérer des lois de la forme :
π(θ) = [détI(θ)]1/2
où I(θ) est la matrice d’information de Fischer :
∂2
log f (x | θ) , 1 ≤ i, j ≤ q.
I(θ) |i,j = E −
∂θi ∂θj
Remarquons que dans le cadre de la théorie du maximum de vraisemblance, le déterminant de
cette quantité représente ce qu’on appelle la variance généralisée.
Exemple : Dans le cas de la loi de Gauss de paramètres (θ, σ 2 ),
1
(x − θ)2
2
f (x | θ, σ ) ∝ exp −
σ
2σ 2
On a :
(x − θ)2
1
log f (x | θ, σ 2 ) ∝ − log σ 2 −
2
2σ 2
∂
(x − θ)
log f (x | θ, σ 2 ) =
∂θ
σ2
2
1
∂
log f (x | θ, σ 2 ) = − 2
2
∂θ
σ
∂2
(x − θ)
log f (x | θ, σ 2 ) = −
2
∂θ∂σ
2(σ 2 )2
1
(x − θ)2
∂
2
log
f
(x
|
θ,
σ
)
=
−
+
∂σ 2
2σ 2
2(σ 2 )2
∂2
1
(x − θ)2
2
log
f
(x
|
θ,
σ
)
=
−
∂(σ 2 )2
2(σ 2 )2
(σ 2 )3
La matrice d’information de Fisher s’obtient en calculant, l’espérance mathématique des dérivées
secondes. E(x − θ) = 0 et E[(x − θ)2 ] = σ 2 .
On a donc :

I(θ, σ 2 ) = 
1/σ 2
0
0
1/2σ 2
Un loi informative est donc de la forme : π(θ) ∝ 1/σ 2 .


16