Une méthode de rééchantillonnage: le bootstrap. C. Huber

Transcription

Une méthode de rééchantillonnage:
le bootstrap.
C. Huber
September 11, 2006
1
Bootstrap 2
1 LE PRINCIPE
Une Méthode de Rééchantillonnage:
Le Bootstrap.
Le terme de rééchantillonnage, ou, en anglais, ”bootstrap” , qui évoque l’action de
”se hisser en tirant sur ses propres lacets”, désigne un ensemble de méthodes qui consistent à faire de l’ inférence statistique sur de ”nouveaux” échantillons tirés à partir
d’un échantillon initial. Disposant d’un échantillon destiné à donner une certaine information sur une population, on tire au sort, parmi la sous-population réduite à cet
échantillon, un nouvel échantillon de même taille n. Et on répète cette opération B
fois, où B est grand. On analyse ensuite les nouvelles observations ainsi obtenues
pour affiner l’inférence faite sur les observations initiales. A priori, on peut avoir des
doutes sur l’efficacité d’une telle méthode et penser qu’il n’y a aucune amélioration
à espérer en rééchantillonnant à partir du même échantillon. En effet, aucune information supplémentaire ne peut être espérée, toute l’information étant contenue dans
l’échantillon initial. Cependant, comme on va le voir, ce rééchantillonnage, s’il ne rajoute aucune information, permet, dans certains cas, d’extraire de l’échantillon de base
l’information souhaitée.
1
Le principe
Le principe qui sous-tend le bootstrap est très simple et très ancien, et il peut être
illustré par un système d’emboı̂tement (P. Hall, 1992) tel que celui des poupées russes:
il s’agit d’une poupée qui, lorsqu’on l’ouvre, laisse apparaı̂tre une poupée identique
mais plus petite (”homothétique”), qui à son tour contient une poupée plus petite,
etc... . Imaginons que l’on veuille estimer le nombre r des taches de rousseur de la
première de ces poupées, qui est aussi la plus grande, et que l’on ne puisse pas l’observer.
On suppose qu’on dispose seulement de la seconde, contenue dans la première, et qui
contient toutes les autres. Soit ro le nombre des taches de rousseur de la seconde. On
peut, en première approximation, estimer r par ro . On appelle ’Poupée’ la plus grande
poupée, non observée, ’poupée 0’ celle qui est observée, ’poupée 1’ celle qu’on trouve
dans la poupée 0, et ainsi de suite pour toutes les poupées plus petites que la poupée
1, qui sont toutes observables puisque contenues dans la poupée 1.
Comme la Poupée initiale est plus grande que la poupée numéro 0, on s’attend à
ce que r soit plus grand que ro et dans le rapport de leurs tailles. Cependant, on ne
peut pas observer la première poupée et on ne connaı̂t donc pas sa taille. En revanche,
on peut observer le nombre des taches de rousseur r1 de la troisième poupée. Donc, si
le rapport du nombre des taches de rousseur d’une poupée à la suivante est toujours
le même, le rapport ro /r1 , qui, lui, est observable, fournira une estimation du rapport
C.Huber
2
Bootstrap 3
1 LE PRINCIPE
r/ro . Cela donne comme estimateur de r :
r̂ = r0
r0
.
r1
Mais il se peut que le rapport de ces nombres ne soit pas constant, ce que l’on peut
vérifier en comparant ro /r1 à r1 /r2 par exemple, puisque ces deux quantités sont observables. Si ces deux quantités ne sont pas égales, ro /r1 ne constitue qu’une approximation
pour la valeur de r/r0 .
Pour effectuer une correction supplémentaire, si on peut supposer que le rapport des
tailles d’une poupée à la suivante, bien que n’étant plus constant, varie régulièrement,
par exemple les rapports de taille d’une poupée à la suivante sont dans un rapport
constant, c’est à dire que
r/r0
ri−1 /ri
=
,
r0 /r1
ri /ri+1
alors, on peut effectuer une correction supplémentaire en observant r2 sur la poupée
suivante et en prenant pour estimateur de r la valeur précédente multipliée par
(r0 /r1 )/(r1 /r2 ),
ce qui donne :
r0 2 r2
)
r1 r1
On peut à nouveau vérifier si l’hypothèse faite sur la variation des rapports est exacte
en considérant la poupée suivante, et, dans le cas contraire, effectuer une nouvelle
correction.
L’un des emplois les plus fréquents du bootstrap est d’éliminer le biais d’un estimateur de la manière suivante : Soit T un estimateur de θ, paramètre de la loi F
commune aux Xi constituant l’observation X = (X1 , · · · , Xn )). Son biais est
r̂ = r0 (
b(T ) = E(T |F ) − θ
en notant E( | F ) la moyenne (l’espérance) pour la loi F , car cette notation sera
commode dans la suite. On estime ce biais par
b∗ (T ) = E(T ∗ |X) − T
où T ∗ est calculé sur un échantillon bootstrap X ∗ issu de l’échantillon initial X, et
E(T ∗ |X) signifie la moyenne de T ∗ pour la loi empirique déterminée par X, c’est à dire
la loi qui attribue la probabilité 1/n à chacune des valeurs observées xi , i = 1, · · · , n.
L’estimateur T est ensuite ”corrigé de son biais” et donc remplacé par :
T − b∗ (T ) = 2T − E(T ∗ |X)
C.Huber
3
Bootstrap 4
1 LE PRINCIPE
Comme T − b(T ) est sans biais pour θ, T − b∗ (T ) sera presque sans biais. Prenons un
exemple. Supposons que l’on veuille estimer la moyenne µ d’une population pour une
variable aléatoire dont la fonction de répartition est F , inconnue, soit :
Z
µ = xdF (x)
et que l’on dispose pour cela d’un échantillon X = (X1 , , Xn ) de n observations
indépendantes et équidistribuées selon F . Comme on l’a dit, la loi empirique est celle
qui attribue la probabilité 1/n à chacune des n observations. Désignons par F0 sa
fonction de répartition, appelée fonction de répartition empirique:
Pn
1{xi ≤ x}
F0 (x) = i=1
n
On peut, pour estimer µ, utiliser la même quantité (on dit la même ’fonctionnelle’)
que ci-dessus, en remplaçant F , qui est inconnue, par la fonction de répartition empirique F0 qui, elle, est connue. On estime donc µ par
P
Z
Xi
µ̂ = X̄ = xdF0 (x) = i
n
qui est la moyenne observée sur l’échantillon ou moyenne empirique. Dans l’exemple
considéré, on sait que l’estimateur ainsi obtenu est sans biais. Mais supposons maintenant que l’on veuille estimer un autre ’paramètre’, c’est à dire une autre fonctionnelle
de la loi F , par exemple
Z
r
µ = ( xdF (x))r .
On pourra vérifier que l’estimateur correspondant
P
Xi
r
r
µb = (X̄) = ( i )r
n
n’est pas sans biais en général, sauf si r = 1. Comment peut on le corriger pour qu’il
devienne sans biais ? Pour cela, il faudrait calculer le biais pour le lui retrancher, ou,
si ce n’est pas possible, estimer ce biais. Le biais b vaut
Z
Z
r
r
r
b = E(µb ) − µ = E{[ xdF0 (x)] − [ xdF (x)]r | F }
Comme dans le calcul du biais intervient F qui est inconnue, on peut appliquer à
nouveau le principe initial et remplacer dans cette expression F par F0 et donc F0 par
F1 obtenu par un nouvel échantillonnage à partir de F0 , c’est à dire par échantillonnage
à partir de l’échantillon.
C.Huber
4
Bootstrap 5
2 NOTATIONS :
L’analogie avec les poupées russes est la suivante : la population initiale, non observable, de distribution F correspond à la grande Poupée, et l’échantillon observé, de
distribution F0 , à la plus grande des poupées observées, la poupée numéro 0. Mais alors
à quoi correspond la poupée numéro 1 , que l’on découvre en ouvrant la poupée numéro
0 ? Eh bien, et c’est là le principe du bootstrap, on l’obtient en effectuant, à partir de
l’échantillon, de loi F0 , considéré maintenant comme nouvelle population initiale, un
nouvel échantillon, de même taille n , appelé échantillon bootstrap et noté X ∗ . Comme
on aura en général B échantillons bootstrap, on les notera Xb∗ , avec b variant de 1 à
B quand on aura besoin de les distinguer. On dit que ”on rééchantillonne”.
2
Notations :
L’échantillon initial est noté
X = (X1 , ..., Xn )
et F0 la loi empirique associée. Les échantillons obtenus par rééchantillonnage ou
”rééchantillons”, ou ”échantillons bootstrap” sont notés
X ∗ = (X1∗ , ..., Xn∗ ).
Les échantillons X ∗ sont des échantillons fondés sur F0 . On notera indifféremment:
P (Xj∗ = Xi |X) = 1/n , 1 ≤ i, j ≤ n.
ou
P (Xj∗ = Xi |F0 ) = 1/n , 1 ≤ i, j ≤ n.
car dès qu’on connaı̂t X on peut en déduire F0 et réciproquement.
Remarques:
1. Problèmes paramétriques et non paramétriques:
La loi F0 associée à l’échantillon peut être, comme dans l’exemple ci-dessus de
l’estimation d’une moyenne, la loi empirique. C’est le cas lorsqu’on a affaire à un
problème non paramétrique. Mais la loi F0 peut être une loi issue d’un modèle
paramétrique: les paramètres, qu’on notera λ dans la suite, sont alors estimés en
employant le modèle, en principe par maximum de vraisemblance, et alors F0 est
la loi appartenant au modèle, dont les paramètres sont ceux estimés à partir de
l’échantillon.
C.Huber
5
Bootstrap 6
3 SIMULATIONS:
2. Paramètres et fonctionnelles :
On a vu que pour estimer une fonctionnelle T(F) de la distribution inconnue
F on remplaçait F , dans le cas non paramétrique, par la loi empirique F0 associée à l’échantillon. Mais si par exemple on veut estimer un paramètre comme
le centre de symétrie d’une loi symétrique, ce centre de symétrie peut correspondre à plusieurs fonctionnelles différentes: la moyenne, la médiane de F et
beaucoup d’autres encore; par exemple les moyennes α-tronquées. Ces dernières
sont obtenues en prenant la moyenne des observations qui restent lorsqu’on a ôté
les plus grandes et les plus petites, en proportion α. Il est donc nécessaire de dire
précisément quelle est la fonctionnelle que l’on veut estimer.
3. Approximation d’une statistique bootstrap :
Il faut bien distinguer deux éléments différents dans les méthodes bootstrap :
• Le principe lui-même, illustré par les poupées emboı̂tées, et qui consiste à
remplacer la loi initiale inconnue par une loi associée à l’échantillon observé,
et toutes les lois dérivées nécessaires. Le (ou les) paramètre(s) d’intérêt
est (sont) ainsi remplacé(s) par une statistique ”bootstrap”, en principe
complètement calculable(s).
• Le calcul proprement dit de la statistique bootstrap : bien que la statistique
bootstrap soit en principe complètement calculable, souvent son calcul effectif serait trop long. Il s’agit en général d’espérances fondées sur la loi
F0 et des dérivées de cette loi. Aussi, Efron a-t-il suggéré de le faire par
une méthode de type Monte-Carlo qui consiste à rééchantillonner à partir de
l’échantillon initial, obtenant des échantillons de même taille n. Si le nombre
des rééchantillonnages est assez grand, on aura une bonne approximation de
l’espérance cherchée à cause de la loi des grands nombres.
3
Simulations:
Etant donnée une loi de probabilité sur IR de fonction de répartition F , on peut ”inventer” un échantillon de n observations d’une variable aléatoire réelle X de loi F en
faisant n tirages indépendants issus de la loi F .
En principe, la loi de base que l’on simule est la loi uniforme sur [0 ; 1], qu’on note U[01] ,
à partir d’un générateur de nombres au hasard. Un tel générateur est inclus dans tous
les langages de programmation et dans tous les logiciels. A partir de cet échantillon
uniforme simulé (U1 , . . . , Un ), on peut ensuite construire un échantillon simulé pour
n’importe quelle loi F en remarquant que:
X = F −1 (U )
C.Huber
6
4 DEUX APPLICATIONS FONDAMENTALES DU BOOTSTRAP:
Bootstrap 7
a F pour fonction de répartition, comme on pourra aisément le vérifier, en particulier
dans le cas où F est continue et strictement monotone. On forme la suite:
(X1 , X2 , . . . , Xn ) = (F −1 (U1 ), F −1 (U2 ), ..., F −1 (Un ))
qui est alors un échantillon de la loi F .
Exercice 1
Comment générer un échantillon de taille n = 10 d’une variable exponentielle de
paramètre 1 ?
Remarque:
Certaines lois ont des inverses F −1 qui ne sont pas explicites. C’est vrai en particulier de la loi normale qu’on a souvent besoin de simuler. Dans ce cas, on procède
autrement. On a remarqué en effet, que, si U et V sont deux variables uniformes sur
[0; 1] et indépendantes, la variable :
p
X = cos(2πU ) (−2 log(V ))
suit une loi normale standard, N (0, 1).
Exercice 2
Comment simulerait on une loi normale quelconque de moyenne µ et de variance σ 2 ?
Le bootstrap consiste donc à faire une simulation à partir, non pas de la loi vraie
F , qui n’est en général pas connue, mais de la loi empirique Fn qui a été observée.
4
Deux applications fondamentales du bootstrap:
Les deux applications fondamentales du bootstrap sont la réduction du biais et la
détermination d’intervalles de confiance. Nous allons commencer par présenter un exemple donné par Efron, qui est celui qui a le premier mis en valeur les possibilités de
cette méthode, connue depuis longtemps mais non exploitée, notamment à cause du
temps de calcul qu’elle implique.
Evaluation de la précision d’une estimation: un exemple proposé par Efron:
A l’origine, le bootstrap a été employé pour évaluer la précision d’un estimateur. Par
exemple, lors d’un petite expérimentation sur des souris, on a tiré au sort parmi 16
souris, 7 qui reçoivent le nouveau traitement alors que les 9 autres sont des contrôles
C.Huber
7
Bootstrap 8
les qui reçoivent un placebo. Leurs durées de vie sont mesurées, en jours, et donnent
les résultats suivants :
moyenne écart-type
Traitées
X 94 197 16 38 99 141 23
86,86
25,24
Contrôles Y 52 104 146 10 51 30 40 27 46
56,22
14,14
On a l’impression que le traitement assure une meilleure survie que le placebo, car
les durées moyennes observées sont respectivement : 86,86 et 56,22. Mais les deux
échantillons sont petits et la précision de ces deux estimateurs des deux vraies moyennes
certainement très mauvaise. Comment mesurer cette précision ? Si l’on disposait d’une
taille d’échantillon suffisamment grande pour pouvoir appliquer l’approximation normale, on utiliserait le fait que:
s2
)
n
Mais les tailles d’échantillon sont trop faibles pour cela. De plus, si au lieu de
comparer les moyennes, on comparait les médianes, qui sont ici respectivement 94 et
46, que faire pour en estimer la précision et savoir à quel point elles sont effectivement
différentes ? Commençons par considérer le cas des souris traitées. Eh bien, si le
principe du bootstrap est valable, c’est à dire si on peut remplacer la loi inconnue F
de X par la loi observée F0 ( sur le 7-échantillon) et l’échantillon initial X lié à F0 par
l’échantillon bootstrap X ∗ et la loi associée F1 , on a l’identification suivante :
L(X | F ) ≈ N (µ,
L(X | F ) ≈ L(X ∗ | F0 )
Comme F0 est connue, la loi de X ∗ s’en déduit complètement, et donc aussi la loi de
la moyenne de X ∗ . Si on prend les quantiles 0,025 et 0,975 de cette loi, on sait qu’avec
une probabilité de 0,95 cette moyenne va rester entre ces deux valeurs. De même pour
la médiane ou n’importe quelle autre statistique. On peut remarquer aussi qu’au lieu
de s’intéresser aux deux quantiles 0,025 et 0,975 de la moyenne pour voir à quel point
elle est précise, on peut vouloir estimer l’écart-type de la moyenne, ( ou de la médiane,
d’ailleurs). On procèdera de la même façon : par remplacement de l’écart-type cherché
par l’écart-type de la statistique bootstrap. Dans l’équation (*), le membre de droite
est en principe complètement calculable mais en pratique il est en général beaucoup
plus simple de rééchantillonner un grand nombre de fois :
X ∗1 , X ∗2 , . . . , X ∗B
On rééchantillonne B fois . Pour chaque échantillon X ∗ b , on calcule la statistique
qui nous intéresse: soit la moyenne, soit la médiane, dans les cas envisagés ici. On
obtient ainsi une loi empirique pour cette statistique, qui, si B est assez grand, est une
C.Huber
8
Bootstrap 9
bonne approximation de la vraie loi . L’estimateur bootstrap de l’écart-type est donné
par
s
PB
¯∗ b − X¯∗ b )2
(
X
sˆ∗ = { b=1
}
B−1
et voici ce que donne cette statistique pour différents nombres B de rééchantillonnages.
B
sˆ∗ (moyenne)
sˆ∗ (médiane)
50
100
250
500 1000 infini
19,72 23,63 22,32 23,79 23,02 23,36
32,21 36,35 34,46 36,72 36,48 37,83
En ce qui concerne la moyenne, on voit que l’écart-type bootstrap est proche de
l’estimateur usuel. Pour la médiane, on constate qu’elle est plus dispersée.
1. Réduction du biais:
Dans l’exemple précédent, on estimait une moyenne par la moyenne observée, et
on sait bien que dans ce cas on n’a aucun problème de biais. Par contre dans
beaucoup de cas, même l’estimateur du maximum de vraisemblance a un biais.
On peut utiliser le bootstrap pour réduire ce biais. Supposons que l’on veuille
estimer
θ(F ) = [
Z
r
xdF (x)]
à partir d’un échantillon auquel est associé F0 . On choisit l’estimateur
d) = θ(F0 ) = [
θ(F
Z
r
xdF0 (x)]
Quel est son biais ? Par définition
Biais = E{θ(F ) − θ(F0 ) | F }
Comme on ne connaı̂t pas F , on utilise le principe du bootstrap en remplaçant
dans cette équation F par F0 et F0 par F1 , où F1 est la loi associée à un néchantillon d’une variable de loi F0 :
d = E{θ(F0 ) − θ(F1 ) | F0 }
Biais
C.Huber
9
Bootstrap 10
Donc l’estimateur sans biais de θ s’obtient en retranchant à θ(F0 ) cet estimateur
de son biais, soit:
d
Estimateur sans biais de θ = θ(F0 ) − Biais
Pour obtenir un estimateur sans biais, on doit donc ajouter t à θ(F0 ) où t est
défini par
E(θ(F0 ) − θ(F ) + t) = 0
(1)
On a donc remplacé l’équation initiale qui donne la correction t que l’on devrait
d0 ) par une équation bootstrap
faire pour supprimer le biais de l’estimateur θ(F
qui donne une correction t∗ , en principe calculable, et dont on espère qu’elle est
une bonne estimation de t. On remarque que t est un paramètre qui dépend de
F alors que t∗ est une statistique dépendant de F0 . De cette équation se déduit
la correction t∗ = θ(F0 ) − E(θ(F1 )|F0 ).
On doit donc calculer la quantité:
E(θ(F1 )|F0 ),
et l’estimateur sans biais est alors égal à:
θ(F0 ) + t∗ = 2θ(F0 ) − E(θ(F1 )|F0 ).
Prenons un exemple concret : On n’a aucun renseignement sur F , on veut estimer
E(X)2 et on dispose de 3 observations : x1 = 1, 2; x2 = 2, 5; x3 = 1, 1. Donc
θ(F ) =
Z
2
xdF (x)
On est dans un cas non paramétrique. F0 est donc la f.r. empirique qui donne à
chacune des trois valeurs ci-dessus la probabilité 1/3 et donc
θ(F0 ) = [(1.2 + 2.5 + 1.1)/3]2 = 2, 560.
F1 peut prendre 10 valeurs différentes: en effet, quand on tire un échantillon de
taille n = 3 de la loi F0 , tout se passe comme si on tirait trois fois avec remise
dans une urne à trois boules numérotées 1.1 1.2 et 2.5. Chaque tirage peut être
C.Huber
10
Bootstrap 11
résumé par le nombre de fois qu’on a tiré chacune des trois boules:
Fréquences
1.1
3
2
2
1
1
1
0
0
0
0
1.2
0
1
0
1
2
0
2
1
3
0
2.5
0
0
1
1
0
2
1
2
0
3
probabilité
θ
(1/3)3
(1/3)2
(1/3)2
2/9
(1/3)2
(1/3)2
(1/3)2
(1/3)2
(1/3)3
(1/3)3
1.210
1.284
2.454
2.560
1.361
4.134
2.667
4.271
1.440
6.250
On en déduit E(θ(F1 )|F0 ) = 1.21/27+1.44/9+2.56/9+... = 2.6955. L’estimateur
sans biais est donc égal à 2 × 2.56 − 2.695 = 2.42(4). On voit clairement sur cet
exemple comment effectuer le calcul explicite d’une statistique bootstrap. Mais
on voit aussi que, même pour un cas aussi simple où la taille n de l’échantillon
est égale à 3, il y a un grand nombre de tirages possibles pour F1 .
Exercice 3:
(a) Si au lieu de 3 valeurs, on avait observé un échantillon de taille n = 4,
combien de tirages F1 distincts peut on faire ?
(b) Même question pour n = 5.
(c) Même question pour n quelconque lorsque l’échantillon initial consiste en m
valeurs distinctes.
Indication:
Le nombre des configurations distinctes de F1 est égal au nombre de manières
distinctes de répartir n boules dans m cases.
Remarque:
Comme F0 est une loi discrète, la loi de θ(F1 ) est, elle aussi,
discrète. On remarque cependant que, même avec seulement 3 observations, on
obtient pour θ(F1 ) une loi beaucoup plus étalée. Ce phénomène ne fait que
s’accentuer quand on augmente n. En particulier, on pourra constater, après
C.Huber
11
Bootstrap 12
avoir fait l’exercice précédent, que le nombre des tirages F1 possibles lorsqu’on
a 10 observations distinctes pour l’échantillon initial, est déjà très grand : 92
378. Et le mode a pour probabilité 0,00036, ce qui est très faible. Donc, la loi,
sous F0 d’une fonctionnelle θ(F1 ) , bien qu’elle soit en principe discrète, est en
général très proche d’une loi continue. On se sert de cette remarque quand on
veut construire des intervalles de confiance.
Exercice 4:
On considère un n-échantillon (X1 , . . . , Xn ) d’une loi uniforme sur [0, θ] et on
estime θ par maximum de vraisemblance.
(a) Quel est l’estimateur du maximum de vraisemblance de θ ?
(b) Cet estimateur est il sans biais ?
(c) Comment utiliser la méthode du bootstrap pour réduire le biais ?
Indication:
La loi initiale est F = U[0θ] . F0 = U[0,max(Xi )] et F1 = U[0,max(Xi ∗ )]
2. Intervalle de confiance:
Soit F la loi inconnue, dont on veut estimer le paramètre θ(F ) par un intervalle de
confiance à 0,95 et F0 la loi associée à l’échantillon observé. θ(F0 ) est l’estimateur
de θ(F ). Soit F la loi inconnue, dont on veut estimer le paramètre θ(F ) par un
intervalle de confiance à 0,95 et F0 la loi associée à l’échantillon observé. θ(F0 )
est un estimateur de θ(F ). Pour obtenir, à partir de θ(F0 ), un intervalle de
confiance (en général asymétrique) pour θ(F ), on a besoin de connaı̂tre la loi de
θ(F ) − θ(F0 ), sous F (alors que F est inconnue) ou une approximation pour cette
loi. Si c’est le cas, on prend pour bornes de l’intervalle, en notant t1 = t0 .025 et
t2 = t0 .975 les quantiles 0.025 et 0.975 de cette loi: [θ(F0 ) + t1 ; θ(F0 ) + t2 ]. En
effet:
P (θ(F ) − θ(F0 ) < t1 )
= 0.025
P (θ(F ) − θ(F0 ) > t2 )
= 0.025
P (θ(F0 ) + t1 ≤ θ(F ) ≤ θ(F0 ) + t2 ) = 0.975.
C.Huber
12
Bootstrap 13
Si on ne connaı̂t pas cette loi, et si on n’a pas d’approximation pour celle-ci,
ou, tout simplement si on en dispose mais que les calculs sont très compliqués,
le bootstrap permet de lui substituer la loi de θ(F0 ) − θ(F1 ) sous F0 . Comme
F0 est cette fois connue, cette loi est, en principe, une loi discrète complètement
calculable. Alors apparaissent les deux points essentiels du bootstrap:
• La validation du bootstrap : il faut en effet valider cette substitution.
• La loi bootstrap n’est calculable qu’en principe. En réalité, pour les tailles
d’échantillon usuelles, le calcul exact serait trop long (voir ci-dessus ce que
cela donne dans le cas n = 3) et on doit donc procéder par simulation pour
évaluer cette loi bootstrap, ou pour évaluer ses paramètres d’intérêt pour le
problème considéré.
Supposons que l’on cherche maintenant un intervalle symétrique par rapport à
θ(F0 ), qui est par exemple la moyenne observée s’il s’agit de la moyenne, la
médiane observée s’il s’agit de la médiane, etc... En utilisant toujours le même
principe du bootstrap, au lieu de t tel que
P (θ(F0 ) − t ≤ θ(F ) ≤ θ(F0 ) + t|F ) = 0, 95
on va chercher t∗ tel que
P (θ(F1 ) − t∗ ≤ θ(F0 ) ≤ θ(F1 ) + t∗ | F0 ) = 0, 95
Dans cette dernière expression, F0 étant connu, θ(F0 ) est connu. Il s’agit donc
de déterminer la loi de θ(F1 ) où F1 est échantillonné à partir de F0 . On pourra
par exemple penser à l’échantillon ci-dessus, θ étant la médiane ou le carré de la
moyenne, etc.. . On trouve dans ce cas très facilement la loi de θ(F1 ) car la taille
de l’échantillon est très faible : n = 3. Lorsque n est plus grand, cela devient
compliqué et on utilise la loi des grands nombres: On rééchantillonne B fois, en
faisant chaque fois n tirages sans remise dans l’échantillon initial. On obtient
ainsi B nouveaux échantillons de taille n:
X1∗ , X2∗ , . . . , XB∗
et B valeurs de la statistique bootstrap θ(F1 ):
(θ(X ∗1 ), θ(X ∗2 ), . . . , θ(X ∗B ))
Ces valeurs dessinent progressivement la loi de θ(F1 ) et si on pouvait faire tendre
B vers l’infini, on aurait exactement la loi de θ(F1 ). En général, on choisit des
valeurs de B de l’ordre de 50 à 200 (voir Efron, 1993).
C.Huber
13
Bootstrap 14
Remarque : Nous avons vu que, dans le cas non paramétrique, θ(F1 ) a une loi discrète,
et, par conséquent, une valeur exactement égale à 0,95 n’est généralement pas atteignable. Nous avons cependant aussi remarqué que, très vite quand n croı̂t, la loi F 1
se diversifie et les atomes ne portent pas beaucoup de probabilté chacun. Par contre,
dans le cas d’une loi paramétrique continue, l’équation ci-dessus peut se résoudre exactement : il n’y a pas de saut de la probabilité qui régit θ(F1 ).
Exemple:
Prenons la loi exponentielle F = E(λ) de fonction de répartition F (x) = exp (−x/λ) et
θ(F ) = λ. L’estimateur du maximum de vraisemblance de λ est la moyenne empirique
(on pourra le vérifier à titre d’exercice):
λ̂ = X̄
Donc
F0 = E(λ̂) = E(X̄)
Notons la moyenne empirique Y /n : la loi de Y est la loi de la somme de n variables
exponentielles de même paramètre λ et donc c’est une loi gamma Γ(n, λ)(on pourra le
vérifier ). L’équation qui donne l’intervalle de confiance bootstrap
P (θ(F 1) − t∗ ≤ θ(F0 ) ≤ θ(F1 ) + t∗ |F0 ) = 0, 95
s’écrit ici:
P (Y /n − t∗ ≤ X ≤ Y /n + t∗ | Γ(n, X)) = 0.95
Le deuxième paramètre de la loi gamma est un paramètre d’échelle. En divisant
tout par ce paramètre, qui est connu puisqu’il est égal à la moyenne observée, on
obtient:
P (|Y 0 /n − 1| ≤ t∗ /X | Γ(n, 1)) = 0, 95
où Y 0 suit la loi gamma Γ(n, 1). Une table de la loi gamma suffit donc maintenant
pour calculer t∗ . Notons g0,95 le quantile vérifiant:
P (|Y 0 /n − 1| ≤ g0,95 ) = 0, 95.
Alors, t∗ = X0,95 et l’intervalle de confiance ”bootstrapé” pour la moyenne d’une loi
exponentielle est finalement:
[X̄ − g0,95 × X̄; X̄ − g0,95 × X̄]
C.Huber
14
Bootstrap 15
Exercice 5: Faire le même calcul dans le cas où la loi exponentielle est remplacée
par la loi normale N (µ, σ 2 ). On note λ = (µ, σ 2 ) et on veut un intervalle de confiance
pour la moyenne, c’est à dire que θ(F ) = µ.
Exercice 6: Bootstrap pour des durées censurées
Lorsqu’on a affaire à des durées de survie censurées, les observations se présentent
sous la forme de couples (Ti , Di ), T étant la durée observée et D l’indicateur de censure. Deux types de bootstrap peuvent alors être envisagés: le bootstrap simple et le
bootstrap évident. Le premier consiste à faire un tirage au hasard dans les couples, le
second à faire un tirage selon les fonctions de survie de Kaplan-Meier pour la durée de
vie et pour la censure. On essaiera les deux méthodes sur un exemple.
C.Huber
15

Une méthode de rééchantillonnage: le bootstrap. C. Huber

Transcription

Documents pareils

Resume Template

FÉLIX CAMIRAND LEMYRE, Université de Sherbrooke Les

Examen NOISE 1 Simulation de réalisations de la loi de Weibull

TP sur les test de Kolmogorov.

Statistiques Master Statistique et econométrie TD sur les tests

Chap 9: Estimateurs au maximum de vraisemblance

Devoir en temps libre n 3

Intervalles de confiance

B - Ceremade - Université Paris