Une méthode de rééchantillonnage: le bootstrap. C. Huber

Transcription

Une méthode de rééchantillonnage: le bootstrap. C. Huber
Une méthode de rééchantillonnage:
le bootstrap.
C. Huber
September 11, 2006
1
Bootstrap 2
1 LE PRINCIPE
Une Méthode de Rééchantillonnage:
Le Bootstrap.
Le terme de rééchantillonnage, ou, en anglais, ”bootstrap” , qui évoque l’action de
”se hisser en tirant sur ses propres lacets”, désigne un ensemble de méthodes qui consistent à faire de l’ inférence statistique sur de ”nouveaux” échantillons tirés à partir
d’un échantillon initial. Disposant d’un échantillon destiné à donner une certaine information sur une population, on tire au sort, parmi la sous-population réduite à cet
échantillon, un nouvel échantillon de même taille n. Et on répète cette opération B
fois, où B est grand. On analyse ensuite les nouvelles observations ainsi obtenues
pour affiner l’inférence faite sur les observations initiales. A priori, on peut avoir des
doutes sur l’efficacité d’une telle méthode et penser qu’il n’y a aucune amélioration
à espérer en rééchantillonnant à partir du même échantillon. En effet, aucune information supplémentaire ne peut être espérée, toute l’information étant contenue dans
l’échantillon initial. Cependant, comme on va le voir, ce rééchantillonnage, s’il ne rajoute aucune information, permet, dans certains cas, d’extraire de l’échantillon de base
l’information souhaitée.
1
Le principe
Le principe qui sous-tend le bootstrap est très simple et très ancien, et il peut être
illustré par un système d’emboı̂tement (P. Hall, 1992) tel que celui des poupées russes:
il s’agit d’une poupée qui, lorsqu’on l’ouvre, laisse apparaı̂tre une poupée identique
mais plus petite (”homothétique”), qui à son tour contient une poupée plus petite,
etc... . Imaginons que l’on veuille estimer le nombre r des taches de rousseur de la
première de ces poupées, qui est aussi la plus grande, et que l’on ne puisse pas l’observer.
On suppose qu’on dispose seulement de la seconde, contenue dans la première, et qui
contient toutes les autres. Soit ro le nombre des taches de rousseur de la seconde. On
peut, en première approximation, estimer r par ro . On appelle ’Poupée’ la plus grande
poupée, non observée, ’poupée 0’ celle qui est observée, ’poupée 1’ celle qu’on trouve
dans la poupée 0, et ainsi de suite pour toutes les poupées plus petites que la poupée
1, qui sont toutes observables puisque contenues dans la poupée 1.
Comme la Poupée initiale est plus grande que la poupée numéro 0, on s’attend à
ce que r soit plus grand que ro et dans le rapport de leurs tailles. Cependant, on ne
peut pas observer la première poupée et on ne connaı̂t donc pas sa taille. En revanche,
on peut observer le nombre des taches de rousseur r1 de la troisième poupée. Donc, si
le rapport du nombre des taches de rousseur d’une poupée à la suivante est toujours
le même, le rapport ro /r1 , qui, lui, est observable, fournira une estimation du rapport
C.Huber
2
Bootstrap 3
1 LE PRINCIPE
r/ro . Cela donne comme estimateur de r :
r̂ = r0
r0
.
r1
Mais il se peut que le rapport de ces nombres ne soit pas constant, ce que l’on peut
vérifier en comparant ro /r1 à r1 /r2 par exemple, puisque ces deux quantités sont observables. Si ces deux quantités ne sont pas égales, ro /r1 ne constitue qu’une approximation
pour la valeur de r/r0 .
Pour effectuer une correction supplémentaire, si on peut supposer que le rapport des
tailles d’une poupée à la suivante, bien que n’étant plus constant, varie régulièrement,
par exemple les rapports de taille d’une poupée à la suivante sont dans un rapport
constant, c’est à dire que
r/r0
ri−1 /ri
=
,
r0 /r1
ri /ri+1
alors, on peut effectuer une correction supplémentaire en observant r2 sur la poupée
suivante et en prenant pour estimateur de r la valeur précédente multipliée par
(r0 /r1 )/(r1 /r2 ),
ce qui donne :
r0 2 r2
)
r1 r1
On peut à nouveau vérifier si l’hypothèse faite sur la variation des rapports est exacte
en considérant la poupée suivante, et, dans le cas contraire, effectuer une nouvelle
correction.
L’un des emplois les plus fréquents du bootstrap est d’éliminer le biais d’un estimateur de la manière suivante : Soit T un estimateur de θ, paramètre de la loi F
commune aux Xi constituant l’observation X = (X1 , · · · , Xn )). Son biais est
r̂ = r0 (
b(T ) = E(T |F ) − θ
en notant E( | F ) la moyenne (l’espérance) pour la loi F , car cette notation sera
commode dans la suite. On estime ce biais par
b∗ (T ) = E(T ∗ |X) − T
où T ∗ est calculé sur un échantillon bootstrap X ∗ issu de l’échantillon initial X, et
E(T ∗ |X) signifie la moyenne de T ∗ pour la loi empirique déterminée par X, c’est à dire
la loi qui attribue la probabilité 1/n à chacune des valeurs observées xi , i = 1, · · · , n.
L’estimateur T est ensuite ”corrigé de son biais” et donc remplacé par :
T − b∗ (T ) = 2T − E(T ∗ |X)
C.Huber
3
Bootstrap 4
1 LE PRINCIPE
Comme T − b(T ) est sans biais pour θ, T − b∗ (T ) sera presque sans biais. Prenons un
exemple. Supposons que l’on veuille estimer la moyenne µ d’une population pour une
variable aléatoire dont la fonction de répartition est F , inconnue, soit :
Z
µ = xdF (x)
et que l’on dispose pour cela d’un échantillon X = (X1 , , Xn ) de n observations
indépendantes et équidistribuées selon F . Comme on l’a dit, la loi empirique est celle
qui attribue la probabilité 1/n à chacune des n observations. Désignons par F0 sa
fonction de répartition, appelée fonction de répartition empirique:
Pn
1{xi ≤ x}
F0 (x) = i=1
n
On peut, pour estimer µ, utiliser la même quantité (on dit la même ’fonctionnelle’)
que ci-dessus, en remplaçant F , qui est inconnue, par la fonction de répartition empirique F0 qui, elle, est connue. On estime donc µ par
P
Z
Xi
µ̂ = X̄ = xdF0 (x) = i
n
qui est la moyenne observée sur l’échantillon ou moyenne empirique. Dans l’exemple
considéré, on sait que l’estimateur ainsi obtenu est sans biais. Mais supposons maintenant que l’on veuille estimer un autre ’paramètre’, c’est à dire une autre fonctionnelle
de la loi F , par exemple
Z
r
µ = ( xdF (x))r .
On pourra vérifier que l’estimateur correspondant
P
Xi
r
r
µb = (X̄) = ( i )r
n
n’est pas sans biais en général, sauf si r = 1. Comment peut on le corriger pour qu’il
devienne sans biais ? Pour cela, il faudrait calculer le biais pour le lui retrancher, ou,
si ce n’est pas possible, estimer ce biais. Le biais b vaut
Z
Z
r
r
r
b = E(µb ) − µ = E{[ xdF0 (x)] − [ xdF (x)]r | F }
Comme dans le calcul du biais intervient F qui est inconnue, on peut appliquer à
nouveau le principe initial et remplacer dans cette expression F par F0 et donc F0 par
F1 obtenu par un nouvel échantillonnage à partir de F0 , c’est à dire par échantillonnage
à partir de l’échantillon.
C.Huber
4
Bootstrap 5
2 NOTATIONS :
L’analogie avec les poupées russes est la suivante : la population initiale, non observable, de distribution F correspond à la grande Poupée, et l’échantillon observé, de
distribution F0 , à la plus grande des poupées observées, la poupée numéro 0. Mais alors
à quoi correspond la poupée numéro 1 , que l’on découvre en ouvrant la poupée numéro
0 ? Eh bien, et c’est là le principe du bootstrap, on l’obtient en effectuant, à partir de
l’échantillon, de loi F0 , considéré maintenant comme nouvelle population initiale, un
nouvel échantillon, de même taille n , appelé échantillon bootstrap et noté X ∗ . Comme
on aura en général B échantillons bootstrap, on les notera Xb∗ , avec b variant de 1 à
B quand on aura besoin de les distinguer. On dit que ”on rééchantillonne”.
2
Notations :
L’échantillon initial est noté
X = (X1 , ..., Xn )
et F0 la loi empirique associée. Les échantillons obtenus par rééchantillonnage ou
”rééchantillons”, ou ”échantillons bootstrap” sont notés
X ∗ = (X1∗ , ..., Xn∗ ).
Les échantillons X ∗ sont des échantillons fondés sur F0 . On notera indifféremment:
P (Xj∗ = Xi |X) = 1/n , 1 ≤ i, j ≤ n.
ou
P (Xj∗ = Xi |F0 ) = 1/n , 1 ≤ i, j ≤ n.
car dès qu’on connaı̂t X on peut en déduire F0 et réciproquement.
Remarques:
1. Problèmes paramétriques et non paramétriques:
La loi F0 associée à l’échantillon peut être, comme dans l’exemple ci-dessus de
l’estimation d’une moyenne, la loi empirique. C’est le cas lorsqu’on a affaire à un
problème non paramétrique. Mais la loi F0 peut être une loi issue d’un modèle
paramétrique: les paramètres, qu’on notera λ dans la suite, sont alors estimés en
employant le modèle, en principe par maximum de vraisemblance, et alors F0 est
la loi appartenant au modèle, dont les paramètres sont ceux estimés à partir de
l’échantillon.
C.Huber
5
Bootstrap 6
3 SIMULATIONS:
2. Paramètres et fonctionnelles :
On a vu que pour estimer une fonctionnelle T(F) de la distribution inconnue
F on remplaçait F , dans le cas non paramétrique, par la loi empirique F0 associée à l’échantillon. Mais si par exemple on veut estimer un paramètre comme
le centre de symétrie d’une loi symétrique, ce centre de symétrie peut correspondre à plusieurs fonctionnelles différentes: la moyenne, la médiane de F et
beaucoup d’autres encore; par exemple les moyennes α-tronquées. Ces dernières
sont obtenues en prenant la moyenne des observations qui restent lorsqu’on a ôté
les plus grandes et les plus petites, en proportion α. Il est donc nécessaire de dire
précisément quelle est la fonctionnelle que l’on veut estimer.
3. Approximation d’une statistique bootstrap :
Il faut bien distinguer deux éléments différents dans les méthodes bootstrap :
• Le principe lui-même, illustré par les poupées emboı̂tées, et qui consiste à
remplacer la loi initiale inconnue par une loi associée à l’échantillon observé,
et toutes les lois dérivées nécessaires. Le (ou les) paramètre(s) d’intérêt
est (sont) ainsi remplacé(s) par une statistique ”bootstrap”, en principe
complètement calculable(s).
• Le calcul proprement dit de la statistique bootstrap : bien que la statistique
bootstrap soit en principe complètement calculable, souvent son calcul effectif serait trop long. Il s’agit en général d’espérances fondées sur la loi
F0 et des dérivées de cette loi. Aussi, Efron a-t-il suggéré de le faire par
une méthode de type Monte-Carlo qui consiste à rééchantillonner à partir de
l’échantillon initial, obtenant des échantillons de même taille n. Si le nombre
des rééchantillonnages est assez grand, on aura une bonne approximation de
l’espérance cherchée à cause de la loi des grands nombres.
3
Simulations:
Etant donnée une loi de probabilité sur IR de fonction de répartition F , on peut ”inventer” un échantillon de n observations d’une variable aléatoire réelle X de loi F en
faisant n tirages indépendants issus de la loi F .
En principe, la loi de base que l’on simule est la loi uniforme sur [0 ; 1], qu’on note U[01] ,
à partir d’un générateur de nombres au hasard. Un tel générateur est inclus dans tous
les langages de programmation et dans tous les logiciels. A partir de cet échantillon
uniforme simulé (U1 , . . . , Un ), on peut ensuite construire un échantillon simulé pour
n’importe quelle loi F en remarquant que:
X = F −1 (U )
C.Huber
6
4 DEUX APPLICATIONS FONDAMENTALES DU BOOTSTRAP:
Bootstrap 7
a F pour fonction de répartition, comme on pourra aisément le vérifier, en particulier
dans le cas où F est continue et strictement monotone. On forme la suite:
(X1 , X2 , . . . , Xn ) = (F −1 (U1 ), F −1 (U2 ), ..., F −1 (Un ))
qui est alors un échantillon de la loi F .
Exercice 1
Comment générer un échantillon de taille n = 10 d’une variable exponentielle de
paramètre 1 ?
Remarque:
Certaines lois ont des inverses F −1 qui ne sont pas explicites. C’est vrai en particulier de la loi normale qu’on a souvent besoin de simuler. Dans ce cas, on procède
autrement. On a remarqué en effet, que, si U et V sont deux variables uniformes sur
[0; 1] et indépendantes, la variable :
p
X = cos(2πU ) (−2 log(V ))
suit une loi normale standard, N (0, 1).
Exercice 2
Comment simulerait on une loi normale quelconque de moyenne µ et de variance σ 2 ?
Le bootstrap consiste donc à faire une simulation à partir, non pas de la loi vraie
F , qui n’est en général pas connue, mais de la loi empirique Fn qui a été observée.
4
Deux applications fondamentales du bootstrap:
Les deux applications fondamentales du bootstrap sont la réduction du biais et la
détermination d’intervalles de confiance. Nous allons commencer par présenter un exemple donné par Efron, qui est celui qui a le premier mis en valeur les possibilités de
cette méthode, connue depuis longtemps mais non exploitée, notamment à cause du
temps de calcul qu’elle implique.
Evaluation de la précision d’une estimation: un exemple proposé par Efron:
A l’origine, le bootstrap a été employé pour évaluer la précision d’un estimateur. Par
exemple, lors d’un petite expérimentation sur des souris, on a tiré au sort parmi 16
souris, 7 qui reçoivent le nouveau traitement alors que les 9 autres sont des contrôles
C.Huber
7
4 DEUX APPLICATIONS FONDAMENTALES DU BOOTSTRAP:
Bootstrap 8
les qui reçoivent un placebo. Leurs durées de vie sont mesurées, en jours, et donnent
les résultats suivants :
moyenne écart-type
Traitées
X 94 197 16 38 99 141 23
86,86
25,24
Contrôles Y 52 104 146 10 51 30 40 27 46
56,22
14,14
On a l’impression que le traitement assure une meilleure survie que le placebo, car
les durées moyennes observées sont respectivement : 86,86 et 56,22. Mais les deux
échantillons sont petits et la précision de ces deux estimateurs des deux vraies moyennes
certainement très mauvaise. Comment mesurer cette précision ? Si l’on disposait d’une
taille d’échantillon suffisamment grande pour pouvoir appliquer l’approximation normale, on utiliserait le fait que:
s2
)
n
Mais les tailles d’échantillon sont trop faibles pour cela. De plus, si au lieu de
comparer les moyennes, on comparait les médianes, qui sont ici respectivement 94 et
46, que faire pour en estimer la précision et savoir à quel point elles sont effectivement
différentes ? Commençons par considérer le cas des souris traitées. Eh bien, si le
principe du bootstrap est valable, c’est à dire si on peut remplacer la loi inconnue F
de X par la loi observée F0 ( sur le 7-échantillon) et l’échantillon initial X lié à F0 par
l’échantillon bootstrap X ∗ et la loi associée F1 , on a l’identification suivante :
L(X | F ) ≈ N (µ,
L(X | F ) ≈ L(X ∗ | F0 )
Comme F0 est connue, la loi de X ∗ s’en déduit complètement, et donc aussi la loi de
la moyenne de X ∗ . Si on prend les quantiles 0,025 et 0,975 de cette loi, on sait qu’avec
une probabilité de 0,95 cette moyenne va rester entre ces deux valeurs. De même pour
la médiane ou n’importe quelle autre statistique. On peut remarquer aussi qu’au lieu
de s’intéresser aux deux quantiles 0,025 et 0,975 de la moyenne pour voir à quel point
elle est précise, on peut vouloir estimer l’écart-type de la moyenne, ( ou de la médiane,
d’ailleurs). On procèdera de la même façon : par remplacement de l’écart-type cherché
par l’écart-type de la statistique bootstrap. Dans l’équation (*), le membre de droite
est en principe complètement calculable mais en pratique il est en général beaucoup
plus simple de rééchantillonner un grand nombre de fois :
X ∗1 , X ∗2 , . . . , X ∗B
On rééchantillonne B fois . Pour chaque échantillon X ∗ b , on calcule la statistique
qui nous intéresse: soit la moyenne, soit la médiane, dans les cas envisagés ici. On
obtient ainsi une loi empirique pour cette statistique, qui, si B est assez grand, est une
C.Huber
8
4 DEUX APPLICATIONS FONDAMENTALES DU BOOTSTRAP:
Bootstrap 9
bonne approximation de la vraie loi . L’estimateur bootstrap de l’écart-type est donné
par
s
PB
¯∗ b − X¯∗ b )2
(
X
sˆ∗ = { b=1
}
B−1
et voici ce que donne cette statistique pour différents nombres B de rééchantillonnages.
B
sˆ∗ (moyenne)
sˆ∗ (médiane)
50
100
250
500 1000 infini
19,72 23,63 22,32 23,79 23,02 23,36
32,21 36,35 34,46 36,72 36,48 37,83
En ce qui concerne la moyenne, on voit que l’écart-type bootstrap est proche de
l’estimateur usuel. Pour la médiane, on constate qu’elle est plus dispersée.
1. Réduction du biais:
Dans l’exemple précédent, on estimait une moyenne par la moyenne observée, et
on sait bien que dans ce cas on n’a aucun problème de biais. Par contre dans
beaucoup de cas, même l’estimateur du maximum de vraisemblance a un biais.
On peut utiliser le bootstrap pour réduire ce biais. Supposons que l’on veuille
estimer
θ(F ) = [
Z
r
xdF (x)]
à partir d’un échantillon auquel est associé F0 . On choisit l’estimateur
d) = θ(F0 ) = [
θ(F
Z
r
xdF0 (x)]
Quel est son biais ? Par définition
Biais = E{θ(F ) − θ(F0 ) | F }
Comme on ne connaı̂t pas F , on utilise le principe du bootstrap en remplaçant
dans cette équation F par F0 et F0 par F1 , où F1 est la loi associée à un néchantillon d’une variable de loi F0 :
d = E{θ(F0 ) − θ(F1 ) | F0 }
Biais
C.Huber
9
4 DEUX APPLICATIONS FONDAMENTALES DU BOOTSTRAP:
Bootstrap 10
Donc l’estimateur sans biais de θ s’obtient en retranchant à θ(F0 ) cet estimateur
de son biais, soit:
d
Estimateur sans biais de θ = θ(F0 ) − Biais
Pour obtenir un estimateur sans biais, on doit donc ajouter t à θ(F0 ) où t est
défini par
E(θ(F0 ) − θ(F ) + t) = 0
(1)
On a donc remplacé l’équation initiale qui donne la correction t que l’on devrait
d0 ) par une équation bootstrap
faire pour supprimer le biais de l’estimateur θ(F
qui donne une correction t∗ , en principe calculable, et dont on espère qu’elle est
une bonne estimation de t. On remarque que t est un paramètre qui dépend de
F alors que t∗ est une statistique dépendant de F0 . De cette équation se déduit
la correction t∗ = θ(F0 ) − E(θ(F1 )|F0 ).
On doit donc calculer la quantité:
E(θ(F1 )|F0 ),
et l’estimateur sans biais est alors égal à:
θ(F0 ) + t∗ = 2θ(F0 ) − E(θ(F1 )|F0 ).
Prenons un exemple concret : On n’a aucun renseignement sur F , on veut estimer
E(X)2 et on dispose de 3 observations : x1 = 1, 2; x2 = 2, 5; x3 = 1, 1. Donc
θ(F ) =
Z
2
xdF (x)
On est dans un cas non paramétrique. F0 est donc la f.r. empirique qui donne à
chacune des trois valeurs ci-dessus la probabilité 1/3 et donc
θ(F0 ) = [(1.2 + 2.5 + 1.1)/3]2 = 2, 560.
F1 peut prendre 10 valeurs différentes: en effet, quand on tire un échantillon de
taille n = 3 de la loi F0 , tout se passe comme si on tirait trois fois avec remise
dans une urne à trois boules numérotées 1.1 1.2 et 2.5. Chaque tirage peut être
C.Huber
10
4 DEUX APPLICATIONS FONDAMENTALES DU BOOTSTRAP:
Bootstrap 11
résumé par le nombre de fois qu’on a tiré chacune des trois boules:
Fréquences
1.1
3
2
2
1
1
1
0
0
0
0
1.2
0
1
0
1
2
0
2
1
3
0
2.5
0
0
1
1
0
2
1
2
0
3
probabilité
θ
(1/3)3
(1/3)2
(1/3)2
2/9
(1/3)2
(1/3)2
(1/3)2
(1/3)2
(1/3)3
(1/3)3
1.210
1.284
2.454
2.560
1.361
4.134
2.667
4.271
1.440
6.250
On en déduit E(θ(F1 )|F0 ) = 1.21/27+1.44/9+2.56/9+... = 2.6955. L’estimateur
sans biais est donc égal à 2 × 2.56 − 2.695 = 2.42(4). On voit clairement sur cet
exemple comment effectuer le calcul explicite d’une statistique bootstrap. Mais
on voit aussi que, même pour un cas aussi simple où la taille n de l’échantillon
est égale à 3, il y a un grand nombre de tirages possibles pour F1 .
Exercice 3:
(a) Si au lieu de 3 valeurs, on avait observé un échantillon de taille n = 4,
combien de tirages F1 distincts peut on faire ?
(b) Même question pour n = 5.
(c) Même question pour n quelconque lorsque l’échantillon initial consiste en m
valeurs distinctes.
Indication:
Le nombre des configurations distinctes de F1 est égal au nombre de manières
distinctes de répartir n boules dans m cases.
Remarque:
Comme F0 est une loi discrète, la loi de θ(F1 ) est, elle aussi,
discrète. On remarque cependant que, même avec seulement 3 observations, on
obtient pour θ(F1 ) une loi beaucoup plus étalée. Ce phénomène ne fait que
s’accentuer quand on augmente n. En particulier, on pourra constater, après
C.Huber
11
4 DEUX APPLICATIONS FONDAMENTALES DU BOOTSTRAP:
Bootstrap 12
avoir fait l’exercice précédent, que le nombre des tirages F1 possibles lorsqu’on
a 10 observations distinctes pour l’échantillon initial, est déjà très grand : 92
378. Et le mode a pour probabilité 0,00036, ce qui est très faible. Donc, la loi,
sous F0 d’une fonctionnelle θ(F1 ) , bien qu’elle soit en principe discrète, est en
général très proche d’une loi continue. On se sert de cette remarque quand on
veut construire des intervalles de confiance.
Exercice 4:
On considère un n-échantillon (X1 , . . . , Xn ) d’une loi uniforme sur [0, θ] et on
estime θ par maximum de vraisemblance.
(a) Quel est l’estimateur du maximum de vraisemblance de θ ?
(b) Cet estimateur est il sans biais ?
(c) Comment utiliser la méthode du bootstrap pour réduire le biais ?
Indication:
La loi initiale est F = U[0θ] . F0 = U[0,max(Xi )] et F1 = U[0,max(Xi ∗ )]
2. Intervalle de confiance:
Soit F la loi inconnue, dont on veut estimer le paramètre θ(F ) par un intervalle de
confiance à 0,95 et F0 la loi associée à l’échantillon observé. θ(F0 ) est l’estimateur
de θ(F ). Soit F la loi inconnue, dont on veut estimer le paramètre θ(F ) par un
intervalle de confiance à 0,95 et F0 la loi associée à l’échantillon observé. θ(F0 )
est un estimateur de θ(F ). Pour obtenir, à partir de θ(F0 ), un intervalle de
confiance (en général asymétrique) pour θ(F ), on a besoin de connaı̂tre la loi de
θ(F ) − θ(F0 ), sous F (alors que F est inconnue) ou une approximation pour cette
loi. Si c’est le cas, on prend pour bornes de l’intervalle, en notant t1 = t0 .025 et
t2 = t0 .975 les quantiles 0.025 et 0.975 de cette loi: [θ(F0 ) + t1 ; θ(F0 ) + t2 ]. En
effet:
P (θ(F ) − θ(F0 ) < t1 )
= 0.025
P (θ(F ) − θ(F0 ) > t2 )
= 0.025
P (θ(F0 ) + t1 ≤ θ(F ) ≤ θ(F0 ) + t2 ) = 0.975.
C.Huber
12
4 DEUX APPLICATIONS FONDAMENTALES DU BOOTSTRAP:
Bootstrap 13
Si on ne connaı̂t pas cette loi, et si on n’a pas d’approximation pour celle-ci,
ou, tout simplement si on en dispose mais que les calculs sont très compliqués,
le bootstrap permet de lui substituer la loi de θ(F0 ) − θ(F1 ) sous F0 . Comme
F0 est cette fois connue, cette loi est, en principe, une loi discrète complètement
calculable. Alors apparaissent les deux points essentiels du bootstrap:
• La validation du bootstrap : il faut en effet valider cette substitution.
• La loi bootstrap n’est calculable qu’en principe. En réalité, pour les tailles
d’échantillon usuelles, le calcul exact serait trop long (voir ci-dessus ce que
cela donne dans le cas n = 3) et on doit donc procéder par simulation pour
évaluer cette loi bootstrap, ou pour évaluer ses paramètres d’intérêt pour le
problème considéré.
Supposons que l’on cherche maintenant un intervalle symétrique par rapport à
θ(F0 ), qui est par exemple la moyenne observée s’il s’agit de la moyenne, la
médiane observée s’il s’agit de la médiane, etc... En utilisant toujours le même
principe du bootstrap, au lieu de t tel que
P (θ(F0 ) − t ≤ θ(F ) ≤ θ(F0 ) + t|F ) = 0, 95
on va chercher t∗ tel que
P (θ(F1 ) − t∗ ≤ θ(F0 ) ≤ θ(F1 ) + t∗ | F0 ) = 0, 95
Dans cette dernière expression, F0 étant connu, θ(F0 ) est connu. Il s’agit donc
de déterminer la loi de θ(F1 ) où F1 est échantillonné à partir de F0 . On pourra
par exemple penser à l’échantillon ci-dessus, θ étant la médiane ou le carré de la
moyenne, etc.. . On trouve dans ce cas très facilement la loi de θ(F1 ) car la taille
de l’échantillon est très faible : n = 3. Lorsque n est plus grand, cela devient
compliqué et on utilise la loi des grands nombres: On rééchantillonne B fois, en
faisant chaque fois n tirages sans remise dans l’échantillon initial. On obtient
ainsi B nouveaux échantillons de taille n:
X1∗ , X2∗ , . . . , XB∗
et B valeurs de la statistique bootstrap θ(F1 ):
(θ(X ∗1 ), θ(X ∗2 ), . . . , θ(X ∗B ))
Ces valeurs dessinent progressivement la loi de θ(F1 ) et si on pouvait faire tendre
B vers l’infini, on aurait exactement la loi de θ(F1 ). En général, on choisit des
valeurs de B de l’ordre de 50 à 200 (voir Efron, 1993).
C.Huber
13
4 DEUX APPLICATIONS FONDAMENTALES DU BOOTSTRAP:
Bootstrap 14
Remarque : Nous avons vu que, dans le cas non paramétrique, θ(F1 ) a une loi discrète,
et, par conséquent, une valeur exactement égale à 0,95 n’est généralement pas atteignable. Nous avons cependant aussi remarqué que, très vite quand n croı̂t, la loi F 1
se diversifie et les atomes ne portent pas beaucoup de probabilté chacun. Par contre,
dans le cas d’une loi paramétrique continue, l’équation ci-dessus peut se résoudre exactement : il n’y a pas de saut de la probabilité qui régit θ(F1 ).
Exemple:
Prenons la loi exponentielle F = E(λ) de fonction de répartition F (x) = exp (−x/λ) et
θ(F ) = λ. L’estimateur du maximum de vraisemblance de λ est la moyenne empirique
(on pourra le vérifier à titre d’exercice):
λ̂ = X̄
Donc
F0 = E(λ̂) = E(X̄)
Notons la moyenne empirique Y /n : la loi de Y est la loi de la somme de n variables
exponentielles de même paramètre λ et donc c’est une loi gamma Γ(n, λ)(on pourra le
vérifier ). L’équation qui donne l’intervalle de confiance bootstrap
P (θ(F 1) − t∗ ≤ θ(F0 ) ≤ θ(F1 ) + t∗ |F0 ) = 0, 95
s’écrit ici:
P (Y /n − t∗ ≤ X ≤ Y /n + t∗ | Γ(n, X)) = 0.95
Le deuxième paramètre de la loi gamma est un paramètre d’échelle. En divisant
tout par ce paramètre, qui est connu puisqu’il est égal à la moyenne observée, on
obtient:
P (|Y 0 /n − 1| ≤ t∗ /X | Γ(n, 1)) = 0, 95
où Y 0 suit la loi gamma Γ(n, 1). Une table de la loi gamma suffit donc maintenant
pour calculer t∗ . Notons g0,95 le quantile vérifiant:
P (|Y 0 /n − 1| ≤ g0,95 ) = 0, 95.
Alors, t∗ = X0,95 et l’intervalle de confiance ”bootstrapé” pour la moyenne d’une loi
exponentielle est finalement:
[X̄ − g0,95 × X̄; X̄ − g0,95 × X̄]
C.Huber
14
4 DEUX APPLICATIONS FONDAMENTALES DU BOOTSTRAP:
Bootstrap 15
Exercice 5: Faire le même calcul dans le cas où la loi exponentielle est remplacée
par la loi normale N (µ, σ 2 ). On note λ = (µ, σ 2 ) et on veut un intervalle de confiance
pour la moyenne, c’est à dire que θ(F ) = µ.
Exercice 6: Bootstrap pour des durées censurées
Lorsqu’on a affaire à des durées de survie censurées, les observations se présentent
sous la forme de couples (Ti , Di ), T étant la durée observée et D l’indicateur de censure. Deux types de bootstrap peuvent alors être envisagés: le bootstrap simple et le
bootstrap évident. Le premier consiste à faire un tirage au hasard dans les couples, le
second à faire un tirage selon les fonctions de survie de Kaplan-Meier pour la durée de
vie et pour la censure. On essaiera les deux méthodes sur un exemple.
C.Huber
15

Documents pareils