UNE INTRODUCTION AU BOOTSTRAP

Transcription

UNE INTRODUCTION AU BOOTSTRAP
UNE INTRODUCTION AU BOOTSTRAP
Bernard Rapacchi
Centre Interuniversitaire de Calcul de Grenoble
15 decembre 1994
1
Table des matieres
0.1 Une petite introduction : : : : : : : : : : : : : :
0.1.1 La precision d'une moyenne : : : : : : : :
0.1.2 L'idee du bootstrap : : : : : : : : : : : :
0.2 Quelques rappels : : : : : : : : : : : : : : : : :
0.2.1 Echantillons aleatoires : : : : : : : : : : :
0.2.2 probabilites et statistiques : : : : : : : : :
0.2.3 L'exemple des ecoles : : : : : : : : : : : :
0.3 Estimateur \Plug-in" : : : : : : : : : : : : : : :
0.3.1 Fonction de distribution empirique : : : :
0.3.2 Comment sont lies y et z ? : : : : : : : :
0.3.3 Le principe \je branche" : : : : : : : : :
0.4 Erreurs standards : : : : : : : : : : : : : : : : :
0.4.1 Erreur-standard d'une moyenne : : : : : :
0.4.2 Theoreme central limite : : : : : : : : : :
0.4.3 Tirages a pile ou face : : : : : : : : : : :
0.5 Estimateurs bootstrap de l'erreur standard : : : :
0.5.1 Estimateur bootstrap non-paprametrique de
l'erreur standard : : : : : : : : : : : : : :
0.5.2 Algorithme d'estimation des erreurs-standards
0.5.3 Algorithme pour l'estimateur bootstrap de
l'erreur-standard : : : : : : : : : : : : : :
0.5.4 un exemple : : : : : : : : : : : : : : : :
0.5.5 Combien de bootstraps? : : : : : : : : :
1
1
2
4
4
5
6
7
7
8
9
10
10
11
12
13
13
14
15
16
17
2
0.6
0.7
0.8
0.9
0.10
0.5.6 Estimateur bootstrap parametrique de l'erreurstandard : : : : : : : : : : : : : : : : : : 18
0.5.7 Avant le bootstrap : : : : : : : : : : : : 19
Exemple d'utilisation : : : : : : : : : : : : : : : 20
0.6.1 L'analyse factorielle : : : : : : : : : : : : 20
0.6.2 Pourquoi une acp? : : : : : : : : : : : : 21
0.6.3 Le bootstrap : : : : : : : : : : : : : : : : 22
0.6.4 Et les vecteurs propres : : : : : : : : : : 25
Structures de donnees plus complexes : : : : : : 27
0.7.1 Generalites : : : : : : : : : : : : : : : : 27
0.7.2 Deux echantillons : : : : : : : : : : : : : 28
0.7.3 Bootstrap : : : : : : : : : : : : : : : : : 29
0.7.4 Structures de donnees plus generales : : : 31
0.7.5 Exemple : serie chronologique : : : : : : : 32
0.7.6 Comment utiliser le bootstrap? : : : : : : 33
Regression lineaire : : : : : : : : : : : : : : : : 36
0.8.1 Presentation du probleme : : : : : : : : : 36
0.8.2 modele probabiliste : : : : : : : : : : : : 37
0.8.3 Bootstrap : : : : : : : : : : : : : : : : : 38
0.8.4 bootstrap par paires ou par residus? : : : 40
Estimation du biais : : : : : : : : : : : : : : : : 41
0.9.1 Presentation du probleme : : : : : : : : : 41
0.9.2 Exemple : les patchs : : : : : : : : : : : : 42
0.9.3 Bootstrap : : : : : : : : : : : : : : : : : 43
0.9.4 Loi des grands nombres : : : : : : : : : : 45
Le Jacknife : : : : : : : : : : : : : : : : : : : : 46
0.10.1 Presentation : : : : : : : : : : : : : : : : 46
0.10.2 Estimation Jacknife du biais : : : : : : : 47
3
0.10.3 Exemple : tests etudiants : : : : : : : : :
0.10.4 Relation bootstrap et jacknife : : : : : : :
0.10.5 Problemes du jacknife : : : : : : : : : : :
0.10.6 D-jacknife : : : : : : : : : : : : : : : : :
0.11 Intervalles de conance et Bootstrap : : : : : : :
0.11.1 Intervalle \normalise" : : : : : : : : : : :
0.11.2 Intervalle \t-Studentise" : : : : : : : : : :
0.11.3 Intervalle \t-bootstrape" : : : : : : : : :
0.11.4 Exemple : souris : : : : : : : : : : : : : :
0.11.5 Transformations : : : : : : : : : : : : : :
0.11.6 Intervalle des percentiles : : : : : : : : :
0.11.7 Intervalle accelere et non-biaise : : : : : :
0.12 Tests de permutation : : : : : : : : : : : : : : :
0.12.1 Historique : : : : : : : : : : : : : : : : :
0.12.2 Exemple : les souris : : : : : : : : : : : :
0.12.3 L'idee : : : : : : : : : : : : : : : : : : :
0.12.4 Calcul de la statistique par test de permutation : : : : : : : : : : : : : : : : : : :
0.12.5 Un autre exemple : : : : : : : : : : : : :
48
49
50
51
52
52
54
55
56
57
58
60
62
62
63
64
66
68
Une petite introduction
1
0.1 Une petite introduction
0.1.1 La precision d'une moyenne
LA PRE CISION D'UNE MOYENNE
Les Souris.
Temps de survie en jours apres une intervention chirurgicale.
Groupe Donnees
Traitees 94 197 16
38 99 141
23
Taille
7
Moyenne Erreur-standard
86.86
25.24
Contr^ole 52 104 146
10 51 30
40 27 46
9
56.22
14.14
Dierence:
30.63
28.93
n
X
x = i=1 xi=n
r
erreur-standard = s2=n
n
s2 = X (xi ; x)=(n ; 1)
i=1
Qu'est ce qui ce passe si on veut comparer les 2
groupes par leur mediane?
Une petite introduction
2
0.1.2 L'idee du bootstrap
L'IDE E du BOOTSTRAP
ou du CYRANO
{ n iid x = (x1; x2; : : : ; xn)
{ on est interesse par une statistique s(x)
{ on tire B echantillons xb = (x1; x2; : : : ; xn) ou chaque x est
constitue en tirant avec remise n valeurs parmi les xi.
exemple: x = (x7; x1; x7; x3; : : : ; x4)
{ on calcule chaque valeur s(xb ) pour chaque bootstrap.
{ on calcule :
B
X
s(:) = b=1 s(xb )=B
{ on calcule l'estimation de l'erreur-standard :
B
X
se^ boot = f (s(x) ; s(:))2 =(B ; 1)g1=2
i=1
Une petite introduction
3
bootstrap
copies
S( X*2 )
S( X*1 )
S( X*B )
bootstrap
echantillons
*1
X
*2
X
X = (X1, X2 , . . . Xn )
*B
X
donnees
Quelques rappels
4
0.2 Quelques rappels
0.2.1 Echantillons aleatoires
E CHANTILLON ALE ATOIRES (rappels)
Population U : U1; U2; : : : ; UN de taille N .
un echantillon de taille n est un ensemble de n individus u1; u2; : : : ; un
selectionnes au hasard parmi les individus de U.
en pratique on tire n entiers au hasard j1; j2; : : : ; jn entre 1 et
N chacun ayant une probabilite 1=N d'^etre tire. On admet les
remises.
a chaque ui on associe des mesures notees xi, la collection
x = (x1; x2; : : : ; xn)
represente les donnees observees
si on avait toute la population on obtiendrait un recensement
X = (X1; X2; : : : ; XN )
Quelques rappels
5
0.2.2 probabilites et statistiques
THE ORIE PROBABILISTE
( Population ) ! Propriete d'un echantillon
INFE RENCE STATISTIQUE
( Observe) ! Propriete de la Population
{ qu'est ce qu'on apprend de X en observant x ?
{ qu'elle est la precision d'une statistique calculee?
Quelques rappels
6
0.2.3 L'exemple des ecoles
o
GPA
3.0
3.2
o
o
o
o o
o
o
o
o
o
o
2.6
3.4
GPA
3.0
3.2
2.8
2.6
oo
o
2.8
+ o +
o
+
+
o
+ +o +
+
+ + ++
o+++
+ +++ + +
+ +
+++++
+ +++ ++
++ o
+ + ++ o
+ o + ++ +
+ + +o++ +o + + +
+
o
+ + +o+ +
++ o +
o o
+
3.4
{ Population : 82 ecoles americaines.
{ LSAT : moyenne sur le test national.
{ GPA : moyenne des moyennes a la sortie.
{ on tire un echantillon de 15 ecoles.
{ Comment a partir de l'echantillon conna^tre la population?
+
500
550
600
LSAT
650
700
500
550
600
LSAT
650
700
Estimateur \Plug-in"
7
0.3 Estimateur \Plug-in"
0.3.1 Fonction de distribution empirique
FONCTION DE DISTRIBUTION EMPIRIQUE
On a une Fonction de distribution a partir de laquelle on tire un
echantillon x
F ! x = (x1; x2; : : : ; xn)
La Fonction de distribution Empirique F^ donne a chaque valeur
xi la probabilite 1=n.
En d'autres termes :
d
Prob
fAg = ProbFcfAg = #fxi 2 Ag=n
Exemple :
A = f(y; z ) : 0 < y < 600; 0 < z < 3:00g
Prob(A) = 16=82 = 0:195
ProbFcfAg = 5=15 = 0:333
Estimateur \Plug-in"
8
0.3.2 Comment sont lies y et z ?
Comment sont lies y et z ?
Si on regarde toute la population : on conna^t exactement les esperances des deux variables et on peut calculer LA statistique
corr(y; z ) =
i=1(Yj ; y )(Zj ; z )
2 P82 (Zj ; z )2 ]1=2
[P82
(
Y
;
)
j
y
i=1
i=1
P82
y = 597:5 et z = 3:13
corr(y; z ) = 0:761
Ce n'est que de l'arithmetique !
Mais le coecient de correlation de l'echantillon :
y; z ) =
d
corr(
^ y)(zj ; ^ z )
i=1(yj ; [P15
^ y)2 P15
^ z )2]1=2
i=1(yj ; i=1(zj ; P15
^ y = 600:3 et ^ z = 3:09
d y; z ) = 0:776
corr(
Ce n'est qu'une estimation de corr(y; z ) !
Estimateur \Plug-in"
9
0.3.3 Le principe \je branche"
LE PRINCIPE \JE BRANCHE"
{ Le param^etre: = t(F )
C'est une fonction de la distribution de probabilite.
{ L'estimateur \plug-in" : ^ = t(F^ )
C'est la m^eme fonction utilisee pour F^ que pour F .
^ = resume statistique
= la statistique
= l'estimateur
= LA sortie d'un listing
Oui , mais comment ^ approche-t-il ?
{ Quel est le biais?
{ Quelle est l'erreur \standard"?
C'est tout ce que tente de resoudre LE CYRANO ou
BOOTSTRAP
Erreurs standards
10
0.4 Erreurs standards
0.4.1 Erreur-standard d'une moyenne
ERREUR-STANDARD D'UNE MOYENNE
Soit x une variable aleatoire de distribution F :
Esperance et variance de F :
On note :
F = EF (x); F2 = varF (x) = EF [(x ; F )2]
x (F ; F2 )
On tire un echantillon x de taille n a partir de F,
F ! x = (x1; x2; : : : ; xn)
La moyenne x = Pni=1 xi=n de l'echantillon a pour esperance F
et pour variance F2 =n
x (F ; F2 =n)
l'erreur-standard de la moyenne x :
r
seF (x) = se(x) = varF (x) = F =n
Qu'est ce que ca veut dire?
Erreurs standards
11
0.4.2 Theoreme central limite
THE ORE ME CENTRAL LIMITE
Quand n est \assez grand", x suit une loi Normale d'esperance
F et de variance 2=n.
En d'autres termes :
x N(F ; 2; n)
Probfjx ; F j < p g =: 0:683
n
Probfjx ; F j < 2 p g =: 0:954
n
95.4%
68.3%
1/2
µ F -2 σF/n
µ F- σF/n1/2
µF
µ F+ σF/n1/2
µ F +2 σF/n
1/2
Erreurs standards
12
0.4.3 Tirages a pile ou face
TIRAGES A PILE OU FACE
ProbF fx = 1g = p et ProbF fx = 0g = 1 ; p
On tire n fois la piece, soit s le nombre de fois ou on tire \pile"
s = Pni=1 xi suit une binomiale.
la moyenne x = s=n = p^ est l'estimateur \plug-in" de p.
p^ = (p; p(1 ; p)=n)
0.25
o
0.20
o
o
o
o
o
frequence
0.10
0.15
p=0.90
o
o
o
p=0.25
o
0.05
o
o
0.0
o
o
o
o
o
0.0
o
o
o
o
o
o
o
0.2
o
o
o
o
o
o
o
o
o
0.4
o
o
o
0.6
o
o
o
o
o
0.8
o
o
o
o
o
1.0
x
Et encore on ne conna^t pas , on a juste une estimation
Estimateurs bootstrap de l'erreur standard
13
0.5 Estimateurs bootstrap de l'erreur standard
0.5.1 Estimateur bootstrap non-paprametrique de l'erreur standard
ESTIMATEUR BOOTSTRAP
NON-PARAME TRIQUE DE L'ERREUR
STANDARD
On a tire un echantillon
distribution inconnue F .
x = (x1; x2; : : : ; xn) d'une fonction de
F ! x = (x1; x2; : : : ; xn)
On veut estimer un param^etre = t(F ) a partir de x
On calcule un estimateur ^ = s(x)
F^ est la fonction de distribution qui donne la probabilite 1=n a
chaque xi
on tire des echantillons Bootstrap a partir de F^
F^ ! xb = (x1; x2; : : : ; xn)
on calcule la copie bootstrap ^ = s(x)
l'estimation bootstrap ideale de l'erreur-standard seF (^) est
l'erreur-standard de ^ pour des ensembles de donnees de taille
n tires suivant F^ , c'est-a-dire seF^ (^)
Estimateurs bootstrap de l'erreur standard
14
0.5.2 Algorithme d'estimation des erreurs-standards
Algorithme d'estimation des erreurs-standards
1. Tirer B echantillons bootstrap x1; x2; : : : ; xB a partir de x
2. calculer la copie bootstrap ^(b) = s(xb)
3. calculer l'erreur-standard pour les B copies
B
X
se^ B = f (^(b) ; ^(:))2 =(B ; 1)g1=2
b=1
avec ^(:) = PBb=1 ^(b)=B .
l'estimation bootstrap non-parametrique de l'erreur-standard
se^ B a pour limite seF (^) quand B tend vers l'inni.
Estimateurs bootstrap de l'erreur standard
15
0.5.3 Algorithme pour l'estimateur bootstrap de l'erreur-standard
ALGORITHME POUR CALCULER
L'ESTIMATEUR BOOTSTRAP DE L'ERREUR
STANDARD
Bootstrap
Bootstrap
Bootstrap
Echantillons
Copies de
^
θ
Estimation de
Distribution
de taille n
l’Erreur Standard
Empirique
X *1
θ* (1) = S (X*1 )
X *2
θ* (2) = S (X*2 )
X *3
θ* (3) = S (X*3 )
X *b
θ* (b) = S (X*b )
X *B
θ* (B) = S (X*B)
^
F
1/2
2
Se
ou‘
B
=
B
^*
^*
Σb=1 θ (b) - θ (.)
B-1
^ * (.) =
θ
Σ
B
b=1
^ * (b)
θ
B
Estimateurs bootstrap de l'erreur standard
16
0.5.4 un exemple
300
200
100
0
0
100
200
300
UN EXEMPLE :
Le coecient de correlation pour les ecoles
0.0
B:
0.2
0.4
0.6
Bootstrap
0.8
1.0
0.0
0.2
0.4
0.6
0.8
Echantillons aleatoires
25 50 100 200 400 800 1600 3200
se^ B : 0.140 0.142 0.151 0.143 0.141 0.137 0.133 0.132
1.0
Estimateurs bootstrap de l'erreur standard
0.5.5 Combien de bootstraps?
COMBIEN DE BOOTSTRAP?
Ca depend !
Regles \pifometriques"
{ B=25 a B=50 : pour obtenir un debut d'information.
{ B=200 : pour estimer l'erreur-standard.
{ B=500 : pour l'evaluation d'intervalles de conance.
17
Estimateurs bootstrap de l'erreur standard
18
0.5.6 Estimateur bootstrap parametrique de l'erreur-standard
ESTIMATEUR BOOTSTRAP PARAME TRIQUE
DE L'ERREUR STANDARD
On suppose qu'on a une estimation F^par d'un modele parametrique
de F.
l'estimateur Bootstrap parametrique de l'erreur-standard est seF^par (^)
Exemple : les ecoles.
On suppose que les 2 variables suivent une loi binormale de moyenne
(y; z ) et de matrice de covariance :
0
1
1 BB P(yi ; y)2 P(yi ; y )(zi ; z ) CC
14 @ P(yi ; y)(zi ; z ) P(zi ; z )2 A
On tire B echantillons de taille 15 qui suivent cette loi et on calcule les copies bootstrap, puis l'estimateur bootstrap de l'erreurstandard.
Estimateurs bootstrap de l'erreur standard
19
0.5.7 Avant le bootstrap
AVANT LE BOOTSTRAP
{ QUE DES MATHS !
{ Quelques distributions
{ Quelques statistiques
{ Exemple : la correlation. Si F est un loi bi-normale alors
se^ normal = (1 ;
corr
^ 2)=
p
n;3
AVEC LE BOOTSTRAP
{ QUE DES CALCULS INFORMATIQUES !
{ On est libre des hypotheses
{ On est plus pres des donnees
Exemple d'utilisation
20
0.6 Exemple d'utilisation
0.6.1 L'analyse factorielle
EXEMPLE D'ANALYSE FACTORIELLE
88 etudiants ont passe 5 examens en mathematiques.
Matrice de donnees : 88 lignes xi = (xi1; xi2; xi3; xi4; xi5) et 5 colonnes.
moyenne empirique x = (38:95; 50:59; 50:60; 46:68; 42:31)
matrice empirique de covariance : G
Calcul des 5 valeurs propres de G :
^ 1 = 679:2
^ 2 = 199:8
^ 3 = 102:6
^ 4 = 83:7
^ 5 = 31:8
Exemple d'utilisation
21
0.6.2 Pourquoi une acp?
POURQUOI UNE ACP?
Si il existe une seule valeur Qi pour chaque etudiant qui pourrait
le \resumer" et 5 valeurs v = (v1; v2; v3; v4; v5) avec
xi = Qiv
alors seul ^ 1 est positif, les autres sont nuls.
^ = ^ 1= X5 ^ i
i=1
^ est-il egal a 1?
^ = 0:619
Quelle est la precision de ^
Exemple d'utilisation
0.6.3 Le bootstrap
22
LE BOOTSTRAP
Chaque echantillon bootstrap sera une matrice X de 5 colonnes
et 88 lignes tiree au hasard parmi les xi.
On calcule G
On calcule les 5 valeurs propres : ^ i
On calcule : ^ = ^ 1= P5i=1 ^ i
Exemple d'utilisation
0
10
20
30
23
0.50
0.55
0.60
0.65
QI
0.70
0.75
Exemple d'utilisation
24
= 0:625
se^ 200 = 0:047
L'intervalle de conance standard pour la vraie valeur de avec
une probabilite (1 ; 2) est :
2 ^ z (1;):se^
ou z (1;) est le 100(1 ; )-ieme percentile de la loi normale centree
reduite.
Ici :
2 0:619 0:047
= [0:572; 0:666]
avec une probabilite 0:683
2 0:619 1:645 0:047 = [0:542; 0:696]
avec une probabilite 0:900
Exemple d'utilisation
0.6.4 Et les vecteurs propres
POURQUOI PAS LA ME^ ME CHOSE AVEC LES
VECTEURS PROPRES?
0.5
0.0
-0.5
25
2
3
4
5
0.0
0.5
1.0
-1.0
-0.5
0.0
0.5
1.0
Exemple d'utilisation
1
-0.5
Composante
-1.0
1
2
3
Composante
4
5
26
Structures de donnees plus complexes
27
0.7 Structures de donnees plus complexes
0.7.1 Generalites
DES STRUCTURES DE DONNE ES PLUS
COMPLEXES
MONDE REEL
Echantillon
Aleatoire
Observe
Distribution de
Probabilite
Inconnue
F
MONDE DU BOOTSTRAP
X = (X 1 , X 2, ,. . . X n)
Distribution
Empirique
F
^
θ = S( X )
Interet de la Statistique
Echantillon
Bootstrap
*
*
*
*
X = (X 1 , X 2, ,. . . X n)
*
^*
θ = S( X )
Copie Bootstrap
{ Le Point Crucial : =)
{ Comment calculer une estimation F^ de F a partir des donnees
x?
{ On note :
P ;! x
\Du modele probabiliste P on a tire x"
Structures de donnees plus complexes
28
0.7.2 Deux echantillons
DEUX E CHANTILLONS
Les souris
Soit F la distribution des valeurs pour le groupe traite
Soit G la distribution des valeurs pour le groupe de contr^ole
P = (F; G)
z = (z1; z2; : : : ; zm) les valeurs du groupe traite
y = (y1; y2; : : : ; yn) les valeurs du groupe de contr^ole
x = (z; y)
c'est
P ;! x
F ;! z independamment de G ;! y
Structures de donnees plus complexes
29
0.7.3 Bootstrap
BOOTSTRAP
F^ et G^ les distributions empiriques basees sur z et y
^ G^ )
P^ = (F;
c'est
P^ ;! x
F^ ;! z independamment de G^ ;! y
{ echantillons bootstrap
x = (z; y) = (zi ; zi ; : : : ; zi ; zj ; zj ; : : : ; zj )
1
2
7
1
2
9
ou (i1; i2; : : : ; i7) est un echantillon de taille 7 tire parmi les
entiers 1,2,: : : ,7 et (j1; j2; : : : ; j9) est un echantillon de taille 9
tire parmi les entiers 1,2,: : : ,9 independamment.
{ param^etre : = z ; y = EF (z ) ; EG(y)
{ statistique : ^ = ^ z ; ^ y = z ; y = 30:63
{ copie bootstrap = z ; y
{ estimation bootstrap de l'erreur-standard : se^ 1400 = 26:85
^ se^ 1400 = 1:14 trop petit pour conclure a un eet !
{ rapport : =
Structures de donnees plus complexes
-50
0
30
50
Difference des moyennes
100
Structures de donnees plus complexes
31
0.7.4 Structures de donnees plus generales
STRUCTURES DE DONNE ES PLUS
GE NE RALES
MONDE REEL
Modele de
Modele de
Probabilite
Inconnu
P
MONDE DU BOOTSTRAP
Donnees
Observees
X = (X 1 , X 2, ,. . . X n)
Probabilite
Estime
^
P
^
θ = S( X )
Echantillon
Bootstrap
*
*
*
*
X = (X 1 , X 2, ,. . . X n)
^*
θ=
Interet de la Statistique
*
S( X )
Copie Bootstrap
1. On doit estimer le modele probabiliste P a partir des donnees
x:
x =) P^
2. On doit simuler des donnees bootstrap x a partir de P^ :
P^ ;! x
Structures de donnees plus complexes
32
0.7.5 Exemple : serie chronologique
2.5
1.5
2.0
hormone
3.0
3.5
EXEMPLE : SE RIE CHRONOLOGIQUE
0
10
20
30
40
periode de temps
{ A chaque temps t on mesure une hormone yt
{ modele le plus simpliste : auto-regressif d'ordre 1.
zt = yt ; EF (y) = yt ; AR(1) : zt = zt;1 + tpour1 < t 48 avec ; 1 < < 1
{ les t sont un echantillon tire d'une loi de distribution F
F ;! (2; 3; : : : ; 48)
avec EF () = 0.
Structures de donnees plus complexes
33
0.7.6 Comment utiliser le bootstrap?
COMMENT UTILISER LE BOOTSTRAP?
{ Estimation du param^etre .
{ exemple : par les moindres carres.
X
^= min 48
(zt ; bzt;1)2
b 2
^ = 0:586
{ Precision de l'estimateur ^ ???
{ bootstrap
{ Quel est le modele probabiliste P ??
{ P = (; F )
{ Estimation de : x =) P^
{ on estime par ^.
^ t;1 F^ denit une probabilite 1=47 sur
{ soit ^t = zt ; z
chaque ^t = zt
Structures de donnees plus complexes
34
0
5
10
15
20
25
30
{ Tirage du bootstrap : P^ ;! x
{ On pose z1 = y1 ; y C'est une constante comme n=48 !
{ On tire les t a partir de F^ :
F^ ;! (2 ; 3; : : : ; 48)
{ On pose :
^ 1 + 2
z2 = z
^ 2 + 3
z3 = z
.. ..
^ 47 + 48
z48 = z
{ Pour chaque bootstrap on calcule ^
0.4
0.6
200 bootstraps AR(1)
0.8
1.0
Structures de donnees plus complexes
35
Est ce vraiment un AR(1)?
0
0
10
10
20
20
30
30
40
40
50
50
On teste avec un AR(2)
0.4
0.6
0.8
Premier coefficient
1.0
1.2
-0.6
-0.4
-0.2
0.0
0.2
Deuxieme coefficient
Autre methode pour les series chronologiques : bootstrap par blocs.
Regression lineaire
36
0.8 Regression lineaire
0.8.1 Presentation du probleme
RE GRESSION LINE AIRE
xi = (ci; yi)
ci = (ci1; ci2; : : : ; cip)
yi : reponse ci : predicteurs
p
X
i = E(yijci) = ci = i=1 cij j
Estimateur des moindres carres :
^= min Xn (yi ; cib)2
b i=1
0
1
BB 1 CC
BB
C
BB 2 CCC
BB . CC
BB . CC
@
A
c
C= c
cn
^ = (CT C);1CT y
Regression lineaire
37
0.8.2 modele probabiliste
modele probabiliste
Modele : yi = ci + i i suit une loi de distribution F .
alors :
F2 = varF () et G = CT C
r
^
se(j ) = F Gjj ou Gjj element diagonal de G;1
Mais on ne conna^t pas F : estimation
"
#1=2
1. ^F = RSE(^)=n
"
#
1=2
^
2. F = RSE( )=(n ; p) estimation non biaisee.
r
r
^
^
se(
^ j ) = ^F Gjj ou se(j ) = F Gjj
Regression lineaire
38
0.8.3 Bootstrap
bootstrap
1. mecanisme probabiliste: P ;! x.
2 composantes : P = (; F )
2. estimation de P^ x =) P^
{ estimation de ^
{ Soit ^i = yi ; ci^
F^ : probabilite 1=n sur chaque ^i
^ F^ )
P^ = (;
3. bootstrap : P^ ;! x
{ Generation : F^ ;! (2; 3; : : : ; n)
{ Puis :
yi = ci^ + i xi = (xi; yi)
4. estimation bootstrap :
^ = (CT C);1CT y
5. estimation bootstrap de l'erreur-standard :
var(^) = (CT C);1CT var(y)C(CT C);1
=
^F2 (CT C);1
Regression lineaire
39
car var(y) = ^F2 I. Ainsi :
r
^
^ ^j )
se^ 1(j ) = ^ F Gjj = se(
c'est le m^eme!
Regression lineaire
40
0.8.4 bootstrap par paires ou par residus?
bootstrap par paires ou par residus?
1. par paires :
xi = f(ci ; yi ); (ci ; yi ); : : : ; (cin; yin)g
1
1
2
2
2. bootstrap des residus :
xi = f(c1; c1^ + ^i ); (c2; c2^ + ^i ); : : : ; (cn; cn^ + ^in )g
1
2
Quel est le meilleur?
Ca
depend de la conance qu'on a dans le modele lineaire
{ le modele suppose que i ne depend pas de ci : c'est-a-dire que
F est le m^eme pour tout ci.
{ \Par paires" est moins sensible aux hypotheses.
Estimation du biais
41
0.9 Estimation du biais
0.9.1 Presentation du probleme
ESTIMATION DU BIAIS
{ Une fonction de distribution inconnue : F
F ! x = (x1; x2; : : : ; xn)
{ Param^etre : = t(F )
{ Estimateur : ^ = s(x)
{ biais :
^ ) = EF [s(x)] ; t(F )
biaisF (;
{ L'estimation bootstrap du biais :
biaisF^ = EF^ [s(x)] ; t(F^ )
Remarques :
{ t(F^ ) peut ^etre dierent de ^ = s(x)
{ biaisF^ est l'estimateur \plug-in" de biaisF .
{ En pratique :
{ on tire B bootstrap
{ approximation de biaisF^ par :
{ ^(b) = s(x)
{ ^(:) = PBb=1 ^(b)=B
{ biaisB = ^(:) ; t(F^ )
Estimation du biais
42
0.9.2 Exemple : les patchs
UN EXEMPLE : LES PATCHS
Nouveau \patch" medical pour infuser une hormone dans le sang.
La compagnie a deja un ancien \patch".
E
(nouveau) ; E (ancien)
= E (ancien) ; E (placebo)
Acceptation de la Food Drug Administration si : jj 0:20 z =vieuxplacebo, et y =nouveau-vieux, xi = (zi; yi)
F ! x = (x1; x2; : : : ; x8)
E
F (y )
= t(F ) = E (z )
f
Estimateur \plug-in" :
452:3
= ;0:0713
^ = t(F^ ) = Pi8=1 yzi==88 = ;6342
P8
i=1 i
Estimation du biais
43
0.9.3 Bootstrap
BOOTSTRAP
y
^ = z
-0.2
0.0
Rapport
0.2
^ 400 = ^(:) ; ^ = ;0:0670 ; (;0:0713)
biais
se^ 400 = 0:105
^ 400=se^ 400 = 0:041 < 0:25
biais
0.4
Estimation du biais
On en conclut qu'on n'a pas a se soucier du biais.
Mais a-t-on assez de B=400 bootstrap?
44
Estimation du biais
45
0.9.4 Loi des grands nombres
Loi des grands nombres :
ProbF^ fj^(:) ; EF^ f^gj < 2 pse^ BB g =
^ 400 ; biais
^ 1j < 2 sep^ B g =: 0:95
ProbF^ fjbiais
B
en ayant : se
^ B = 0:105 et B = 400 on a:
^ 400 ; biais
^ 1j < 0:0105g =: 0:95
ProbF^ fjbiais
L'etendue de cet intervalle est beaucoup plus grand que 0.0043 !
Mais avec une probabilite de 0.95, on a:
et le rapport :
^ 1j < 0:0043 + 0:0105 = 0:0148
jbiais
^ 1=se^ 1 < 0:14 < 0:25
biais
Donc ce n'est pas grave !
Le Jacknife
46
0.10 Le Jacknife
0.10.1 Presentation
LE JACKKNIFE
(couteau suisse)
Echantillon : x = (x1; x2; : : : ; xn)
Estimateur : ^ = s(x)
estimateur du biais et de l'erreur-standard??
Echantillon Jacknife :
x(i) = (x1; x2; : : : ; xi;1; xi+1; : : : ; xn)
Copie Jacknife : ^(i) = s(x(i))
Le Jacknife
47
0.10.2 Estimation Jacknife du biais
Estimation Jacknife du biais :
avec :
^ jack = (n ; 1)(^(:) ; ^)
biais
^(:) =
n
X
^(i)=n
i=1
Estimation jackknife de l'erreur-standard :
se^ jack =
=
[ n;n 1 P(^(i) ; ^(:))2 ]1=2
[ n1 P(
pn ; 1(^ ; ^(:)))2 ]1=2
(i)
Le Jacknife
48
0.10.3 Exemple : tests etudiants
EXEMPLE : TESTS ETUDIANTS
0.45
0.50
0.55
0.60
jackknife
0.65
0.70
0.75
0.45
0.50
0.55
0.60
jackknife grossi
0.65
0.70
0.75
0.45
0.50
0.55
0.60
bootstrap
0.65
0.70
0.75
Le Jacknife
49
0.10.4 Relation bootstrap et jacknife
RELATION BOOTSTRAP - JACKKNIFE
{ Cas d'une statistique lineaire : ^ = + n1 P (xi).
Exemple : moyenne (xi) = xi; = 0
Dans ce cas les erreurs-standard sont egales a un facteur [(n ;
1)=n)]1=2 pres.
Le Jacknife
50
0.10.5 Problemes du jacknife
PROBLE MES DU JACKKNIFE
{ Jacknife marche bien si la statistique est \lisse" !
Exemple : mediane
{ groupe de contr^ole des souris :
10; 27; 31; 40; 46; 50; 52; 104; 146
{ Valeurs jackknife :
48; 48; 48; 48; 45; 43; 43; 43; 43
{
^ jack = 6:68
biais
{
^ 100 = 9:58
biais
Le Jacknife
0.10.6 D-jacknife
51
D-JACKKNIFE
On enleve d observations au lieu d'une seule, avec n = r:d
estimation de l'erreur-standard :
^ jack = [ r X(^(i) ; ^(:))2 ]1=2
biais
d
Cn
Pour que ca marche pour la mediane il faut que
n1=2=d ! 0 et n ; d ! 1
p
en pratique, on prend : d = n
Intervalles de conance et Bootstrap
52
0.11 Intervalles de conance et Bootstrap
0.11.1 Intervalle \normalise"
INTERVALLES DE CONFIANCE ET
BOOTSTRAP
Intervalle \normalise" :
{ F ! x = (x1; x2; : : : ; xn)
{ Param^etre : = t(F )
{ Estimateur : ^ = t(F^ )
{ on conna^t un estimateur se^ de l'erreur-standard de ^.
{ dans beaucoup de circonstances, on applique la loi des grands
nombres :
^; Z = se^ N (0; 1)
En d'autres mots , si z () est 100.ieme percentile de la loi
N (0; 1 :
^ ; (1;)
z g = 1 ; 2
ProbF f
se^
ou comme z () = ;z (1;)
ProbF f 2 [^ ; z (1;)se^ ; ^ + z (1;)se]
^ g = 1 ; 2
z ()
Exemple : souris :
^ = 56:22; se^ = 13:33
Intervalles de conance et Bootstrap
Intervalle de conance \normalise" a 90 % :
56:22 1:645 13:33 = [34:29; 78:15]
53
Intervalles de conance et Bootstrap
54
0.11.2 Intervalle \t-Studentise"
Intervalle \t-Studentise" :
{ Gosset (1908) :
^; Z=
t
n;1
se^
avec tn;1 suit une loi de Student a n ; 1 degres de liberte.
{ Quand n est grand, tn;1 ressemble etrangement a N (0; 1).
{ Meilleur approximation dans le cas de petits echantillons.
Exemple : souris :
^ = 56:22; se^ = 13:33
Intervalle de conance \studentise" a 90 % :
56:22 1:86 13:33 = [31:22; 81:01]
Intervalles de conance et Bootstrap
55
0.11.3 Intervalle \t-bootstrape"
Intervalle \t-bootstrape" :
{ Se liberer des hypotheses de normalite !
{ Contruire une table de Z a partir des donnees .
{ Calcul :
{ generation de B bootstraps.
{ Calcul de :
^(b) ; ^
Z (b) = se^ (b)
{ le ieme percentile de Z (b) est estime par la valeur t^() tel
que :
#fZ (b) t^()g=B = exemple : B = 1000 .
5 % ! 50ieme valeur
95 % ! 950ieme valeur
{ Intervalle de conance :
[^ ; t^(1;) se^ ; ^ ; t^() se]
^
Intervalles de conance et Bootstrap
56
0.11.4 Exemple : souris
Exemple : souris
Percentile
5% 10% 16%
t8
Normal
t-bootstrape
50% 84% 90% 95%
-1.86 -1.40 -1.10 0.00 1.10 1.40 1.86
-1.65 -1.28 -0.99 0.00 0.99 1.28 1.65
-4.53 -2.01 -1.32 -0.025 0.86 1.19 1.53
Intervalle normalise : [34:29; 78:15]
Intervalle studentise: [31:22; 81:01]
Intervalle t-bootstrape : [35:82; 116:74]
Problemes :
{ symetrie de la distribution de la statistique.
{ Marche bien pour les statistiques de localisation.
{ estimation de se^ (b)?? -> double bootstrap !
{ eratique si n est petit.
Intervalles de conance et Bootstrap
57
0.11.5 Transformations
TRANSFORMATIONS
On peut obtenir des intervalles de conance assez farfelus !
Exemple :
coecient de correlation des notes des etudiants.
Intervalle de conance a 98% : [;0:68; 1:03]
On transforme pour que les valeurs possibles de l'estimation de la
statistique soit reelles.
Exemple :
coecient de correlation = 0:5 log
1+
1;
On cherche des transformations qui :
1. normalisent
2. stabilisent la variance
Intervalles de conance et Bootstrap
58
0.11.6 Intervalle des percentiles
Intervalle des percentiles :
{ Generation de B bootstraps :
P^ ! x et ^ = s(x)
{ soit G^ la fonction de distribution cumulee des ^.
{ l'intervalle de conance a (1 ; 2) base sur les percentiles est :
[G^ ;1 (); G^ ;1(1 ; )]
{ Si B: est un entier, l'intervalle de conance est :
[^B(); ^B(1;) ]
Exemple :
(x1; x2; : : : ; x40)tire deN (0; 1)
Param^etre : = e ou est la moyenne. ( = 1).
Statistique : ^ = ex
2.5% 5% 10% 16%50% 84% 90%95% 97.5%
0.75 0.82 0.90 0.98
.125 1.61
1.75 1.93 2.07
ICperc = [0:75; 2:07]
ICnorm = [0:59; 1:92]
{ ICnorm marche si la distribution de est \Normale".
Intervalles de conance et Bootstrap
{ Attention : ICperc n'arrange pas le biais !
59
Intervalles de conance et Bootstrap
60
0.11.7 Intervalle accelere et non-biaise
Intervalle accelere et non-biaise
BCa : [^bas; ^haut] = [^B( ); ^B( )]
1
avec :
1 =
2 =
2
()
z
^
0 +z
(^z0 + 1;a^(^z0+z()) )
(1;)
(^z0 + 1;a^z^0(^+z0z+z(1;)) )
() = Fonction de distribution cumulee deN (0; 1)
z () = 100ieme percentile deN (0; 1)
^(b)<^g
#
f
;
1
P( B )
n (^ ;^ )3
i=1 (:) (i)
P
n
6f i=1(^(:);^(i))2g3=2
z^0 =
a^ =
1. si a^ et z0 sont nuls alors BCa = ICVperc.
2. z0 corrige le biais. Il mesure le biais median de ^.
3. a^ est l'acceleration. L'approximation ^ N (; se2) suppose que
la variance ne depend pas de . a^ corrige ce possible defaut.
Intervalles de conance et Bootstrap
61
1. Comme l'ICperc, le BCpa conserve les transformations.
exemple : le BCa de est calcule en prenant les racines carrees de [^bas; ^haut]
p
s
s
BCa( ) = [ ^bas; ^haut]
2. BCa est plus precis que les autres.
Pour BCa : Probf < ^basg = + cbas
n
Pour ICperc; ICnorm : Probf < ^basg = + cpbasn
Tests de permutation
62
0.12 Tests de permutation
0.12.1 Historique
TESTS DE PERMUTATION
{ Fisher 1930. (t de Student).
{ Problemes d'hypotheses mathematiques.
{ Exemple : 2 echantillons independants.
{
F ;! z = (z1; z2; : : : ; zm)
independamment de
G ;! y = (y1; y2; : : : ; yn)
{ Hypothese nulle : H0 : F = G
{ H0 c'est l'avocat du diable.
{ exemple des souris : un souhait ^ = z ; y > 0
{ Niveau de signication :
ASL = ProbH f^ ^g
0
{ ^ est une variable aleatoire qui suit la loi de distribution
de ^ si H0 est vraie
{ Plus ASL est petit, plus on a de chances que H0 soit vraie.
Tests de permutation
63
0.12.2 Exemple : les souris
EXEMPLE \LES SOURIS"
{ Hypotheses : F et G sont des distributions normales
F = N (T ; 2)G = N (C ; 2)
{ Hypothese nulle :
{ ou
H0 : T = C
1 1
H0 : ^ N (0; 2( + )
n m
{
ASL = ProbfZ > p1=n^+1=m g
= 1 ; ( p1=n^+1=m )
{ Mais est inconnu Estimation :
n
m
X
X
2
= f [(zi ; z ) + (yj ; y )2]=[n + m ; 2]g1=2
{
i=1
j =1
30:63
ASL = 1 ; (
) = 0:131
54:21 1=9 + 1=7
{ t de Student :
30:63
r
ASL = Probft14 g = 0:141
54:21 1=9 + 1=7
{ On ne peut pas rejeter H0
r
Tests de permutation
64
0.12.3 L'idee
L'IDE E
On peut ranger les valeurs zi et yj par ordre croissant et indiquer
pour chaque valeur a quel groupe elle appartient.
valeur :
groupe :
valeur :
groupe :
10
y
50
y
16
z
52
y
23
z
94
z
27 31 38 40 46
y y z y y
99 104 141 146 197
z y z y z
v : vecteur des N valeurs
g : vecteur des groupes
N = n+m
la donnee du couple (g,v) est identique a donner le couple (z,y)
Nombre de vecteurs g possibles : CNm
Tests de permutation
65
Sous H0, le vecteur g a la probabilite 1=CNm de valoir chacune de
ces valeurs possibles
La statistique ^ est une fonction de (g,v) :
^ = S ((g,v))
Pour chacune des CNm vecteurs possibles de g on peut calculer :
^ = ^(g) = S (g; v)
Le niveau de signication est :
ASLperm = Probpermf^ ^g
= #f^ ^g=CNm
Tests de permutation
66
0.12.4 Calcul de la statistique par test de permutation
Calcul de la statistique par test de permutation
1. Choisir B vecteurs independants g(1); g(2); : : : ; g(B )
parmi les CNm vecteurs possibles.
2. Calculer :
^(b) = S (g; v)
3. Calculer l'approximation :
^ perm = #f^ ^g=B
ASL
NOMBRE DE PERMUTATIONS
ASLperm : 0.5 0.25 0.10 0.005 0.025
B:
100 300 900 2000 4000
Exemple des souris : ASLperm = 0.132
{ Aucune hypothese n'est faite sur F et G.
{ On peut remplacer la dierence des moyennes par la dierence
d'une autre tendance centrale.
{ Dans la pratique on tire N valeurs uniforme entre 0 et 1,
puis les n plus petites valeurs sont dites appartenir au pre-
Tests de permutation
mier groupe et les autres aux deuxieme groupe.
67
Tests de permutation
68
0.12.5 Un autre exemple
TESTS DE PERMUTATION : UN AUTRE
EXEMPLE
PROBLE ME :
COMPARER 2 MARQUES D'AIGUILLES UTILISE ES POUR
DES PRE LE VEMENTS SANGUINS.
Marque Nombre de Nombre
prelevements d'infections
A
40
4
B
30
0
QUESTION :
PEUT-ON ATTRIBUER LA DIFFE RENCE DE 4 AU HASARD?
Tests de permutation
69
TEST DE PERMUTATION :
1. faire B fois :
(a) generer 40 nombres entiers au hasard entre 1 et 70.
(b) compter le nombre de fois g1 ou les entiers 1 a 4 (supposes
^etre infectes) apparaissent.
(c) generer 30 nombres entiers au hasard entre 1 et 70.
(d) compter le nombre de fois g2 ou les entiers 1 a 4 apparaissent.
(e) calculer la dierence ^ = g1 ; g2.
2. calculer :
^ perm = #f^ 4g=B
ASL
DANS NOTRE EXEMPLE :
^ perm = 0:043
B = 3000 et ASL
70
Bibliographie
[1] P. Diaconis et B. Efron. Methodes de calculs statistiques
intensifs sur ordinateurs. dans Le calcul intensif. Bibliotheque Pour La Science. (1989).
[2] B. Efron. An Introduction to the Bootstrap. Chapmann &
Hall . (1993).
[3] F. Mosteller et J. W. Tukey. Data Analysis and Regression.
Addison-Wesley (1977).

Documents pareils