TP sur les test de Kolmogorov.

Transcription

TP sur les test de Kolmogorov.
Université de Provence. Préparation Agrégation.
Épreuve de modélisation, option Probabilité-Statistique.
.
.
TP sur les test de Kolmogorov.
Fabienne CASTELL
Exercice 1: Test d’ajustement de Kolmogorov.
Soit (X1 , · · · , Xn ) un n-échantillon de loi de fonction de répartition F . Le test d’ajustement
de Kolmogorov permet de tester (H0 ) : “F = F0 ”, où F0 est la fonction de répartition
continue d’une loi donnée, contre l’alternative (H1 ) : “F 6= F0 ”. La statistique de test est
donnée par
n
√
1X
Dn = n sup |F̂n (x) − F0 (x)| , où F̂n (x) =
1IXi ≤x .
n i=1
x
Le test s’appuie sur le résultat suivant : si les Xi sont de fonction de répartition F0 (i.e. sous
(H0 )), la loi de Dn ne dépend plus que de n. Cette loi est tabulée pour de petites valeurs de
n, et quand n → ∞, elle tend vers une limite dont la fonction de répartition est donnée par
la fonction pks de Stixbox.
La région de rejet du test d’ajustement de Kolmogorov est alors donnée par R = {Dn ≥ t},
où t est à choisir tel que α = P [Dn ≥ t].
Le calcul effectif de Dn se fait en remarquant que
√
n sup |F̂n (x) − F0 (x)|
Dn+ =
x
√
i
=
n sup
sup
| − F0 (x)|
n
0≤i≤n x∈[X(i) ;X(i+1) [
√
i
i
=
− F0 (X(i) ); F0 (X(i+1) ) −
n sup max
n
n
0≤i≤n
Notez que cette statistique ne dépend en fait que du réarrangement par ordre croissant
de l’échantillon de données.
1/ Tester par la méthode de Kolmogorov-Smirnov le générateur randn de Matlab. On pourra
par exemple tracer le graphe du niveau critique en fonction de la taille de l’échantillon.
2/ Exemple tiré du Saporta. On s’intéresse à la durée de vie d’un certain type de matériel,
et on veut en particulier savoir si cette durée de vie suit une loi exponentielle (hypothèse
H0 ), ou pas (hypothèse H1 ). Pour cela, on observe pendant T=200 heures un système où
les appareils tombés en panne sont immédiatement remplacés. On note par NT le nombre
de pannes jusqu’à l’instant T , et par Ti les différents instants de panne. Sous (H0 ), NT suit
une loi de Poisson de paramètre λ, et la loi de (T1 , · · · , Tn ) sachant que NT = n est la loi de
n variables de loi U([0, T ]) réarrangées.
On a observé NT (ω) = 5, T1 (ω) = 51, T2 (ω) = 78, T3 (ω) = 110, T4 (ω) = 135, T5 (ω) = 180.
Conclure.
3/ On rappelle que la loi de Student à d degrés de liberté est la loi de la variable Td , Z/X√d ,
où X et Z sont indépendantes, X ∼ N(0, 1), et Z ∼ χ2d . Td est donc une variable symétrique,
et on peut montrer que sa densité est donnée par
fd (t) = √
1
dB(1/2, d/2) 1 +
1
t2 (d+1)/2
d
.
Pour d = 1 : 50, tracer sur une même figure les graphes des densités de N(0, 1) et Td .
Pour différentes valeurs de d, générer un n-échantillon de Td , et tester l’ajustement de cet
échantillon à la loi N(0, 1).
Exercice 2: Test de comparaison de Kolmorogorov Smirnov.
Soit (X1 , · · · , Xn ) un n-échantillon de loi de fonction de répartition continue F , et (Y1 , · · · , Ym )
un m-échantillon de loi de fonction de répartition continue G, indépendant du premier
échantillon. On désigne par Fn (Gm respectivement) la fonction de répartition empirique
de (X1 , · · · , Xn ) ((Y1 , · · · , Ym ) respectivement). La statistique de Kolmogorov-Smirnov
Dn,m = sup |Fn (x) − Gm (x)|
x
permet de tester H0 : “F = G”, contre H1 : “F 6= G”, dans lap
mesure où sous H0 , la loi de
nm
Dn,m ne dépend pas de F . Notez que la loi asymptotique de n+m
Dn,m est la même que
la loi asymptotique de Dn , et est donnée par la fonction pks.m de Stixbox. Elle est tabulée
pour de petites valeurs de n et m.
1/ Écrire le test de Kolmogorov Smirnov de comparaison de deux échantillons indépendants.
2/ Exemple tiré du Dacunha-Castelle. On a relevé dans deux forêts les hauteurs (en
mètres) de 13 et 14 arbres respectivement. On obtient le tableau suivant
Forêt 1
Forêt 2
23,4 24,4 24,6 24.9 25 26,2 26,3 26,8 26,9 27 27,6 27,7
22,5 22,9 23,7 24 24,4 24,5 25,3 26 26,2 26,4 26,7 26,9 27,4 28,5
Tester l’homogénéité des deux forêts.
3/ Tester l’homogénéité des lois de deux échantillons de loi exponentielle de paramètre λ1
et λ2 . Étudier le comportement de la statistique lorsque les paramètres varient.
2

Documents pareils