TP sur les test de Kolmogorov.
Transcription
TP sur les test de Kolmogorov.
Université de Provence. Préparation Agrégation. Épreuve de modélisation, option Probabilité-Statistique. . . TP sur les test de Kolmogorov. Fabienne CASTELL Exercice 1: Test d’ajustement de Kolmogorov. Soit (X1 , · · · , Xn ) un n-échantillon de loi de fonction de répartition F . Le test d’ajustement de Kolmogorov permet de tester (H0 ) : “F = F0 ”, où F0 est la fonction de répartition continue d’une loi donnée, contre l’alternative (H1 ) : “F 6= F0 ”. La statistique de test est donnée par n √ 1X Dn = n sup |F̂n (x) − F0 (x)| , où F̂n (x) = 1IXi ≤x . n i=1 x Le test s’appuie sur le résultat suivant : si les Xi sont de fonction de répartition F0 (i.e. sous (H0 )), la loi de Dn ne dépend plus que de n. Cette loi est tabulée pour de petites valeurs de n, et quand n → ∞, elle tend vers une limite dont la fonction de répartition est donnée par la fonction pks de Stixbox. La région de rejet du test d’ajustement de Kolmogorov est alors donnée par R = {Dn ≥ t}, où t est à choisir tel que α = P [Dn ≥ t]. Le calcul effectif de Dn se fait en remarquant que √ n sup |F̂n (x) − F0 (x)| Dn+ = x √ i = n sup sup | − F0 (x)| n 0≤i≤n x∈[X(i) ;X(i+1) [ √ i i = − F0 (X(i) ); F0 (X(i+1) ) − n sup max n n 0≤i≤n Notez que cette statistique ne dépend en fait que du réarrangement par ordre croissant de l’échantillon de données. 1/ Tester par la méthode de Kolmogorov-Smirnov le générateur randn de Matlab. On pourra par exemple tracer le graphe du niveau critique en fonction de la taille de l’échantillon. 2/ Exemple tiré du Saporta. On s’intéresse à la durée de vie d’un certain type de matériel, et on veut en particulier savoir si cette durée de vie suit une loi exponentielle (hypothèse H0 ), ou pas (hypothèse H1 ). Pour cela, on observe pendant T=200 heures un système où les appareils tombés en panne sont immédiatement remplacés. On note par NT le nombre de pannes jusqu’à l’instant T , et par Ti les différents instants de panne. Sous (H0 ), NT suit une loi de Poisson de paramètre λ, et la loi de (T1 , · · · , Tn ) sachant que NT = n est la loi de n variables de loi U([0, T ]) réarrangées. On a observé NT (ω) = 5, T1 (ω) = 51, T2 (ω) = 78, T3 (ω) = 110, T4 (ω) = 135, T5 (ω) = 180. Conclure. 3/ On rappelle que la loi de Student à d degrés de liberté est la loi de la variable Td , Z/X√d , où X et Z sont indépendantes, X ∼ N(0, 1), et Z ∼ χ2d . Td est donc une variable symétrique, et on peut montrer que sa densité est donnée par fd (t) = √ 1 dB(1/2, d/2) 1 + 1 t2 (d+1)/2 d . Pour d = 1 : 50, tracer sur une même figure les graphes des densités de N(0, 1) et Td . Pour différentes valeurs de d, générer un n-échantillon de Td , et tester l’ajustement de cet échantillon à la loi N(0, 1). Exercice 2: Test de comparaison de Kolmorogorov Smirnov. Soit (X1 , · · · , Xn ) un n-échantillon de loi de fonction de répartition continue F , et (Y1 , · · · , Ym ) un m-échantillon de loi de fonction de répartition continue G, indépendant du premier échantillon. On désigne par Fn (Gm respectivement) la fonction de répartition empirique de (X1 , · · · , Xn ) ((Y1 , · · · , Ym ) respectivement). La statistique de Kolmogorov-Smirnov Dn,m = sup |Fn (x) − Gm (x)| x permet de tester H0 : “F = G”, contre H1 : “F 6= G”, dans lap mesure où sous H0 , la loi de nm Dn,m ne dépend pas de F . Notez que la loi asymptotique de n+m Dn,m est la même que la loi asymptotique de Dn , et est donnée par la fonction pks.m de Stixbox. Elle est tabulée pour de petites valeurs de n et m. 1/ Écrire le test de Kolmogorov Smirnov de comparaison de deux échantillons indépendants. 2/ Exemple tiré du Dacunha-Castelle. On a relevé dans deux forêts les hauteurs (en mètres) de 13 et 14 arbres respectivement. On obtient le tableau suivant Forêt 1 Forêt 2 23,4 24,4 24,6 24.9 25 26,2 26,3 26,8 26,9 27 27,6 27,7 22,5 22,9 23,7 24 24,4 24,5 25,3 26 26,2 26,4 26,7 26,9 27,4 28,5 Tester l’homogénéité des deux forêts. 3/ Tester l’homogénéité des lois de deux échantillons de loi exponentielle de paramètre λ1 et λ2 . Étudier le comportement de la statistique lorsque les paramètres varient. 2