Chapitre 4 : Variables aléatoires `a densité I
Transcription
Chapitre 4 : Variables aléatoires `a densité I
Chapitre 4 : Variables aléatoires à densité I - Généralités 1. Intégrales généralisées. a) Généralisée en +∞. Soit f une fonction continue sur IR. On définit sous réserve d’existence Z b la limite limb→+∞ f (t) dt. Z +∞ f (t) dt comme 0 0 Exemple : f (t) = exp(−t). On obtient Z 0 vers 1. On en conclut que Z +∞ b b f (t) dt = − exp(−t) 0 = 1 − exp(−b) qui tend exp(−t) dt = 1. 0 Cela représente l’aire totale sous la courbe de 0 à +∞. 1 . On obtient Contre exemple : f (t) = √t+1 Z b √ b √ f (t) dt = 2 t + 1 0 égal à 2 b + 1 − 2 qui tend vers +∞. 0 Par conséquent, l’intégrale n’existe pas. Z +∞ f (t) dt qui est sous réserve d’existence On utilisera plus loin la notation −∞ Z +∞ Z 0 f (t) dt. f (t) dt + −∞ 0 b) Généralisée en un point où f possède une limite à gauche infinie. Soit f une fonction continue sur IR+ f (t) = +∞. On définit sous réserve ∗ telle que limt→0+ Z 1 Z 1 f (t) dt comme la limite lima→0+ f (t) dt. d’existence 0 a Z 1 √ 1 √ 1 √ f (t) dt = 2 t a égal à 2 − 2 a qui tend vers 2. Exemple : f (t) = t . On obtient a Z 1 f (t) dt vaut 2. Par conséquent, l’intégrale généralisée 0 Cela représente l’aire totale sous la courbe de 0 à 1. 35 Contre exemple : f (t) = 1 t. On obtient Z 1 a 1 f (t) dt = ln(t) a égal à − ln(a) qui tend vers +∞. Par conséquent, l’intégrale n’existe pas. 2. Fonctions continues par morceaux au sens généralisé : Définition : Il existe un nombre fini (éventuellement nul) de réels a1 < .... < an tels que f est continue sur ] − ∞, a1 [, .., ]ai, ai+1 [, ..., ]an, +∞[ f possède une limite à droite et à gauche (éventuellement infinies) en chacun des points ai . Z +∞ On utilisera plus loin la notation f (t) dt qui représentera l’aire totale sous la courbe −∞ de f . Elle se calcule en ajoutant les diverses intégrales généralisées Z a1 Z +∞ Z ai+1 f (t) dt, f (t) dt et f (t) dt. ai −∞ an Exemple fondamental admis Z +∞ √ exp(−t2 /2) dt = 2π. On trouve −∞ 3. Densités de probabilité. ♥ Définition : Soit p une fonction continue par morceaux au sens généralisé. p est une densité de probabilité ssi les deux conditions suivantes sont vérifiées : a) En tout point t du domaine de définition p(t) ≥ 0. Z +∞ p(t) dt = 1. b) −∞ Remarque : a) est l’analogue du pk ≥ 0 du cas discret. Pn La condition de normalisation b) est l’analogue du k=1 pk = 1 du cas discret. Exemples ♥ Densité uniforme sur un intervalle [a, b] avec a < b. 1 C’est la fonction t −→ 1l[a,b] (t). b−a ♥ Densité exponentielle de paramètre θ > 0. C’est la fonction t −→ θ exp(−θt)1lIR+ (t). 36 ♥ Densité gaussienne centrée réduite. C’est la fonction 1 t2 t −→ √ exp(− ). 2 2π Rappel : cette fonction déjà vue dans le chapitre précédent ne possède pas de primitive simplement calculable. 4. Variables aléatoires à densité. ♥ ♥ Définition et formule fondamentale 4. Soit p une densité de probabilité. On dit qu’une variable aléatoire X possède la densité de probabilité p ssi pour tous les réels α ≤ β on a la formule : IP(α ≤ X ≤ β) = Z β p(t) dt. α Conséquence 4.1 : si α = β, on trouve pour tout α, IP(X = α) = 0. Ce qui est totalement différent de la situation du chapitre II. Comme [α, β] est la réunion disjointe ]α, β[, {α} et de {β}, on obtient IP(α ≤ X ≤ β) = IP(α < X < β) + 0 + 0, donc dans ce chapitre, on peut remplacer R les inégalités larges par des inégalités strictes. Donc pour tout intervalle I, IP(X ∈ I) = I p(t) dt. Les variables aléatoires à densité font partie de la famille des variables continues par opposition aux variables aléatoires discrètes du chapitre 2. ♥ Exemple et définition On dit que X possède la loi uniforme sur [a, b] avec a < b ssi X possède la densité de probabilité uniforme sur [a, b]. Z 1.5 1 1 dt = . Ce qui donne par exemple si a = 0, b = 2, pour I = [1, 1.5], IP(X ∈ I) = 2 4 1 5. Fonction de répartition. Pour simplifier la présentation des calculs comme dans l’exemple précédent, on se sert de la fonction de répartition. ♥ Définition : La fonction de répartition de la variable aléatoire X de densité de probabilité p est la fonction de IR dans IR x −→ IP(X ≤ x) = F (x). (C’est la même définition qu’au chapitre II). 37 ♥ ♥ (Seconde) formule fondamentale 5.1 Si α et β sont deux réels tels que α ≤ β, IP(α ≤ X ≤ β) = F (β) − F (α). Exemples : a) Si X est de loi uniforme sur [a, b] avec a < b, on trouve : si x < a, F (x) = 0, 1 (x − a), si a ≤ x ≤ b, F (x) = b−a si x > b, F (x) = 1. On trouve bien le résultat du paragraphe précédent, si a = 0 et b = 2, IP(1 ≤ X ≤ 1.5) = F (1.5) − F (1) = 14 . C’est bien sûr l’aire du rectangle hachuré sous le graphe de la densité p. b) Si X est de loi exponentielle de paramètre θ > 0, pour x < 0, F (x) = 0, x pour x ≥ 0, F (x) = − exp(−θt) 0 = 1 − exp(−θx). c) La fonction de répartition d’une variable aléatoire gaussienne centrée réduite n’est pas la fonction Φ du chapitre III qui figure dans les tables. Il manque le morceau de −∞ à 0 de surface 12 . Rx Donc Φ(x) = 21 + Ψ(x) = −∞ p(t) dt. Alors Ψ(x) = Φ(x) − Φ(0) = IP(0 ≤ Z ≤ x) si x ≥ 0 et Ψ(x) = IP(x ≤ Z ≤ 0) si x ≤ 0. 6. Propriétés des fonctions de répartition. Si F est la fonction de répartition d’une variable aléatoire X à densité alors, • F est croissante (au sens large) 38 • limt→−∞ F (t) = 0 et limt→+∞ F (t) = 1. • F est continue en tout point. Sauf aux points à problèmes de p, F est dérivable et F ′ (t) = p(t). MORALITÉ : ON DÉRIVE LA FONCTION DE RÉPARTITION, MAIS ON INTÈGRE LA DENSITÉ DE PROBABILITÉ. 7. Méthode des fonctions de répartition Soient une fonction numérique φ et une variable aléatoire X qui possède une densité de probabilité p. On définit la variable aléatoire Y = φ(X). On veut savoir si Y possède une densité de probabilité et la calculer le cas échéant. Ce problème général dépasse largement le niveau de ce cours. De plus, même si Y possède une densité de probabilité, il n’y a pas de formule simple pour la trouver. Nous allons nous contenter d’exposer une méthode, qui repose sur l’utilisation des fonctions de répartition. Elle permet de traiter un certain nombre d’exemples simples. Premier exemple. Supposons que φ est une fonction affine x −→ ux + v, u et v étant deux constantes réelles. Proposition 7.1. a) si u > 0, Y = uX + v possède la densité de probabilité q telle que 1 x −→ q(t) = p u t−v u . b) si u < 0, Y = uX + v possède la densité de probabilité q telle que 1 x −→ q(t) = − p u t−v u . c) si u = 0, Y = v variable aléatoire constante ne possède pas de densité de probabilité. Si c’était le cas, d’après le corollaire 4.1 avec a = b = v on aurait la contradiction IP(Y = v) = 0 = 1. Preuve du a) Soit G la fonction de répartition de Y : par définition, pour tout nombre réel G(x) = IP(Y ≤ x) = IP(uX + v ≤ x). En raisonnant sur les valeurs numériques des variables aléatoires, on trouve que uX +v ≤ x x−v équivaut à X ≤ . u x−v ). Posons z = u1 (x − v). Donc G(x) = IP(X ≤ u Par définition de la fonction de répartition F de X, on a F (z) = IP(X ≤ z) en appelant z la variable muette. Finalement IP(Y ≤ x) = G(x) = F ( u1 (x − v)). On sait qu’en dehors d’un nombre fini de points à problème, la fonction F est dérivable de dérivée p. On dérive la composée G des fonctions x −→ z = u1 (x − v) et de z −→ F (z). 39 On trouve G′ (x) = F ′ ( u1 (x − v)) × 1 u = p( u1 (x − v)) × u1 . Par conséquent, le candidat naturel pour être la densité de probabilité de Y est bien la fonction q de l’énoncé de la proposition. Remarque. On vérifierait facilement que q est Rune densité de Rprobabilité. En particulier, +∞ +∞ le changement de variable y = x−v u montre que −∞ q(t) dt = −∞ p(y) dy = 1. C.Q.F.D Le cas b) est laissé au lecteur. Il faut néanmoins observer que la fonction φ est maintenant . décroissante, de pente u négative. Alors uX + v ≤ x équivaut à X ≥ x−v u 1 1 1 D’où G(x) = IP(X ≥ u (x − v)) = 1 − IP(X ≤ u (x − v)) = 1 − G(X ≤ u (x − v)) en passant au complémentaire. Le −F explique l’apparition du signe moins dans la densité de probabilité. D’ailleurs, heureusement qu’il y a un signe moins, car une densité de probabilité doit obligatoirement prendre des valeurs positives ou nulles. Un autre exemple. Soient φ la fonction x −→ x2 et X une variable aléatoire de loi N (0, 1). C’est parti par la même méthode : soit G la fonction de répartition de Y = X 2 , donc par définition G(x) = IP(X 2 ≤ x). Il est clair que X 2 ne prend que des valeurs positives, il ne se passera rien d’intéressant pour x < 0 : IP(X ≤ x) = 0. √ √ Supposons dorénavant x ≥ 0. On constate que X 2 ≤ x équivaut à − x ≤ X ≤ x. Z √x p(t) dt où p est D’après la formule fondamentale 5.1, cet événement a la probabilité √ − x la densité de probabilité gaussienne centrée réduite. √ √ On obtient donc G(x) = Φ( x) − Φ(− x). Comme Φ′ (t) = p(t) = dérivant les fonctions composées, √1 2π 2 exp(− t2 ), en √ √ √ √ G′ (x) = p( x)( x)′ − p(− x)(− x)′ . Au total, G′ (x) = 2 × √1 2π exp(− x2 ) × 1 √ . 2 x Comme on a pu dériver G en tout point de IR+ , sa dérivée est la densité de probabilité de X 2 égale à 1 √ exp(−x/2)1lIR+ (x). 2πx Conclusion : le défaut de cette méthode de dérivation est que souvent les fonctions de répartition ne sont pas dérivables en tout point. Il est alors conseillé de vérifier que la densité obtenue est bien d’intégrale 1. 40 II - Espérances et variances. 1. Espérance d’une variable aléatoire à densité. ♥ Définition : sous réserve de l’existence de l’intégrale on pose Z +∞ IE(X) = p(t) t dt. −∞ Pn C’est l’analogue avec une densité de probabilité de la formule IE(X) = k=1 pk xk du chapitre II. Compément : si X est positive, l’espérance a toujours un sens à condition de la prendre dans IR+ ∪ {+∞}. Quand l’intégrale diverge, on pose donc IE(X) = +∞. Si X est de signe quelconque, on ne définit l’espérance que dans le cas où l’intégrale est absolument convergente. On exige donc que IE(|X|) < +∞ pour définir IE(X). Exemples de calculs. a) Soit X de loi uniforme sur [a, b] avec a < b. L’intervalle est de longueur b − a. 1 ”La” densité de probabilité est p(t) = 1l[a,b] (t). −a Rb +∞ Quand on reporte p(t) dans la formule −∞ p(t) t dt, on s’aperçoit qu’il ne subsiste qu’une intégrale de a à b puisque p s’annule en dehors de [a, b]. Il reste IE(X) = Z b p(t) t dt = a qui est le milieu de l’intervalle [a, b]. 1 b2 − a2 a+b = b−a 2 2 b) Soit X de loi exponentielle de paramètre θ. R +∞ Quand on reporte p(t) = θ exp(−θt)1lIR+ (t) dans la formule −∞ p(t) t dt, on s’aperçoit qu’il ne subsiste Rqu’une intégrale Rde 0 à l’infini puisque p s’annule sur IR− . +∞ +∞ θ exp(−θt) t dt. p(t) t dt = 0 Il reste IE(X) = 0 Une intégration par parties u′ (t) = θ exp(−θt) et v(t) = t donne : Z +∞ 1 IE(X) = exp(−θt) dt = . θ 0 2. Propriétés de l’espérance. Ce sont exactement les mêmes que dans le chapitre II à ceci près que le symbole IE est défini différemment. Énonçons maintenant la formule de transfert qui permet le calcul de l’espérance d’une fonction d’une variable aléatoire X à densité. ♥ 3. Formule de transfert Énoncé. Soient f une fonction numérique continue et X une variable aléatoire possédant la densité de probabilité t → p(t). Alors Y = f (X) est une variable aléatoire et son R +∞ espérance IE(Y ) se calcule par la formule de transfert −∞ p(t)f (t) dt. 41 Exemple : soit X la variable aléatoire du a) et f la fonction carré. Avec une loi uniforme sur [a, b], on trouve: Z b 1 2 b3 − a3 a2 + ab + b2 2 IE(X ) = t dt = = (à ne pas retenir !). 3(b − a) 3 a b−a Attention ! Il ne faut surtout pas élever au carré les probabilités : on voit mal comment p(t)2 pourrait être encore une densité de probabilité d’intégrale égale à 1. 4. Variance Le but est de mesurer simplement la dispersion de X autour de son espérance. ♥ Définition. On appelle (sans modifier la définition par rapport au chapitre II) variance de X, notée 2 Var(X), le nombre réel positif Var(X) = IE (X − IE(X)) . On peut donc écrire Var(X) = IE(X̃ 2 ) où X̃ = X − IE(X). En pratique, on utilise la formule de Koenigs var(X) = IE(X 2 ) − IE(X)2 . Exemple : soit X possédant une loi uniforme sur [a, b]. D’après le calcul du paragraphe 3. et la formule de Koenigs, 2 a2 + ab + b2 4(a2 + ab + b2 ) − 3(a2 + 2ab + b2 ) a+b (b − a)2 var(X) = = − = 3 2 12 12 (à retenir !). Vérification : quand a = b, la variable aléatoire X est constante, donc sa variance est nulle. III- Les lois à densité les plus usuelles. 1. La loi uniforme sur un intervalle [a, b] avec a < b. Voir plus haut (I. 3, exemple). Quand a = b, la densité n’est plus définie. On doit interpréter cette variable aléatoire comme une variable constante (= a = b) qui ne possède pas de densité de probabilité. 2. La loi exponentielle de paramètre θ > 0. Définition. On dit qu’une variable aléatoire X suit la loi exponentielle de paramètre θ ssi X possède la densité de probabilité t −→ θ exp(−θt)1lIR+ (t). Cette loi sert souvent à modéliser les temps d’attente (prenant des valeurs continues, à la différence de la loi géométrique qui modélise des attentes de longueur entière). On fait surtout ce choix à cause de la propriété d’absence de mémoire (propriété c) plus loin). Propriétés de la loi exponentielle de paramètre θ > 0 : Soit X possédant la densité de probabilité précédente. Alors, 42 a) IE(X) = 1θ , (preuve laissée au lecteur en utilisant une intégration par parties). b) var(X) = θ12 , (preuve laissée au lecteur en utilisant une intégration par parties). On trouve IE(X 2 ) = θ22 , donc par la formule de Koenigs, var(X) = θ22 − θ12 . c) X n’a pas de mémoire. Supposons par exemple que le temps d’attente d’un bus exprimée en minutes suive une loi exponentielle dont l’espérance est 10. Imaginons un malheureux client qui a déjà attendu en vain son bus 15mn. Sachant cela, quelle est la probabilité conditionnelle qu’il doive encore attendre au moins 5 minutes? L’événement B = { attendre en vain au moins 15mn } est {X > 15}, alors que A est 1 {X > 20} en ajoutant 15 et 5. D’après a), le paramètre est identifié : θ = 10 . IP(A∩B) IP(A) La probabilité conditionnelle est par définition IP(B) = IP(B) . En utilisant la formule fondamentale 4, pour tout réel positif y, Z +∞ IP(X > y) = θ exp(−θt) dt = 1 − F (y) = exp(−θy) y si F est la fonction de répartition. En substituant y = 20 et y = 15, après simplification par exp(−15θ) dans le rapport, on trouve la probabilité conditionnelle exp(−5θ) qui est la même chose que si on ne conditionnait pas par B. On en conclut que le bus n’a pas conservé en mémoire qu’un client a déjà attendu. Plus généralement, pour tous les réels t et h strictement positifs, la probabilité conditionnelle IP(X > t + h /X > t) = IP(X > h). Rq : les seules lois à densité qui vérifient cette propriété sont les lois exponentielles. 3. Loi gaussienne N (m, σ 2 ). Définition : on dit qu’une variable aléatoire X possède la loi gaussienne (ou normale) N (m, σ 2 ) ssi X possède la densité de probabilité 1 (t − m)2 . t −→ √ exp − 2σ 2 2πσ 2 Le paramètre m s’appelle la moyenne (c’est en fait l’espérance), le paramètre strictement positif σ est l’écart-type. Loi gaussienne centrée réduite N (0, 1) Elle correspond au cas particulier m = 0 et σ = 1. Sa densité de probabilité p est 1 t −→ p(t) = √ exp(−t2 /2). 2π Rappelons l’autre définition possible : X −m suit la loi N (0, 1). X suit la loi N (m, σ 2 ) ssi Z = σ Par conséquent, toute variable aléatoire X de loi N (m, σ 2 ) peut s’écrire sous la forme m + σZ avec Z de loi N (0, 1). 43 Vérification de la cohérence des définitions La proposition 7.1. permet de retrouver la densité de laloi N (m, σ 2 ) à partir de la densité . de probabilité p de la loi N (0, 1) : c’est t −→ σ1 p t−m σ ♥ Théorème 3.1. Si X possède la loi N (m, σ 2 ), alors IE(X) = m et Var(X) = σ 2 . Preuve : Commençons par établir ce résultat dans le cas centré et réduit. Calcul de IE(Z) 2 2 Comme la dérivée de t −→ exp(− t2 ) est −t exp(− t2 ), on trouve Z b b 1 tp(t) dt = √ − exp(−t2 /2) 0 qui tend vers √12π × 1 quand b croı̂t vers +∞. 2π 0 Z +∞ 1 tp(t) dt = √ . Donc 2π 0 Z +∞ Z 0 −1 tp(t) dt = 0. De même, tp(t) dt = √ . En ajoutant les deux morceaux, 2π −∞ −∞ À condition d’admettre l’existence de l’intégrale de −∞ à +∞, on pouvait prévoir ce résultat par imparité de t −→ t p(t). Calcul de Var(Z) 2 Attention, il n’existe pas de primitive simple de t −→ t2 exp(− t2 ). Grâce à une intégration par parties, Z b Z b 2 t p(t) dt = p(t) dt. 0 On en déduit que 2 IE(Z ) = Z 0 +∞ 2 t p(t) dt = −∞ Z +∞ p(t) dt = 1. −∞ D’après la formule de Koenigs, var(Z) = IE(Z 2 ) − 02 = 1. Cas général On déduit immédiatement de IE(Z) = 0 et Var(Z) = 1 que IE(X) = IE(m + σZ) = m + 0 = m (par linéarité) et Var(m + σZ) = Var(σZ) = σ 2 Var(Z). C.Q.F.D. ♥ Stabilité de la loi normale (admise). Théorème 3.2. Soient X et Y des variables aléatoires indépendantes possédant respectivement les lois N (m1 , σ12 ) et N (m2 , σ22 ). Alors X + Y possède la loi N (m1 + m2 , σ12 + σ22 ). Conseil. Se souvenir que X + Y possède une loi normale. Il suffit alors d’identifier l’espérance et la variance. 4. Complément : la loi de Cauchy. Définition. On dit qu’une variable aléatoire X possède la loi de Cauchy ssi sa densité de probabilité est 1 . t −→ p(t) = π(1 + t2 ) 44 On peut montrer qu’elle ne possède pas d’espérance, puisque Z b t p(t) dt = 0 1 b ln(1 + t2 ) 0 2π qui tend vers l’infini quand b croı̂t vers l’infini. *********** Tableau des lois usuelles nom symbole valeurs dans nature espérance variance Binômiale B(n, p) {0, ..., n} discrète np npq Poisson P(λ) IN discrète λ λ Géométrique G∗ (p) IN∗ discrète 1 p q p2 Gaussienne N (m, σ 2 ) IR continue m σ2 Uniforme U(a, b) [a, b] continue a+b 2 (b−a)2 12 Exponentielle Exp(θ) IR+ continue 1 θ 1 θ2 Attention : on parle aussi de la loi uniforme sur un ensemble fini {x1 , ..., xn} à ne pas confondre avec la loi uniforme sur un intervalle de longueur strictement positive. 45 Complément : vecteurs aléatoires à densité, hors-programme en 2010. Il s’agit de définir des objets (vecteurs de IRd ) aléatoires de dimension d > 1. La définition naturelle de ces objets utilise la théorie de l’intégrale de Lebesgue, enseignée en licence de mathématiques. Dans le cadre restreint de l’intégrale de Riemann (celle du Deug, et la seule au programme du CAPES), des définitions rigoureuses sont vraiment peu satisfaisantes et leur utilisation infiniment plus délicate qu’en dimension d = 1. En particulier la notion de fonction continue par morceaux devient peu maniable. Pour intervertir l’ordre de calcul des intégrales multiples (en appliquant le théorème de Fubini), il faut supposer que la densité de probabilité est assez régulière. Plutôt que de chercher à appliquer une version étendue de la théorie de l’intégrale de Riemann non généralisée multidimensionnelle exposée par exemple dans le cours de mathématiques spéciales Ramis, Deschamps, Odoux tome 4, chapitre 6, nous resterons très vague sur le concept de fonction intégrable ” avec peu de discontinuités ”. Pour simplifier les notations, seul le cas d = 2 est abordé ici. Un pavé est un rectangle de la forme [a, b] × [a′ , b′ ] avec a ≤ b et a′ ≤ b′ . 1. Densités de probabilité et vecteurs aléatoires. Définition. On appelle densité de probabilité sur IRd toute fonction positive p définie sur un ensemble D ⊂ IRd assez régulier. On prolonge p sur le complémentaire en lui affectant la valeur zéro. Alors p est une densité ssi la restriction de p à tout pavé (fermé borné) est R Riemann intégrable et si l’intégrale généralisée D p(x, y)dxdy vaut 1. Exemples : a) D = [a, b] × [a′ , b′ ] avec a < b et a′ < b′ . D est un pavé de surface S = (b − a)(b′ − a′ ) > 0. La densité uniforme sur D vaut S1 dans D et 0 en dehors. b) D = IR2 et p(x, y) = 1 2π 2 exp(− x +y 2 ). 2 c) D est le triangle {(x, y)/0 < x < y < 1} de surface 12 . La densité uniforme sur ce triangle vaut 2 dedans et 0 dehors. On dit qu’un vecteur aléatoire V = (X, Y ) possède ”la” densité de probabilité p ssi pour R tout pavé A, IP(V ∈ A) = A p(x, y)dxdy. R b R b′ Cela signifie que IP(a ≤ X ≤ b & a′ ≤ Y ≤ b′ ) = a a′ p(x, y) dxdy. C’est donc une extension de la définition d’une va. réelle à densité du chapitre 4. Remarque 1 : si V possède une densité, alors pour toute valeur (x, y) IP(V = (x, y)) = 0 puisque les points ont une surface nulle. Ceci explique les guillemets dans ”la” densité. Celle-ci n’est pas unique, on peut la modifier par exemple en un nombre fini de points, ou plus généralement sur une partie quarrable de surface 0. Remarque 2 : les deux composantes du vecteur V sont des variables aléatoires réelles. 46 2. Densités marginales. Théorème : si V est un vecteur aléatoire à valeurs dans IR2 , ses deux composantes X et Y possèdent des densités deRprobabilité. X possède la densité x −→ IR p(x, y) dy appelée la première densité marginale. R Y possède la densité y −→ IR p(x, y) dx appelée la seconde densité marginale. Remarque : il s’agit de la version continue des additions dans les tableaux des lois discrètes du chapitre 2. Exemples : la première densité marginale de la loi uniforme sur le rectangle non aplati D = [a, b] × [a′ , b′ ] est la densité uniforme sur [a, b]. La première densité marginale de la loi uniforme sur le triangle de l’ex c) est x −→ 2(1 − x)1l[0,1] (x). Remarque : chaque densité marginale définit une loi de probabilité sur IR appelée loi marginale. 3. Indépendance. Définition. On rappelle que deux variables aléatoires réelles définies sur le même univers sont indépendantes ssi pour tout a ≤ b et a′ ≤ b′ , IP(a ≤ X ≤ b & a′ ≤ Y ≤ b′ ) = IP(a ≤ X ≤ b)IP(a′ ≤ Y ≤ b′ ) c’est à dire que les événements {a ≤ X ≤ b} et {a′ ≤ Y ≤ b′ } sont indépendants. Théorème : les composantes X et Y d’un vecteur aléatoire de densité p sont indépendantes ssi le produit des densités marginales est une densité de p. Exemple : la densité de l’ex. b) est le produit de deux densités gaussiennes centrées réduites. Par contre, les deux composantes de l’ex. c) ne sont pas indépendantes. 4. Formule de transfert. Théorème : si f est une fonction continue et bornée, alors Z p(x, y)f (x, y) dxdy. IE(f (V )) = IR2 5. Produit de convolution de deux densités Théorème et définition. Si X et Y sont deux variables aléatoires indépendantes qui possèdent respectivement les densités p1 et p2 , alors X + Y possède la densité Z +∞ p1 (x)p2 (t − x) dx. t −→ −∞ Par symétrie, cette densité s’écrit aussi t −→ Z +∞ −∞ p1 (t − x)p2 (x) dx. Cette fonction de t s’appelle le produit de convolution de p1 et p2 . 47 Chapitre 5 : statistique paramétrique I - Estimateurs Cadre de la statistique. On suppose qu’un certain phénomène suit une loi de probabilité µ inconnue. En statistique paramétrique, on connaı̂t partiellement la loi, à un ou plusieurs paramètres près, par exemple on sait que c’est une loi exponentielle Exp(λ) dont la paramètre est inconnu, une loi gaussienne N (m, σ 2 ) avec m et σ inconnus, une loi de Bernoulli B(1, p) avec p inconnu. Pour avoir une certitude (partielle et seulement vraie avec une certaine probabilité) on réalise un certain nombre n d’expériences aléatoires. D’où la Définition. On appelle n échantillon de loi parente µ la donnée de n variables aléatoires indépendantes de même loi µ, notées X1 , ..., Xn dans tout ce chapitre. Interprétation : ces n variables aléatoires représentent par exemple des essais indépendants, des mesures successives...Plus ils sont nombreux, meilleure sera la connaissance du paramètre inconnu. On note x1 , ..., xn les n valeurs expérimentales observées, c’est à dire les réalisations X1 (ω), ..., Xn(ω) des n variables aléatoires X1 , ..., Xn. Les problèmes essentiels de la statistique sont de répondre à la vue des valeurs x1 , ..., xn à une des questions suivantes : a) Estimer un paramètre inconnu par un intervalle de confiance (ou à défaut par une valeur unique). b) Étant donné un intervalle de paramètres, décider si sa véritable valeur est dedans (avec une probabilité plus grande qu’un seuil donné). La question a) est un problème d’estimation alors que b) est un test d’hypothèse. Définition. On appelle estimateur d’un paramètre réel θ une suite de variables aléatoires Tn (X1 , ..., Xn) (n ≥ 1) où chaque Tn (X1 , ..., Xn) est une variable aléatoire fonction du n échantillon X1 , ..., Xn. Rq : un estimateur de θ n’a d’intérêt que si Tn converge vers θ quand n tend vers l’infini. Pn Pn Exemple : X n = n1 i=1 Xi appelé moyenne empirique. Donc X n (ω) = n1 i=1 xi , souvent notée x quand il n’y a pas d’ambiguı̈té sur n. Bien faire la différence entre la variable aléatoire X n et sa valeur expérimentale le jour de l’expérience X n (ω). Comment faire pour estimer une variance? ! n 1 X ♥ Si on connaı̂t l’espérance m : Vn := (Xi − m)2 . n i=1 ♥ Si on m est inconnu : on se sert souvent de la variance d’échantilonnage 1 Σ2n = n−1 n X i=1 48 (Xi − X n )2 ! dont la valeur expérimentale est le carré du σ(n−1) des machines Casio (n − 1 réfère au dénominateur et pas au nombre d’épreuves qui est n). ♥ Définition. On appelle écart-type d’échantilonnage la racine v carrée de la variance u n u 1 X t (xi − x)2 . d’échantilonnage. Sa valeur expérimentale est souvent notée s = n − 1 i=1 On conseille d’utiliser une machine pour calculer ces quantités dans le cas où l’énoncé ne donne que la liste des n valeurs numériques x1 , ..., xn. Si on tient à faire le calcul à la main, on peut se servir de l’analogue du théorème de Koenigs : ! n n X X 2 (xi − x) = x2i − nx2 . i=1 Alors s = sP i=1 n i=1 x2i − nx2 . n−1 Remarque. Il existe d’autres notations que s et Vn dans les livres. n X 1 Un autre estimateur de la variance. Il s’agit de σˆ2 := n expérimentale est le carré du σ(n) des machines Casio : i=1 2 σ(n) (Xi − Xn )2 1 = n II - Cas des échantillons gaussiens n X i=1 ! dont la valeur ! (xi − X n (ω))2 . 1. Nouvelles lois de probabilités utilisées en statistique a) Loi du χ2 à d degrés de liberté (d ∈ IN∗ ). ♥ Définition. On dit que la variable aléatoire C à la loi du χ2 à d degrés de liberté ssi C est de la forme d X C= Ni2 i=1 où N1 , . . . Nd sont d variables aléatoires indépendantes de même loi gaussienne centrée réduite. Notation pour le nom de la loi : χ2d à l’anglo-saxonne français). hh chi square ii ou khi deux (en Exemple : si d = 1, C peut se mettre sous la forme Z 2 où Z est de loi N (0, 1). On peut montrer par la méthode des fonctions de répartition que C a ici la densité de probabilité 1 exp(−t/2). sur IR+ √ 2πt Propriétés de cette loi : (i) Elle possède une densité de probabilité sur IR+ . 49 d (ii) Cette densité est proportionnelle à t 2 −1 exp(−t/2). Dessin du graphe : bosse sur IR+ , avec un maximum atteint en un point unique d − 2 (calcul facile à partir de (ii) ). Si d est assez grand, la demi-tangente en 0 est horizontale. (iii) L’espérance de C est d (par linéarité). De même que pour les densités normales, la fonction de répartition n’a pas d’expression simple, c’est une intégrale non explicite puisque on ne connaı̂t pas de primitive simple. On se sert donc d’une table ou d’une calculatrice. Utilisation de la table : elle donne pour 1 ≤ d = n ≤ 30 et pour un nombre limité de réels α des valeurs approchées des nombres b tels que IP(C ≤ b) = α. Voir par exemple que la colonne correspondant à α = 0.5 est remplie de nombres de plus en plus proches de d quand d croı̂t. Conseil. Comparer les valeurs lues avec d. b) Loi de Student à d degrés de liberté (d ∈ IN∗ ). bf Définition. On dit qu’une variable aléatoire T à la loi de Student à d degrés de liberté X ssi T peut se mettre sous la forme q où X est une va. de loi N (0, 1) et Y une autre va. Y d indépendante de loi du khi deux à d degrés de liberté (à ne pas retenir). Propriétés de cette loi : (i) Elle possède une densité de probabilité sur IR. −(d+1)/2 t2 (ii) Cette densité (paire) est proportionnelle à 1 + . d Exemple : si d = 1, c’est une loi de Cauchy. (ii) Quand d croı̂t vers +∞, cette densité converge vers la densité gaussienne centrée réduite. En effet, limd→∞ 1 + t2 d −(d+1)/2 = exp(− 12 t2 ). ♥ Retenir Une loi de Student avec un nombre infini de degrés de liberté est une loi N (0, 1). Dessin du graphe : analogue à celui d’une densité gaussienne, mais plus étalé, de moins en moins quand d augmente. 50 Ici la fonction √ de répartition n’a pas d’expression très simple, bien que le changement de variable t = d tan(θ) conduise à un calcul possible. (D’ailleurs ce n’est pas un hasard si la fonction de répartition d’une densité de Cauchy contient la fonction arctangente). On se sert donc en pratique d’une table ou d’une calculatrice. Utilisation de la table : Elle donne pour 1 ≤ d = n ≤ 30 ou d ∈ {30, 40, 60, 120, ∞} et pour un nombre limité de réels α des valeurs approchées des nombres b tels que IP(|T | ≥ b) = α. Cette formule est d’ailleurs rappelée en haut de la table. En particulier la ligne d = ∞ peut servir à rechercher des antécédents de la fonction de répartition Φ d’une loi N (0, 1). Exemple : cherchons a tel que Φ(a) = IP(Z ≤ a) ≈ 0, 95. Par passage au complémentaire, IP(Z ≥ a) ≈ 0, 05 puis par symétrie, on a alors IP(|Z| ≥ a) ≈ 0, 10. À l’intersection des lignes ∞ et des colonnes 0, 10 on trouve le fameux 1, 645. 2. Les quatre formules fondamentales Soit (Xj )1≤j≤n un échantillon de taille n dont la variable aléatoire parente est distribuée suivant une loi normale N (m, σ 2 ). On note respectivement X n et Σ2n la moyenne empirique et la variance d’échantilonnage de cet échantillon. Alors : √ √ n n Xn − m suit la loi N (0, 1) σ Xn − m suit la loi de Student à n − 1 degrés de liberté. Σn 2 n X Xj − m suit la loi du χ2 à n degrés de liberté. σ j=1 2 n X Xj − X n suit la loi du χ2 à n − 1 degrés de liberté. σ j=1 F1 F2 F3 F4 On peut démontrer facilement F1 et F3 , les deux autres sont admises. Preuve de F1 . D’après le théorème de stabilité des variables aléatoires gaussiennes indépendantes, Sn = Pn √ X n −m de la n j=1 Xj et donc X n sont des variables aléatoires gaussiennes. Alors σ forme aXn + b est également une va gaussienne dont il suffit d’identifier l’espérance et l’écart-type. Preuve de F3 . Il suffit de remarquer que Nj = Xj −m σ suit une loi N (0, 1). Remarque 1 (lien avec les estimateurs) : La quantité C qui figure dans F3 est n Vσn2 . 51 Σ2 La quantité C qui figure dans F4 est (n − 1) σn2 . Remarque 2 : ces formules étant exactes, il est possible de s’en servir pour rechercher des intervalles même quand n est petit. 3. intervalles (bilatères) pour m On se sert des formules F1 et F2 qui contiennent m. D’autre part, il faut retenir que l’estimateur naturel pour m est X n , ce qui explique que la formule F3 qui pourrait être utilisée (car elle contient aussi m) donne de très mauvais résultats. Application numérique : trouver un intervalle de confiance pour m au niveau 95% dans le cas n = 25, X 25 (ω) = 8. a) Cas où σ n’est pas connu. On donne en plus s2 = 10 (par exemple). D’après la formule F2 , √ X 25 − m suit la loi de Student à 24 degrés de liberté. T = 25 Σ25 D’après la table, IP(|T | ≥ 2, 064) ≈ 0, 05. Donc, au vu de l’expérience quiqdonne x = √ X 25 (ω) = 8 et s = 10, avec une probabilité plus grande que 0.95, |8 − m| ≤ 10 25 × 2, 064. q q 10 ; x + 2, 064 25 ] ≈ [6.69; 9.31]. On obtient alors l’intervalle de confiance I = [x − 2, 064 10 25 b) Cas où σ est connu. On donne ici σ = 3 (par exemple). √ X 25 − m D’après la formule F1 , Z= 25 suit la loi gaussienne N (0, 1). σ D’après la table de la loi de Student avec n = ∞, avec une probabilité plus grande que 0,95, |Z| ≤ 1, 960. Donc avec une probabilité plus grande que 0.95, |8 − m| ≤ √325 × 1, 960. On obtient alors l’intervalle de confiance I = [x − 1, 960 × 53 ; x + 1, 960 × 53 ] ≈ [6.82; 9.18]. 4. intervalles bilatères pour l’écart-type σ On se sert maintenant des formules F3 et F4 qui sont liées à des estimateurs naturels de la variance, donc de sa racine carrée σ. Définition on appelle intervalle de confiance bilatère un intervalle comportant deux bornes finies (intéressantes). Application numérique : trouver un intervalle de confiance bilatère pour σ au niveau 90% dans le cas n = 10. 52 a) Cas où m est connu. On donne V10 (ω) = 4. 2 D’après la formule F3 , C = 10 Vσ10 à 10 degrés de liberté. D’après la table 2 suit la loi du χ (colonne 0.05 pour le morceau d’aire à gauche et colonne 0.95 pour le morceau d’aire à droite), q IP(3, 94 ≤ C ≤ 18, 3) ≈ 0, 90. On en tire alors que dans au moins 90% des cas, σ= 10∗4 C appartient à ]1.47 ; 3.19[. p Remarquer qu’ici l’intervalle de confiance, bien que contenant V10 (ω), n’y est pas centré. En fait, on divise la surface extrémale de 10% en deux par habitude puisque les tables ne contiennent qu’un nombre limité de niveaux. b) Cas où m n’est pas connu. On donne s2 = 5. Σ2 La seule différence avec le a) qui précède est qu’on se sert de la formule F4 , 9 σ10 2 suit la loi 2 du χ à 9 degrés de liberté. Comme pour d = 9, IP(3, 33 ≤ C ≤ 16, 9) ≈ 0, 90, on obtient l’intervalle ]1.63; 3.68[. 5. intervalles unilatères pour l’écart-type σ Contrairement au paragraphe précédent où on demande un intervalle comportant deux bornes finies (intéressantes) on peut considérer un autre type d’intervalles de confiance : les intervalles unilatères de la forme ]0, c[ (se souvenir que σ est positif ! ). Le cas des intervalles [c, +∞] est laissé au lecteur car il est beaucoup moins utilisé en pratique (par manque d’intérêt statistique). Application numérique : trouver un intervalle de confiance unilatère pour σ au niveau 90% dans le cas n = 10. a) Cas où m est connu. On donne V10 (ω) = 4. 2 D’après la formule F3 , 10 Vσ10 à 10 degrés de liberté. Comme on veut que 2 suit la loi du χ 10V10 σ grand soit rare, on recherche C = σ2 petit dans 10% des cas. D’après la colonne 0,10 on trouve IP(C ≤ 4, 87) ≈ 0, 10. Donc dans moins de 10% des cas, σ402 est ≤ 4, 87, ce qui q 40 . On trouve l’intervalle de confiance ]0; 2.87[. implique que pour 90% des cas, σ ≤ 4,87 b) Cas où m n’est pas connu. On donne s2 = 5. Σ2 0 La seule différence avec le a) qui précède est qu’on se sert de la formule F4 , 9 σ12 suit la loi du χ2 à 9 degrés de liberté. Comme pour d = 9 IP(C ≤ 4, 17) ≈ 0.10, on trouve maintenant l’intervalle de confiance ]0, 3, 29[. 53 Remarquons que cet intervalle est plus grand que celui du a) (même si Σ2n et Vn étaient égaux) parce-que la loi à 10 degrés a tendance à donner des valeurs plus grandes que la loi à 9 degrés (ici le 4,87 est plus grand que 4,17). 6. Résumé Méthode pour trouver un intervalle de confiance dans le cas d’un échantillon gaussien. a) Lire l’énoncé pour savoir si l’intervalle de confiance porte sur m, σ voire même σ 2 . Regarder si l’autre paramètre est lui aussi inconnu. b) Sélectionner la seule formule Fk adéquate ( F1 ou F2 pour m, F3 ou F4 pour σ ). On dispose alors d’une variable aléatoire Z, T ou bien C. c) Construire au moyen d’une table un intervalle qui contient la variable aléatoire du b) avec une probabilité plus grande que ce qui est demandé. d) En déduire l’intervalle de confiance demandé en exprimant le paramètre inconnu en fonction de la variable aléatoire. 54 Chapitre 6 : Tests I - Principe général On s’interroge sur la validité d’une hypothèse H0 qu’on appelle l’hypothèse nulle. Sa négation s’appelle l’alternative (ou plus généralement l’alternative peut être toute hypothèse H1 contredisant H0 ). On suppose H0 vraie et on examine s’il est possible d’en déduire que les résultats expérimentaux sont anormaux, parce que leur probabilité d’apparition en supposant H0 est faible. Dans le cas contraire, on dit que H0 n’est pas rejetée (plutôt qu’acceptée). Les deux types d’erreurs. Définition. On appelle erreur de type 1 (ou I) celle qui consiste à rejeter à tort H0 . On appelle erreur de type 2 (ou II) celle qui consiste à rejeter à tort H1 . Il est impossible de rendre simultanément les deux erreurs de probabilité arbitrairement petites. Alors par convention, on cherche en priorité à contrôler les erreurs de type 1 et à rendre leur probabilité d’apparition plus petite que le seuil ( ou risque ) donné à l’avance. Du fait de cette dissymétrie entre les deux types d’erreurs, le choix de l’hypothèse nulle n’est pas indifférent : si l’hypothèse est hh l’accusé est innocent ii, c’est qu’on veut éviter une erreur judiciaire, quitte à relâcher un coupable, par contre si c’est hh l’accusé est coupable ii, c’est qu’on se place du point de vue sécuritaire. De même, qui a intérêt à choisir l’hypothèse hh ce médicament est dangereux ii? (le fabriquant? le ministère de la santé?) Définition. On appelle région de rejet au seuil (ou au risque) de x% tout événement D x lié aux variables aléatoires X1 , ..., Xn tel que si H0 est vérifiée, IP(D) ≤ 100 . La région d’acceptation est le complémentaire de la région de rejet. Le point de vue des tests est négatif : si l’hypothèse donne lieu à un événement de faible probabilité on la rejette. Dans le cas contraire on ne la rejette pas, en attendant un autre test ... C’est le décideur non statisticien qui doit prendre des responsabilités. Remarque : à un niveau élémentaire comme ici, on n’évalue pas l’erreur de type II. Remarque. Contrairement à ce que beaucoup de gens croient, plus le seuil d’un test est voisin de 0, moins le test donne un résultat intéressant. En effet, le complémentaire de la région de rejet est très grand et risque de contenir la valeur expérimentale. On sait d’avance que l’hypothèse ne sera pas rejetée. II- Cas des échantillons gaussiens ♥ Méthode résumée a) Lire l’énoncé pour savoir si le test porte sur m, σ voire même σ 2 . Regarder si l’autre paramètre est lui aussi inconnu. b) Sélectionner la seule formule Fk adéquate ( F1 ou F2 pour m, F3 ou F4 pour σ ). On dispose alors d’une variable aléatoire Z, T ou bien C. c) Calculer la valeur expérimentale de la variable parmi Z, T ou C qui figure dans la formule sélectionnée en b). d) Construire la région d’acceptation du test. Si c’est un test d’égalité, elle a deux bornes. S’il s’agit d’un test d’inégalité, elle est unilatère et faire attention au sens de l’inégalité. 55 e) Conclusion : si la valeur expérimentale du c) est dans la région d’acceptation, l’hypothèse n’est pas rejetée. Sinon on la rejette. A. Tests sur la moyenne m. Pour simplifier on ne traite ici que le cas où σ est connu. Dans le cas contraire, il faut se servir de la formule F2 et de la valeur expérimentale s à la place de σ. On obtiendrait ce qui s’appelle un test de Student. √ On rappelle que d’après la formule F1 , Z = n X nσ−m suit la loi N (0, 1). Pour simplifier on va toujours prendre dans la suite le risque 0,05. 1. Test de m ≤ m0 contre m > m0 Règle : on prend D = {Z ≥ a} avec a tel que si m = m0 , IP(Z ≥ a) ≈ 0.05. En explicitant en fonction de X n , la région de rejet est donc par un simple calcul {X n ≥ b}. avec aσ . b = m0 + √ n Si on ne demande pas explicitement la région d’acceptation (cela serait un exercice scolaire), il suffit toujours de regarder si la valeur expérimentale de Z ( obtenue en remplaçant X n par x et m par m0 ) est dans la région d’acceptation. Justification intuitive de la règle (à retenir) Si H0 est vérifiée, on a m ≤ m0 ; comme X n est voisin de m, l’événement {X n très grand} a peu de chance de se produire, on peut donc choisir une région de rejet de cette forme. Mais X n très grand équivaut à Z très grand. Justification de la règle. Supposons H0 vérifiée, c’est à dire m ≤ m0 . b−m 0 Alors IP(X n ≥ b) = IP(Z ≥ b−m est plus grand que b−m σ ). Comme σ σ , IP(X n ≥ b) 0 est majorée par IP(Z ≥ b−m ). Donc pour rendre IP(X n ≥ b) rare, il suffit d’exiger que σ b−m0 IP(Z ≥ σ = a) ≤ 0.05. 2. Test de m ≥ m0 contre m < m0 Il suffit de changer le sens des inégalités. Exemple : tester m ≥ 3 dans le cas n = 100, σ = 0.5, x = 3.1 au risque de 5%. √ On trouve ici IP(Z < a = −1.645) ≈ 0.050. La valeur expérimentale Z(ω) est Z = 100 0.1 0.5 plus grand que a : on ne rejette pas l’hypothèse. 3. Test de m = m0 contre m 6= m0 Dans ce cas, on considère plus simplement une région de rejet D rare sous l’hypothèse H0 de la forme {|Z| > c}. Exemple : Tester m = 3 dans le cas n = 50, σ = 6, x = 3.1 au risque 0.01. √ Si H0 est vrai, Z = 50 X 506−3 suit la loi N (0, 1). Sa valeur expérimentale est 0.1179 qui est bien de valeur absolue < c ≈ 2.576 lu dans la table Student ( colonne 0.01 et ligne ∞ ). Conclusion : l’hypothèse n’est pas rejetée. 56 Dessin : B. Test sur l’écart-type 1. Test de σ = σ0 contre σ 6= σ0 Pour simplifier on ne traite ici que le cas où m est connu. Dans le cas contraire, il faut se servir de la formule F4 et de la valeur expérimentale de Xn à la place de m. D’après la formule F3 , nVn C = 2 suit la loi du χ2n . σ On considère une région de rejet D rare sous l’hypothèse H0 de la forme {C > v ou C < u} en partageant en deux la surface. Exemple. Tester σ = 3 dans le cas n = 10, V10 (ω) = 4 au risque 0, 10. C suit la loi du χ2 à 10 degrés de libertés. En partageant en deux la surface 10% on trouve le région d’acceptation {3.94 < C < 18.3}. Mais si l’hypothèse est vraie, la valeur expérimentale de C est 10×4 ≈ 4.44 dans cet intervalle, donc on ne rejette pas l’hypothèse. 9 Remarque fondamentale : lien avec les intervalles On constate qu’une hypothèse σ = σ0 n’est pas rejetée ssi σ0 est dans l’intervalle de confiance bilatère de même niveau pour σ. Cette remarque est généralisable : ce cours sur les tests est une reformulation du cours sur les intervalles. Il est donc usuel de poser deux fois le même calcul à un examen pour sanctionner ceux qui ne réfléchissent pas. Dans notre exemple, 3 est bien dans ]1.47; 3.19[. 2. Test de σ ≤ σ0 contre σ > σ0 On utilise la région de rejet D = {C > u} avec IP(C > u) ≈ niveau 100 . En effet on veut que 2 Vn (qui ressemble à σ ) grand soit rare, ce qui équivaut à dire que C grand est rare. Exemple. Tester σ ≤ 4 dans le cas n = 10, s = 1.0 au risque 10% (m étant inconnu pour changer). D’après la formule F4 , C= 9Σ210 suit la loi du χ29 . σ2 57 9 plus petite que u = 14,7 obtenu à la ligne 9, Si σ = 4, la valeur expérimentale de C est 16 colonne 0,90 de la table. Donc on ne rejette pas l’hypothèse. III- Test du khi deux But. Contrôler l’adéquation d’un modèle, ce qu’on appelle aussi la conformité d’un échantillon. Soit un phénomène aléatoire pouvant prendre des valeurs numériques dans N intervalles disjoints (N est un entier quelconque ≥ 1, à ne pas confondre avec le nombre n d’expériences). On appelle plutôt en statistique ces intervalles des classes car on peut aussi considérer le cas où le phénomène non numérique (qualitatif = non quantitatif) appartient à un nombre fini de catégories. On note Ok le nombre de résultats expérimentaux qui tombent dans la k-ième classe (initiale O comme observé). D’autre part on fait l’hypothèse H0 que le phénomène est régi par une certaine loi de probabilité. On veut savoir si ce modèle est adéquat. Posons alors Tk l’effectif théorique de la classe qui s’obtient en multipliant le nombre n d’expériences par la probabilité théorique que la variable aléatoire soit dans la classe. Donc Tk n’est pas forcément un entier contrairement à Ok . Méthode. On pose C(ω) = N X (Ok − Tk )2 k=1 Tk dont la loi est approximativement du χ2 à N − 1 degrés de libertés où N est le nombre de classes. (C’est une bonne approximation quand le nombre d’expériences n est grand). Si la valeur expérimentale de C est en dehors de l’intervalle ]0, a[ avec a lu dans la table tel que IP(C < a) ≈ niveau , l’hypothèse est rejetée. 100 C est sensé mesurer l’écart entre l’observation et le modèle. Un exemple. Le moine autrichien Gregor Mendel faisait pousser des pois pour mettre en lumière les lois fondamentales de la génétique. Selon l’une d’elle, on devrait trouver des 3 9 pour les pois lisses et jaunes, 16 pour les pois lisses et verts, proportions théoriques de 16 1 3 pour les pois ridés et jaunes et enfin 16 pour les ridés verts. encore 16 Lisses jaunes Lisses verts Ridés jaunes Ridés verts Attendus Ti 312,75 104,25 104,25 34,75 Observés Oi 316 108 101 31 58 Les effectifs théoriques Ti des quatre classes s’obtiennent par 556× la proportion théorique. 2 P4 i) ≈ 0, 67. Avec 4 classes, on se sert de la table à 3 degrés de Alors C(ω) = i=1 (Oi −T Ti liberté : on y lit IP(C3 ≤ 6, 25) ≈ 0, 10. Au risque 0,10 on devrait donc ne pas rejeter l’hypothèse. Remarque. Dans le cas où la valeur expérimentale de C est très petite, on parle de test du χ2 trop bon et on s’interroge sur l’honnêteté de l’expérimentateur. Si C(ω) appartient à [0, c] tel que IP(C < c) ≈ 0, 01 , il est usuel de conclure qu’il y a probablement une tricherie. Conseils d’utilisation. n doit être assez grand et toutes les classes théoriques d’effectifs comparables (donc N ne doit pas être trop grand afin d’éviter les classes presque vides). Ne pas hésiter à regrouper des classes s’il le faut. On peut bien sûr utiliser des classes ouvertes de la forme {−∞ < X < a} ou {b < X < ∞}. Par contre, si un effectif expérimental est anormalement petit, ne pas changer les classes : cela signifie simplement qu’on risque fort de rejeter l’hypothèse puisque les données expérimentales ne correspondent pas à la théorie. Complément : règle de Fisher. Pour tester une hypothèse du genre hh la loi est une loi de Poisson ii avec le paramètre inconnu, il est d’usage d’estimer le paramètre (ici, on prendrait comme valeur estimée θ̂ la moyenne empirique de l’échantillon) et de transformer l’hypothèse en hh la loi est une loi de Poisson avec paramètre égal à θ̂ ii. Comme il s’agit d’un paramètre estimé, on diminue d’une unité (supplémentaire) le nombre de degré de liberté pour un test comportant deux bornes finies du χ2 . Plus généralement, le nombre de degrés de libertés (nombre de classes - 1) est encore à diminuer du nombre de paramètres estimés. Conclusion. Ce test, à cause de sa simplicité est beaucoup trop utilisé en pratique et bien souvent à tort. Par exemple, le générateur de nombre pseudo-aléatoires Randu fourni par IBM a passé avec succès ce test, alors que Randu fournissait des résultats catastrophiques. Il faut savoir que les simulations numériques réalisées pendant une trentaine d’années devraient être jetées à la poubelle. La fonction Random de vos machines à calculer est bien meilleure! 59