Chapitre 4 : Variables aléatoires `a densité I

Transcription

Chapitre 4 : Variables aléatoires à densité
I - Généralités
1. Intégrales généralisées.
a) Généralisée en +∞.
Soit f une fonction continue sur IR. On définit sous réserve d’existence
Z b
la limite limb→+∞
f (t) dt.
Z
+∞
f (t) dt comme
0
0
Exemple : f (t) = exp(−t). On obtient
Z
0
vers 1.
On en conclut que
Z
+∞
b
b
f (t) dt = − exp(−t) 0 = 1 − exp(−b) qui tend
exp(−t) dt = 1.
0
Cela représente l’aire totale sous la courbe de 0 à +∞.
1
. On obtient
Contre exemple : f (t) = √t+1
Z b
√
b
√
f (t) dt = 2 t + 1 0 égal à 2 b + 1 − 2 qui tend vers +∞.
0
Par conséquent, l’intégrale n’existe pas.
Z +∞
f (t) dt qui est sous réserve d’existence
On utilisera plus loin la notation
−∞
Z +∞
Z 0
f (t) dt.
f (t) dt +
−∞
0
b) Généralisée en un point où f possède une limite à gauche infinie.
Soit f une fonction continue sur IR+
f (t) = +∞. On définit sous réserve
∗ telle que limt→0+
Z 1
Z 1
f (t) dt comme la limite lima→0+
f (t) dt.
d’existence
0
a
Z 1
√ 1
√
1
√
f (t) dt = 2 t a égal à 2 − 2 a qui tend vers 2.
Exemple : f (t) = t . On obtient
a Z
1
f (t) dt vaut 2.
Par conséquent, l’intégrale généralisée
0
Cela représente l’aire totale sous la courbe de 0 à 1.
35
Contre exemple : f (t) =
1
t.
On obtient
Z
1
a
1
f (t) dt = ln(t) a égal à − ln(a) qui tend vers
+∞. Par conséquent, l’intégrale n’existe pas.
2. Fonctions continues par morceaux au sens généralisé :
Définition : Il existe un nombre fini (éventuellement nul) de réels a1 < .... < an tels que
f est continue sur ] − ∞, a1 [, .., ]ai, ai+1 [, ..., ]an, +∞[
f possède une limite à droite et à gauche (éventuellement infinies) en chacun des points
ai .
Z +∞
On utilisera plus loin la notation
f (t) dt qui représentera l’aire totale sous la courbe
−∞
de f . Elle se calcule en ajoutant les diverses intégrales généralisées
Z a1
Z +∞
Z ai+1
f (t) dt,
f (t) dt et
f (t) dt.
ai
−∞
an
Exemple fondamental admis
Z +∞
√
exp(−t2 /2) dt = 2π.
On trouve
−∞
3. Densités de probabilité.
♥ Définition : Soit p une fonction continue par morceaux au sens généralisé. p est une
densité de probabilité ssi les deux conditions suivantes sont vérifiées :
a) En tout point t du domaine de définition p(t) ≥ 0.
Z +∞
p(t) dt = 1.
b)
−∞
Remarque : a) est l’analogue du pk ≥ 0 du cas discret.
Pn
La condition de normalisation b) est l’analogue du k=1 pk = 1 du cas discret.
Exemples
♥ Densité uniforme sur un intervalle [a, b] avec a < b.
1
C’est la fonction t −→
1l[a,b] (t).
b−a
♥ Densité exponentielle de paramètre θ > 0.
C’est la fonction t −→ θ exp(−θt)1lIR+ (t).
36
♥ Densité gaussienne centrée réduite.
C’est la fonction
1
t2
t −→ √ exp(− ).
2
2π
Rappel : cette fonction déjà vue dans le chapitre précédent ne possède pas de primitive
simplement calculable.
4. Variables aléatoires à densité.
♥ ♥ Définition et formule fondamentale 4.
Soit p une densité de probabilité. On dit qu’une variable aléatoire X possède la densité de
probabilité p ssi pour tous les réels α ≤ β on a la formule :
IP(α ≤ X ≤ β) =
Z
β
p(t) dt.
α
Conséquence 4.1 : si α = β, on trouve pour tout α, IP(X = α) = 0. Ce qui est
totalement différent de la situation du chapitre II.
Comme [α, β] est la réunion disjointe ]α, β[, {α} et de {β}, on obtient IP(α ≤ X ≤ β) =
IP(α < X < β) + 0 + 0, donc dans ce chapitre, on peut remplacer
R les inégalités larges par
des inégalités strictes. Donc pour tout intervalle I, IP(X ∈ I) = I p(t) dt.
Les variables aléatoires à densité font partie de la famille des variables continues par
opposition aux variables aléatoires discrètes du chapitre 2.
♥ Exemple et définition
On dit que X possède la loi uniforme sur [a, b] avec a < b ssi X possède la densité de
probabilité uniforme sur [a, b].
Z 1.5
1
1
dt = .
Ce qui donne par exemple si a = 0, b = 2, pour I = [1, 1.5], IP(X ∈ I) = 2
4
1
5. Fonction de répartition.
Pour simplifier la présentation des calculs comme dans l’exemple précédent, on se sert de
la fonction de répartition.
♥ Définition : La fonction de répartition de la variable aléatoire X de densité de probabilité p est la fonction de IR dans IR
x −→ IP(X ≤ x) = F (x).
(C’est la même définition qu’au chapitre II).
37
♥ ♥ (Seconde) formule fondamentale 5.1
Si α et β sont deux réels tels que α ≤ β, IP(α ≤ X ≤ β) = F (β) − F (α).
Exemples :
a) Si X est de loi uniforme sur [a, b] avec a < b, on trouve :
si x < a, F (x) = 0,
1
(x − a),
si a ≤ x ≤ b, F (x) =
b−a
si x > b, F (x) = 1.
On trouve bien le résultat du paragraphe précédent, si a = 0 et b = 2, IP(1 ≤ X ≤ 1.5) =
F (1.5) − F (1) = 14 . C’est bien sûr l’aire du rectangle hachuré sous le graphe de la densité
p.
b) Si X est de loi exponentielle de paramètre θ > 0,
pour x < 0, F (x) = 0,
x
pour x ≥ 0, F (x) = − exp(−θt) 0 = 1 − exp(−θx).
c) La fonction de répartition d’une variable aléatoire gaussienne centrée réduite n’est pas
la fonction Φ du chapitre III qui figure dans les tables. Il manque le morceau de −∞ à 0
de surface 12 .
Rx
Donc Φ(x) = 21 + Ψ(x) = −∞ p(t) dt.
Alors Ψ(x) = Φ(x) − Φ(0) = IP(0 ≤ Z ≤ x) si x ≥ 0 et Ψ(x) = IP(x ≤ Z ≤ 0) si x ≤ 0.
6. Propriétés des fonctions de répartition.
Si F est la fonction de répartition d’une variable aléatoire X à densité alors,
• F est croissante (au sens large)
38
• limt→−∞ F (t) = 0 et limt→+∞ F (t) = 1.
• F est continue en tout point.
Sauf aux points à problèmes de p, F est dérivable et F ′ (t) = p(t).
MORALITÉ : ON DÉRIVE LA FONCTION DE RÉPARTITION,
MAIS ON INTÈGRE LA DENSITÉ DE PROBABILITÉ.
7. Méthode des fonctions de répartition
Soient une fonction numérique φ et une variable aléatoire X qui possède une densité de
probabilité p. On définit la variable aléatoire Y = φ(X).
On veut savoir si Y possède une densité de probabilité et la calculer le cas échéant.
Ce problème général dépasse largement le niveau de ce cours. De plus, même si Y possède
une densité de probabilité, il n’y a pas de formule simple pour la trouver. Nous allons nous
contenter d’exposer une méthode, qui repose sur l’utilisation des fonctions de répartition.
Elle permet de traiter un certain nombre d’exemples simples.
Premier exemple. Supposons que φ est une fonction affine x −→ ux + v, u et v étant
deux constantes réelles.
Proposition 7.1. a) si u > 0, Y = uX + v possède la densité de probabilité q telle que
1
x −→ q(t) = p
u
t−v
u
.
b) si u < 0, Y = uX + v possède la densité de probabilité q telle que
1
x −→ q(t) = − p
u
t−v
u
.
c) si u = 0, Y = v variable aléatoire constante ne possède pas de densité de probabilité. Si c’était le cas, d’après le corollaire 4.1 avec a = b = v on aurait la contradiction
IP(Y = v) = 0 = 1.
Preuve du a)
Soit G la fonction de répartition de Y : par définition, pour tout nombre réel G(x) =
IP(Y ≤ x) = IP(uX + v ≤ x).
En raisonnant sur les valeurs numériques des variables aléatoires, on trouve que uX +v ≤ x
x−v
équivaut à X ≤
.
u
x−v
). Posons z = u1 (x − v).
Donc G(x) = IP(X ≤
u
Par définition de la fonction de répartition F de X, on a F (z) = IP(X ≤ z) en appelant z
la variable muette. Finalement IP(Y ≤ x) = G(x) = F ( u1 (x − v)).
On sait qu’en dehors d’un nombre fini de points à problème, la fonction F est dérivable de
dérivée p.
On dérive la composée G des fonctions x −→ z = u1 (x − v) et de z −→ F (z).
39
On trouve G′ (x) = F ′ ( u1 (x − v)) ×
1
u
= p( u1 (x − v)) × u1 .
Par conséquent, le candidat naturel pour être la densité de probabilité de Y est bien la
fonction q de l’énoncé de la proposition.
Remarque. On vérifierait facilement que q est Rune densité de Rprobabilité. En particulier,
+∞
+∞
le changement de variable y = x−v
u montre que −∞ q(t) dt = −∞ p(y) dy = 1. C.Q.F.D
Le cas b) est laissé au lecteur. Il faut néanmoins observer que la fonction φ est maintenant
.
décroissante, de pente u négative. Alors uX + v ≤ x équivaut à X ≥ x−v
u
1
1
1
D’où G(x) = IP(X ≥ u (x − v)) = 1 − IP(X ≤ u (x − v)) = 1 − G(X ≤ u (x − v)) en passant
au complémentaire.
Le −F explique l’apparition du signe moins dans la densité de probabilité. D’ailleurs,
heureusement qu’il y a un signe moins, car une densité de probabilité doit obligatoirement
prendre des valeurs positives ou nulles.
Un autre exemple. Soient φ la fonction x −→ x2 et X une variable aléatoire de loi
N (0, 1).
C’est parti par la même méthode : soit G la fonction de répartition de Y = X 2 , donc par
définition G(x) = IP(X 2 ≤ x).
Il est clair que X 2 ne prend que des valeurs positives, il ne se passera rien d’intéressant
pour x < 0 : IP(X ≤ x) = 0.
√
√
Supposons dorénavant x ≥ 0. On constate que X 2 ≤ x équivaut à − x ≤ X ≤ x.
Z √x
p(t) dt où p est
D’après la formule fondamentale 5.1, cet événement a la probabilité
√
− x
la densité de probabilité gaussienne centrée réduite.
√
√
On obtient donc G(x) = Φ( x) − Φ(− x). Comme Φ′ (t) = p(t) =
dérivant les fonctions composées,
√1
2π
2
exp(− t2 ), en
√ √
√
√
G′ (x) = p( x)( x)′ − p(− x)(− x)′ .
Au total, G′ (x) = 2 ×
√1
2π
exp(− x2 ) ×
1
√
.
2 x
Comme on a pu dériver G en tout point de IR+ , sa dérivée est la densité de probabilité de
X 2 égale à
1
√
exp(−x/2)1lIR+ (x).
2πx
Conclusion : le défaut de cette méthode de dérivation est que souvent les fonctions de
répartition ne sont pas dérivables en tout point. Il est alors conseillé de vérifier que la
densité obtenue est bien d’intégrale 1.
40
II - Espérances et variances.
1. Espérance d’une variable aléatoire à densité.
♥ Définition : sous réserve de l’existence de l’intégrale on pose
Z +∞
IE(X) =
p(t) t dt.
−∞
Pn
C’est l’analogue avec une densité de probabilité de la formule IE(X) =
k=1 pk xk du
chapitre II.
Compément : si X est positive, l’espérance a toujours un sens à condition de la prendre
dans IR+ ∪ {+∞}. Quand l’intégrale diverge, on pose donc IE(X) = +∞.
Si X est de signe quelconque, on ne définit l’espérance que dans le cas où l’intégrale est
absolument convergente. On exige donc que IE(|X|) < +∞ pour définir IE(X).
Exemples de calculs.
a) Soit X de loi uniforme sur [a, b] avec a < b. L’intervalle est de longueur b − a.
1
”La” densité de probabilité est p(t) =
1l[a,b] (t).
−a
Rb +∞
Quand on reporte p(t) dans la formule −∞ p(t) t dt, on s’aperçoit qu’il ne subsiste qu’une
intégrale de a à b puisque p s’annule en dehors de [a, b].
Il reste
IE(X) =
Z
b
p(t) t dt =
a
qui est le milieu de l’intervalle [a, b].
1 b2 − a2
a+b
=
b−a
2
2
b) Soit X de loi exponentielle de paramètre θ.
R +∞
Quand on reporte p(t) = θ exp(−θt)1lIR+ (t) dans la formule −∞ p(t) t dt, on s’aperçoit
qu’il ne subsiste Rqu’une intégrale Rde 0 à l’infini puisque p s’annule sur IR− .
+∞
+∞
θ exp(−θt) t dt.
p(t) t dt = 0
Il reste IE(X) = 0
Une intégration par parties u′ (t) = θ exp(−θt) et v(t) = t donne :
Z +∞
1
IE(X) =
exp(−θt) dt = .
θ
0
2. Propriétés de l’espérance.
Ce sont exactement les mêmes que dans le chapitre II à ceci près que le symbole IE est
défini différemment.
Énonçons maintenant la formule de transfert qui permet le calcul de l’espérance d’une
fonction d’une variable aléatoire X à densité.
♥ 3. Formule de transfert
Énoncé. Soient f une fonction numérique continue et X une variable aléatoire possédant
la densité de probabilité t → p(t). Alors Y = f (X) est une variable aléatoire et son
R +∞
espérance IE(Y ) se calcule par la formule de transfert −∞ p(t)f (t) dt.
41
Exemple : soit X la variable aléatoire du a) et f la fonction carré.
Avec une loi uniforme sur [a, b], on trouve:
Z b
1 2
b3 − a3
a2 + ab + b2
2
IE(X ) =
t dt =
=
(à ne pas retenir !).
3(b − a)
3
a b−a
Attention ! Il ne faut surtout pas élever au carré les probabilités : on voit mal comment
p(t)2 pourrait être encore une densité de probabilité d’intégrale égale à 1.
4. Variance
Le but est de mesurer simplement la dispersion de X autour de son espérance.
♥ Définition.
On appelle (sans modifier la définition par rapport au chapitre
II) variance de X, notée
2
Var(X), le nombre réel positif Var(X) = IE (X − IE(X)) .
On peut donc écrire Var(X) = IE(X̃ 2 ) où X̃ = X − IE(X).
En pratique, on utilise la formule de Koenigs
var(X) = IE(X 2 ) − IE(X)2 .
Exemple : soit X possédant une loi uniforme sur [a, b].
D’après le calcul du paragraphe 3. et la formule de Koenigs,
2
a2 + ab + b2
4(a2 + ab + b2 ) − 3(a2 + 2ab + b2 )
a+b
(b − a)2
var(X) =
=
−
=
3
2
12
12
(à retenir !).
Vérification : quand a = b, la variable aléatoire X est constante, donc sa variance est nulle.
III- Les lois à densité les plus usuelles.
1. La loi uniforme sur un intervalle [a, b] avec a < b.
Voir plus haut (I. 3, exemple).
Quand a = b, la densité n’est plus définie. On doit interpréter cette variable aléatoire
comme une variable constante (= a = b) qui ne possède pas de densité de probabilité.
2. La loi exponentielle de paramètre θ > 0.
Définition. On dit qu’une variable aléatoire X suit la loi exponentielle de paramètre θ ssi
X possède la densité de probabilité t −→ θ exp(−θt)1lIR+ (t).
Cette loi sert souvent à modéliser les temps d’attente (prenant des valeurs continues, à
la différence de la loi géométrique qui modélise des attentes de longueur entière). On fait
surtout ce choix à cause de la propriété d’absence de mémoire (propriété c) plus loin).
Propriétés de la loi exponentielle de paramètre θ > 0 :
Soit X possédant la densité de probabilité précédente. Alors,
42
a) IE(X) = 1θ , (preuve laissée au lecteur en utilisant une intégration par parties).
b) var(X) = θ12 , (preuve laissée au lecteur en utilisant une intégration par parties). On
trouve IE(X 2 ) = θ22 , donc par la formule de Koenigs, var(X) = θ22 − θ12 .
c) X n’a pas de mémoire.
Supposons par exemple que le temps d’attente d’un bus exprimée en minutes suive une loi
exponentielle dont l’espérance est 10.
Imaginons un malheureux client qui a déjà attendu en vain son bus 15mn. Sachant cela,
quelle est la probabilité conditionnelle qu’il doive encore attendre au moins 5 minutes?
L’événement B = { attendre en vain au moins 15mn } est {X > 15}, alors que A est
1
{X > 20} en ajoutant 15 et 5. D’après a), le paramètre est identifié : θ = 10
.
IP(A∩B)
IP(A)
La probabilité conditionnelle est par définition IP(B) = IP(B) .
En utilisant la formule fondamentale 4, pour tout réel positif y,
Z +∞
IP(X > y) =
θ exp(−θt) dt = 1 − F (y) = exp(−θy)
y
si F est la fonction de répartition.
En substituant y = 20 et y = 15, après simplification par exp(−15θ) dans le rapport, on
trouve la probabilité conditionnelle exp(−5θ) qui est la même chose que si on ne conditionnait pas par B. On en conclut que le bus n’a pas conservé en mémoire qu’un client a
déjà attendu.
Plus généralement, pour tous les réels t et h strictement positifs, la probabilité conditionnelle IP(X > t + h /X > t) = IP(X > h).
Rq : les seules lois à densité qui vérifient cette propriété sont les lois exponentielles.
3. Loi gaussienne N (m, σ 2 ).
Définition : on dit qu’une variable aléatoire X possède la loi gaussienne (ou normale)
N (m, σ 2 ) ssi X possède la densité de probabilité
1
(t − m)2
.
t −→ √
exp −
2σ 2
2πσ 2
Le paramètre m s’appelle la moyenne (c’est en fait l’espérance), le paramètre strictement
positif σ est l’écart-type.
Loi gaussienne centrée réduite N (0, 1)
Elle correspond au cas particulier m = 0 et σ = 1. Sa densité de probabilité p est
1
t −→ p(t) = √ exp(−t2 /2).
2π
Rappelons l’autre définition possible :
X −m
suit la loi N (0, 1).
X suit la loi N (m, σ 2 ) ssi Z =
σ
Par conséquent, toute variable aléatoire X de loi N (m, σ 2 ) peut s’écrire sous la forme
m + σZ avec Z de loi N (0, 1).
43
Vérification de la cohérence des définitions
La proposition 7.1. permet de retrouver la densité de laloi N (m, σ 2 ) à partir de la densité
.
de probabilité p de la loi N (0, 1) : c’est t −→ σ1 p t−m
σ
♥ Théorème 3.1. Si X possède la loi N (m, σ 2 ), alors IE(X) = m et Var(X) = σ 2 .
Preuve : Commençons par établir ce résultat dans le cas centré et réduit.
Calcul de IE(Z)
2
2
Comme la dérivée de t −→ exp(− t2 ) est −t exp(− t2 ), on trouve
Z b
b
1 tp(t) dt = √
− exp(−t2 /2) 0 qui tend vers √12π × 1 quand b croı̂t vers +∞.
2π
0
Z +∞
1
tp(t) dt = √ .
Donc
2π
0
Z +∞
Z 0
−1
tp(t) dt = 0.
De même,
tp(t) dt = √ . En ajoutant les deux morceaux,
2π
−∞
−∞
À condition d’admettre l’existence de l’intégrale de −∞ à +∞, on pouvait prévoir ce
résultat par imparité de t −→ t p(t).
Calcul de Var(Z)
2
Attention, il n’existe pas de primitive simple de t −→ t2 exp(− t2 ). Grâce à une intégration
par parties,
Z b
Z b
2
t p(t) dt =
p(t) dt.
0
On en déduit que
2
IE(Z ) =
Z
0
+∞
2
t p(t) dt =
−∞
Z
+∞
p(t) dt = 1.
−∞
D’après la formule de Koenigs, var(Z) = IE(Z 2 ) − 02 = 1.
Cas général
On déduit immédiatement de IE(Z) = 0 et Var(Z) = 1 que IE(X) = IE(m + σZ) = m + 0 =
m (par linéarité) et Var(m + σZ) = Var(σZ) = σ 2 Var(Z). C.Q.F.D.
♥ Stabilité de la loi normale (admise). Théorème 3.2. Soient X et Y des variables
aléatoires indépendantes possédant respectivement les lois N (m1 , σ12 ) et N (m2 , σ22 ). Alors
X + Y possède la loi N (m1 + m2 , σ12 + σ22 ).
Conseil. Se souvenir que X + Y possède une loi normale. Il suffit alors d’identifier
l’espérance et la variance.
4. Complément : la loi de Cauchy.
Définition. On dit qu’une variable aléatoire X possède la loi de Cauchy ssi sa densité de
probabilité est
1
.
t −→ p(t) =
π(1 + t2 )
44
On peut montrer qu’elle ne possède pas d’espérance, puisque
Z
b
t p(t) dt =
0
1
b
ln(1 + t2 ) 0
2π
qui tend vers l’infini quand b croı̂t vers l’infini.
***********
Tableau des lois usuelles
nom
symbole
valeurs dans
nature
espérance
variance
Binômiale
B(n, p)
{0, ..., n}
discrète
np
npq
Poisson
P(λ)
IN
discrète
λ
λ
Géométrique
G∗ (p)
IN∗
discrète
1
p
q
p2
Gaussienne
N (m, σ 2 )
IR
continue
m
σ2
Uniforme
U(a, b)
[a, b]
continue
a+b
2
(b−a)2
12
Exponentielle
Exp(θ)
IR+
continue
1
θ
1
θ2
Attention : on parle aussi de la loi uniforme sur un ensemble fini {x1 , ..., xn} à ne pas
confondre avec la loi uniforme sur un intervalle de longueur strictement positive.
45
Complément : vecteurs aléatoires à densité, hors-programme en 2010.
Il s’agit de définir des objets (vecteurs de IRd ) aléatoires de dimension d > 1.
La définition naturelle de ces objets utilise la théorie de l’intégrale de Lebesgue, enseignée
en licence de mathématiques. Dans le cadre restreint de l’intégrale de Riemann (celle du
Deug, et la seule au programme du CAPES), des définitions rigoureuses sont vraiment
peu satisfaisantes et leur utilisation infiniment plus délicate qu’en dimension d = 1. En
particulier la notion de fonction continue par morceaux devient peu maniable. Pour intervertir l’ordre de calcul des intégrales multiples (en appliquant le théorème de Fubini), il
faut supposer que la densité de probabilité est assez régulière.
Plutôt que de chercher à appliquer une version étendue de la théorie de l’intégrale de
Riemann non généralisée multidimensionnelle exposée par exemple dans le cours de mathématiques spéciales Ramis, Deschamps, Odoux tome 4, chapitre 6, nous resterons très
vague sur le concept de fonction intégrable ” avec peu de discontinuités ”. Pour simplifier
les notations, seul le cas d = 2 est abordé ici. Un pavé est un rectangle de la forme
[a, b] × [a′ , b′ ] avec a ≤ b et a′ ≤ b′ .
1. Densités de probabilité et vecteurs aléatoires.
Définition. On appelle densité de probabilité sur IRd toute fonction positive p définie sur
un ensemble D ⊂ IRd assez régulier. On prolonge p sur le complémentaire en lui affectant
la valeur zéro. Alors p est une densité ssi la restriction
de p à tout pavé (fermé borné) est
R
Riemann intégrable et si l’intégrale généralisée D p(x, y)dxdy vaut 1.
Exemples : a) D = [a, b] × [a′ , b′ ] avec a < b et a′ < b′ . D est un pavé de surface S =
(b − a)(b′ − a′ ) > 0. La densité uniforme sur D vaut S1 dans D et 0 en dehors.
b) D = IR2 et p(x, y) =
1
2π
2
exp(− x
+y 2
).
2
c) D est le triangle {(x, y)/0 < x < y < 1} de surface 12 . La densité uniforme sur ce triangle
vaut 2 dedans et 0 dehors.
On dit qu’un vecteur aléatoire
V = (X, Y ) possède ”la” densité de probabilité p ssi pour
R
tout pavé A, IP(V ∈ A) = A p(x, y)dxdy.
R b R b′
Cela signifie que IP(a ≤ X ≤ b & a′ ≤ Y ≤ b′ ) = a a′ p(x, y) dxdy. C’est donc une
extension de la définition d’une va. réelle à densité du chapitre 4.
Remarque 1 : si V possède une densité, alors pour toute valeur (x, y) IP(V = (x, y)) = 0
puisque les points ont une surface nulle.
Ceci explique les guillemets dans ”la” densité. Celle-ci n’est pas unique, on peut la modifier
par exemple en un nombre fini de points, ou plus généralement sur une partie quarrable
de surface 0.
Remarque 2 : les deux composantes du vecteur V sont des variables aléatoires réelles.
46
2. Densités marginales.
Théorème : si V est un vecteur aléatoire à valeurs dans IR2 , ses deux composantes X et
Y possèdent des densités deRprobabilité.
X possède la densité x −→ IR p(x, y) dy appelée la première densité marginale.
R
Y possède la densité y −→ IR p(x, y) dx appelée la seconde densité marginale.
Remarque : il s’agit de la version continue des additions dans les tableaux des lois discrètes
du chapitre 2.
Exemples : la première densité marginale de la loi uniforme sur le rectangle non aplati
D = [a, b] × [a′ , b′ ] est la densité uniforme sur [a, b].
La première densité marginale de la loi uniforme sur le triangle de l’ex c) est x −→
2(1 − x)1l[0,1] (x).
Remarque : chaque densité marginale définit une loi de probabilité sur IR appelée loi
marginale.
3. Indépendance.
Définition. On rappelle que deux variables aléatoires réelles définies sur le même univers
sont indépendantes ssi pour tout a ≤ b et a′ ≤ b′ ,
IP(a ≤ X ≤ b & a′ ≤ Y ≤ b′ ) = IP(a ≤ X ≤ b)IP(a′ ≤ Y ≤ b′ )
c’est à dire que les événements {a ≤ X ≤ b} et {a′ ≤ Y ≤ b′ } sont indépendants.
Théorème : les composantes X et Y d’un vecteur aléatoire de densité p sont indépendantes ssi le produit des densités marginales est une densité de p.
Exemple : la densité de l’ex. b) est le produit de deux densités gaussiennes centrées réduites.
Par contre, les deux composantes de l’ex. c) ne sont pas indépendantes.
4. Formule de transfert.
Théorème : si f est une fonction continue et bornée, alors
Z
p(x, y)f (x, y) dxdy.
IE(f (V )) =
IR2
5. Produit de convolution de deux densités
Théorème et définition. Si X et Y sont deux variables aléatoires indépendantes qui
possèdent respectivement les densités p1 et p2 , alors X + Y possède la densité
Z +∞
p1 (x)p2 (t − x) dx.
t −→
−∞
Par symétrie, cette densité s’écrit aussi t −→
Z
+∞
−∞
p1 (t − x)p2 (x) dx.
Cette fonction de t s’appelle le produit de convolution de p1 et p2 .
47
Chapitre 5 : statistique paramétrique
I - Estimateurs
Cadre de la statistique.
On suppose qu’un certain phénomène suit une loi de probabilité µ inconnue. En statistique paramétrique, on connaı̂t partiellement la loi, à un ou plusieurs paramètres près, par
exemple on sait que c’est une loi exponentielle Exp(λ) dont la paramètre est inconnu, une
loi gaussienne N (m, σ 2 ) avec m et σ inconnus, une loi de Bernoulli B(1, p) avec p inconnu.
Pour avoir une certitude (partielle et seulement vraie avec une certaine probabilité) on
réalise un certain nombre n d’expériences aléatoires. D’où la
Définition. On appelle n échantillon de loi parente µ la donnée de n variables aléatoires
indépendantes de même loi µ, notées X1 , ..., Xn dans tout ce chapitre.
Interprétation : ces n variables aléatoires représentent par exemple des essais indépendants,
des mesures successives...Plus ils sont nombreux, meilleure sera la connaissance du paramètre inconnu.
On note x1 , ..., xn les n valeurs expérimentales observées, c’est à dire les réalisations
X1 (ω), ..., Xn(ω) des n variables aléatoires X1 , ..., Xn.
Les problèmes essentiels de la statistique sont de répondre à la vue des valeurs x1 , ..., xn à
une des questions suivantes :
a) Estimer un paramètre inconnu par un intervalle de confiance (ou à défaut par une valeur
unique).
b) Étant donné un intervalle de paramètres, décider si sa véritable valeur est dedans (avec
une probabilité plus grande qu’un seuil donné).
La question a) est un problème d’estimation alors que b) est un test d’hypothèse.
Définition. On appelle estimateur d’un paramètre réel θ une suite de variables aléatoires
Tn (X1 , ..., Xn) (n ≥ 1) où chaque Tn (X1 , ..., Xn) est une variable aléatoire fonction du n
échantillon X1 , ..., Xn.
Rq : un estimateur de θ n’a d’intérêt que si Tn converge vers θ quand n tend vers l’infini.
Pn
Pn
Exemple : X n = n1 i=1 Xi appelé moyenne empirique. Donc X n (ω) = n1 i=1 xi ,
souvent notée x quand il n’y a pas d’ambiguı̈té sur n.
Bien faire la différence entre la variable aléatoire X n et sa valeur expérimentale le
jour de l’expérience X n (ω).
Comment faire pour estimer une variance?
!
n
1 X
♥ Si on connaı̂t l’espérance m : Vn :=
(Xi − m)2 .
n i=1
♥ Si on m est inconnu : on se sert souvent de la variance d’échantilonnage
1
Σ2n =
n−1
n
X
i=1
48
(Xi − X n )2
!
dont la valeur expérimentale est le carré du σ(n−1) des machines Casio (n − 1 réfère au
dénominateur et pas au nombre d’épreuves qui est n).
♥
Définition. On appelle écart-type d’échantilonnage la racine
v carrée de la variance
u
n
u 1 X
t
(xi − x)2 .
d’échantilonnage. Sa valeur expérimentale est souvent notée s =
n − 1 i=1
On conseille d’utiliser une machine pour calculer ces quantités dans le cas où l’énoncé ne
donne que la liste des n valeurs numériques x1 , ..., xn. Si on tient à faire le calcul à la main,
on peut se servir de l’analogue du théorème de Koenigs :
!
n
n
X
X
2
(xi − x)
=
x2i − nx2 .
i=1
Alors s =
sP
i=1
n
i=1
x2i − nx2
.
n−1
Remarque. Il existe d’autres notations que s et Vn dans les livres.
n
X
1
Un autre estimateur de la variance. Il s’agit de σˆ2 :=
n
expérimentale est le carré du σ(n) des machines Casio :
i=1
2
σ(n)
(Xi − Xn )2
1
=
n
II - Cas des échantillons gaussiens
n
X
i=1
!
dont la valeur
!
(xi − X n (ω))2 .
1. Nouvelles lois de probabilités utilisées en statistique
a) Loi du χ2 à d degrés de liberté (d ∈ IN∗ ).
♥ Définition. On dit que la variable aléatoire C à la loi du χ2 à d degrés de liberté ssi
C est de la forme
d
X
C=
Ni2
i=1
où N1 , . . . Nd sont d variables aléatoires indépendantes de même loi gaussienne centrée
réduite.
Notation pour le nom de la loi : χ2d à l’anglo-saxonne
français).
hh
chi square
ii
ou khi deux (en
Exemple : si d = 1, C peut se mettre sous la forme Z 2 où Z est de loi N (0, 1). On peut
montrer par la méthode des fonctions de répartition que C a ici la densité de probabilité
1
exp(−t/2).
sur IR+ √
2πt
Propriétés de cette loi :
(i) Elle possède une densité de probabilité sur IR+ .
49
d
(ii) Cette densité est proportionnelle à t 2 −1 exp(−t/2).
Dessin du graphe : bosse sur IR+ , avec un maximum atteint en un point unique d − 2
(calcul facile à partir de (ii) ). Si d est assez grand, la demi-tangente en 0 est horizontale.
(iii) L’espérance de C est d (par linéarité).
De même que pour les densités normales, la fonction de répartition n’a pas d’expression
simple, c’est une intégrale non explicite puisque on ne connaı̂t pas de primitive simple. On
se sert donc d’une table ou d’une calculatrice.
Utilisation de la table : elle donne pour 1 ≤ d = n ≤ 30 et pour un nombre limité de
réels α des valeurs approchées des nombres b tels que IP(C ≤ b) = α.
Voir par exemple que la colonne correspondant à α = 0.5 est remplie de nombres de plus
en plus proches de d quand d croı̂t.
Conseil. Comparer les valeurs lues avec d.
b) Loi de Student à d degrés de liberté (d ∈ IN∗ ).
bf Définition. On dit qu’une variable aléatoire T à la loi de Student à d degrés de liberté
X
ssi T peut se mettre sous la forme q où X est une va. de loi N (0, 1) et Y une autre va.
Y
d
indépendante de loi du khi deux à d degrés de liberté (à ne pas retenir).
Propriétés de cette loi :
(i) Elle possède une densité de probabilité sur IR.
−(d+1)/2
t2
(ii) Cette densité (paire) est proportionnelle à 1 +
.
d
Exemple : si d = 1, c’est une loi de Cauchy.
(ii) Quand d croı̂t vers +∞, cette densité converge vers la densité gaussienne centrée
réduite.
En effet, limd→∞ 1 +
t2
d
−(d+1)/2
= exp(− 12 t2 ).
♥ Retenir Une loi de Student avec un nombre infini de degrés de liberté est une loi
N (0, 1).
Dessin du graphe : analogue à celui d’une densité gaussienne, mais plus étalé, de moins en
moins quand d augmente.
50
Ici la fonction
√ de répartition n’a pas d’expression très simple, bien que le changement de
variable t = d tan(θ) conduise à un calcul possible. (D’ailleurs ce n’est pas un hasard si
la fonction de répartition d’une densité de Cauchy contient la fonction arctangente). On
se sert donc en pratique d’une table ou d’une calculatrice.
Utilisation de la table :
Elle donne pour 1 ≤ d = n ≤ 30 ou d ∈ {30, 40, 60, 120, ∞} et pour un nombre limité de
réels α des valeurs approchées des nombres b tels que IP(|T | ≥ b) = α.
Cette formule est d’ailleurs rappelée en haut de la table.
En particulier la ligne d = ∞ peut servir à rechercher des antécédents de la fonction de
répartition Φ d’une loi N (0, 1).
Exemple : cherchons a tel que Φ(a) = IP(Z ≤ a) ≈ 0, 95.
Par passage au complémentaire, IP(Z ≥ a) ≈ 0, 05 puis par symétrie, on a alors IP(|Z| ≥
a) ≈ 0, 10. À l’intersection des lignes ∞ et des colonnes 0, 10 on trouve le fameux 1, 645.
2. Les quatre formules fondamentales
Soit (Xj )1≤j≤n un échantillon de taille n dont la variable aléatoire parente est distribuée
suivant une loi normale N (m, σ 2 ).
On note respectivement X n et Σ2n la moyenne empirique et la variance d’échantilonnage
de cet échantillon. Alors :
√
√
n
n
Xn − m
suit la loi N (0, 1)
σ
Xn − m
suit la loi de Student à n − 1 degrés de liberté.
Σn
2
n X
Xj − m
suit la loi du χ2 à n degrés de liberté.
σ
j=1
2
n X
Xj − X n
suit la loi du χ2 à n − 1 degrés de liberté.
σ
j=1
F1
F2
F3
F4
On peut démontrer facilement F1 et F3 , les deux autres sont admises.
Preuve de F1 .
D’après le théorème de stabilité des variables aléatoires gaussiennes indépendantes, Sn =
Pn
√ X n −m
de la
n
j=1 Xj et donc X n sont des variables aléatoires gaussiennes. Alors
σ
forme aXn + b est également une va gaussienne dont il suffit d’identifier l’espérance et
l’écart-type.
Preuve de F3 .
Il suffit de remarquer que Nj =
Xj −m
σ
suit une loi N (0, 1).
Remarque 1 (lien avec les estimateurs) :
La quantité C qui figure dans F3 est n Vσn2 .
51
Σ2
La quantité C qui figure dans F4 est (n − 1) σn2 .
Remarque 2 : ces formules étant exactes, il est possible de s’en servir pour rechercher des
intervalles même quand n est petit.
3. intervalles (bilatères) pour m
On se sert des formules F1 et F2 qui contiennent m. D’autre part, il faut retenir que
l’estimateur naturel pour m est X n , ce qui explique que la formule F3 qui pourrait être
utilisée (car elle contient aussi m) donne de très mauvais résultats.
Application numérique : trouver un intervalle de confiance pour m au niveau 95% dans le
cas n = 25, X 25 (ω) = 8.
a) Cas où σ n’est pas connu. On donne en plus s2 = 10 (par exemple). D’après la formule
F2 ,
√ X 25 − m
suit la loi de Student à 24 degrés de liberté.
T = 25
Σ25
D’après la table, IP(|T | ≥ 2, 064) ≈ 0, 05. Donc, au vu de l’expérience quiqdonne x =
√
X 25 (ω) = 8 et s = 10, avec une probabilité plus grande que 0.95, |8 − m| ≤ 10
25 × 2, 064.
q
q
10
; x + 2, 064 25
] ≈ [6.69; 9.31].
On obtient alors l’intervalle de confiance I = [x − 2, 064 10
25
b) Cas où σ est connu. On donne ici σ = 3 (par exemple).
√ X 25 − m
D’après la formule F1 , Z= 25
suit la loi gaussienne N (0, 1).
σ
D’après la table de la loi de Student avec n = ∞, avec une probabilité plus grande que
0,95, |Z| ≤ 1, 960. Donc avec une probabilité plus grande que 0.95, |8 − m| ≤ √325 × 1, 960.
On obtient alors l’intervalle de confiance I = [x − 1, 960 × 53 ; x + 1, 960 × 53 ] ≈ [6.82; 9.18].
4. intervalles bilatères pour l’écart-type σ
On se sert maintenant des formules F3 et F4 qui sont liées à des estimateurs naturels de
la variance, donc de sa racine carrée σ.
Définition on appelle intervalle de confiance bilatère un intervalle comportant deux
bornes finies (intéressantes).
Application numérique : trouver un intervalle de confiance bilatère pour σ au niveau 90%
dans le cas n = 10.
52
a) Cas où m est connu. On donne V10 (ω) = 4.
2
D’après la formule F3 , C = 10 Vσ10
à 10 degrés de liberté. D’après la table
2 suit la loi du χ
(colonne 0.05 pour le morceau d’aire à gauche et colonne 0.95 pour le morceau d’aire à
droite),
q IP(3, 94 ≤ C ≤ 18, 3) ≈ 0, 90. On en tire alors que dans au moins 90% des cas,
σ=
10∗4
C
appartient à ]1.47 ; 3.19[.
p
Remarquer qu’ici l’intervalle de confiance, bien que contenant V10 (ω), n’y est pas centré.
En fait, on divise la surface extrémale de 10% en deux par habitude puisque les tables ne
contiennent qu’un nombre limité de niveaux.
b) Cas où m n’est pas connu. On donne s2 = 5.
Σ2
La seule différence avec le a) qui précède est qu’on se sert de la formule F4 , 9 σ10
2 suit la loi
2
du χ à 9 degrés de liberté. Comme pour d = 9, IP(3, 33 ≤ C ≤ 16, 9) ≈ 0, 90, on obtient
l’intervalle ]1.63; 3.68[.
5. intervalles unilatères pour l’écart-type σ
Contrairement au paragraphe précédent où on demande un intervalle comportant deux
bornes finies (intéressantes) on peut considérer un autre type d’intervalles de confiance :
les intervalles unilatères de la forme ]0, c[ (se souvenir que σ est positif ! ).
Le cas des intervalles [c, +∞] est laissé au lecteur car il est beaucoup moins utilisé en
pratique (par manque d’intérêt statistique).
Application numérique : trouver un intervalle de confiance unilatère pour σ au niveau 90%
dans le cas n = 10.
a) Cas où m est connu. On donne V10 (ω) = 4.
2
D’après la formule F3 , 10 Vσ10
à 10 degrés de liberté. Comme on veut que
2 suit la loi du χ
10V10
σ grand soit rare, on recherche C = σ2 petit dans 10% des cas. D’après la colonne 0,10
on trouve IP(C ≤ 4, 87) ≈ 0, 10. Donc dans moins de 10% des cas, σ402 est ≤ 4, 87, ce qui
q
40
. On trouve l’intervalle de confiance ]0; 2.87[.
implique que pour 90% des cas, σ ≤ 4,87
b) Cas où m n’est pas connu. On donne s2 = 5.
Σ2 0
La seule différence avec le a) qui précède est qu’on se sert de la formule F4 , 9 σ12 suit
la loi du χ2 à 9 degrés de liberté. Comme pour d = 9 IP(C ≤ 4, 17) ≈ 0.10, on trouve
maintenant l’intervalle de confiance ]0, 3, 29[.
53
Remarquons que cet intervalle est plus grand que celui du a) (même si Σ2n et Vn étaient
égaux) parce-que la loi à 10 degrés a tendance à donner des valeurs plus grandes que la loi
à 9 degrés (ici le 4,87 est plus grand que 4,17).
6. Résumé
Méthode pour trouver un intervalle de confiance dans le cas d’un échantillon gaussien.
a) Lire l’énoncé pour savoir si l’intervalle de confiance porte sur m, σ voire même σ 2 .
Regarder si l’autre paramètre est lui aussi inconnu.
b) Sélectionner la seule formule Fk adéquate ( F1 ou F2 pour m, F3 ou F4 pour σ ). On
dispose alors d’une variable aléatoire Z, T ou bien C.
c) Construire au moyen d’une table un intervalle qui contient la variable aléatoire du b)
avec une probabilité plus grande que ce qui est demandé.
d) En déduire l’intervalle de confiance demandé en exprimant le paramètre inconnu en
fonction de la variable aléatoire.
54
Chapitre 6 : Tests
I - Principe général
On s’interroge sur la validité d’une hypothèse H0 qu’on appelle l’hypothèse nulle.
Sa négation s’appelle l’alternative (ou plus généralement l’alternative peut être toute
hypothèse H1 contredisant H0 ). On suppose H0 vraie et on examine s’il est possible
d’en déduire que les résultats expérimentaux sont anormaux, parce que leur probabilité
d’apparition en supposant H0 est faible.
Dans le cas contraire, on dit que H0 n’est pas rejetée (plutôt qu’acceptée).
Les deux types d’erreurs.
Définition. On appelle erreur de type 1 (ou I) celle qui consiste à rejeter à tort H0 . On
appelle erreur de type 2 (ou II) celle qui consiste à rejeter à tort H1 .
Il est impossible de rendre simultanément les deux erreurs de probabilité arbitrairement
petites. Alors par convention, on cherche en priorité à contrôler les erreurs de type 1 et à
rendre leur probabilité d’apparition plus petite que le seuil ( ou risque ) donné à l’avance.
Du fait de cette dissymétrie entre les deux types d’erreurs, le choix de l’hypothèse nulle
n’est pas indifférent : si l’hypothèse est hh l’accusé est innocent ii, c’est qu’on veut éviter une
erreur judiciaire, quitte à relâcher un coupable, par contre si c’est hh l’accusé est coupable ii,
c’est qu’on se place du point de vue sécuritaire. De même, qui a intérêt à choisir l’hypothèse
hh ce médicament est dangereux ii? (le fabriquant? le ministère de la santé?)
Définition. On appelle région de rejet au seuil (ou au risque) de x% tout événement D
x
lié aux variables aléatoires X1 , ..., Xn tel que si H0 est vérifiée, IP(D) ≤ 100
.
La région d’acceptation est le complémentaire de la région de rejet.
Le point de vue des tests est négatif : si l’hypothèse donne lieu à un événement de faible
probabilité on la rejette. Dans le cas contraire on ne la rejette pas, en attendant un autre
test ... C’est le décideur non statisticien qui doit prendre des responsabilités.
Remarque : à un niveau élémentaire comme ici, on n’évalue pas l’erreur de type II.
Remarque. Contrairement à ce que beaucoup de gens croient, plus le seuil d’un test est
voisin de 0, moins le test donne un résultat intéressant. En effet, le complémentaire de la
région de rejet est très grand et risque de contenir la valeur expérimentale. On sait d’avance
que l’hypothèse ne sera pas rejetée.
II- Cas des échantillons gaussiens
♥ Méthode résumée
a) Lire l’énoncé pour savoir si le test porte sur m, σ voire même σ 2 . Regarder si l’autre
paramètre est lui aussi inconnu.
b) Sélectionner la seule formule Fk adéquate ( F1 ou F2 pour m, F3 ou F4 pour σ ). On
dispose alors d’une variable aléatoire Z, T ou bien C.
c) Calculer la valeur expérimentale de la variable parmi Z, T ou C qui figure dans la
formule sélectionnée en b).
d) Construire la région d’acceptation du test. Si c’est un test d’égalité, elle a deux bornes.
S’il s’agit d’un test d’inégalité, elle est unilatère et faire attention au sens de l’inégalité.
55
e) Conclusion : si la valeur expérimentale du c) est dans la région d’acceptation, l’hypothèse
n’est pas rejetée. Sinon on la rejette.
A. Tests sur la moyenne m.
Pour simplifier on ne traite ici que le cas où σ est connu. Dans le cas contraire, il faut se
servir de la formule F2 et de la valeur expérimentale s à la place de σ. On obtiendrait ce
qui s’appelle un test de Student.
√
On rappelle que d’après la formule F1 , Z = n X nσ−m suit la loi N (0, 1). Pour simplifier
on va toujours prendre dans la suite le risque 0,05.
1. Test de m ≤ m0 contre m > m0
Règle : on prend D = {Z ≥ a} avec a tel que si m = m0 , IP(Z ≥ a) ≈ 0.05. En explicitant
en fonction de X n , la région de rejet est donc par un simple calcul {X n ≥ b}. avec
aσ
.
b = m0 + √
n
Si on ne demande pas explicitement la région d’acceptation (cela serait un exercice scolaire),
il suffit toujours de regarder si la valeur expérimentale de Z ( obtenue en remplaçant X n
par x et m par m0 ) est dans la région d’acceptation.
Justification intuitive de la règle (à retenir)
Si H0 est vérifiée, on a m ≤ m0 ; comme X n est voisin de m, l’événement {X n très grand}
a peu de chance de se produire, on peut donc choisir une région de rejet de cette forme.
Mais X n très grand équivaut à Z très grand.
Justification de la règle.
Supposons H0 vérifiée, c’est à dire m ≤ m0 .
b−m
0
Alors IP(X n ≥ b) = IP(Z ≥ b−m
est plus grand que b−m
σ ). Comme
σ
σ , IP(X n ≥ b)
0
est majorée par IP(Z ≥ b−m
). Donc pour rendre IP(X n ≥ b) rare, il suffit d’exiger que
σ
b−m0
IP(Z ≥ σ = a) ≤ 0.05.
2. Test de m ≥ m0 contre m < m0
Il suffit de changer le sens des inégalités.
Exemple : tester m ≥ 3 dans le cas n = 100, σ = 0.5, x = 3.1 au risque de 5%.
√
On trouve ici IP(Z < a = −1.645) ≈ 0.050. La valeur expérimentale Z(ω) est Z = 100 0.1
0.5
plus grand que a : on ne rejette pas l’hypothèse.
3. Test de m = m0 contre m 6= m0
Dans ce cas, on considère plus simplement une région de rejet D rare sous l’hypothèse H0
de la forme {|Z| > c}.
Exemple : Tester m = 3 dans le cas n = 50, σ = 6, x = 3.1 au risque 0.01.
√
Si H0 est vrai, Z = 50 X 506−3 suit la loi N (0, 1). Sa valeur expérimentale est 0.1179
qui est bien de valeur absolue < c ≈ 2.576 lu dans la table Student ( colonne 0.01 et ligne
∞ ). Conclusion : l’hypothèse n’est pas rejetée.
56
Dessin :
B. Test sur l’écart-type
1. Test de σ = σ0 contre σ 6= σ0
Pour simplifier on ne traite ici que le cas où m est connu. Dans le cas contraire, il faut se
servir de la formule F4 et de la valeur expérimentale de Xn à la place de m. D’après la
formule F3 ,
nVn
C = 2 suit la loi du χ2n .
σ
On considère une région de rejet D rare sous l’hypothèse H0 de la forme {C > v ou C < u}
en partageant en deux la surface.
Exemple. Tester σ = 3 dans le cas n = 10, V10 (ω) = 4 au risque 0, 10.
C suit la loi du χ2 à 10 degrés de libertés. En partageant en deux la surface 10% on
trouve le région d’acceptation {3.94 < C < 18.3}. Mais si l’hypothèse est vraie, la valeur
expérimentale de C est 10×4
≈ 4.44 dans cet intervalle, donc on ne rejette pas l’hypothèse.
9
Remarque fondamentale : lien avec les intervalles
On constate qu’une hypothèse σ = σ0 n’est pas rejetée ssi σ0 est dans l’intervalle de
confiance bilatère de même niveau pour σ. Cette remarque est généralisable : ce cours sur
les tests est une reformulation du cours sur les intervalles. Il est donc usuel de poser deux
fois le même calcul à un examen pour sanctionner ceux qui ne réfléchissent pas.
Dans notre exemple, 3 est bien dans ]1.47; 3.19[.
2. Test de σ ≤ σ0 contre σ > σ0
On utilise la région de rejet D = {C > u} avec IP(C > u) ≈ niveau
100 . En effet on veut que
2
Vn (qui ressemble à σ ) grand soit rare, ce qui équivaut à dire que C grand est rare.
Exemple. Tester σ ≤ 4 dans le cas n = 10, s = 1.0 au risque 10% (m étant inconnu pour
changer).
D’après la formule F4 ,
C=
9Σ210
suit la loi du χ29 .
σ2
57
9
plus petite que u = 14,7 obtenu à la ligne 9,
Si σ = 4, la valeur expérimentale de C est 16
colonne 0,90 de la table. Donc on ne rejette pas l’hypothèse.
III- Test du khi deux
But. Contrôler l’adéquation d’un modèle, ce qu’on appelle aussi la conformité d’un
échantillon.
Soit un phénomène aléatoire pouvant prendre des valeurs numériques dans N intervalles
disjoints (N est un entier quelconque ≥ 1, à ne pas confondre avec le nombre n d’expériences). On appelle plutôt en statistique ces intervalles des classes car on peut aussi
considérer le cas où le phénomène non numérique (qualitatif = non quantitatif) appartient
à un nombre fini de catégories. On note Ok le nombre de résultats expérimentaux qui
tombent dans la k-ième classe (initiale O comme observé). D’autre part on fait l’hypothèse
H0 que le phénomène est régi par une certaine loi de probabilité.
On veut savoir si ce modèle est adéquat. Posons alors Tk l’effectif théorique de la classe
qui s’obtient en multipliant le nombre n d’expériences par la probabilité théorique que la
variable aléatoire soit dans la classe. Donc Tk n’est pas forcément un entier contrairement
à Ok .
Méthode. On pose
C(ω) =
N
X
(Ok − Tk )2
k=1
Tk
dont la loi est approximativement du χ2 à N − 1 degrés de libertés où N est le nombre de
classes. (C’est une bonne approximation quand le nombre d’expériences n est grand).
Si la valeur expérimentale de C est en dehors de l’intervalle ]0, a[ avec a lu dans la table
tel que IP(C < a) ≈ niveau
, l’hypothèse est rejetée.
100
C est sensé mesurer l’écart entre l’observation et le modèle.
Un exemple. Le moine autrichien Gregor Mendel faisait pousser des pois pour mettre en
lumière les lois fondamentales de la génétique. Selon l’une d’elle, on devrait trouver des
3
9
pour les pois lisses et jaunes, 16
pour les pois lisses et verts,
proportions théoriques de 16
1
3
pour les pois ridés et jaunes et enfin 16
pour les ridés verts.
encore 16
Lisses jaunes
Lisses verts
Ridés jaunes
Ridés verts
Attendus Ti
312,75
104,25
104,25
34,75
Observés Oi
316
108
101
31
58
Les effectifs théoriques Ti des quatre classes s’obtiennent par 556× la proportion théorique.
2
P4
i)
≈ 0, 67. Avec 4 classes, on se sert de la table à 3 degrés de
Alors C(ω) = i=1 (Oi −T
Ti
liberté : on y lit IP(C3 ≤ 6, 25) ≈ 0, 10.
Au risque 0,10 on devrait donc ne pas rejeter l’hypothèse.
Remarque. Dans le cas où la valeur expérimentale de C est très petite, on parle de test
du χ2 trop bon et on s’interroge sur l’honnêteté de l’expérimentateur. Si C(ω) appartient
à [0, c] tel que IP(C < c) ≈ 0, 01 , il est usuel de conclure qu’il y a probablement une
tricherie.
Conseils d’utilisation. n doit être assez grand et toutes les classes théoriques d’effectifs
comparables (donc N ne doit pas être trop grand afin d’éviter les classes presque vides).
Ne pas hésiter à regrouper des classes s’il le faut. On peut bien sûr utiliser des classes
ouvertes de la forme {−∞ < X < a} ou {b < X < ∞}.
Par contre, si un effectif expérimental est anormalement petit, ne pas changer les classes :
cela signifie simplement qu’on risque fort de rejeter l’hypothèse puisque les données expérimentales ne correspondent pas à la théorie.
Complément : règle de Fisher. Pour tester une hypothèse du genre hh la loi est une
loi de Poisson ii avec le paramètre inconnu, il est d’usage d’estimer le paramètre (ici, on
prendrait comme valeur estimée θ̂ la moyenne empirique de l’échantillon) et de transformer
l’hypothèse en hh la loi est une loi de Poisson avec paramètre égal à θ̂ ii. Comme il s’agit
d’un paramètre estimé, on diminue d’une unité (supplémentaire) le nombre de degré de
liberté pour un test comportant deux bornes finies du χ2 .
Plus généralement, le nombre de degrés de libertés (nombre de classes - 1) est encore à
diminuer du nombre de paramètres estimés.
Conclusion. Ce test, à cause de sa simplicité est beaucoup trop utilisé en pratique et bien
souvent à tort. Par exemple, le générateur de nombre pseudo-aléatoires Randu fourni par
IBM a passé avec succès ce test, alors que Randu fournissait des résultats catastrophiques.
Il faut savoir que les simulations numériques réalisées pendant une trentaine d’années
devraient être jetées à la poubelle. La fonction Random de vos machines à calculer est bien
meilleure!
59

Chapitre 4 : Variables aléatoires `a densité I

Transcription

Documents pareils

Contrôle continu Probabilités - IRMA

TD n˚3 Lois de Probabilités, Variables aléatoires

Fonction de répartition et densité

Devoir surveillé sur les probabilités en première S

Examen de probabilités

TD Probabilités : Exercices “de base”

exercice 1 exercice 2

Mathématiques pour physiciens : TD n˚1 Probabilités

TD 2 : fonctions de répartition de fonctions densité.

1 Année-Diplôme d`ingénieur TD Tribus et Variables aléatoires