Cours de Statistique

Transcription

Cours de Statistique
Université Joseph Fourier, Grenoble I
Licence Sciences et Technologies 2e année
STA230 : Méthodes Statistiques pour la Biologie
Cours de Statistique
http ://ljk.imag.fr/membres/Bernard.Ycart/STA230/
Table des matières
1 Données et Modèles
1.1 Données unidimensionnelles . . . . . . . . . . . . .
1.1.1 Échantillons . . . . . . . . . . . . . . . . . .
1.1.2 Moyenne empirique . . . . . . . . . . . . . .
1.1.3 Variance empirique . . . . . . . . . . . . . .
1.2 Expériences aléatoires . . . . . . . . . . . . . . . .
1.2.1 Événements . . . . . . . . . . . . . . . . . .
1.2.2 Axiomes des probabilités . . . . . . . . . . .
1.2.3 Probabilités conditionnelles . . . . . . . . .
1.3 Variables aléatoires . . . . . . . . . . . . . . . . . .
1.3.1 Loi d’une variable aléatoire . . . . . . . . .
1.3.2 Variables aléatoires discrètes . . . . . . . . .
1.3.3 Variables aléatoires continues . . . . . . . .
1.3.4 Fonction de répartition et fonction quantile .
1.3.5 Espérance et variance . . . . . . . . . . . . .
1.3.6 Théorèmes limites . . . . . . . . . . . . . . .
1.4 Distribution empirique . . . . . . . . . . . . . . . .
1.4.1 Statistique et probabilités . . . . . . . . . .
1.4.2 Quantiles . . . . . . . . . . . . . . . . . . .
1.4.3 Modèles probabilistes . . . . . . . . . . . . .
2 Estimation paramétrique
2.1 Estimation ponctuelle . . . . . . .
2.1.1 Modèles paramétrés . . . .
2.1.2 Estimateurs et estimations
2.1.3 Qualités d’un estimateur .
2.1.4 Exemples d’estimateurs . .
2.2 Intervalles de confiance . . . . . .
2.2.1 Intervalles de dispersion .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
3
3
3
6
7
9
9
10
13
15
15
16
19
20
24
26
28
28
30
32
.
.
.
.
.
.
.
36
36
36
38
39
42
45
45
Cours de Statistique
STA230
2.2.2
2.2.3
2.2.4
UJF Grenoble
Définitions . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Echantillons gaussiens . . . . . . . . . . . . . . . . . . . . . . .
Normalité asymptotique . . . . . . . . . . . . . . . . . . . . . .
3 Tests statistiques
3.1 Statistiques de test . . . . . . . . . . . . . . . . .
3.1.1 Modèles probabilistes réfutables . . . . . .
3.1.2 Règles de décision . . . . . . . . . . . . . .
3.1.3 Seuil et p-valeur . . . . . . . . . . . . . . .
3.1.4 Risques et puissance . . . . . . . . . . . .
3.2 Tests paramétriques classiques . . . . . . . . . . .
3.2.1 Échantillons gaussiens . . . . . . . . . . .
3.2.2 Test sur la moyenne d’un grand échantillon
3.2.3 Test sur la valeur d’un quantile . . . . . .
3.2.4 Échantillons appariés . . . . . . . . . . . .
3.3 Comparaison d’échantillons indépendants . . . . .
3.3.1 Test de Fisher . . . . . . . . . . . . . . . .
3.3.2 Test de Student . . . . . . . . . . . . . . .
3.3.3 Normalité asymptotique . . . . . . . . . .
3.4 Test d’ajustement . . . . . . . . . . . . . . . . . .
3.4.1 Distance du khi-deux . . . . . . . . . . . .
3.4.2 Pratique du test . . . . . . . . . . . . . . .
3.5 Test d’indépendance . . . . . . . . . . . . . . . .
3.5.1 Tableau de contingence . . . . . . . . . . .
3.5.2 Khi-deux de contingence . . . . . . . . . .
4 Régression linéaire
4.1 Régression linéaire simple . . . . . . . . . . .
4.1.1 Représentations graphiques . . . . . .
4.1.2 Covariance . . . . . . . . . . . . . . . .
4.1.3 Droite de régression linéaire . . . . . .
4.2 Modèle linéaire . . . . . . . . . . . . . . . . .
4.2.1 Intervalles de confiance et de prédiction
4.2.2 Test de pertinence de la régression . .
4.2.3 Étude des résidus . . . . . . . . . . . .
2
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
48
51
53
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
56
56
56
58
61
63
64
64
65
66
67
68
68
69
70
70
70
72
74
74
75
.
.
.
.
.
.
.
.
78
78
78
79
81
85
85
88
89
Cours de Statistique
STA230
1
UJF Grenoble
Données et Modèles
Ce chapitre présente le vocabulaire de la statistique descriptive sur les données unidimensionelles. La notion de modèle que l’on peut ajuster à un caractère statistique est
assez subtile, et de multiples exemples seront fournis pour aider à sa compréhension.
Elle est pourtant essentielle, même si nous ne mettrons l’accent que sur quelques modèles de base. Les deux plus importants sont le modèle binomial et le modèle gaussien,
qui devront absolument être compris.
1.1
1.1.1
Données unidimensionnelles
Échantillons
À la base de toute étude statistique, il y a une population, formée d’individus sur
lesquels on observe des caractères. Pour fixer les idées, il est plus facile de penser en
termes de population humaine. Les individus sont des personnes, et les caractères observés peuvent être morphologiques (taille, poids, couleur des yeux), physiologiques
(groupe sanguin, numération globulaire, taux de cholestérol) ou psychologiques (réactions à des tests ou réponses à une enquête d’opinion). Même si nous choisirons
prioritairement nos exemples dans les caractères humains, il faut garder à l’esprit des
notions de population et de caractère plus générales. Voici quelques exemples.
Population
Eléments chimiques
Galaxies
Etoiles
Chromosomes
Gènes
Villes
Pays
Films
Mois de l’année
Caractère
Nombre d’isotopes
Nombre d’étoiles
Magnitude
Nombre de gènes
Nombre de bases protéiques
Taux d’imposition
Produit intérieur brut
Recettes
Montant des exportations
Un caractère est dit :
– qualitatif, si les valeurs ne peuvent pas être ordonnées (groupe sanguin, couleur
des yeux, vote pour un candidat).
– ordinal, si les valeurs peuvent seulement être ordonnées : leurs différences ne sont
pas interprétables (opinions exprimées sur une échelle de valeurs)
– quantitatif, quand les valeurs sont numériques (mesures physiques, physiologiques,
économiques).
Les valeurs que peut prendre un caractère s’appellent les modalités.
Pour des raisons de facilité de traitement informatique ou mathématique, on cherche
à se ramener à des caractères quantitatifs par un codage. Si le caractère initial est qualitatif, le codage sera souvent binaire. Le cas le plus simple est celui d’un référendum, où
3
Cours de Statistique
STA230
UJF Grenoble
il n’y a que deux modalités codées 0 et 1. Pour un nombre quelconque m de modalités,
on pourra les coder par un vecteur de m booléens : si la valeur observée sur un individu
est l, le vecteur associé à cet individu a toutes ses coordonnées nulles sauf la l-ième
qui vaut 1. Dans le cas des caractères ordinaux, on effectue souvent le codage sur les
premiers entiers. Il faut se souvenir que le codage est arbitraire et que les résultats
numériques que l’on obtient après codage peuvent dépendre de celui-ci. Des techniques
spécifiques permettent de traiter plus particulièrement les caractères qualitatifs et ordinaux. Nous nous limiterons ici pour l’essentiel aux caractères quantitatifs.
La statistique intervient quand il est impossible ou inutile d’observer un caractère
sur l’ensemble de la population. On l’observe alors sur une sous-population de taille
réduite, en espérant tirer de l’observation des conclusions généralisables à toute la population. Si les données d’un caractère quantitatif sont recueillies sur n individus, le
résultat est un n-uplet de nombres, entiers ou décimaux, (x1 , . . . , xn ), que l’on appelle
échantillon ou série statistique, de taille n. On réserve plutôt le terme d’échantillon
au résultat de n expériences menées indépendamment les unes des autres, et dans des
conditions identiques (lancers de dés, mesure du poids de n nouveaux-nés,. . . ). On
appellera plutôt série statistique le résultat de n expériences qui ne sont pas interchangeables. Le cas le plus fréquent est celui où la population est constituée d’instants
successifs (relevés quotidiens de températures, chiffres mensuels du chômage,. . . ). On
parle alors de série chronologique (figure 1).
Milliers de cas
900
+
800
700
+
600
+
500
+
+
400
+
+
+
+
+
300
+
+
++
+
++
200
+
100
0
.
0
+
++
+
+
+
+
+
++++ + +
++ ++ +++
+++++++
++++++
+
+
+
+
+
+
+
+
++++++++++++
+++++++++++++++ + ++++ +
+++++++++++++
++++++
52
+
+ +
+
+
++
+
+
+
+
+
+
++
++
+++++++++
+
++++++
+
++++++++++++++++++++++++
104
156
+ +
+
+
+
+
++
+
+
++
++++++++++++++++++++++++++++
+
+++
++++
+++ + ++
+++++++++++++ +++++++++++++++++++++++
208
Semaines
260
Fig. 1 – Série chronologique : cas de grippe en France par semaine sur 5 ans.
On distingue souvent les caractères discrets (ceux qui ne prennent que peu de modalités distinctes) des caractères continus (pour lesquels toutes les valeurs observées sont
a priori différentes). La frontière entre continu et discret est beaucoup moins claire en
pratique qu’en théorie. Tout recueil de données se fait avec une certaine précision, et
dans une certaine unité. Si une taille est mesurée avec une précision de l’ordre du cen4
Cours de Statistique
STA230
UJF Grenoble
timètre, tout chiffre correspondant à une quantité inférieure au centimètre ne contient
aucune information et doit être éliminé. Cela signifie que la taille en centimètres est une
valeur entière, donc un caractère discret, même si on le modélise par une loi normale qui
est une loi continue. D’autre part, différentes techniques statistiques (histogrammes,
distance du chi-deux) imposent de regrouper les données en classes, ce qui revient à les
rendre discrètes, les nouvelles modalités étant les différentes classes.
Tailles
130
+
+
128
+
126
+
124
+
122
+
+
+
+
+
+
+
120
++
+
+
+
+
+
+
+
+
+
++
++
+
+
+
+
116
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
++
+
+
+ +
+
+
+
+
+
+
+
+ +
+
+ ++
+
110
108
+
+
+
+
+
+
+
+
+
112
+
+
+
+
+
+
+ +
+
118
114
+
+
+
+
+
+
+
+
106
+
104
+
102
Individus
+
100
0
10
20
30
40
50
60
70
80
90
100
Fig. 2 – Echantillon de 100 tailles d’enfants de 6 ans, en centimètres.
Une fois recueilli, l’échantillon (x1 , . . . , xn ) se présente comme une liste de nombres
peu lisible, dont la principale caractéristique est une plus ou moins grande variabilité. Le
traitement statistique consiste à étudier cette variabilité, pour en extraire l’information
qu’elle contient, à savoir ce qui est généralisable à l’ensemble de la population. Les
techniques de statistique descriptive auront pour but de compresser l’échantillon, de le
résumer par des quantités calculées et des représentations graphiques, afin d’extraire
l’information.
On ne traite pas un échantillon sans avoir une question précise à lui poser. Étant
donné un échantillon de tailles de filles de 18 ans, le traitement ne sera pas le même selon
que l’on sera un nutritionniste qui cherche à étudier l’influence du régime alimentaire
sur la croissance, ou un fabriquant de vêtements qui fait une étude de marché.
Ne confondez pas :
• les statistiques comme ensemble de données chiffrées sur un phénomène variable
(les statistiques du commerce extérieur, du chômage).
• la statistique en tant que discipline scientifique dont le but est d’extraire de
l’information d’un échantillon en vue d’une prédiction ou d’une décision.
• une statistique calculée à partir d’un échantillon comme résumé de ses propriétés
(moyenne, variance. . . ).
5
Cours de Statistique
STA230
1.1.2
UJF Grenoble
Moyenne empirique
La statistique la plus évidente à calculer sur un échantillon numérique, celle dont
l’interprétation est la plus intuitive, est la moyenne empirique.
Définition 1. La moyenne empirique d’un échantillon est la somme de ses éléments
divisée par leur nombre. Si l’échantillon est noté (x1 , . . . , xn ), sa moyenne empirique
est :
1
x = (x1 + · · · + xn ) .
n
La moyenne est donc le centre de gravité des données, affectées de coefficients égaux
pour chaque individu. Elle peut être considérée comme une valeur centrale, même si
elle n’est pas égale à une des modalités.
Tailles
130
+
+
128
+
126
+
124
+
+
+
+
+
122
+
+
+
+
120
++
+
+
+
+
+
+
+
+
+
++
++
+
+
+
+
116
+
+
+
+
+
+
+
+
+
+
+
+
+
+ ++
+
+
+
+
+
+
++
+
+
+ +
+
+
+
+
110
+
+
+ +
+
+
+
108
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
112
+
+ +
+
118
114
+
+
+
+
+
+
+
106
+
104
+
102
Individus
+
100
0
10
20
30
40
50
60
70
80
90
100
Fig. 3 – Moyenne d’un échantillon de 100 tailles d’enfants de 6 ans
La moyenne est associative. Si on réunit deux échantillons, de tailles respectives
nx et ny , de moyennes respectives x et y, alors la moyenne du nouvel échantillon sera
(nx x + ny y)/(nx + ny ).
Si (x1 , . . . , xn ) est un échantillon et si on pose pour tout i = 1, . . . , n, yi = axi + b,
où a et b sont deux constantes, alors la moyenne empirique de l’échantillon (y1 , . . . , yn )
est y = ax + b. En particulier, si a = 1 et b = −x, le nouvel échantillon a une moyenne
nulle. Centrer les données c’est leur retrancher la moyenne empirique de manière à la
ramener à 0.
Un cas particulier important est celui des données binaires. On est souvent amené à
construire un échantillon binaire à partir d’un échantillon numérique, ne serait-ce que
pour le regroupement en classes. Soit A un sous ensemble de R (un intervalle dans le
cas d’une classe). Notons IA (x) sa fonction indicatrice qui vaut 1 si x ∈ A, 0 sinon.
Si (x1 , . . . , xn ) est un échantillon à valeurs réelles, alors (IA (x1 ), . . . , IA (xn )) est un
6
Cours de Statistique
STA230
UJF Grenoble
échantillon binaire, dont la moyenne empirique est appelée la fréquence empirique de
A. C’est simplement la proportion des valeurs de (x1 , . . . , xn ) qui appartiennent à A.
Un des inconvénients de la moyenne empirique, vue comme valeur centrale d’un
échantillon, est d’être sensible aux valeurs extrêmes. Une valeur manifestement très
différente des autres est souvent qualifiée de valeur aberrante. Qu’elle soit ou non le
résultat d’une erreur dans le recueil ou la transcription, on ne peut pas la considérer
comme représentative. Supposons que sur un échantillon de 10 valeurs, toutes soient
de l’ordre de 10, sauf une, qui est de l’ordre de 1000. La moyenne empirique sera de
l’ordre de 100, c’est-à-dire très éloignée de la plupart des valeurs de l’échantillon. Pour
palier cet inconvénient, on peut décider de ne pas tenir compte des valeurs extrêmes
dans le calcul de la moyenne. On obtient alors une moyenne élaguée.
1.1.3
Variance empirique
Les notions de variance et d’écart-type servent à quantifier la variabilité d’un échantillon en mesurant sa dispersion autour de la moyenne. La définition est la suivante :
Définition 2. Soit (x1 , . . . , xn ) un échantillon et x sa moyenne empirique. On appelle
variance de l’échantillon la quantité, notée s2 , définie par :
s2 =
n
1X
(xi − x)2 .
n i=1
On appelle écart-type de l’échantillon la racine carrée de la variance.
En d’autres termes, la variance est la moyenne des carrés de l’échantillon centré.
L’avantage de l’écart-type sur la variance est qu’il s’exprime, comme la moyenne, dans
la même unité que les données. On utilise parfois le coefficient de variation, qui est le
rapport de l’écart-type sur la moyenne.
Pour calculer la variance d’un échantillon, on dispose de deux formules qui donnent
le même résultat.
s
2
1
(x1 − x)2 + · · · + (xn − x)2
n
1
(x21 − 2x1 x + x2 ) + · · · + (x21 − 2x1 x + x2 )
n
2
1 2
(x1 + · · · + x2n ) − x(x1 + · · · + xn ) + x2
n
n
1 2
(x + · · · + x2n ) − x2
n 1
=
=
=
=
Vous pouvez donc retenir que :
La variance est la moyenne des carrés moins le carré de la moyenne.
7
Cours de Statistique
STA230
UJF Grenoble
Tailles
130
+
+
128
+
126
+
124
+
122
+
+
+
+
+
+
+
120
++
+
+
+
+
+
+
+
+
+
++
++
+
+
+
+
116
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+ ++
+
+
+
+
+
+
++
+
+
+ +
+
+
+
+
+
+
+
+ +
+
+
+
110
108
+
+
+
+
+
+
+
+
+
+
+
+
+
112
+
+ +
+
118
114
+
+
+
+
+
+
+
+
106
+
104
+
102
Individus
+
100
0
10
20
30
40
50
60
70
80
90
100
Fig. 4 – Tailles d’enfants de 6 ans. La zone grisée correspond à la moyenne, plus ou
moins un écart-type.
Dans le cas particulier des données binaires, codées sur 0 et 1, la moyenne est le nombre
de “1” divisé par le nombre total de données : c’est la fréquence empirique de 1. La
variance n’apporte aucune information supplémentaire. En effet, si tous les xi valent 0
ou 1, alors x2i = xi et donc :
s2 = x − x2 = x(1 − x) .
Une fois la moyenne calculée, nous avons vu qu’on pouvait centrer les données pour
se ramener à une moyenne nulle. La variance des données centrées est la même que
celle de l’échantillon initial. Une fois cette variance calculée, on peut réduire les données
centrées en les divisant par l’écart-type. On obtient ainsi un nouvel échantillon dont la
moyenne est nulle et la variance égale à 1. On parle d’échantillon réduit. Remarquons
que les données réduites sont des nombres sans unité. On peut donc comparer deux
échantillons réduits même si les données initiales n’étaient pas exprimées dans la même
unité.
L’inconvénient de l’écart-type tel qu’il a été défini plus haut, est qu’il a tendance
à sous-estimer légèrement l’écart des données par rapport à leur moyenne. La raison
mathématique de ce défaut est liée à la notion de biais d’un estimateur. On peut en
saisir la raison intuitive sur un exemple simple.
Supposons que l’on joue trois fois à un jeu dont l’enjeu est 1 euro. Chaque résultat
vaut donc +1 (gain) ou −1 (perte). Si le jeu est équitable, on s’attend à ce que la
moyenne vaille 0 et l’écart-type 1. Or sur trois parties, les résultats possibles à l’ordre
8
Cours de Statistique
STA230
UJF Grenoble
près sont les suivants.
(x1 , x2 , x3 )
x s2
(−1, −1, −1) −1
0
− 13
(−1, 1, 1)
1
3
8
9
8
9
(1, 1, 1)
1
0
(−1, −1, 1)
En aucun cas l’écart-type empirique ne peut atteindre 1 ! Le moyen de corriger cette
sous-estimation systématique est de multiplier la variance par n/(n−1), où n est la taille
de l’échantillon. On parle alors de variance non biaisée. C’est la raison de la présence
sur certaines calculatrices de deux touches
de calcul de l’écart-type, une marquée σn
q
n
.
(notre s), l’autre σn−1 qui retourne s n−1
1.2
1.2.1
Expériences aléatoires
Événements
Convenons d’appeler expérience aléatoire une expérience dont on ne peut ou ne veut
pas prévoir complètement le résultat. Autrement dit une expérience qui pourra donner
des résultats différents si elle est répétée (apparemment dans les mêmes conditions).
L’ensemble des résultats possibles d’une expérience aléatoire est en général codé de
manière à n’en retenir que certains aspects. Jouer à pile ou face consiste lors du lancer
d’une pièce à ne s’intéresser qu’à la face sur laquelle elle tombe en oubliant le nombre
de rotations en l’air, le point de chute. . . On note Ω l’ensemble de tous les valeurs
possibles que peut prendre ce codage. Les éléments de Ω sont les éventualités. Voici
quelques exemples.
Expérience
Lancer d’une pièce
Observer le spin d’une particule
Relever l’état d’une case mémoire
Interroger un électeur avant un référendum
Lancer un dé
Jouer à la roulette
Compter les clients d’une file d’attente
Observer une durée de fonctionnement
Ω
{Pile, Face}
{+1, −1}
{0, 1}
{Oui, Non}
{1, 2, . . . , 6}
{0, 1, . . . , 36}
N
R+
Le codage en éventualités relève d’un choix de modélisation qui comporte un certain
arbitraire. Si on joue à “pair ou impair” à la roulette, Ω = {0, P air, Impair} conviendra tout autant que Ω = {0, 1, . . . , 36}. Le nombre de clients dans une file d’attente
à un instant donné ne peut pas être supérieur à la population de la terre. Aucune
durée de fonctionnement sans panne n’a jamais dépassé quelques siècles. Plus généralement, toute grandeur observée peut être codée par les valeurs d’un ensemble fini (les
9
STA230
Cours de Statistique
UJF Grenoble
nombres représentables en machine), compte tenu de sa précision et de son étendue. Ici
comme dans les autres domaines des mathématiques appliquées, l’infini ou le continu
ne sont que des approximations destinées à simplifier le traitement mathématique. Des
expériences aléatoires peuvent être simulées sur ordinateur, par l’appel de fonctions
particulières, dites générateurs pseudo-aléatoire.
Qu’il s’agisse d’un résultat de simulation ou de toute autre expérience, parler d’expérience aléatoire, c’est choisir de ne s’intéresser qu’aux résultats possibles, et oublier
en fait les conditions de l’expérience. Si on maîtrise parfaitement la vitesse initiale de
la pièce, la résistance de l’air et la hauteur par rapport au sol, alors le problème de
savoir sur quelle face elle va tomber devient un problème de mécanique, que l’on peut
résoudre au moins en théorie. Qu’il existe ou non des expériences dont le résultat soit
parfaitement imprévisible est un problème de physique quantique ou de philosophie
(Dieu joue-t-il aux dés ?), mais pas de probabilités. Le hasard au sens du probabiliste
n’est qu’un expédient, un choix de modélisation qui consiste à recouvrir d’un voile
pudique la complexité des phénomènes que l’on ne maîtrise pas, pour n’en retenir que
certains aspects observables.
Un événement est un fait dépendant du résultat d’une expérience aléatoire (ou
plutôt de son codage en éventualités) dont on pourra dire à l’issue de l’expérience s’il
est réalisé ou non. On peut donc l’assimiler à l’ensemble d’éventualités pour lesquelles
il est réalisé, qui est un sous-ensemble de Ω.
Evénement
Le résultat du dé est pair
A⊂Ω
{2, 4, 6}
La durée est inférieure à 100 heures
[0, 100]
Pour le codage {Pile,Face}, “la pièce tombe sur la tranche” n’est pas un événement,
pas plus que “la personne interrogée n’a pas compris la question” pour un codage {Oui,
Non} des réponses.
Toutes les combinaisons logiques d’événements sont encore des événements. Si A
est un événement, son contraire noté A en est un aussi. Si A et B sont des événements,
“A et B”, noté A ∩ B, ainsi que “A ou B”, noté A ∪ B, sont aussi des événements.
1.2.2
Axiomes des probabilités
Une loi de probabilité, ou distribution de probabilité, est une fonction P qui à un
événement A associe un nombre P[A], sa probabilité. Ce nombre traduit les chances que
l’événement a de se produire. Le moyen le plus intuitif de définir une telle fonction est
de répéter l’expérience aléatoire, et d’associer à tout événement sa fréquence empirique.
Si n est le nombre d’expériences, nA le nombre de fois où l’événement A s’est produit,
la fréquence empirique de A est le rapport nA /n. Voici par exemple 20 répétitions d’une
expérience dont les éventualités sont 0, 1 et 2.
0, 1, 1, 1, 0, 0, 1, 2, 1, 2, 0, 1, 1, 2, 2, 0, 0, 0, 0, 2 .
10
STA230
Cours de Statistique
UJF Grenoble
Dans cet exemple, la fréquence empirique de {0} est 8/20, celle de {1, 2} est 12/20. L’inconvénient est que la fréquence empirique changera si on renouvelle les n expériences.
En d’autres termes l’ensemble des n répétitions constitue une nouvelle expérience aléatoire. Cependant nous avons tous en tête une idée de la loi des grands nombres selon
laquelle les fréquences empiriques sur un grand nombre de répétitions varient peu. Voici
quatre calculs successifs de la fréquence empirique de {0}, sur 20 000 répétitions de la
même expérience que ci-dessus.
0.3304 , 0.3273 , 0.3364 , 0.32415 .
Les propriétés que l’on attend d’une loi de probabilité sont celles des fréquences expérimentales. On les considère comme des axiomes de définition.
A1 Pour tout événement A, 0 6 P[A] 6 1.
A2 La probabilité de l’événement certain est 1 : P[Ω] = 1.
A3 Si (Ai )i∈N est une suite d’événements disjoints deux à deux (Ai et Aj ne peuvent
pas se produire en même temps si i 6= j), alors :
P[
[
Ai ] =
i∈N
X
P[Ai ] .
i∈N
Une conséquence immédiate des axiomes A2 et A3 est la relation entre les probabilités
d’un événement A et de son contraire, noté A.
P[A] = 1 − P[A] .
Une loi de probabilité est croissante par inclusion, d’après A1 et A3 : si A ⊂ B, alors
P[A] 6 P[B].
Les lois de probabilité que l’on manipule en pratique sont de deux types particuliers,
les lois discrètes et les lois continues.
1. Lois discrètes
L’ensemble des éventualités Ω est fini ou dénombrable :
Ω = {ωi , i ∈ I ⊂ N} .
Toutes les parties de Ω sont des événements. Comme tout événement est une réunion
finie ou dénombrable de singletons, il suffit de définir la probabilité de chaque singleton :
∀ωi ∈ Ω ,
P[{ωi }] = pi .
Pour tout A ⊂ Ω, la probabilité de A sera alors déterminée par A3 :
P[A] =
X
P[{ωi }] =
ωi ∈A
X
pi .
ωi ∈A
Exemple : Si l’ensemble des résultats est fini Ω = {ω1 , . . . , ωn } et si aucune information ne permet de distinguer les résultats, il est naturel d’associer à chaque éventualité
11
STA230
Cours de Statistique
UJF Grenoble
la probabilité 1/n. La probabilité de tout événement A est alors Card(A)/n. Cette probabilité particulière s’appelle l’équiprobabilité. Tous les calculs dans ce cas se ramènent
à des dénombrements :
probabilité =
nombre de cas favorables
.
nombre de cas possibles
2. Lois continues
L’ensemble des éventualités Ω est R. Les événements sont les intervalles, et tous les
sous-ensembles de R que l’on peut former en combinant des intervalles par intersections
et réunions. En théorie de la mesure, on les appelle des boréliens.
Définition 3. On appelle densité de probabilité une fonction de R dans R+ , continue
par morceaux et d’intégrale 1.
f (x) > 0 , ∀x ∈ R et
Z
f (x) dx = 1 .
R
Étant donnée une densité de probabilité, on définit une loi de probabilité sur R en
associant à tout événement A l’intégrale de la densité sur cet événement :
P[A] =
Z
f (x) dx .
A
Exemple : Pour l’expérience aléatoire consistant à tirer au hasard un réel dans [0, 1]
(par simulation), on considérera sur R la loi de probabilité continue, de densité :
(
f (x) =
1 si x ∈ [0, 1] ,
0 sinon.
Elle donne à tout intervalle inclus dans [0, 1] une probabilité égale à sa longueur.
Comme dans l’exemple ci-dessus, il est fréquent qu’une densité soit strictement
positive sur un intervalle (éventuellement non borné) de R, et nulle ailleurs. L’intervalle
sur lequel f est strictement positive s’appelle le support de la loi.
On peut voir une probabilité comme une répartition de masse sur l’ensemble des
éventualités. La masse totale vaut 1. Dans le cas discret, elle est répartie sur chacune
des éventualités en “grains de plomb” distincts. Dans le cas continu, elle est répartie
sur tout un intervalle de R, qui devient comme un fil de masse 1 dont la densité de
masse serait variable. Calculer la probabilité d’un événement, c’est calculer sa masse.
À part cette analogie, quel sens pratique a la notion de probabilité ? Peut-on mesurer
physiquement des probabilités ? Le seul sens concret que l’on puisse leur donner est
celui, intuitif, de la loi des grands nombres. “Pile a une chance sur deux de se produire”
signifie pour nous “si je lance la pièce un grand nombre de fois, Pile sortira environ
une fois sur deux.”
12
STA230
Cours de Statistique
UJF Grenoble
Intuition : La probabilité d’un événement est la limite de ses fréquences empiriques
sur un grand nombre d’expériences indépendantes.
Cette intuition comporte plusieurs coins d’ombres. Que les fréquences empiriques convergent sous certaines hypothèses est un théorème (c’est ce théorème qui porte le nom
de loi des grands nombres). Pourquoi rajouter l’adjectif “indépendantes” ?
Imaginez une machine de précision à lancer les pièces : un bras articulé muni d’un
plateau, relié à un ressort réglable à une valeur fixée une fois pour toutes. Mettons le
ressort sous tension, posons la pièce sur le plateau, côté pile, et lâchons le ressort. Au
premier essai on ne pourra pas prévoir si la pièce tombera sur pile ou face. Mais l’information apportée par le résultat du premier essai permettra de prévoir les suivants : les
expériences ne seront pas indépendantes. Les fréquences empiriques vaudront 1 ou 0
mais ne fourniront aucun renseignement sur le fait que la pièce soit équilibrée ou non.
L’objectif principal du paragraphe suivant est de préciser les notions de dépendance
et d’indépendance d’événements et d’expériences aléatoires.
1.2.3
Probabilités conditionnelles
La connaissance d’une information sur une expérience peut modifier l’idée qu’on se
fait de la probabilité d’un événement. La probabilité d’attendre plus d’une heure au
guichet est supérieure s’il y a beaucoup de monde devant vous.
Définition 4. Soient A et B deux événements tels que P[B] 6= 0. La probabilité conditionnelle de A sachant B est :
P[A ∩ B]
.
P[A | B] =
P[B]
Interpétation : Le fait de savoir que B est réalisé réduit l’ensemble des résultats
possibles de Ω à B. À partir de là, seules les éventualités de A ∩ B ont une importance.
La probabilité de A sachant B doit donc être proportionnelle à P[A ∩ B]. Le coefficient
de proportionnalité 1/P[B] assure que l’application qui à A associe P[A|B] est bien une
probabilité, pour laquelle B est l’événement certain.
Point de vue fréquentiste : Si on admet la loi des grands nombres, la probabilité doit
être vue comme une limite de fréquences empiriques. Avec les notations du paragraphe
précédent, nA∩B /n (resp. nB /n) est la fréquence empirique de A ∩ B (resp. B), et on
a:
P[A ∩ B]
nA∩B /n
nA∩B
≈
=
.
P[A | B] =
P[B]
nB /n
nB
Il faut donc voir la probabilité conditionnelle P[A | B] comme la limite quand le nombre
d’expériences tend vers l’infini de la proportion de fois où A est réalisé parmi les
expériences où B l’est aussi.
Une loi de probabilité conditionnelle est une loi de probabilité. En particulier, si A1
et A2 sont disjoints (incompatibles) alors :
P[A1 ∪ A2 | B] = P[A1 | B] + P[A2 | B] .
13
Cours de Statistique
STA230
UJF Grenoble
aussi :
P[A | B] = 1 − P[A | B] .
La définition des probabilités conditionnelles s’utilise souvent sous la forme :
P[A ∩ B] = P[A | B] P[B]
= P[B | A] P[A] .
Si (Bi )i∈I est une famille dénombrable d’événements disjoints deux à deux, dont la
réunion est l’événement certain Ω (partition de Ω), alors :
P[A] =
X
P[A ∩ Bi ] =
i∈I
X
P[A | Bi ] P[Bi ] .
i∈I
C’est la formule des probabilités totales. Mais aussi, pour tout j ∈ I :
P[Bj | A] =
P[A | Bj ] P[Bj ]
P[Bj ∩ A]
= P
.
P[A]
P[A | Bi ] P[Bi ]
i∈I
C’est la formule de Bayes.
L’idée intuitive d’indépendance de deux événements est la suivante : A et B sont
indépendants si le fait de savoir que B se produit ou non ne modifie pas les chances
de A. Ou encore : sur un grand nombre d’expériences, la proportion des fois où A s’est
produit quand B était réalisé est approximativement la même que quand il ne l’était
pas.
Exemple :
A : “La bourse de New-York est en hausse”.
B : “Il pleut à Paris”.
Dire que A et B sont indépendants, c’est dire que la bourse de New-York est en
hausse aussi souvent quand il pleut à Paris que quand il ne pleut pas.
En terme de fréquences, on écrira :
nA∩B
nA
nA∩B
≈
≈
.
nB
nB
n
Soit pour les probabilités :
P[A|B] = P[A | B] = P[A] ,
ou encore,
P[A ∩ B]
= P[A] .
P[B]
14
STA230
Cours de Statistique
UJF Grenoble
Définition 5. Deux événements A et B sont indépendants si :
P[A ∩ B] = P[A] P[B] .
Deux expériences aléatoires sont indépendantes si tout événement observable à l’issue
de l’une est indépendant de tout événement observable à l’issue de l’autre.
Attention : Il ne faut pas confondre indépendants et incompatibles. Pour deux
événements incompatibles on a P[A∪B] = P[A]+P[B]. Deux événements incompatibles
de probabilités non nulles ne sont jamais indépendants. Si l’un des deux se produit,
l’autre ne peut pas se produire.
La définition d’indépendance se généralise de la façon suivante.
Définition 6. Les événements A1 , . . . , An sont indépendants si pour tout sous-ensemble d’indices {i1 , . . . , ik } ⊂ {1, . . . , n}, la probabilité de l’intersection est le produit des
probabilités :
k
\
P[
Aij ] =
j=1
k
Y
P[Aij ] .
j=1
Des expériences aléatoires E1 , . . . , En sont indépendantes si pour tout n-uplet d’événements A1 , . . . , An , où Ai est observable à l’issue de Ei , les n événements A1 , . . . , An
sont indépendants.
Une suite (En )n∈N est une suite d’expériences indépendantes si pour tout n les expériences E1 , . . . , En sont indépendantes.
Dans les définitions que nous avons données jusqu’ici se trouve un cercle vicieux :
Une probabilité est une limite de fréquences sur des expériences indépendantes. Deux
événements sont indépendants si la probabilité de leur intersection est le produit des
probabilités.
Les deux notions de probabilité et d’indépendance sont donc indissociables, et en
un sens impossibles à définir en pratique. Tout ce que l’on peut faire, c’est montrer
la cohérence de leurs définitions. Une probabilité étant donnée pour les événements
observables à l’issue d’une expérience aléatoire, cette probabilité est bien limite de
fréquences empiriques quand la même expérience est répétée indépendamment. C’est
la loi des grands nombres.
1.3
1.3.1
Variables aléatoires
Loi d’une variable aléatoire
Une variable aléatoire est un nombre dépendant du résultat d’une expérience aléatoire. L’enjeu est la localisation de ce nombre : déterminer quelles sont ses chances
de tomber sur telle ou telle partie de R. Cette localisation conduit à associer à toute
variable aléatoire une loi de probabilité sur R.
15
STA230
Cours de Statistique
UJF Grenoble
Définition 7. On appelle loi de la variable aléatoire X la loi de probabilité PX sur R,
définie pour tout borélien A de R par :
PX [A] = P[X ∈ A] .
En pratique, on oublie le codage initial en éventualités et la loi P sur Ω, pour
ne retenir que la loi PX sur R. Si on n’observe qu’une seule variable aléatoire X, on
pourra d’ailleurs considérer que les éventualités sont les valeurs réelles qu’elle peut
prendre, et munir cet ensemble de la loi de X. Pour des raisons de modélisation autant
que de commodité mathématique, on distingue deux types de variables aléatoires. Les
variables aléatoires discrètes ne prennent qu’un nombre fini ou dénombrable de valeurs
(en général entières). Les variables aléatoires continues peuvent a priori prendre toutes
les valeurs dans un intervalle de réels. Cette distinction correspond bien sûr à celle déjà
introduite pour les lois de probabilité.
En général, on sera amené à répéter une même expérience pour en faire une nouvelle
expérience globale, et donc à observer plusieurs variables aléatoires à l’issue d’une
expérience. La notion d’indépendance entre variables aléatoires joue un rôle important
dans ce qui suit.
Définition 8. Les variables aléatoires X1 , . . . , Xn sont dites indépendantes si pour tout
n-uplet (A1 , . . . , An ) de boréliens de R, les événements “X1 ∈ A1 ”, . . . ,“Xn ∈ An ” sont
indépendants. Une suite (Xn ) de variables aléatoires indépendantes est telle que pour
tout n les variables aléatoires (X1 , . . . , Xn ) sont indépendantes.
L’indépendance est donc une propriété des événements “Xi ∈ Ai ”. On en déduit
que si X et Y sont indépendantes, alors toute fonction de X est indépendante de toute
fonction de Y .
1.3.2
Variables aléatoires discrètes
Définition 9. On dit qu’une variable aléatoire est discrète si elle ne prend qu’un
nombre fini ou dénombrable de valeurs :
X ∈ {xk , k ∈ K ⊂ N} .
Dans ce cas, la loi de la variable aléatoire X est la loi de probabilité sur l’ensemble des
valeurs possibles de X qui affecte la probabilité P[X = xk ] au singleton {xk }.
En pratique, l’ensemble des valeurs que peut prendre X est N ou une partie de N.
Déterminer la loi d’une variable aléatoire discrète c’est :
1. Déterminer l’ensemble des valeurs que peut prendre X.
2. Calculer P[X = xk ] pour chacune de ces valeurs xk .
16
Cours de Statistique
STA230
UJF Grenoble
Point de vue fréquentiste. Rappelons que le seul sens pratique que l’on puisse
donner à la notion de probabilité est celui d’une limite de fréquences empiriques. C’est
aussi le sens qu’il faut donner à la notion de loi discrète.
Répétons n fois indépendamment l’expérience aléatoire à l’issue de laquelle X est
mesurée. On obtient ainsi un n-uplet (X1 , . . . , Xn ) de variables aléatoires indépendantes de même loi que X (cela s’appelle un échantillon). On peut sur ce n-uplet calculer
les fréquences empiriques des événements “X = xk ” :
1
I{xk } (X1 ) + · · · + I{xk } (Xn ) .
fn ({xk }) =
n
D’après la loi des grands nombres cette fréquence doit converger vers P[X = xk ].
Pour tout n les fréquences empiriques {fn ({xk }) , k ∈ K} définissent une loi de probabilité discrète sur l’ensemble des xk .
On représente souvent graphiquement les lois discrètes par des diagrammes en bâtons : il s’agit de tracer au dessus de l’abscisse xk un segment vertical de longueur égale
à P[X = xk ].
Les lois discrètes les plus courantes sont les suivantes. La loi binomiale est la plus
importante.
Loi uniforme. La loi uniforme sur un ensemble fini est la loi des “tirages au hasard”
dans cet ensemble, ou équiprobabilité. Elle donne la même probabilité 1/n à tous les
éléments de l’ensemble, s’il est de cardinal n.
Loi de Bernoulli. Les plus simples des variables aléatoires discrètes sont les indicatrices d’événements. Si A est un événement de probabilité p, la variable aléatoire IA
prend la valeur 1 si A est réalisé, et 0 sinon. Sa loi est la loi de Bernoulli de paramètre
p.
P[IA = 0] = 1 − p , P[IA = 1] = p .
Les deux autres exemples de base sont la loi binomiale et la loi hypergéométrique.
Loi binomiale. On répète la même expérience n fois indépendamment et on compte
le nombre de fois où l’événement A se produit. On considérera la répétition des n
expériences comme une nouvelle expérience globale. Comme seul l’événement A nous
importe, on pourra ne retenir de l’expérience globale qu’un n-uplet de booléens du
type :
(A, A, A, A, A, . . . , A, A),
qu’il sera plus
( simple de transformer en un n-uplet de 0 et de 1. Notons :
1 si A est vrai à l’issue de la i-ème expérience,
• Xi =
0 si A est faux à l’issue de la i-ème expérience.
• Sn =
n
X
Xi le nombre de fois où A est réalisé au cours des n expériences.
i=1
17
Cours de Statistique
STA230
UJF Grenoble
Si p désigne la probabilité de l’événement A, la variable aléatoire Xi suit la loi de
Bernoulli de paramètre p. La variable aléatoire Sn prend ses valeurs dans l’ensemble
{0, . . . , n}. Pour déterminer sa loi, ce sont les événements du type “Sn = k” qui nous
intéressent. Du fait de l’hypothèse d’indépendance des expériences, la probabilité d’un
résultat quelconque de l’expérience globale est un produit de probabilités. Par exemple :
P[(A, A, A, A, A, . . . , A, A)] = p (1−p) p p (1−p) . . . (1−p) p .
Tout n-uplet particulier contenant k “1” et n − k “0” a pour probabilité pk (1−p)n−k .
Il y en a :
!
n
n!
=
;
k
k! (n−k)!
c’est le nombre de manières de choisir k indices parmi n. D’où :
!
n k
P[Sn = k] =
p (1 − p)n−k ,
k
∀k = 0, . . . , n .
Définition 10. On dit qu’une variable aléatoire X suit la loi binomiale de paramètres
n et p (notée B(n, p)) si :
1. X prend ses valeurs dans l’ensemble {0, 1, . . . , n}
2. P[X = k] =
n
k
pk (1 − p)n−k ,
∀k = 0, . . . , n .
À retenir : Le nombre d’occurrences d’un même événement de probabilité p, au cours
de n expériences indépendantes suit la loi binomiale B(n, p).
Remarque : C’est une bonne habitude à! prendre que de vérifier que la somme des
n
X
n k
p (1 − p)n−k = (p + (1 − p))n = 1, par la
probabilités calculées vaut 1. Ici :
k
k=0
formule du binôme de Newton (d’où le nom de loi binomiale).
Loi hypergéométrique. La loi hypergéométrique est la loi des “tirages sans remise”.
D’une population de taille N , on extrait au hasard un échantillon (sous-ensemble) de
taille n. Parmi les N individus, m sont “marqués”. Le nombre X d’individus marqués
sur les n individus choisis, suit la loi hypergéométrique de paramètres N , m et n,
La variable aléatoire X prend ses valeurs dans l’ensemble {0, . . . , n}, et pour tout
k ∈ {0, . . . , n} :
P[X = k] =
m
k
N −m
n−k
N
n
,
où par convention ji = 0, si j 6∈ {0, . . . , i}.
On rencontre fréquemment cette loi dans les jeux de hasard.
Variable aléatoire
Nombre d’as dans une main au poker
Nombre d’as dans une main au bridge
Nombre de bons numéros sur une grille au loto
Nombre de bons numéros sur une grille au Kéno
18
N
32
52
49
70
m n
4 5
4 6
6 6
20 4, 5, . . . , 10
Cours de Statistique
STA230
1.3.3
UJF Grenoble
Variables aléatoires continues
Définition 11. Soit X une variable aléatoire à valeurs dans R et fX une densité de
probabilité sur R. On dit que X est une variable aléatoire continue de densité fX si
pour tout intervalle A de R on a :
P[X ∈ A] =
Z
A
fX (x) dx .
La loi de la variable aléatoire X est la loi continue sur R, de densité fX .
Pour déterminer la loi d’une variable aléatoire continue, il faut donc calculer sa
densité. De manière équivalente, on détermine la loi d’une variable continue en donnant
la probabilité qu’elle appartienne à un intervalle I quelconque.
Une variable aléatoire continue X, de densité fX , tombe entre a et b avec une probabilité
égale à :
Z
b
P[a < X < b] =
a
fX (x) dx .
Plus la densité fX est élevée au-dessus d’un segment, plus les chances que X a d’atteindre ce segment sont élevées, ce qui justifie le terme “densité”.
La probabilité pour une variable aléatoire continue de tomber sur un point quelconque est nulle.
Z
P[X = a] =
fX (x) dx = 0 .
{a}
Par conséquent :
P[ X ∈ [a, b] ] = P[ X ∈ [a, b[ ] = P[ X ∈]a, b] ] = P[ X ∈]a, b[ ] .
Notons aussi que modifier une densité en un nombre fini ou dénombrable de points
ne change pas la valeur des intégrales sur des segments, ni par conséquent la loi de
probabilité correspondante. La valeur de la densité en un point particulier importe
peu.
Comme dans le cas discret nous donnons quelques exemples de base. Les densités sont
données en un point x quelconque de R.
Loi uniforme. La loi uniforme sur un intervalle est la loi des “tirages au hasard” dans
cet intervalle. Si a < b sont deux réels, la loi uniforme sur l’intervalle [a, b] est notée
U(a, b). Elle a pour densité :
1
I[a,b] (x) .
b−a
Attention à ne pas confondre “Nombre au hasard” et “variable aléatoire”. Le sens
intuitif de au hasard est “uniformément réparti” : un “nombre au hasard entre 0 et 1”
est en fait une variable aléatoire de loi U(0, 1). Il existe bien d’autres lois de probabilité
continues, non uniformes.
19
Cours de Statistique
STA230
UJF Grenoble
Loi normale. La loi normale, loi de Gauss, ou de Laplace-Gauss, est la plus célèbre des
lois de probabilité. Son succès, et son omniprésence dans les sciences de la vie, viennent
du théorème central limite que nous verrons plus loin. La loi normale de paramètres
µ ∈ R et σ 2 ∈ R+ est notée N (m, σ 2 ). Elle a pour densité :
(x−m)2
1
√ e− 2σ2 .
σ 2π
Loi gamma. La loi gamma de paramètres a > 0 et λ > 0, notée G(a, λ) a pour densité :
λa a−1 −λx
x e
IR+∗ (x) ,
Γ(a)
où Γ est la “fonction gamma”, définie par : Γ(a) = 0+∞ e−x xa−1 dx.
Pour n entier, a = n/2 et λ = 1/2, la loi G(n/2, 1/2) est appelée loi du khideux à n degrés de liberté, et notée X 2 (n). C’est la loi de la somme des carrés de n
variables aléatoires indépendantes de loi N (0, 1). On l’utilise pour les variances empiriques d’échantillons gaussiens.
R
Loiqde Student. La loi de Student à n degrés de liberté, T (n) est la loi du rapport
X/ Y /n, où les variables aléatoires X et Y sont indépendantes, X de loi N (0, 1), Y
de loi X 2 (n). Elle a pour densité :
n+1
Γ n+1
x2 − 2
2
1+
.
√
n
nπΓ n2
On l’utilise pour étudier la moyenne empirique d’un échantillon gaussien.
Loi de Fisher. La loi de Fisher de paramètres m et n (entiers positifs), est la loi du
rapport (X/n)/(Y /m), où X et Y sont deux variables aléatoires indépendantes, de lois
respectives X 2 (n) et X 2 (m). Elle a pour densité :
n
Γ
m
n2m 2
Γ
n+m
2
n
2
Γ
n+m
n
x−1+ 2 (m + nx)− 2 IR+∗ (x)
m
.
2
On l’utilise pour comparer des variances d’échantillons gaussiens.
1.3.4
Fonction de répartition et fonction quantile
La fonction de répartition d’une variable aléatoire X à valeurs dans R (ou plus
exactement de sa loi) est la fonction FX , de R dans [0, 1], qui à x ∈ R associe :
FX (x) = P[X 6 x] .
Les propriétés principales sont les suivantes.
20
Cours de Statistique
STA230
UJF Grenoble
Proposition 1.
• La fonction de répartition caractérise la loi. En particulier,
∀a < b ∈ R , P[ X ∈]a, b] ] = FX (b) − FX (a) .
• FX est une fonction croissante, continue à droite avec une limite à gauche en
tout point.
• lim FX (x) = 0 et lim FX (x) = 1 .
x→−∞
x→+∞
Lois discrètes. La fonction de répartition d’une variable aléatoire discrète est une
fonction en escalier. Si la variable aléatoire prend les valeurs xk , k = 1, 2, . . ., supposées
rangées par ordre croissant, alors la fonction de répartition FX prend les valeurs :
FX (x) =









0
P[X = x1 ]
..
.
pour x < x1
pour x ∈ [x1 , x2 [








P[X = x1 ] + · · · + P[X = xk ]
..
.
pour x ∈ [xk , xk+1 [
Probabilites
Repartition
0.5
1.0
0.9
0.4
0.8
0.7
0.3
0.6
0.5
0.2
0.4
0.3
0.1
0.2
0.1
.
0.0
-1
0
.
0.0
1
2
3
4
5
-1
0
1
2
3
4
5
Fig. 5 – Diagramme en bâtons et fonction de répartition de la loi du nombre de bons
numéros pour 4 numéros cochés au Kéno.
Voici par exemple la loi et les valeurs différentes de la fonction de répartition pour
le nombre de bons numéros pour 4 numéros cochés sur une grille de Kéno (figure 5).
k
0
1
2
3
4
P[X = k] 0.2512 0.4275 0.2538 0.0622 0.0053
P[X 6 k] 0.2512 0.6787 0.9325 0.9947
1
Lois continues. La fonction de répartition d’une variable aléatoire continue est la
primitive de la densité qui s’annule en −∞ :
FX (x) = P[X 6 x] =
21
Z x
−∞
fX (t) dt .
Cours de Statistique
STA230
UJF Grenoble
C’est une fonction continue sur R. En tout point x où fX est continue, FX est dérivable
et :
FX0 (x) = fX (x) .
Loi U(a, b)






Z x
FX (x) =
−∞
0
si x 6 a
1
I[a,b] (t)dt =  x − a si x ∈ [a, b]
b−a

b−a



1
si x > b .
Loi N (µ, σ 2 )
(t−µ)2
1
√ e− 2σ2 dt .
−∞ σ 2π
Il n’existe pas d’expression analytique pour la fonction de répartition des lois normales.
Pour en calculer des valeurs approchées, vous utiliserez des tables numériques, en vous
ramenant à la fonction de répartition de la loi N (0, 1), que nous noterons F .
FX (x) =
Z x
F (x) = FN (0,1) (x) =
Z x
−∞
t2
1
√ e− 2 dt .
2π
Tous les langages spécialisés ont un code d’intégration numérique qui calcule la fonction
de répartition de toutes les lois usuelles.
Densite
Repartition
f(x)
0.5
F(x)
1.0
0.9
0.4
0.8
0.7
0.3
0.6
0.5
0.2
0.4
0.3
0.1
0.2
0.1
x
.
0.0
-3
-2
-1
0
x
.
0.0
1
2
3
-3
-2
-1
0
1
2
3
Fig. 6 – Densité et fonction de répartition de la loi normale N (0, 1).
La fonction de répartition est l’outil privilégié des calculs de lois. Un cas fréquent dans
les applications est celui où on connaît la loi de X et on veut déterminer la loi d’une
fonction. Comme exemple d’application, nous allons démontrer le résultat qui permet
de ramener une loi normale quelconque à la loi N (0, 1).
Théorème 1. Soit X une variable aléatoire de loi N (0, 1) et Y = σX + µ, avec µ ∈ R,
σ ∈ R+ , alors Y suit la loi N (µ, σ 2 ). Réciproquement, si Y suit la loi N (µ, σ 2 ), alors
X = Y σ−µ suit la loi N (0, 1).
22
Cours de Statistique
STA230
UJF Grenoble
Démonstration :
y−µ
y−µ
= FX
σ
σ
FY (y) = P[σX + µ 6 y] = P X 6
.
La densité correspondante est :
(y−µ)2
y−µ
1
1
= √ e− 2σ2 ,
fY (y) = fX
σ
σ
σ 2π
et donc Y suit la loi N (µ, σ 2 ).
La deuxième affirmation n’est qu’une autre manière d’exprimer la première.
La deuxième affimation est la plus utilisée. Elle permet de ramener les calculs de
probabilité sur une loi normale quelconque aux calculs sur la loi N (0, 1). Si Y suit la
loi normale d’espérance µ et de variance σ 2 , alors X = (Y − µ)/σ suit la loi N (1, 0).
On calcule alors la probabilité pour Y d’appartenir à un intervalle quelconque, en se
ramenant à la fonction de répartition de la loi N (0, 1), notée F , dont les valeurs se
lisent dans les tables.
"
Y −µ
b−µ
a−µ
6
<
P[a 6 Y < b] = P
σ
σ
σ
#
!
=F
b−µ
−F
σ
a−µ
σ
.
La fonction quantile d’une variable aléatoire X (ou de sa loi de probabilité) est
la réciproque de sa fonction de répartition. Quand cette fonction de répartition est
strictement croissante, sa réciproque est définie sans ambigüité : pour tout réel u entre
0 et 1, QX (u) est l’unique réel x tel que FX (x) = u.
Mais une fonction de répartition reste constante sur tout intervalle dans lequel
la variable aléatoire ne peut pas prendre de valeurs. C’est pourquoi on introduit la
définition suivante.
Définition 12. Soit X une variable aléatoire à valeurs dans R, et FX sa fonction de
répartition. On appelle fonction quantile de X la fonction, notée QX , de ]0, 1[ dans R,
qui à u ∈]0, 1[ associe :
QX (u) = inf{x : FX (x) > u} .
Par convention, on peut décider que QX (0) est la plus petite des valeurs possibles
pour X et QX (1) est la plus grande ; elles sont éventuellement infinies.
Lois discrètes. La fonction quantile d’une variable aléatoire discrète est une fonction
en escalier, comme la fonction de répartition. Si X prend les valeurs xk , k = 1, 2 . . .,
rangées par ordre croissant, la fonction de répartition est égale à :
Fk = P[X = x1 ] + · · · + P[X = xk ] ,
23
Cours de Statistique
STA230
UJF Grenoble
sur l’intervalle [xk , xk+1 [. La fonction quantile vaut :
QX (u) =







x1
..
.
pour u ∈ [0, F1 ]






xk
..
.
pour u ∈ [Fk , Fk+1 [
Par exemple, pour la loi géométrique G(p), la fonction quantile est la fonction qui, pour
tout k = 1, 2, . . ., vaut k sur l’intervalle [1 − (1−p)k , 1 − (1−p)k+1 [.
Lois continues. Plaçons-nous dans le cas le plus fréquent, où la densité fX est strictement positive sur un intervalle de R (son support) et nulle ailleurs. Si cet intervalle
est [a, b], la fonction de répartition est nulle avant a si a est fini, elle est strictement
croissante de 0 à 1 entre a et b, elle vaut 1 après b si b est fini. Toute valeur u strictement
comprise entre 0 et 1 est prise une fois et une seule par FX . La valeur de QX (u) est le
point x unique, compris entre a et b, tel que FX (x) = u.
La fonction quantile est un moyen de décrire la dispersion d’une loi. Si on réalise un
grand nombre de tirages indépendants de la même loi (un échantillon), on doit s’attendre à ce qu’une proportion u des valeurs soient inférieures à QX (u). Une valeur
importante est la médiane, QX (0.5). Les valeurs de la fonction quantile sont plus souvent utilisées en statistique que les valeurs de la fonction de répartition. On utilise en
particulier fréquemment les intervalles de dispersion, compris comme devant contenir
une forte proportion des données.
1.3.5
Espérance et variance
Rappelons l’interprétation d’une loi de probabilité comme une répartition de masse.
L’espérance d’une loi de probabilité est le barycentre de cette répartition de masse.
Lois discrètes. Considérons une variable
aléatoire discrète X, prenant ses valeurs
X
dans {xk , k ∈ K ⊂ N}. Si la série
|xk |P[X = xk ] converge alors l’espérance E[X]
k∈K
est :
E[X] =
X
xk P[X = xk ] .
k∈K
C’est bien le barycentre des points d’abscisse xk , affectés des poids P[X = xk ].
Lois continues. Soit X une variable aléatoire continue, de densité fX sur R. Une
densité s’interprète comme une distribution Zde masse continue sur R. C’est encore
son barycentre que l’on calcule. Si l’intégrale |x|fX (x) dx converge, alors l’espérance
R
E[X] est :
E[X] =
Z
x fX (x) dx .
R
Les propriétés principales de l’espérance sont les suivantes.
24
Cours de Statistique
STA230
Proposition 2.
UJF Grenoble
1. Si X et Y admettent une espérance, alors :
∀a, b ∈ R E[aX + bY ] = aE[X] + bE[Y ] .
2. Si X et Y sont indépendantes et admettent une espérance alors :
E[XY ] = E[X] E[Y ] .
Le tableau 1 donne les espérances des lois usuelles, discrètes et continues.
Loi
Espérance
n+1
2
Uniforme U({1, . . . , n})
Bernoulli B(1, p)
p
Binomiale B(n, p)
np
Hypergéométrique HG(N, m, n)
m
nN
Uniforme U(a, b)
a+b
2
Normale N (µ, σ 2 )
µ
khi-deux X 2 (n)
n
Student T (n)
0 si n > 1
m
m−2
Fisher F(n, m)
si m > 2
Tab. 1 – Espérances des lois usuelles.
La variance traduit la plus ou moins grande dispersion des valeurs prises autour de
l’espérance.
Définition 13. On appelle variance de X, et on note V ar[X], l’espérance de la variable
aléatoire (X − E[X])2 , si elle existe.
On démontre que l’existence de la variance entraîne celle de l’espérance. Par contre
une variable aléatoire X peut très bien avoir une espérance mais pas de variance. C’est
le cas par exemple si X a pour densité :
fX (x) =
2
I[1,+∞[ (x) .
x3
Le calcul des variances est souvent simplifié par le résultat suivant.
25
Cours de Statistique
STA230
UJF Grenoble
Proposition 3. La variance de X existe si et seulement si E[X 2 ] existe et on a :
V ar[X] = E[X 2 ] − (E[X])2 .
Démonstration : Pour passer de la définition à la formule ci-dessus, il suffit de développer le carré et d’utiliser la linéarité de l’intégrale.
V ar[X] =
=
=
=
E[(X − E[X])2 ]
E[X 2 − 2XE[X] + (E[X])2 ]
E[X 2 ] − 2E[X]E[X] + (E[X])2
E[X 2 ] − (E[X])2 .
La variance mesure de combien les valeurs prises par X s’écartent de la valeur
moyenne E[X]. Elle n’est pas homogène : si X est une longueur exprimée en mètres,
V ar[X] est en mètres-carrés. On corrige ceci en introduisant l’écart-type qui est la
racine carrée de la variance. Les propriétés principales de la variance sont les suivantes.
Proposition 4.
• Pour tout a ∈ R : V ar[aX] = a2 V ar[X].
• Pour tout b ∈ R : V ar[X + b] = V ar[X].
• Si X et Y sont indépendantes, alors :
V ar[X + Y ] = V ar[X] + V ar[Y ] .
Le tableau 2 donne les variances des lois usuelles, discrètes et continues.
1.3.6
Théorèmes limites
Le premier résultat est la traduction mathématique de l’idée intuitive de loi des
grands nombres.
Théorème 2. Soit X une variable aléatoire admettant une variance. Soit (Xn )n∈N une
suite de variables aléatoires indépendantes de même loi que X. Alors pour tout ε > 0 :
X1
lim
P
n→∞
+ · · · + Xn
− E[X] > ε = 0 .
n
L’idée intuitive est que si on mesure une même quantité aléatoire au cours d’une
suite d’expériences indépendantes, alors la moyenne arithmétique des valeurs observées
va se stabiliser sur l’espérance. Comme cas particulier on retrouve la loi des grands
nombres pour la probabilité d’un événement. Pour une suite d’expériences indépendantes notons Xi l’indicatrice de l’événement A à la i-ème expérience. Les Xi suivent
la loi de Bernoulli de paramètre P[A] et (X1 + · · · + Xn )/n est la fréquence empirique
de A.
26
Cours de Statistique
STA230
Loi
UJF Grenoble
Variance
n2 −1
12
Uniforme U({1, . . . , n})
Bernoulli B(1, p)
p(1 − p)
Binomiale B(n, p)
np(1 − p)
m
1−
nN
Hypergéométrique HG(N, m, n)
m
N
N −n
N −1
(a−b)2
12
2
Uniforme U(a, b)
Normale N (µ, σ 2 )
σ
khi-deux X 2 (n)
2n
n
n−2
Student T (n)
si n > 2
n+m−2
2m2
n (m−2)2 (m−4)
Fisher F(n, m)
si m > 4
Tab. 2 – Variances des lois usuelles.
L’ordre de grandeur de l’erreur
√ commise en approchant E[X] par la moyenne (X1 +
· · · + Xn )/n est de l’ordre de 1/ n. Cette estimation d’erreur sera précisée plus loin
par la notion d’intervalle de confiance, grâce au théorème central limite.
Théorème 3. Soit (Xn ), n ∈ N∗ , une suite de variables aléatoires indépendantes de
même loi, d’espérance µ et de variance σ 2 finies. Posons :
∀n ∈ N∗ ,
Xn =
X1 + · · · + Xn
n
et Zn =
√ Xn − µ
.
n
σ
La loi de Zn converge vers la loi normale N (0, 1), c’est-à-dire que pour tout a < b :
lim P[a < Zn < b] =
n→∞
Z b
a
1
2
√ e−x /2 dx .
2π
Interprétation : Dans le théorème central limite, µ est la valeur à estimer. Les n valeurs X1 , . . . , Xn constituent un échantillon de mesures aléatoires indépendantes d’espérance µ. La quantité (X1 + · · · + Xn )/n est la moyenne empirique de l’échantillon,
qui d’après la loi des grands nombres doit converger vers l’espérance µ. Le théorème
central limite donne la précision de cette approximation. On peut le lire intuitivement
comme suit. Si n est assez grand alors Zn est très probablement compris entre −3 et 3
(la probabilité est 0.9973). Soit encore :
X1 + · · · + Xn
−µ ∈
n
27
"
3σ
3σ
−√ ; +√
n
n
#
,
STA230
Cours de Statistique
UJF Grenoble
√
ou bien X n (moyenne empirique) est égale à µ à 3σ/ n près. Nous formaliserons ceci
plus loin par la notion d’intervalle de confiance.
Le théorème central limite est utilisé pour des valeurs finies de n. L’idée concrète
est la suivante. Si n est assez grand, la variable centrée réduite (espérance 0, variance
1) Zn associée à la somme de n variables indépendantes suit approximativement la loi
N (0, 1). Si on réalise suffisamment de simulations de Zn et si on trace un histogramme
2
des valeurs obtenues, celui-ci ne sera pas très loin de la courbe √12π e−x /2 . Pas plus loin
en tout cas que si on avait simulé des variables aléatoires de loi N (0, 1). Si Z suit la
loi N (0, 1), alors Y = σZ + µ suit la loi N (µ, σ 2 ). On peut aussi dire que pour n assez
grand une somme de n variables aléatoires indépendantes suit approximativement une
loi normale, dont l’espérance et la variance sont respectivement la somme des espérances
et la somme des variances des variables que l’on ajoute. Le problème est de savoir à
partir de quelle valeur n est “assez grand”, pour la précision désirée. Cela dépend
beaucoup de la loi des Xn . L’approximation est d’autant meilleure que la loi des Xn
est plus symétrique.
Pour des lois plutôt dissymétriques comme la loi exponentielle, l’approximation
normale n’est pas valable pour des sommes de quelques dizaines de variables. On peut
la considérer comme justifiée à partir de quelques centaines. En simulation, ce sont des
milliers, voire des millions de variables qui sont engendrées, et l’approximation normale
est tout à fait légitime.
1.4
Distribution empirique
1.4.1
Statistique et probabilités
Les traitements statistiques relèvent d’un aller-retour permanent entre les données,
qui sont des collections de chiffres mesurés, et les modèles probabilistes qui n’ont aucune
réalité physique, mais fournissent des outils pour décrire la variabilité de ces données.
Dans cette démarche, un premier pas consiste à associer à l’échantillon une loi de
probabilité fictive. La distribution empirique associée à un échantillon est la loi de
probabilité sur l’ensemble des modalités qui affecte chaque observation du poids 1/n.
L’idée est la suivante. Supposons que l’on souhaite augmenter artificiellement le nombre
de données. Le moyen le plus simple serait de tirer au hasard de nouvelles données parmi
les valeurs observées, en respectant leurs fréquences. En d’autres termes, on simulerait
la distribution empirique.
Définition 14. Soit (x1 , . . . , xn ) un échantillon, c1 , . . . , ck les valeurs distinctes prises
par les xi et pour h = 1, . . . , k :
nh =
n
X
Ich (xi ) ,
i=1
l’effectif de la valeur ch . La distribution empirique de l’échantillon est la loi de proba28
Cours de Statistique
STA230
UJF Grenoble
bilité Pb sur l’ensemble {c1 , . . . , ck }, telle que :
Pb (ch ) =
nh
.
n
La moyenne, la variance et l’écart-type peuvent être vus comme des caractéristiques
probabilistes de la distribution empirique. La moyenne de l’échantillon est l’espérance
de sa distribution empirique.
Pour un caractère discret, le mode de la distribution empirique est la valeur qui a
la fréquence la plus élevée. Pour un caractère continu regroupé en classes d’amplitudes
égales, on parle de classe modale. Une distribution empirique est dite unimodale si
la fréquence maximale est significativement plus grande que les autres. Elle peut être
bimodale ou multimodale dans d’autres cas.
Pour étudier une distribution empirique, la première étape consiste à trier les données par ordre croissant, à savoir écrire ses statistiques d’ordre.
Définition 15. Soit (x1 , . . . , xn ) un échantillon numérique. On appelle statistiques
d’ordre de l’échantillon, les valeurs x(1) , . . . , x(n) égales aux xi rangées par ordre croissant :
x(1) = min {xi } 6 x(2) 6 · · · 6 x(n) = max {xi } .
i=1,...,n
i=1,...,n
Voici par exemple un échantillon de taille 10 et ses 10 statistiques d’ordre.
5.7 , 3.2 , 8.4 , 4.1 , 6.9 , 5.3 , 1.7 , 3.2 , 2.5 , 7.4 ;
1.7 , 2.5 , 3.2 , 3.2 , 4.1 , 5.3 , 5.7 , 6.9 , 7.4 , 8.4 .
La fonction de répartition empirique est la fonction de répartition de la distribution
empirique.
Définition 16. La fonction de répartition empirique est la fonction qui à un réel x
associe la proportion d’éléments de l’échantillon qui sont inférieurs ou égaux à x. Elle
est notée Fb . Dans le cas où tous les éléments de l’échantillon sont différents, elle vaut :
Fb (x) =









0 pour x < x(1)
..
.
i
n








pour x(i) 6 x < x(i+1)
..
.
1 pour x > x(n) .
Représenter graphiquement la fonction de répartition empirique (en général on trace
seulement les points de coordonnées (x(i) , Fb (xi ))), donne une première idée de la distribution empirique.
Dans le cas où l’échantillon est discret (le nombre de valeurs différentes k est faible
devant la taille de l’échantillon n), on représentera la distribution empirique par un
29
Cours de Statistique
STA230
UJF Grenoble
diagramme en bâtons. Il consiste à représenter les valeurs différentes c1 , . . . , ck en abscisse, avec au-dessus de chacune une barre verticale de hauteur égale à sa fréquence
empirique f (ch ). Dans le cas où le nombre de valeurs différentes est très faible (inférieur
à 10), et surtout pour des échantillons qualitatifs, on utilise aussi des représentations en
camembert (pie-chart) ou en barres. Elles consistent à diviser un disque ou un rectangle
proportionnellement aux différentes fréquences.
La représentation correspondant au diagramme en bâtons pour un échantillon considéré comme continu (lorsque presque toutes les valeurs sont différentes), est l’histogramme. On choisit un nombre de classes k et un intervalle de représentation [a0 , ak ]
que l’on a découpé en k intervalles [a0 , a1 ], ]a1 , a2 ], . . . , ]ak−1 , ak ]. On remplace alors la
distribution empirique par une nouvelle loi de probabilité qui pour tout h = 1, . . . , k,
charge l’intervalle ]ah−1 , ah ] avec sa fréquence empirique Pb (]ah−1 , ah ]) :
Pb (]ah−1 , ah ]) =
n
1X
I]a ,a ] (xi ) .
n i=1 h−1 h
Tracer un histogramme consiste à représenter les classes en abscisses, avec au dessus
de la h-ième un rectangle de hauteur fh /(ah−1 − ah ), donc de surface égale à fh . Cette
représentation est celle d’une densité de probabilité, constante sur chacune des classes.
Représenter un histogramme implique un certain a priori sur les données. On décide
en effet que la fréquence de chacune des classes est bien sa fréquence empirique dans
l’échantillon, mais que la distribution des données à l’intérieur de chaque intervalle est
aléatoire, de loi uniforme sur cet intervalle.
0.10
Frequences
0.10
0.09
0.09
0.08
0.08
0.07
0.07
0.06
0.06
0.05
0.05
0.04
0.04
0.03
0.03
0.02
Frequences
0.02
0.01
0.01
Tailles
0.00
Tailles
0.00
100 102 104 106 108 110 112 114 116 118 120 122 124 126 128 130
100 102 104 106 108 110 112 114 116 118 120 122 124 126 128 130
Fig. 7 – Tailles d’enfants de 6 ans. Histogramme régulier et non régulier.
1.4.2
Quantiles
La fonction quantile d’une loi de probabilité est l’inverse (généralisé) de sa fonction
de répartition. Si F désigne la fonction de répartition, la fonction quantile Q est la
fonction qui à u ∈]0, 1[ associe :
Q(u) = inf{x : F (x) > u} .
30
STA230
Cours de Statistique
UJF Grenoble
La fonction quantile empirique d’un échantillon est la fonction quantile de sa distribution empirique.
Définition 17. Soit x = (x1 , . . . , xn ) un échantillon et (x(1) , . . . , x(n) ) le vecteur de ses
b
statistiques d’ordre. La fonction quantile empirique de l’échantillon est la fonction Q
i−1 i
qui, pour tout i = 1, . . . , n, vaut x(i) sur l’intervalle ] n , n ].
∀u ∈]
i−1 i
, ],
n n
b
Q(u)
= x(i) .
b
Pour certaines valeurs de u, on donne un nom particulier aux quantiles Q(u).
u
0.5
0.25, 0.75
0.1, . . . , 0.9
0.01, . . . , 0.99
b
Q(u)
Médiane
Quartiles
Déciles
Centiles
La médiane est une valeur centrale de l’échantillon : il y a autant de valeurs qui
lui sont inférieures que supérieures. Si la distribution empirique de l’échantillon est
peu dissymétrique, comme par exemple pour un échantillon simulé à partir d’une loi
uniforme ou normale, la moyenne et la médiane sont proches. Si l’échantillon est dissymétrique, avec une distribution très étalée vers la droite, la médiane pourra être
nettement plus petite que la moyenne. Contrairement à la moyenne, la médiane est
insensible aux valeurs aberrantes.
Il y a une part d’arbitraire dans la définition de la fonction quantile pour une distribution empirique : pour tous les points de l’intervalle [x(i) , x(i+1) [ la fonction de répartition
vaut i/n. Ce sont surtout des raisons théoriques qui nous ont fait choisir x(i) plutôt
b
qu’un autre point comme valeur de Q(i/n).
Ce peut être un assez mauvais choix en
pratique. Considérons l’échantillon suivant, de taille 6.
1, 2, 3, 7, 8, 9 .
La médiane telle que nous l’avons définie vaut 3. Or comme valeur centrale, le milieu
de l’intervalle [3, 7], à savoir 5, s’impose clairement. Dans le cas d’échantillons de taille
paire, l’intervalle [x( n2 ) , x( n2 +1) [ s’appelle l’intervalle médian. La médiane est parfois
définie comme le milieu de l’intervalle médian.
Ce problème ne se pose que dans le cas de petits échantillons et pour les quanb
tiles Q(u)
pour lesquels u est de la forme i/n (le plus souvent la médiane). Nous le
négligerons désormais et nous conserverons la définition 17.
Même sur de très gros échantillons, les quantiles sont peu coûteux à calculer puisqu’il
suffit de trier l’échantillon par ordre croissant pour calculer les statistiques d’ordre et
donc tous les quantiles simultanément. Ils fournissent une visualisation facile de la
distribution empirique. Nous avons vu que la médiane est une valeur centrale. Pour
31
Cours de Statistique
STA230
UJF Grenoble
mesurer la dispersion, on peut calculer l’étendue, qui est la différence entre la plus
petite et la plus grande valeur. Mais cette étendue reflète plus les valeurs extrêmes que
la localisation de la majorité des données. On appréhende mieux la dispersion d’un
échantillon par les intervalles inter-quartiles et inter-déciles.
b
b
Définition 18. On appelle intervalle inter-quartiles l’intervalle [Q(0.25),
Q(0.75)]
qui
contient la moitié centrale des valeurs de l’échantillon. On appelle intervalle interb
b
déciles l’intervalle [Q(0.1),
Q(0.9)]
qui contient 80% des valeurs centrales de l’échantillon.
Ces intervalles sont à la base d’une représentation très compacte de la distribution
empirique : le diagramme en boîte (ou boîte à moustaches, box plot, box-and-whisker
plot). Il n’y a pas de définition standardisée de cette représentation. Elle consiste en
une boîte rectangulaire dont les deux extrémités sont les quartiles. Ces extrémités se
prolongent par des traits terminés par des segments orthogonaux (les moustaches).
La longueur de ces segments varie selon les auteurs. Nous proposons de la fixer aux
déciles extrêmes. On représente aussi la médiane par un trait dans la boîte, et parfois
les valeurs extrêmes par des points (voir figure 8).
b
b
Q(1)
max{xi }
b
Q(0.9)
décile supérieur
b
Q(0.75)
quartile supérieur
b
Q(0.5)
médiane
b
Q(0.25)
quartile inférieur
b
Q(0.1)
décile inférieur
b
b
Q(0)
min{xi }
Fig. 8 – Diagramme en boîte.
1.4.3
Modèles probabilistes
Le postulat de modélisation sur lequel toute étude statistique est basée est le suivant : Les données observées sont des réalisations de variables aléatoires.
32
Cours de Statistique
STA230
UJF Grenoble
Tailles
130
+
+
128
+
126
+
124
+
122
+
+
+
+
+
+
+
120
++
+
+
+
+
+
+
+
+
+
++
++
+
+
+
+
116
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+ ++
+
+
+
+
+
+
++
+
+
+ +
+
+
+
+
+
+
+
+ +
+
+
+
110
108
+
+
+
+
+
+
+
+
+
+
+
+
+
112
+
+ +
+
118
114
+
+
+
+
+
+
+
+
106
+
104
+
102
Individus
+
100
0
10
20
30
40
50
60
70
80
90
100
Fig. 9 – Tailles d’enfants de 6 ans. La zone grisée correspond à l’intervalle interb
b
quartiles. La médiane est en trait plein, les déciles Q(0.1)
et Q(0.9)
en pointillés.
Quand le résultat d’une expérience n’est pas reproductible exactement, on suppose
qu’il est la réalisation d’une variable aléatoire. La théorie des probabilités fournit des
outils, comme la loi des grands nombres ou le théorème central limite, permettant
d’extraire des données ce qui est reproductible et qui peut donc fonder une prédiction
ou une décision.
Quand on traite des données, on sait bien que si un deuxième échantillon était
recueilli dans les mêmes conditions, celui-ci serait différent du premier. Mais on espère que le deuxième échantillon ressemblerait au premier au sens où sa moyenne, sa
variance, ses quantiles, seraient peu modifiés. L’observation d’échantillons successifs
produits par un algorithme de simulation permet de se faire une bonne idée de cette
ressemblance. Dans de nombreux cas, par exemple pour tout ce qui touche à l’humain
(mesures de tailles, dosages sanguins, etc. . . ), la ressemblance d’échantillons distincts
est validée par une longue expérience. En médecine, on sait bien qu’il n’y a pas deux
individus qui présentent exactement les mêmes réactions. Mais un comptage du nombre
moyen de globules rouges par litre de sang, effectué sur quelques centaines d’individus,
variera peu si on le renouvelle sur une autre population. Dans cette situation, comme
dans de nombreuses autres, les comptages effectués sur des individus différents seront
considérés comme des tirages indépendants d’une même loi de probabilité. Cette loi
de probabilité décrit la variabilité du phénomène. On considère en quelque sorte que
l’échantillon aurait pu être produit en répétant des simulations indépendantes de la loi.
Prenons l’exemple des tailles des filles de 18 ans (mesurées en centimètres ou bien
en tailles vestimentaires). Parler de la taille des filles de 18 ans n’a de sens que dans un
contexte probabiliste : deux filles différentes n’auront jamais exactement la même taille.
On effectue en fait deux hypothèses de modélisation qui n’ont aucune base concrète :
33
STA230
Cours de Statistique
UJF Grenoble
1. On peut associer à toute fille de 18 ans une mesure précise de sa taille.
2. Les tailles des filles de 18 ans sont des réalisations de variables aléatoires indépendantes et de même loi.
Bien que fondées sur des objets abstraits, les conséquences mathématiques que l’on
peut tirer des hypothèses de modélisation mènent à des prédictions et à des prises de
décisions économiques ou politiques, qui sont tout à fait concrètes et seront validées
par confrontation avec la réalité. Par exemple la distribution des tailles des filles de
18 ans a des conséquences évidentes sur l’industrie du prêt-à-porter. Si un fabriquant
de vêtements cible sa production sur les adolescentes, il devra ajuster ses patrons à
la taille de ses acheteuses potentielles : la répartition des vêtements produits entre les
tailles les plus courantes, du 36 au 40, ne seront pas égales. Le fabriquant produira
probablement plus de robes en 36 qu’en 40. Cette répartition ne serait pas la même
pour des modèles destinés à des personnes âgées.
Quand considère-t-on qu’un échantillon peut être modélisé par une suite de variables indépendantes ? Pour l’essentiel quand il est évident que l’ordre dans lequel on
prend les individus n’a pas d’importance. C’est le cas pour toutes les mesures physiologiques sur une population humaine. Ce n’est pas le cas pour une série chronologique où
les individus sont des instants successifs qui ne sont clairement pas interchangeables,
et donc pas indépendants. D’ailleurs il serait sans intérêt de considérer par exemple
les taux de chômage mensuels sur les trois dernières années comme des réalisations de
36 variables aléatoires indépendantes, puisque le but de l’observation est précisément
de détecter une tendance dans ces chiffres, c’est-à-dire une dépendance permettant de
prévoir partiellement les chiffres à venir. Dans ce cas, l’idée de base de la modélisation
consistera à dire qu’il existe une fonction déterministe “cachée” qui permet de prévoir
en partie le futur en fonction du passé. Les observations mensuelles sont vues comme
des perturbations aléatoires de cette fonction déterministe. Dans le modèle interviendra alors la fonction déterministe cachée et un certain n-uplet de variables aléatoires
indépendantes et de même loi, modélisant les perturbations aléatoires.
Une situation analogue est celle où un caractère autre que celui qui est mesuré, a
une influence sur la variable d’intérêt. Par exemple, si on soupçonne que le nombre de
cigarettes fumées par jour a une influence sur le taux de cholestérol, on considérera que
les taux de cholestérol mesurés sont des réalisations d’une variable aléatoire dont la loi
dépend du nombre de cigarettes. On supposera qu’il existe une dépendance déterministe
“cachée” à deviner, et que l’on observe sur chaque individu cette dépendance, perturbée
par un facteur dû au pur hasard. Là encore, ce sont les perturbations aléatoires qui
seront modélisées par un n-uplet de variables aléatoires indépendantes et de même loi.
Dans toutes les situations où des résultats expérimentaux ne peuvent pas être considérés comme exactement reproductibles, on se ramène à un modèle contenant un nuplet de variables aléatoires indépendantes et de même loi. Un choix important est
le type de la loi, discret ou continu. Quand il s’agit d’observer un caractère qualitatif,
comme le groupe sanguin, ou ordinal, comme un classement dans un test psychologique,
le choix d’un modèle discret est imposé par la nature des données. Le choix entre mo34
STA230
Cours de Statistique
UJF Grenoble
dèle discret ou continu n’est pas toujours aussi clair. Reprenons l’exemple des tailles
des filles de 18 ans. On peut mesurer ces tailles au centimètre près, en étant conscient
de l’imprécision inhérente aux mesures. Si les résultats observés sur un échantillon de
1000 individus prennent suffisamment de valeurs différentes, on choisira une loi continue (par exemple une loi normale). Différentes techniques statistiques pourront imposer
par la suite un regroupement en classes des données (tracés d’histogrammes, distance
du chi-deux,. . . ). Pour le fabriquant de vêtements, les données brutes sont de peu d’intérêt. Il cherchera au contraire à traduire les observations en tailles vestimentaires, ce
qui impose un autre type de regroupement en classes et un modèle discret.
35
Cours de Statistique
STA230
2
UJF Grenoble
Estimation paramétrique
Comment connaît-on la population du globe ? Comment détermine-t-on dans quelles
limites se situe le nombre de globules rouges par litre de sang chez un individu en
bonne santé ? Comment sait-on combien d’individus sont connectés à internet ? Toutes
ces évaluations sont déduites de modèles probabilistes par les techniques statistiques
d’estimation paramétrique. La notion importante est celle d’intervalle de confiance, qui
permet d’évaluer la précision d’une estimation ponctuelle.
2.1
2.1.1
Estimation ponctuelle
Modèles paramétrés
Le postulat de modélisation sur lequel toute étude statistique est basée est le suivant :
Les données observées sont des réalisations de variables aléatoires.
Quand le résultat d’une expérience n’est pas reproductible exactement, on suppose qu’il
est la réalisation d’une variable aléatoire. La théorie des probabilités fournit des outils,
comme la loi des grands nombres ou le théorème central limite, permettant d’extraire
des données ce qui est reproductible et qui pourra donc fonder une prédiction ou une
décision.
Quand on observe un caractère statistique sur une population, si l’ordre dans lequel
on prend les individus n’a pas d’importance, on choisira de considérer que les données
sont des réalisations de variables aléatoires indépendantes et de même loi. Cette loi de
probabilité décrit la variabilité du caractère. Même dans le cas où les individus ne sont
pas interchangeables, comme pour une série chronologique, la modélisation consistera à
se ramener, en soustrayant au besoin une fonction déterministe, au cas d’un échantillon
de variables aléatoires indépendantes.
Définition 19. Soit P une loi de probabilité sur R. On appelle échantillon de la loi P
un n-uplet de variables aléatoires indépendantes et de même loi P.
Le mot échantillon prend en statistique deux sens différents, selon que l’on parle
des données observées ou du modèle probabiliste. L’hypothèse de modélisation consiste
à voir l’échantillon (observé) comme une réalisation d’un échantillon (théorique) d’une
certaine loi de probabilité P. En d’autres termes, on considère que les données auraient
pu être produites en simulant de façon répétée la loi de probabilité P. Pour éviter
les confusions, nous désignerons par données ou échantillon observé, la séquence de
nombres recueillie (x1 , . . . , xn ). Les échantillons (théoriques) au sens de la définition
ci-dessus seront désignés par des majuscules : (X1 , . . . , Xn ).
La loi de probabilité P modélisant la variabilité des données n’a aucune réalité physique. Cependant elle est considérée comme un objet caché. Tout se passe comme si
on disposait d’un algorithme de simulation de la loi P, sans connaître P elle-même :
Les données sont des appels indépendants de cet algorithme. L’objet de l’analyse statistique est d’en extraire toute information utile sur P. Si l’hypothèse de modélisation
36
STA230
Cours de Statistique
UJF Grenoble
par la loi P est correcte (l’algorithme simule effectivement cette loi), la loi des grands
nombres permet d’affirmer que la distribution empirique des données est proche de P,
pour un grand échantillon. Mais deux échantillons observés, simulés selon la même loi,
ont rarement la même distribution empirique. Afin d’extraire des données des informations reproductibles, on est amené à réduire l’ensemble des lois possibles à une famille
particulière de lois de probabilité.
On appelle problème d’ajustement le problème consistant à déterminer, dans une famille de lois de probabilité donnée, quelle est celle qui coïncide le mieux avec l’échantillon observé. Dans la situation la plus courante, celle que nous considérons ici, la famille
dépend d’un ou plusieurs paramètres réels inconnus. Le problème est donc de déterminer quelle valeur du paramètre est la mieux adaptée aux données, en un sens que
nous préciserons plus loin. On parle alors d’estimation paramétrique. Nous donnons
ci-dessous quelques exemples courants de situations statistiques, avec des familles de
lois communément choisies.
Echantillons binaires
Typiquement, la situation est celle où un même événement est observé ou non dans
une suite d’expériences indépendantes. Si on code les observations par 1 et 0, la modélisation par une loi de Bernoulli s’impose. Le paramètre inconnu est la probabilité de
l’événement. On l’approche bien évidemment par sa fréquence expérimentale.
Comptages
Un échantillon issu de comptages prend des valeurs entières positives. Plusieurs familles
de lois classiques peuvent être utilisées comme modèles. Si les objets comptés sont relativement fréquents, dans une population de taille fixée et assez faible, les lois binomiales
ou hypergéométriques sont des modèles naturels (nombre de filles dans les fratries de
5 enfants par exemple). Si les objets comptés possèdent un caractère relativement rare
dans un grand ensemble (bactéries, individus porteurs d’un gène particulier,. . . ) on
utilise souvent une loi de Poisson. Pour des durées mesurées en temps discret (nombres
de jours ou de semaines d’incubation pour une maladie) on pourra utiliser une loi
géométrique ou binomiale négative. On se laisse souvent guider par la forme de la
distribution empirique pour le choix d’un modèle. Un diagramme en bâtons en gros
unimodal pourra suggérer de modéliser par une loi binomiale négative, même s’il n’y
a pas de raison profonde qui rende ce choix naturel.
Variables normales
Les lois normales sont de très loin les plus utilisées parmi les modèles probabilistes. Cela
tient à deux causes. L’une est qu’elles permettent des calculs explicites faciles, quelle
que soit la taille de l’échantillon. En particulier il est fréquent de choisir un modèle
normal pour de petits échantillons, sans pouvoir toujours justifier ce choix. L’autre
raison tient au théorème central limite : chaque fois qu’une quantité provient du cumul
d’un grand nombre de facteurs variables relativement indépendants entre eux, cette
quantité pourra être modélisée par une loi normale. C’est le cas pour les erreurs de
37
STA230
Cours de Statistique
UJF Grenoble
mesures qui ont été la motivation historique de la loi normale, mais aussi pour de très
nombreux paramètres physiologiques (tailles, poids, numérations sanguines, dosages
hormonaux . . . ).
Durées
Des durées mesurées en temps continu sont modélisées par des lois de probabilité
continues sur R+ . En fiabilité, pour des durées de fonctionnement ou des durées de
réparation, les lois de Weibull sont souvent préférées. Les lois exponentielles en sont
un cas particulier.
Données unimodales asymétriques
Comme pour les caractères discrets, le choix d’un modèle pour un caractère continu
est souvent guidé par la forme de la distribution empirique. Il arrive que l’histogramme
d’un caractère continu soit trop dissymétrique pour qu’on puisse utiliser la loi normale.
Plusieurs familles de lois présentent des dissymétries plus ou moins importantes. C’est
le cas pour les lois de Weibull, déjà évoquées, mais aussi pour les lois gamma. Quand
les ordres de grandeur des données sont très différents, on peut les remplacer par leurs
logarithmes. Si le nouvel histogramme coïncide apparemment avec une loi normale, on
utilisera une loi log-normale comme modèle pour les données initiales.
Dans tout ce qui suit, nous désignerons par Pθ une loi de probabilité dépendant du
paramètre inconnu θ. Dans la plupart des exemples, le paramètre θ sera un nombre
réel, mais il peut aussi être un entier, ou un couple de réels.
2.1.2
Estimateurs et estimations
Quand une famille de lois dépendant du paramètre inconnu θ a été choisie, c’est de
l’échantillon et de lui seul que l’on peut tirer les informations. On appelle estimateur
du paramètre θ, toute fonction de l’échantillon, prenant ses valeurs dans l’ensemble des
valeurs possibles pour θ. Evidemment, cette définition un peu vague cache l’espoir que
les valeurs prises par l’estimateur soient proches de la valeur cible θ, qui est et restera
inconnue.
Il importe de bien distinguer les variables aléatoires, liées à la modélisation, de
leurs réalisations, identifiées aux données. Un échantillon (théorique) est un n-uplet de
variables aléatoires indépendantes et de même loi Pθ . Pour estimer θ, on propose un
estimateur, fonction de l’échantillon :
T = τ (X1 , . . . , Xn ) .
C’est aussi une variable aléatoire. Le choix du modèle et de l’estimateur T est déconnecté du recueil des données. C’est en quelque sorte une planification que l’on effectue
avant toute observation, et qui pourra servir à plusieurs échantillons observés du même
phénomène.
Une fois un modèle choisi, on considérera un n-uplet de données (x1 , . . . , xn ) comme
38
STA230
Cours de Statistique
UJF Grenoble
une réalisation des variables aléatoires (X1 , . . . , Xn ). La valeur (réelle) prise par T :
θb = τ (x1 , . . . , xn ) ,
est l’estimation (du paramètre au vu de l’échantillon observé).
Prenons l’exemple simple d’une pièce dont on ignore si elle est ou non truquée. La
probabilité de tomber sur pile est le paramètre inconnu θ = p. On se propose de réaliser
10 lancers de la pièce, que l’on modélisera par un échantillon de taille 10 de la loi de
Bernoulli de paramètre p. Le nombre de pile obtenu sur les 10 lancers est une variable
aléatoire qui suit la loi binomiale B(10, p). Le quotient de cette variable aléatoire par 10
(la fréquence) est un estimateur de p. Effectuons maintenant les 10 lancers en notant
chaque fois 1 si pile sort, et 0 si c’est face. Une réalisation de l’échantillon est par
exemple :
0, 1, 1, 0, 1, 1, 1, 0, 0, 1.
Pour cette réalisation, la fréquence empirique prend la valeur 0.6, que l’on proposera
comme estimation de p. Bien évidemment, 10 nouveaux lancers de la même pièce
pourront conduire à une réalisation différente de l’échantillon, et à une estimation
différente de p.
2.1.3
Qualités d’un estimateur
Pour un échantillon de taille n de la loi de Bernoulli de paramètre inconnu p, la
fréquence empirique est un estimateur de p. C’est une variable aléatoire qui prend ses
valeurs dans [0, 1]. Si n est grand, elle prend avec une forte probabilité des valeurs
proches de p, d’après la loi des grands nombres. Quel que soit le modèle et le paramètre à estimer, prendre des valeurs proches de ce paramètre au moins pour de grands
échantillons, est la qualité principale que l’on attend d’un estimateur. En toute rigueur,
on doit considérer une suite d’estimateurs (Tn ), où pour tout n, Tn est une variable
aléatoire fonction de l’échantillon (X1 , . . . , Xn ). Par abus de langage, on appelle encore
“estimateur” cette suite.
Définition 20. On dit que l’estimateur (Tn ) est convergent si pour tout ε > 0 :
lim P[|Tn − θ| > ε] = 0 .
n→∞
Un estimateur convergent s’écarte donc du paramètre avec une faible probabilité,
si la taille de l’échantillon est assez grande.
L’exemple de base d’estimateur convergent est la moyenne empirique. Nous noterons
X n la moyenne empirique de l’échantillon (X1 , . . . , Xn ) :
Xn =
X 1 + · · · + Xn
.
n
La loi des grands nombres affirme que X n est un estimateur convergent de l’espérance
de X.
39
Cours de Statistique
STA230
UJF Grenoble
Si le paramètre θ s’exprime comme une fonction continue de E[X], alors l’image de
X n par cette fonction est un estimateur convergent de θ, par la proposition suivante.
Proposition 5. Soit (Tn ) un estimateur convergent du paramètre θ, et φ une fonction
de R dans R, continue au point θ. Alors (φ(Tn )) est un estimateur convergent de φ(θ).
Considérons par exemple comme modèle la loi uniforme sur [0, θ], où le paramètre
θ est inconnu. La moyenne empirique X n est un estimateur convergent de l’espérance
de la loi, qui vaut θ/2. Donc Tn = 2X n est un estimateur convergent de θ.
Mais d’autres espérances sont calculables. Par exemple, si X suit la loi uniforme
sur [0, θ], alors E[log(X)] vaut log(θ) − 1. Toujours d’après la loi des grands nombres,
(log(X1 )+· · ·+log(Xn ))/n est un estimateur convergent de log(θ)−1. Donc l’estimateur
Tn0 suivant est encore un estimateur convergent de θ :
Tn0
log(X1 ) + · · · + log(Xn )
+1 .
= exp
n
La notion de convergence ne donne aucune assurance pratique que les valeurs prises
par un estimateur seront effectivement dans un rayon fixé autour de la vraie valeur du
paramètre, pour une taille d’échantillon donnée. On quantifie la qualité des estimateurs
par la notion d’erreur quadratique.
Définition 21. On appelle erreur quadratique de Tn par rapport à θ la quantité :
EQ(Tn , θ) = E[(Tn − θ)2 ] .
L’erreur quadratique est liée à la convergence par la proposition suivante.
Proposition 6. Si l’erreur quadratique de Tn par rapport à θ tend vers 0 quand n tend
vers l’infini, alors (Tn ) est un estimateur convergent de θ.
Démonstration : Si |Tn − θ| > ε, alors (Tn − θ)2 > ε2 . Donc :
E[(Tn − θ)2 ] > ε2 P[|Tn − θ| > ε] .
Si E[(Tn − θ)2 ] tend vers 0, il en est de même de P[|Tn − θ| > ε].
Si deux estimateurs sont disponibles pour le même paramètre θ, on dira que l’un
est meilleur que l’autre si son erreur quadratique par rapport à θ est inférieure. Dans
l’exemple ci-dessus, l’erreur quadratique de Tn vaut θ2 /(3n), l’erreur quadratique de
Tn0 est équivalente à θ2 /n quand n tend vers l’infini, Tn est donc meilleur que Tn0 .
Même pour un estimateur convergent, il peut se faire que les valeurs prises soient
décalées en moyenne par rapport à la vraie valeur du paramètre. On dit alors que
l’estimateur est biaisé.
40
STA230
Cours de Statistique
UJF Grenoble
Définition 22. On appelle biais de l’estimateur Tn par rapport à θ la quantité :
B(Tn , θ) = E[Tn − θ] .
L’estimateur est dit sans biais si B(Tn , θ) = 0, il est dit asymptotiquement sans biais
si B(Tn , θ) tend vers 0 quand n tend vers l’infini.
Proposition 7. L’erreur quadratique de Tn par rapport à θ est la somme de la variance
de Tn et du carré du biais.
Démonstration : Par linéarité de l’espérance on a :
EQ(Tn , θ) =
=
=
=
E[(Tn − θ)2 ]
E[(Tn − E[Tn ] + E[Tn ] − θ)2 ]
E[(Tn − E[Tn ])2 ] + (E[Tn ] − θ)2 + 2(E[Tn ] − θ)(E[Tn − E[Tn ]])
V ar[Tn ] + (B(Tn , θ))2 + 0 .
Quand un estimateur est sans biais, l’erreur quadratique est égale à la variance. Le
critère suivant, conséquence immédiate des propositions 6 et 7 est souvent utilisé pour
démontrer qu’un estimateur est convergent.
Proposition 8. Si un estimateur est sans biais ou asymptotiquement sans biais et si
sa variance tend vers 0, alors il est convergent.
Quand le biais peut être explicitement calculé, on aura évidemment intérêt à le
corriger pour améliorer l’estimateur. Reprenons l’exemple de la loi uniforme sur [0, θ].
Un estimateur naturel de θ est la plus grande valeur de l’échantillon :
Tn00 = max{X1 , . . . , Xn } .
Comme toutes les valeurs Xi sont inférieures à θ, l’estimateur Tn00 sous-estime systématiquement θ. On démontre que son espérance est nθ/(n + 1) et donc son biais vaut
−θ/(n+1). On peut corriger le biais en introduisant :
n + 1 00
Tn .
n
Ce nouvel estimateur est sans biais, et il est meilleur que Tn00 .
Dans le tableau ci-dessous nous rassemblons les 4 exemples d’estimateurs du paramètre θ pour la loi uniforme U(0, θ), qui ont été introduits jusqu’ici. Le meilleur des
quatre est Tn000 .
Tn000 =
Estimateur
Biais
Erreur quadratique
Tn
0
θ2 /(3n)
Tn0
∼ θ/(2n)
∼ θ2 /n
Tn00
∼ −θ/n
∼ 2θ2 /n2
000
Tn
0
∼ θ2 /n2
41
Cours de Statistique
STA230
2.1.4
UJF Grenoble
Exemples d’estimateurs
Jusqu’ici nous avons déjà rencontré la moyenne epirique, comme estimateur de
l’espérance. Dans le cas particulier de données binaires, la moyenne empirique est la
fréquence, l’espérance est la probabilité. Il s’agit d’estimateurs sans biais et convergents. Dans cette section, nous illustrons les notions d’estimateur, de convergence et
de biais sur trois autres exemples, l’estimation d’une variance, le problème des questions
confidentielles, et les comptages par capture-recapture.
Estimateurs de la variance
Soit (X1 , . . . , Xn ) un échantillon d’une loi inconnue P, qui sera supposée admettre des
moments de tous ordres. Nous avons vu que la moyenne empirique X n = (X1 + · · · +
Xn )/n est un estimateur convergent de l’espérance. C’est un estimateur sans biais,
et sa variance est égale à la variance de la loi P, divisée par n. Comment estimer la
variance de P ? L’estimateur le plus naturel est le suivant.
Définition 23. On appelle variance empirique de l’échantillon (X1 , . . . , Xn ) l’estimateur :
n
1X
(Xi − X n )2 .
Sn2 =
n i=1
Si X désigne une variable aléatoire de loi P, Sn2 est bien un estimateur convergent
de V ar[X] = E[(X − E[X])2 ]. Mais ce n’est pas un estimateur sans biais. En effet :
Proposition 9.
E[Sn2 ] =
n−1
V ar[X] .
n
2
Démonstration : Calculons tout d’abord E[X n ].
2
1
E[(X1 + · · · + Xn )2 ]
n2 

n
n X
X
1 X
E
Xi2 +
Xi Xj  .
=
n2
i=1
i=1 j6=i
E[X n ] =
Par définition d’un échantillon, X1 , . . . , Xn sont indépendantes et de même loi. Donc
E[Xi2 ] = E[X 2 ] et E[Xi Xj ] = (E[X])2 , où X est une variable aléatoire quelconque de
loi P. En reportant ces valeurs on obtient :
2
1
nE[X 2 ] + n(n − 1)(E[X])2 )
n2
1
n−1
=
E[X 2 ] +
(E[X])2 .
n
n
E[X n ] =
42
Cours de Statistique
STA230
UJF Grenoble
On a donc :
1
n−1
1
E[X12 + · · · + Xn2 ] − E[X 2 ] −
(E[X])2 )
n
n
n
n−1
n−1
=
E[X 2 ] −
(E[X])2 )
n
n
n−1
V ar[X] .
=
n
E[Sn2 ] =
Pour transformer Sn2 en un estimateur non biaisé, il suffit de corriger le biais par
un facteur multiplicatif.
Définition 24. On appelle variance empirique non biaisée l’estimateur :
0
Sn2 =
n
n
1 X
Sn2 =
(Xi − X n )2 .
n−1
n − 1 i=1
On peut estimer l’écart-type par
q
q
Sn2 ou bien
q
Sn0 2 . Notons qu’en général aussi bien
q
q
Sn0 2 que Sn2 sont des estimateurs biaisés de V ar[X]. La différence entre les deux
estimateurs tend vers 0 quand la taille n de l’échantillon tend vers l’infini. Néanmoins,
la plupart des calculatrices proposent les deux estimateurs de l’écart-type
(touches σn
q
02
02
et σn−1 ). Certains logiciels calculent par défaut la valeur de Sn ou Sn , d’autres Sn2
ou
q
Sn2 . Dans la suite, nous utiliserons surtout Sn2 , malgré l’inconvénient du biais.
Questions confidentielles
Certains sujets abordés dans les enquêtes d’opinion sont parfois assez intimes, et on
court le risque que les personnes interrogées se refusent à répondre franchement à l’enquêteur, faussant ainsi le résultat. On peut alors avoir recours à une astuce consistant
à inverser aléatoirement les réponses. Considérons une question confidentielle pour laquelle on veut estimer la probabilité p de réponses positives. L’enquêteur demande à
chaque personne interrogée de lancer un dé. Si le dé tombe sur 6, la personne doit
donner sa réponse sans mentir, sinon elle doit donner l’opinion contraire à la sienne. Si
l’enquêteur ignore le résultat du dé, il ne pourra pas savoir si la réponse est franche ou
non, et on peut espérer que la personne sondée acceptera de jouer le jeu. Généralisons
légèrement la situation en tirant pour chaque personne une variable de Bernoulli de
paramètre α. Si le résultat de cette variable est 1, la réponse est franche, sinon, elle
est inversée. Soit n le nombre de personnes interrogées. L’enquêteur ne recueille que
la fréquence empirique Fn des “oui”. La proportion inconnue des “oui” à l’issue de la
procédure est q = αp + (1 − α)(1 − p), et la fréquence Fn observée par l’enquêteur est
un estimateur sans biais et convergent de q. Remarquons que si α = 1/2, q vaut 1/2
quel que soit p. Mais si α 6= 1/2, on peut exprimer p en fonction de q :
p=
q−1+α
.
2α − 1
43
STA230
Cours de Statistique
UJF Grenoble
On peut donc proposer comme estimateur de p la quantité suivante :
Tn =
Fn − 1 + α
.
2α − 1
L’espérance de Tn est p. La variance de Tn vaut :
α(1 − α)
q(1 − q)
p(1 − p)
+
=
.
2
n(2α − 1)
n
n(2α − 1)2
L’estimateur Tn est sans biais, sa variance tend vers 0, il est donc convergent.
Pour n fixé, la variance de T tend vers l’infini quand α tend vers 1/2. Elle est
minimale si α = 0 ou 1 (mais alors la procédure perd tout son intérêt). Le problème
est donc de choisir une valeur de α qui soit assez grande pour que la confidentialité soit
crédible, mais suffisamment éloignée de 1/2 pour ne pas trop augmenter la variance de
l’estimateur. Pour le dé, la valeur de α est 1/6 et le terme additionnel de la variance
est proportionnel à α(1 − α)/(2α − 1)2 = 0.3125.
Comptages par capture-recapture
Comment estimer le nombre d’espèces d’insectes vivant sur la terre, alors que de nombreuses espèces sont encore inconnues ? Comment connaît-on la population de baleines
dans les océans ? Le comptage par capture-recapture permet d’évaluer des tailles de
populations pour lesquelles un recensement exhaustif est impossible. La méthode est
basée sur une idée simple. Considérons une population, de taille N inconnue. On prélève dans un premier temps un groupe d’individus, de taille m fixée. Ces individus
sont recensés et marqués de façon à être reconnus ultérieurement. Plus tard, on prélève un nouveau groupe de taille n, et on observe le nombre X d’individus marqués
dans ce nouveau groupe. Si le deuxième prélèvement est indépendant du premier, la
loi de X est la loi hypergéométrique de paramètres N , m et n, d’espérance nm/N .
On peut s’attendre à ce que la proportion X/n d’individus marqués dans le deuxième
échantillon soit proche de la proportion d’individus marqués dans l’ensemble de la population, m/N . Il est donc raisonnable de proposer comme estimateur de N la quantité
suivante :
nm
.
T =
X
L’inconvénient de cet estimateur est qu’il n’est pas défini si X prend la valeur 0, ce qui
arrive avec une probabilité strictement positive. On peut corriger ce défaut de deux
manières. La première consiste à remplacer X par X + 1, ce qui ne devrait pas fausser
trop le résultat si les nombres envisagés sont assez grands. Posons donc :
T0 =
nm
.
X +1
La seconde manière consiste à décider de rejeter a priori les échantillons pour lesquels on
n’obtiendrait pas d’individu marqué. Ceci revient à remplacer X par une autre variable
44
Cours de Statistique
STA230
UJF Grenoble
aléatoire X 0 dont la loi est la loi conditionnelle de X sachant que X est strictement
positif. Posons donc :
nm
T 00 = 0 .
X
Pour des valeurs de N , m et n particulières, on peut calculer numériquement les espérances et les écarts-types de ces estimateurs. Le tableau ci-dessous résume des résultats
obtenus pour m = n = 100 et différentes valeurs de N .
N
200
0
E[T ]
197.0
q
V ar[T 0 ] 13.9
E[T 00 ]
201.0
q
00
V ar[T ] 14.5
300
295.1
34.4
304.2
36.6
400
500
393.1 491.1
60.2 90.7
409.6 517.5
65.6 101.5
1000
5000
981.3 4291.1
309.3 2459.5
1102.0 5767.9
420.2 2995.4
Les deux estimateurs sont biaisés, le premier a tendance à sous-estimer la taille N de la
population, le deuxième à la sur-estimer. L’écart-type augmente plus rapidement que
N . Il est naturel que la précision relative soit d’autant plus faible que les échantillons
recueillis sont petits devant la taille inconnue de la population.
2.2
2.2.1
Intervalles de confiance
Intervalles de dispersion
L’erreur quadratique mesure la concentration d’un estimateur autour de la valeur
du paramètre. Les intervalles de dispersion sont un autre moyen de mesurer la plus
ou moins grande concentration d’une loi de probabilité. Ils s’expriment à l’aide de la
fonction quantile. Si T est une variable aléatoire, la fonction quantile de la loi de T est
la fonction de [0, 1] dans R qui à u ∈ [0, 1] associe :
QT (u) = inf{t t.q. P[T 6 t] > u} .
Définition 25. Soit T une variable aléatoire et α un réel compris entre 0 et 1. On
appelle intervalle de dispersion de niveau 1−α tout intervalle de la forme :
[ QT (β), QT (1 − α + β) ] ,
avec 0 6 β 6 α .
En statistique, les réels α compris entre 0 et 1 sont de tradition. La même tradition
leur affecte prioritairement les valeurs 0.05 et 0.01, plus rarement 0.02, 0.005 ou 0.001. Il
faut donc lire α comme “une faible proportion”, et 1−α comme “une forte proportion”.
Un intervalle de dispersion de niveau 1 − α pour T est tel que T appartient à cet
intervalle avec probabilité 1−α. Il contient donc une forte proportion des valeurs que
prendra T , même s’il est en général beaucoup plus petit que le support de la loi.
45
STA230
Cours de Statistique
UJF Grenoble
Il existe en général une infinité d’intervalles de dispersion de niveau donné. En voici
quelques uns, de niveau 0.99 pour la loi normale N (0, 1).
β
0
0.002
0.005
0.008
0.01
QX (β) QX (0.99 + β)
−∞
2.3263
−2.8782
2.4089
−2.5758
2.5758
−2.4089
2.8782
−2.3263
+∞
Selon les valeurs de β, on dit qu’un intervalle de dispersion de niveau 1−α est :
• unilatéral inférieur si β = 0,
• unilatéral supérieur si β = α,
• symétrique si β = α/2,
• optimal si son amplitude est la plus courte parmi tous les intervalles de dispersion
de niveau 1−α.
Déterminer un intervalle de dispersion optimal requiert en général un calcul particulier,
sauf dans le cas où la loi est symétrique, comme une loi normale ou une loi de Student.
On dit que la loi de X est symétrique si pour tout u ∈ [0, 1],
QX (u) − QX (0.5) = QX (0.5) − QX (1 − u) .
On démontre que si la loi de X est symétrique, alors l’intervalle de dispersion symétrique
est optimal. C’est le cas pour les lois normales et les lois de Student.
Les intervalles de dispersion des lois usuelles sont fréquemment utilisés en Statistique, ce qui justifie l’introduction de notations particulières.
• uα désignera le réel F −1 (1 − α/2), où F −1 désigne la fonction quantile de la
loi N (0, 1). L’intervalle [−uα , uα ] est l’intervalle de dispersion symétrique (donc
optimal) pour la loi N (0, 1), de niveau 1 − α. Les valeurs les plus courantes sont
uα = 1.96 pour α = 0.05 et uα = 2.5758 pour α = 0.01.
• tα désignera le réel QT (n) (1 − α/2), où QT (n) désigne la fonction quantile de
la loi de Student à n degrés de liberté (pour une valeur de n fixée). L’intervalle
[−tα , tα ] est l’intervalle de dispersion symétrique (donc optimal) pour la loi T (n),
de niveau 1 − α.
• zα désignera le réel QX 2 (n) (1 − α), où QX 2 (n) désigne la fonction quantile de la loi
de khi-deux à n degrés de liberté (pour une valeur de n fixée). L’intervalle [0 , zα ]
est donc l’intervalle unilatéral inférieur pour la loi X 2 (n), de niveau 1 − α.
• fα désignera le réel QF (m,n) (1 − α), où QF (m,n) désigne la fonction quantile de
la loi de Fisher de paramètres m et n (pour des valeurs de fixées). L’intervalle
[0 , fα ] est l’intervalle de dispersion unilatéral inférieur pour la loi F(m, n), de
niveau 1 − α.
A titre d’exemple, nous reprenons l’estimateur Tn00 pour la loi uniforme U(0, θ), à
savoir le maximum des valeurs de l’échantillon. Sa fonction quantile est la fonction qui
46
Cours de Statistique
STA230
UJF Grenoble
loi gamma G(5,0.5)
0.10
0.09
0.08
0.07
0.06
0.05
0.04
0.03
0.02
0.01
0.00
.
0
3
6
9
12
15
18
21
24
27
30
Fig. 10 – Intervalle de dispersion optimal de niveau 0.95 pour la loi gamma G(5, 0.5)
(loi du khi-deux de paramètre 10).
à u ∈ [0, 1] associe :
QTn00 (u) = θ u1/n .
Pour α et β 6 α fixés, l’intervalle de dispersion [ QTn00 (β), QTn00 (1 − α + β) ] a pour
longueur :
θ(1 − α + β)1/n − θβ 1/n .
Il se trouve que l’intervalle de dispersion optimal coïncide avec l’intervalle de dispersion
unilatéral supérieur (β = α). La borne de gauche est θα1/n , la borne de droite est θ.
Voici quelques valeurs pour la quantité α1/n , qui tend vers 1 quand n tend vers l’infini.
.
n .. α
10
100
1000
0.05
0.741
0.970
0.997
0.01 0.001
0.631 0.501
0.955 0.933
0.995 0.993
Quand la loi de la variable aléatoire T est discrète, la notion d’intervalle de dispersion
recèle une certaine ambigüité. Considérons par exemple la loi binomiale B(10, 0.6).
Voici les valeurs de sa fonction de répartition.
i
F (i)
0
0.000
1
0.002
2
0.012
3
0.055
4
0.166
47
5
0.367
6
0.618
7
0.833
8
0.954
9
0.994
10
1
Cours de Statistique
STA230
UJF Grenoble
Fixons 1−α = 0.9. Pour les calculs utilisant les intervalles de dispersion, on applique
toujours un principe de précaution, qui consiste à garantir le niveau. On qualifiera donc
d’intervalle de dispersion de niveau 1−α les intervalles dont la probabilité est supérieure
ou égale à 1 − α. Le tableau ci-dessous donne une liste d’intervalles de dispersion de
niveau > 0.9, avec leur probabilité exacte, pour la loi B(10, 0.6).
Intervalle
[0, 8]
Probabilité 0.954
[1, 8]
0.954
[2, 8]
0.952
[3, 8]
0.941
[4, 9] [4, 10]
0.939 0.945
Deux intervalles sont d’amplitude minimale, [3, 8] et [4, 9]. On choisira celui dont la
probabilité est la plus grande, à savoir [3, 8]. La figure 11 représente en fonction de p
les intervalles de dispersion optimaux, au sens défini ci-dessus, pour la loi binomiale
B(10, p), ainsi que les intervalles de dispersion symétriques.
Intervalles de dispersion : loi binomiale
10
9
8
7
6
5
4
3
2
1
.
0
0.0
0.1
0.2
0.3
0.4
0.5
0.6
0.7
0.8
0.9
1.0
Fig. 11 – Intervalles de dispersion optimaux (trait plein) et symétriques (pointillés) de
niveau > 0.9 pour la loi binomiale B(10, p).
2.2.2
Définitions
En statistique, tout comme en physique, en chimie ou en biologie, donner un résultat
sans indication sur sa précision n’a que peu d’intérêt car il n’est pas reproductible.
Reprenons l’exemple d’un lancer de pièce truquée, pour laquelle la probabilité p de
pile est inconnue. La fréquence empirique de pile est l’estimateur naturel de p. Si
48
STA230
Cours de Statistique
UJF Grenoble
sur 100 lancers on obtient 60 pile, l’estimation (ponctuelle) proposée pour p est 0.60.
Mais ce résultat n’est pas reproductible. Si on renouvelle les 100 lancers, on obtiendra
probablement des estimations différentes.
Plutôt que de donner une estimation ponctuelle, on proposera un intervalle, choisi
de manière à contrôler par un niveau de confiance, les chances que le résultat aurait
d’être confirmé si on renouvelait l’expérience. On cherche à distinguer les valeurs du
paramètre pour lesquelles l’observation (60 pile sur 100 lancers) est plausible, des valeurs pour lesquelles elle est trop peu vraisemblable. Notons F la fréquence empirique
et n le nombre de lancers. La variable aléatoire nF suit la loi binomiale B(n, p). Le
calcul numérique donne les valeurs suivantes.
QB(100,0.523) (0.95) = 60 et QB(100,0.682) (0.05) = 60 .
Pour toute valeur de p inférieure à 0.523, la probabilité d’observer sur 100 tirages une
fréquence supérieure à 0.60 est inférieure à 0.05. Pour toute valeur de p supérieure
à 0.682, la probabilité d’observer sur 100 tirages une fréquence inférieure à 0.60 est
inférieure à 0.05. En d’autres termes, pour tout p dans l’intervalle [0.523, 0.682], on a :
60 ∈ [ QB(100,p) (0.05) , QB(100,p) (0.95) ] ,
c’est-à-dire que 60 est dans l’intervalle de dispersion symétrique de niveau 0.9 pour
la loi B(100, p). Il est donc raisonnable de proposer [0.523, 0.682] comme intervalle
d’estimation pour la valeur de p.
La définition d’un intervalle de confiance est la suivante.
Définition 26. Soit (X1 , . . . , Xn ) un échantillon de la loi Pθ . On appelle intervalle
de confiance de niveau 1 − α un intervalle aléatoire [T1 , T2 ], où T1 6 T2 sont deux
statistiques, fonctions de l’échantillon, telles que :
P[ θ ∈ [T1 , T2 ] ] = 1 − α .
Si on réalise n simulations indépendantes de la loi Pθ , les variables aléatoires T1 et
T2 prendront des valeurs particulières t1 et t2 . L’encadrement θ ∈ [t1 , t2 ] sera alors vrai
ou faux. Pour α = 0.05, si on répète 100 fois la série de n expériences pour obtenir 100
intervalles, on peut s’attendre à ce que cinq d’entre eux ne contiennent pas θ.
En général, les intervalles de confiance se construisent à partir des intervalles de
dispersion d’un estimateur. Soit T un estimateur de θ. Parmi les intervalles de dispersion de T , nous devons effectuer un choix cohérent (le même pour toutes les valeurs de
θ). Le plus facile est de considérer l’intervalle de dispersion symétrique :
[QT (α/2) , QT (1 − α/2)] .
Sauf si la loi de T est symétrique (les intervalles symétriques sont alors optimaux), on
obtiendra des résultats plus précis en calculant les intervalles de dispersion optimaux
49
STA230
Cours de Statistique
UJF Grenoble
(dont l’amplitude est minimale). Ce choix étant effectué, fixons le niveau 1−α et notons
[q(θ) , q(θ)] l’intervalle de dispersion pour la loi de T . Pour toute valeur de θ, on a :
P[ T ∈ [q(θ) , q(θ)] ] = 1 − α .
Si T est un estimateur convergent de θ et la taille de l’échantillon est assez grande,
alors q(θ) et q(θ) sont proches de θ. En pratique, si Pθ est une loi continue, ce sont
des fonctions strictement croissantes de θ. On peut donc définir leurs inverses q −1 (t) et
q −1 (t).
Proposition 10. Si q et q sont strictement croissantes, l’intervalle [q −1 (T ) , q −1 (T )]
est un intervalle de confiance de niveau 1−α pour θ.
Démonstration : La fonction q(θ) étant croissante, on a :
θ 6 q −1 (T ) ⇐⇒ T > q(θ) ,
et de même :
θ > q −1 (T ) ⇐⇒ T 6 q(θ) ,
soit :
θ ∈ [q −1 (T ) , q −1 (T )] ⇐⇒ T ∈ [q(θ) , q(θ)] .
Ces deux événements étant équivalents, leur probabilité est la même, à savoir 1−α, par
définition de l’intervalle de dispersion [q(θ) , q(θ)].
Exemple : loi uniforme sur [0, θ].
Considérons un échantillon (X1 , . . . , Xn ) de la loi U(0, θ), et l’estimateur convergent
T = max{X1 , . . . , Xn }. Nous avons vu que l’intervalle de dispersion optimal de niveau
1−α est l’intervalle unilatéral [θα1/n , θ]. On a donc :
q(θ) = θα1/n
et q(θ) = θ .
Ces fonctions sont strictement croissantes et donc inversibles :
q −1 (t) = t et q −1 (t) = tα−1/n .
L’intervalle [T, T α−1/n ] est un intervalle de confiance de niveau 1−α pour θ. Remarquons
que l’amplitude de l’intervalle diminue (la précision augmente) si n et α augmentent
(le niveau de confiance diminue). Supposons par exemple que pour 100 tirages de la loi
U(0, θ), le maximum T ait pris la valeur 1.23. Pour α = 0.05, la valeur numérique de
la borne supérieure est :
1.23 (0.05)−1/100 = 1.267405 .
Il est inutile de donner plus de chiffres significatifs que n’en a l’estimation. Les arrondis
doivent toujours aller dans le sens de la garantie du niveau de confiance (agrandissement
50
STA230
Cours de Statistique
UJF Grenoble
de l’intervalle). Les bornes inférieures seront donc arrondies par défaut et les bornes
supérieures par excès. Ici, on donnera [1.23, 1.27] comme intervalle de confiance pour
θ au niveau 0.95.
Quand la loi Pθ est discrète, l’échantillon (X1 , . . . , Xn ) et donc l’estimateur T ne
peuvent prendre que certaines valeurs particulières. Dans ce cas, la fonction quantile
de T est une fonction en escalier et les fonctions q(θ) et q(θ) ne sont pas strictement
croissantes. Pour une loi discrète, le niveau des intervalles de dispersion n’est pas exact.
On pourra seulement garantir que :
P[ T ∈ [q(θ) , q(θ)] ] > 1 − α .
Quand il y a ambigüi té sur la valeur prise par un intervalle de confiance, les choix à
effectuer iront toujours vers la garantie du niveau de confiance. La procédure de calcul
devra être telle que :
P[ θ ∈ [T1 , T2 ] ] > 1 − α.
La figure 12 illustre cette procédure pour la situation donnée en exemple au début
du paragraphe. Les intervalles de dispersion optimaux pour une fréquence empirique
sur un échantillon de taille 100 sont représentés en fonction de p. Si la fréquence de
1 dans l’échantillon est 0.6, l’intervalle de confiance retourné sera celui de la figure,
correspondant aux abscisses où la droite horizontale d’ordonnée 0.6 coupe q(p) et q(p).
2.2.3
Echantillons gaussiens
Ce paragraphe est consacré à la construction d’intervalles de confiance de la moyenne et de la variance, pour les échantillons gaussiens, autrement dit les échantillons de
la loi normale N (µ, σ 2 ). L’avantage de cette situation est que les estimateurs naturels
de l’espérance et de la variance ont des lois explicitement calculables. Nous notons
(X1 , . . . , Xn ) un échantillon de la loi N (µ, σ 2 ), X sa moyenne empirique et S 2 sa
variance empirique :
n
1X
X=
Xi
n i=1
n
1X
et S =
(Xi − X)2 .
n i=1
2
Nous rassemblons ci-dessous, et nous admettrons, les trois résultats permettant de
calculer les intervalles de confiance de µ et σ 2 .
Théorème 4. Si (X1 , . . . , Xn ) est un échantillon de la loi N (µ, σ 2 ), alors :
r n
1.
X
−
µ
suit la loi normale N (0, 1).
σ2
s
n−1
2.
X − µ suit la loi de Student T (n−1).
S2
nS 2
3.
suit la loi du khi-deux X 2 (n−1).
σ2
51
Cours de Statistique
STA230
UJF Grenoble
Loi binomiale B(100,p)
1.0
frequence
0.9
q(p)
0.8
q(p)
0.7
0.6
0.5
0.4
0.3
0.2
0.1
0.0
p
.
0.0
0.1
0.2
0.3
0.4
0.5
0.6
0.7
0.8
0.9
1.0
Fig. 12 – Intervalles de dispersion optimaux et intervalle de confiance de niveau > 0.9
pour la loi binomiale B(100, p).
Les deux premières affirmations servent à estimer l’espérance µ, respectivement dans
le cas où la variance σ 2 est connue et dans le cas où elle est inconnue. Commençons par
supposer que σ 2 est connue. Posons uα = QN (0,1) (1 − α/2). L’intervalle de dispersion
optimal de niveau 1−α pour la loi N (0, 1) est [−uα , uα ]. Deux valeurs de uα sont très
souvent utilisées : pour 1 − α = 0.95 et 0.99, uα vaut respectivement 1.96 et 2.5758.
D’après le point 1 du théorème 4, on a :
r
P
n
X − µ ∈ [−uα , uα ] = 1 − α .
σ2
Or :
r

s

s
n
σ2
σ2 

X
−
µ
∈
[−u
,
u
]
⇐⇒
X
−
µ
∈
−u
,
u
α
α
α
α
σ2
n
n

s
⇐⇒ µ ∈  X − uα
L’intervalle :

X
s
− uα
s

σ2
σ2 
, X + uα
,
n
n
52
s

σ2
σ2 
, X + uα
.
n
n
Cours de Statistique
STA230
UJF Grenoble
est donc un intervalle de confiance de niveau 1−α pour µ.
Le cas où σ 2 est inconnu se traite de la même façon, en remplaçant la loi N (0, 1) par
la loi T (n − 1). C’est encore une loi symétrique, pour laquelle l’intervalle de confiance
optimal de niveau 1−α est de la forme [−tα , tα ], où :
tα = QT (n−1) (1 − α/2) .
Le même raisonnement conduit à l’intervalle de confiance suivant pour µ :

s
X
− tα
s

S2
S2 
, X + tα
.
n−1
n−1
Passons maintenant à l’estimation de σ 2 à partir de S 2 . La loi du khi-deux X 2 (n−1)
n’est pas symétrique, et l’intervalle de dispersion symétrique n’est pas optimal. Nous
noterons uα et vα deux réels positifs tels que [uα , vα ] soit un intervalle de dispersion de
niveau 1−α pour la loi X 2 (n−1). On pourra calculer l’intervalle de dispersion optimal
par une procédure d’optimisation numérique, ou bien prendre l’intervalle symétrique :
uα = QX 2 (n−1) (α/2) et vα = QX 2 (n−1) (1 − α/2) .
D’après le point 3 du théorème 4, on a :
#
"
nS 2
∈ [uα , vα ] = 1 − α .
P
σ2
Or :
nS 2
∈ [uα , vα ] ⇐⇒ σ 2 ∈
σ2
L’intervalle
2.2.4
h
nS 2
vα
,
nS 2
uα
i
"
nS 2 nS 2
,
vα
uα
#
.
est donc un intervalle de confiance de niveau 1−α pour σ 2 .
Normalité asymptotique
La construction des intervalles de confiance nécessite de connaître la loi des estimateurs à partir desquels ils sont construits. En dehors du cas des échantillons gaussiens,
ce n’est pas toujours possible. De plus, il est fréquent que les calculs de lois, effectivement implémentables pour de petits échantillons, deviennent infaisables pour un
échantillon de grande taille. On cherche alors à remplacer la loi de l’estimateur par une
approximation plus simple, permettant de construire des intervalles de confiance dont
le niveau n’est garanti que pour de grandes tailles d’échantillons.
Définition 27. Soit (X1 , . . . , Xn ) un échantillon de la loi Pθ . Pour tout n, soient
T1,n 6 T2,n deux statistiques, fonction de l’échantillon (X1 , . . . , Xn ).
On dit que [T1,n , T2,n ] est un intervalle de confiance, de niveau asymptotique 1−α pour
θ, si :
lim P[θ ∈ [T1,n , T2,n ] ] = 1 − α .
n→∞
53
Cours de Statistique
STA230
UJF Grenoble
Le plus souvent, cette notion est utilisée quand on dispose d’un estimateur convergent de θ dont la loi est asymptotiquement normale, ce qui est en général une conséquence du théorème central limite. Nous traitons tout d’abord le cas de l’estimation de
l’espérance.
Théorème 5. Soit (X1 , . . . , Xn ) un échantillon d’une loi de probabilité d’espérance µ,
de variance σ 2 . Soit X n sa moyenne empirique et Sn2 sa variance empirique. Posons :
r
Zn =
n
(X n − µ)
σ2
et
Zn0
s
=
n
(X n − µ) .
Sn2
Les lois des variables aléatoires Zn et Zn0 convergent vers la loi normale N (0, 1).
Ce résultat, qui est une reformulation du théorème central limite classique, permet
de définir des intervalles de dispersion approchés pour Zn et Zn0 . Fixons le niveau 1−α,
et notons [−uα , uα ] l’intervalle de dispersion optimal de la loi N (0, 1). Alors :
lim P[ Zn ∈ [−uα , uα ] ] = lim P[ Zn0 ∈ [−uα , uα ] ] = 1 − α .
n→∞
n→∞
On en déduit immédiatement deux intervalles de confiance, de niveau asymptotique
1−α pour µ :

 Xn
s
− uα
σ2
n
s
, X n + uα
σ2

n


et
 Xn
s
− uα
Sn2
n
s
, X n + uα
Sn2

n

.
En pratique, la taille de l’échantillon, même grande, est toujours fixée. Dans l’utilisation de la normalité asymptotique, la question se pose évidemment de la qualité
de l’approximation normale à n fixé. À partir de quelle valeur de n est-il légitime de
remplacer une loi exacte par son approximation normale pour un calcul d’intervalle
de confiance ? Il est impossible de donner des bornes valables dans toutes les situations. On pourra retenir que pour une taille d’échantillon supérieure ou égale à 100,
l’approximation normale conduit à des erreurs inférieures ou égales à 1%, et nous la
considèrerons donc comme légitime.
À titre d’exemple, voici l’application de cette technique à l’estimation d’une probabilité. Nous reprenons l’exemple de jeu de pile ou face avec une pièce truquée. Supposons
que cette fois-ci nous avons lancé 100 fois la pièce, et qu’elle est tombée 60 fois sur
pile. Pour la modélisation, nous considérons des variables aléatoires X1 , . . . , Xn , avec
n = 100. Pour i allant de 1 à n, la variable aléatoire Xi code le résultat observé : 0
si le i-ième lancer a donné face, 1 s’il a donné pile. Le n-uplet (X1 , . . . , Xn ) constitue
un échantillon de la loi de Bernoulli de paramètre p, où p est la probabilité (inconnue)
que la pièce tombe sur pile. Rappelons que :
E[Xi ] = p et V ar(Xi ) = p(1 − p) .
54
Cours de Statistique
STA230
UJF Grenoble
Nous sommes donc dans le cas où l’espérance et la variance sont toutes deux inconnues.
L’espérance est estimée par :
Xn =
1
(X1 + · · · + Xn ) .
n
C’est la fréquence empirique de pile. Pour alléger les formules, nous la noterons f .
La variance empirique de l’échantillon est :
Sn2 =
1 2
(X + · · · + Xn2 ) − f 2 = f − f 2 = f (1 − f ) ,
n 1
car les Xi valent toutes 0 ou 1, donc Xi2 = Xi .
L’application du théorème central limite nous donne l’intervalle de confiance suivant, de niveau 1 − α pour p.

f
s
− uα
s

f (1 − f )
f (1 − f ) 
, f + uα
.
n
n
Pour 1 − α = 0.95, uα = 1.96. Pour n = 100 et f = 0.6, la calculatrice donne
l’intervalle [0.50398 , 0.69602]. Il n’est pas très raisonnable de donner autant de chiffres
significatifs : l’aproximation normale pour une telle taille d’échantillon conduit à une
imprécision de l’ordre du centième. Deux chiffres significatifs suffisent donc. Attention
au sens de l’arrondi pour les deux bornes. Par principe, on souhaite garantir un niveau
de confiance au moins égal à 1 − α, donc remplacer l’intervalle trouvé par un intervalle
qui le contienne. On doit donc :
• arrondir par défaut la borne inférieure,
• arrondir par excès la borne supérieure.
Ici, nous remplacerons [0.50398 , 0.69602] par [0.50 , 0.70].
Une approximation rapide à calculer est souvent utile. Puisque f est une fréquence,
elle est comprise
f ) est inférieure ou égale
q entre 0 et 1, et la variance empirique f (1 −q
à 1/4 ; donc f (1 − f ) 6 1/2. Au niveau 0.95, le produit uα f (1 − f ) est majoré par
√
√
1. L’intervalle [f − 1/ n , f + 1/ n] est donc un intervalle de confiance de niveau au
moins égal à 0.95 pour une probabilité estimée par la fréquence f . La prochaine fois
que vous entendrez que sur
√ un échantillon de 3000 personnes, 49.5% pensent ceci ou
cela, souvenez vous que 1/ 3000 ' 0.02, et déduisez-en que la précision sur le résultat
que l’on vous annonce est de ±2%.
55
STA230
3
Cours de Statistique
UJF Grenoble
Tests statistiques
Les tests statistiques sont le moyen de valider ou réfuter des hypothèses de modélisation probabilistes. Ils visent à distinguer ce qui est plausible de ce qui est trop peu
vraisemblable, dans le cadre d’un modèle donné. Les notions de seuil, de région de rejet
et de p-valeur sont essentielles et doivent être comprises. Elles seront appliquées aux
tests les plus classiques portant sur la valeur d’un paramètre, la comparaison de deux
échantillons ou l’ajustement de données observées à un modèle théorique.
3.1
3.1.1
Statistiques de test
Modèles probabilistes réfutables
Supposons qu’un laboratoire souhaite mettre sur le marché un nouveau médicament.
Avant de le proposer à l’ensemble de la population, une série d’essais cliniques sont
effectués. Ils visent à observer l’effet du médicament sur un groupe de malades. Pour
simplifier, supposons que le nouveau médicament ait guéri 87 malades dans un groupe
de 100. Par ailleurs, on sait qu’en moyenne 74% des malades guérissent sans traitement.
L’amélioration est-elle suffisante pour lancer le médicament ? On ne pourra prendre une
décision qu’en supposant que les 100 individus observés sont représentatifs de l’ensemble
des personnes que l’on aura à traiter, et que les résultats auraient été peu différents sur
un autre groupe. La modélisation consiste à supposer que les réactions des individus
aux traitements sont des réalisations de variables aléatoires. C’est le postulat de base
en statistique :
Les données observées sont des réalisations de variables aléatoires.
Une série de données statistiques se présente sous la forme d’un n-uplet de valeurs,
observées sur une certaine population d’individus. La modélisation intervient quand
on souhaite utiliser ces valeurs pour émettre des conclusions destinées à des individus
pour lesquels les observations n’ont pas encore été faites. La théorie des probabilités
fournit des outils, comme la loi des grands nombres ou le théorème central limite,
permettant d’extraire des données ce qui est reproductible et qui pourra donc fonder
une prédiction ou une décision.
Une fois admis le postulat de base, les hypothèses de modélisation sont des affirmations
portant sur la loi de probabilité du n-uplet de variables aléatoires modélisant les observations. Selon les situations, quelques-unes de ces hypothèses paraîtront naturelles
et ne seront pas soumises à validation. Par exemple, quand on observe un caractère
statistique sur une population, si l’ordre dans lequel on prend les individus n’a pas d’importance, on choisira de considérer que les données sont des réalisations de variables
aléatoires indépendantes et de même loi, à savoir un échantillon (théorique).
Dans le cas du nouveau médicament à tester, on considérera que les individus sont
indépendants et que leur réponse (guérison ou non) est une variable binaire (1 ou 0). On
est donc ramené à un échantillon d’une loi de Bernoulli. L’hypothèse que le laboratoire
56
STA230
Cours de Statistique
UJF Grenoble
cherche à valider est que le paramètre de la loi de Bernoulli (probabilité de guérison)
pour le nouveau médicament est supérieur à 0.74, qui est la probabilité de guérison
sans traitement (supposée connue).
Toute démarche scientifique consiste à proposer des théories, qui sont ensuite confirmées
ou réfutées. Une théorie émet des prédictions sur le résultat d’expériences ou de mesures
futures. Qu’une seule de ces prédictions s’avère fausse, et c’est toute la théorie qui
est réfutée. En revanche, une prédiction qui s’avère exacte ne fait que conforter la
théorie, qui ne pourra jamais être définitivement prouvée. En statistique les théories
sont des modèles probabilistes, qui en général ne peuvent pas être réfutés : aucun
résultat observé n’est jamais totalement incompatible avec le modèle. Dans le cas du
médicament, il n’est pas impossible que par le fait du hasard, aucun des individus traités
ne guérisse. C’est seulement très peu vraisemblable. Comme il serait suspect, mais pas
exclu, que tous les individus guérissent sans exception. L’objet des tests statistiques
est de distinguer ce qui est plausible de ce qui est trop peu vraisemblable.
Les prédictions émises par une théorie en sont des conséquences particulières. Considérons par exemple la situation où on souhaite tester un générateur pseudo-aléatoire au
vu des valeurs qu’il retourne. En pratique, un générateur pseudo-aléatoire calcule les
termes successifs d’une suite itérative déterministe. Ces valeurs doivent se comporter
comme des “réels au hasard entre 0 et 1”. Cette phrase cache en fait le modèle probabiliste suivant : les valeurs retournées par le générateur sont des réalisations de variables
aléatoires indépendantes et de même loi, uniforme sur [0 , 1]. Ce modèle probabiliste
a une infinité de conséquences testables. Par exemple si le modèle est correct, sur 100
appels, le nombre de ceux compris entre 0.4 et 0.9 suit la loi binomiale B(100, 0.5).
Il n’est pas totalement exclu de n’en observer aucun, mais c’est très improbable (probabilité 1/2100 ). Si sur 100 appels du générateur, aucun n’était compris entre 0.4 et
0.9, on aurait donc de bonnes raisons de mettre en doute le modèle. Mais si le nombre
d’appels entre 0.4 et 0.9 est de 46, tout ce qu’on pourra dire c’est que ce résultat est
plausible. Cela peut renforcer notre confiance dans le modèle, mais cela ne présage pas
du résultat d’autres tests : aucun test statistique ne pourra jamais démontrer que le
modèle testé est le bon, ni qu’il est le seul possible.
En résumé, la situation est la suivante. Les données observées sont modélisées par des
variables aléatoires (X1 , . . . , Xn ). Toute fonction des Xi s’appelle une statistique. En
particulier, la décision que l’on prendra au vu des données est une statistique binaire
(rejet ou non). Les hypothèses portent sur la loi conjointe des Xi . On cherche à tester
une hypothèse particulière, qui porte traditionnellement le nom d’hypothèse nulle, et
que l’on notera H0 . Dans l’exemple du test sur l’efficacité d’un médicament, l’hypothèse
nulle pourrait être que le médicament n’a pas plus d’effet que l’ancien. Pour un n-uplet
d’appels d’un générateur pseudo-aléatoire, l’hypothèse nulle sera que la présence d’un
appel entre 0.4 et 0.9 suit la loi de Bernoulli de paramètre 0.5. Un test est une décision
prise au vu des données, pour laquelle on contrôle la probabilité de rejeter H0 à tort.
57
Cours de Statistique
STA230
UJF Grenoble
Définition 28. Un test de seuil α pour l’hypothèse H0 est une statistique binaire (rejet
ou non de H0 ), telle que :
PH0 [ Rejet de H0 ] = α .
L’hypothèse H0 entraîne la connaissance de la loi d’une certaine variable aléatoire,
appelée statistique de test. Par exemple, si un médicament n’a pas d’effet, l’hypothèse
nulle entraîne que le nombre de guérisons observées sur n individus suit la loi binomiale
B(n, p0 ), où p0 = 0.74 est la probabilité (supposée connue) de guérison sans traitement.
Pour n appels d’un générateur pseudo-aléatoire, le nombre d’appels entre 0.4 et 0.9 suit
la loi B(n, 0.5). Reste ensuite à distinguer parmi les valeurs de la statistique de test,
celles qui sont plausibles de celles qui sont trop peu vraisemblables. Ceci fait l’objet du
paragraphe suivant.
3.1.2
Règles de décision
Un modèle probabiliste a donc été choisi, qui fait des données observées des réalisations de variables aléatoires. Notons (x1 , . . . , xn ) les données et (X1 , . . . , Xn ) les variables aléatoires qui les modélisent. Sur la loi de ces variables aléatoires, un certain
nombre d’hypothèses sont émises et ne seront pas remises en cause. Une hypothèse particulière H0 doit être testée. Dans notre exemple du test d’un nouveau médicament,
nous supposons que le résultat observé sur chaque malade (guérison ou non) suit une
loi de Bernoulli, et que les résultats sur différents malades sont indépendants. Nous ne
remettrons pas en cause ces hypothèses. Par contre l’hypothèse H0 “le paramètre est
égal à 0.74” doit être testée.
La décision va porter sur la valeur prise par une certaine fonction τ des données :
T = τ (X1 , . . . , Xn ) .
Dans le modèle, T est une variable aléatoire, la statistique de test. Elle est choisie de
sorte que sa loi de probabilité sous l’hypothèse H0 est connue. Nous notons cette loi P0 .
Si les xi sont des réalisations des Xi , alors t = τ (x1 , . . . , xn ) est la valeur prise par T .
Le test consiste à rejeter l’hypothèse H0 quand la valeur t est trop peu vraisemblable
pour P0 .
Pour la loi de probabilité P0 , les valeurs les plus plausibles sont contenues dans ses
intervalles de dispersion. Ils s’expriment à l’aide de la fonction quantile. Si T est une
variable aléatoire, la fonction quantile de la loi de T est la fonction de [0 , 1] dans R
qui à u ∈ [0 , 1] associe :
QT (u) = inf{t t.q. P[T ≤ t] ≥ u} .
C’est l’inverse de la fonction de répartition. Les fonctions quantiles, comme les fonctions
de répartition de toutes les lois usuelles sont disponibles dans les environnements de
calcul courants.
58
STA230
Cours de Statistique
UJF Grenoble
Un intervalle de dispersion de niveau 1−α pour T est tel que T appartient à cet
intervalle avec probabilité 1−α. Il contient donc une forte proportion des valeurs que
prendra T , même s’il est en général beaucoup plus petit que le support de la loi.
Un test consistera à rejeter l’hypothèse H0 si la valeur prise par la statistique de test
est en dehors d’un intervalle de dispersion de niveau donné.
Proposition 11. Soit H0 une hypothèse et α un réel compris entre 0 et 1. On définit
un test de seuil α pour H0 par la règle de décision :
Rejet de H0 ⇐⇒ T ∈
/ Iα ,
où :
• T est une statistique de test,
• Iα est un intervalle de dispersion de niveau 1−α pour la loi de T sous H0 .
Le complémentaire de Iα s’appelle la région de rejet. Nous la noterons Wα . Si H0
est vraie, le seuil α est la probabilité que la valeur prise par T soit en dehors de Iα , et
donc que H0 soit rejetée à tort :
PH0 [ Rejet de H0 ] = α .
Nous avons laissé jusqu’ici une grande latitude quant au choix de l’intervalle de dispersion. Les intervalles les plus utilisés sont symétriques ou unilatéraux.
Définition 29. On dit qu’un test est :
• unilatéral si la région de rejet est le complémentaire d’un intervalle de dispersion
unilatéral.
• bilatéral si la région de rejet est le complémentaire d’un intervalle de dispersion
symétrique.
Dans le cas de l’efficacité d’un médicament, avec le nombre de guérisons comme
statistique de test, on choisira un test unilatéral (le traitement est inefficace si la fréquence de guérison est trop faible, efficace si elle est suffisamment grande). Pour tester
un générateur pseudo-aléatoire, avec le nombre d’appels entre 0.4 et 0.9 comme statistique de test, on rejettera aussi bien les valeurs trop grandes que trop petites, et le test
sera bilatéral.
Nous résumons dans la définition suivante les trois types de tests usuels.
Définition 30. Soit H0 l’hypothèse nulle, α le seuil, T la statistique de test et Q0 sa
fonction quantile sous l’hypothèse H0 .
1. Le test bilatéral (rejet des valeurs trop écartées) est défini par la règle de décision :
Rejet de H0 ⇐⇒ T ∈
/ [Q0 (α/2) , Q0 (1−α/2)] .
59
STA230
Cours de Statistique
UJF Grenoble
2. Le test unilatéral à droite (rejet des valeurs trop grandes) est défini par la règle
de décision :
Rejet de H0 ⇐⇒ T > Q0 (1−α) .
3. Le test unilatéral à gauche (rejet des valeurs trop petites) est défini par la règle
de décision :
Rejet de H0 ⇐⇒ T < Q0 (α) .
Supposons que la statistique de test T suive sous H0 la loi binomiale B(100, 0.5),
comme dans l’exemple du générateur pseudo-aléatoire. L’intervalle de dispersion symétrique de niveau α = 0.05 est [40 , 60]. Le test bilateral de seuil 0.05 consistera à
rejeter H0 si la statistique de test prend une valeur inférieure à 40 ou supérieure à 60.
Pour la loi binomiale, comme pour d’autres, on peut choisir d’utiliser l’approximation
normale : si n est assez grand, la loi B(n, p) est proche de la loi normale de même
espérance et de même variance. Ici, la loi de T est proche de la loi N (50, 25). L’intervalle de dispersion symétrique de niveau 0.95 pour cette loi est [40.2 , 59.8]. D’après cet
intervalle, on devrait aussi rejeter les valeurs 40 et 60. Les quantiles de la loi N (50, 25)
ne sont pas tabulés. Pour les calculer, on se ramène à la loi N (0, 1), en remplaçant la
statistique de test T par sa valeur centrée réduite :
T − 50
.
T0 = √
25
La variable T 0 suit la loi N (0, 1), le test bilatéral de seuil 0.05 consiste à rejeter toute
valeur à l’extérieur de l’intervalle de dispersion [−1.96 , +1.96]. C’est évidemment équivalent au fait de rejeter les valeurs de T à l’extérieur de l’intervalle [40.2 , 59.8]. D’autres
transformations sont possibles. Si T 0 suit la loi N (0, 1), alors T 00 = (T 0 )2 suit la loi du
khi-deux X 2 (1). Rejeter les valeurs de T 0 à l’extérieur de l’intervalle [−1.96 , +1.96] est
équivalent à rejeter les valeurs de T 00 supérieures à (1.96)2 = 3.841, qui est effectivement le quantile d’ordre 0.95 de la loi X 2 (1). Remarquons qu’un test bilatéral sur la
statistique T 0 est équivalent à un test unilatéral à droite sur la statistique T 00 .
Reprenons l’exemple du médicament qui a guéri 83 individus sur 100, et pour lequel nous voulons savoir si la probabilité de guérison est ou non meilleure que 0.74.
Nous allons donc appliquer un test unilatéral : nous observons une amélioration (83%
de guérisons au lieu de 74% attendues) et nous voulons savoir si cette amélioration
est suffisamment grande pour être significative. Sous l’hypothèse H0 , le nombre T
d’individus guéris parmi 100 suit la loi binomiale B(100, 0.74). Toujours en utilisant
l’approximation normale, la variable aléatoire suivante suit la loi N (0, 1) :
T − 74
.
T0 = q
100(0.74(1 − 0.74))
L’intervalle de dispersion unilatéral à gauche de niveau 0.01 est ] − ∞ , 2.3263]. En
d’autres termes si une variable aléatoire doit suivre la loi N (0, 1), nous rejetterons
60
Cours de Statistique
STA230
UJF Grenoble
comme “trop grande” au seuil 0.01, toute valeur supérieure à 2.3263. Au seuil 0.05,
nous rejetterons toute valeur supérieure à 1.6449. Ici T prend la valeur 83 et T 0 la
valeur 2.0518 : c’est trop grand au seuil 0.05 (rejet de H0 ), mais ce n’est pas trop grand
au seuil 0.01. Certes il y a eu une amélioration, mais on ne peut pas tout à fait exclure
qu’elle soit due au hasard. Nous verrons au paragraphe suivant un moyen de donner
une indication plus précise.
Nous présenterons quelques exemples de tests, parmi les plus classiques. Nous ne préciserons pas toujours s’il s’agit de tests bilatéraux ou unilatéraux. L’important est de
décrire l’hypothèse H0 , la statistique de test T et sa loi sous H0 . Décider si le test doit
être unilatéral à gauche ou à droite ou bien bilatéral est le plus souvent affaire de bon
sens.
3.1.3
Seuil et p-valeur
La définition 11 du paragraphe précédent fait apparaître le seuil comme la probabilité α, fixée a priori, que le test rejette l’hypothèse H0 à tort :
PH0 [ Rejet de H0 ] = α .
Une fois les données recueillies, la valeur prise par la statistique de test sera calculée,
et la réponse sera binaire : rejet ou non de H0 . On préfère souvent garder l’information
contenue dans la valeur de la statistique de test, en retournant le seuil limite auquel
H0 aurait été rejetée, compte tenu de l’observation.
Prenons l’exemple (fréquent) d’une hypothèse H0 sous laquelle la statistique de test
T suit la loi normale N (0, 1). La règle de rejet pour le test bilatéral de seuil 0.05 est :
Rejet de H0 ⇐⇒ T ∈
/ [−1.96 , +1.96] .
Supposons que la valeur prise par T soit 2.72. L’hypothèse H0 sera donc rejetée. Mais
elle serait également rejetée au seuil 0.01. En fait elle serait rejetée pour n’importe
quel seuil supérieur à 0.00653, ce qui est un renseignement plus précis qu’une simple
réponse binaire.
Définition 31. Soit H0 l’hypothèse nulle, T la statistique de test et F0 sa fonction de
répartition sous l’hypothèse H0 . On suppose que F0 est continue.
1. Pour un test bilatéral (rejet des valeurs trop écartées) la p-valeur d’une valeur t
prise par T est :
(
p(t) =
2F0 (t)
si F0 (t) < 0.5 ,
2(1 − F0 (t)) si F0 (t) ≥ 0.5 .
2. Pour un test unilatéral à droite (rejet des valeurs trop grandes) la p-valeur d’une
valeur t prise par T est :
p(t) = 1 − F0 (t) .
61
STA230
Cours de Statistique
UJF Grenoble
3. Pour un test unilatéral à gauche (rejet des valeurs trop petites) la p-valeur d’une
valeur t prise par T est :
p(t) = F0 (t) .
Cependant calculer une p-valeur pour un test bilatéral est assez artificiel. Au vu
de la valeur prise par T , on aura tendance à effectuer plutôt un test unilatéral visant
à décider si la valeur observée est trop grande ou trop petite. Pour une statistique
de test suivant la loi N (0, 1), la valeur 2.72 est clairement à droite de la distribution.
Le problème ne se pose plus de savoir si elle est trop petite, mais plutôt si elle est
significativement trop grande. En pratique, pour une statistique de test de fonction de
répartition F0 sous H0 , on définira souvent la p-valeur de la valeur t par :
p(t) = min{F0 (t) , 1−F0 (t)} .
La connaissance de la p-valeur rend inutile le calcul préalable de la région de rejet : si
p(t) est la p-valeur d’une observation t sous l’hypothèse H0 , on obtient un test de seuil
α par la règle de rejet :
Rejet de H0 ⇐⇒ p(T ) < α .
Dans le cas continu, ceci revient à remplacer la statistique T par F0 (T ) ou 1 − F0 (T ).
Sous l’hypothèse H0 , ces deux statistiques suivent la loi uniforme U(0, 1).
Quand la statistique de test est discrète, il faut inclure la valeur observée dans l’intervalle dont on calcule la probabilité. Pour un test unilatéral à gauche, cela n’induit
pas de changement : F0 (t) est la probabilité que T soit inférieure ou égale à t. Pour
un test unilatéral à droite sur une variable à valeurs dans N (le cas le plus fréquent) il
faudra calculer 1 − F0 (t−1). Supposons par exemple que la loi de T soit la loi binomiale
B(100, 0.5), la p-valeur de 60 est la probabilité que T soit supérieure ou égale à 60, à
savoir :
1 − FB(100,0.5) (59) = 0.0284 .
Reprenons l’exemple du paragraphe précédent : sur 100 malades, le médicament en
a guéri 83, à comparer avec le pourcentage de guérison sans traitement de 74%. Sous
l’hypothèse H0 , le nombre de guérisons suit la loi binomiale B(100, 0.74). La probabilité
qu’une variable aléatoire de loi B(100, 0.74) prenne une valeur supérieure ou égale à 83
est :
1 − FB(100,0.74) (82) = 0.0227 .
Si comme dans le paragraphe précédent, on utilise l’approximation normale, le calcul
donne :


83
−
74
 = 1 − F (2.0518) = 0.0201 .
1 − F q
100(0.74(1 − 0.74))
62
Cours de Statistique
STA230
3.1.4
UJF Grenoble
Risques et puissance
Jusqu’ici nous n’avons testé qu’une seule hypothèse de modélisation H0 . La seule
erreur qui pouvait être quantifiée consistait à rejeter H0 à tort. La probabilité de cette
erreur est le seuil α du test. Ne pas rejeter H0 signifie seulement que rien ne s’est produit
qui permette de la mettre en doute. Cela ne signifie pas que H0 soit “vraie” (les lois
de probabilité n’existent pas dans la nature). Nous allons nous placer désormais dans
une situation où deux modèles sont en compétition. Les données disponibles devront
nous permettre de prendre une décision sur H0 , par référence à une autre hypothèse
H1 . On dit alors qu’on teste H0 contre H1 .
Prenons l’exemple d’un indicateur physiologique T (taux d’une certaine substance dans
le sang) dont une valeur élevée est un symptôme d’une certaine maladie. Comme d’habitude, on considérera que le taux observé sur un individu est la réalisation d’une certaine
variable aléatoire. Supposons que des études antérieures aient montré que chez un sujet
sain, la valeur de T suit la loi N (1, 0.09), alors que chez un sujet malade, elle suit la loi
N (2, 0.16). Si la maladie est peu grave, et que le traitement comporte des risques pour
le patient, le médecin choisira de privilégier l’hypothèse que son patient est en bonne
santé : ce sera son hypothèse nulle H0 . Elle sera testée par un test unilatéral à droite
(rejet des valeurs de T trop grandes). Au seuil α = 0.05, la règle de décision est :
Rejet de H0 ⇐⇒ T > l0 = QN (1,0.09) (0.95) = 1.493 .
On décidera donc que le patient est malade si son taux est supérieur à l0 = 1.493. Le
seuil α mesure le risque de rejeter H0 à tort (déclarer malade un individu sain). Mais un
autre risque consiste à ne pas rejeter H0 alors que H1 est vraie (ne pas diagnostiquer
la maladie alors que le patient est effectivement atteint). On note β la probabilité
correspondante :
β = PH1 [ Ne pas rejeter H0 ] .
Ici la loi de T sous l’hypothèse H1 est la loi normale N (2, 0.16) et donc :
β = FN (2,0.16) (l0 ) = 0.1027 .
Rejeter H0 à tort est l’erreur de première espèce et le seuil α est le risque de première
espèce. Ne pas rejeter H0 à tort est l’erreur de deuxième espèce et la probabilité β de
cette erreur est le risque de deuxième espèce. La probabilité 1−β de rejeter H0 sous H1
s’appelle la puissance du test.
Comme nous l’avons montré en exemple, il se peut que le risque de deuxième espèce
β soit assez important, alors que le seuil α est fixé en définissant le test. L’erreur de
première espèce est celle que l’on choisit de maîtriser, quitte à ignorer le risque de
deuxième espèce. Cela induit une dissymétrie dans le traitement des deux hypothèses.
La règle de rejet du test est définie uniquement à partir de α et H0 . Entre deux
alternatives, on choisira pour H0 l’hypothèse qu’il serait le plus grave de rejeter à tort.
63
STA230
Cours de Statistique
UJF Grenoble
Reprenons l’exemple du diagnostic mais supposons maintenant que la maladie est
potentiellement très grave, mais facilement soignable. Le danger serait de ne pas la
détecter. Le médecin choisira comme hypothèse nulle l’hypothèse que le patient est
atteint.
H00 : T suit la loi N (2, 0.16) .
Le test sera cette fois unilatéral à gauche (rejet des valeurs trop faibles). Au seuil
α = 0.05, la règle de décision est :
Rejet de H00 ⇐⇒ T < l1 = QN (2,0.16) (0.05) = 1.342 .
On constate que l1 est inférieur à l0 . Ce test est donc différent du précédent. Selon la
valeur de T , les décisions peuvent coïncider ou non.
• Si T < l1 : acceptation de H0 et rejet de H00 , les décisions sont cohérentes.
• Si l1 < T < l0 : acceptation de H0 et de H00 , résultat non interprétable.
• Si T > l0 : rejet de H0 et acceptation de H00 , les décisions sont cohérentes.
3.2
3.2.1
Tests paramétriques classiques
Échantillons gaussiens
Les données observées sont modélisées par un échantillon de la loi normale N (µ, σ 2 )
dont l’espérance µ et la variance σ 2 sont a priori inconnues. Sous ces hypothèses, des
résultats théoriques précisent les lois des estimateurs naturels de µ et σ 2 que sont
la moyenne et la variance empiriques. Ce sont les mêmes que pour les intervalles de
confiance. Nous les rappelons.
Théorème 6. Soit (X1 , . . . , Xn ) un échantillon de la loi N (µ, σ 2 ). On note :
n
1X
Xi la moyenne empirique,
• X=
n i=1
n
1X
• S2 =
(Xi − X)2 la variance empirique.
n i=1
Alors r
:
n
1.
X − µ suit la loi normale N (0, 1).
σ2
s
n−1
2.
X − µ suit la loi de Student T (n−1).
S2
nS 2
3.
suit la loi du khi-deux X 2 (n−1).
σ2
Le point 1 permet de tester des hypothèses portant sur la valeur de µ, quand σ
est connu. C’est la situation typique du contrôle de qualité. Considérons une machine
destinée à la fabrication de comprimés devant peser 1 gramme. Aucun comprimé, s’il est
mesuré au microgramme près, ne pèse 1 gramme exactement. Les poids des comprimés
64
STA230
Cours de Statistique
UJF Grenoble
sont en moyenne de 1g, avec un écart-type lié aux caractéristiques de la machine,
qui est connu (par exemple σ = 0.01g). Le contrôle de qualité consistera à prélever
périodiquement un échantillon de comprimés dont on calcule le poids moyen pour tester
qu’il ne s’écarte pas trop de la valeur de référence. Par exemple, si sur un échantillon
de 10 comprimés
on observe un poids moyen de 0.995, la statistique de test prend la
√
valeur 10(0.995 − 1)/0.01 = −1.581, dont la p-valeur par rapport à la loi normale
N (0, 1) est :
FN (0,1) (−1.581) = 0.0569 .
Si la variance est inconnue, on peut utiliser le point 2 de la même manière. Reprenons
les mêmes données en supposant
que l’écart-type de 0.01 a été observé. La statistique
√
de test prend la valeur 9(0.995 − 1)/0.01 = −1.5, dont la p-valeur par rapport à la
loi de Student T (9) est :
FT (9) (−1.5) = 0.0839 .
On peut utiliser le point 3 pour tester la valeur de l’écart-type. Toujours sur un échantillon de 10 comprimés, supposons qu’on ait observé un écart-type de 0.013. On souhaite
tester si cette valeur est significativement trop grande par rapport à la valeur de référence σ = 0.01. La statistique de test prend la valeur 10(1.3)2 = 16.9. Pour la loi de
khi-deux X 2 (9), la p-valeur correspondante est :
1 − FX 2 (9) (16.9) = 0.0503 .
3.2.2
Test sur la moyenne d’un grand échantillon
Dans le cas d’un échantillon de grande taille, le théorème central limite permet
d’affirmer que la moyenne empirique suit approximativement une loi normale, sans
qu’il y ait besoin de supposer que l’échantillon est gaussien.
Théorème 7. Soit (X1 , . . . , Xn ) un échantillon d’une loi de probabilité quelconque,
d’espérance µ et de variance σ 2 finies. On note :
n
1X
Xi la moyenne empirique,
• X=
n i=1
n
1X
• S2 =
(Xi − X)2 la variance empirique.
n i=1
Quand n tend vers l’infini, la loi de la variable aléatoire :
√ X −µ
n √
S2
converge vers la loi normale N (0, 1).
On utilise ce résultat pour tester les valeurs de l’espérance, exactement comme pour
un échantillon gaussien.
65
STA230
Cours de Statistique
UJF Grenoble
Considérons par exemple des durées de vie de composants électroniques. En général, elles ont des distributions très dissymétriques, et leurs histogrammes sont loin
de ressembler à une courbe en cloche : on ne peut pas considérer qu’elles suivent des
lois normales. Imaginons que le constructeur garantisse une durée de vie moyenne de
1000 heures. Un organisme indépendant doit valider cette affirmation. Cet organisme
observe la durée de vie de 200 composants, et calcule une durée de vie moyenne de
943 heures, avec un écart-type de 267 heures. Est-ce suffisant pour mettre en doute la
parole du constructeur ?
Avec n = 200, X1 , . . . , Xn sont les durées de vie des n composants, X prend la
valeur 943 et S 2 (la variance empirique) prend la valeur 2672 . Sous l’hypothèse H0 (le
point de vue du constructeur), l’espérance des Xi est µ = 1000. La valeur prise par la
variable centrée réduite est :
√
943 − 1000
200
= −3.019 ,
267
et la p-valeur pour le test unilatéral à gauche (rejet des valeurs trop faibles) est
F (−3.019) = 0.0013 : c’est une mauvaise nouvelle pour le constructeur !
3.2.3
Test sur la valeur d’un quantile
Ici, le modèle de base est celui d’un échantillon d’une loi inconnue P . Les n données
sont donc supposées être des réalisations de variables aléatoires indépendantes, de même
loi P . Dans un premier temps, l’hypothèse H0 portera sur la valeur d’un quantile de
P.
Prenons le cas d’un traitement censé faire baisser le taux de cholestérol. Pour chaque
individu i d’un groupe de patients, la différence Xi entre le taux après et avant traitement est mesurée. Certaines de ces différences sont négatives (diminutions), d’autres
positives (augmentations). L’hypothèse H0 est que le traitement n’a pas d’effet significatif. On rejettera H0 (on décidera que le traitement est efficace) si suffisamment de
baisses ont été observées. Si H0 est vraie, la médiane de la loi P des Xi est nulle. En
effet, si le médicament n’a aucun effet, il y a autant de chances d’observer une hausse
qu’une baisse, et la différence est donc positive ou négative avec probabilité 1/2.
Prenons pour statistique de test le nombre de baisses :
T =
n
X
I(−∞,0] (Xi ) ,
i=1
La notation IA (x) désignant la fonction indicatrice de l’ensemble A, qui vaut 1 si x ∈ A
et 0 sinon. et T suit la loi binomiale B(n, 0.5).
Nous généralisons la situation à la valeur d’un quantile quelconque.
Proposition 12. Soit (X1 , . . . , Xn ) un échantillon de la loi P , de fonction quantile Q.
Soit u ∈]0, 1[ un réel fixé. Considérons l’hypothèse nulle :
H0 : Q(u) = q0 ,
66
Cours de Statistique
STA230
UJF Grenoble
où q0 est un réel fixé. Soit T le nombre d’éléments de l’échantillon inférieurs à q0 :
T =
n
X
I(−∞,q0 ] (Xi ) .
i=1
Sous l’hypothèse H0 , T suit la loi binomiale B(n, u).
Le cas particulier où u = 0.5 et q0 = 0, présenté en exemple ci-dessus, porte le nom
de test des signes. Supposons que sur 46 individus on ait observé 29 baisses du taux de
cholestérol. La p-valeur correspondante est :
p(29) = 1 − FB(46,0.5) (28) = 0.0519 .
Pour un échantillon de grande taille, on peut remplacer la loi binomiale par son
approximation normale. Sous H0 , la statistique centrée réduite :
T − nu
,
T0 = q
nu(1−u)
suit la loi normale N (0, 1). Dans l’exemple ci-dessus, T 0 prend la valeur 1.7693. La
p-valeur correspondante est :
1 − FN (0,1) (1.7693) = 0.0384 .
3.2.4
Échantillons appariés
Dans le même type de situation que celle du paragraphe précédent, on peut se poser
la question de la variation en moyenne d’un même caractère, sur les mêmes individus,
avant et après traitement. Par exemple, on a mesuré le taux de cholestérol avant et
après administration d’un nouveau médicament à 46 individus. Au lieu de se contenter
de compter le nombre de baisses, comme dans le paragraphe précédent, on recueille les
46 valeurs des différences, ce qui est une information plus précise. L’hypothèse nulle
(le traitement n’a pas d’effet), entraîne que les valeurs avant et après traitement ont
la même distribution, donc leurs espérances sont égales ou bien encore la diffërence
est d’espérance nulle. Nous disposons donc d’un échantillon de valeurs d’une variable
aléatoire D (la différence “avant-après”), d’espérance µ inconnue, et nous voulons tester
l’hypothèse nulle “µ = 0”. Si l’échantillon est de petite taille, on le supposera gaussien
et on utilisera la loi de Student (point 2. du théorème 4). S’il est de taille suffisante,
on utilisera le théorème 7 pour se ramener à la loi normale.
Supposons que sur les 46 individus, on ait observé une différence moyenne des taux
de cholestérol de -12mg/dl, avec un écart-type de 20mg/dl. Si on suppose l’échantillon
gaussien et qu’on utilise la loi de Student,
√
X
n − 1√
S2
67
Cours de Statistique
STA230
UJF Grenoble
prend la valeur −4.0249, et la p-valeur correspondante est :
FT (45) (−4.0249) = 0.0001079 .
Si on utilise l’approximation normale,
√
X
n√
S2
prend la valeur −4.0694, et la p-valeur correspondante est :
FN (0,1) (−4.0249) = 0.0000024 .
Quelle que soit la manière de calculer, nous conclurons que la baisse est significative.
3.3
3.3.1
Comparaison d’échantillons indépendants
Test de Fisher
Les tests de Fisher et Student servent à comparer les moyennes et les variances de
deux échantillons, supposés gaussiens et indépendants. Prenons l’exemple d’un traitement destiné à diminuer le taux de cholestérol. Des taux sont mesurés sur une population témoin sans traitement, puis sur des individus ayant reçu un traitement. Le taux
moyen avec traitement est inférieur (du moins l’espère-t-on) au taux moyen du groupe
témoin. La question est de savoir si la différence observée est suffisante pour rejeter
l’hypothèse H0 que le traitement n’a pas d’effet.
Pour le modèle probabiliste, on considère deux échantillons indépendants :
• (X1 , . . . , Xnx ) est un échantillon de la loi N (µx , σx2 ),
• (Y1 , . . . , Yny ) est un échantillon de la loi N (µy , σy2 ).
On note :
ny
nx
1 X
1 X
Yj les moyennes empiriques,
Xi et Y =
• X=
nx i=1
ny j=1
ny
nx
1 X
1 X
(Xi − X)2 et Sy2 =
(Yj − Y )2 les variances empiriques.
• Sx2 =
nx i=1
ny j=1
Le résultat théorique permettant de comparer les moyennes empiriques suppose que
l’on fasse l’hypothèse que les variances théoriques σx2 et σy2 sont égales. Le but du test
de Fisher est de tester cette hypothèse :
H0 : σx2 = σy2 .
Dans un échantillon gaussien, le rapport de la variance empirique à la variance théorique, multiplié par la taille de l’échantillon, suit une loi du khi-deux. Le rapport
pondéré de deux variables aléatoires suivant des lois du khi-deux indépendantes suit
une loi de Fisher.
68
Cours de Statistique
STA230
UJF Grenoble
Théorème 8. Le rapport :
nx Sx2
nx − 1 σx2
ny Sy2
ny − 1 σy2
suit la loi de Fisher F(nx −1, ny −1).
La statistique du test de Fisher est :
T =
nx
S2
nx −1 x
ny
S2
ny −1 y
.
Si H0 est exacte, T suit la loi F(nx −1, ny −1). On rejettera H0 si la valeur observée
pour T est trop grande ou trop petite. C’est donc un test bilatéral dont la règle de
rejet au seuil α est :
Rejet de H0 ⇐⇒ T ∈
/ [ QF (nx −1,ny −1) (α/2) , QF (nx −1,ny −1) (1 − α/2) ] .
Supposons que sur les 30 patients du groupe témoin on ait observé un taux de cholestérol moyen de 240mg/dl avec un écart-type de 40mg/dl. Sur les 20 patients du groupe
traité, on a observé un taux moyen de 210mg/dl avec un écart-type de 50mg/dl. La
statistique du test de Fisher prend la valeur 0.629, qui correspond à une p-valeur (pour
le test bilatéral) de :
2FF (29,19) (0.629) = 0.2538 .
On acceptera donc l’hypothèse d’égalité des variances.
3.3.2
Test de Student
Sous l’hypothèse d’égalité des variances, le théorème suivant permet d’évaluer les
différences entre moyennes empiriques.
Théorème 9. Si σx = σy , la variable aléatoire :
√
nx + ny − 2 (X − Y ) − (µx − µy )
q
1
nx
+
q
1
ny
nx Sx2 + ny Sy2
suit la loi de Student T (nx + ny − 2).
Ce résultat permet de tester l’hypothèse :
H0 : µx = µy ,
en comparant la valeur prise par la statistique :
√
nx + ny − 2 (X − Y )
q
1
nx
+
1
ny
q
nx Sx2 + ny Sy2
69
,
,
Cours de Statistique
STA230
UJF Grenoble
aux quantiles de la loi de Student T (nx + ny − 2). Cette procédure porte le nom de test
de Student.
Supposons encore que sur les 30 patients du groupe témoin on ait observé un taux
de cholestérol moyen de 240mg/dl avec un écart-type de 40mg/dl. Sur les 20 patients
du groupe traité, on a observé un taux moyen de 210mg/dl avec un écart-type de
50mg/dl. Nous avons vu que le test de Fisher permet d’accepter l’hypothèse d’égalité
des variances. La statistique du test de Student prend la valeur 2.30, soit une p-valeur
de :
1 − FT (48) (2.30) = 0.0129 .
On rejette H0 au seuil α = 0.05, la baisse est déclarée significative.
3.3.3
Normalité asymptotique
L’hypothèse de normalité, sous laquelle les tests de Fisher et Student sont valides
n’est pas toujours vérifiée. Pour des échantillons de grande taille, le théorème central
limite assure la normalité asymptotique des moyennes empiriques. Le résultat suivant
ne suppose ni que les échantillons sont gaussiens ni que leurs variances sont égales.
Théorème 10. Quand nx et ny tendent vers l’infini, la loi de la variable aléatoire :
(X − Y ) − (µx − µy )
r
Sx2
nx
+
Sy2
ny
,
converge vers la loi normale N (0, 1).
Reprenons les données de l’exemple précédent. La statistique :
X −Y
r
Sx2
nx
+
Sy2
ny
,
prend la valeur 2.246, dont la p-valeur par rapport à la loi N (0, 1) est :
1 − FN (0,1) (2.246) = 0.0123 .
En pratique, il est prodent de réserver l’approximation normale aux valeurs de nx et
ny au moins égales à 100.
3.4
3.4.1
Test d’ajustement
Distance du khi-deux
Le test du khi-deux concerne uniquement les lois discrètes, mais on peut l’utiliser
aussi pour des échantillons continus regroupés en classes. Le modèle de base est toujours
70
STA230
Cours de Statistique
UJF Grenoble
un échantillon (X1 , . . . , Xn ) d’une loi inconnue. Les classes, notées c1 , . . . , cr , sont une
partition de l’ensemble des valeurs possibles. L’hypothèse à tester porte sur les probabilités des classes, pour lesquelles on se donne des valeurs théoriques P0 (c1 ) . . . , P0 (cr ).
H0 : P[Xi ∈ ck ] = P0 (ck ) , ∀k = 1, . . . , r .
Sous l’hypothèse H0 , la distribution empirique de l’échantillon sur les classes doit être
proche de la distribution théorique. La distribution empirique est celle des fréquences
de l’échantillon dans les classes :
Pb (c
n
1X
Ic (Xi ) .
k) =
n i=1 k
On mesure l’adéquation de la distribution empirique à la distribution théorique par la
distance du khi-deux.
Définition 32. On appelle distance du khi-deux de Pb par rapport à P0 , et on note
Dχ2 (P0 , Pb ), la quantité :
Dχ2 (P0 , Pb ) =
r
X
(P0 (ch ) − Pb (ch ))2
.
P0 (ch )
h=1
La “distance” du khi-deux est donc une moyenne pondérée d’écarts quadratiques
entre les valeurs de P0 et Pb . Ce n’est pas une distance au sens usuel du terme, puisqu’elle
n’est même pas symétrique.
La loi de probabilité de Dχ2 (P0 , Pb ) n’a pas d’expression explicite en général. On
utilise le résultat suivant.
Théorème 11. Sous l’hypothèse H0 , la loi de la variable aléatoire
nDχ2 (P0 , Pb ) converge quand n tend vers l’infini, vers la loi du khi-deux de paramètre
r−1.
Si l’hypothèse H0 est fausse, alors la variable nDχ2 (P0 , Pb ) tend vers l’infini. C’est
donc un test unilatéral à droite que l’on appliquera (rejet des trop grandes valeurs).
En pratique, la statistique du test du khi-deux se calcule sous la forme suivante :
T = nDχ2 =
r
X
(nth (ch ) − nob (ch ))2
,
nth (ch )
h=1
où :
• nth (ch ) est l’effectif théorique de la classe ch , à savoir le produit nP0 (Ch ),
• nob (ch ) est l’effectif observé de la classe ch .
71
Cours de Statistique
STA230
UJF Grenoble
L’exemple classique d’application du test est l’expérience de Mendel. Chez les pois,
le caractère couleur est codé par un gène présentant deux formes allèles C et c, correspondant aux couleurs jaune et vert. Le jaune est dominant, le vert récessif. La forme,
rond ou ridé, est portée par un autre gène à deux allèles R (dominant) et r (récessif).
Si on croise deux individus dont le génotype est CcRr, on peut obtenir 16 génotypes
équiprobables. Les descendants seront jaunes et ronds dans 9 cas sur 16, jaunes et ridés
dans 3 cas sur 16, verts et ronds dans 3 cas sur 16, verts et ridés dans 1 cas sur 16.
Dans ses expériences, Mendel a obtenu les résultats suivants.
Jaune
Rond
Effectif
315
b
0.567
P (ch )
P0 (ch )
9/16
Jaune
Ridé
101
0.182
3/16
Vert Vert
Rond Ridé
108
32
0.194 0.058
3/16 1/16
La valeur prise par la statistique nDχ2 est 0.47. D’après le théorème 11, la région de
rejet doit être calculée par référence à la loi de khi-deux X 2 (3). Par exemple, au seuil
0.05, on devrait rejeter les valeurs supérieures à QX 2 (3) (0.95) = 7.81. La p-valeur de
0.47 est 1 − FX 2 (3) (0.47) = 0.925. Le résultat est donc tout à fait compatible avec H0 ,
et même un peu trop : nombreux sont ceux qui pensent que Mendel a pu arranger les
résultats pour qu’ils coïncident aussi bien avec sa théorie !
L’exemple suivant concerne 10000 familles de 4 enfants pour lesquelles on connaît
le nombre de garçons, entre 0 et 4. Le modèle le plus simple qu’on puisse proposer est
que les naissances sont indépendantes, les deux sexes étant équiprobables. L’hypothèse
nulle est donc que la loi du nombre de garçons pour une famille de 4 enfants suit la loi
binomiale B(4, 0.5). Les fréquences observées et théoriques sont les suivantes.
Garçons
0
b
P (ch )
0.0572
P0 (ch )
1/16
1
0.2329
4/16
2
0.3758
6/16
3
0.2632
4/16
4
0.0709
1/16
La valeur prise par la statistique nDχ2 (P0 , Pb ) est 34.47. D’après le théorème 11, la
région de rejet doit être calculée par référence à la loi de khi-deux de paramètre 5−1 = 4.
Par exemple, au seuil 0.05, on devrait rejeter les valeurs supérieures à QX 2 (4) (0.95) =
9.49. La p-valeur de 34.47 est 1 − FX 2 (4) (34.47) = 5.97 10−7 . On peut donc rejeter
l’hypothèse H0 .
3.4.2
Pratique du test
Le théorème 11 n’est qu’un résultat asymptotique. On ne peut l’utiliser que pour des
tailles d’échantillons au moins de l’ordre de la centaine. De plus l’approximation qu’il
décrit est d’autant moins bonne que les probabilités des classes sont faibles. Comme
règle empirique, on impose parfois que l’effectif théorique nP (ck ) de chaque classe soit
72
STA230
Cours de Statistique
UJF Grenoble
au moins égal à 8. Pour atteindre cet objectif, on peut être amené à effectuer des
regroupements de classes, consistant à former une nouvelle classe par la réunion de
plusieurs anciennes. Les fréquences empiriques et les probabilités théoriques s’ajoutent
alors.
Le test du khi-deux est souvent utilisé pour tester l’ajustement à une famille particulière dépendant d’un ou plusieurs paramètres. Dans ce cas, on est amené à estimer le
paramètre à partir des données. Le théorème 11 n’est alors plus tout à fait valable. Si
on a estimé h paramètres par la méthode du maximum de vraisemblance, à partir des
fréquences des différentes classes, on doit remplacer la loi X 2 (r−1) par la loi X 2 (r−1−h).
Reprenons l’exemple du nombre de garçons dans les familles de 4 enfants, mais pour
tester cette fois-ci l’hypothèse nulle :
H0 : le nombre de garçons suit une loi binomiale B(4, p) .
Le paramètre p est inconnu et doit être estimé. L’estimateur du maximum de vraisemblance (qui maximise la probabilité des données observées) est ici le nombre total de
garçons parmi les 40000 enfants. On trouve :
pb = 0.5144 .
On applique alors le test, mais avec une distribution théorique calculée en tenant
b
compte de la valeur estimée du paramètre : la loi B(4, p).
Garçons
0
Pb (ch )
0.0572
P0 (ch )
0.0556
1
0.2329
0.2356
2
0.3758
0.3744
3
0.2632
0.2644
4
0.0709
0.0700
La valeur prise par la statistique nDχ2 est maintenant 0.9883. Elle doit être comparée
aux valeurs de la loi du khi-deux de paramètre 5 − 1 − 1 = 3. La p-valeur de 0.9883 est
1 − FX 2 (3) (0.9883) = 0.8041, ce qui montre que le résultat est tout à fait compatible
avec l’hypothèse H0 .
En comparant les résultats des deux tests précédents, on peut accepter l’idée que
les naissances sont indépendantes, mais la proportion de garçons est significativement
supérieure à 0.5.
On est souvent amené à estimer des paramètres à partir des données non groupées, ou
par une autre méthode que le maximum de vraisemblance. Dans ce cas, on ne dispose
pas de résultat théorique clair. La valeur limite à partir de laquelle on devra rejeter
l’hypothèse H0 au seuil α est comprise entre QX 2 (r−1−h) (1 − α) et QX 2 (r−1) (1 − α). En
pratique, après avoir calculé la valeur t prise par nDχ2 (P0 , Pb ) en tenant compte de h
paramètres estimés, une attitude prudente consistera à :
• rejeter H0 si t > QX 2 (r−1) (1 − α) ,
• ne pas rejeter H0 si t < QX 2 (r−1−h) (1 − α) ,
• ne pas conclure si QX 2 (r−1−h) (1 − α) < t < QX 2 (r−1) (1 − α) .
73
Cours de Statistique
STA230
3.5
Test d’indépendance
3.5.1
Tableau de contingence
UJF Grenoble
Le tableau de contingence est un moyen particulier de représenter simultanément
deux caractères observés sur une même population, s’ils sont discrets ou bien continus
et regroupés en classes. Les deux caractères sont x et y, la taille de l’échantillon est n.
Les modalités ou classes de x seront notées c1 , . . . , cr , celles de y sont notées d1 , . . . , ds .
On note :
• nhk l’effectif conjoint de ch et dk : c’est le nombre d’individus pour lesquels x
prend la valeur ch et y la valeur dk ,
P
• nh• = sk=1 nhk l’effectif marginal de ch : c’est le nombre d’individus pour lesquels
x prend la valeur ch ,
P
• n•k = rh=1 nhk l’effectif marginal de dk : c’est le nombre d’individus pour lesquels
y prend la valeur dk .
On représente ces valeurs dans un tableau à double entrée, dit tableau de contingence :
x\y
c1
..
.
d1 . . . dk . . . ds
n11 . . . n1k . . . n1s
..
..
..
.
.
.
ch
nh1 . . . nhk . . . nhs
..
..
..
..
.
.
.
.
cr
nr1 . . . nrk . . . nrs
total n•1 . . . n•k . . . n•s
total
n1•
..
.
nh•
..
.
nr•
n
Chaque ligne et chaque colonne correspond à un sous-échantillon particulier. La ligne
d’indice h est la répartition sur d1 , . . . , ds , des individus pour lesquels le caractère x
prend la valeur ch . La colonne d’indice k est la répartition sur c1 , . . . , cr , des individus
pour lesquels le caractère y prend la valeur dk . En divisant les lignes et les colonnes
par leurs sommes, on obtient sur chacune des distributions empiriques constituées de
fréquences conditionnelles. Pour h = 1, . . . , r et k = 1, . . . , s, on les notera :
fk|h =
nhk
nh•
et fh|k =
nhk
.
n•k
Ces distributions empiriques conditionnelles s’appellent les profils-lignes et profilscolonnes.
Voici un exemple : les données proviennent de 137 patients atteints de cirrhose.
A certaiens d’entre eux est administré un certain traitement, pendant que les autres
reçoivent un placebo. Les stades d’évolution de la maladie sont codés de 1 à 3. Le
caractère X est le traitement, à deux modalités c1 (placebo) et c2 (traitement). Le
caractère Y est le stade d’évolution, d1 = 1 ou d2 = 2 ou d3 = 3. Voici la table de
74
Cours de Statistique
STA230
UJF Grenoble
contingence observée.
Stade
1 2 3 Total
placebo
13 29 26 68
traitement 16 37 16 69
Total
29 66 42 137
L’enjeu principal est d’étudier la dépendance des deux caractères. Dans notre exemple,
on souhaiterait savoir si les patients sous traitement sont dans des stades moins avancés
de la maladie. Voici les deux profils-lignes.
Stade
1
2
3
Total
placebo
0.191 0.426 0.382
1
traitement 0.232 0.536 0.232
1
Total
0.212 0.482 0.306
1
Effectivement, la proportion de patients dans le stade 3 est moins forte parmi les
patients sous traitement. Mais est-ce significatif ?
3.5.2
Khi-deux de contingence
Deux caractères sont indépendants si la valeur de l’un n’influe pas sur les distributions des valeurs de l’autre. Si c’est le cas, les profils-lignes seront tous peu différents
de la distribution empirique de y, et les profils-colonnes de celle de x :
nhk
n•k
nh•
nhk
et fh|k =
.
≈ f•k =
≈ fh• =
fk|h =
nh•
n
n•k
n
C’est équivalent à dire que les fréquences conjointes doivent être proches des produits
de fréquences marginales :
nh• n•k
nhk
fhk =
≈ fh• f•k =
.
n
n n
Les fréquences conjointes d’une part, et les produits de fréquences marginales d’autre
part, constituent deux distributions de probabilité sur l’ensemble produit {c1 , . . . , cr }×
{d1 , . . . , ds }. Un des moyens de quantifier leur proximité est de calculer la distance du
khi-deux de l’une par rapport à l’autre. Dans ce cas particulier, on parle de khi-deux
de contingence.
Proposition 13. La distance du khi-deux de contingence de la distribution empirique
(fhk ) à la distribution théorique (fh• f•k ) vaut :
D χ2 =
r X
s
X
(fhk − fh• f•k )2
fh• f•k
h=1 k=1
= −1 +
r X
s
X
n2hk
.
h=1 k=1 nh• n•k
75
Cours de Statistique
STA230
UJF Grenoble
Démonstration : La première expression est l’application directe de la définition 32.
Pour passer à la seconde, on développe le carré.
D
χ2
r X
s
X
r X
s
r X
s
2
X
X
fhk
=
−2
fhk +
fh• f•k
h=1 k=1 fh• f•k
h=1 k=1
h=1 k=1
=
r X
s
X
2
fhk
−2 +1
h=1 k=1 fh• f•k
= −1 +
r X
s
X
n2hk
.
h=1 k=1 nh• n•k
La distance du khi-deux vaut 0 si les deux caractères sont indépendants. Elle est
maximale s’il existe une dépendance systématique. Supposons r = s et y = f (x), pour
une certaine fonction bijective f . Sur chaque ligne et chaque colonne du tableau de
contingence, une seule case est non nulle et la distance du khi-deux vaut (r−1).
Voici le calcul pour l’exemple du paragraphe précédent.
Dχ2 = −1 +
132
292
262
162
372
162
+
+
+
+
+
= 0.02667 .
29 × 68 66 × 68 42 × 68 29 × 69 66 × 69 42 × 69
D’après ce qui a été dit précédemment, pour n assez grand, on peut approcher la loi
de nDχ2 par une loi du khi-deux, dont le paramètre est le nombre de classes moins 1,
diminué du nombre de paramètres estimés à partir des données groupées en classes. Ici,
ce sont les fréquences marginales qui ont été estimées. Il y en a r−1 pour le caractère
X, et s − 1 pour le caractère Y (la dernière est le complément à 1 de la somme des
autres). Le paramètre de la loi du khi-deux sera donc :
rs − 1 − (r − 1) − (s − 1) = (r − 1)(s − 1) .
Dans l’exemple des patients atteints de cirrhose, nous avons trouvé une valeur de la
distance du khi-deux de 0.02667, pour une table à r = 2 lignes et s = 3 colonnes.
La statistique de test, nDχ2 prend la valeur 3.654, à comparer à la loi du khi-deux
à (3 − 1) × (2 − 1) = 2 degrés de liberté. La p-valeur correspondante est de 0.161 :
insuffisant pour rejeter l’hypothèse d’indépendance.
Voici un nouvel exemple. Il s’agit de deux caractères binaires, concernant des malades, pour lesquels on a observé s’il ont ou non une tendance suicidaire (caractère
X). Leurs maladies ont été classées en “psychoses” et “névroses” (caractère Y). On
souhaite savoir s’il y a une dépendance entre les tendances suicidaires et le classement
des malades. Supposons que la table de contingence observée soit :
psychoses
névroses
total
tendance sans tendance
20
180
60
140
80
320
76
total
200
200
400
STA230
Cours de Statistique
UJF Grenoble
La distance du khi-deux de contingence, calculée à partir de cette table est 0.0625. La
valeur prise par la statistique nDX 2 est 25, que l’on doit comparer à la loi X 2 (1). La
p-valeur est de :
1 − FX 2 (1) (25) = 5.733 10−7 .
On rejette donc l’hypothèse nulle, et on conclut qu’il y a une dépendance entre la
tendance suicidaire et la classification des maladies.
Le test ne précise pas le sens de cette dépendance. Pour la décrire, il faut comparer
les proportions de suicidaires parmi les névrosés (60/200) et parmi les psychotiques
(20/200).
77
STA230
4
Cours de Statistique
UJF Grenoble
Régression linéaire
Ce chapitre porte sur les relations entre deux caractères statistiques, observés sur
une même population. La droite de regression met en relief une relation linéaire entre
les deux caractères. Dans le cas d’échantillons gaussiens, des résultats théoriques permettent de déterminer les intervalles de confiance des différents paramètres d’une régression. Ils permettent aussi d’établir des intervalles de prédiction, ainsi que de tester
le fait qu’une corrélation existe effectivement entre les caractères.
4.1
4.1.1
Régression linéaire simple
Représentations graphiques
Il est fréquent que plusieurs caractères soient observés sur la même population. Dans
une enquête d’opinion, les personnes sondées peuvent avoir à répondre simultanément
à plusieurs dizaines de questions. Sur un échantillon sanguin, on mesure couramment
une dizaine de variables (numérations globulaires, taux de cholestérol,. . . ). Une étude
descriptive de chaque caractère pris séparément permet de résumer les caractéristiques
de leurs distributions empiriques. Pour concentrer sur un même graphique l’ensemble
des distributions empiriques, on peut tracer parallèlement le diagramme en boîte de
chacun des caractères. Mais étudier les caractères séparément ne fournit aucune indication sur leurs relations éventuelles : on oublie que les échantillons ont été recueillis sur
les mêmes individus. Le problème consiste donc à étudier simultanément les caractères
sans perdre l’information qu’ils ont été observés sur les mêmes individus.
Si plusieurs caractères x, y, z, . . . ont été mesurés sur une même population, on peut
voir les données xi , yi , zi , . . . correspondant à un individu i comme les coordonnées d’un
point dans Rd , où d est le nombre de caractères. L’ensemble de ces points constitue un
“nuage de points” dans Rd . Pour d = 2 ou d = 3, on peut représenter graphiquement
ce nuage de points (figure 13). Au-delà c’est impossible et on est obligé de le projeter
sur des sous-espaces de dimension 2 ou 3. Les différentes techniques de projection sont
l’objet de l’“analyse multidimensionnelle de données” (analyse discriminante, analyse
en composantes principales, analyse factorielle des correspondances, etc. . . ).
Dans le cas où 2 caractères quantitatifs x et y sont observés, on peut regrouper
leurs valeurs en classes et représenter en perspective un histogramme bidimensionnel :
l’ensemble des couples de valeurs est partitionné en rectangles au-dessus desquels on
représente un parallélépipède dont le volume est la fréquence empirique du rectangle,
à savoir le nombre de couples (xi , yi ) qui appartiennent au rectangle, divisé par la
taille de l’échantillon. Si l’un des caractères est qualitatif, par exemple x, tracer un
histogramme bidimensionnel n’a pas vraiment de sens. On préfère souvent superposer
des histogrammes unidimensionnels des valeurs de y, pour chacune des modalités de
x. Si x est binaire et y continu, par exemple x est le sexe et y est l’âge, on représente
souvent le caractère quantitatif en ordonnée et on trace deux histogrammes horizontaux
en vis à vis, obtenant ainsi une “pyramide des âges”.
78
Cours de Statistique
STA230
30
Poids
+
28
+
+
++
+
24
+
+++
+
+
+
+++
+
+
+
++
+
+
+
+
+
20
+
++
+
+
+
+
+++
+
+
+
+
+
+
+
+
22
16
+
+
++
+
+
26
18
UJF Grenoble
++
+
+
+
+
+
+
+
+
+
+
+
+
++
+
+ +
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
14
12
Tailles
10
100 102 104 106 108 110 112 114 116 118 120 122 124 126 128 130
Fig. 13 – Nuage de points : tailles et poids d’enfants de 6 ans.
4.1.2
Covariance
Soient x et y deux caractères quantitatifs mesurés sur n individus, on peut considérer l’échantillon bidimensionnel comme un nuage de n points dans R2 . Rappelons la
définition des moyennes empiriques :
1
1
x = (x1 + · · · + xn ) et y = (y1 + · · · + yn ) ,
n
n
et des variances empiriques :
1
1
s2x = (x21 + · · · + x2n ) − x2 et s2y = (y12 + · · · + yn2 ) − y 2 .
n
n
Différentes caractéristiques statistiques permettent de résumer l’information contenue
dans la forme du nuage de points. Si x et y désignent les moyennes empiriques des deux
caractères, le point (x, y) est le centre de gravité du nuage. Les variances empiriques s2x
et s2y traduisent la dispersion des abscisses et des ordonnées. Pour aller plus loin dans
la description, il faut calculer la covariance.
Définition 33. On appelle covariance empirique de x et y, et on note cxy , la quantité :
cxy =
n
1X
(xi − x)(yi − y) .
n i=1
Cette définition étend celle de la variance dans la mesure où s2x = cxx . La covariance
est symétrique (cxy = cyx ) et bilinéaire : si x et x0 sont deux échantillons de taille n, a
et a0 deux réels et x∗ = ax + a0 x0 , alors :
cx∗ y = acxy + a0 cx0 y .
Pour le calcul pratique, on utilise la formule suivante :
79
Cours de Statistique
STA230
UJF Grenoble
Proposition 14. La covariance de x et y s’écrit :
cxy
n
1X
=
xi y i − x y .
n i=1
La covariance est la moyenne des produits moins le produit des moyennes.
Démonstration : Il suffit de développer les produits :
cxy =
=
n
1X
(xi − x)(yi − y)
n i=1
n
1X
(xi yi − xyi − xi y + x y)
n i=1
=
n
1X
xi yi − x y .
n i=1
La covariance se compare au produit des écarts-types par l’inégalité de CauchySchwarz.
Proposition 15. On a :
|cxy | ≤ sx sy .
(1)
Démonstration : Choisissons une constante a quelconque et calculons la variance de
ax + y :
s2ax+y = a2 s2x + 2acxy + s2y .
Cette quantité est positive ou nulle pour tout a. Donc le discriminant de l’expression,
vue comme un trinôme en a, est nécessairement négatif. Il vaut :
c2xy − s2x s2y ,
d’où le résultat. Remarquons que le discriminant est nul si et seulement si s2ax+y peut
s’annuler, c’est-à-dire s’il existe a tel que ax + y soit constant. Donc l’inégalité 1 ne
peut être une égalité que s’il existe une relation affine entre x et y.
Au vu de l’inégalité 1, il est naturel de diviser la covariance par le produit des écartstypes, pour définir le coefficient de corrélation (les écart-types sont supposés non nuls).
Définition 34. On appelle coefficient de corrélation de x et y, et on note rxy , la
quantité :
cxy
.
rxy =
sx sy
80
STA230
Cours de Statistique
UJF Grenoble
Quels que soient l’unité et les ordres de grandeur de x et y, le coefficient de corrélation est un nombre sans unité, compris entre −1 et 1. Il traduit la plus ou moins
grande dépendance linéaire de x et y ou, géométriquement, le plus ou moins grand
aplatissement du nuage de points. Nous avons vu que l’inégalité 1 ne pouvait être une
égalité que si x est constant ou si y est de la forme ax + b. Si a est positif, le coefficient
de corrélation de x avec ax + b est égal à +1, il est égal à −1 si a est négatif. Un
coefficient de corrélation nul ou proche de 0 signifie qu’il n’y a pas de relation linéaire
entre les caractères. Mais il n’entraîne aucune notion d’indépendance plus générale.
Considérons par exemple les deux échantillons :
x = ( −3 −2 −1 0 1 2 3 )
y = ( 3 2 1 0 1 2 3 ).
Leur coefficient de corrélation est nul, et pourtant x et y sont liés par une relation
fonctionnelle (yi = |xi |).
Quand le coefficient de corrélation est proche de 1 ou −1, les caractères sont dits
“fortement corrélés”. Il faut prendre garde à la confusion fréquente entre corrélation et
causalité. Que deux phénomènes soient corrélés n’implique en aucune façon que l’un
soit cause de l’autre. Très souvent, une forte corrélation indique que les deux caractères
dépendent d’un troisième, qui n’a pas été mesuré. Ce troisième caractère est appelé “facteur de confusion”. Qu’il existe une corrélation forte entre le rendement des impôts en
Angleterre et la criminalité au Japon, indique que les deux sont liés à l’augmentation
globale de la population. Le prix du blé et la population des rongeurs sont négativement corrélés car les deux dépendent du niveau de la récolte de blé. Il arrive qu’une
forte corrélation traduise bien une vraie causalité, comme entre le nombre de cigarettes
fumées par jour et l’apparition d’un cancer du poumon. Mais ce n’est pas la statistique qui démontre la causalité, elle permet seulement de la détecter. L’influence de la
consommation de tabac sur l’apparition d’un cancer n’est scientifiquement démontrée
que dans la mesure où on a pu analyser les mécanismes physiologiques et biochimiques
qui font que les goudrons et la nicotine induisent des erreurs dans la reproduction du
code génétique des cellules.
4.1.3
Droite de régression linéaire
Dans un problème de régression, les caractères ne sont pas considérés de la même
façon. L’un d’eux est le caractère “à expliquer”, les autres sont “explicatifs”. Nous
considérons seulement le cas de deux caractères x (explicatif) et y (à expliquer). “Expliquer” signifie ici exprimer une dépendance fonctionnelle de y comme fonction de x,
de manière à prévoir la valeur de y connaissant celle de x. Si pour tout individu i,
yi = f (xi ), et si on observe une valeur xn+1 du caractère x sur un nouvel individu, on
donnera f (xn+1 ) comme prédiction du caractère y sur ce même individu. La situation
idéale où y = f (x) n’est jamais rencontrée en pratique. On cherchera plutôt, dans une
81
Cours de Statistique
STA230
UJF Grenoble
famille fixée de fonctions, celle pour laquelle les yi sont les plus proches des f (xi ). La
proximité se mesure en général par l’erreur quadratique moyenne :
EQ(f ) =
n
1X
(yi − f (xi ))2 .
n i=1
(2)
On parle alors de régression au sens des moindres carrés. Les différences entre les valeurs
observées yi et les valeurs prédites par le modèle f (xi ) s’appellent les résidus. Si le
modèle est ajusté de sorte que la série des résidus soit centrée (de moyenne nulle), alors
l’erreur quadratique EQ(f ) est la variance des résidus. La régression linéaire simple
consiste à chercher f parmi les applications affines. La solution s’exprime simplement
à l’aide des caractéristiques numériques de x et y.
Proposition 16. Soient x et y deux échantillons recueillis sur une même population
de taille n. Notons EQ(a, b) la fonction de R2 dans R+ définie par :
EQ(a, b) =
n
1X
(yi − axi − b)2 .
n i=1
Si s2x 6= 0 (le caractère x n’est pas constant), la fonction EQ(a, b) admet un minimum
pour :
cxy
ab = 2 et bb = y − abx .
sx
La valeur de ce minimum est :
2
EQ(ab, bb) = s2y (1 − rxy
).
Définition 35. On appelle droite de régression linéaire de y sur x la droite d’équation
y = abx + bb.
Démonstration : Si a est fixé, EQ(a, b) est un polynôme de degré 2 en b. Il atteint son
minimum pour b = b(a) tel que la dérivée s’annule. Soit :
n
2X
∂EQ(a, b)
(yi − axi − b) = −2(y − ax − b) = 0
=−
∂b
n i=1
On a donc b(a) = y − ax. Reportons cette valeur dans EQ(a, b) :
EQ(a, b(a)) =
n
1X
((yi − y) − a(xi − x))2 .
n i=1
Cette fonction est un polynôme de degré 2 en a, qui atteint son minimum au point ab
où sa dérivée s’annule, à savoir :
n
2X
−
(xi − x)((yi − y) − ab(xi − x)) = 0 ,
n i=1
82
Cours de Statistique
STA230
UJF Grenoble
soit en développant :
−2cxy + 2abs2x = 0 .
Posons donc :
ab =
cxy
s2x
et bb = b(ab) = y − abx .
On a bien pour tout (a, b) :
EQ(ab, bb) ≤ EQ(a, b(a)) ≤ EQ(a, b) .
La valeur du minimum est :
EQ(ab, bb) =
n
1X
cxy
((yi − y) − 2 (xi − x))2
n i=1
sx
c2xy c2xy 2
=
− 2 2 + 4 sx
sx
sx
2
c
= s2y − xy
s2x
2
= s2y (1 − rxy
).
s2y
Comme on pouvait s’y attendre l’erreur quadratique minimale est d’autant plus faible
que la corrélation est forte.
Il est important de noter la dissymétrie des rôles de x et y. Par rapport au nuage de
points, la droite de régression linéaire de y sur x minimise la somme des distances
verticales des points à la droite. La droite de régression linéaire de x sur y minimise la
somme des distances horizontales. Les deux droites se coupent au centre de gravité (x, y)
du nuage de points. L’écart entre les deux est d’autant plus grand que la corrélation
est faible.
La prédiction est la première application de la régression linéaire. Voici les tailles
en centimètres (échantillon x) et poids en kilogrammes (y) de 10 enfants de 6 ans.
Enfant 1
Taille 121
Poids
25
2
123
22
3
108
19
4
118
24
5
111
19
6
109
18
7
114
20
8
103
15
9
10
110 115
20 21
Les caractéristiques numériques prennent les valeurs suivantes :
b
x
y
s2x
s2y rxy
ab
b
EQ(ab, bb)
113.2 20.3 34.76 7.61 0.9 0.42 −27.38
1.44
Effectuer une régression linéaire signifie que l’on pense que le poids doit croître
en gros proportionnellement à la taille. La droite de régression linéaire constitue un
modèle de prédiction. Par exemple, on affirmera que le poids moyen d’un enfant de 6
83
Cours de Statistique
STA230
30
UJF Grenoble
Poids
28
26
+
+
24
+
22
+
+
20
+
+
18
16
+
+
+
14
12
Tailles
10
100 102 104 106 108 110 112 114 116 118 120 122 124 126 128 130
Fig. 14 – Tailles et poids d’enfants de 6 ans : droite de régression linéaire.
ans mesurant 120 centimètres sera de ab120+ bb = 23.16 kg. Evidemment cette prédiction
n’est pas infaillible. Elle donne un ordre de grandeur.qLa valeur observée s’en écartera
probablement et l’erreur prévisible sera de l’ordre de EQ(ab, bb) = 1.2 kg. Nous verrons
plus loin comment quantifier cette erreur, par la notion d’intervalle de prédiction.
Comme seconde application, on peut étendre l’ajustement par quantiles à des familles de lois invariantes par transformation affine, comme les lois normales. Soit y un
échantillon continu de taille n dont on souhaite vérifier qu’il pourrait être issu d’une
loi normale N (µ, σ 2 ), les paramètres µ et σ 2 étant inconnus. Pour i = 1, . . . , n, notons y(i) les statistiques d’ordre (valeurs ordonnées des observations). Si l’hypothèse
de normalité est pertinente, alors y(i) doit être proche du quantile QN (µ,σ2 ) (i/n) de
la loi N (µ, σ 2 ). Rappelons que si une variable aléatoire X suit la loi N (0, 1), alors
Y = σX + µ suit la loi N (µ, σ 2 ). Ceci revient à dire que pour tout u ∈ [0, 1] :
QN (µ,σ2 ) (u) = σQN (0,1) (u) + µ .
Notons xi = QN (0,1) (i/n) les valeurs de la fonction quantile de la loi N (0, 1) aux
points i/n. Si l’hypothèse de normalité est vérifiée, les points de coordonnées (xi , y(i) )
devraient être proches de la droite d’équation y = σx + µ. Une régression linéaire
des y(i) sur les xi fournit à la fois une estimation de σ et µ et une indication sur la
qualité de l’ajustement. Avant les logiciels de calcul, on vendait du papier “gaussoarithmétique”, gradué en abscisses selon les quantiles de la loi N (0, 1). Il suffisait de
reporter en ordonnée les valeurs des y(i) pour tracer à la main la droite de régression
linéaire, qui porte le nom de “droite de Henry”, du nom du colonel qui a inventé cette
méthode au siècle dernier pour étudier la portée des canons (figure 15).
Le problème de la régression est de déterminer dans une famille de fonctions donnée,
84
Cours de Statistique
STA230
130
UJF Grenoble
Tailles
+
128
+
126
+
124
++ + + +
++
+++
+++++++
+++++++
+++
++++++++++
+++++++++++
++++++
++++++++++
+++++
++++++
++++
+++++
++
+++
122
120
118
116
114
112
110
108
+ + ++
106
+
104
102
+
Quantiles
+
100
-3.0 -2.6 -2.2 -1.8 -1.4 -1.0 -0.6 -0.2 0.2 0.6 1.0 1.4 1.8 2.2 2.6 3.0
Fig. 15 – Tailles d’enfants de 6 ans. Quantiles de la loi normale N (0, 1) et statistiques
d’ordre. Superposition de la droite de Henry.
quelle est la fonction qui minimise l’erreur quadratique (2). Or il est fréquent qu’il
n’y ait pas de solution explicite. Pour certaines familles de fonctions, on transforme le
problème de manière à se ramener à une régression linéaire. Voici quelques cas fréquents.
Fonctions
y = aebx
y = axb
y = a + b/x
y = 1/(1 + e−(ax+b) )
4.2
4.2.1
Transformation
y 0 = log(y)
0
y = log(y) x0 = log(x)
x0 = 1/x
y 0 = log(y/(1−y))
Forme affine
y = log(a) + bx
y 0 = log(a) + bx0
y = a + bx0
y 0 = ax + b
0
Modèle linéaire
Intervalles de confiance et de prédiction
Les échantillons gaussiens sont souvent utilisés pour modéliser les erreurs dans
les modèles de régression. Ces modèles visent à expliquer un caractère Y (considéré
comme aléatoire) par des caractères (considérés comme déterministes) (x(1) , . . . , x(k) ).
On choisit une fonction de régression f , dépendant en général de plusieurs paramètres
inconnus, et on écrit les variables aléatoires Yi sous la forme :
(1)
(k)
Yi = f (xi , . . . , xi ) + Ei ,
où (E1 , . . . , En ) est un n-uplet de variables aléatoires indépendantes et de même loi.
Les paramètres inconnus de f seront estimés par la méthode des moindres carrés, en
minimisant l’erreur quadratique :
n
1X
(1)
(k)
EQ(f ) =
(Yi − f (xi , . . . , xi ))2 .
n i=1
85
Cours de Statistique
STA230
UJF Grenoble
Dans le cas où la fonction f est affine et (E1 , . . . , En ) est un échantillon gaussien, on
peut déterminer explicitement la loi des estimateurs des moindres carrés, et en déduire
des intervalles de confiance.
Nous considérons seulement le modèle linéaire simple :
Yi = axi + b + Ei ,
où Ei est un échantillon de la loi normale N (0, σ 2 ). En d’autres termes, on suppose
que les Yi sont des variables aléatoires gaussiennes indépendantes, d’espérances axi + b
distinctes, mais de même variance σ 2 . Le modèle comporte 3 paramètres inconnus, a,
b, et σ 2 . On estime a et b en minimisant l’erreur quadratique :
EQ(a, b) =
n
1X
(Yi − axi − b)2 .
n i=1
On obtient ainsi les estimateurs dits “des moindres carrés” :
A=
cxY
s2x
et B = Y − Ax .
L’erreur quadratique minimale est :
2
EQ(A, B) = SY2 (1 − rxY
).
Ces trois variables aléatoires sont des estimateurs convergents de a, b et σ 2 respectiveσ 2 , il est
ment. Les deux premiers sont non biaisés. L’espérance de EQ(A, B) est n−2
n
donc asymptotiquement sans biais. On obtient un estimateur sans biais et convergent
de σ 2 en posant :
n
EQ(A, B) .
σb 2 =
n−2
La prédiction est le premier objectif d’un modèle probabiliste. Dans le cas de la
régression linéaire, si un nouvel individu était examiné, avec une valeur observée x∗
pour le caractère x, le modèle entraîne que la valeur Y∗ du caractère expliqué sur cet
individu est une variable aléatoire, de loi normale N (ax∗ + b, σ 2 ). Les paramètres de
cette loi auront pour estimateurs Ax∗ + B et EQ(A, B) respectivement.
Le théorème suivant permet de calculer les lois de ces estimateurs, et donc des intervalles de confiance. On peut le considérer comme une extension du théorème donnant
les lois de l’espérance et de la variance empirique pour un échantillon gaussien.
Théorème 12. Avec les notations précédentes :
s
ns2x
(A − a) suit la loi normale N (0, 1).
σ2
s
ns2x
(A − a) suit la loi de Student T (n − 2).
σb 2
1.
2.
86
Cours de Statistique
STA230
UJF Grenoble
3.
v
u
u
t
ns2x
(Ax∗ + B − ax∗ − b) suit la loi normale N (0, 1).
σ 2 (s2x + (x∗ − x)2 )
4.
v
u
u
t
ns2x
(Ax∗ + B − ax∗ − b) suit la loi de Student T (n − 2).
σb 2 (s2x + (x∗ − x)2 )
σb 2
suit la loi du khi-deux X 2 (n−2).
σ2
On utilise ces résultats pour en déduire des intervalles de confiance. Nous notons
[−uα , uα ], [−tα , tα ] et [xα , x0α ] les intervalles de dispersion optimaux de niveau 1 − α
pour les lois N (0, 1), T (n − 2) et X 2 (n − 2) respectivement. Voici les intervalles de
confiance de niveau 1−α correspondant aux différents points du théorème 12.
1. Intervalle de confiance pour a, si σ 2 est connu.
5. (n − 2)

 A − uα
v
u
u
t
v
u

u σ2
σ2
t
 .
,
A
+
u
α
ns2x
ns2x
2. Intervalle de confiance pour a, si σ 2 est inconnu.

 A − tα
v
u 2
u σ
b
t
ns2x
,
v
u 2 
u σ
b

A + tα t
ns2x
.
3. Intervalle de confiance pour ax∗ + b, si σ 2 est connu.

 Ax∗
+ B ± uα
v
u 2 2
u σ (sx
t

+ (x∗ − x)2 ) 
.
ns2x
4. Intervalle de confiance pour ax∗ + b, si σ 2 est inconnu.

 Ax∗
+ B ± tα
v
u 2 2
uσ
b
t (sx

+ (x∗ − x)2 ) 
.
ns2x
5. Intervalle de confiance pour σ 2 .
"
σb 2
σb 2
(n − 2)
, (n − 2) 0
xα
xα
#
.
Si on souhaite prédire la valeur de Y∗ = ax∗ + b + E∗ sur un nouvel individu, il faudra
tenir compte non seulement de l’erreur commise en estimant la valeur de ax∗ + b mais
aussi de la variance σ 2 de E∗ . Ceci augmente l’amplitude de l’intervalle. Voici l’intervalle
de prédiction de Y∗ , toujours au niveau 1−α, lorsque σ 2 est inconnu (et estimé par σb 2 ).

 Ax∗ +B
± tα
v
u 2
2
uσ
b
t ((n+1)sx

+ (x∗ −x)2 ) 
.
ns2x
87
Cours de Statistique
STA230
UJF Grenoble
À titre d’exemple, considérons les tailles en centimètres (xi ) et poids en kilogrammes
(yi ) de 10 enfants de 6 ans.
Enfant 1
Taille 121
Poids
25
2
123
22
3
108
19
4
118
24
5
111
19
6
109
18
7
114
20
8
103
15
9
10
110 115
20 21
Les caractéristiques numériques prennent les valeurs suivantes :
s2Y rxY
A
B
EQ(A, B)
x
Y
s2x
113.2 20.3 34.76 7.61 0.9 0.42 −27.38
1.44
Effectuer une régression linéaire signifie que l’on pense que le poids doit croître en gros
proportionnellement à la taille. La droite de régression linéaire constitue un modèle de
prédiction. Pour un enfant de taille donnée, on donnera un intervalle de poids, considéré
comme “normal”, la normalité étant définie par référence au modèle et aux données.
Voici les intervalles de prédiction de niveau 0.95 pour différentes tailles.
taille intervalle de poids
100
[10.82 , 18.67]
110
[15.65 , 22.25]
120
[19.72 , 26.61]
130
[23.09 , 31.66]
Les intervalles de prédiction sont d’autant moins précis que la taille de l’échantillon
initial était faible et que la valeur de x∗ est plus éloignée de x (voir figure 16).
4.2.2
Test de pertinence de la régression
L’hypothèse que l’on souhaite tester est que le caractère explicatif n’apporte pas
d’information, c’est-à-dire que la pente a de la droite de régression linéaire est nulle :
H0 : a = 0 .
Selon que σ 2 est supposé connu ou inconnu, on utilisera le point 1 ou le point 2 du
théorème 12. Supposons par exemple que σ 2 soit inconnu, la statistique de test est :
s
T =
ns2x
A.
σb 2
Pour le test bilatéral de seuil α, la règle de décision est :
Rejet de H0 ⇐⇒ T ∈
/ [ QT (n−2) (α/2) , QT (n−2) (1 − α/2) ] .
88
Cours de Statistique
STA230
UJF Grenoble
Poids
40
37
34
31
28
+
25
+
+
22
+
+
+
+
19
+
+
16
+
13
Tailles
10
80
85
90
95
100 105 110 115 120 125 130 135 140 145 150
Fig. 16 – Tailles et poids d’enfants de 6 ans : droite de régression linéaire et intervalles
de prédiction.
4.2.3
Étude des résidus
Rappelons que dans le modèle initial, nous avons supposé pour tout i entre 1 et n,
Yi = axi + b + Ei ,
où les résidus Ei forment un échantillon de la loi normale N (0, σ 2 ). En d’autres termes,
on suppose que les Yi sont des variables aléatoires gaussiennes indépendantes, d’espérances axi + b distinctes, mais de même variance σ 2 .
Le test de pertinence de la régression permet de décider si a est nul ou non. Cela
ne permet pas pour autant de valider le modèle. Pour cela nous devons vérifier que les
données observées ne sont pas incompatibles avec l’hypothèse que les résidus sont des
variables aléatoires indépendantes et de même loi N (0, σ 2 ).
Les valeurs exactes de ces résidus sont et resteront inconnues. On les estimera donc
par :
Ebi = Yi − (Axi + B) .
On démontre que sous les hypothèses du modèle,
E[Eb
i
= 0] et
i)
V ar(Eb
=σ
89
2
n − 1 (xi − x)2
−
n
ns2x
!
.
Cours de Statistique
STA230
UJF Grenoble
Il est donc raisonnable de réduire les résidus estimés en les divisant par leur écart-type.
On obtient ainsi les résidus dits studentisés.
Définition 36. On appelle résidus studentisés les quantités :
(stud)
Ebi
Ebi
= r
σb n−1
−
n
(xi −x)2
ns2x
.
On démontre que les résidus studentisés suivent chacun la loi de Student T (n − 2).
Ceci permet de tester qu’ils ne prennent pas de valeur trop grande en valeur absolue.
Pour aller plus loin, on représente le graphe des résidus, qui est le nuage des points
(stud)
de coordonnées (xi , Ebi
). Si le modèle est correct, ces résidus doivent être distribués
comme pour un échantillon de la loi T (n − 2) : on ne devrait pas voir apparaître de
dépendance en les xi , on devrait trouver à peu près autant de valeurs au-dessus et audessous de l’axe des abscisses. . . Si le graphe des résidus fait apparaître une dépendance
en les xi , alors le modèle ne peut pas être utilisé pour faire de la prédiction.
90

Documents pareils