SÉRIES STATISTIQUES À DEUX VARIABLES

Transcription

SÉRIES STATISTIQUES À DEUX VARIABLES
GEA1 – MATHÉMATIQUES POUR LA GESTION ET STATISTIQUES (M1205)
SÉRIES STATISTIQUES À DEUX VARIABLES
Lors de l’étude des phénomènes économiques, il est courant d’avoir affaire à plus d’une variable statistique (on parle alors
d’analyse statistique multivariée) : pour chaque observation, on recueille plusieurs informations. Ceci complique énormément la construction des tableaux statistiques et la production de graphiques résumant ces études. Nous nous contenterons,
dans ce chapitre, d’étudier les séries à deux variables (analyse statistique bivariée).
1 Tableau de contingence, fréquences marginales, fréquences conditionnelles
On s’intéresse donc à un couple de caractères, noté, dans ce qui suit, (x ; y), selon lesquels on va répartir l’ensemble de la
population. Lorsque l’on se réfère à x et y en tant que séries univariées, on emploie le qualificatif « marginal ». Ainsi, les séries
x et y sont appelées les séries marginales.
Notons x1 , x2 , . . . , xk les k modalités que peut prendre le caractère x, et y1 , y2 , . . . , yℓ les ℓ modalités que peut présenter
le caractère y. On désignera par ni , j l’effectif du groupe d’individus présentant la modalité xi du caractère x et la modalité
y j du caractère y. On rassemble toutes ces données dans un tableau de contingence (qui n’est autre qu’un tableau à double
entrée) :
caractère y
caractère x
x1
...
y1
...
yj
n1,1
yℓ
total
n1,ℓ
n1,•
..
.
..
.
ni , j
xi
ni ,•
..
.
..
.
xk
nk,1
total
n•,1
...
...
n• , j
nk,ℓ
nk,•
n•,ℓ
n
L’effectif de la modalité xi (du caractère x) sera noté ni ,• et celui de la modalité y j (du caractère y) sera noté n•, j ; ce sont les
effectifs marginaux de la série. On a donc
n i ,• =
ℓ
X
ni , j
et
n• , j =
j =1
k
X
ni , j .
i =1
L’effectif total, noté N, est ainsi la somme des ni ,• ou, ce qui revient au même, la somme des n•, j :
N=
k
X
i =1
n i ,• =
ℓ
k X
X
i =1 j =1
ni , j =
ℓ
X
n• , j .
j =1
Comme on l’a signalé, les séries marginales (xi , ni ,• ) et (y j , n•, j ) sont des séries à une variable ; lorsque les caractères correspondants sont quantitatifs, chacune de ces séries a donc une moyenne (x et y) et un écart type (σ x et σy ), qu’on qualifie
naturellement de moyenne marginale et d’écart type marginal.
Séries statistiques à deux variables
IUT du Littoral Côte d’Opale/CUEEP Littoral
On définit également la notion de fréquence, sur le même principe que pour les séries à une variable :
fréquence =
effectif
c’est-à-dire
effectif total
fi , j =
ni , j
.
N
Les fréquences marginales sont alors
f i ,• =
ℓ
X
fi , j =
j =1
ℓ
1 X
N
ni , j =
n i ,•
j =1
et
N
f• , j =
k
X
fi , j =
i =1
k
1 X
N
ni , j =
n• , j
i =1
N
.
Bien entendu, la somme des fréquences marginales fi ,• vaut 1, de même que la somme des fréquences marginales f•, j :
k
X
f i ,• =
i =1
ℓ
X
f• , j =
j =1
k X
ℓ
X
fi , j = 1.
i =1 j =1
x EXEMPLE 1. On s’intéresse à la répartition des salaires des employés d’une grande entreprise, répartis par tranches d’âge :
âge (en années)
[18 ; 25[
(A)
[25 ; 35[
(B)
[35 ; 45[
(C)
[45 ; 55[
(D)
[55 ; 65[
(E)
total
(1)
122
107
58
21
6
314
[900 ; 1000[
(2)
125
131
86
24
11
377
[1000 ; 1200[
(3)
51
66
65
54
37
273
[1200 ; 1500[
(4)
38
27
70
73
31
239
[1500 ; 2000[
(5)
6
10
32
29
44
121
[2000 ; 3000[
(6)
0
5
18
15
20
58
[3000 ; 5000[
(7)
0
3
7
10
5
25
342
349
336
226
154
1407
salaire (en €)
[800 ; 900[
total
effectifs marginaux
Dans cet exemple, les modalités du caractère x (le salaire) sont désignés par des nombres (1 pour la classe [800 ; 900[, 2 pour
la classe [900 ; 1000[, . . . , 7 pour la classe [3000 ; 5000[) et celles du caractère y (l’âge) par des lettres (A pour la classe [18 ; 25[,
B pour [25 ; 35[, . . . , E pour la classe [55 ; 65[).
n1,A = 122 indique le nombre de salariés dont le salaire fait partie de l’intervalle [800 ; 900[ (modalité 1 du caractère x) et dont
l’âge est dans l’intervalle [18 ; 25[ (modalité A du caractère y). Les effectifs marginaux sont les effectifs n1,• , n2,• , . . . , n7,• des
modalités 1, 2, . . . , 7 du caractère x et les effectifs n•,A , n•,B , . . . , n•,E des modalités A, B, . . . , E ; ainsi,
n3,• = n3,A + n3,B + n3,C + n3,D + n3,E = 273
est le nombre de salariés dont le salaire mensuel est dans l’intervalle [1000 ; 1200[, et
n•,B = n1,B + n2,B + n3,B + n4,B + n5,B + n6,B + n7,B = 349
est le nombre de salariés dont l’âge (en années) fait partie de l’intervalle [25 ; 35[.
La fréquence marginale f4,• est la fréquence de la modalité 4 du caractère x :
f4,• =
n4,•
N
=
239
1407
≈ 0,1699 ≈ 16,99 %.
La fréquence conditionnelle de la modalité xi (du caractère x) par rapport à la modalité y j (du caractère y) est le nombre
fy j (xi ) =
ni , j
n• , j
–2–
=
fi , j
f• , j
.
Séries statistiques à deux variables
IUT du Littoral Côte d’Opale/CUEEP Littoral
Il donne la proportion d’individus présentant la modalité xi parmi ceux qui présentent la modalité y j ; on la qualifie d’ailleurs
parfois de fréquence de xi sachant y j et on la note f (xi | y j ).
De même, la fréquence conditionnelle de la modalité y j (du caractère y) par rapport à la modalité xi (du caractère x) est
le nombre
f xi (y j ) =
ni , j
=
n i ,•
fi , j
f i ,•
,
noté aussi f (y j | xi ) (fréquence de y j sachant xi ), indiquant la proportion des individus présentant la modalité y j au sein du
groupe de ceux qui présentent la modalité xi .
Illustrons cette notion de fréquence conditionnelle par quelques calculs relatifs à l’exemple 1 :
x parmi les employés dont le salaire est compris entre 900 € et 1000 €, la proportion de ceux dont l’âge est situé dans
l’intervalle [45 ; 55[ est la fréquence conditionnelle de D par rapport à la modalité 2 :
f2 (D) =
n2,D
n2,•
=
24
377
≈ 0,064 ≈ 6,4 % ;
x la proportion d’employés dont le salaire est compris entre 900 € et 1000 € parmi ceux de la tranche 45–55 ans est la
fréquence conditionnelle de 2 par rapport à C :
f D (2) =
n2,D
n•,D
=
24
226
≈ 0,106 ≈ 10,6 %.
2 Nuage de points, point moyen
Il est souvent très difficile de représenter graphiquement les séries bivariées, spécialement dans le cas continu ; il peut alors
être commode d’avoir recours à des schémas à 3 dimensions (de la même façon que des schémas plans constituent d’excellentes
représentations des séries univariées).
Dans certains cas très particuliers (notamment lorsque les effectifs sont très faibles), on peut tout de même présenter de
manière claire des séries bivariées à l’aide de diagrammes à 2 dimensions, comme le montrent les exemples suivants :
x EXEMPLE 2. On interroge 40 foyers sur leurs équipements automobile et audiovisuel, autrement dit sur le nombre de voitures et d’écrans (de télévision et d’ordinateur — on a choisi d’exclure les smartphones et les tablettes) en leur possession.
nombre
nombre
d’écrans
de voitures
0
0
1
2
3
4
5
6
7
8
2
2
1
2
0
0
1
0
0
1
1
4
3
2
2
3
3
1
1
2
0
0
1
0
0
2
2
2
1
3
0
0
0
1
0
0
1
1
0
4
0
0
0
0
1
0
0
0
0
nombre de voitures
Les résultats obtenus sont donnés dans le tableau de contingence précédent et sont représentés sur le schéma ci-dessous.
4
effectifs
3
1 foyer
2
2 foyers
1
3 foyers
0
4 foyers
0
1
2
3
4
5
6
7
8
nombre d’écrans (télévision/ordinateur)
–3–
Séries statistiques à deux variables
IUT du Littoral Côte d’Opale/CUEEP Littoral
x EXEMPLE 3. Le schéma ci-dessous indique les taux de participation des Français aux deux tours de l’élection présidentielle
de 2012, en fonction de leur année de naissance (source : INSEE).
Ici, les deux caractères considérés sont :
x l’année de naissance (caractère quantitatif discret, mais nécessitant un regroupement en classes, car le nombre de modalités est trop grand),
x la participation aux tours de l’élection (caractère qualitatif présentant 4 modalités).
Ce type de diagramme est appelé en tuyaux d’orgue.
Désormais, nous restreindrons encore davantage le cadre de notre étude, en nous plaçant dans le cas où les deux caractères
considérés sont quantitatifs, avec des effectifs tous inférieurs ou égaux à 1. On obtient alors une série de couples — on ne
conserve que ceux dont l’effectif est non nul — qui peut être indexée par un seul paramètre. Cette série sera ainsi notée
(xi ; yi ), pour i = 1, 2, . . . , N. Graphiquement, ces couples correspondent à des points du plan, rapporté à un repère ; on dit
que l’ensemble de ces points est le nuage de points associé à la série.
x EXEMPLE 4. Lors d’un examen d’une durée de 4 heures, on a relevé la durée de composition (c’est-à-dire au bout de combien
de temps chacun a rendu sa copie) et la note (sur 20) des 12 étudiants qui se sont présentés.
numéro étudiant i
1
2
3
4
5
6
7
8
9
10
11
12
note xi
8
14
9
17
19
3
7
15
12
11
9
16
4h
3 h 50
1h
3 h 30
4h
4h
durée de composition yi
2 h 45 3 h 25 2 h 15
3 h 15 2 h 50 3 h 30
Le point moyen du nuage est le point (noté habituellement G)
dont les coordonnées sont les moyennes marginales de la série :
G(x ; y).
Pour l’exemple 3, on trouve, après calculs, les moyennes marginales suivantes :
x ≈ 11,67
et
y = 3 h 11 min 40 s ;
on en déduit la position du point moyen sur le graphique ci-contre.
–4–
durée de composition
(en heures)
Le nuage de points correspondant figure sur le schéma ci-contre.
4
3
y
G
2
1
0
0
2
4
6
8
x
10 12 14 16 18 20
note
Séries statistiques à deux variables
IUT du Littoral Côte d’Opale/CUEEP Littoral
3 Ajustements affines
On peut avoir besoin d’effectuer une approximation du nuage par une courbe, dépendant de sa distribution (sa « forme »), afin
d’obtenir, par exemple, une prévision d’un phénomène économique. C’est cette approximation que l’on appelle ajustement.
Dans un premier temps, nous allons nous intéresser à des ajustements par des fonctions affines, ce qui n’a un sens que lorsque
le nuage de points semble distribué le long d’une droite.
3.1
Ajustement affine par la droite de Mayer
Une des méthodes les plus simples consiste à partager le nuage de points en deux groupes (choisis en fonction de la forme du
nuage, mais, très souvent, on partage le nuage en deux groupes de points de même effectif). Chacun de ces nouveaux nuages
admet un point moyen (G1 pour le premier nuage, G2 pour le second) ; la droite (G1G2 ), appelée droite de Mayer, constitue
alors une approximation du nuage.
x EXEMPLE 5. Les derniers recensements de la population de la ville de Carfain ont abouti aux données suivantes :
année
1993
1995
1999
2002
2004
2006
2009
1
3
7
10
12
14
17
4,4
4,7
4,8
4,9
5,5
5,5
5,7
nombre d’années xi depuis 1992
population (en milliers d’habitants)
population yi (en milliers d’habitants)
6
Compte tenu de la distribution des
G1
4
points du nuage ci-contre (ils sont
G2
groupe 2
5
« plus ou moins » alignés), un ajustement affine est ici approprié.
groupe 1
Nous allons partager les points du
3
nuage représenté ci-contre en deux
2
groupes : le premier sera formé des
1
dant aux modalités 1 et 3 de x) et
0
deux premiers points (corresponle second des cinq derniers points
0
1
3
7
10
12
14
nombre d’années depuis 1992
17
20
(correspondant aux autres modalités de x).
Chacun de ces nuages admet un point moyen (G1 pour le premier, G2 pour le second), dont on calcule les coordonnées :
xG1 =
pour G1 , et
xG2 =
1+3
2
7 + 10 + 12 + 14 + 17
5
=2
et
yG1 =
= 12
et
yG2 =
4,4 + 4,7
2
= 4,55
4,8 + 4,9 + 5,5 + 5,5 + 5,7
5
= 5,28
pour G2 . La droite de Mayer du nuage passe donc par les points G1 (2 ; 4,55) et G2 (12 ; 5,28). Déterminons à présent son
équation.
Elle admet une équation de la forme y = ax + b . Les points G1 et G2 lui appartiennent ; on aboutit donc au système
¨
2a + b = 4,55
12a + b = 5,28.
En soustrayant membre à membre ces deux équations, on trouve −10a = −0,73, d’où a = 0,073. Par suite :
b = 4,55 − 2 × 0,073 = 4,404.
–5–
Séries statistiques à deux variables
IUT du Littoral Côte d’Opale/CUEEP Littoral
La droite de Mayer du nuage admet, par conséquent, pour équation y = 0,073x + 4,404. Elle nous permet d’obtenir, entre
autres, une estimation de la population en 2012 ; pour ce faire, il suffit de calculer y pour x = 20 (car 20 années séparent 1992
et 2012) :
y = 0,073 × 20 + 4,404 = 5, 864.
On peut donc estimer que la population de cette ville devrait s’élever, en 2012, à 5864 habitants.
Il est à noter que, bien entendu, la droite de Mayer d’un nuage dépend de la façon dont on forme les deux groupes de points,
mais que le point moyen du nuage (G) se trouve sur la droite de Mayer, quel que soit le regroupement effectué.
3.2
Ajustement affine par la méthode des moindres carrés
Le moyen le plus couramment employé pour approcher un nuage de points par une droite est la méthode des moindres
carrés. L’objectif est ici de choisir la droite de telle sorte que la somme des carrés des « distances » entre les points du nuage et
la droite soit la plus petite possible. On va préciser dans ce qui suit ce que l’on entend par « distance » (car ce terme n’est pas
à prendre au sens mathématique habituel).
La droite d’ajustement (droite de régression de y en x) que l’on cherche à obtenir, et que l’on notera D x , a pour équation
y = ax + b .
y
A7
A5
A3
A1
Dx
A4
A7
A8
A6
e7
B6
B7
B8
e8
A8
e6
A2
A6
x
Plaçons-nous dans le cas général, en considérant le nuage formé par des points A1 (x1 ; y1 ), A2 (x2 ; y2 ), . . . , AN (xN ; yN ), et
considérons les points B1 , B2 , . . . , BN , de mêmes abscisses que A1 , A2 , . . . , AN , mais situés sur la droite D x (d’équation
y = ax + b ) ; autrement dit, les ordonnées des points B1 , B2 , . . . , BN sont respectivement ax1 + b , ax2 + b , . . . , axN + b .
2
L’écart absolu ei = A i B i , ou résidu (qui mesure la distance entre les points A i et B i ), a donc pour carré ei2 = yi −(axi +b ) .
La méthode des moindres carrés consiste à trouver les coefficients a et b pour lesquels la somme
N
X
i =1
A i B2i =
N
X
i =1
ei2 =
N
X
yi − (axi + b )
i =1
2
est minimale (la droite d’équation y = ax + b est alors la plus « proche » des points A1 , A2 , . . . , AN ). Des calculs élémentaires
montrent que, sous cette contrainte, le coefficient directeur de la droite D x et son ordonnée à l’origine sont donnés par les
formules
a=
N
X
(xi − x)(yi − y)
i =1
N
X
et
(xi − x)
b = y − ax,
2
i =1
la dernière égalité traduisant le fait que le point moyen du nuage se trouve sur la droite de régression D x . Puisque la
variance de x est
V(x) = σ2x =
N
1 X
N
i =1
–6–
(xi − x)2 ,
Séries statistiques à deux variables
IUT du Littoral Côte d’Opale/CUEEP Littoral
on est naturellement amené à définir la covariance de x et y, notée Cov(x, y) ou σ x,y , par la formule
Cov(x, y) =
N
1 X
N
(xi − x)(yi − y).
i =1
C’est une « généralisation » à deux variables statistiques de la notion de variance ; en effet, Cov(x, x) = V(x). La covariance de
x et y est l’expression qui apparaît naturellement lorsque l’on calcule la variance de la variable (x + y) :
V(x + y) = σ2x+y = σ2x + 2σ x,y + σy2 = V(x) + 2Cov(x, y) + V(y),
(qui rappelle l’identité remarquable (a + b )2 = a 2 + 2ab + b 2 ). De la même façon que
V(x) = σ2x =
N
1 X
N
(xi − x)2 =
i =1
N
1 X
N
i =1
xi2 − x 2
(cette dernière égalité constitue le théorème de König–Huygens), on prouve que
Cov(x, y) =
N
1 X
N
(xi − x)(yi − y) =
i =1
N
1 X
N
xi yi − x y.
i =1
En résumé, la droite de régression D x , de y en x, a pour équation y = ax + b , avec
a=
Cov(x, y)
V(x)
σ x,y
=
et
σ2x
b = y − ax.
On peut également déterminer la droite de régression de x en y du nuage : il s’agit de la droite d’équation x = ay + b pour
laquelle la somme
N
X
i =1
x − (ayi + b )
|i
{z
}
= ei′ = A i B′i
2
est minimale (les écarts absolus ei′ sont cette fois mesurés parallèlement à l’axe des x).
y
Dy
A8
A7
e8′
A6
A4
A1
A2
A8
A5
B′7
A3
B′8
A7
e7′
x
On démontre que ce minimum est atteint pour la droite Dy d’équation x = ay + b (autrement dit, y =
coefficients a et b sont donnés par les formules
a=
Cov(x, y)
V(y)
=
σ x,y
et
σy2
1
a
(x − b )), où les
b = x − ay.
On peut remarquer que ce sont les mêmes formules que pour la droite D x ; seuls x et y y ont été intervertis.
Revenons sur la situation présentée à l’exemple 5 et essayons de donner une prévision de la population de Carfain en 2012
par la méthode des moindres carrés. Le point moyen du nuage est G(x ; y), avec
x=
1 + 3 + 7 + 10 + 12 + 14 + 17
7
=
64
7
≈ 9,1429
et
y=
–7–
4,4 + 4,7 + 4,8 + 4,9 + 5,5 + 5,5 + 5,7
7
=
35,5
7
≈ 5,0714.
Séries statistiques à deux variables
IUT du Littoral Côte d’Opale/CUEEP Littoral
La droite de régression D x , de y en x, a pour équation y = ax + b , avec
1 ×
1
×
4,4
+
3
×
4,7
+
7
×
4,8
+
10
×
4,9
+
12
×
5,5
+
14
×
5,5
+
17
×
5,7
− 9,1429 × 5,0714
Cov(x, y)
≈ 0,081
a=
≈ 7
1 2
V(x)
× 1 + 32 + 72 + 102 + 122 + 142 + 172 − 9,14292
7
et
b = y − ax ≈ 5,0714 − 0,081 × 9,1429 ≈ 4,331.
Par conséquent, pour x = 20 (ce qui correspond à l’année 2012), on trouve y = 0,081 × 20 + 4,331 = 5,951. Selon ce modèle,
on peut estimer la population de Carfain, en 2012, à 5951 habitants. (Pour mémoire, avec la droite de Mayer, on avait obtenu
5864 habitants.)
La droite de régression Dy de x en y, quant à elle, a pour équation x = ay + b , avec
1
a=
Cov(x, y)
V(x)
≈ 7
× 1 × 4,4 + 3 × 4,7 + 7 × 4,8 + 10 × 4,9 + 12 × 5,5 + 14 × 5,5 + 17 × 5,7 − 9,1429 × 5,0714
1
7
et
2
2
2
2
2
2
× 4,4 + 4,7 + 4,8 + 4,9 + 5,5 + 5,5 + 5,7
2
− 5,0714
≈ 11,297
2
b = x − ay ≈ −48,147.
Pour trouver la valeur de y correspondant à x = 20, on résout l’équation
11,297y − 48,147 = 20 ⇐⇒ 11,297y = 20 + 48,147 = 68,147 ⇐⇒ y =
68,147
11,297
≈ 6,033
modèle.
Pour mieux visualiser les différences obtenues entre les résultats, représentons le nuage
de points avec les 3 droites déterminées jusque-là : (G1G2 ),
D x et Dy .
population (en milliers d’habitants)
d’où 6033 habitants selon ce
Dy
6
G
5
Dx
G2
G1
4
0
1
3
7
10
12
14
nombre d’années depuis 1992
17
20
On définit le coefficient de corrélation linéaire de la série (xi ; yi ) ; il s’agit du nombre
σ x,y
Cov(x, y)
=
.
r x,y = p
V(x) V(y) σ x σy
Ce réel r x,y , exprimé sans unité, fait toujours partie de l’intervalle [−1 ; 1]. Lorsque r x,y est proche de 1 ou de −1, cela traduit
une forte dépendance (statistique) affine entre les valeurs de x et celles de y et motive un ajustement affine entre les deux
variables. Plus r x,y est proche de 0, moins les points du nuage sont répartis le long d’une ligne droite ; il faut alors envisager
un autre type d’ajustement (cf. paragraphe suivant), sous réserve que le nuage ait une forme « allongée ».
Attention ! Même une corrélation linéaire parfaite (r = ±1) ne garantit pas l’existence d’un lien de cause à effet entre
les variables x et y.
Dans le cas de l’exemple 5, le calcul du coefficient de corrélation linéaire donne
r x,y =
Cov(x, y)
σ x σy
≈
2,347
5,383 × 0,456
–8–
≈ 0,956.
Séries statistiques à deux variables
IUT du Littoral Côte d’Opale/CUEEP Littoral
Ceci indique qu’un ajustement affine est tout à fait adapté à la situation.
Il est à noter que, de plus en plus, pour laisser de côté le signe du coefficient r x,y (qui n’a que peu d’importance), on préfère
s’intéresser au coefficient de détermination de la série, qui n’est autre que le carré de r x,y .
4 Autres ajustements
Un ajustement affine est pertinent lorsque les points du nuage semblent être répartis le long d’une ligne droite. Lorsque le
nuage est « allongé » mais a une autre forme, on a recours à un ajustement différent ; il en existe de nombreux, reposant sur
différentes familles de fonctions : les fonctions logarithmes, exponentielles, puissances, logistiques, etc.
4.1
Ajustement exponentiel
Pour les phénomènes à croissance forte ou à décroissance rapide, il peut être pertinent d’approcher la forme générale du
nuage par une fonction exponentielle de la forme x 7→ ea x+b ou x 7→ αe x + β. Pour déterminer les valeurs de a et b , ou de
α et β, on effectue un ajustement affine (par exemple, par la méthode des moindres carrés) sur la série (xi ; ln yi ) ou la série
(e xi ; yi ).
x EXEMPLE 6. Le tableau ci-dessous indique le salaire brut annuel, en euros, perçu par un cadre.
Le coefficient de corrélation linéaire entre x et
année
y est tout à fait honorable (r x,y ≈ 0,988), mais
2005
2006
2007
2008
2009
1
2
3
4
5
la répartition des points au sein du nuage laisse
rang xi de l’année
à penser que l’augmentation du salaire de ce
salaire yi (en €)
42 900
54 200
64 100
81 600
102 000
cadre est de plus en plus rapide au fil des an-
zi = ln(yi )
10,666
10,900
11,068
11,310
11,533
nées, phénomène que ne modéliserait pas une
1 000 000
ligne droite.
500 000
400 000
300 000
110000
200 000
C
100 000
100000
50 000
40 000
30 000
20 000
80000
10 000
5 000
4 000
3 000
70000
salaire brut annuel (en €)
salaire brut annuel (en €)
90000
60000
50000
40 000
30000
20000
10000
0
0
1
2
3
4
rang de l’année
2 000
1 000
500
400
300
200
100
50
40
30
20
10
5
4
3
5
2
1
1
2
3
4
5
rang de l’année
Le coefficient de corrélation linéaire entre x et z = ln(y) est très bon (r x,z ≈ 0,999), ce qui justifie un ajustement affine. Par la
méthode des moindres carrés, on trouve une droite de régression D x de z en x, d’équation z = 0,21x + 10,45. On en déduit
–9–
Séries statistiques à deux variables
IUT du Littoral Côte d’Opale/CUEEP Littoral
que les points A i (xi ; yi ) du nuage sont répartis autour de la courbe C d’équation
ln y = 0,21x + 10,45 ⇐⇒ y = e0,21x+10,45 = e0,21x e10,45 ⇐⇒ y = 34 544 e0,21x
Sur le schéma ci-dessus, à droite, on a construit le même nuage — ce sont les mêmes points A i (xi ; yi ) — dans un repère
semi-logarithmique : un des axes est gradué régulièrement et, sur l’autre, on place des graduations aux nombres ln k (avec k
entier) : ln 1, ln 2, ln 3, . . . , ln 9, ln 10, ln 20 (les nombres ln 11, ln 12, ln 19 sont tellement proches les uns des autres que l’on ne
les représente pas), ln 30, . . . , ln 90, ln 100, ln 200, . . . Ceci explique explique que la graduation « 10 » (qui correspond en fait à
ln 10) soit « au milieu » de « 1 » (on rappelle que ln 1 = 0) et « 100 », car ln 100 est le double de ln 10.
L’apparent alignement des points du nuage, placés dans ce repère semi-logarithmique, suggère une dépendance affine entre les
valeurs de x et celles de ln y, ce qui motive un ajustement exponentiel. L’utilisation d’un repère semi-logarithmique permet
donc de constater rapidement si un tel ajustement est approprié ou non.
4.2
Ajustement logarithmique
À l’opposé des fonctions exponentielles, les fonctions logarithmes x 7→ a ln x + b ou x 7→ ln(αx + β) sont tout à fait indiquées
dans la modélisation des phénomènes à (dé)croissance lente. Pour cela, on effectue un ajustement affine sur la série (ln xi ; yi )
ou (xi ; eyi ).
x EXEMPLE 7. Le tableau ci-dessous donne la production d’électricité d’origine nucléaire en France, exprimée en milliards
de kWh, entre 1979 et 2004 (source : site web du Ministère de l’industrie).
Les rangs des années sont calculés par rapport à l’année 1975.
année
1979
1985
1990
1995
2000
2001
2002
2003
2004
4
10
15
20
25
26
27
28
29
37,9
213,1
297,9
358,8
395,2
401,3
416,5
420,7
427,7
rang xi de l’année
production yi
C
production (en milliards de kWh)
400
300
200
100
0
0
2
4
6
8
10
12 14 16 18
rang de l’année
20
22
24
26
28
30
La distribution des points du nuage suggère un ajustement logarithmique. Pour l’effectuer, nous allons travailler sur la série
(zi ; yi ), où zi = ln(xi ).
zi = ln(xi )
1,386
2,303
2,708
2,996
3,219
3,258
3,296
3,332
3,367
production yi
37,9
213,1
297,9
358,8
395,2
401,3
416,5
420,7
427,7
– 10 –
Séries statistiques à deux variables
IUT du Littoral Côte d’Opale/CUEEP Littoral
Le coefficient de corrélation linéaire entre z et y est excellent (r z,y ≈ 0,9997) ; on procède donc à un ajustement affine entre z
et y. La méthode des moindres carrés fournit une équation de la droite de régression D z de y en z :
y = 197,2z − 236,9.
Les points A i (xi ; yi ) sont par conséquent répartis autour de la courbe C d’équation y = 197,2 ln x − 236,9.
5 Exercices
EXERCICE 1
Le tableau suivant donne la répartition des salariés d’une entreprise en fonction de leur quotité de travail :
ouvriers
(O)
employés
(E)
cadres
(C)
total
temps complet
(T)
18
21
11
50
temps partiel à 80 %
(P)
2
5
0
7
mi-temps
(M)
1
4
2
7
21
30
13
64
total
1. Calculer les fréquences marginales.
2. Calculer la fréquence conditionnelle des salariés à mi-temps par rapport aux cadres.
3. Calculer la fréquence conditionnelle des cadres par rapport aux salariés à mi-temps.
EXERCICE 2
Voici un sondage concernant l’opinion des Français sur l’interdiction de la vente du tabac aux moins de 16 ans (sondage réalisé
sur un échantillon représentatif de 500 personnes majeures).
opposés à l’interdiction
favorables à l’interdiction
30 %
25 %
fumeurs
non-fumeurs
70 %
75 %
1. Recopier et compléter le tableau suivant à l’aide des informations données par les diagrammes en secteurs circulaires.
(Arrondir à l’unité la plus proche.)
Êtes-vous
favorable ?
opposé ?
sans opinion ?
total
0
fumeur ?
non-fumeur ?
total
2.
316
160
500
a) Calculer la fréquence conditionnelle des personnes favorables par rapport aux fumeurs.
b) Calculer la fréquence conditionnelle des personnes favorables par rapport aux non-fumeurs.
– 11 –
Séries statistiques à deux variables
IUT du Littoral Côte d’Opale/CUEEP Littoral
EXERCICE 3
Sur une population de 250 individus, on a observé deux
caractères : l’un ayant pour modalités A et B, l’autre
X
ayant pour modalités X et Y. On sait que la fréquence
de la modalité X est 0,72 et on connaît les fréquences
A
conditionnelles fX (A) = 0,35 et fY (B) = 0,8.
B
Y
total
250
total
1. Recopier et compléter le tableau des effectifs.
2. En déduire la fréquence de la modalité A.
EXERCICE 4
On considère la série (xi ; yi ) ci-contre.
1. Construire le nuage de points A i (xi ; yi ) dans un repère
orthogonal.
2. Tracer la droite (A1 A6 ). Passe-t-elle par le point moyen
xi
1
2
3
4
5
6
yi
2,8
3,5
4,2
6
8,3
9
du nuage ?
EXERCICE 5
Une entreprise souhaite faire des prévisions sur son chiffre d’affaires. Ses chiffres d’affaires réalisés depuis 2004 sont donnés
dans le tableau suivant :
2004
2005
2006
2007
2008
2009
2010
2011
rang xi de l’année
0
1
2
3
4
5
6
7
chiffre d’affaires yi (en millions d’euros)
16
19
22
23
24
26
27
30
année
1. Dans un repère orthogonal du plan, représenter les huit points Mi (xi ; yi ). On prendra 1 cm en abscisse pour 1 unité et
1 cm en ordonnée pour 2 millions d’euros.
2. Soit G1 le point moyen du nuage formé par les points M1 , M2 , M3 , M4 , et soit G2 le point moyen du nuage formé par
les points M5 , M6 , M7 et M8 . Calculer les coordonnées de G1 et de G2 , puis donner une équation de la droite (G1G2 ).
3. On estime que la droite de Mayer (G1G2 ) est une bonne modélisation de l’évolution du chiffre d’affaires de l’entreprise.
Quel sera, selon ce modèle, le chiffre d’affaires qu’on peut prévoir pour 2012 ? pour 2014 ?
4. Toujours selon ce modèle, à partir de quelle année le chiffre d’affaires dépassera-t-il 45 millions d’euros ?
EXERCICE 6
On considère les séries doubles suivantes :
xi
2
5
6
10
12
xi
8
9
13
16
21
24
yi
83
70
70
54
49
yi
3
7
25
33
52
64
Pour chacune de ces séries, déterminer :
1. les coordonnées du point moyen G,
2. la covariance,
3. le coefficient de corrélation linéaire,
4. une équation de la droite de régression D x de y en x,
5. une équation de la droite de régression Dy de x en y.
– 12 –
Séries statistiques à deux variables
IUT du Littoral Côte d’Opale/CUEEP Littoral
EXERCICE 7
Le tableau suivant recense, par clinique, le nombre de postes du personnel non médical en fonction du nombre de lits de la
clinique :
clinique
C1
C2
C3
C4
C5
C6
C7
C8
C9
C10
C11
nombre de lits xi
122
177
77
135
109
88
185
128
120
146
100
nombre de postes yi
205
249
114
178
127
122
242
170
164
188
172
1. Représenter le nuage de points associé à la série statistique (xi ; yi ) dans le plan rapporté à un repère orthogonal en
prenant pour unités graphiques 1 cm pour 10 lits en abscisse et 1 cm pour 20 postes en ordonnée.
2. Déterminer le coefficient de corrélation linéaire entre x et y. Que peut-on en déduire ?
3.
a) Donner une équation de la droite de régression de y en x (pour les coefficients, on prendra les valeurs décimales
arrondies à 10−1 près). Tracer cette droite sur le schéma précédent.
b) Une clinique possède 35 lits. Combien devrait-elle embaucher de personnel occupant un poste non médical à
temps plein ?
c) En réalité, cette clinique dispose de 60 postes. Calculer la différence entre le nombre de postes réels et le nombre
de postes théorique obtenu précédemment.
Quel pourcentage cette différence représente-t-elle par rapport à la situation théorique ?
EXERCICE 8
L’étude d’une population animale en voie de disparition a donné les résultats suivants :
année
1950
1960
1970
1980
1990
2000
2010
0
10
20
30
40
50
60
250
110
30
8
rang de l’année xi
population yi (en milliers d’individus)
15 000 4 500 1 300
1. Un ajustement affine est-il indiqué dans cette situation ? Pourquoi ?
2. On pose zi = ln yi . Représenter le nuage Mi (xi ; zi ). Que peut-on constater ?
3. Pour ajuster ce dernier nuage, on choisit la droite (M1 M7 ), M1 étant le point du nuage d’abscisse 0 et M7 le point
d’abscisse 60.
a) Déterminer une équation de cette droite.
b) En déduire les nombres α et β tels que y = α β x .
c) Est-il étonnant que β soit inférieur à 1 ?
EXERCICE 9
Le tableau ci-dessous donne le montant annuel des dépenses du régime général de la Sécurité Sociale, en milliards d’euros, de
l’année 1991 à l’année 2000.
année
rang xi de l’année
dépenses yi (en M€)
1.
1991
1992
1993
1994
1995
1996
1997
1998
1999
2000
1
2
3
4
5
6
7
8
9
10
147,42
155,35
165,10
170,13
182,33
183,09
189,95
194,83
203,37
222,27
a) Représenter le nuage de points Mi (xi ; yi ) dans un repère orthogonal adapté.
b) Déterminer par le calcul les coordonnées de G, point moyen du nuage. Placer G sur le schéma précédent.
2.
a) G1 désigne le point moyen des 5 premiers points du nuage et G2 celui des 5 derniers. Déterminer par le calcul les
coordonnées de G1 et de G2 . Placer ces points sur le graphique précédent et tracer la droite (G1G2 ).
b) Donner l’équation de la droite de Mayer (G1G2 ) sous la forme y = αx + β.
– 13 –
Séries statistiques à deux variables
IUT du Littoral Côte d’Opale/CUEEP Littoral
c) Calculer la somme des carrés des résidus pour cet ajustement :
10
X
S1 =
i =1
3.
2
yi − (αxi + β) .
a) Déterminer l’équation y = ax + b de la droite des moindres carrés.
b) Calculer la somme des carrés des résidus pour cet ajustement :
S2 =
10
X
i =1
2
yi − (axi + b ) .
4. Des nombres S1 et S2 , quel est le plus petit ? Était-il besoin d’effectuer les calculs pour répondre à cette question ?
5.
a) En utilisant la droite des moindres carrés et en supposant que les dépenses vont évoluer de la même façon, donner
une prévision des dépenses de la Sécurité Sociale en 2005.
b) Donner aussi une prévision pour 2005 en utilisant la droite de Mayer.
EXERCICE 10
Dix adolescents droitiers s’exercent à lancer le poids, du bras droit puis du bras gauche. Les résultats obtenus (exprimés en
mètres) sont les suivants :
adolescent i
1
2
3
4
5
6
7
8
9
10
bras droit xi
5,5
7,1
5,8
6,4
6,0
6,2
7,2
5,6
6,8
5,6
bras gauche yi
4,1
6,2
4,0
5,5
4,9
4,7
6,0
4,9
5,0
3,9
On cherche à répondre, par deux méthodes différentes, aux deux questions suivantes :
(A) Quelle distance, avec le bras gauche, un adolescent peut-il espérer atteindre s’il lance le poids à 6,5 m du bras droit ?
(B) Quelle sera la performance, avec le bras droit, d’un adolescent qui lance le poids à 4,2 m du bras gauche ?
1. Calculer le coefficient de corrélation linéaire de la série (xi ; yi ). Un ajustement affine est-il approprié ?
2. Déterminer une équation de la droite de Mayer (G1G2 ) du nuage (xi ; yi ), où G1 est le point moyen du groupe formé
par les adolescents nos 1, 3, 5, 6 et 8 et où G2 est le point moyen du groupe restant. En déduire la réponse aux deux
questions A et B.
3. Déterminer, par la méthode des moindres carrés :
a) une équation de la droite de régression de y en x, ainsi qu’une réponse à la question A ;
b) une équation de la droite de régression de x en y, ainsi qu’une réponse à la question B.
EXERCICE 11
On considère les couples (xi ; yi ) suivants :
xi
1
2
3
4
5
6
7
8
9
10
yi
4
9
13
23
55
60
105
100
125
117
1. On pose ti = ln xi et zi = ln yi . Déterminer une équation de la droite de régression de z en t par la méthode des
moindres carrés.
2. En déduire la valeur des coefficients A et B pour lesquels la fonction puissance y = Ax B ajuste au mieux la série (xi ; yi ).
EXERCICE 12
Le tableau suivant donne le taux y (exprimé en %) de sortants du système éducatif sans aucun diplôme ou avec le niveau de
fin de primaire, rapporté au total des sortants.
année
rang xi de l’année
taux yi (en %)
1990
1991
1992
1993
1994
1995
1996
1997
1998
1999
1
2
3
4
5
6
7
8
9
10
21,3
18,5
17,2
16,6
15,4
15,1
13,2
14,2
13,6
13,4
– 14 –
Séries statistiques à deux variables
1.
IUT du Littoral Côte d’Opale/CUEEP Littoral
a) Représenter la série (xi ; yi ) dans un repère orthogonal d’unités graphiques 1 cm en abscisse et 0,5 cm en ordonnée.
b) Quel type d’ajustement suggère la forme de ce nuage ?
2. On pose ti = ln(xi ) et on considère la série statistique (ti ; yi ).
a) Donner une équation de la droite de régression de y en t . On arrondira les coefficients à 10−2 .
b) En déduire une relation entre y et x de la forme y = a ln x + b .
c) Estimer le taux de sortants non diplômés en 2007.
EXERCICE 13
L’entreprise Nile est spécialisée dans la livraison de produits conditionnés en colis cartonnés. On a observé l’évolution du
nombre de colis livrés par cette entreprise entre 2005 et 2013 :
2005
2006
2007
2008
2009
2010
2011
2012
2013
rang xi de l’année
1
2
3
4
5
6
7
8
9
nombre yi de colis
7438
9015
9948
10854
12309
12740
13622
13958
14630
année
1. Représenter graphiquement la série (xi ; yi ) dans un repère orthogonal (1 cm pour 1 année en abscisse et 1 cm pour
1000 colis en ordonnée).
2. On pose ti = ln(xi ) et zi = ln(yi ). On s’intéresse à présent à la série statistique (ti ; zi ).
a) Calculer le coefficient de corrélation linéaire de la série (ti ; zi ).
b) Déterminer une équation de la droite de régression de z en t par la méthode des moindres carrés.
c) En déduire une relation entre y et x de la forme y = αx β .
d) En déduire une estimation du nombre de colis livrés en 2014.
– 15 –