STATISTIQUES 1. Présentation des données 2. Nuage de points

Transcription

STATISTIQUES 1. Présentation des données 2. Nuage de points
STATISTIQUES
Cours
Terminale ES
On observe que, dans certains cas, il semble exister un lien entre deux caractères
statistiques quantitatifs (deux variables) sur une population ; par exemple, entre le poids et
la taille d’un nouveau-né, entre le chiffre d’affaires et le montant des charges d’une société,
entre la consommation et la vitesse d’une voiture.
Il est alors intéressant d’étudier simultanément ces deux caractères.
Nous pouvons alors présenter les résultats sous forme de tableaux ou de graphiques.
1. Présentation des données
Exemple 1
La taille moyenne d’un jeune enfant est donnée, en fonction de son âge (en mois), dans le
tableau suivant :
Age xi
(en mois)
Taille y i
(en cm)
6
9
12
15
18
21
24
27
30
33
66
71
74
77
80
83
85
88
90
92
Exemple 2
Lors d'essais de freinage d’un véhicule dans des conditions identiques, on a mesuré, pour
différentes vitesses du véhicule, la distance nécessaire pour s’arrêter :
Vitesse xi
(en km/h)
Distance d’arrêt
y i (en m)
30
40
50
60
70
80
90
100
110
120
130
19
28
38
48
60
74
90
107
128
150
178
Exemple 3
Dans le tableau suivant, on donne le nombre de frères et sœurs d’un groupe de 10
personnes et la taille de ces personnes :
Nombre de frères
et sœurs xi
Taille y i
(en cm)
0
0
1
1
1
2
2
2
3
4
167
182
172
169
185
175
162
180
171
160
2. Nuage de points
Sur une population donnée, étudions deux caractères.
Pour chacun des n individus de cette population, notons xi et yi les valeurs prises par
chacun de ces caractères, et présentons les données à l’aide de la série statistique à deux
variables suivante :
Valeur xi
x1
x2
…
xn
Valeur y i
y1
y2
…
yn
-1C. Lainé
1) Nuage de points
Définition 1 : Dans un repère orthogonal, l’ensemble des points Mi de coordonnées
( xi
; y i ) (avec 1 ≤ i ≤ n) est appelé le nuage de points associé à cette série statistique à
deux variables.
Exemple : Le tableau ci-dessous donne l'évolution du nombre d'éléphants dans une
réserve depuis sa création en 1988.
Année
1988
Rang de l'année xi
0
Effectif yi
144
1990
1992
1994
1996
1998
164
210
238
266
316
Représenter le nuage de points associé à cette série statistique.
y
350
300
250
200
150
100
50
0
1
2
3
4
5
6
7
8
9
10
x
Remarques :
• Lorsqu'on étudie une série chronologique, on préfère parfois considérer le rang de l'année,
plutôt que l'année elle-même. Cela permet de simplifier les calculs.
-2C. Lainé
• Lorsqu'on dessine un nuage de points, on prend souvent comme origine un point
judicieusement choisi, différent du point de coordonnées (0 ; 0) (dans notre exemple, nous
avons pris le point de coordonnées (0 ; 100). Cela permet de visualiser "au mieux" le nuage.
• En général, on choisit pour ce type de représentation un repère orthogonal (plutôt
qu'orthonormal), toujours dans le but d'avoir un dessin clair devant les yeux.
Lorsque l'échelle n'est pas imposée par l'énoncé, il faudra donc être capable de choisir cette
dernière, de manière à ce que tous les points du nuage soient présents sur le graphique.
•Il est primordial d'être capable d'obtenir un nuage de points donné sur la calculatrice.
2) Notion d’ajustement
Voici les nuages de points des exemples1, 2 et 3 du 1. :
Distance de freinage d'un véhicule
100
90
80
70
60
50
40
30
20
10
0
Distance d'arrêt (en m)
Taille (en cm)
Taille d'un jeune enfant
0
10
20
30
200
180
160
140
120
100
80
60
40
20
0
0
40
50
100
150
Vitesse (en km/h)
Age (en mois)
Taille et nombre de frères et soeurs
d'une personne
190
Taille (en cm)
185
180
175
170
165
160
155
0
1
2
3
4
5
Nombre de frères et soeurs
Pour chaque nuage, on essaye de trouver une fonction f telle que la courbe d’équation
y = f ( x ) « passe le plus près possible » des points du nuage.
C’est la notion d’ajustement.
Dans l’exemple 1
……………………………………………………………………………………………………………
……………………………………………………………………………………………………………
Dans l’exemple 2
……………………………………………………………………………………………………………
……………………………………………………………………………………………………………
Dans l’exemple 3
……………………………………………………………………………………………………………
……………………………………………………………………………………………………………
-3C. Lainé
3. Point moyen, variance et covariance
1) Point moyen
Soit un nuage de points Mi ( xi ; y i ) .
Définition 2 : …………………………………………………………………………………………...
……………………………………………………………………………………………………………
……………………………………………………………………………………………………………
Exemple : Reprenons l’exemple avec les éléphants (exemple du 1) du 2.).
Année
1988
Rang de l'année xi
0
Effectif yi
144
1990
1992
1994
1996
1998
164
210
238
266
316
Déterminer les coordonnées du point moyen du nuage de points.
……………………………………………………………………………………………………………
……………………………………………………………………………………………………………
……………………………………………………………………………………………………………
2) Obtention des coordonnées du point moyen grâce à la calculatrice
Texas Instrument (TI 80)
Casio Graph 25
STAT 1 : Edit… permet d’entrer les
valeurs de x dans L1, puis celles de y
dans L2
STAT CALC 2 : 2-VAR Stats
( 2nd L1
puis
Dans le menu STAT, entrer les valeurs
de x dans List 1, puis celles de y dans
List 2.
CALC
SET , entrer dans 2VarXList : List 1
, 2nd L2 ) ENTER
2VarYList : List 2
Ceci nous donne x et y .
EXE puis Calc 2-Var
On obtient alors x et y .
Casio Algebra
Casio ClassPad 300
Voir polycopié
Voir polycopié
3) Variance et covariance
Pour étudier la dispersion de chaque variable x et y, on peut calculer leurs variances :
2
2
2
2
1 n
1 n 2
1 n
1 n 2
Vx =
xi − x =
xi − x et Vy =
yi − y =
yi − y .
n i =1
n i =1
n i =1
n i =1
Mais il est utile d’introduire une quantité qui fasse intervenir à la fois les valeurs de x et de y.
∑(
)
∑
∑(
)
∑
-4C. Lainé
Définition 3 : …………………………………………………………………………………………...
……………………………………………………………………………………………………………
……………………………………………………………………………………………………………
Exemple : Reprenons l’exemple précédent.
1
C xy = × ( 0 × 144 + 2 × 164 + 4 × 210 + 6 × 238 + 8 × 266 + 10 × 316 ) − 5 × 223 = 199 .
6
4. Méthode de détermination d’une droite d’ajustement
Lorsque les points du nuage paraissent presque alignés, on peut chercher une relation
de la forme y = ax + b qui exprime de façon approchée y en fonction de x, autrement dit,
une fonction affine f telle que l’égalité y = f ( x ) s’ajuste au mieux avec les données.
Graphiquement, cela signifie qu’on cherche une droite qui passe au plus près de tous les
points du nuage.
Une telle relation permettrait notamment de faire des prévisions.
1) La méthode de Mayer
Le nuage de points est séparé en deux sous nuages (après avoir trié les points par ordre
d’abscisses croissantes).
On détermine ensuite les coordonnées des points moyens G1 du premier sous nuage et
G2 du second sous nuage.
On trace la droite (G1G2), qu’on appelle droite de Mayer, passant par ces deux points et on
en cherche l’équation.
Exemple : Reprenons l’exemple avec les éléphants (exemple du 1) du 2.).
Année
1988
Rang de l'année xi
0
Effectif yi
144
1990
1992
1994
1996
1998
164
210
238
266
316
a) Calculer les coordonnées des points G1 et G2.
b) Placer G1 et G2 sur le graphique de la page 2 et tracer la droite passant par ces
2 points.
c) Déterminer l’équation de la droite (G1G2).
d) À l’aide de l’équation de la droite (G1G2), faire une prévision sur le nombre
d’éléphants en 2008.
...…………………………………………………………………………………………………………
……………………………………………………………………………………………………………
……………………………………………………………………………………………………………
……………………………………………………………………………………………………………
……………………………………………………………………………………………………………
……………………………………………………………………………………………………………
……………………………………………………………………………………………………………
-5C. Lainé
Pour mesurer la qualité d’une telle formule, on considère, pour chaque valeur xi , la
différence entre la valeur observée, c’est à dire y i , et la valeur calculée par la formule, c’est
à dire axi + b . On souhaite que toutes les différences : y i − axi − b appelées erreurs, ou
résidus, ou perturbations, soient les plus petites possible.
La méthode la plus couramment employée, dite méthode des moindres carrés, consiste à
choisir a et b de façon que la somme des carrés des résidus soit la plus petite
possible.
2) Ajustement de y en x par la méthode des moindres carrés
On considère par la suite un nuage de points A i ( xi ; y i ) (avec 1 ≤ i ≤ n).
Définition 4 : .............................................................................................................................
....................................................................................................................................................
....................................................................................................................................................
....................................................................................................................................................
2) Droite de régression de y en x
Propriété 1 (admise) : ...............................................................................................................
....................................................................................................................................................
....................................................................................................................................................
....................................................................................................................................................
...................................................................................................................................................
...................................................................................................................................................
-6C. Lainé
Utilisation de la calculatrice pour la détermination de l’équation de la droite de régression :
Texas Instrument (TI 80)
Casio Graph 25
Dans le menu STAT, entrer les valeurs de
x dans List 1, puis celles de y dans List 2.
STAT 1 : Edit… permet d’entrer les
valeurs de x dans L1, puis celles de y
dans L2
STAT CALC 3 : LINREG(aX+b)
(2nd L1
CALC
SET , entrer dans 2VarXList : List 1
puis
2VarYList : List 2
, 2nd L2 ) ENTER
EXE puis Calc Reg 1-Linear
Ceci nous donne les nombres a et b
Ceci nous donne les nombres a et b
Casio Algebra
Casio ClassPad 300
Voir polycopié
Voir polycopié
3) Application
Considérons la série :
xi
10
11
13
15
17
18
yi
105
107
110
111
112
115
a) Placer, dans un repère orthogonal, le nuage de points Ai(xi ; yi) et constater que la
forme « allongée » du nuage justifie un ajustement affine.
b) Placer le point moyen G de ce nuage.
c) Tracer la droite d de régression de y en x.
....................................................................................................................................................
....................................................................................................................................................
....................................................................................................................................................
....................................................................................................................................................
....................................................................................................................................................
-7C. Lainé
y
119
118
117
116
115
114
113
112
111
110
109
108
107
106
105
104
103
102
101
100
9
99
10
11
12
13
14
15
16
17
18
19
20 x
c) Utilisons un tableau pour déterminer les coefficients de la droite de régression de y en x.
xi
yi
10
105
11
107
13
110
15
111
17
112
18
115
xi − x
yi − y
(x
i
)(
− x yi − y
)
(x
i
−x
)
2
Total
....................................................................................................................................................
....................................................................................................................................................
....................................................................................................................................................
....................................................................................................................................................
....................................................................................................................................................
d) On peut en déduire par interpolation :
- la valeur de y correspondant à x = 16 : .................................................................................
- la valeur de x correspondant à y = 113 : ...............................................................................
-8C. Lainé
On peut en déduire par interpolation :
- la valeur de y correspondant à x = 20 : .................................................................................
- la valeur de x correspondant à y = 120 : ...............................................................................
5. Alignement de points et lien de causalité
On considère le tableau suivant :
ti : Année
xi : Nombre d’inscrits
dans un club de belote
1995
1996
1997
1998
1999
2000
2001
48
53
57
62
68
73
77
7000
7450
8000
8500
9050
9550
10000
y i : Nombre de
hamburgers vendus
dans un restaurant de
Moscou
1) Placer dans un repère orthogonal le nuage de points (ti ; xi) et constater que sa forme
allongée justifie un ajustement affine.
2) Placer dans un autre repère orthogonal le nuage de points (ti ; yi) et constater que sa
forme allongée justifie sa forme affine.
3) a) Placer dans un troisième repère le nuage de points (xi ; yi) et constater que sa
forme allongée justifie un ajustement affine.
b) Vérifier que la droite de régression de y en x admet comme équation
y = 103x + 2057 et tracer cette droite.
-9C. Lainé