STATISTIQUES 1. Présentation des données 2. Nuage de points
Transcription
STATISTIQUES 1. Présentation des données 2. Nuage de points
STATISTIQUES Cours Terminale ES On observe que, dans certains cas, il semble exister un lien entre deux caractères statistiques quantitatifs (deux variables) sur une population ; par exemple, entre le poids et la taille d’un nouveau-né, entre le chiffre d’affaires et le montant des charges d’une société, entre la consommation et la vitesse d’une voiture. Il est alors intéressant d’étudier simultanément ces deux caractères. Nous pouvons alors présenter les résultats sous forme de tableaux ou de graphiques. 1. Présentation des données Exemple 1 La taille moyenne d’un jeune enfant est donnée, en fonction de son âge (en mois), dans le tableau suivant : Age xi (en mois) Taille y i (en cm) 6 9 12 15 18 21 24 27 30 33 66 71 74 77 80 83 85 88 90 92 Exemple 2 Lors d'essais de freinage d’un véhicule dans des conditions identiques, on a mesuré, pour différentes vitesses du véhicule, la distance nécessaire pour s’arrêter : Vitesse xi (en km/h) Distance d’arrêt y i (en m) 30 40 50 60 70 80 90 100 110 120 130 19 28 38 48 60 74 90 107 128 150 178 Exemple 3 Dans le tableau suivant, on donne le nombre de frères et sœurs d’un groupe de 10 personnes et la taille de ces personnes : Nombre de frères et sœurs xi Taille y i (en cm) 0 0 1 1 1 2 2 2 3 4 167 182 172 169 185 175 162 180 171 160 2. Nuage de points Sur une population donnée, étudions deux caractères. Pour chacun des n individus de cette population, notons xi et yi les valeurs prises par chacun de ces caractères, et présentons les données à l’aide de la série statistique à deux variables suivante : Valeur xi x1 x2 … xn Valeur y i y1 y2 … yn -1C. Lainé 1) Nuage de points Définition 1 : Dans un repère orthogonal, l’ensemble des points Mi de coordonnées ( xi ; y i ) (avec 1 ≤ i ≤ n) est appelé le nuage de points associé à cette série statistique à deux variables. Exemple : Le tableau ci-dessous donne l'évolution du nombre d'éléphants dans une réserve depuis sa création en 1988. Année 1988 Rang de l'année xi 0 Effectif yi 144 1990 1992 1994 1996 1998 164 210 238 266 316 Représenter le nuage de points associé à cette série statistique. y 350 300 250 200 150 100 50 0 1 2 3 4 5 6 7 8 9 10 x Remarques : • Lorsqu'on étudie une série chronologique, on préfère parfois considérer le rang de l'année, plutôt que l'année elle-même. Cela permet de simplifier les calculs. -2C. Lainé • Lorsqu'on dessine un nuage de points, on prend souvent comme origine un point judicieusement choisi, différent du point de coordonnées (0 ; 0) (dans notre exemple, nous avons pris le point de coordonnées (0 ; 100). Cela permet de visualiser "au mieux" le nuage. • En général, on choisit pour ce type de représentation un repère orthogonal (plutôt qu'orthonormal), toujours dans le but d'avoir un dessin clair devant les yeux. Lorsque l'échelle n'est pas imposée par l'énoncé, il faudra donc être capable de choisir cette dernière, de manière à ce que tous les points du nuage soient présents sur le graphique. •Il est primordial d'être capable d'obtenir un nuage de points donné sur la calculatrice. 2) Notion d’ajustement Voici les nuages de points des exemples1, 2 et 3 du 1. : Distance de freinage d'un véhicule 100 90 80 70 60 50 40 30 20 10 0 Distance d'arrêt (en m) Taille (en cm) Taille d'un jeune enfant 0 10 20 30 200 180 160 140 120 100 80 60 40 20 0 0 40 50 100 150 Vitesse (en km/h) Age (en mois) Taille et nombre de frères et soeurs d'une personne 190 Taille (en cm) 185 180 175 170 165 160 155 0 1 2 3 4 5 Nombre de frères et soeurs Pour chaque nuage, on essaye de trouver une fonction f telle que la courbe d’équation y = f ( x ) « passe le plus près possible » des points du nuage. C’est la notion d’ajustement. Dans l’exemple 1 …………………………………………………………………………………………………………… …………………………………………………………………………………………………………… Dans l’exemple 2 …………………………………………………………………………………………………………… …………………………………………………………………………………………………………… Dans l’exemple 3 …………………………………………………………………………………………………………… …………………………………………………………………………………………………………… -3C. Lainé 3. Point moyen, variance et covariance 1) Point moyen Soit un nuage de points Mi ( xi ; y i ) . Définition 2 : …………………………………………………………………………………………... …………………………………………………………………………………………………………… …………………………………………………………………………………………………………… Exemple : Reprenons l’exemple avec les éléphants (exemple du 1) du 2.). Année 1988 Rang de l'année xi 0 Effectif yi 144 1990 1992 1994 1996 1998 164 210 238 266 316 Déterminer les coordonnées du point moyen du nuage de points. …………………………………………………………………………………………………………… …………………………………………………………………………………………………………… …………………………………………………………………………………………………………… 2) Obtention des coordonnées du point moyen grâce à la calculatrice Texas Instrument (TI 80) Casio Graph 25 STAT 1 : Edit… permet d’entrer les valeurs de x dans L1, puis celles de y dans L2 STAT CALC 2 : 2-VAR Stats ( 2nd L1 puis Dans le menu STAT, entrer les valeurs de x dans List 1, puis celles de y dans List 2. CALC SET , entrer dans 2VarXList : List 1 , 2nd L2 ) ENTER 2VarYList : List 2 Ceci nous donne x et y . EXE puis Calc 2-Var On obtient alors x et y . Casio Algebra Casio ClassPad 300 Voir polycopié Voir polycopié 3) Variance et covariance Pour étudier la dispersion de chaque variable x et y, on peut calculer leurs variances : 2 2 2 2 1 n 1 n 2 1 n 1 n 2 Vx = xi − x = xi − x et Vy = yi − y = yi − y . n i =1 n i =1 n i =1 n i =1 Mais il est utile d’introduire une quantité qui fasse intervenir à la fois les valeurs de x et de y. ∑( ) ∑ ∑( ) ∑ -4C. Lainé Définition 3 : …………………………………………………………………………………………... …………………………………………………………………………………………………………… …………………………………………………………………………………………………………… Exemple : Reprenons l’exemple précédent. 1 C xy = × ( 0 × 144 + 2 × 164 + 4 × 210 + 6 × 238 + 8 × 266 + 10 × 316 ) − 5 × 223 = 199 . 6 4. Méthode de détermination d’une droite d’ajustement Lorsque les points du nuage paraissent presque alignés, on peut chercher une relation de la forme y = ax + b qui exprime de façon approchée y en fonction de x, autrement dit, une fonction affine f telle que l’égalité y = f ( x ) s’ajuste au mieux avec les données. Graphiquement, cela signifie qu’on cherche une droite qui passe au plus près de tous les points du nuage. Une telle relation permettrait notamment de faire des prévisions. 1) La méthode de Mayer Le nuage de points est séparé en deux sous nuages (après avoir trié les points par ordre d’abscisses croissantes). On détermine ensuite les coordonnées des points moyens G1 du premier sous nuage et G2 du second sous nuage. On trace la droite (G1G2), qu’on appelle droite de Mayer, passant par ces deux points et on en cherche l’équation. Exemple : Reprenons l’exemple avec les éléphants (exemple du 1) du 2.). Année 1988 Rang de l'année xi 0 Effectif yi 144 1990 1992 1994 1996 1998 164 210 238 266 316 a) Calculer les coordonnées des points G1 et G2. b) Placer G1 et G2 sur le graphique de la page 2 et tracer la droite passant par ces 2 points. c) Déterminer l’équation de la droite (G1G2). d) À l’aide de l’équation de la droite (G1G2), faire une prévision sur le nombre d’éléphants en 2008. ...………………………………………………………………………………………………………… …………………………………………………………………………………………………………… …………………………………………………………………………………………………………… …………………………………………………………………………………………………………… …………………………………………………………………………………………………………… …………………………………………………………………………………………………………… …………………………………………………………………………………………………………… -5C. Lainé Pour mesurer la qualité d’une telle formule, on considère, pour chaque valeur xi , la différence entre la valeur observée, c’est à dire y i , et la valeur calculée par la formule, c’est à dire axi + b . On souhaite que toutes les différences : y i − axi − b appelées erreurs, ou résidus, ou perturbations, soient les plus petites possible. La méthode la plus couramment employée, dite méthode des moindres carrés, consiste à choisir a et b de façon que la somme des carrés des résidus soit la plus petite possible. 2) Ajustement de y en x par la méthode des moindres carrés On considère par la suite un nuage de points A i ( xi ; y i ) (avec 1 ≤ i ≤ n). Définition 4 : ............................................................................................................................. .................................................................................................................................................... .................................................................................................................................................... .................................................................................................................................................... 2) Droite de régression de y en x Propriété 1 (admise) : ............................................................................................................... .................................................................................................................................................... .................................................................................................................................................... .................................................................................................................................................... ................................................................................................................................................... ................................................................................................................................................... -6C. Lainé Utilisation de la calculatrice pour la détermination de l’équation de la droite de régression : Texas Instrument (TI 80) Casio Graph 25 Dans le menu STAT, entrer les valeurs de x dans List 1, puis celles de y dans List 2. STAT 1 : Edit… permet d’entrer les valeurs de x dans L1, puis celles de y dans L2 STAT CALC 3 : LINREG(aX+b) (2nd L1 CALC SET , entrer dans 2VarXList : List 1 puis 2VarYList : List 2 , 2nd L2 ) ENTER EXE puis Calc Reg 1-Linear Ceci nous donne les nombres a et b Ceci nous donne les nombres a et b Casio Algebra Casio ClassPad 300 Voir polycopié Voir polycopié 3) Application Considérons la série : xi 10 11 13 15 17 18 yi 105 107 110 111 112 115 a) Placer, dans un repère orthogonal, le nuage de points Ai(xi ; yi) et constater que la forme « allongée » du nuage justifie un ajustement affine. b) Placer le point moyen G de ce nuage. c) Tracer la droite d de régression de y en x. .................................................................................................................................................... .................................................................................................................................................... .................................................................................................................................................... .................................................................................................................................................... .................................................................................................................................................... -7C. Lainé y 119 118 117 116 115 114 113 112 111 110 109 108 107 106 105 104 103 102 101 100 9 99 10 11 12 13 14 15 16 17 18 19 20 x c) Utilisons un tableau pour déterminer les coefficients de la droite de régression de y en x. xi yi 10 105 11 107 13 110 15 111 17 112 18 115 xi − x yi − y (x i )( − x yi − y ) (x i −x ) 2 Total .................................................................................................................................................... .................................................................................................................................................... .................................................................................................................................................... .................................................................................................................................................... .................................................................................................................................................... d) On peut en déduire par interpolation : - la valeur de y correspondant à x = 16 : ................................................................................. - la valeur de x correspondant à y = 113 : ............................................................................... -8C. Lainé On peut en déduire par interpolation : - la valeur de y correspondant à x = 20 : ................................................................................. - la valeur de x correspondant à y = 120 : ............................................................................... 5. Alignement de points et lien de causalité On considère le tableau suivant : ti : Année xi : Nombre d’inscrits dans un club de belote 1995 1996 1997 1998 1999 2000 2001 48 53 57 62 68 73 77 7000 7450 8000 8500 9050 9550 10000 y i : Nombre de hamburgers vendus dans un restaurant de Moscou 1) Placer dans un repère orthogonal le nuage de points (ti ; xi) et constater que sa forme allongée justifie un ajustement affine. 2) Placer dans un autre repère orthogonal le nuage de points (ti ; yi) et constater que sa forme allongée justifie sa forme affine. 3) a) Placer dans un troisième repère le nuage de points (xi ; yi) et constater que sa forme allongée justifie un ajustement affine. b) Vérifier que la droite de régression de y en x admet comme équation y = 103x + 2057 et tracer cette droite. -9C. Lainé