SÉRIES STATISTIQUES À DEUX VARIABLES
Transcription
SÉRIES STATISTIQUES À DEUX VARIABLES
GEA1 – MATHÉMATIQUES POUR LA GESTION ET STATISTIQUES (M1205) SÉRIES STATISTIQUES À DEUX VARIABLES Lors de l’étude des phénomènes économiques, il est courant d’avoir affaire à plus d’une variable statistique (on parle alors d’analyse statistique multivariée) : pour chaque observation, on recueille plusieurs informations. Ceci complique énormément la construction des tableaux statistiques et la production de graphiques résumant ces études. Nous nous contenterons, dans ce chapitre, d’étudier les séries à deux variables (analyse statistique bivariée). 1 Tableau de contingence, fréquences marginales, fréquences conditionnelles On s’intéresse donc à un couple de caractères, noté, dans ce qui suit, (x ; y), selon lesquels on va répartir l’ensemble de la population. Lorsque l’on se réfère à x et y en tant que séries univariées, on emploie le qualificatif « marginal ». Ainsi, les séries x et y sont appelées les séries marginales. Notons x1 , x2 , . . . , xk les k modalités que peut prendre le caractère x, et y1 , y2 , . . . , yℓ les ℓ modalités que peut présenter le caractère y. On désignera par ni , j l’effectif du groupe d’individus présentant la modalité xi du caractère x et la modalité y j du caractère y. On rassemble toutes ces données dans un tableau de contingence (qui n’est autre qu’un tableau à double entrée) : caractère y caractère x x1 ... y1 ... yj n1,1 yℓ total n1,ℓ n1,• .. . .. . ni , j xi ni ,• .. . .. . xk nk,1 total n•,1 ... ... n• , j nk,ℓ nk,• n•,ℓ n L’effectif de la modalité xi (du caractère x) sera noté ni ,• et celui de la modalité y j (du caractère y) sera noté n•, j ; ce sont les effectifs marginaux de la série. On a donc n i ,• = ℓ X ni , j et n• , j = j =1 k X ni , j . i =1 L’effectif total, noté N, est ainsi la somme des ni ,• ou, ce qui revient au même, la somme des n•, j : N= k X i =1 n i ,• = ℓ k X X i =1 j =1 ni , j = ℓ X n• , j . j =1 Comme on l’a signalé, les séries marginales (xi , ni ,• ) et (y j , n•, j ) sont des séries à une variable ; lorsque les caractères correspondants sont quantitatifs, chacune de ces séries a donc une moyenne (x et y) et un écart type (σ x et σy ), qu’on qualifie naturellement de moyenne marginale et d’écart type marginal. Séries statistiques à deux variables IUT du Littoral Côte d’Opale/CUEEP Littoral On définit également la notion de fréquence, sur le même principe que pour les séries à une variable : fréquence = effectif c’est-à-dire effectif total fi , j = ni , j . N Les fréquences marginales sont alors f i ,• = ℓ X fi , j = j =1 ℓ 1 X N ni , j = n i ,• j =1 et N f• , j = k X fi , j = i =1 k 1 X N ni , j = n• , j i =1 N . Bien entendu, la somme des fréquences marginales fi ,• vaut 1, de même que la somme des fréquences marginales f•, j : k X f i ,• = i =1 ℓ X f• , j = j =1 k X ℓ X fi , j = 1. i =1 j =1 x EXEMPLE 1. On s’intéresse à la répartition des salaires des employés d’une grande entreprise, répartis par tranches d’âge : âge (en années) [18 ; 25[ (A) [25 ; 35[ (B) [35 ; 45[ (C) [45 ; 55[ (D) [55 ; 65[ (E) total (1) 122 107 58 21 6 314 [900 ; 1000[ (2) 125 131 86 24 11 377 [1000 ; 1200[ (3) 51 66 65 54 37 273 [1200 ; 1500[ (4) 38 27 70 73 31 239 [1500 ; 2000[ (5) 6 10 32 29 44 121 [2000 ; 3000[ (6) 0 5 18 15 20 58 [3000 ; 5000[ (7) 0 3 7 10 5 25 342 349 336 226 154 1407 salaire (en €) [800 ; 900[ total effectifs marginaux Dans cet exemple, les modalités du caractère x (le salaire) sont désignés par des nombres (1 pour la classe [800 ; 900[, 2 pour la classe [900 ; 1000[, . . . , 7 pour la classe [3000 ; 5000[) et celles du caractère y (l’âge) par des lettres (A pour la classe [18 ; 25[, B pour [25 ; 35[, . . . , E pour la classe [55 ; 65[). n1,A = 122 indique le nombre de salariés dont le salaire fait partie de l’intervalle [800 ; 900[ (modalité 1 du caractère x) et dont l’âge est dans l’intervalle [18 ; 25[ (modalité A du caractère y). Les effectifs marginaux sont les effectifs n1,• , n2,• , . . . , n7,• des modalités 1, 2, . . . , 7 du caractère x et les effectifs n•,A , n•,B , . . . , n•,E des modalités A, B, . . . , E ; ainsi, n3,• = n3,A + n3,B + n3,C + n3,D + n3,E = 273 est le nombre de salariés dont le salaire mensuel est dans l’intervalle [1000 ; 1200[, et n•,B = n1,B + n2,B + n3,B + n4,B + n5,B + n6,B + n7,B = 349 est le nombre de salariés dont l’âge (en années) fait partie de l’intervalle [25 ; 35[. La fréquence marginale f4,• est la fréquence de la modalité 4 du caractère x : f4,• = n4,• N = 239 1407 ≈ 0,1699 ≈ 16,99 %. La fréquence conditionnelle de la modalité xi (du caractère x) par rapport à la modalité y j (du caractère y) est le nombre fy j (xi ) = ni , j n• , j –2– = fi , j f• , j . Séries statistiques à deux variables IUT du Littoral Côte d’Opale/CUEEP Littoral Il donne la proportion d’individus présentant la modalité xi parmi ceux qui présentent la modalité y j ; on la qualifie d’ailleurs parfois de fréquence de xi sachant y j et on la note f (xi | y j ). De même, la fréquence conditionnelle de la modalité y j (du caractère y) par rapport à la modalité xi (du caractère x) est le nombre f xi (y j ) = ni , j = n i ,• fi , j f i ,• , noté aussi f (y j | xi ) (fréquence de y j sachant xi ), indiquant la proportion des individus présentant la modalité y j au sein du groupe de ceux qui présentent la modalité xi . Illustrons cette notion de fréquence conditionnelle par quelques calculs relatifs à l’exemple 1 : x parmi les employés dont le salaire est compris entre 900 € et 1000 €, la proportion de ceux dont l’âge est situé dans l’intervalle [45 ; 55[ est la fréquence conditionnelle de D par rapport à la modalité 2 : f2 (D) = n2,D n2,• = 24 377 ≈ 0,064 ≈ 6,4 % ; x la proportion d’employés dont le salaire est compris entre 900 € et 1000 € parmi ceux de la tranche 45–55 ans est la fréquence conditionnelle de 2 par rapport à C : f D (2) = n2,D n•,D = 24 226 ≈ 0,106 ≈ 10,6 %. 2 Nuage de points, point moyen Il est souvent très difficile de représenter graphiquement les séries bivariées, spécialement dans le cas continu ; il peut alors être commode d’avoir recours à des schémas à 3 dimensions (de la même façon que des schémas plans constituent d’excellentes représentations des séries univariées). Dans certains cas très particuliers (notamment lorsque les effectifs sont très faibles), on peut tout de même présenter de manière claire des séries bivariées à l’aide de diagrammes à 2 dimensions, comme le montrent les exemples suivants : x EXEMPLE 2. On interroge 40 foyers sur leurs équipements automobile et audiovisuel, autrement dit sur le nombre de voitures et d’écrans (de télévision et d’ordinateur — on a choisi d’exclure les smartphones et les tablettes) en leur possession. nombre nombre d’écrans de voitures 0 0 1 2 3 4 5 6 7 8 2 2 1 2 0 0 1 0 0 1 1 4 3 2 2 3 3 1 1 2 0 0 1 0 0 2 2 2 1 3 0 0 0 1 0 0 1 1 0 4 0 0 0 0 1 0 0 0 0 nombre de voitures Les résultats obtenus sont donnés dans le tableau de contingence précédent et sont représentés sur le schéma ci-dessous. 4 effectifs 3 1 foyer 2 2 foyers 1 3 foyers 0 4 foyers 0 1 2 3 4 5 6 7 8 nombre d’écrans (télévision/ordinateur) –3– Séries statistiques à deux variables IUT du Littoral Côte d’Opale/CUEEP Littoral x EXEMPLE 3. Le schéma ci-dessous indique les taux de participation des Français aux deux tours de l’élection présidentielle de 2012, en fonction de leur année de naissance (source : INSEE). Ici, les deux caractères considérés sont : x l’année de naissance (caractère quantitatif discret, mais nécessitant un regroupement en classes, car le nombre de modalités est trop grand), x la participation aux tours de l’élection (caractère qualitatif présentant 4 modalités). Ce type de diagramme est appelé en tuyaux d’orgue. Désormais, nous restreindrons encore davantage le cadre de notre étude, en nous plaçant dans le cas où les deux caractères considérés sont quantitatifs, avec des effectifs tous inférieurs ou égaux à 1. On obtient alors une série de couples — on ne conserve que ceux dont l’effectif est non nul — qui peut être indexée par un seul paramètre. Cette série sera ainsi notée (xi ; yi ), pour i = 1, 2, . . . , N. Graphiquement, ces couples correspondent à des points du plan, rapporté à un repère ; on dit que l’ensemble de ces points est le nuage de points associé à la série. x EXEMPLE 4. Lors d’un examen d’une durée de 4 heures, on a relevé la durée de composition (c’est-à-dire au bout de combien de temps chacun a rendu sa copie) et la note (sur 20) des 12 étudiants qui se sont présentés. numéro étudiant i 1 2 3 4 5 6 7 8 9 10 11 12 note xi 8 14 9 17 19 3 7 15 12 11 9 16 4h 3 h 50 1h 3 h 30 4h 4h durée de composition yi 2 h 45 3 h 25 2 h 15 3 h 15 2 h 50 3 h 30 Le point moyen du nuage est le point (noté habituellement G) dont les coordonnées sont les moyennes marginales de la série : G(x ; y). Pour l’exemple 3, on trouve, après calculs, les moyennes marginales suivantes : x ≈ 11,67 et y = 3 h 11 min 40 s ; on en déduit la position du point moyen sur le graphique ci-contre. –4– durée de composition (en heures) Le nuage de points correspondant figure sur le schéma ci-contre. 4 3 y G 2 1 0 0 2 4 6 8 x 10 12 14 16 18 20 note Séries statistiques à deux variables IUT du Littoral Côte d’Opale/CUEEP Littoral 3 Ajustements affines On peut avoir besoin d’effectuer une approximation du nuage par une courbe, dépendant de sa distribution (sa « forme »), afin d’obtenir, par exemple, une prévision d’un phénomène économique. C’est cette approximation que l’on appelle ajustement. Dans un premier temps, nous allons nous intéresser à des ajustements par des fonctions affines, ce qui n’a un sens que lorsque le nuage de points semble distribué le long d’une droite. 3.1 Ajustement affine par la droite de Mayer Une des méthodes les plus simples consiste à partager le nuage de points en deux groupes (choisis en fonction de la forme du nuage, mais, très souvent, on partage le nuage en deux groupes de points de même effectif). Chacun de ces nouveaux nuages admet un point moyen (G1 pour le premier nuage, G2 pour le second) ; la droite (G1G2 ), appelée droite de Mayer, constitue alors une approximation du nuage. x EXEMPLE 5. Les derniers recensements de la population de la ville de Carfain ont abouti aux données suivantes : année 1993 1995 1999 2002 2004 2006 2009 1 3 7 10 12 14 17 4,4 4,7 4,8 4,9 5,5 5,5 5,7 nombre d’années xi depuis 1992 population (en milliers d’habitants) population yi (en milliers d’habitants) 6 Compte tenu de la distribution des G1 4 points du nuage ci-contre (ils sont G2 groupe 2 5 « plus ou moins » alignés), un ajustement affine est ici approprié. groupe 1 Nous allons partager les points du 3 nuage représenté ci-contre en deux 2 groupes : le premier sera formé des 1 dant aux modalités 1 et 3 de x) et 0 deux premiers points (corresponle second des cinq derniers points 0 1 3 7 10 12 14 nombre d’années depuis 1992 17 20 (correspondant aux autres modalités de x). Chacun de ces nuages admet un point moyen (G1 pour le premier, G2 pour le second), dont on calcule les coordonnées : xG1 = pour G1 , et xG2 = 1+3 2 7 + 10 + 12 + 14 + 17 5 =2 et yG1 = = 12 et yG2 = 4,4 + 4,7 2 = 4,55 4,8 + 4,9 + 5,5 + 5,5 + 5,7 5 = 5,28 pour G2 . La droite de Mayer du nuage passe donc par les points G1 (2 ; 4,55) et G2 (12 ; 5,28). Déterminons à présent son équation. Elle admet une équation de la forme y = ax + b . Les points G1 et G2 lui appartiennent ; on aboutit donc au système ¨ 2a + b = 4,55 12a + b = 5,28. En soustrayant membre à membre ces deux équations, on trouve −10a = −0,73, d’où a = 0,073. Par suite : b = 4,55 − 2 × 0,073 = 4,404. –5– Séries statistiques à deux variables IUT du Littoral Côte d’Opale/CUEEP Littoral La droite de Mayer du nuage admet, par conséquent, pour équation y = 0,073x + 4,404. Elle nous permet d’obtenir, entre autres, une estimation de la population en 2012 ; pour ce faire, il suffit de calculer y pour x = 20 (car 20 années séparent 1992 et 2012) : y = 0,073 × 20 + 4,404 = 5, 864. On peut donc estimer que la population de cette ville devrait s’élever, en 2012, à 5864 habitants. Il est à noter que, bien entendu, la droite de Mayer d’un nuage dépend de la façon dont on forme les deux groupes de points, mais que le point moyen du nuage (G) se trouve sur la droite de Mayer, quel que soit le regroupement effectué. 3.2 Ajustement affine par la méthode des moindres carrés Le moyen le plus couramment employé pour approcher un nuage de points par une droite est la méthode des moindres carrés. L’objectif est ici de choisir la droite de telle sorte que la somme des carrés des « distances » entre les points du nuage et la droite soit la plus petite possible. On va préciser dans ce qui suit ce que l’on entend par « distance » (car ce terme n’est pas à prendre au sens mathématique habituel). La droite d’ajustement (droite de régression de y en x) que l’on cherche à obtenir, et que l’on notera D x , a pour équation y = ax + b . y A7 A5 A3 A1 Dx A4 A7 A8 A6 e7 B6 B7 B8 e8 A8 e6 A2 A6 x Plaçons-nous dans le cas général, en considérant le nuage formé par des points A1 (x1 ; y1 ), A2 (x2 ; y2 ), . . . , AN (xN ; yN ), et considérons les points B1 , B2 , . . . , BN , de mêmes abscisses que A1 , A2 , . . . , AN , mais situés sur la droite D x (d’équation y = ax + b ) ; autrement dit, les ordonnées des points B1 , B2 , . . . , BN sont respectivement ax1 + b , ax2 + b , . . . , axN + b . 2 L’écart absolu ei = A i B i , ou résidu (qui mesure la distance entre les points A i et B i ), a donc pour carré ei2 = yi −(axi +b ) . La méthode des moindres carrés consiste à trouver les coefficients a et b pour lesquels la somme N X i =1 A i B2i = N X i =1 ei2 = N X yi − (axi + b ) i =1 2 est minimale (la droite d’équation y = ax + b est alors la plus « proche » des points A1 , A2 , . . . , AN ). Des calculs élémentaires montrent que, sous cette contrainte, le coefficient directeur de la droite D x et son ordonnée à l’origine sont donnés par les formules a= N X (xi − x)(yi − y) i =1 N X et (xi − x) b = y − ax, 2 i =1 la dernière égalité traduisant le fait que le point moyen du nuage se trouve sur la droite de régression D x . Puisque la variance de x est V(x) = σ2x = N 1 X N i =1 –6– (xi − x)2 , Séries statistiques à deux variables IUT du Littoral Côte d’Opale/CUEEP Littoral on est naturellement amené à définir la covariance de x et y, notée Cov(x, y) ou σ x,y , par la formule Cov(x, y) = N 1 X N (xi − x)(yi − y). i =1 C’est une « généralisation » à deux variables statistiques de la notion de variance ; en effet, Cov(x, x) = V(x). La covariance de x et y est l’expression qui apparaît naturellement lorsque l’on calcule la variance de la variable (x + y) : V(x + y) = σ2x+y = σ2x + 2σ x,y + σy2 = V(x) + 2Cov(x, y) + V(y), (qui rappelle l’identité remarquable (a + b )2 = a 2 + 2ab + b 2 ). De la même façon que V(x) = σ2x = N 1 X N (xi − x)2 = i =1 N 1 X N i =1 xi2 − x 2 (cette dernière égalité constitue le théorème de König–Huygens), on prouve que Cov(x, y) = N 1 X N (xi − x)(yi − y) = i =1 N 1 X N xi yi − x y. i =1 En résumé, la droite de régression D x , de y en x, a pour équation y = ax + b , avec a= Cov(x, y) V(x) σ x,y = et σ2x b = y − ax. On peut également déterminer la droite de régression de x en y du nuage : il s’agit de la droite d’équation x = ay + b pour laquelle la somme N X i =1 x − (ayi + b ) |i {z } = ei′ = A i B′i 2 est minimale (les écarts absolus ei′ sont cette fois mesurés parallèlement à l’axe des x). y Dy A8 A7 e8′ A6 A4 A1 A2 A8 A5 B′7 A3 B′8 A7 e7′ x On démontre que ce minimum est atteint pour la droite Dy d’équation x = ay + b (autrement dit, y = coefficients a et b sont donnés par les formules a= Cov(x, y) V(y) = σ x,y et σy2 1 a (x − b )), où les b = x − ay. On peut remarquer que ce sont les mêmes formules que pour la droite D x ; seuls x et y y ont été intervertis. Revenons sur la situation présentée à l’exemple 5 et essayons de donner une prévision de la population de Carfain en 2012 par la méthode des moindres carrés. Le point moyen du nuage est G(x ; y), avec x= 1 + 3 + 7 + 10 + 12 + 14 + 17 7 = 64 7 ≈ 9,1429 et y= –7– 4,4 + 4,7 + 4,8 + 4,9 + 5,5 + 5,5 + 5,7 7 = 35,5 7 ≈ 5,0714. Séries statistiques à deux variables IUT du Littoral Côte d’Opale/CUEEP Littoral La droite de régression D x , de y en x, a pour équation y = ax + b , avec 1 × 1 × 4,4 + 3 × 4,7 + 7 × 4,8 + 10 × 4,9 + 12 × 5,5 + 14 × 5,5 + 17 × 5,7 − 9,1429 × 5,0714 Cov(x, y) ≈ 0,081 a= ≈ 7 1 2 V(x) × 1 + 32 + 72 + 102 + 122 + 142 + 172 − 9,14292 7 et b = y − ax ≈ 5,0714 − 0,081 × 9,1429 ≈ 4,331. Par conséquent, pour x = 20 (ce qui correspond à l’année 2012), on trouve y = 0,081 × 20 + 4,331 = 5,951. Selon ce modèle, on peut estimer la population de Carfain, en 2012, à 5951 habitants. (Pour mémoire, avec la droite de Mayer, on avait obtenu 5864 habitants.) La droite de régression Dy de x en y, quant à elle, a pour équation x = ay + b , avec 1 a= Cov(x, y) V(x) ≈ 7 × 1 × 4,4 + 3 × 4,7 + 7 × 4,8 + 10 × 4,9 + 12 × 5,5 + 14 × 5,5 + 17 × 5,7 − 9,1429 × 5,0714 1 7 et 2 2 2 2 2 2 × 4,4 + 4,7 + 4,8 + 4,9 + 5,5 + 5,5 + 5,7 2 − 5,0714 ≈ 11,297 2 b = x − ay ≈ −48,147. Pour trouver la valeur de y correspondant à x = 20, on résout l’équation 11,297y − 48,147 = 20 ⇐⇒ 11,297y = 20 + 48,147 = 68,147 ⇐⇒ y = 68,147 11,297 ≈ 6,033 modèle. Pour mieux visualiser les différences obtenues entre les résultats, représentons le nuage de points avec les 3 droites déterminées jusque-là : (G1G2 ), D x et Dy . population (en milliers d’habitants) d’où 6033 habitants selon ce Dy 6 G 5 Dx G2 G1 4 0 1 3 7 10 12 14 nombre d’années depuis 1992 17 20 On définit le coefficient de corrélation linéaire de la série (xi ; yi ) ; il s’agit du nombre σ x,y Cov(x, y) = . r x,y = p V(x) V(y) σ x σy Ce réel r x,y , exprimé sans unité, fait toujours partie de l’intervalle [−1 ; 1]. Lorsque r x,y est proche de 1 ou de −1, cela traduit une forte dépendance (statistique) affine entre les valeurs de x et celles de y et motive un ajustement affine entre les deux variables. Plus r x,y est proche de 0, moins les points du nuage sont répartis le long d’une ligne droite ; il faut alors envisager un autre type d’ajustement (cf. paragraphe suivant), sous réserve que le nuage ait une forme « allongée ». Attention ! Même une corrélation linéaire parfaite (r = ±1) ne garantit pas l’existence d’un lien de cause à effet entre les variables x et y. Dans le cas de l’exemple 5, le calcul du coefficient de corrélation linéaire donne r x,y = Cov(x, y) σ x σy ≈ 2,347 5,383 × 0,456 –8– ≈ 0,956. Séries statistiques à deux variables IUT du Littoral Côte d’Opale/CUEEP Littoral Ceci indique qu’un ajustement affine est tout à fait adapté à la situation. Il est à noter que, de plus en plus, pour laisser de côté le signe du coefficient r x,y (qui n’a que peu d’importance), on préfère s’intéresser au coefficient de détermination de la série, qui n’est autre que le carré de r x,y . 4 Autres ajustements Un ajustement affine est pertinent lorsque les points du nuage semblent être répartis le long d’une ligne droite. Lorsque le nuage est « allongé » mais a une autre forme, on a recours à un ajustement différent ; il en existe de nombreux, reposant sur différentes familles de fonctions : les fonctions logarithmes, exponentielles, puissances, logistiques, etc. 4.1 Ajustement exponentiel Pour les phénomènes à croissance forte ou à décroissance rapide, il peut être pertinent d’approcher la forme générale du nuage par une fonction exponentielle de la forme x 7→ ea x+b ou x 7→ αe x + β. Pour déterminer les valeurs de a et b , ou de α et β, on effectue un ajustement affine (par exemple, par la méthode des moindres carrés) sur la série (xi ; ln yi ) ou la série (e xi ; yi ). x EXEMPLE 6. Le tableau ci-dessous indique le salaire brut annuel, en euros, perçu par un cadre. Le coefficient de corrélation linéaire entre x et année y est tout à fait honorable (r x,y ≈ 0,988), mais 2005 2006 2007 2008 2009 1 2 3 4 5 la répartition des points au sein du nuage laisse rang xi de l’année à penser que l’augmentation du salaire de ce salaire yi (en €) 42 900 54 200 64 100 81 600 102 000 cadre est de plus en plus rapide au fil des an- zi = ln(yi ) 10,666 10,900 11,068 11,310 11,533 nées, phénomène que ne modéliserait pas une 1 000 000 ligne droite. 500 000 400 000 300 000 110000 200 000 C 100 000 100000 50 000 40 000 30 000 20 000 80000 10 000 5 000 4 000 3 000 70000 salaire brut annuel (en €) salaire brut annuel (en €) 90000 60000 50000 40 000 30000 20000 10000 0 0 1 2 3 4 rang de l’année 2 000 1 000 500 400 300 200 100 50 40 30 20 10 5 4 3 5 2 1 1 2 3 4 5 rang de l’année Le coefficient de corrélation linéaire entre x et z = ln(y) est très bon (r x,z ≈ 0,999), ce qui justifie un ajustement affine. Par la méthode des moindres carrés, on trouve une droite de régression D x de z en x, d’équation z = 0,21x + 10,45. On en déduit –9– Séries statistiques à deux variables IUT du Littoral Côte d’Opale/CUEEP Littoral que les points A i (xi ; yi ) du nuage sont répartis autour de la courbe C d’équation ln y = 0,21x + 10,45 ⇐⇒ y = e0,21x+10,45 = e0,21x e10,45 ⇐⇒ y = 34 544 e0,21x Sur le schéma ci-dessus, à droite, on a construit le même nuage — ce sont les mêmes points A i (xi ; yi ) — dans un repère semi-logarithmique : un des axes est gradué régulièrement et, sur l’autre, on place des graduations aux nombres ln k (avec k entier) : ln 1, ln 2, ln 3, . . . , ln 9, ln 10, ln 20 (les nombres ln 11, ln 12, ln 19 sont tellement proches les uns des autres que l’on ne les représente pas), ln 30, . . . , ln 90, ln 100, ln 200, . . . Ceci explique explique que la graduation « 10 » (qui correspond en fait à ln 10) soit « au milieu » de « 1 » (on rappelle que ln 1 = 0) et « 100 », car ln 100 est le double de ln 10. L’apparent alignement des points du nuage, placés dans ce repère semi-logarithmique, suggère une dépendance affine entre les valeurs de x et celles de ln y, ce qui motive un ajustement exponentiel. L’utilisation d’un repère semi-logarithmique permet donc de constater rapidement si un tel ajustement est approprié ou non. 4.2 Ajustement logarithmique À l’opposé des fonctions exponentielles, les fonctions logarithmes x 7→ a ln x + b ou x 7→ ln(αx + β) sont tout à fait indiquées dans la modélisation des phénomènes à (dé)croissance lente. Pour cela, on effectue un ajustement affine sur la série (ln xi ; yi ) ou (xi ; eyi ). x EXEMPLE 7. Le tableau ci-dessous donne la production d’électricité d’origine nucléaire en France, exprimée en milliards de kWh, entre 1979 et 2004 (source : site web du Ministère de l’industrie). Les rangs des années sont calculés par rapport à l’année 1975. année 1979 1985 1990 1995 2000 2001 2002 2003 2004 4 10 15 20 25 26 27 28 29 37,9 213,1 297,9 358,8 395,2 401,3 416,5 420,7 427,7 rang xi de l’année production yi C production (en milliards de kWh) 400 300 200 100 0 0 2 4 6 8 10 12 14 16 18 rang de l’année 20 22 24 26 28 30 La distribution des points du nuage suggère un ajustement logarithmique. Pour l’effectuer, nous allons travailler sur la série (zi ; yi ), où zi = ln(xi ). zi = ln(xi ) 1,386 2,303 2,708 2,996 3,219 3,258 3,296 3,332 3,367 production yi 37,9 213,1 297,9 358,8 395,2 401,3 416,5 420,7 427,7 – 10 – Séries statistiques à deux variables IUT du Littoral Côte d’Opale/CUEEP Littoral Le coefficient de corrélation linéaire entre z et y est excellent (r z,y ≈ 0,9997) ; on procède donc à un ajustement affine entre z et y. La méthode des moindres carrés fournit une équation de la droite de régression D z de y en z : y = 197,2z − 236,9. Les points A i (xi ; yi ) sont par conséquent répartis autour de la courbe C d’équation y = 197,2 ln x − 236,9. 5 Exercices EXERCICE 1 Le tableau suivant donne la répartition des salariés d’une entreprise en fonction de leur quotité de travail : ouvriers (O) employés (E) cadres (C) total temps complet (T) 18 21 11 50 temps partiel à 80 % (P) 2 5 0 7 mi-temps (M) 1 4 2 7 21 30 13 64 total 1. Calculer les fréquences marginales. 2. Calculer la fréquence conditionnelle des salariés à mi-temps par rapport aux cadres. 3. Calculer la fréquence conditionnelle des cadres par rapport aux salariés à mi-temps. EXERCICE 2 Voici un sondage concernant l’opinion des Français sur l’interdiction de la vente du tabac aux moins de 16 ans (sondage réalisé sur un échantillon représentatif de 500 personnes majeures). opposés à l’interdiction favorables à l’interdiction 30 % 25 % fumeurs non-fumeurs 70 % 75 % 1. Recopier et compléter le tableau suivant à l’aide des informations données par les diagrammes en secteurs circulaires. (Arrondir à l’unité la plus proche.) Êtes-vous favorable ? opposé ? sans opinion ? total 0 fumeur ? non-fumeur ? total 2. 316 160 500 a) Calculer la fréquence conditionnelle des personnes favorables par rapport aux fumeurs. b) Calculer la fréquence conditionnelle des personnes favorables par rapport aux non-fumeurs. – 11 – Séries statistiques à deux variables IUT du Littoral Côte d’Opale/CUEEP Littoral EXERCICE 3 Sur une population de 250 individus, on a observé deux caractères : l’un ayant pour modalités A et B, l’autre X ayant pour modalités X et Y. On sait que la fréquence de la modalité X est 0,72 et on connaît les fréquences A conditionnelles fX (A) = 0,35 et fY (B) = 0,8. B Y total 250 total 1. Recopier et compléter le tableau des effectifs. 2. En déduire la fréquence de la modalité A. EXERCICE 4 On considère la série (xi ; yi ) ci-contre. 1. Construire le nuage de points A i (xi ; yi ) dans un repère orthogonal. 2. Tracer la droite (A1 A6 ). Passe-t-elle par le point moyen xi 1 2 3 4 5 6 yi 2,8 3,5 4,2 6 8,3 9 du nuage ? EXERCICE 5 Une entreprise souhaite faire des prévisions sur son chiffre d’affaires. Ses chiffres d’affaires réalisés depuis 2004 sont donnés dans le tableau suivant : 2004 2005 2006 2007 2008 2009 2010 2011 rang xi de l’année 0 1 2 3 4 5 6 7 chiffre d’affaires yi (en millions d’euros) 16 19 22 23 24 26 27 30 année 1. Dans un repère orthogonal du plan, représenter les huit points Mi (xi ; yi ). On prendra 1 cm en abscisse pour 1 unité et 1 cm en ordonnée pour 2 millions d’euros. 2. Soit G1 le point moyen du nuage formé par les points M1 , M2 , M3 , M4 , et soit G2 le point moyen du nuage formé par les points M5 , M6 , M7 et M8 . Calculer les coordonnées de G1 et de G2 , puis donner une équation de la droite (G1G2 ). 3. On estime que la droite de Mayer (G1G2 ) est une bonne modélisation de l’évolution du chiffre d’affaires de l’entreprise. Quel sera, selon ce modèle, le chiffre d’affaires qu’on peut prévoir pour 2012 ? pour 2014 ? 4. Toujours selon ce modèle, à partir de quelle année le chiffre d’affaires dépassera-t-il 45 millions d’euros ? EXERCICE 6 On considère les séries doubles suivantes : xi 2 5 6 10 12 xi 8 9 13 16 21 24 yi 83 70 70 54 49 yi 3 7 25 33 52 64 Pour chacune de ces séries, déterminer : 1. les coordonnées du point moyen G, 2. la covariance, 3. le coefficient de corrélation linéaire, 4. une équation de la droite de régression D x de y en x, 5. une équation de la droite de régression Dy de x en y. – 12 – Séries statistiques à deux variables IUT du Littoral Côte d’Opale/CUEEP Littoral EXERCICE 7 Le tableau suivant recense, par clinique, le nombre de postes du personnel non médical en fonction du nombre de lits de la clinique : clinique C1 C2 C3 C4 C5 C6 C7 C8 C9 C10 C11 nombre de lits xi 122 177 77 135 109 88 185 128 120 146 100 nombre de postes yi 205 249 114 178 127 122 242 170 164 188 172 1. Représenter le nuage de points associé à la série statistique (xi ; yi ) dans le plan rapporté à un repère orthogonal en prenant pour unités graphiques 1 cm pour 10 lits en abscisse et 1 cm pour 20 postes en ordonnée. 2. Déterminer le coefficient de corrélation linéaire entre x et y. Que peut-on en déduire ? 3. a) Donner une équation de la droite de régression de y en x (pour les coefficients, on prendra les valeurs décimales arrondies à 10−1 près). Tracer cette droite sur le schéma précédent. b) Une clinique possède 35 lits. Combien devrait-elle embaucher de personnel occupant un poste non médical à temps plein ? c) En réalité, cette clinique dispose de 60 postes. Calculer la différence entre le nombre de postes réels et le nombre de postes théorique obtenu précédemment. Quel pourcentage cette différence représente-t-elle par rapport à la situation théorique ? EXERCICE 8 L’étude d’une population animale en voie de disparition a donné les résultats suivants : année 1950 1960 1970 1980 1990 2000 2010 0 10 20 30 40 50 60 250 110 30 8 rang de l’année xi population yi (en milliers d’individus) 15 000 4 500 1 300 1. Un ajustement affine est-il indiqué dans cette situation ? Pourquoi ? 2. On pose zi = ln yi . Représenter le nuage Mi (xi ; zi ). Que peut-on constater ? 3. Pour ajuster ce dernier nuage, on choisit la droite (M1 M7 ), M1 étant le point du nuage d’abscisse 0 et M7 le point d’abscisse 60. a) Déterminer une équation de cette droite. b) En déduire les nombres α et β tels que y = α β x . c) Est-il étonnant que β soit inférieur à 1 ? EXERCICE 9 Le tableau ci-dessous donne le montant annuel des dépenses du régime général de la Sécurité Sociale, en milliards d’euros, de l’année 1991 à l’année 2000. année rang xi de l’année dépenses yi (en M€) 1. 1991 1992 1993 1994 1995 1996 1997 1998 1999 2000 1 2 3 4 5 6 7 8 9 10 147,42 155,35 165,10 170,13 182,33 183,09 189,95 194,83 203,37 222,27 a) Représenter le nuage de points Mi (xi ; yi ) dans un repère orthogonal adapté. b) Déterminer par le calcul les coordonnées de G, point moyen du nuage. Placer G sur le schéma précédent. 2. a) G1 désigne le point moyen des 5 premiers points du nuage et G2 celui des 5 derniers. Déterminer par le calcul les coordonnées de G1 et de G2 . Placer ces points sur le graphique précédent et tracer la droite (G1G2 ). b) Donner l’équation de la droite de Mayer (G1G2 ) sous la forme y = αx + β. – 13 – Séries statistiques à deux variables IUT du Littoral Côte d’Opale/CUEEP Littoral c) Calculer la somme des carrés des résidus pour cet ajustement : 10 X S1 = i =1 3. 2 yi − (αxi + β) . a) Déterminer l’équation y = ax + b de la droite des moindres carrés. b) Calculer la somme des carrés des résidus pour cet ajustement : S2 = 10 X i =1 2 yi − (axi + b ) . 4. Des nombres S1 et S2 , quel est le plus petit ? Était-il besoin d’effectuer les calculs pour répondre à cette question ? 5. a) En utilisant la droite des moindres carrés et en supposant que les dépenses vont évoluer de la même façon, donner une prévision des dépenses de la Sécurité Sociale en 2005. b) Donner aussi une prévision pour 2005 en utilisant la droite de Mayer. EXERCICE 10 Dix adolescents droitiers s’exercent à lancer le poids, du bras droit puis du bras gauche. Les résultats obtenus (exprimés en mètres) sont les suivants : adolescent i 1 2 3 4 5 6 7 8 9 10 bras droit xi 5,5 7,1 5,8 6,4 6,0 6,2 7,2 5,6 6,8 5,6 bras gauche yi 4,1 6,2 4,0 5,5 4,9 4,7 6,0 4,9 5,0 3,9 On cherche à répondre, par deux méthodes différentes, aux deux questions suivantes : (A) Quelle distance, avec le bras gauche, un adolescent peut-il espérer atteindre s’il lance le poids à 6,5 m du bras droit ? (B) Quelle sera la performance, avec le bras droit, d’un adolescent qui lance le poids à 4,2 m du bras gauche ? 1. Calculer le coefficient de corrélation linéaire de la série (xi ; yi ). Un ajustement affine est-il approprié ? 2. Déterminer une équation de la droite de Mayer (G1G2 ) du nuage (xi ; yi ), où G1 est le point moyen du groupe formé par les adolescents nos 1, 3, 5, 6 et 8 et où G2 est le point moyen du groupe restant. En déduire la réponse aux deux questions A et B. 3. Déterminer, par la méthode des moindres carrés : a) une équation de la droite de régression de y en x, ainsi qu’une réponse à la question A ; b) une équation de la droite de régression de x en y, ainsi qu’une réponse à la question B. EXERCICE 11 On considère les couples (xi ; yi ) suivants : xi 1 2 3 4 5 6 7 8 9 10 yi 4 9 13 23 55 60 105 100 125 117 1. On pose ti = ln xi et zi = ln yi . Déterminer une équation de la droite de régression de z en t par la méthode des moindres carrés. 2. En déduire la valeur des coefficients A et B pour lesquels la fonction puissance y = Ax B ajuste au mieux la série (xi ; yi ). EXERCICE 12 Le tableau suivant donne le taux y (exprimé en %) de sortants du système éducatif sans aucun diplôme ou avec le niveau de fin de primaire, rapporté au total des sortants. année rang xi de l’année taux yi (en %) 1990 1991 1992 1993 1994 1995 1996 1997 1998 1999 1 2 3 4 5 6 7 8 9 10 21,3 18,5 17,2 16,6 15,4 15,1 13,2 14,2 13,6 13,4 – 14 – Séries statistiques à deux variables 1. IUT du Littoral Côte d’Opale/CUEEP Littoral a) Représenter la série (xi ; yi ) dans un repère orthogonal d’unités graphiques 1 cm en abscisse et 0,5 cm en ordonnée. b) Quel type d’ajustement suggère la forme de ce nuage ? 2. On pose ti = ln(xi ) et on considère la série statistique (ti ; yi ). a) Donner une équation de la droite de régression de y en t . On arrondira les coefficients à 10−2 . b) En déduire une relation entre y et x de la forme y = a ln x + b . c) Estimer le taux de sortants non diplômés en 2007. EXERCICE 13 L’entreprise Nile est spécialisée dans la livraison de produits conditionnés en colis cartonnés. On a observé l’évolution du nombre de colis livrés par cette entreprise entre 2005 et 2013 : 2005 2006 2007 2008 2009 2010 2011 2012 2013 rang xi de l’année 1 2 3 4 5 6 7 8 9 nombre yi de colis 7438 9015 9948 10854 12309 12740 13622 13958 14630 année 1. Représenter graphiquement la série (xi ; yi ) dans un repère orthogonal (1 cm pour 1 année en abscisse et 1 cm pour 1000 colis en ordonnée). 2. On pose ti = ln(xi ) et zi = ln(yi ). On s’intéresse à présent à la série statistique (ti ; zi ). a) Calculer le coefficient de corrélation linéaire de la série (ti ; zi ). b) Déterminer une équation de la droite de régression de z en t par la méthode des moindres carrés. c) En déduire une relation entre y et x de la forme y = αx β . d) En déduire une estimation du nombre de colis livrés en 2014. – 15 –