MODULE M41 COURS DE MATHÉMATIQUES
Transcription
MODULE M41 COURS DE MATHÉMATIQUES
BTSA Tronc Commun MODULE M41 COURS DE MATHÉMATIQUES Version 2.0 — Septembre 2009 1 Statistiques à une variable 1.1 Vocabulaire de la statistique 1.1.1 Population et individus La statistique a pour objet le traitement de données brutes issues d’observations. En les rassemblant et en les organisant, elle s’efforce de dégager des caractéristiques qui permettent leur interprétation Définitions Les observations sur lesquelles opère le statisticien sont tirées d’un ensemble appelé population. Les éléments de cet ensemble sont appelés individus ou unités statistiques. Tout sous-ensemble non vide de la population est appelé échantillon. ✍ MÉTHODE 1 1. Lorsque l’on étudie la répartition de l’âge des élèves d’un établissement scolaire, quelle est la population ? Quelle est l’unité statistique ? Donner un exemple d’échantillon. 2. Si l’on s’intéresse à la fréquence des œufs cassés dans la production quotidienne d’un élevage de 50000 pondeuses, quelle est la population ? Quelle est l’unité statistique ? 1.1.2 Caractères et modalités Définition Une fois la population définie, le statisticien ne s’intéresse qu’à certains aspects ou caractéristiques des individus en fonction de l’étude qu’il projette. Ces caractéristiques sont appelées caractères statistiques. Ainsi, dans le cas où la population étudiée est l’ensemble des élèves d’un établissement scolaire, la taille, le poids, l’âge, le sexe, la couleur des yeux, la catégorie socio-professionnelle du chef de famille... constituent autant de caractères statistiques. Définitions Les caractères statistiques sont quantitatifs s’ils sont mesurables et qualitatifs dans le cas contraire. Dans l’exemple précédent, le poids, la taille et l’âge sont des caractères quantitatifs ; le sexe, la couleur des yeux, la catégorie socio-professionnelle sont des caractères qualitatifs. Définitions Un caractère statistique quantitatif est appelé variable statistique. Une variable statistique est discrète si elle ne peut prendre qu’un nombre fini de valeurs. Dans le cas contraire, elle est dite continue. BTSA 3 Cours Définition Après collecte des données, le statisticien range dans une même classe ou rubrique les unités statistiques qu’il considère comme équivalentes du point de vue du caractère considéré. Ces classes ou rubriques sont appelées modalités du caractère. ✍ MÉTHODE 2 1. Lorsque l’on étudie la répartition suivant le sexe des élèves d’un établissement scolaire, Quel est le caractère étudié ? De quel type est-il ? Quelles sont les modalités ? 2. Si l’on étudie la répartition de l’âge des élèves, on peut choisir de regrouper ceux-ci à l’aide des rubriques 15 ans au plus, 16 ans, 17 ans, 18 ans, 19 ans et 20 ans et plus. Quel est le caractère étudié ? Combien a-t-il de modalités ? Proposer une répartition en deux classes. 3. Le nombre d’enfants par famille à l’intérieur de la population française est une variable de quel type ? 4. Le taux de cholestérol des individus d’une population donnée peut être considéré comme une variable de quel type ? 1.2 Séries statistiques Définitions • L’effectif associé à une modalité d’un caractère statistique est le nombre de fois que l’on rencontre cette modalité dans la population observée. • La fréquence associée à une modalité d’un caractère statistique est le rapport entre l’effectif de la modalité et l’effectif total de la population observée. Si l’on désigne par x 1 , x 2 , · · · x i , · · · x k les différentes modalités du caractère x étudié dans la population, on présente généralement les données à l’aide d’un tableau. Modalités du caractère x Effectifs ni Fréquences f i En posant N = n1 + n2 + ... + nk = k X x1 n1 f1 x2 n2 f2 ni , on peut écrire f i = i=1 ... ... ... ni N xi ni fi ... ... ... xk nk fk . Propriété k X f i = f1 + f2 + ... + f k = 1 i=1 ✍ MÉTHODE 3 Sur une exploitation de 196 hectares, la répartition des cultures est la suivante Culture Surface Fréquences Blé tendre 110 ha Maïs fourrage 40 ha Calculer les fréquences de cette série statistique. Définition On appelle série statistique la donnée • de la population étudiée ; • du caractère étudié dans la population ; • de l’effectif, ou de la fréquence, de chaque modalité du caractère. Sorgho 30 ha Orge 16 ha Cours 1.3 4 BTSA Représentations graphiques des séries statistiques 1.3.1 Caractères qualitatifs Deux types de représentation sont généralement employés : les diagrammes à bandes et les diagrammes à secteurs. Dans les deux cas, les effectifs (ou les fréquences) des modalités sont représentés par des aires qui leur sont proportionnelles. ✍ MÉTHODE 4 Terres cultivées Dans une ferme d’élevage, la répartition des 240 hectares de terres est représentée ci-contre. Vergers 1. Calculer la surface des herbages, des terres cultivées et des vergers. Herbages 2. Construire le diagramme à bandes correspondant. 1.3.2 Caractères quantitatifs : Variables discrètes Pour représenter graphiquement une variable discrète, on utilise un diagramme en bâtons. À cet effet, on porte en abscisses les valeurs de la variable et l’on trace pour chacune d’elles, parallèlement à l’axe des ordonnées, des segments dont la longueur est proportionnelle à l’effectif (ou à la fréquence) correspondant. ✍ MÉTHODE 5 Voici le diagramme en bâtons représentant le nombre de journées d’absence des salariés d’une entreprise de travaux paysagers au cours de l’année passée. 14 Effectif 12 10 8 6 4 2 0 Nombres de journées d’absence 0 1 2 3 4 1 2 5 7 6 8 9 10 11 8 9 Compléter le tableau suivant : Nombres de jour. abs. Effectifs Fréquences 0 3 4 5 6 7 10 11 Total 1.3.3 Caractères quantitatifs : Variables continues Lorsque le caractère étudié est quantitatif et continu, et lorsque les modalités sont regroupées en classes, on peut représenter la série par un histogramme : l’aire de chaque rectangle est alors proportionnelle à l’effectif (ou à la fréquence) associée à chaque classe. Lorsque les classes ont la même amplitude, c’est la hauteur de chaque rectangle qui est proportionnelle à l’effectif. La notion d’histogramme est à relier à la notion de densité que l’on utilisera en probabilités et que l’on découvrira en exercice. BTSA 5 Cours ✍ MÉTHODE 6 Voici un histogramme représentant la répartition de la production par lactation exprimée en kg de lait d’un troupeau de vaches. Légende : 2000 2500 = 5 vaches 3000 3500 4000 4500 5000 5500 6000 Compléter le tableau suivant : Lait Effectifs Fréq. 1.4 [2250 ; 3000[ [3000 ; 3500[ [3500 ; 4000[ [4000 ; 4500[ [4500 ; 5000[ [5000 ; 6000[ Total Fonction de répartition d’une variable statistique Définitions • Soit une série statistique donnée. On appelle effectif cumulé croissant associé à un nombre réel x le nombre d’unités de la série dont le caractère possède une valeur inférieure ou égale à x. • De façon analogue, on appelle fréquence cumulée croissante associée à un réel x, la fréquence des unités de la série dont le caractère prend une valeur inférieure ou égale à x. Définition On appelle fonction de répartition d’une série statistique, la fonction, définie sur R, qui a tout réel x fait correspondre la fréquence cumulée croissante associée. F:R→ x 7→ [0, 1] fréquence des unités de la série dont le caractère prend une valeur inférieure ou égale à x ✍ MÉTHODE 7 Considérons la série suivante : Nombre de personnes par ménage Fréquences (%) Fréquences cumulées croissantes (%) 1 27,6 2 30,9 3 17,3 4 15,4 ¾5 8,8 1. Compléter le tableau précédent. 2. Quelle part des ménages comprennent au plus 3 personnes ? Au plus 3,5 personnes ? Cours 6 BTSA 3. Pour tout réel x de l’intervalle [3 ; 4[, quelle part des ménages comprennent au plus x personnes. Que peut-on dire de la fréquence cumulée croissante dans l’intervalle [3 ; 4[ ? 4. Si l’on note F(x) la fréquence cumulée croissante associée au réel x, la fonction F est définie sur R de la façon suivante (à compléter) : • Si x ∈] − ∞ ; 1[, F(x) = 0 • Si x ∈ [1 ; 2[, F(x) = . . . • Si x ∈ [2 ; . . . [, F(x) = 0, 585 • Si x ∈ [. . . ; . . . [, F(x) = . . . • Si x . . . [. . . ; . . . [, F(x) = . . . • Si . . . 5. Construire la courbe représentative de F. Pourquoi dit-on que cette courbe est une courbe en escalier. ✍ MÉTHODE 8 Considérons la série suivante, répartition des exploitations agricoles françaises selon la taille en 1990 (Source INSEE) : Superficie de l’exploitation (en ha) Fréquences (%) Fréquences cumulées croissantes (%) [0, 10[ 38 [10, 35[ 32 [35, 50[ 11 [50, 100[ 14 [100, 150[ 5 1. Compléter le tableau ci-dessus et les remarques suivantes : • En toute rigueur, on ne connaît que la fréquence des exploitations dont la superficie est strictement inférieure à la borne supérieure des classes, car celles-ci sont ouvertes à droite. Cependant, puisque la variable est considérée continue, on néglige la fréquence des exploitations dont la superficie est exactement égale à 10 ha, 35 ha, 50 ha ou 100 ha. Cette approximation permet d’affirmer que la fréquence cumulée croissante associée à 35 ha, par exemple, est 70 %. • Notons F(x) la fréquence cumulée croissante associée à un réel x. La remarque précédente autorise à écrire F(0) = . . . ; F(10) = . . . ; F(35) = 0, 70 ; F(. . . ) = . . . ; F(. . . ) = . . . et F(. . . ) = . . . 2. La répartition des exploitations en fonction de leur superficie, à l’intérieur de chaque classe, est inconnue. On fait une approximation supplémentaire en la supposant uniforme. Cela permet de joindre les points définis précédemment à l’aide de segments dans la représentation graphique de la fonction F. Tracer la représentation graphique de la fonction de répartition de cette série. 1.5 Réduction des données : les paramètres de position 1.5.1 Le mode Définition On appelle mode (ou valeur dominante) d’une série statistique toute modalité du caractère qui possède le plus grand effectif. Ce paramètre peut être utilisé dans le cas d’une variable qualitative. Lorsqu’il s’agit d’une variable continue où les données sont regroupées en classes de même amplitude, on parle de classe modale et le mode est parfois défini comme le centre de la classe modale. ✍ MÉTHODE 9 Une étude statistique portant sur le nombre de grains de raisin contenues dans 1000 grappes de raisin noir sans pépin (type Autumn Royal) a conduit aux résultats suivants : Nombre de grains par grappe x Effectifs n Quel est le mode de cette série ? 34 30 35 47 36 63 37 93 38 115 39 132 40 132 41 105 42 105 43 77 44 60 45 41 BTSA 7 Cours ✍ MÉTHODE 10 On a mesuré le taux de leucocytes (par mm3 ) des individus d’une population de 117 vaches ayant bu une eau souillée par un rejet (accidentel ?) de produits toxiques dans une rivière. Nombre de leucocytes par mm3 Effectifs [3000, 4000[ 17 [4000, 10000[ 84 [10000, 12000[ 16 120 00[ [11 000 ; 110 00[ [10 000 ; 100 00[ [90 00 ; 900 0[ [80 00 ; 800 0[ [70 00 ; 700 0[ [60 00 ; 500 0[ 600 0[ [50 00 ; [30 00 ; Nombre de leucocytes/mm3 [40 00 ; 400 0[ Les classes sont d’amplitudes inégales. En supposant la répartition homogène, à l’intérieur de chaque classe, on peut présenter la série à l’aide de classes d’amplitude 1000. Compléter le tableau suivant : Effectifs Quelle est la classe modale ? 1.5.2 La médiane Définition La médiane d’une série statistique quantitative est la valeur de la variable (observée ou possible) qui partage la série en deux parties de même effectif : l’une d’elles ne comprend que les unités dont le caractère étudié est inférieur ou égal à la médiane, l’autre, les unités dont le caractère est supérieur ou égal à la médiane. ✍ MÉTHODE 11 Un élève a obtenu, au cours de l’année, les notes suivantes en mathématiques 12, 10, 14, 7, 12, 15, 8, 11, 12, 8, 14. Ordonner la série par ordre croissant et compléter le schéma suivant : 7; . . . ; . . . ; . . . ; . . .; . . . ; . . . ; . . . ; . . . ; . . . ; 15. Quelle est la note médiane ? | {z } {z } | ... ... ✍ MÉTHODE 12 Reprenons l’exemple des grappes de raisins. Ici le nombre d’observations est pair. Procédons de manière analogue en ordonnant la série par ordre croissant : Nombre de grains par grappe x Effectifs n 34 30 35 47 36 63 37 93 38 115 39 132 40 132 41 105 42 105 43 77 44 60 45 41 30 + 47 = 30 + 47 + 63 = 30 + 47 + 63 + 93 = 30 + 47 + 63 + 93 + 115 = 30 + 47 + 63 + 93 + 115 + 132 = 30 + 47 + 63 + 93 + 115 + 132 + 132 = 34, . . . 34, 35, . . . 35, . . . 36 . . . , 40, . . . 40, 40 . . . 40, 41, . . . 41, 42, . . . 45 {z }| {z } | ... grappes ... grappes On convient généralement de choisir pour médiane la moyenne arithmétique des deux observations centrales. Quelle est la médiane de cette série ? Cours 8 BTSA ✍ MÉTHODE 13 La pesée de 100 agneaux à la naissance a conduit aux résultats suivants : Poids en kg Effectifs [3, 0 ; 3, 4[ 12 [3, 4 ; 3, 8[ 20 [3, 8 ; 4, 2[ 40 [4, 2 ; 4, 6[ 20 [4, 6 ; 5, 0[ 8 1. Construire la courbe de la fonction de répartition de la série statistique. 2. La médiane correspond au poids du cinquantième agneau lorsque la série est rangée par ordre croissant. Graphiquement, que vaut approximativement la médiane ? 3. À l’aide d’une interpolation linéaire, préciser ce résultat. 1.5.3 La moyenne arithmétique Définition La moyenne arithmétique d’une série statistique quantitative x 1 , x 2 , ..., x N est la somme des valeurs de la série divisée par leur nombre N. N X xi x 1 + x 2 + ... + x N i=1 = x= N N Remarques • Dans le cas d’une variable discrète, lorsque les valeurs sont regroupées par modalités x i (i = 1, 2...k) chacune d’elles ayant un effectif ni , on obtient la moyenne x en calculant le quotient : x= n1 x 1 + n2 x 2 + ... + nk x k n1 + n2 + ... + nk k X = ni x i i=1 k X nk i=1 • Dans le cas d’une série continue, on choisit pour valeur de la variable, le centre de chaque classe. Propriété Soit (x i , f i )1¶i¶k pour i = 1, 2...k une série statistique où f i représente la fréquence de la modalité x i . k X fi x i x = f1 x 1 + f2 x 2 + ... + f k x k = i=1 ✍ MÉTHODE 14 Calculer la taille moyenne des exploitations dans la série présentée précédemment. Superficie (en ha) [0, 10[ [10, 35[ [35, 50[ [50, 100[ [100, 150[ Fréquences 0,38 0,32 0,11 0,14 0,05 Propriété Soit (x i , ni )1¶i¶k une série statistique de moyenne x et a et b deux réels quelconques. Alors la série (ax i + b; ni )1¶i¶k a pour moyenne le réel ax + b. ✍ MÉTHODE 15 Calculer la moyenne des nombres suivants : 5999768531000000000, 5999768538000000000, 5999768581000000000, 5999768632000000000, 5999768751000000000. BTSA 1.6 9 Cours Réduction des données : les paramètres de dispersion 1.6.1 L’amplitude ou l’étendue Définition L’étendue d’une série statistique est la différence entre la plus grande et la plus petite des valeurs observées. Dans le cas d’une série continue, l’étendue est la différence entre la borne supérieure de la dernière classe et la borne inférieure de la première classe (lorsque la série est rangée par ordre croissant). Remarque L’étendue ne tient compte que des observations extrêmes ; elle risque donc d’être gravement affectée par une valeur exceptionnelle, ou erronée, de ces observations. ✍ MÉTHODE 16 Quelle est l’étendue du poids des agneaux à la naissance ? Poids en kg Effectifs [3, 0 ; 3, 4[ 12 [3, 4 ; 3, 8[ 20 [3, 8 ; 4, 2[ 40 [4, 2 ; 4, 6[ 20 [4, 6 ; 5, 0[ 8 1.6.2 L’écart moyen absolu Définition Soit (x i , ni )1¶i¶k une série statistique. On appelle écart absolu moyen le réel e= n1 |x 1 − x| + n2 |x 2 − x| + ... + nk |x k − x| n1 + n2 + ... + nk k X = i=1 ni |x i − x| k X nk i=1 e est la moyenne des valeurs absolues des écarts à la moyenne. ✍ MÉTHODE 17 Considérons la série suivante relative à la répartition des salaires du personnel d’une entreprise. Salaires en kF Effectifs [←, 6[ 17 [6, 7[ 32 [7, 8[ 51 [8, 9[ 57 [9, 10[ 45 [10, 11[ 34 [11, → [ 14 Les bornes inférieure et supérieure des classes extrêmes ne sont pas précisées. La convention est de choisir, pour ces classes, une amplitude égale à celle des classes adjacentes. 1. Calculer la moyenne de la série. 2. Calculer l’écart moyen de la série. Remarque Les valeurs absolues se prêtent mal aux calculs algébriques (la fonction valeur absolue n’est pas dérivable sur R). Aussi, préfère t-on utiliser l’écart type pour estimer la dispersion de la série. Cours 10 BTSA 1.6.3 La variance et l’écart type Définition Soit (x i , ni )1¶i¶k une série statistique. On appelle variance de la série la moyenne des carrés des écarts des valeurs de la série à la moyenne. 2 V= 2 n1 (x 1 − x) + n2 (x 2 − x) + ... + nk (x k − x) k X 2 n1 + n2 + ... + nk i=1 = ni (x i − x)2 k X nk i=1 ✍ MÉTHODE 18 Calculer la variance de la série des salaires. Salaires Effectifs [5, 6[ 17 [6, 7[ 32 [7, 8[ 51 Théorème Soit (x i , ni )1¶i¶k une série statistique. k X V= [8, 9[ 57 [9, 10[ 45 [10, 11[ 34 [11, 12[ 14 ni x i2 i=1 k X −x 2 nk i=1 Variance = « moyenne des carrés » − « carré de la moyenne ». ✍ MÉTHODE 19 Calculer la variance de la série des salaires avec la nouvelle formule. Salaires Effectifs [5, 6[ 17 [6, 7[ 32 [7, 8[ 51 [8, 9[ 57 [9, 10[ 45 Définition On appelle écart type d’une série, la racine carrée de la variance : σ = L’écart type s’exprime avec la même unité que les valeurs de la série. [10, 11[ 34 p [11, 12[ 14 V. Remarque La variance d’une série est souvent notée σ2 . ✍ MÉTHODE 20 Calculer l’écart type de la série des salaires. Salaires Effectifs [5, 6[ 17 [6, 7[ 32 [7, 8[ 51 [8, 9[ 57 [9, 10[ 45 [10, 11[ 34 [11, 12[ 14 Théorème Soit (x i , ni )1¶i¶k une série statistique de variance V. Alors, la série (ax i + b, ni )1¶i¶k où a et b sont deux réels donnés, a pour variance a2 V. Puisque la variance est définie comme une somme de carrés, c’est un nombre positif. ✍ MÉTHODE 21 Calculer l’écart type des nombres suivants : 5999768531000000000, 5999768538000000000, 5999768581000000000, 5999768632000000000, 5999768751000000000. BTSA 11 Cours 1.6.4 L’écart interquartile Définitions Les valeurs de la série sont rangées dans l’ordre croissant. Les quartiles partagent la série ordonnée en quatre groupes de même effectif. • Le premier quartile, noté Q1 , est la plus petite valeur de la série telle qu’au moins 25 % des valeurs lui soient inférieures ou égales. • Le troisième quartile, noté Q3 , est la plus petite valeur de la série telle qu’au moins 75 % des valeurs lui soient inférieures ou égales. Définition On définit de même des déciles : D1 est la plus petite valeur de la série telle qu’au moins 10 % des valeurs lui soient inférieures ou égales... Définitions • L’intervalle interquartile est [Q1 ; Q3 ], il contient au moins 50 % des observations. • L’écart interquartile i = Q3 − Q1 est une mesure de dispersion lié à la médiane. ✍ MÉTHODE 22 Calculer la médiane et les quartiles de la série : 1 ; 1 ; 3 ; 5 ; 5 ; 6 ; 8 ; 8 ; 8 ; 10 ; 11. Définition Un diagramme en boîte est une représentation graphique qui résume le caractère quantitatif étudié par les valeurs extrêmes, la médiane, les quartiles et parfois les déciles. Remarques Le diagramme en boîte est aussi appelé diagramme de Tuckey, nom de son inventeur, « boîte à moustaches », ou « diagramme en boîte ». L’intérêt des diagrammes en boîte est de pouvoir comparer rapidement la dispersion par rapport à la médiane de plusieurs populations pour un même caractère. ✍ MÉTHODE 23 Retrouver les résultats de la méthode précédente sur le diagramme en boîte suivant : 0 1 2 3 4 5 6 7 8 9 10 11 12 Table des matières 1 Statistiques à une variable 1.1 Vocabulaire de la statistique . . . . . . . . . . . . . . . . . 1.1.1 Population et individus . . . . . . . . . . . . . . . 1.1.2 Caractères et modalités . . . . . . . . . . . . . . . 1.2 Séries statistiques . . . . . . . . . . . . . . . . . . . . . . . 1.3 Représentations graphiques des séries statistiques . . . 1.3.1 Caractères qualitatifs . . . . . . . . . . . . . . . . 1.3.2 Caractères quantitatifs : Variables discrètes . . . 1.3.3 Caractères quantitatifs : Variables continues . . 1.4 Fonction de répartition d’une variable statistique . . . . 1.5 Réduction des données : les paramètres de position . . 1.5.1 Le mode . . . . . . . . . . . . . . . . . . . . . . . . 1.5.2 La médiane . . . . . . . . . . . . . . . . . . . . . . 1.5.3 La moyenne arithmétique . . . . . . . . . . . . . 1.6 Réduction des données : les paramètres de dispersion . 1.6.1 L’amplitude ou l’étendue . . . . . . . . . . . . . . 1.6.2 L’écart moyen absolu . . . . . . . . . . . . . . . . 1.6.3 La variance et l’écart type . . . . . . . . . . . . . 1.6.4 L’écart interquartile . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2 2 2 2 3 4 4 4 4 5 6 6 7 8 9 9 9 10 11