Densité et histogramme
Transcription
Densité et histogramme
Densité et histogramme 1) Exemple "d'école" : Voici une série statistique de 50 valeurs (ordonnées et rangées en colonnes) : 0,4 4,12 6,16 7,68 8,88 9,6 10,12 11,04 12,32 13,64 0,8 4,6 6,48 7,96 9,12 9,84 10,28 11,24 12,52 14,2 1,52 4,8 6,84 8,24 9,24 9,96 10,4 11,52 12,72 14,92 2,4 5,6 7,2 8,4 9,32 10 10,56 11,84 12,88 15,2 3,6 5,84 7,48 8,6 9,44 10,04 10,8 11,96 13,2 15,68 On ne retrouve pas deux fois le même nombre ; l'effectif de chaque valeur est donc de 1, et si on fait une représentation graphique comme pour une série discrète, on n'obtient que des points d'ordonnée 1. Dans le graphique ci-dessous, ils sont représentés par de petites croix : 2 1 0 0 2 4 6 8 10 12 14 16 18 Cette représentation n'est pas très intéressante, mais elle montre que les valeurs ne sont pas réparties régulièrement. On voudrait traduire par un graphique "là où il y en a beaucoup" et "là où il y en a peu". Il y a une notion scientifique de base pour ceci : la notion de densité. 2) Densités d'effectifs Dans l'étude de la démographie, on calcule des densités de population par exemple dans un département : (nombre d'habitants) / (superficie du département). Ici, on va choisir des intervalles et calculer pour chacun la densité des termes de la série statistique par le quotient : (effectif dans cet intervalle) / (amplitude de l'intervalle) On pourrait choisir des intervalles tous de même amplitude, mais ce n'est pas obligé ; ici on a choisi des intervalles plus petits là où il y a beaucoup de données (on pourrait aussi prendre des petits intervalles là où la densité change beaucoup pour traduire plus précisément son évolution). Voici ce choix et les densités obtenues : [0, 4[ [4, 6[ [6, 8[ [8, 9[ [9, 10[ [10, 11[ [11, 12[ [12, 14[ [14, 16[ effectifs 5 5 7 4 7 7 5 6 4 amplitudes 4 2 2 1 1 1 1 2 2 1,25 2,5 3,5 4 7 7 5 3 2 densités d'effectif Les deux premiers intervalles ont le même effectif de 5, mais des densités différentes : les termes de la série sont deux fois plus "serrés" dans [4 , 6[ que dans [0 , 4[. On fait alors un graphique en portant ces densités en ordonnée. On peut le voir comme des rectangles dessinés côte à côte. [email protected] janvier 2014 page 1 / 4 8 7 6 5 4 3 2 1 0 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 histogramme avec les densités d’effectifs en ordonnée L’aire de chaque rectangle (avec l’unité d’aire définie par le repère) est égale à l’effectif de l’intervalle correspondant car : (aire) = (largeur) x (hauteur) = (amplitude) x (densité) = (effectif). L'aire totale sous la courbe de densité (aire de l'histogramme) est égale alors à l'effectif total. Remarques : • Il est important de noter que si on avait pris des intervalles du type ] , ], les effectifs et donc les densités auraient été très voisines ; de même si on changeait un peu les bornes des intervalles. Si tel n'avait pas été le cas, on en aurait tiré la conclusion que notre méthode d'étude statistique n'était pas adaptée (les conclusions d'une étude statistique ne doivent pas être influencées par de petites variations dans l'application de la méthode). • On perd de l'information en passant de la série initiale au tableau des effectifs par intervalle (cette perte est d'autant plus importante que les intervalles sont grands). Mais c'est inévitable si on veut étudier la densité de répartition en se fixant à priori le découpage de [0 , 16[. • C'est la densité qui permet de définir proprement la notion de "classe modale" : c'est un intervalle de plus forte densité. 3) Densité de fréquences Si on veut comparer plusieurs séries statistiques ayant des effectifs totaux différents, il vaut mieux calculer les fréquences (quotients des effectifs par l’effectif total, que l’on peut ou non exprimer en pourcentage). On peut alors calculer des densités de fréquences par les quotients (fréquence) / (amplitude). Elles sont proportionnelles aux densités d'effectifs [0, 4[ [4, 6[ [6, 8[ [8, 9[ [9, 10[ [10, 11[ [11, 12[ [12, 14[ [14, 16[ 5 5 7 4 7 7 5 6 4 fréquences 0,1 0,1 0,14 0,08 0,14 0,14 0,1 0,12 0,08 amplitudes 4 2 2 1 1 1 1 2 2 densités de fréquence 0,025 0,05 0,07 0,08 0,14 0,14 0,1 0,06 0,04 effectifs On fait alors un graphique en portant ces densités de fréquence en ordonnée. L’aire de chaque rectangle est ici égale à la fréquence et l'aire totale de l'histogramme obtenu vaut alors 1 (somme des fréquences) avec l'unité d'aire adaptée aux axes. [email protected] janvier 2014 page 2 / 4 0,16 0,14 0,12 0,1 0,08 0,06 0,04 0,02 0 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 histogramme avec les densités de fréquences en ordonnée 4) En probabilité Après la délocalisation en Moldavie du Nord de la production des mini Tour Eiffel en aluminium doré pour les touristes, la machine qui les fabriquait s'est trouvée fortement déréglée. Pour gérer à l'avenir la production, en supposant que la machine ne se dérègle pas plus, on voudrait estimer les probabilités que la hauteur en centimètres d'une tour fabriquée par cette machine soit dans l'intervalle [0 , 4[ ou [4 , 6[ ... ou [14 , 16[. On mène alors une étude statistique sur 50 tours fabriquées qui nous donne les résultats de la série statistique étudiée plus haut. Nous considérons alors la hauteur d'une tour comme une variable aléatoire X continue à valeurs dans l'intervalle [0 , 16[ en supposant qu'elle peut prendre n’importe quelle valeur réelle de cet intervalle. Il est scientifiquement raisonnable de choisir comme probalilité que cette variable aléatoire appartienne à l’intervalle [0 , 4[ la fréquence que l’on a observée, soit 0,1 et de même pour les autres intervalles. On peut alors reprendre le graphique précédent dans lequel les aires des rectangles seront maintenant égales aux probabilités. On n'a représenté ci-dessous que les segments horizontaux, représentant une fonction constante par intervalles. 0,16 0,14 0,12 0,10 0,08 0,06 0,04 0,02 0,00 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 histogramme en probabilité [email protected] janvier 2014 page 3 / 4 On peut alors calculer par exemple la proba que la hauteur X de la mini Tour Eiffel soit comprise entre 7 et 9 par un calcul d’aire en ajoutant les aires de 2 rectangles : (8-7)x0,07 + (9-8)x0,08 = 0,15 Mais quelle est la proba qu’elle soit égale à 9 ? Un calcul d’aire donne 0 ! C’est cohérent avec la réalité : il est impossible que X soit très exactement égale à 9 cm. Si vous trouvez 9 cm avec votre double décimètre, un instrument plus précis montrera sûrement un petit écart. Et en plus comme les tours sont en alu, une petite élévation de température la fera dilater. La probabilité que X soit absolument, exactement, égale à un réel donné est vraiment, mais vraiment nulle. Dans le schéma mathématique, théorique, qu'on a choisi, "X = 9" est un événement impossible en probabilité. Ainsi, toutes ces proba sont égales : P ( X ∈[7,9 ])=P ( X ∈]7,9 ])=P ( X ∈[7,9 [)= P( X ∈]7,9[) Le graphique ci-dessus ne précise pas les points d’abscisses 0, 4, 6, ... mais peu importe car cela n’a pas d’influence sur les calculs de proba. En imaginant par exemple que l’on prenne des segments fermés à gauche et ouverts à droite, le graphique définit une fonction appelée une densité de probabilité de X. Si on modifie les valeurs en 0, 4, 6, ... on obtient une autre fonction, "légèrement" différente, mais elle donnera les mêmes probabilités sur les intervalles. Cette fonction f densité de proba n'est évidemment pas continue sur [0 , 16[, mais elle l'est par intervalles, ∫ ab f (x )d x et elle est parfaitement bien intégrable et on peut exprimer les proba avec : P ( X ∈[a , b])= qui est égale à l’aire sous la courbe. Dans le cas présent cette formule n'apporte rien pour le calcul de proba, mais elle apparait dans d'autres études plus complexes avec des densités de probabilité données par des formules. Remarque 1 : Si on s'intéresse aux intervalles de même amplitude 1 : [0 , 1[ , [1 , 2[ , ..., [15 , 16[, on remarque que leur proba est égale à la densité de fréquence observée, qu'elle est donc plus grande lorsque la densité est forte (on a plus de "chance" de rencontrer quelqu'un là où il y a beaucoup de monde !). Remarque 2 : avec notre choix d'intervalles, comme la densité de proba est constante sur par exemple [0 , 4[, les 4 intervalles [0 , 1[, [1 , 2[, [2 , 3[, [3 , 4[, ont la même proba (0,025). De même si on subdivisait [0 , 4[ en 100 sous intervalles d'amplitudes égales, ils auraient tous la même proba (0,001). Dans le schéma mathématique (théorique) qu'on a choisi, on peut dire que la probabilité est uniformément répartie sur l'intervalle [0 , 4[, ce qui ne correspond sans doute pas parfaitement à la réalité, mais rien n'est parfait ! [email protected] janvier 2014 page 4 / 4