Densité et histogramme

Transcription

Densité et histogramme
Densité et histogramme
1) Exemple "d'école" :
Voici une série statistique de 50 valeurs (ordonnées et rangées en colonnes) :
0,4
4,12
6,16
7,68
8,88
9,6
10,12
11,04
12,32
13,64
0,8
4,6
6,48
7,96
9,12
9,84
10,28
11,24
12,52
14,2
1,52
4,8
6,84
8,24
9,24
9,96
10,4
11,52
12,72
14,92
2,4
5,6
7,2
8,4
9,32
10
10,56
11,84
12,88
15,2
3,6
5,84
7,48
8,6
9,44
10,04
10,8
11,96
13,2
15,68
On ne retrouve pas deux fois le même nombre ; l'effectif de chaque valeur est donc de 1, et si on fait une
représentation graphique comme pour une série discrète, on n'obtient que des points d'ordonnée 1. Dans le
graphique ci-dessous, ils sont représentés par de petites croix :
2
1
0
0
2
4
6
8
10
12
14
16
18
Cette représentation n'est pas très intéressante, mais elle montre que les valeurs ne sont pas réparties
régulièrement.
On voudrait traduire par un graphique "là où il y en a beaucoup" et "là où il y en a peu". Il y a une notion
scientifique de base pour ceci : la notion de densité.
2) Densités d'effectifs
Dans l'étude de la démographie, on calcule des densités de population par exemple dans un département :
(nombre d'habitants) / (superficie du département).
Ici, on va choisir des intervalles et calculer pour chacun la densité des termes de la série statistique par le
quotient : (effectif dans cet intervalle) / (amplitude de l'intervalle)
On pourrait choisir des intervalles tous de même amplitude, mais ce n'est pas obligé ; ici on a choisi des
intervalles plus petits là où il y a beaucoup de données (on pourrait aussi prendre des petits intervalles là où
la densité change beaucoup pour traduire plus précisément son évolution). Voici ce choix et les densités
obtenues :
[0, 4[
[4, 6[
[6, 8[
[8, 9[
[9, 10[
[10, 11[
[11, 12[
[12, 14[
[14, 16[
effectifs
5
5
7
4
7
7
5
6
4
amplitudes
4
2
2
1
1
1
1
2
2
1,25
2,5
3,5
4
7
7
5
3
2
densités
d'effectif
Les deux premiers intervalles ont le même effectif de 5, mais des densités différentes : les termes de la
série sont deux fois plus "serrés" dans [4 , 6[ que dans [0 , 4[.
On fait alors un graphique en portant ces densités en ordonnée. On peut le voir comme des rectangles
dessinés côte à côte.
[email protected]
janvier 2014
page 1 / 4
8
7
6
5
4
3
2
1
0
0
1
2
3
4
5
6
7
8
9 10 11 12 13 14 15 16
histogramme avec les densités d’effectifs en ordonnée
L’aire de chaque rectangle (avec l’unité d’aire définie par le repère) est égale à l’effectif de l’intervalle
correspondant car :
(aire) = (largeur) x (hauteur) = (amplitude) x (densité) = (effectif).
L'aire totale sous la courbe de densité (aire de l'histogramme) est égale alors à l'effectif total.
Remarques :
•
Il est important de noter que si on avait pris des intervalles du type ] , ], les effectifs et donc les
densités auraient été très voisines ; de même si on changeait un peu les bornes des intervalles. Si
tel n'avait pas été le cas, on en aurait tiré la conclusion que notre méthode d'étude statistique n'était
pas adaptée (les conclusions d'une étude statistique ne doivent pas être influencées par de petites
variations dans l'application de la méthode).
•
On perd de l'information en passant de la série initiale au tableau des effectifs par intervalle (cette
perte est d'autant plus importante que les intervalles sont grands). Mais c'est inévitable si on veut
étudier la densité de répartition en se fixant à priori le découpage de [0 , 16[.
•
C'est la densité qui permet de définir proprement la notion de "classe modale" : c'est un intervalle
de plus forte densité.
3) Densité de fréquences
Si on veut comparer plusieurs séries statistiques ayant des effectifs totaux différents, il vaut mieux calculer
les fréquences (quotients des effectifs par l’effectif total, que l’on peut ou non exprimer en pourcentage).
On peut alors calculer des densités de fréquences par les quotients (fréquence) / (amplitude). Elles sont
proportionnelles aux densités d'effectifs
[0, 4[
[4, 6[
[6, 8[
[8, 9[
[9, 10[
[10, 11[
[11, 12[
[12, 14[
[14, 16[
5
5
7
4
7
7
5
6
4
fréquences
0,1
0,1
0,14
0,08
0,14
0,14
0,1
0,12
0,08
amplitudes
4
2
2
1
1
1
1
2
2
densités de
fréquence
0,025
0,05
0,07
0,08
0,14
0,14
0,1
0,06
0,04
effectifs
On fait alors un graphique en portant ces densités de fréquence en ordonnée. L’aire de chaque rectangle
est ici égale à la fréquence et l'aire totale de l'histogramme obtenu vaut alors 1 (somme des fréquences)
avec l'unité d'aire adaptée aux axes.
[email protected]
janvier 2014
page 2 / 4
0,16
0,14
0,12
0,1
0,08
0,06
0,04
0,02
0
0
1
2
3
4
5
6
7
8
9 10 11 12 13 14 15 16
histogramme avec les densités de fréquences en ordonnée
4) En probabilité
Après la délocalisation en Moldavie du Nord de la production des mini Tour Eiffel en aluminium doré pour
les touristes, la machine qui les fabriquait s'est trouvée fortement déréglée.
Pour gérer à l'avenir la production, en supposant que la machine ne se dérègle pas plus, on voudrait
estimer les probabilités que la hauteur en centimètres d'une tour fabriquée par cette machine soit dans
l'intervalle [0 , 4[ ou [4 , 6[ ... ou [14 , 16[.
On mène alors une étude statistique sur 50 tours fabriquées qui nous donne les résultats de la série
statistique étudiée plus haut.
Nous considérons alors la hauteur d'une tour comme une variable aléatoire X continue à valeurs dans
l'intervalle [0 , 16[ en supposant qu'elle peut prendre n’importe quelle valeur réelle de cet intervalle.
Il est scientifiquement raisonnable de choisir comme probalilité que cette variable aléatoire appartienne à
l’intervalle [0 , 4[ la fréquence que l’on a observée, soit 0,1 et de même pour les autres intervalles.
On peut alors reprendre le graphique précédent dans lequel les aires des rectangles seront maintenant
égales aux probabilités. On n'a représenté ci-dessous que les segments horizontaux, représentant une
fonction constante par intervalles.
0,16
0,14
0,12
0,10
0,08
0,06
0,04
0,02
0,00
0
1
2
3
4
5
6
7
8
9 10 11 12 13 14 15 16
histogramme en probabilité
[email protected]
janvier 2014
page 3 / 4
On peut alors calculer par exemple la proba que la hauteur X de la mini Tour Eiffel soit comprise entre 7 et
9 par un calcul d’aire en ajoutant les aires de 2 rectangles : (8-7)x0,07 + (9-8)x0,08 = 0,15
Mais quelle est la proba qu’elle soit égale à 9 ? Un calcul d’aire donne 0 ! C’est cohérent avec la réalité : il
est impossible que X soit très exactement égale à 9 cm. Si vous trouvez 9 cm avec votre double décimètre,
un instrument plus précis montrera sûrement un petit écart. Et en plus comme les tours sont en alu, une
petite élévation de température la fera dilater. La probabilité que X soit absolument, exactement, égale à un
réel donné est vraiment, mais vraiment nulle. Dans le schéma mathématique, théorique, qu'on a choisi,
"X = 9" est un événement impossible en probabilité.
Ainsi, toutes ces proba sont égales :
P ( X ∈[7,9 ])=P ( X ∈]7,9 ])=P ( X ∈[7,9 [)= P( X ∈]7,9[)
Le graphique ci-dessus ne précise pas les points d’abscisses 0, 4, 6, ... mais peu importe car cela n’a pas
d’influence sur les calculs de proba. En imaginant par exemple que l’on prenne des segments fermés à
gauche et ouverts à droite, le graphique définit une fonction appelée une densité de probabilité de X. Si
on modifie les valeurs en 0, 4, 6, ... on obtient une autre fonction, "légèrement" différente, mais elle
donnera les mêmes probabilités sur les intervalles.
Cette fonction f densité de proba n'est évidemment pas continue sur [0 , 16[, mais elle l'est par intervalles,
∫ ab f (x )d x
et elle est parfaitement bien intégrable et on peut exprimer les proba avec : P ( X ∈[a , b])=
qui est égale à l’aire sous la courbe. Dans le cas présent cette formule n'apporte rien pour le calcul de
proba, mais elle apparait dans d'autres études plus complexes avec des densités de probabilité données
par des formules.
Remarque 1 : Si on s'intéresse aux intervalles de même amplitude 1 : [0 , 1[ , [1 , 2[ , ..., [15 , 16[, on
remarque que leur proba est égale à la densité de fréquence observée, qu'elle est donc plus grande lorsque
la densité est forte (on a plus de "chance" de rencontrer quelqu'un là où il y a beaucoup de monde !).
Remarque 2 : avec notre choix d'intervalles, comme la densité de proba est constante sur par exemple
[0 , 4[, les 4 intervalles [0 , 1[, [1 , 2[, [2 , 3[, [3 , 4[, ont la même proba (0,025). De même si on subdivisait
[0 , 4[ en 100 sous intervalles d'amplitudes égales, ils auraient tous la même proba (0,001). Dans le schéma
mathématique (théorique) qu'on a choisi, on peut dire que la probabilité est uniformément répartie sur
l'intervalle [0 , 4[, ce qui ne correspond sans doute pas parfaitement à la réalité, mais rien n'est parfait !
[email protected]
janvier 2014
page 4 / 4