Cours 4 : Paramètres de dispersion d`une série statistique

Transcription

Cours 4 : Paramètres de dispersion d`une série statistique
Statistiques
DIP, Université Stendhal, Grenoble III
Cours 4 : Paramètres de dispersion d’une
série statistique
1
L’étendue _____________________________________________________________ 1
2
Quartiles, déciles, diagramme de Tuckey ____________________________________ 1
3
2.1
Quartiles, intervalle interquartile et écart interquartile _______________________ 1
2.2
Déciles, intervalle interdécile et écart interdécile ____________________________ 2
2.3
Diagramme de Tuckey________________________________________________ 2
Variance et écart-type____________________________________________________ 3
3.1
Introduction et exemple _______________________________________________ 3
3.2
Variance___________________________________________________________ 3
3.3
Ecart-type _________________________________________________________ 3
3.4
Exemple ___________________________________________________________ 3
Considérons une population P comprenant N individus.
Soit X le caractère étudié et soient (x 1 , ... , x p ) les modalités (valeurs) de X.
1 L’étendue
Définition 1 : L’étendue d’une série statistique quantitative (qu’elle soit discrète ou continue) est la
différence entre le plus grande et la plus petite des valeurs de la variable.
Remarque 1 : L’étendue est la mesure la plus simple de la dispersion tandis que les moyenne, mode
et médiane mesurent la position d'une série statistique.
2 Quartiles, déciles, diagramme de Tuckey
Soit S une série statistique ordonnée contenant N valeurs : x 1 ≤ x 2 ≤ x 3 ≤ … ≤ x N
2.1
Quartiles, intervalle interquartile et écart interquartile
Définition 2 : Le premier quartile d’une série statistique est la plus petite valeur xi prise par la série
telle que 25% au moins des valeurs de la série soient inférieures ou égales à xi. On notera Q1 cette
valeur.
Page 1 sur 4
©Sandra Michelet
[email protected]
Statistiques
DIP, Université Stendhal, Grenoble III
Définition 3 : Le troisième quartile d’une série statistique est la plus petite valeur xi prise par la série
telle que 75% au moins des valeurs de la série soient inférieures ou égales à xi. On notera Q3 cette
valeur.
Définition 4 : On appelle intervalle interquartile d’une série statistique l’intervalle [Q1 ; Q3].
Définition 5 : On appelle écart interquartile d’une série statistique le nombre Q3 - Q1
2.2
Déciles, intervalle interdécile et écart interdécile
Définition 6 : Le premier décile d’une série statistique est la plus petite valeur xi prise par la série
telle que 10% au moins des valeurs de la série soient inférieures ou égales à xi. On notera D1 cette
valeur.
Définition 7 : Le neuvième décile d’une série statistique est la plus petite valeur xi prise par la série
telle que 90% au moins des valeurs de la série soient inférieures ou égales à xi. On notera D9 cette
valeur.
Définition 8 : On appelle intervalle interdécile d’une série statistique l’intervalle [D1 ; D9].
Définition 9 : On appelle écart interdécile d’une série statistique le nombre D9 - D1
2.3
Diagramme de Tuckey
Remarque 1 : Plus l’écart interquartile est réduit, moins les valeurs de la série sont dispersées.
L’intervalle interquartile contient au moins 50% des valeurs de la série, tandis que l’intervalle
interdécile contient au moins 80% des valeurs.
Définition 10 : Un diagramme de Tuckey (appelé aussi diagramme en boîtes ou « boîte à
moustaches ») est un diagramme tel que celui ci-dessous :
Page 2 sur 4
©Sandra Michelet
[email protected]
Statistiques
DIP, Université Stendhal, Grenoble III
3 Variance et écart-type
3.1
Introduction et exemple
La variance et l’écart-type sont des valeurs qui indiquent la dispersion des données par rapport à la
moyenne.
Exemple 1 : On sait la durée de vie moyenne d’une ampoule électrique mais quelles peuvent être les
variations moyennes de cette durée. Autrement dit, y a t il des ampoules qui durent très peu et
d'autres beaucoup, ou bien est-ce que toutes les ampoules ont à peu près la même durée de vie? On
appelle aussi cela mesurer les caractères de dispersion d'une série statistique.
Remarque 2 : Si les valeurs de la série sont regroupées en intervalles, on utilisera dans les définitions
suivantes, le centre des intervalles pour le calcul.
3.2
Variance
Définition 11 : Soit S une série statistiques telles que x 1, x 2, ..., x p sont les p valeurs de cette série, et
n1, n2, ..., np les effectifs associés à ces valeurs. Soit N = n1 + n2 + … + np l'effectif total. La variance
de cette série statistique est la moyenne des carrés des écarts à la moyenne. Ce nombre V(x), vaut
donc :
Définition 12 : La variance peut être aussi calculée en utilisant la formule suivante :
Remarque 3 : Pour calculer la variance, il faut avoir calculer préalablement la moyenne.
3.3
Ecart-type
Définition 13 : L’écart-type d’une série statistique, noté σ(x) est la racine carrée de la variance :
Propriété 1 : Soit une série statistique S de modalités x1, x 2, x3,...,xp affectées des effectifs n1, n2, n3,
...,np d'écart type σx , et la série statistique S' de modalités y1, y2, y3, ...,y p affectées des mêmes effectifs
n1,n2,n3, ...,np telle que, yi = ax i + b, pour tout i=1, 2,…,p
Alors l'écart type σy de la série statistique S' est tel que : σy = |a| σx
3.4
Exemple
Exemple 2 :
On considère les résultats obtenus par 2 classes de 25 élèves à un examen de Statistiques. Les
résultats obtenus par les étudiants sont les suivants :
Page 3 sur 4
©Sandra Michelet
[email protected]
Statistiques
DIP, Université Stendhal, Grenoble III
Classe 1
Note (/20)
8
9
10
11
12
Classe 2
Effectif
5
5
5
5
5
Note (/20)
0
5
10
15
20
Effectif
5
5
5
5
5
Ces 2 classes ont la même moyenne à savoir 10/20. Cependant, il est clair que les 2 classes sont très
différentes. En effet, on peut le montrer en calculant pour chaque classe, la variance des notes par
rapport à la moyenne.
Après calcul, on trouve les valeurs de variance suivantes :
Variance de la classe 1
Variance de la classe 2
2
50
Dans le cas de la classe 1, la variance est assez faible (elle vaut 2), ainsi cela signifie que les notes
sont très centrées (ou peut dire aussi très proches) de la moyenne.
Dans le cas de la classe 2, la variance est beaucoup plus grande (elle vaut 50), ainsi cela signifie que
les notes sont très espacées.
Page 4 sur 4
©Sandra Michelet
[email protected]