Cours 4 : Paramètres de dispersion d`une série statistique
Transcription
Cours 4 : Paramètres de dispersion d`une série statistique
Statistiques DIP, Université Stendhal, Grenoble III Cours 4 : Paramètres de dispersion d’une série statistique 1 L’étendue _____________________________________________________________ 1 2 Quartiles, déciles, diagramme de Tuckey ____________________________________ 1 3 2.1 Quartiles, intervalle interquartile et écart interquartile _______________________ 1 2.2 Déciles, intervalle interdécile et écart interdécile ____________________________ 2 2.3 Diagramme de Tuckey________________________________________________ 2 Variance et écart-type____________________________________________________ 3 3.1 Introduction et exemple _______________________________________________ 3 3.2 Variance___________________________________________________________ 3 3.3 Ecart-type _________________________________________________________ 3 3.4 Exemple ___________________________________________________________ 3 Considérons une population P comprenant N individus. Soit X le caractère étudié et soient (x 1 , ... , x p ) les modalités (valeurs) de X. 1 L’étendue Définition 1 : L’étendue d’une série statistique quantitative (qu’elle soit discrète ou continue) est la différence entre le plus grande et la plus petite des valeurs de la variable. Remarque 1 : L’étendue est la mesure la plus simple de la dispersion tandis que les moyenne, mode et médiane mesurent la position d'une série statistique. 2 Quartiles, déciles, diagramme de Tuckey Soit S une série statistique ordonnée contenant N valeurs : x 1 ≤ x 2 ≤ x 3 ≤ … ≤ x N 2.1 Quartiles, intervalle interquartile et écart interquartile Définition 2 : Le premier quartile d’une série statistique est la plus petite valeur xi prise par la série telle que 25% au moins des valeurs de la série soient inférieures ou égales à xi. On notera Q1 cette valeur. Page 1 sur 4 ©Sandra Michelet [email protected] Statistiques DIP, Université Stendhal, Grenoble III Définition 3 : Le troisième quartile d’une série statistique est la plus petite valeur xi prise par la série telle que 75% au moins des valeurs de la série soient inférieures ou égales à xi. On notera Q3 cette valeur. Définition 4 : On appelle intervalle interquartile d’une série statistique l’intervalle [Q1 ; Q3]. Définition 5 : On appelle écart interquartile d’une série statistique le nombre Q3 - Q1 2.2 Déciles, intervalle interdécile et écart interdécile Définition 6 : Le premier décile d’une série statistique est la plus petite valeur xi prise par la série telle que 10% au moins des valeurs de la série soient inférieures ou égales à xi. On notera D1 cette valeur. Définition 7 : Le neuvième décile d’une série statistique est la plus petite valeur xi prise par la série telle que 90% au moins des valeurs de la série soient inférieures ou égales à xi. On notera D9 cette valeur. Définition 8 : On appelle intervalle interdécile d’une série statistique l’intervalle [D1 ; D9]. Définition 9 : On appelle écart interdécile d’une série statistique le nombre D9 - D1 2.3 Diagramme de Tuckey Remarque 1 : Plus l’écart interquartile est réduit, moins les valeurs de la série sont dispersées. L’intervalle interquartile contient au moins 50% des valeurs de la série, tandis que l’intervalle interdécile contient au moins 80% des valeurs. Définition 10 : Un diagramme de Tuckey (appelé aussi diagramme en boîtes ou « boîte à moustaches ») est un diagramme tel que celui ci-dessous : Page 2 sur 4 ©Sandra Michelet [email protected] Statistiques DIP, Université Stendhal, Grenoble III 3 Variance et écart-type 3.1 Introduction et exemple La variance et l’écart-type sont des valeurs qui indiquent la dispersion des données par rapport à la moyenne. Exemple 1 : On sait la durée de vie moyenne d’une ampoule électrique mais quelles peuvent être les variations moyennes de cette durée. Autrement dit, y a t il des ampoules qui durent très peu et d'autres beaucoup, ou bien est-ce que toutes les ampoules ont à peu près la même durée de vie? On appelle aussi cela mesurer les caractères de dispersion d'une série statistique. Remarque 2 : Si les valeurs de la série sont regroupées en intervalles, on utilisera dans les définitions suivantes, le centre des intervalles pour le calcul. 3.2 Variance Définition 11 : Soit S une série statistiques telles que x 1, x 2, ..., x p sont les p valeurs de cette série, et n1, n2, ..., np les effectifs associés à ces valeurs. Soit N = n1 + n2 + … + np l'effectif total. La variance de cette série statistique est la moyenne des carrés des écarts à la moyenne. Ce nombre V(x), vaut donc : Définition 12 : La variance peut être aussi calculée en utilisant la formule suivante : Remarque 3 : Pour calculer la variance, il faut avoir calculer préalablement la moyenne. 3.3 Ecart-type Définition 13 : L’écart-type d’une série statistique, noté σ(x) est la racine carrée de la variance : Propriété 1 : Soit une série statistique S de modalités x1, x 2, x3,...,xp affectées des effectifs n1, n2, n3, ...,np d'écart type σx , et la série statistique S' de modalités y1, y2, y3, ...,y p affectées des mêmes effectifs n1,n2,n3, ...,np telle que, yi = ax i + b, pour tout i=1, 2,…,p Alors l'écart type σy de la série statistique S' est tel que : σy = |a| σx 3.4 Exemple Exemple 2 : On considère les résultats obtenus par 2 classes de 25 élèves à un examen de Statistiques. Les résultats obtenus par les étudiants sont les suivants : Page 3 sur 4 ©Sandra Michelet [email protected] Statistiques DIP, Université Stendhal, Grenoble III Classe 1 Note (/20) 8 9 10 11 12 Classe 2 Effectif 5 5 5 5 5 Note (/20) 0 5 10 15 20 Effectif 5 5 5 5 5 Ces 2 classes ont la même moyenne à savoir 10/20. Cependant, il est clair que les 2 classes sont très différentes. En effet, on peut le montrer en calculant pour chaque classe, la variance des notes par rapport à la moyenne. Après calcul, on trouve les valeurs de variance suivantes : Variance de la classe 1 Variance de la classe 2 2 50 Dans le cas de la classe 1, la variance est assez faible (elle vaut 2), ainsi cela signifie que les notes sont très centrées (ou peut dire aussi très proches) de la moyenne. Dans le cas de la classe 2, la variance est beaucoup plus grande (elle vaut 50), ainsi cela signifie que les notes sont très espacées. Page 4 sur 4 ©Sandra Michelet [email protected]