Les notions de base
Transcription
Les notions de base
Chapitre 1 : Les notions de base Introduction I – Comparer des grandeurs A) Les pourcentages B) Taux de variation, coefficient multiplicateur, indice C) Importance du sens de la comparaison 1) Raisonnement sur les taux de variation 2) Raisonnement sur coefficients multiplicateurs et indices D) Des taux de variation successifs au taux de variation global E) Taux annuel moyen de variation II – Résumer l’information : les moyennes A) La moyenne arithmétique 1) Moyenne “simple”, moyenne pondérée 2) Propriétés de la moyenne arithmétique B) La moyenne géométrique C) La moyenne harmonique D) Relation entre les moyennes 3 Introduction La statistique vise à décrire la réalité sous forme chiffrée. Elle s’appuie sur un ensemble de techniques qui permettent de donner du sens à l'information collectée. En effet, l'information chiffrée brute est en général peu parlante (“ trop d’informations tue l’information ”). Il faut la traiter, ce qui consiste à la trier, la résumer, la synthétiser. Ce faisant, on perd en précision, mais on gagne en signification. Il y a 2 types de traitement de base : synthétiser et comparer. Outils de base pour les comparaisons : le coefficient multiplicateur, l’indice, le taux de variation ; qui seront examinés dans le I ; Outil de base permettant de résumer l’info : le calcul de moyennes ; ce sera l’objet du II. I – Comparer des grandeurs Le tableau 1.1.a donne les résultats d'une enquête sur la situation professionnelle des jeunes sortis du système éducatif en 1998, 3 ans après la sortie. Tableau 1.1.a Répartition des jeunes sortis du système éducatif en 1998 selon le niveau d’études et la situation professionnelle, 3 ans après la sortie Emploi Chômage Autres* Total niveau inférieur au bac 201 810 42 706 29 050 273 566 Bac 157 465 13 101 20 960 191 526 Études supérieures 251 889 12 170 12 394 276 453 Total 611 164 67 977 62 404 741 545 * Inactifs, reprise d'études... Source : enquête "Génération 98", Céreq, 2003 Ce sont des données brutes qui ne sont pas très « lisibles ». Pour pouvoir les interpréter, on va comparer entre elles certaines de ces grandeurs. Comparer des grandeurs, c’est : – en langage courant, les mettre en rapport ; – en langage « mathématique », faire le rapport de ces grandeurs, c’est-à-dire calculer une fraction. Ce rapport, cette fraction, on l’exprimera en pourcentage. A) Les pourcentages On utilise donc les pourcentages pour exprimer un rapport de 2 grandeurs. Exprimer en pourcentage revient à transformer ce rapport de sorte que son dénominateur soit égal à 100. 4 Statistique descriptive Transformation en pourcentage des données du tableau 1.1a Il y a 2 possibilités : 1 · On examine, pour chacune des 3 situations considérées (avoir un emploi, être au chômage, n'exercer ni ne rechercher de profession), la répartition des individus selon leur niveau d’études. Pour chaque colonne du tableau, on rapporte le nombre indiqué dans chaque ligne au total de la colonne, rapport que l’on exprime en pourcentage. Remarque : formule Excel $ devant le chiffre de la cellule du dénominateur Tableau 1.1.b Niveau d’études de la génération 98 selon la situation professionnelle en 2001 Emploi Chômage Autre Total Niveau inférieur au bac 33,0 62,8 46,6 36,9 Bac 25,8 19,3 33,6 25,8 Études supérieures 41,2 17,9 19,9 37,3 Total 100 100 100 100 en % Les pourcentages globaux de la dernière colonne indiquent la répartition, selon leur niveau d’études, des sortants du système éducatif de 1998. 2 · Pour mieux mettre en évidence cette relation, il est préférable de calculer, pour chaque niveau d’études, le pourcentage de ceux qui ont un emploi, qui sont au chômage… ; ainsi, pour chaque ligne du tableau 1.1.a, on rapporte le nombre indiqué dans chaque colonne au total de la ligne et l’on exprime le résultat en pourcentage. Remarque : formule Excel $ devant la lettre de la cellule du dénominateur Tableau 1.1.c Situation professionnelle en 2001 de la génération 98 selon le niveau d’études Emploi Chômage Autre Total Niveau inférieur au bac 73,8 15,6 10,6 100 Bac 82,2 6,8 10,9 100 Études supérieures 91,1 4,4 4,5 100 Total 82,4 9,2 8,4 100 en % Les pourcentages de la dernière ligne du tableau indiquent la répartition des jeunes selon leur situation professionnelle 3 ans après la fin de leurs études (tous niveaux d’études confondus). 1) Caractéristiques des pourcentages Un pourcentage exprime un rapport entre 2 grandeurs (évidemment exprimées dans la même unité). Cela implique 3 choses : – Un nombre sans dimension. – Le pourcentage indique une valeur relative ; il n’a de sens que par rapport à l’ensemble considéré. Chapitre 1 − Les notions de base 5 – Il gomme l’effet de taille. En éliminant l’effet de taille, le calcul de pourcentages permet d'interpréter les données. Mais il peut également conduire à des interprétations absurdes. 2) Utilisation des pourcentages Il y a 3 grands types d’utilisation : – Pour exprimer une proportion, indiquer quelle part de l’ensemble total représente la grandeur considérée. Dans ce cas, le pourcentage est nécessairement supérieur à 0 et inférieur à 100 (0 < % < 100). – Pour mesurer une grandeur par rapport à une autre qui lui est extérieure. – Pour exprimer une variation relative ; cela revient à mesurer l’écart entre 2 valeurs d’une même grandeur par rapport à une situation de référence. On fait alors le calcul d’un taux de variation. B) Taux de variation, coefficient multiplicateur, indice Il s’agit ici de comparer les valeurs prises par une même grandeur dans des situations différentes, à des dates différentes ou dans des lieux différents. 1) Écarts absolus, écarts relatifs Considérons les deux séries de données suivantes correspondant à chacun de ces 2 cas : – grandeur observée à des dates différentes (PIB en valeur et population de l’Île-de-France de 95 à 2001) ; – grandeur observée en des lieux différents (PIB par habitant des régions françaises). Tableau 1.2.a PIB en valeur et population de l’Île-de-France 1995 1996 1997 1998 1999 2000 2001 PIB, Milliards d’euros 334,2 344,6 355,8 367,7 383,7 402,9 413,7 Pop°, Millions d’hab. 10,87 10,89 10,9 10,93 10,96 11 11,04 PIB/hab., milliers d’euros 30,75 31,64 32,64 33,64 35,01 36,63 37,47 Source : INSEE Tableau 1.3 PIB régionaux en valeur par habitant en 2006 Alsace Aquitaine Auvergne Basse-Normandie Bourgogne Bretagne Centre Champagne-Ardenne 6 en euros Base 100 métropole Base 100 Île-de-France Base 100 Nord-Pas-de-Calais 26 532 25 693 23 699 23 491 24 932 25 249 25 296 26 381 92,4 89,5 82,5 81,8 86,8 87,9 88,1 91,9 61,2 59,2 54,6 54,2 57,5 58,2 58,3 60,8 118,1 114,4 105,5 104,6 111,0 112,4 112,6 117,5 Statistique descriptive Corse Franche-Comté Haute-Normandie Île-de-France Languedoc- Roussillon Limousin Lorraine Midi-Pyrénées 22 660 24 467 25 834 43 370 22 616 23 580 23 596 25 772 78,9 85,2 89,9 151,0 52,2 56,4 59,6 100,0 78,7 82,1 82,2 89,7 78,2 52,1 54,4 54,4 59,4 Nord-Pas-de-Calais Pays de la Loire Picardie Poitou-Charentes Provence-Alpes-Côte d’Azur Rhône-Alpes 22 458 26 041 22 660 23 881 27 095 28 792 90,7 78,9 83,1 94,3 100,2 51,8 60,0 52,2 55,1 62,5 66,4 Métropole 28 721 100,0 66,2 100,9 108,9 115,0 193,1 100,7 105,0 105,1 114,8 100,0 116,0 100,9 106,3 120,6 128,2 127,9 Source : INSEE Pour comparer entre elles les valeurs de chaque tableau, on peut les soustraire les unes aux autres et calculer les écarts absolus (entre 2 dates dans le premier cas, entre 2 régions dans le second). Entre 95 et 2001, le PIB par habitant de l’Île-de-France a augmenté d'un peu plus de 6 700 euros. En 2001, le PIB par habitant de l’Alsace est supérieur d’environ 6 200 euros à celui du LanguedocRoussillon, mais inférieur de près de 13 000 euros à celui de l’Île-de-France. Mais le recours aux écarts absolus n’est pas très satisfaisant pour 2 raisons : La mesure de l’écart obtenue dépend de l’unité dans laquelle les grandeurs sont exprimées. Par ailleurs, l’écart absolu ne tient pas compte du niveau de la valeur de départ, ce qui limite les possibilités d’interprétation. Par exemple, l’augmentation de 6 700 euros du PIB par habitant en Île-de-France de 1995 à 2001 n’aurait pas la même signification si le PIB de 1995 était de 70 000 euros au lieu de 30 750. Pour contourner ces inconvénients, on raisonne sur les écarts relatifs, c’est-à-dire l’écart absolu divisé par la valeur de départ. Cet écart relatif correspond au taux de variation, et on l’exprime généralement en pourcentage. Soit X une variable statistique ayant x0 comme valeur de départ et xt comme valeur d’arrivée, le taux de variation entre la valeur de départ et la valeur d’arrivée s’écrit : vt / 0 = (xt − x0) xt = −1 x0 x0 On multipliera le taux de variation par 100 pour obtenir un pourcentage. Entre 1995 et 2001, le PIB/hab. de l’Île-de-France a crû de : valeur 2001 37,47 6,72 −1= −1= = 0,219 = 21,9 % valeur 1995 30,75 30,75 L’écart relatif de PIB/hab. entre l’Alsace et le Languedoc-Roussillon, en prenant le PIB/hab. du Languedoc-Roussillon comme valeur de référence, est de : valeur Alsace 26 532 3 916 −1= −1= = 0,173 = 17,3 % 22 616 valeur Languedoc-Roussillon 22 616 Chapitre 1 − Les notions de base 7 Le PIB/hab. alsacien est supérieur de 17,3 % au PIB/hab. du Languedoc-Roussillon. L’écart relatif de PIB/hab. entre l’Alsace et l’Île-de-France, en prenant l’Île-de-France comme référence, est de : valeur Alsance 26 532 − 16 838 −1= −1= = − 0,388 = − 38,8 % valeur Île-de-France 43 370 43 370 Le PIB/hab. alsacien est inférieur de 38,8% au PIB/hab. francilien. Comme le taux de variation est obtenu en divisant des valeurs exprimées dans la même unité, c’est évidemment un nombre sans dimension. 2) Taux de variation et coefficient multiplicateur Pour exprimer ces variations relatives, on aurait pu tout aussi bien faire le rapport entre les 2 valeurs considérées, diviser la valeur d’arrivée par la valeur de départ. On obtient alors le coefficient multiplicateur qui indique le nombre par lequel la grandeur considérée a été multipliée entre la situation de départ et la situation d’arrivée : mt / 0 = xt x0 Remarques 1) Valeur du coefficient multiplicateur : – Quand la valeur d'arrivée est supérieure à la valeur de départ (croissance dans le cas où on suit l'évolution d’une valeur dans le temps), le coefficient multiplicateur est supérieur à 1. – Quand la valeur d'arrivée est inférieure à la valeur de départ (baisse), le coefficient multiplicateur est inférieur à 1. 2) Relation entre taux de variation et coefficient multiplicateur : Taux de variation = Coefficient multiplicateur − 1 = 100 × (coefficient multiplicateur − 1) % Ce qui implique évidemment que : Coefficient multiplicateur = 1 + taux de variation =1+ taux de variation en % 100 Un coefficient multiplicateur supérieur à 1 correspond à un taux de variation supérieur à 0, et un coefficient multiplicateur inférieur à 1 correspond à un taux de variation inférieur à 0. PIB régionaux Coeff., multiplicateur Taux de variation Alsace par rapport au Languedoc-R. 1,173 17,3 % Alsace par rapport à l’IdF 0,612 − 38,8 % 3) Pour calculer un taux de variation, il est plus simple de passer par le multiplicateur que de rapporter l’écart absolu à la valeur de départ. 3) Expression sous forme d’indices C’est la troisième façon d’exprimer une variation relative. L’indice correspondant à la valeur d’arrivée est obtenu en multipliant par 100 le coefficient multiplicateur. 8 Statistique descriptive On appelle indice le nombre sans dimension résultant du rapport de deux valeurs prises par une même grandeur, soit à deux dates différentes, soit sur deux espaces différents. Il est bon de remarquer qu’un indice ne peut suivre l’évolution que d’une seule variable : soit l’évolution de la variable dans le temps, c’est alors un indice temporel, soit l’évolution des différences entre plusieurs variables à un moment donné, c’est alors un indice spatial. Soient xt la valeur de la variable à la date courante « t » (ou situation courante), et x0 la valeur de la variable à la date de base « 0 » (ou situation de base), l’indice de la variable entre la situation « 0 » et la situation « t » est : x It / 0 = 100 × t x0 37,47 = 121, 9 en 2001. 30,75 35,01 En 1999, cet indice vaut : I99 / 95 = 100 × valeur 99/valeur 95 = 100 × = 113,9 30,75 L’indice du PIB/hab. de l’Île-de-France, base 100 en 95, vaut 100 × On peut ainsi retracer l’évolution du PIB/hab. de l’Île-de-France en transformant les données brutes en indices base 100 en 95. Tableau 1.2b Indices du PIB en valeur et de la population de l’Île-de-France, base 100 en 1995 1995 1996 1997 1998 1999 2000 2001 PIB en valeur 100,0 103,0 106,4 110,0 114,8 120,6 123,8 Population 100,0 100,2 100,3 100,5 100,8 101,2 101,6 PIB/hab. 100,0 102,9 106,1 109,4 113,9 119,1 121,9 De la même façon, on peut exprimer les disparités de PIB régionaux en choisissant l’une des régions comme base. Cf. 3 dernières colonnes du tableau 1.3. Remarques 1) Un indice se calcule à partir d’une donnée de base ou de référence qui sert de base aux calculs. L’indice correspondant à cette donnée initiale est 100. 2) Dans le cas d’un indice temporel, cette donnée de base s’appelle « date de base » ou « date de référence » ; dans celui d’un indice spatial, cette donnée s’appelle « situation de base » ou « situation de référence ». 3) La valeur d'un indice n'a de sens que relativement à la base dans laquelle il s'exprime. La base 100 indique le point de départ de la comparaison. Le choix de la base permet de faire ressortir certaines évolutions. Toujours indiquer à quoi correspond la base 100 (quelle date, quel endroit). Cf. tableau 1.3. 4) Exprimer une variation en indice revient à ramener à 100 la valeur de départ, et l'indice associé à la valeur d'arrivée vaudra plus de 100 en cas de variation supérieure à 0, moins de 100 en cas de variation inférieure à 0. 5) Les indices considérés ici, appelés indices élémentaires, sont transitifs. Ainsi, nous avons : Chapitre 1 − Les notions de base 9 I2 / 0 I2 / 0 = I2 / 1 × I1 / 0 x 1 ce qui est équivalent à I2 / 1 = 100 × I 1/0 100 Cette propriété de transitivité se déduit immédiatement de la définition des indices : x x I x I2 / 0 = 100 × 2 = 100 × 2 × 1 = I2 / 1 × 1 / 0 x0 x1 x0 100 x x x I2 / 1 = 100 × 2 = 100 × 2 × 0 = x1 x0 x1 100 × x2 x0 x1 x0 I2 / 0 I = 100 × 2 / 0 I1 / 0 I1 / 0 100 = PIB/hab. Île-de-France On vérifiera ainsi que I01 / 99 × I99 / 95 = 100 × I01 / 95 I01 / 99 = 107,0 107,0 × 113,9 = 100 × 121,9 CQFD Interprétation : le PIB/hab. d’Île-de-France a augmenté de 13,9 % entre 1995 et 1999, puis de 7 % entre 1999 et 2001. Il a donc augmenté de 21,9 % entre 1995 et 2001. On reviendra sur les indices au chapitre suivant. 6) Relation entre indice et taux de variation Indice en 1, base 100 en 0 = 100 × coefficient multplicateur entre 0 et 1 = 100 + taux de variation entre 0 et 1 en % Quelques équivalences chiffrées : Une grandeur qui A augmenté de … ⇔ 5% 40 % 100 % 300 % A diminué de … 5% 50 % 100 % A été multipliée par… ⇔ 1,05 1,4 2 4 ⇔ A été multipliée par… L’indice, base 100 en 0, est passé à… 105 140 200 400 ⇔ 0,95 0,5 (divisé par 2) 0 (disparation) L’indice, base 100 en 0, est passé à… 95 50 0 Attention au passage des indices aux taux de variation. Là encore, importance de la base. Cf. tableau 1.2b : le PIB/hab. d’IdF a augmenté de 13,9 % entre 1995 et 1999 et de 21,9 % entre 1995 et 2001. Cela ne signifie pas qu’il a augmenté de 8 % entre 1999 et 2001. En fait, comme on l’a vu, il a I augmenté de 7 % Cf. transitivité des indices élémentaires : I01 / 99 = 01 / 95 × 100 I99 / 95 C) Importance du sens de la comparaison Comparer la situation en 1 à la situation en 0 ne donne pas les mêmes résultats que la comparaison inverse (situation en 0 par rapport à la situation en 1). Si l'écart absolu est, au signe près, identique dans les 2 cas, l'écart relatif est lui nécessairement différent puisque le dénominateur n'est pas le même. 1) Raisonnement sur les taux de variation Le PIB/hab. est, en Île-de-France, supérieur de 191,8 % à ce qu’il est en Languedoc-Roussillon. Ça ne veut évidemment pas dire que le PIB/hab. du Languedoc-Roussillon est inférieur de 191,8 % au PIB/hab. francilien (le PIB/hab. du Languedoc-Roussillon serait alors négatif !). 10 Statistique descriptive Comparaison IdF / Lang-R. Valeur de départ de la comparaison = celle observée au Lang-R. Écart absolu = valeur IdF − valeur Lang-R. = 20 754 euros. On rapporte cet écart absolu à la valeur du PIB/hab. du Lang-R. (= 22 616). Comparaison Lang-R. / IdF Valeur de départ de la comparaison = celle observée en IdF Écart absolu = valeur Lang-R. − valeur IdF = − 20 754 euros. On rapporte cet écart absolu à la valeur du PIB/hab. en IdF (= 43 370). Le dénominateur est beaucoup plus élevé dans le 2ème cas que dans le 1er. Le taux de variation sera nécessairement beaucoup plus faible (en valeur absolue). Il vaudra − 47,9 %, ce qui veut dire que le PIB/hab. du Languedoc-Roussillon est inférieur de 47,9 % à ce qu’il est en Île-de-France (autrement dit, il représente 52,1 % du PIB/hab. francilien, cf. tableau 1.3). Généralisation On montre que : si le taux de variation entre 0 et 1 vaut a, alors le taux de variation entre 1 et 0 vaut −a 1+a Une baisse de 20 % entre 0 et 1 correspond ainsi à une hausse de 0,2 / 0,8 = 25 % entre 1 et 0. Si, par exemple, les salaires baissent de 20 % au cours d’une période, puis augmentent de 25 % à la période suivante, ils reviennent à leur niveau de départ. Quelques équivalences chiffrées : − 20 % entre 0 et 1 ⇔ + 25 % entre 1 et 0 − 50 % entre 0 et 1 ⇔ + 100 % entre 1 et 0 − 80 % entre 0 et 1 ⇔ + 400 % entre 1 et 0 + 20 % entre 0 et 1 ⇔ − 16,67 % entre 1 et 0 + 50 % entre 0 et 1 ⇔ − 33,33 % entre 1 et 0 + 80 % entre 0 et 1 ⇔ − 44,44 % entre 1 et 0 Illustration : Un commerçant pratique une marge d’un-tiers (vend ses produits 33,33 % de plus qu’il ne les achète). Au moment des soldes, quelle réduction maximum sur les prix marqués peut-il accorder pour ne pas vendre à perte ? Réponse : 25 % 2) Raisonnement sur coefficients multiplicateurs et indices Le coefficient multiplicateur entre 1 et 0 est égal à l'inverse du coefficient multiplicateur entre 0 et 1. m0 / 1 = x0 1 = x1 m 1 / 0 On en déduit que I0 / 1 = 1 I1 / 0 × 100² (propriété de réversibilité des indices élémentaires). Tableau 1.3 : IL-R / IdF = 48,9 ⇒ IIdF / L-R = Chapitre 1 − Les notions de base 1 1 × 100² = × 100² = 0,02045 × 100² = 204,5 IL-R / IdF 48,9 11 D) Des taux de variation successifs au taux de variation global Question : comment, à partir de taux de variation successifs, déterminer le taux de variation global ? Supposons qu’au lieu de disposer des valeurs du PIB/hab. de l’Île-de-France, on ne connaisse que les taux annuels de variation. Tableau 1.2c Taux de variation annuels 1995 1996 1997 1998 1999 2000 2001 PIB en valeur - 3,1 3,3 3,4 4,4 5 2,7 Population - 0,2 0,1 0,2 0,3 0,3 0,4 PIB par hab. - 2,9 3,1 3,1 4 4,6 2,3 Comment mesurer le taux global de variation entre 95 et 01 ? La mauvaise réponse est “en additionnant les pourcentages”. Ce faisant, on sous-estimerait le taux de variation global puisque additionner les pourcentages revient à tous les appliquer à une même valeur (la valeur de départ), alors qu’en fait, ils s’appliquent à une valeur qui croît d'une date à l’autre. Si les variations étaient toutes inférieures à 0 (baisse continue), alors l’addition des pourcentages surestimerait la baisse globale. Pour calculer le taux de variation global, il faut passer par les coefficients multiplicateurs, il faut multiplier les multiplicateurs. Le multiplicateur global entre 95 et 01 vaut m01 / 95 = 1,029 × 1,031 × 1,031 × 1,04 × 1,046 × 1,023 = 1,217 Soit un taux de variation global de 21,7 % (résultat un peu différent de celui obtenu sur les données brutes en raison des arrondis). La somme des pourcentages vaut quant à elle 20. Généralisation Soit une variable X observée en 0, 1, 2 jusqu’à n. Le multiplicateur global entre 0 et n vaut : mn / 0 = mn / n − 1 · mn − 1 / n − 2 ·…· m2 / 1 · m1 / 0 D’après le lien entre multiplicateur et taux de variation, on peut dire que le taux global de variation entre 0 et n vaut alors : vn / 0 = mn / 0 − 1 = 100 · (mn / 0 − 1) % De même, pour les indices, l’indice global vaut alors : In / 0 = In / n − 1 · In − 1 / n − 2 ·…· I2 / 1 · I1 / 0 · 1 100 n−1 Dans le cas où la date (ou la situation) de base est p, les indices sont multipliés par n − (p + 1) 1 100 . Application : Calcul de taux de variation globaux à partir d’une évolution exprimée en indices. Supposons que les variations annuelles du PIB/hab. d’Île-de-France soient exprimées en indices. Il s’agirait alors d’indice base 100 l’année précédente. 12 Statistique descriptive Tableau 1.2d Indices base 100 l’année précédente 1995 1996 1997 1998 1999 2000 2001 PIB en valeur - 103,1 103,3 103,4 104,4 105 102,7 Population - 100,2 100,1 100,2 100,3 100,3 100,4 PIB par hab. - 102,9 103,1 103,1 104 104,6 102,3 → Combien vaut le taux de variation global entre 95 et 99 du PIB/hab. ? Il s’agit de calculer la valeur en 99 de l’indice base 100 en 95. On utilise la propriété de transitivité des indices élémentaires. 1 I99 / 95 = I99 / 98 · I98 / 97 · I97 / 96 · I96 / 95 · 1003 1 = 113,8 = 104 × 103,1 × 103,1 × 102,9 × 1003 I99 / 95 D’après le rapport entre indice et taux de variation, on a : v99 / 95 = 100 Donc, v99 / 95 = 0,138 → Combien vaut le taux de variation global entre 99 et 2001 du PIB/hab. ? Il s’agit de calculer la valeur en 2001 de l’indice base 100 en 1999. 1 I01 / 99 = I01 / 00 · I00 / 99 · 100 1 = 102,3 × 104,6 × = 107,0 100 Donc, v01 / 99 = 0,07 → Combien vaut le taux de variation global entre 95 et 2001 ? La valeur en 2001 de l’indice base 100 en 1995 se déduit des 2 indices précédents : 1 I01 / 95 = I01 / 99 · I99 / 95 · 100 1 = 107,0 × 113,8 × = 127,8 100 D’où : v01 / 95 = 0,278 Illustration : En France, pour calculer le revenu imposable (base de l’IR), on applique une 1ère déduction de 10 % sur le revenu déclaré (pour frais professionnels). On pratique ensuite un abattement de 20 %. Quelle est la déduction globale accordée ? Quelle serait-elle si l’on pratiquait d’abord l’abattement de 20 %, puis la déduction de 10 % ? Réponse : Même déduction de 28 % dans les 2 cas. E) Taux annuel moyen de variation Question posée : À quel taux le PIB/hab. d’Île-de-France a-t-il crû, en moyenne, par an sur l’ensemble de la période considérée ? La mauvaise réponse est “pour le savoir, il suffit de diviser le taux de variation global par le nombre d’années considérées” ; calcul qui n’a aucun sens. Pour répondre à la question, il faut partir de la définition du TAMV (Taux Annuel Moyen de Variation). Chapitre 1 − Les notions de base 13 Le TAMV correspond au taux annuel constant auquel la grandeur considérée aurait dû varier pour connaître la même variation globale que celle effectivement enregistrée. Raisonnons sur les multiplicateurs. Entre 1995 et 2001, le PIB/hab. d’Île-de-France a été multiplié par 1,219. Par quel nombre constant aurait-il dû être multiplié tous les ans pour que la multiplication globale soit toujours de 1,219 ? On cherche donc m̄ tel que : m̄ × m̄ × m̄ × m̄ × m̄ × m̄ = m̄6 = 1,219 ⇒ m̄ = 6 1,219 = 1,2191/6 = 1,034 Donc, TAMV = 0,034 = 3,4 % Entre 1995 et 2001, le PIB/hab. francilien a crû en moyenne de 3,4 % par an. Généralisation Le TAMV entre l’année t et l’année n est tel que : (1 + TAMVentre t et n)n − t = 1 + vn / t ⇒ 1 + TAMVentre t et n = n − t 1 + vn / t ⇒ TAMVentre t et n = n − t 1 + vn / t − 1 Autrement dit, TAMV entre t et n = (multiplicateur global entre t et n)1/n − t − 1 Et on multiplie le résultat par 100 pour l’exprimer en pourcentage. Application : Le PIB/hab. d’Île-de-France a-t-il crû au même rythme annuel moyen entre 1995 et 1999, et entre 1999 et 2001 ? TAMV95-99 = 1,138¼ − 1 = 0,033 = 3,3 % TAMV99-01 = 1,070½ − 1 = 0,034 = 3,4 % Il y a une croissance annuelle moyenne du même ordre sur les 2 sous-périodes. Remarque : On s’est concentré sur le taux annuel moyen de variation. Cependant, on peut tout aussi bien calculer des taux de variation mensuels moyens, trimestriels moyens, etc. II – Résumer l’information : les moyennes Le calcul d’une moyenne permet de résumer l’information chiffrée dont on dispose, ce qui signifie évidemment que l’on perd en même temps de l’information (notamment sur la dispersion des valeurs de la variable considérée). La moyenne la plus communément utilisée est la moyenne arithmétique. A) La moyenne arithmétique La moyenne arithmétique des valeurs que prend une variable est égale à la somme de ces valeurs divisée par leur nombre. Remarque évidente : Pour calculer la moyenne d'une variable, il faut que ses valeurs soient sommables. 14 Statistique descriptive 1) Moyenne “simple”, moyenne pondérée Exemple : Un magasin vend 3 types d’ordinateurs portables à 1 300 €, à 2 000 € et à 2 700 €. Quel est le prix moyen des ordinateurs en vente dans ce magasin ? 1 300 + 2 000 + 2 700 Réponse : = 2 000 € 3 Généralisation Soit une variable qui prend n valeurs différentes, {x1, x2, …, xn}, la moyenne arithmétique de ces valeurs s'écrit : n ∑x i i=1 x̄ = x1 + x2 + … + xn = n n C’est la moyenne “simple”, égale à la somme des valeurs observées divisée par leur nombre. Exemple : Au cours du mois écoulé, le magasin considéré plus haut a vendu 200 ordinateurs : → 120 ordinateurs à 1 300 €, → 60 ordinateurs à 2 000 €, → 20 ordinateurs à 2 700 €. Quelle recette réalise-t-il, en moyenne, par ordinateur ? r̄ = 120 × 1300 + 60 × 2000 + 20 × 2700 = 330 000 = 1650 € 200 200 Généralisation La moyenne arithmétique pondérée est obtenue en multipliant chaque valeur considérée par un coefficient de pondération. Soit une série statistique {x1, x2, …, xn} dans laquelle les xi sont affectés d’une pondération différente λ1, λ2, …, λn, la moyenne arithmétique pondérée de cette série est : n ∑λ x i i i=1 x̄ = λ1 x1 + λ2 x2 + … + λn xn = λ1 + λ2 + … + λn n ∑λ i i=1 Cette moyenne est égale à la somme pondérée des valeurs divisée par la somme des pondérations. 3 remarques sur les pondérations : 1) Ce qui compte, ce sont les poids relatifs. a) Si on multiplie tous les poids par un même nombre, la valeur de la moyenne pondérée n’est pas modifiée. b) Si les pondérations sont toutes identiques, alors toutes les valeurs ont le même poids relatif. Les pondérations ne jouent aucun rôle ; on peut donc les supprimer. On obtient alors une moyenne Chapitre 1 − Les notions de base 15 “simple”. ⇒ Une moyenne “simple” est donc en fait une moyenne pondérée pour laquelle les pondérations sont toutes identiques. 2) Les pondérations peuvent représenter, comme dans l’exemple précédent, l’effectif de chaque valeur considérée. n ∑λ représente alors l’effectif global (le nombre total d’individus de la population considérée). i i=1 n λi représente la fréquence de la valeur xi. On la notera fi et on a n ∑λ ∑f = 1. i i=1 i i=1 La moyenne pondérée se réécrit alors : x̄ = λ1 ∑λ · x1 + i λ2 ∑λ · x2 + … + i n λn ∑λ · xn = f1x1 + f2x2 + … + fnxn = i ∑f x i i i=1 120 = 60 % des ventes, 200 60 à 2 000 € = 30 % 200 20 à 2 700 € = 10 % 200 La recette moyenne par ordinateur peut se calculer de la façon suivante : ¯r = 0,6 × 1300 + 0,3 × 2000 + 0,1 × 2700 Dans l’exemple, les ordinateurs à 1 300 € représentent 3) Les pondérations peuvent également refléter le fait que les différentes valeurs de la série considérée n'ont pas toutes la même importance. Exemples : - Indice des prix à la consommation (IPC) servant à mesurer l’inflation = moyenne pondérée des prix d'un panier de biens de référence, pondération par le poids de chaque type de bien dans la consommation totale des ménages (par coefficient budgétaires, cf. ch. 2). - Moyenne des notes obtenues par un étudiant dans des matières affectées de coefficients différents. 2) Propriétés de la moyenne arithmétique 1 · La moyenne arithmétique d’une série de valeurs conserve la somme des valeurs. x̄ est le nombre tel que : n λ1x̄ + λ2x̄ + … + λnx̄ = λ1x1 + λ2x2 + … + λnxn ⇔ x̄ · n ∑ ∑λ x λi = i=1 i i i=1 Plutôt qu’une “propriété” de la moyenne arithmétique, c’en est en fait la définition. La moyenne arithmétique d’une série est en effet le nombre tel que, si l’on remplace chaque valeur particulière de la série par cette moyenne, la somme des valeurs est inchangée. 2 · Toutes les valeurs de la variable sont situées de part et d’autre de la moyenne (moyenne nécessairement comprise entre la plus petite et la plus grande valeur). La moyenne est une caractéristique de tendance centrale, on s'attend à ce qu’elle se trouve quelque part “vers le milieu” de la série. Cette formule est toutefois ambiguë : le “milieu” est mieux défini par la médiane et la moyenne se trouve plus ou moins proche du “milieu” (de la médiane) selon la dispersion de la série (Cf. Chap. 4). 16 Statistique descriptive 3 · Si l’on ajoute (ou retranche) un même nombre à chaque valeur de la série, la moyenne arithmétique se trouve augmentée (diminuée) de ce nombre. λ1(x1 + a) + λ2(x2 + a) + … + λn(xn + a) = λ1 + λ2 + … + λn ∑λ x + a · ∑λ = x̄ + a ∑λ ∑λ i i i i i (avec a > 0 ou < 0) C’est une propriété qui permet de simplifier les calculs numériques, quand les valeurs de la variable sont élevées ; on retranche alors un même nombre de toutes les valeurs. On peut retrancher de chaque valeur la moyenne arithmétique de la série. Cette opération s’appelle le centrage de la série (on centre la série sur sa moyenne). La somme pondérée des valeurs de la variable centrée est nulle. La série centrée a une moyenne arithmétique nulle. λ1(x1 − x̄ ) + λ2(x2 − x̄ ) + … + λn(xn − x̄ ) = λ1 + λ2 + … + λn ∑λ x − x̄ · ∑λ = x̄ − x̄ = 0 ∑λ ∑λ i i i i i 4 · Si l’on multiplie par un même nombre chaque valeur de la série, la moyenne arithmétique est multipliée par ce nombre. λ1(ax1) + λ2(ax2) + … + λn(axn) = a· λ1 + λ2 + … + λn ∑λ x = a · x̄ ∑λ i i i C’est une propriété qui implique que la valeur de la moyenne arithmétique est indépendante du choix de l’unité de mesure (la moyenne d’une variable exprimée en € vaut autant de $ que la moyenne de la même variable exprimée en $). 5 · Propriété d’associativité (ou d’agrégation) : la moyenne arithmétique des moyennes arithmétiques calculées sur des sous-ensembles d’une série est égale à la moyenne arithmétique générale de la série. L’intérêt de cette propriété est qu’elle permet de simplifier les calculs numériques. B) La moyenne géométrique La moyenne géométrique des valeurs prises par une variable est le nombre qui conserve le produit de ces valeurs. 1) La moyenne géométrique simple La moyenne géométrique, notée gx, de la série de valeurs (x1, x2,…, xn) est telle que : n gx × gx × … × gx = x1 × x2 × … × xn ⇔ gxn = ∏ xi i=1 n fois ⇒ gx = n n 1/ n 1 / ∏ xi = ∏ xi = (x1 × x2 × … × xn) n i=1 i = 1 n Il est bon de noter que n est le nombre de termes de la série. NB : Cette formule ne peut s’appliquer qu’à des séries de valeurs strictement positives. Chapitre 1 − Les notions de base 17 L’utilisation la plus courante de la moyenne géométrique est pour le calcul de taux de variation moyens (le TMV s’obtient à partir de la moyenne géométrique des multiplicateurs). On peut donner une autre expression de la moyenne géométrique (calcul par les logarithmes) : gx est tel que gxn = x1 × x2 × … × xn ⇒ ln(gxn) = ln(x1 × x2 × … × xn) n ⇔ n·ln(gx) = ∑ ln(xi) ⇒ ln(gx) = i=1 1 n n ∑ ln(x ) i i=1 Le logarithme de la moyenne géométrique est égal à la moyenne arithmétique simple des logarithmes des valeurs xi. 2) La moyenne géométrique pondérée Soit une série statistique {x1, …, xn} dans laquelle les xi sont affectés d’une pondération différente, la moyenne géométrique pondérée de cette série est : gxα1 × gxα2 × … × gxαn = x1α1 × x2α2 × … × xnαn ⇔ ⇔ ⇔ ⇔ gx∑αi = x1α1 × x2α2 × … × xnαn gx = (x1α1 × x2α2 × … × xnαn)1 / ∑αi gx = x1α1 / ∑αi × x2α2 / ∑αi × … × xnαn / ∑αi gx = x1f1 × x2f2 × … × xnfn n ⇒ gx = ∏ xifi avec fi = i=1 αi ∑αi Expression en log : Le logarithme de la moyenne géométrique pondérée est égal à la moyenne arithmétique pondérée des logs des valeurs xi. n ∑ λ ·ln(x ) i n ln(gx) = ∑ f ·ln(x ) = i i i=1 i n ∑λ i=1 i i=1 C) La moyenne harmonique La moyenne harmonique d’une série de valeurs est le nombre qui conserve la somme des inverses de ces valeurs. 1) La moyenne harmonique simple La moyenne harmonique, notée hx, de la série de valeurs {x1, x2, …, xn} est telle que : n 1 1 1 1 1 1 1 + +…+ = + +…+ ⇔ n× = hx hx hx x 1 x 2 xn hx ∑ i=1 n 1 1 1 ⇔ = xi hx n ∑ x1 i i=1 Il est bon de noter que n est le nombre de termes de la série. L'inverse de la moyenne harmonique est égal à la moyenne arithmétique des inverses des valeurs xi. 18 Statistique descriptive n De l’expression précédente on tire : hx = n ∑ x1 i i=1 2) La moyenne harmonique pondérée L’inverse de la moyenne harmonique pondérée est égal à la moyenne arithmétique pondérée des inverses des valeurs xi. n ∑α × x1 i i 1 = hx n i=1 = n ∑λ ∑ fi × 1 ⇒ hx = xi i=1 i i=1 1 n ∑ xf i i i=1 La moyenne harmonique possède la propriété d’associativité. La moyenne harmonique des moyennes harmoniques calculées sur des sous-ensembles d’une série est égale à la moyenne harmonique générale de la série. Soit une série de valeurs divisée en deux sous-ensembles, sous-ensemble de valeurs xi (N valeurs) et sous-ensembles de valeurs yi (M valeurs) ; on a : N 1 1 = hx N ∑ M 1 1 1 et = xi hy M i=1 ∑ y1 j j=1 La moyenne harmonique générale h de la série est telle que : 1 1 N M = + h N + M hx hy D) Relation entre les moyennes Les différentes moyennes (arithmétique, géométrique, harmonique) d’une série de valeurs ne sont égales que si la série est formée de valeurs toutes identiques. Dans tous les autres cas, la relation d’ordre suivante est vérifiée : hx < gx < x̄ Exemple : Moyennes de la série statistique {100 ; 60} · Moyenne harmonique = 75 · Moyenne géométrique = 100 × 60 ≈ 77,5 · Moyenne arithmétique = 80 Cette relation n’a d’intérêt que mathématique car les cas dans lesquels le calcul de ces moyennes a un sens sont extrêmement rares ! Chapitre 1 − Les notions de base 19