Statistique Descriptive II (M1201)
Transcription
Statistique Descriptive II (M1201)
Nathalie Villa-Vialaneix Livret d’exercices de Statistique Descriptive II (M1201) Année scolaire 2013/2014 Université de Perpignan Via Domitia, IUT STatistique et Informatique Décisionnelle (STID) Table des matières 1 Généralités sur la statistique descriptive bivariée 1.1 Distributions jointes et conditionnelles . . . . . . . . . . . . . . . . . . . . 1.2 Distributions jointes et conditionnelles . . . . . . . . . . . . . . . . . . . . 5 5 5 2 Représentations graphiques 2.1 Variables qualitatives . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.2 Variable qualitative et variable quantitative . . . . . . . . . . . . . . . . . 7 7 7 3 Étude de la liaison entre une variable qualitative et une variable quantitative 9 3.1 Problème . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9 3.1.1 Influence d’un incinérateur sur le taux de métaux lourds dans l’air 9 3.1.2 Influence de la station sur le taux de monoxide de carbone . . . . . 9 3.2 Élections . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10 4 Étude de la liaison entre deux variables qualitatives 13 4.1 χ2 , C de Cramer . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13 4.2 Un exemple de paradoxe de Simpson . . . . . . . . . . . . . . . . . . . . . 13 5 Régression linéaire 15 5.1 Série chronologique . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15 5.2 Joueurs de football . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16 5.3 Oignons . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17 3 1 Généralités sur la statistique descriptive bivariée 1.1 Distributions jointes et conditionnelles Ce document est issu des statistiques de l’INSEE et intitulé La population française selon la nationalité et le lieu de naissance en 1999 (effectifs en milliers) : Lieu de naissance Nationalité Français de naissance Français par acquisition Étrangers France Étranger 51 340 800 510 1 560 1 560 2 750 1. Quelle est la population ? Sa taille ? 2. Quelles sont les variables étudiées ? Leurs types ? 3. Compléter la table de contingence précédente avec les distributions marginales. 4. Déterminer les distributions conditionnelles des deux variables. Laquelle nous permet de déterminer si le pourcentage de personnes nées en France est plus fort parmi les Français par acquisition ou parmi les étrangers ? 1.2 Distributions jointes et conditionnelles Ce document est issu des statistiques de l’INSEE et intitulé Répartition des séjours d’été par mode d’hébergement et par catégorie socio-professionnelle en 2004 . Type de vacances CSP du chef de famille Agriculteurs Artisans & commerçants Cadres Professions intermédiaires Employés Ouvriers Retraités Autres inactifs Hôtel Location 17 15 14 11 11 7 17 5 15 20 18 18 15 17 11 10 Résidence secondaire 2 7 8 4 3 4 14 1 Parents et amis 27 32 43 44 47 45 39 59 Camping Autres 34 19 9 16 18 22 11 20 6 7 8 8 6 5 8 5 5 Nathalie Villa-Vialaneix Statistique Descriptive II - Exercices 1. Quelle est la population étudiée ? 2. Quelles sont les variables étudiées ? Leurs types ? 3. Quel est le nom de la (des) distribution(s) présentée(s) ici ? 4. Peut-on, à partir de celles-ci, retrouver la table de contingence (des fréquences) associée à ce problème ? Quelle information supplémentaire faudrait-il avoir pour y parvenir ? 5. On donne le tableau suivant : CSP Agriculteurs Artisans et commerçants Cadres Professions intermédiaires Employés Ouvriers Retraités Autres inactifs Fréquence 0,020 0,044 0,108 0,173 0,217 0,178 0,255 0,005 Retrouver, à partir de ces deux tableaux, la table de contingence des deux variables étudiées. Calculer les distributions marginales. 6. Calculer la distribution de la variable CSP conditionnellement à la modalité Camping . Au vu de celle-ci et du tableau initial, qui prévilégie le plus le camping comme mode de vacances ? Qui a-t-on le plus de chances de rencontrer lorsque l’on va dans un camping ? 6 2 Représentations graphiques 2.1 Variables qualitatives On reprend les données de l’exercice 1.1 page 5 : Lieu de naissance Nationalité Français de naissance Français par acquisition Étranger Total France 51 340 800 510 52 650 Étranger 1 1 2 5 560 560 750 870 Ensemble 52 900 2 360 3 260 58 520 1. Représenter graphiquement la distribution conjointe des deux variables. 2. Représenter graphiquement les distributions conditionnelles aux modalités de chacune des deux variables. On rappelle : Distribution de la Nationalité conditionnellement au Lieu de naissance Lieu de naissance France Étranger Total Nationalité Français de naissance 97,51 % 26,58 % 90,40 % 26,58 % 4,03 % Français par acquisition 1,52 % Étranger 0,97 % 46,85 % 5,57 % Total 1 1 1 Distribution du Lieu de naissance conditionnellement à la Nationalité Lieu de naissance France Étranger Total Nationalité Français de naissance 97,05 % % 2,95 % 1 Français par acquisition 33,90 % % 66,10 % 1 Étranger 15,64 % 84,36 % 1% Ensemble 89,97 % 10,03 % 1 3. Est-il plus fréquent d’acquérir la nationalité française lorsque l’on est né en France ou bien lorsque l’on est né à l’étranger ? (Quel graphique permet cette conclusion ?) 2.2 Variable qualitative et variable quantitative On donne, pour les mois allant de novembre 2006 à octobre 2007 (inclus), le cours du supercarburant et celui du blé : 7 Nathalie Villa-Vialaneix Statistique Descriptive II - Exercices Octobre 2007 Septembre 2007 Août 2007 Juillet 2007 Juin 2007 Mai 2007 Avril 2007 Mars 2007 Février 2007 Janvier 2007 Décembre 2006 Novembre 2006 Super 733,3 729,6 703,2 751,6 763,1 773,1 722,5 620,6 542,8 492,2 552,1 520,6 Blé 853,7 863,0 691,8 613,3 573,5 486,0 471,2 459,5 464,7 466,1 491,1 487,5 1. Quelle est la population ? Sa taille ? Quelles sont les variables ? Leurs types ? 2. Déterminer les indices base 100 en octobre 2007 des deux séries statistique. Remarque : L’indice base 100 en octobre 2007 de la variable X est X Valeur de X en octobre 2007 × 100. 3. Déterminer le diagramme chronologique en ligne de ces deux séries statistiques à partir des indices calculés à la question précédente. Commenter. 4. Déterminer le graphique de la distribution conjointe des deux variables. Commenter. 8 3 Étude de la liaison entre une variable qualitative et une variable quantitative 3.1 Problème Les données de cet exercice sont issues du site de l’ORAMIP (Observatoire Régional de l’Air en Midi-Pyrénées, http://www.oramip.org). 3.1.1 Influence d’un incinérateur sur le taux de métaux lourds dans l’air Dans le tableau ci-dessous, sont relevées les valeurs du taux de plomb (en ng/m3 ) dans l’air pour trois stations ORAMIP de Toulouse : Eisenhower et Chapitre, qui sont situées à proximité de l’incinérateur de déchets du Mirail, et Berthelot, situé en zone urbaine, qui est caractéristique de l’air respiré par l’ensemble de la population toulousaine. Eisenhower 7,6 21,4 12,4 15,8 14,8 5,9 12,5 11,3 Station Chapitre 9,1 13,1 10,5 8,3 17,4 9,4 7,8 12,2 Berthelot 7,5 9,3 10,2 20,3 10,3 16,4 13,3 14,9 On considère ici la population des relevés de taux de plomb de taille 24 et les variables X, Taux de plomb dans l’air , et Y Station . 1. De quels types sont les variables considérées ? 2. Sur cet échantillon de relevés, peut-on considérer qu’il y a un lien important entre la station de relevé et le taux de plomb dans l’air ? 3. Si on considère maintenant la variable Z, Proximité de l’incinérateur ? , de type qualitative nominale, peut-on considérer qu’il y a un lien important entre X et Z ? 3.1.2 Influence de la station sur le taux de monoxide de carbone Sur le graphique ci-dessous, sont données les moyennes annuelles de taux de monoxide de carbone (en mg/m3 ) dans l’air pour trois stations toulousaines : Toulouse 9 Nathalie Villa-Vialaneix Statistique Descriptive II - Exercices Pargaminières (située au centre de Toulouse, rue étroite, immeubles hauts, circulation importante), Toulouse Saint Cyprien (située à proximité du centre ville sur un grand carrefour de circulation) et Toulouse rue de Metz (située au centre de Toulouse, rue peu dégagée, circulation très importante). On considère ici la population des années (de taille 15) et les variables X, annuelle du taux de monoxide de carbonne , et Y , Station . Moyenne 1. Faire un tableau donnant, pour chacune des trois stations toulousaines, la valeur des relevés effectués. 2. Peut-on considérer qu’il existe un lien important entre le taux de monoxide de carbonne et la localisation géographique du relevé dans Toulouse ? 3.2 Élections Les données suivantes sont les résultats, obtenus au premier tour de la présidentielle de 2007, par Ségolène Royal (Parti Socialiste) et Jean-Marie Le Pen (Front National) 1 pour divers départements. Département Aude Corrèze Creuse Hérault Gard Haute-Vienne Lozère Pyrénées orientales Nombre de votants 216 882 159 909 81 585 593 411 416 170 225 765 51 925 263 862 Taux de votes pour SR 30,70 % 29,73 % 29,02 % 26,05 % 23,31 % 31,46 % 22,72 % 24,82 % 1. Sources : Site du ministère de l’intérieur http://www.interieur.gouv.fr 10 Taux de votes pour JML 13,20 % 7,58 % 8,68% 13,35 % 15,44 % 8,56 % 9,44% 14,21 % Nathalie Villa-Vialaneix Statistique Descriptive II - Exercices On considère, dans cet exemple, la population des votants (suffrages exprimés) des régions Limousin et Languedoc-Roussillon et les variables X = I{Avoir voté pour Ségolène Royal} 2 , X 0 = I{Avoir voté pour Jean-Marie Le Pen} 1 , Y , 0 0 sont considérées ici, comme quanti Département et Y , Région . X et X tatives (elles comptent le nombre de votes pour les deux candidats). 1. Quelle est la taille de la population ? 2. On considère les sous-populations (Pi )i=1,...,8 définies par Y . À quoi est égal X i pour i = 1, . . . , 8 ? 3. En déduire X. 4. Pour une variable valant 0 ou 1 avec une proportion p de 0, la variance est égale à p(1 − p). À quoi est égal σi2 pour i = 1, . . . , 8 ? 5. En déduire Varinter et Varintra puis σ 2 . 6. Peut-on dire qu’il existe un lien important entre X et Y ? 7. Mêmes questions entre X 0 et Y , entre X et Y 0 et entre X 0 et Y 0 . Conclusion ? 2. IA = 1 0 si l’individu appartient à A sinon 11 4 Étude de la liaison entre deux variables qualitatives 4.1 χ2 , C de Cramer On reprend les données de l’exercice 1.1 : Lieu de naissance Nationalité Français de naissance Français par acquisition Étranger Total France 51 340 800 510 52 650 Étranger 1 1 2 5 560 560 750 870 Total 52 900 2 360 3 260 58 520 Déterminer l’indice du χ2 et le coefficient C de Cramer. Commenter. 4.2 Un exemple de paradoxe de Simpson Les données suivantes rapportent les résultats du jugement de 4 764 homicides jugés en Floride entre 1973 et 1979. Ces données ont été publiées dans le New York Times du 11 mars 1979. Meurtrier Blanc Noir Victime Blanc Noir Blanc Noir Peine de 72 0 48 11 Sentence mort Autre peine 2074 111 239 2209 1. Quelle est la population ? Sa taille ? Quelles sont les variables ? Leur type ? 2. Effectuer la table de contingence des variables Couleur du meurtrier et Type de peine . À partir de cette table, déterminer la distribution de la variable Sentence conditionnellement à la variable Couleur du meurtrier . Calculer le χ2 puis le C de Cramer. Que pense-t-on pouvoir conclure ? 3. Effectuer la table de contingence des variables Couleur du meurtrier et Couleur de la victime . Calculer le χ2 puis le C de Cramer. Conclusion ? 13 Nathalie Villa-Vialaneix Statistique Descriptive II - Exercices 4. Enfin, effectuer, seulement pour les victimes blanches, la table de contingence des variables Couleur du meurtrier et Sentence . En déduire la distribution de la variable Sentence conditionnellement à la variable Couleur du meurtrier . Comparez à la distribution conditionnelle obtenue dans la Question 2 et, en vous appuyant sur les résultats de la question précédente, expliquez ce phénomène. 14 5 Régression linéaire 5.1 Série chronologique Ces données correspondent à l’évolution du nombre d’habitants en France depuis 1990 (source : INSEE http: // www. insee. fr ). Année 2007 2006 2005 2004 2003 2002 2001 2000 1999 1998 1997 1996 1995 1994 1993 1992 1991 1990 Population (en milliers) 61542 61167 60825 60462 60067 59660 59249 58850 58497 58299 58116 57936 57753 57565 57369 57111 56841 56577 On considère, dans la suite, la régression de la population (notée Y ) par rapport à l’année (notée T ). 1. Effectuer le nuage de points des deux variables. Que peut-on en dire ? 2. Déterminer la moyenne et l’écart type de Y . 3. On pose X = T − 1990. a) Calculer les valeurs de X ainsi que sa moyenne et son écart type. b) Trouver une relation entre X et T ainsi qu’entre σX et σT . c) En déduire T et σT . 15 Nathalie Villa-Vialaneix Statistique Descriptive II - Exercices 4. Calculer Cov(X, Y ). Après avoir exprimé Cov(T, Y ) en fonction de Cov(X, Y ), en déduire la valeur de Cov(T, Y ). 5. Calculer r(T, Y ). 6. Déterminer l’équation de la droite de régression de Y en T . 7. Si l’évolution de la population se poursuit au même rythme, quelle population peut-on prévoir en France en 2010 ? en 2015 ? 5.2 Joueurs de football Voici la taille et le poids des joueurs de Toulouse (TFC, Ligue 1 de football, en 2007/2008) : Taille (en m) 1,74 1,78 1,82 1,84 1,84 1,86 1,85 1,80 1,88 1,80 1,86 1,80 1,86 1,80 1,84 1,82 1,80 1,89 1,76 1,85 1,72 1,80 Poids (en kg) 68 75 78 79 78 82 77 73 79 77 72 65 84 74 76 74 70 83 75 78 68 68 1. On note, respectivement, X, la variable Taille et Y la variable Poids . Construire, sur deux graphiques séparés les nuages de points de Y en fonction de X et de Y en fonction de X 2 . 2. Calculez r(Y, X 2 ). Conclusion ? 3. Déterminer la droite de régression de Y en X 2 . On appelle Indice de Masse Corporelle, la quantité Poids . IM C = Taille2 16 Nathalie Villa-Vialaneix Statistique Descriptive II - Exercices Un individu a une corpulence normale si son IMC est compris entre 18,5 et 25. Les joueurs de football semblent-ils avoir une IMC normale ? 4. Quel poids peut-on prévoir pour un joueur de 1, 75 mètres ? 5.3 Oignons Les données suivantes, extraites de Ratkowsky D.A. (1983) Nonlinear regression modeling. Marcel Dekker. New York., sont les poids secs (moyens) d’oignons à différentes périodes de leur développement (temps en semaines). Poids secs 16,08 33,83 65,8 97,2 191,55 326,2 386,87 520,53 590,03 651,92 Durée de vie 1 2 3 4 5 6 7 8 9 10 Dans la suite, on notera Y la variable Poids sec des oignons et X la variable Durée de vie . Le but est de modéliser le poids sec en fonction de la durée de vie. 1. Effectuer le nuage de points de ces données. Peut-on penser, au vu de celui-ci, qu’une régression linéaire est bien adaptée à la question ? 2. Calculer r(X, Y ). 3. Déterminer les valeurs de la variable Y 0 = ln Y −1,28 700 −1 puis calculer r(Y 0 , X). Conclusion ? 4. Déterminer l’équation de la droite de régression de Y 0 en X. À quelle courbe de régression cette droite correspond-elle pour les variables Y et X ? Tracer cette courbe sur le nuage de points de la première question. 5. Évaluer le poids d’un oignon sec cueilli à 10, 5 semaines. 17