Statistique Descriptive II (M1201)

Transcription

Statistique Descriptive II (M1201)
Nathalie Villa-Vialaneix
Livret d’exercices de
Statistique Descriptive II (M1201)
Année scolaire 2013/2014
Université de Perpignan Via Domitia, IUT
STatistique et Informatique Décisionnelle (STID)
Table des matières
1 Généralités sur la statistique descriptive bivariée
1.1 Distributions jointes et conditionnelles . . . . . . . . . . . . . . . . . . . .
1.2 Distributions jointes et conditionnelles . . . . . . . . . . . . . . . . . . . .
5
5
5
2 Représentations graphiques
2.1 Variables qualitatives . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
2.2 Variable qualitative et variable quantitative . . . . . . . . . . . . . . . . .
7
7
7
3 Étude de la liaison entre une variable qualitative et une variable quantitative 9
3.1 Problème . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9
3.1.1 Influence d’un incinérateur sur le taux de métaux lourds dans l’air
9
3.1.2 Influence de la station sur le taux de monoxide de carbone . . . . . 9
3.2 Élections . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10
4 Étude de la liaison entre deux variables qualitatives
13
4.1 χ2 , C de Cramer . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13
4.2 Un exemple de paradoxe de Simpson . . . . . . . . . . . . . . . . . . . . . 13
5 Régression linéaire
15
5.1 Série chronologique . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15
5.2 Joueurs de football . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16
5.3 Oignons . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17
3
1 Généralités sur la statistique descriptive
bivariée
1.1 Distributions jointes et conditionnelles
Ce document est issu des statistiques de l’INSEE et intitulé La population française
selon la nationalité et le lieu de naissance en 1999 (effectifs en milliers) :
Lieu de naissance
Nationalité
Français de naissance
Français par acquisition
Étrangers
France
Étranger
51 340
800
510
1 560
1 560
2 750
1. Quelle est la population ? Sa taille ?
2. Quelles sont les variables étudiées ? Leurs types ?
3. Compléter la table de contingence précédente avec les distributions marginales.
4. Déterminer les distributions conditionnelles des deux variables. Laquelle nous permet de déterminer si le pourcentage de personnes nées en France est plus fort parmi
les Français par acquisition ou parmi les étrangers ?
1.2 Distributions jointes et conditionnelles
Ce document est issu des statistiques de l’INSEE et intitulé Répartition des séjours
d’été par mode d’hébergement et par catégorie socio-professionnelle en 2004 .
Type de vacances
CSP du chef de famille
Agriculteurs
Artisans & commerçants
Cadres
Professions intermédiaires
Employés
Ouvriers
Retraités
Autres inactifs
Hôtel
Location
17
15
14
11
11
7
17
5
15
20
18
18
15
17
11
10
Résidence
secondaire
2
7
8
4
3
4
14
1
Parents
et amis
27
32
43
44
47
45
39
59
Camping
Autres
34
19
9
16
18
22
11
20
6
7
8
8
6
5
8
5
5
Nathalie Villa-Vialaneix
Statistique Descriptive II - Exercices
1. Quelle est la population étudiée ?
2. Quelles sont les variables étudiées ? Leurs types ?
3. Quel est le nom de la (des) distribution(s) présentée(s) ici ?
4. Peut-on, à partir de celles-ci, retrouver la table de contingence (des fréquences)
associée à ce problème ?
Quelle information supplémentaire faudrait-il avoir pour y parvenir ?
5. On donne le tableau suivant :
CSP
Agriculteurs
Artisans et commerçants
Cadres
Professions intermédiaires
Employés
Ouvriers
Retraités
Autres inactifs
Fréquence
0,020
0,044
0,108
0,173
0,217
0,178
0,255
0,005
Retrouver, à partir de ces deux tableaux, la table de contingence des deux variables
étudiées. Calculer les distributions marginales.
6. Calculer la distribution de la variable CSP conditionnellement à la modalité
Camping . Au vu de celle-ci et du tableau initial, qui prévilégie le plus le
camping comme mode de vacances ? Qui a-t-on le plus de chances de rencontrer
lorsque l’on va dans un camping ?
6
2 Représentations graphiques
2.1 Variables qualitatives
On reprend les données de l’exercice 1.1 page 5 :
Lieu de naissance
Nationalité
Français de naissance
Français par acquisition
Étranger
Total
France
51 340
800
510
52 650
Étranger
1
1
2
5
560
560
750
870
Ensemble
52 900
2 360
3 260
58 520
1. Représenter graphiquement la distribution conjointe des deux variables.
2. Représenter graphiquement les distributions conditionnelles aux modalités de chacune des deux variables. On rappelle :
Distribution de la Nationalité conditionnellement au Lieu de naissance
Lieu de naissance France Étranger
Total
Nationalité
Français de naissance
97,51 % 26,58 % 90,40 %
26,58 %
4,03 %
Français par acquisition 1,52 %
Étranger
0,97 %
46,85 %
5,57 %
Total
1
1
1
Distribution du Lieu de naissance conditionnellement à la Nationalité
Lieu de naissance
France
Étranger Total
Nationalité
Français de naissance
97,05 % %
2,95 %
1
Français par acquisition 33,90 % % 66,10 %
1
Étranger
15,64 %
84,36 %
1%
Ensemble
89,97 %
10,03 %
1
3. Est-il plus fréquent d’acquérir la nationalité française lorsque l’on est né en France
ou bien lorsque l’on est né à l’étranger ? (Quel graphique permet cette conclusion ?)
2.2 Variable qualitative et variable quantitative
On donne, pour les mois allant de novembre 2006 à octobre 2007 (inclus), le cours du
supercarburant et celui du blé :
7
Nathalie Villa-Vialaneix
Statistique Descriptive II - Exercices
Octobre 2007
Septembre 2007
Août 2007
Juillet 2007
Juin 2007
Mai 2007
Avril 2007
Mars 2007
Février 2007
Janvier 2007
Décembre 2006
Novembre 2006
Super
733,3
729,6
703,2
751,6
763,1
773,1
722,5
620,6
542,8
492,2
552,1
520,6
Blé
853,7
863,0
691,8
613,3
573,5
486,0
471,2
459,5
464,7
466,1
491,1
487,5
1. Quelle est la population ? Sa taille ? Quelles sont les variables ? Leurs types ?
2. Déterminer les indices base 100 en octobre 2007 des deux séries statistique.
Remarque : L’indice base 100 en octobre 2007 de la variable X est
X
Valeur de X en octobre 2007 × 100.
3. Déterminer le diagramme chronologique en ligne de ces deux séries statistiques à
partir des indices calculés à la question précédente. Commenter.
4. Déterminer le graphique de la distribution conjointe des deux variables. Commenter.
8
3 Étude de la liaison entre une variable
qualitative et une variable quantitative
3.1 Problème
Les données de cet exercice sont issues du site de l’ORAMIP (Observatoire Régional
de l’Air en Midi-Pyrénées, http://www.oramip.org).
3.1.1 Influence d’un incinérateur sur le taux de métaux lourds dans l’air
Dans le tableau ci-dessous, sont relevées les valeurs du taux de plomb (en ng/m3 ) dans
l’air pour trois stations ORAMIP de Toulouse : Eisenhower et Chapitre, qui sont situées
à proximité de l’incinérateur de déchets du Mirail, et Berthelot, situé en zone urbaine,
qui est caractéristique de l’air respiré par l’ensemble de la population toulousaine.
Eisenhower
7,6
21,4
12,4
15,8
14,8
5,9
12,5
11,3
Station
Chapitre
9,1
13,1
10,5
8,3
17,4
9,4
7,8
12,2
Berthelot
7,5
9,3
10,2
20,3
10,3
16,4
13,3
14,9
On considère ici la population des relevés de taux de plomb de taille 24 et les variables
X, Taux de plomb dans l’air , et Y Station .
1. De quels types sont les variables considérées ?
2. Sur cet échantillon de relevés, peut-on considérer qu’il y a un lien important entre
la station de relevé et le taux de plomb dans l’air ?
3. Si on considère maintenant la variable Z, Proximité de l’incinérateur ? , de type
qualitative nominale, peut-on considérer qu’il y a un lien important entre X et Z ?
3.1.2 Influence de la station sur le taux de monoxide de carbone
Sur le graphique ci-dessous, sont données les moyennes annuelles de taux de monoxide de carbone (en mg/m3 ) dans l’air pour trois stations toulousaines : Toulouse
9
Nathalie Villa-Vialaneix
Statistique Descriptive II - Exercices
Pargaminières (située au centre de Toulouse, rue étroite, immeubles hauts, circulation
importante), Toulouse Saint Cyprien (située à proximité du centre ville sur un grand
carrefour de circulation) et Toulouse rue de Metz (située au centre de Toulouse, rue peu
dégagée, circulation très importante).
On considère ici la population des années (de taille 15) et les variables X,
annuelle du taux de monoxide de carbonne , et Y , Station .
Moyenne
1. Faire un tableau donnant, pour chacune des trois stations toulousaines, la valeur
des relevés effectués.
2. Peut-on considérer qu’il existe un lien important entre le taux de monoxide de
carbonne et la localisation géographique du relevé dans Toulouse ?
3.2 Élections
Les données suivantes sont les résultats, obtenus au premier tour de la présidentielle
de 2007, par Ségolène Royal (Parti Socialiste) et Jean-Marie Le Pen (Front National) 1
pour divers départements.
Département
Aude
Corrèze
Creuse
Hérault
Gard
Haute-Vienne
Lozère
Pyrénées orientales
Nombre de votants
216 882
159 909
81 585
593 411
416 170
225 765
51 925
263 862
Taux de votes pour SR
30,70 %
29,73 %
29,02 %
26,05 %
23,31 %
31,46 %
22,72 %
24,82 %
1. Sources : Site du ministère de l’intérieur http://www.interieur.gouv.fr
10
Taux de votes pour JML
13,20 %
7,58 %
8,68%
13,35 %
15,44 %
8,56 %
9,44%
14,21 %
Nathalie Villa-Vialaneix
Statistique Descriptive II - Exercices
On considère, dans cet exemple, la population des votants (suffrages
exprimés) des régions Limousin et Languedoc-Roussillon et les variables
X = I{Avoir voté pour Ségolène Royal} 2 , X 0 = I{Avoir voté pour Jean-Marie Le Pen} 1 , Y ,
0
0 sont considérées ici, comme quanti Département et Y , Région . X et X
tatives (elles comptent le nombre de votes pour les deux candidats).
1. Quelle est la taille de la population ?
2. On considère les sous-populations (Pi )i=1,...,8 définies par Y . À quoi est égal X i
pour i = 1, . . . , 8 ?
3. En déduire X.
4. Pour une variable valant 0 ou 1 avec une proportion p de 0, la variance est égale à
p(1 − p). À quoi est égal σi2 pour i = 1, . . . , 8 ?
5. En déduire Varinter et Varintra puis σ 2 .
6. Peut-on dire qu’il existe un lien important entre X et Y ?
7. Mêmes questions entre X 0 et Y , entre X et Y 0 et entre X 0 et Y 0 . Conclusion ?
2. IA =
1
0
si l’individu appartient à A
sinon
11
4 Étude de la liaison entre deux variables
qualitatives
4.1 χ2 , C de Cramer
On reprend les données de l’exercice 1.1 :
Lieu de naissance
Nationalité
Français de naissance
Français par acquisition
Étranger
Total
France
51 340
800
510
52 650
Étranger
1
1
2
5
560
560
750
870
Total
52 900
2 360
3 260
58 520
Déterminer l’indice du χ2 et le coefficient C de Cramer. Commenter.
4.2 Un exemple de paradoxe de Simpson
Les données suivantes rapportent les résultats du jugement de 4 764 homicides jugés
en Floride entre 1973 et 1979. Ces données ont été publiées dans le New York Times du
11 mars 1979.
Meurtrier
Blanc
Noir
Victime
Blanc
Noir
Blanc
Noir
Peine de
72
0
48
11
Sentence
mort Autre peine
2074
111
239
2209
1. Quelle est la population ? Sa taille ? Quelles sont les variables ? Leur type ?
2. Effectuer la table de contingence des variables Couleur du meurtrier et Type
de peine . À partir de cette table, déterminer la distribution de la variable Sentence conditionnellement à la variable Couleur du meurtrier . Calculer le χ2
puis le C de Cramer. Que pense-t-on pouvoir conclure ?
3. Effectuer la table de contingence des variables Couleur du meurtrier et Couleur de la victime . Calculer le χ2 puis le C de Cramer. Conclusion ?
13
Nathalie Villa-Vialaneix
Statistique Descriptive II - Exercices
4. Enfin, effectuer, seulement pour les victimes blanches, la table de contingence des
variables Couleur du meurtrier et Sentence . En déduire la distribution de
la variable Sentence conditionnellement à la variable Couleur du meurtrier .
Comparez à la distribution conditionnelle obtenue dans la Question 2 et, en vous
appuyant sur les résultats de la question précédente, expliquez ce phénomène.
14
5 Régression linéaire
5.1 Série chronologique
Ces données correspondent à l’évolution du nombre d’habitants en France depuis 1990
(source : INSEE http: // www. insee. fr ).
Année
2007
2006
2005
2004
2003
2002
2001
2000
1999
1998
1997
1996
1995
1994
1993
1992
1991
1990
Population
(en milliers)
61542
61167
60825
60462
60067
59660
59249
58850
58497
58299
58116
57936
57753
57565
57369
57111
56841
56577
On considère, dans la suite, la régression de la population (notée Y ) par rapport à
l’année (notée T ).
1. Effectuer le nuage de points des deux variables. Que peut-on en dire ?
2. Déterminer la moyenne et l’écart type de Y .
3. On pose X = T − 1990.
a) Calculer les valeurs de X ainsi que sa moyenne et son écart type.
b) Trouver une relation entre X et T ainsi qu’entre σX et σT .
c) En déduire T et σT .
15
Nathalie Villa-Vialaneix
Statistique Descriptive II - Exercices
4. Calculer Cov(X, Y ). Après avoir exprimé Cov(T, Y ) en fonction de Cov(X, Y ), en
déduire la valeur de Cov(T, Y ).
5. Calculer r(T, Y ).
6. Déterminer l’équation de la droite de régression de Y en T .
7. Si l’évolution de la population se poursuit au même rythme, quelle population
peut-on prévoir en France en 2010 ? en 2015 ?
5.2 Joueurs de football
Voici la taille et le poids des joueurs de Toulouse (TFC, Ligue 1 de football, en
2007/2008) :
Taille (en m)
1,74
1,78
1,82
1,84
1,84
1,86
1,85
1,80
1,88
1,80
1,86
1,80
1,86
1,80
1,84
1,82
1,80
1,89
1,76
1,85
1,72
1,80
Poids (en kg)
68
75
78
79
78
82
77
73
79
77
72
65
84
74
76
74
70
83
75
78
68
68
1. On note, respectivement, X, la variable Taille et Y la variable Poids .
Construire, sur deux graphiques séparés les nuages de points de Y en fonction de
X et de Y en fonction de X 2 .
2. Calculez r(Y, X 2 ). Conclusion ?
3. Déterminer la droite de régression de Y en X 2 . On appelle Indice de Masse Corporelle, la quantité
Poids
.
IM C =
Taille2
16
Nathalie Villa-Vialaneix
Statistique Descriptive II - Exercices
Un individu a une corpulence normale si son IMC est compris entre 18,5 et 25. Les
joueurs de football semblent-ils avoir une IMC normale ?
4. Quel poids peut-on prévoir pour un joueur de 1, 75 mètres ?
5.3 Oignons
Les données suivantes, extraites de Ratkowsky D.A. (1983) Nonlinear regression modeling. Marcel Dekker. New York., sont les poids secs (moyens) d’oignons à différentes
périodes de leur développement (temps en semaines).
Poids secs
16,08
33,83
65,8
97,2
191,55
326,2
386,87
520,53
590,03
651,92
Durée de vie
1
2
3
4
5
6
7
8
9
10
Dans la suite, on notera Y la variable Poids sec des oignons et X la variable
Durée de vie . Le but est de modéliser le poids sec en fonction de la durée de vie.
1. Effectuer le nuage de points de ces données. Peut-on penser, au vu de celui-ci,
qu’une régression linéaire est bien adaptée à la question ?
2. Calculer r(X, Y ).
3. Déterminer les valeurs de la variable Y 0 = ln
Y −1,28
700
−1
puis calculer
r(Y 0 , X). Conclusion ?
4. Déterminer l’équation de la droite de régression de Y 0 en X. À quelle courbe de
régression cette droite correspond-elle pour les variables Y et X ? Tracer cette
courbe sur le nuage de points de la première question.
5. Évaluer le poids d’un oignon sec cueilli à 10, 5 semaines.
17