Statistique Descriptive II (M1201)

Transcription

Nathalie Villa-Vialaneix
Livret d’exercices de
Statistique Descriptive II (M1201)
Année scolaire 2013/2014
Université de Perpignan Via Domitia, IUT
STatistique et Informatique Décisionnelle (STID)
Table des matières
1 Généralités sur la statistique descriptive bivariée
1.1 Distributions jointes et conditionnelles . . . . . . . . . . . . . . . . . . . .
1.2 Distributions jointes et conditionnelles . . . . . . . . . . . . . . . . . . . .
5
5
5
2 Représentations graphiques
2.1 Variables qualitatives . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
2.2 Variable qualitative et variable quantitative . . . . . . . . . . . . . . . . .
7
7
7
3 Étude de la liaison entre une variable qualitative et une variable quantitative 9
3.1 Problème . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9
3.1.1 Influence d’un incinérateur sur le taux de métaux lourds dans l’air
9
3.1.2 Influence de la station sur le taux de monoxide de carbone . . . . . 9
3.2 Élections . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10
4 Étude de la liaison entre deux variables qualitatives
13
4.1 χ2 , C de Cramer . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13
4.2 Un exemple de paradoxe de Simpson . . . . . . . . . . . . . . . . . . . . . 13
5 Régression linéaire
15
5.1 Série chronologique . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15
5.2 Joueurs de football . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16
5.3 Oignons . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17
3
1 Généralités sur la statistique descriptive
bivariée
1.1 Distributions jointes et conditionnelles
Ce document est issu des statistiques de l’INSEE et intitulé La population française
selon la nationalité et le lieu de naissance en 1999 (effectifs en milliers) :
Lieu de naissance
Nationalité
Français de naissance
Français par acquisition
Étrangers
France
Étranger
51 340
800
510
1 560
1 560
2 750
1. Quelle est la population ? Sa taille ?
2. Quelles sont les variables étudiées ? Leurs types ?
3. Compléter la table de contingence précédente avec les distributions marginales.
4. Déterminer les distributions conditionnelles des deux variables. Laquelle nous permet de déterminer si le pourcentage de personnes nées en France est plus fort parmi
les Français par acquisition ou parmi les étrangers ?
1.2 Distributions jointes et conditionnelles
Ce document est issu des statistiques de l’INSEE et intitulé Répartition des séjours
d’été par mode d’hébergement et par catégorie socio-professionnelle en 2004 .
Type de vacances
CSP du chef de famille
Agriculteurs
Artisans & commerçants
Cadres
Professions intermédiaires
Employés
Ouvriers
Retraités
Autres inactifs
Hôtel
Location
17
15
14
11
11
7
17
5
15
20
18
18
15
17
11
10
Résidence
secondaire
2
7
8
4
3
4
14
1
Parents
et amis
27
32
43
44
47
45
39
59
Camping
Autres
34
19
9
16
18
22
11
20
6
7
8
8
6
5
8
5
5
Statistique Descriptive II - Exercices
1. Quelle est la population étudiée ?
2. Quelles sont les variables étudiées ? Leurs types ?
3. Quel est le nom de la (des) distribution(s) présentée(s) ici ?
4. Peut-on, à partir de celles-ci, retrouver la table de contingence (des fréquences)
associée à ce problème ?
Quelle information supplémentaire faudrait-il avoir pour y parvenir ?
5. On donne le tableau suivant :
CSP
Agriculteurs
Artisans et commerçants
Cadres
Professions intermédiaires
Employés
Ouvriers
Retraités
Autres inactifs
Fréquence
0,020
0,044
0,108
0,173
0,217
0,178
0,255
0,005
Retrouver, à partir de ces deux tableaux, la table de contingence des deux variables
étudiées. Calculer les distributions marginales.
6. Calculer la distribution de la variable CSP conditionnellement à la modalité
Camping . Au vu de celle-ci et du tableau initial, qui prévilégie le plus le
camping comme mode de vacances ? Qui a-t-on le plus de chances de rencontrer
lorsque l’on va dans un camping ?
6
2 Représentations graphiques
2.1 Variables qualitatives
On reprend les données de l’exercice 1.1 page 5 :
Lieu de naissance
Nationalité
Étranger
Total
France
51 340
800
510
52 650
Étranger
1
1
2
5
560
560
750
870
Ensemble
52 900
2 360
3 260
58 520
1. Représenter graphiquement la distribution conjointe des deux variables.
2. Représenter graphiquement les distributions conditionnelles aux modalités de chacune des deux variables. On rappelle :
Distribution de la Nationalité conditionnellement au Lieu de naissance
Lieu de naissance France Étranger
Total
Nationalité
97,51 % 26,58 % 90,40 %
26,58 %
4,03 %
Français par acquisition 1,52 %
Étranger
0,97 %
46,85 %
5,57 %
Total
1
1
1
Distribution du Lieu de naissance conditionnellement à la Nationalité
Lieu de naissance
France
Étranger Total
Nationalité
97,05 % %
2,95 %
1
Français par acquisition 33,90 % % 66,10 %
1
Étranger
15,64 %
84,36 %
1%
Ensemble
89,97 %
10,03 %
1
3. Est-il plus fréquent d’acquérir la nationalité française lorsque l’on est né en France
ou bien lorsque l’on est né à l’étranger ? (Quel graphique permet cette conclusion ?)
2.2 Variable qualitative et variable quantitative
On donne, pour les mois allant de novembre 2006 à octobre 2007 (inclus), le cours du
supercarburant et celui du blé :
7
Octobre 2007
Septembre 2007
Août 2007
Juillet 2007
Juin 2007
Mai 2007
Avril 2007
Mars 2007
Février 2007
Janvier 2007
Décembre 2006
Novembre 2006
Super
733,3
729,6
703,2
751,6
763,1
773,1
722,5
620,6
542,8
492,2
552,1
520,6
Blé
853,7
863,0
691,8
613,3
573,5
486,0
471,2
459,5
464,7
466,1
491,1
487,5
1. Quelle est la population ? Sa taille ? Quelles sont les variables ? Leurs types ?
2. Déterminer les indices base 100 en octobre 2007 des deux séries statistique.
Remarque : L’indice base 100 en octobre 2007 de la variable X est
X
Valeur de X en octobre 2007 × 100.
3. Déterminer le diagramme chronologique en ligne de ces deux séries statistiques à
partir des indices calculés à la question précédente. Commenter.
4. Déterminer le graphique de la distribution conjointe des deux variables. Commenter.
8
3 Étude de la liaison entre une variable
qualitative et une variable quantitative
3.1 Problème
Les données de cet exercice sont issues du site de l’ORAMIP (Observatoire Régional
de l’Air en Midi-Pyrénées, http://www.oramip.org).
3.1.1 Influence d’un incinérateur sur le taux de métaux lourds dans l’air
Dans le tableau ci-dessous, sont relevées les valeurs du taux de plomb (en ng/m3 ) dans
l’air pour trois stations ORAMIP de Toulouse : Eisenhower et Chapitre, qui sont situées
à proximité de l’incinérateur de déchets du Mirail, et Berthelot, situé en zone urbaine,
qui est caractéristique de l’air respiré par l’ensemble de la population toulousaine.
Eisenhower
7,6
21,4
12,4
15,8
14,8
5,9
12,5
11,3
Station
Chapitre
9,1
13,1
10,5
8,3
17,4
9,4
7,8
12,2
Berthelot
7,5
9,3
10,2
20,3
10,3
16,4
13,3
14,9
On considère ici la population des relevés de taux de plomb de taille 24 et les variables
X, Taux de plomb dans l’air , et Y Station .
1. De quels types sont les variables considérées ?
2. Sur cet échantillon de relevés, peut-on considérer qu’il y a un lien important entre
la station de relevé et le taux de plomb dans l’air ?
3. Si on considère maintenant la variable Z, Proximité de l’incinérateur ? , de type
qualitative nominale, peut-on considérer qu’il y a un lien important entre X et Z ?
3.1.2 Influence de la station sur le taux de monoxide de carbone
Sur le graphique ci-dessous, sont données les moyennes annuelles de taux de monoxide de carbone (en mg/m3 ) dans l’air pour trois stations toulousaines : Toulouse
9
Pargaminières (située au centre de Toulouse, rue étroite, immeubles hauts, circulation
importante), Toulouse Saint Cyprien (située à proximité du centre ville sur un grand
carrefour de circulation) et Toulouse rue de Metz (située au centre de Toulouse, rue peu
dégagée, circulation très importante).
On considère ici la population des années (de taille 15) et les variables X,
annuelle du taux de monoxide de carbonne , et Y , Station .
Moyenne
1. Faire un tableau donnant, pour chacune des trois stations toulousaines, la valeur
des relevés effectués.
2. Peut-on considérer qu’il existe un lien important entre le taux de monoxide de
carbonne et la localisation géographique du relevé dans Toulouse ?
3.2 Élections
Les données suivantes sont les résultats, obtenus au premier tour de la présidentielle
de 2007, par Ségolène Royal (Parti Socialiste) et Jean-Marie Le Pen (Front National) 1
pour divers départements.
Département
Aude
Corrèze
Creuse
Hérault
Gard
Haute-Vienne
Lozère
Pyrénées orientales
Nombre de votants
216 882
159 909
81 585
593 411
416 170
225 765
51 925
263 862
Taux de votes pour SR
30,70 %
29,73 %
29,02 %
26,05 %
23,31 %
31,46 %
22,72 %
24,82 %
1. Sources : Site du ministère de l’intérieur http://www.interieur.gouv.fr
10
Taux de votes pour JML
13,20 %
7,58 %
8,68%
13,35 %
15,44 %
8,56 %
9,44%
14,21 %
On considère, dans cet exemple, la population des votants (suffrages
exprimés) des régions Limousin et Languedoc-Roussillon et les variables
X = I{Avoir voté pour Ségolène Royal} 2 , X 0 = I{Avoir voté pour Jean-Marie Le Pen} 1 , Y ,
0
0 sont considérées ici, comme quanti Département et Y , Région . X et X
tatives (elles comptent le nombre de votes pour les deux candidats).
1. Quelle est la taille de la population ?
2. On considère les sous-populations (Pi )i=1,...,8 définies par Y . À quoi est égal X i
pour i = 1, . . . , 8 ?
3. En déduire X.
4. Pour une variable valant 0 ou 1 avec une proportion p de 0, la variance est égale à
p(1 − p). À quoi est égal σi2 pour i = 1, . . . , 8 ?
5. En déduire Varinter et Varintra puis σ 2 .
6. Peut-on dire qu’il existe un lien important entre X et Y ?
7. Mêmes questions entre X 0 et Y , entre X et Y 0 et entre X 0 et Y 0 . Conclusion ?
2. IA =
1
0
si l’individu appartient à A
sinon
11
4 Étude de la liaison entre deux variables
qualitatives
4.1 χ2 , C de Cramer
On reprend les données de l’exercice 1.1 :
Lieu de naissance
Nationalité
Étranger
Total
France
51 340
800
510
52 650
Étranger
1
1
2
5
560
560
750
870
Total
52 900
2 360
3 260
58 520
Déterminer l’indice du χ2 et le coefficient C de Cramer. Commenter.
4.2 Un exemple de paradoxe de Simpson
Les données suivantes rapportent les résultats du jugement de 4 764 homicides jugés
en Floride entre 1973 et 1979. Ces données ont été publiées dans le New York Times du
11 mars 1979.
Meurtrier
Blanc
Noir
Victime
Blanc
Noir
Blanc
Noir
Peine de
72
0
48
11
Sentence
mort Autre peine
2074
111
239
2209
1. Quelle est la population ? Sa taille ? Quelles sont les variables ? Leur type ?
2. Effectuer la table de contingence des variables Couleur du meurtrier et Type
de peine . À partir de cette table, déterminer la distribution de la variable Sentence conditionnellement à la variable Couleur du meurtrier . Calculer le χ2
puis le C de Cramer. Que pense-t-on pouvoir conclure ?
3. Effectuer la table de contingence des variables Couleur du meurtrier et Couleur de la victime . Calculer le χ2 puis le C de Cramer. Conclusion ?
13
4. Enfin, effectuer, seulement pour les victimes blanches, la table de contingence des
variables Couleur du meurtrier et Sentence . En déduire la distribution de
la variable Sentence conditionnellement à la variable Couleur du meurtrier .
Comparez à la distribution conditionnelle obtenue dans la Question 2 et, en vous
appuyant sur les résultats de la question précédente, expliquez ce phénomène.
14
5 Régression linéaire
5.1 Série chronologique
Ces données correspondent à l’évolution du nombre d’habitants en France depuis 1990
(source : INSEE http: // www. insee. fr ).
Année
2007
2006
2005
2004
2003
2002
2001
2000
1999
1998
1997
1996
1995
1994
1993
1992
1991
1990
Population
(en milliers)
61542
61167
60825
60462
60067
59660
59249
58850
58497
58299
58116
57936
57753
57565
57369
57111
56841
56577
On considère, dans la suite, la régression de la population (notée Y ) par rapport à
l’année (notée T ).
1. Effectuer le nuage de points des deux variables. Que peut-on en dire ?
2. Déterminer la moyenne et l’écart type de Y .
3. On pose X = T − 1990.
a) Calculer les valeurs de X ainsi que sa moyenne et son écart type.
b) Trouver une relation entre X et T ainsi qu’entre σX et σT .
c) En déduire T et σT .
15
4. Calculer Cov(X, Y ). Après avoir exprimé Cov(T, Y ) en fonction de Cov(X, Y ), en
déduire la valeur de Cov(T, Y ).
5. Calculer r(T, Y ).
6. Déterminer l’équation de la droite de régression de Y en T .
7. Si l’évolution de la population se poursuit au même rythme, quelle population
peut-on prévoir en France en 2010 ? en 2015 ?
5.2 Joueurs de football
Voici la taille et le poids des joueurs de Toulouse (TFC, Ligue 1 de football, en
2007/2008) :
Taille (en m)
1,74
1,78
1,82
1,84
1,84
1,86
1,85
1,80
1,88
1,80
1,86
1,80
1,86
1,80
1,84
1,82
1,80
1,89
1,76
1,85
1,72
1,80
Poids (en kg)
68
75
78
79
78
82
77
73
79
77
72
65
84
74
76
74
70
83
75
78
68
68
1. On note, respectivement, X, la variable Taille et Y la variable Poids .
Construire, sur deux graphiques séparés les nuages de points de Y en fonction de
X et de Y en fonction de X 2 .
2. Calculez r(Y, X 2 ). Conclusion ?
3. Déterminer la droite de régression de Y en X 2 . On appelle Indice de Masse Corporelle, la quantité
Poids
.
IM C =
Taille2
16
Un individu a une corpulence normale si son IMC est compris entre 18,5 et 25. Les
joueurs de football semblent-ils avoir une IMC normale ?
4. Quel poids peut-on prévoir pour un joueur de 1, 75 mètres ?
5.3 Oignons
Les données suivantes, extraites de Ratkowsky D.A. (1983) Nonlinear regression modeling. Marcel Dekker. New York., sont les poids secs (moyens) d’oignons à différentes
périodes de leur développement (temps en semaines).
Poids secs
16,08
33,83
65,8
97,2
191,55
326,2
386,87
520,53
590,03
651,92
Durée de vie
1
2
3
4
5
6
7
8
9
10
Dans la suite, on notera Y la variable Poids sec des oignons et X la variable
Durée de vie . Le but est de modéliser le poids sec en fonction de la durée de vie.
1. Effectuer le nuage de points de ces données. Peut-on penser, au vu de celui-ci,
qu’une régression linéaire est bien adaptée à la question ?
2. Calculer r(X, Y ).
3. Déterminer les valeurs de la variable Y 0 = ln
Y −1,28
700
−1
puis calculer
r(Y 0 , X). Conclusion ?
4. Déterminer l’équation de la droite de régression de Y 0 en X. À quelle courbe de
régression cette droite correspond-elle pour les variables Y et X ? Tracer cette
courbe sur le nuage de points de la première question.
5. Évaluer le poids d’un oignon sec cueilli à 10, 5 semaines.
17

Statistique Descriptive II (M1201)

Transcription

Documents pareils

Notions d`optimisation convexe

CHOISIR LA BONNE STRUCTURE Pierre Philippe Franc, Cabinet

Recette, par Marie Soulié : Comment concevoir une capsule ``mise

dm09 - Mathématiques PC2

Primitives d`une fonction : Exercices Corrigés en vidéo avec le cours

Normes islamiques et droit interne en France: des relations

Ingénieur d`Affaires Junior

Les valeurs modales du futur en français et en allemand

Gabriel Chardin Last flight to Kuwait - LAL

La Banque nationale fixe un cours plancher de 1,20 franc pour un