Exercices (partie 3)

Transcription

Exercices (partie 3)
Test d’independence pour deux variables qualitatives
A. Fermin et C. Hardouin
M1 SES
Excercice
Une étude a été réalisée sur 100 patients d’un service hospitalier afin de vérifier la relation entre le tabac et
les problèmes pulmonaires. Pour cela, nous avons demandé à chaque personne son âge, son sexe, sa situation
familiale (célibataire, en couple, mariée, veuf), sa consommation de tabac (nombre de cigarettes par jour), la
présence de tabagisme passif, et la présence de problème pulmonaire (par exemple cancer du poumon ou
broncho-pneumopathie chronique obstructive).
1. Décrire les données à l’aide du résumé de variables ci-dessous.
(a) Quelles sont les variables étudiées ? Quelle est la nature (qualitative ou quantitative) ?
(b) Relever la valeur observée de chaque variable, pour le premier individu.
(c) Donner les resumés numeriques et commenter.
## [1] "ID"
"age"
## [4] "situation"
"tabac"
## [7] "probleme_pulmonaire"
"sexe"
"tabagisme_passif"
##
ID age sexe situation tabac tabagisme_passif probleme_pulmonaire
## 1 0 37 homme
marie
11
FALSE
TRUE
##
##
##
##
##
##
##
##
##
##
##
##
##
##
age
sexe
situation
Min.
:20.00
femme:46
celibataire:39
1st Qu.:29.75
homme:54
en_couple :36
Median :41.00
marie
:20
Mean
:41.38
veuf
: 5
3rd Qu.:52.25
Max.
:64.00
tabagisme_passif probleme_pulmonaire
Mode :logical
Mode :logical
FALSE:84
FALSE:65
TRUE :16
TRUE :35
NA's :0
NA's :0
tabac
Min.
: 0.0
1st Qu.: 0.0
Median : 0.0
Mean
: 3.9
3rd Qu.: 9.0
Max.
:14.0
2. Nous avons créé la variable qualitative fumeur indiquant pour chaque individu s’il est ou non fumeur.
Nous avons consideré également la variable problème pulmonaire.
Utiliser les résultats et graphiques ci-dessous pour repondre aux questions suivantes.
(a) Donner les frequences observées pour le modalités des variables fumeur et problème pulmonaire.
(b) Commenter la Figure 1.
## fumeur
## FALSE TRUE
##
51
49
1
Figure 1 (b)
0.0
0.0
0.2
0.3
0.4
0.6
Figure 1 (a)
FALSE
TRUE
FALSE
fumeur
TRUE
probleme_pulmonaire
3. Nous avons croisé la variable fumeur et problème pulmonaire
(a) Donner le tableau des frequences observées de ces deux variables.
(b) Donner le tableau des frequences conditionelles de problème pulmonaire selon fumeur.
(c) Comenter la Figure 2. Quelle différence fites-vous entre la Figure 2(a) et la figure 2(b) ?
##
probleme_pulmonaire
## fumeur FALSE TRUE
##
FALSE
46
5
##
TRUE
19
30
##
probleme_pulmonaire
## fumeur
FALSE
TRUE
##
FALSE 0.90196078 0.09803922
##
TRUE 0.38775510 0.61224490
FALSE
TRUE
0.0
0.4
FALSE
0.8
Figure 2(b)
probleme_pulmonaire
0.4
0.2
0.0
probleme_pulmonaire
Figure 2(a)
FALSE
fumeur
TRUE
fumeur
2
4. On veut étudier l’existence d’un lien entre les deux variables. On effectue un test d’indépendance de
Chi2 entre les deux variables.
(a) Préciser les hypothèse nulle et alternative du test.
(b) Est-ce que les conditions d’application du test sont vérifiées ?
(c) Donner la statistique du Chi2 test et sa loi sous l’hypothèse nulle. Donner la valeur observée de la
statistique Chi2. Que pouvez-vous conclure au risque 5% ?
##
fumeur
## probleme_pulmonaire FALSE TRUE
##
FALSE 33.15 31.85
##
TRUE 17.85 17.15
##
## Pearson's Chi-squared test with Yates' continuity correction
##
## data: probleme_pulmonaire and fumeur
## X-squared = 26.828, df = 1, p-value = 2.224e-07
5. On considère les variables situation et fumeur. On veut étudier l’existence d’un lien entre les deux
variables. On effectue un test d’indépendance de Chi2 entre les deux variables.
(a) Préciser les hypothèse nulle et alternative du test.
(b) Donner le tableau des effectifs théoriques. Pourquoi cela produit-il le message d’avis l’approximation
du Chi-2 est peut-être incorrecte ?
##
fumeur
## situation
FALSE TRUE
##
celibataire
14
25
##
en_couple
21
15
##
marie
15
5
##
veuf
1
4
## Warning in chisq.test(situation, fumeur): Chi-squared approximation may be
## incorrect
##
fumeur
## situation
FALSE TRUE
##
celibataire 19.89 19.11
##
en_couple
18.36 17.64
##
marie
10.20 9.80
##
veuf
2.55 2.45
##
## Pearson's Chi-squared test
##
## data: situation and fumeur
## X-squared = 10.867, df = 3, p-value = 0.01247
6. On décide alors de ne pas considérer les personnes veuves dans cette étude. On effectue un test
d’indépendance de Chi2 entre les variables situation et fumeur.
3
(a) Est-ce que les conditions d’application du test sont vérifiées ?
(b) Donner la statistique du Chi2 test et sa loi sous l’hypothèse nulle. Donner la valeur observée de la
statistique Chi2. Que pouvez-vous conclure au risque 5% ?
FALSE
TRUE
0.8
0.4
0.0
FALSE
0.4
0.0
fumeur
Figure 3(b)
0.8
marie
celibataire
situation
Figure 3(a)
celibataire
fumeur
situation
##
fumeur2
## situation2
FALSE
TRUE
##
celibataire 20.52632 18.473684
##
en_couple
18.94737 17.052632
##
marie
10.52632 9.473684
##
## Pearson's Chi-squared test
##
## data: situation2 and fumeur2
## X-squared = 8.864, df = 2, p-value = 0.01189
4
marie

Documents pareils