Exercices (partie 3)
Transcription
Exercices (partie 3)
Test d’independence pour deux variables qualitatives A. Fermin et C. Hardouin M1 SES Excercice Une étude a été réalisée sur 100 patients d’un service hospitalier afin de vérifier la relation entre le tabac et les problèmes pulmonaires. Pour cela, nous avons demandé à chaque personne son âge, son sexe, sa situation familiale (célibataire, en couple, mariée, veuf), sa consommation de tabac (nombre de cigarettes par jour), la présence de tabagisme passif, et la présence de problème pulmonaire (par exemple cancer du poumon ou broncho-pneumopathie chronique obstructive). 1. Décrire les données à l’aide du résumé de variables ci-dessous. (a) Quelles sont les variables étudiées ? Quelle est la nature (qualitative ou quantitative) ? (b) Relever la valeur observée de chaque variable, pour le premier individu. (c) Donner les resumés numeriques et commenter. ## [1] "ID" "age" ## [4] "situation" "tabac" ## [7] "probleme_pulmonaire" "sexe" "tabagisme_passif" ## ID age sexe situation tabac tabagisme_passif probleme_pulmonaire ## 1 0 37 homme marie 11 FALSE TRUE ## ## ## ## ## ## ## ## ## ## ## ## ## ## age sexe situation Min. :20.00 femme:46 celibataire:39 1st Qu.:29.75 homme:54 en_couple :36 Median :41.00 marie :20 Mean :41.38 veuf : 5 3rd Qu.:52.25 Max. :64.00 tabagisme_passif probleme_pulmonaire Mode :logical Mode :logical FALSE:84 FALSE:65 TRUE :16 TRUE :35 NA's :0 NA's :0 tabac Min. : 0.0 1st Qu.: 0.0 Median : 0.0 Mean : 3.9 3rd Qu.: 9.0 Max. :14.0 2. Nous avons créé la variable qualitative fumeur indiquant pour chaque individu s’il est ou non fumeur. Nous avons consideré également la variable problème pulmonaire. Utiliser les résultats et graphiques ci-dessous pour repondre aux questions suivantes. (a) Donner les frequences observées pour le modalités des variables fumeur et problème pulmonaire. (b) Commenter la Figure 1. ## fumeur ## FALSE TRUE ## 51 49 1 Figure 1 (b) 0.0 0.0 0.2 0.3 0.4 0.6 Figure 1 (a) FALSE TRUE FALSE fumeur TRUE probleme_pulmonaire 3. Nous avons croisé la variable fumeur et problème pulmonaire (a) Donner le tableau des frequences observées de ces deux variables. (b) Donner le tableau des frequences conditionelles de problème pulmonaire selon fumeur. (c) Comenter la Figure 2. Quelle différence fites-vous entre la Figure 2(a) et la figure 2(b) ? ## probleme_pulmonaire ## fumeur FALSE TRUE ## FALSE 46 5 ## TRUE 19 30 ## probleme_pulmonaire ## fumeur FALSE TRUE ## FALSE 0.90196078 0.09803922 ## TRUE 0.38775510 0.61224490 FALSE TRUE 0.0 0.4 FALSE 0.8 Figure 2(b) probleme_pulmonaire 0.4 0.2 0.0 probleme_pulmonaire Figure 2(a) FALSE fumeur TRUE fumeur 2 4. On veut étudier l’existence d’un lien entre les deux variables. On effectue un test d’indépendance de Chi2 entre les deux variables. (a) Préciser les hypothèse nulle et alternative du test. (b) Est-ce que les conditions d’application du test sont vérifiées ? (c) Donner la statistique du Chi2 test et sa loi sous l’hypothèse nulle. Donner la valeur observée de la statistique Chi2. Que pouvez-vous conclure au risque 5% ? ## fumeur ## probleme_pulmonaire FALSE TRUE ## FALSE 33.15 31.85 ## TRUE 17.85 17.15 ## ## Pearson's Chi-squared test with Yates' continuity correction ## ## data: probleme_pulmonaire and fumeur ## X-squared = 26.828, df = 1, p-value = 2.224e-07 5. On considère les variables situation et fumeur. On veut étudier l’existence d’un lien entre les deux variables. On effectue un test d’indépendance de Chi2 entre les deux variables. (a) Préciser les hypothèse nulle et alternative du test. (b) Donner le tableau des effectifs théoriques. Pourquoi cela produit-il le message d’avis l’approximation du Chi-2 est peut-être incorrecte ? ## fumeur ## situation FALSE TRUE ## celibataire 14 25 ## en_couple 21 15 ## marie 15 5 ## veuf 1 4 ## Warning in chisq.test(situation, fumeur): Chi-squared approximation may be ## incorrect ## fumeur ## situation FALSE TRUE ## celibataire 19.89 19.11 ## en_couple 18.36 17.64 ## marie 10.20 9.80 ## veuf 2.55 2.45 ## ## Pearson's Chi-squared test ## ## data: situation and fumeur ## X-squared = 10.867, df = 3, p-value = 0.01247 6. On décide alors de ne pas considérer les personnes veuves dans cette étude. On effectue un test d’indépendance de Chi2 entre les variables situation et fumeur. 3 (a) Est-ce que les conditions d’application du test sont vérifiées ? (b) Donner la statistique du Chi2 test et sa loi sous l’hypothèse nulle. Donner la valeur observée de la statistique Chi2. Que pouvez-vous conclure au risque 5% ? FALSE TRUE 0.8 0.4 0.0 FALSE 0.4 0.0 fumeur Figure 3(b) 0.8 marie celibataire situation Figure 3(a) celibataire fumeur situation ## fumeur2 ## situation2 FALSE TRUE ## celibataire 20.52632 18.473684 ## en_couple 18.94737 17.052632 ## marie 10.52632 9.473684 ## ## Pearson's Chi-squared test ## ## data: situation2 and fumeur2 ## X-squared = 8.864, df = 2, p-value = 0.01189 4 marie