Biostatistics example - Département de Mathématiques

Transcription

Biostatistics example - Département de Mathématiques
Université de Caen Basse-Normandie
1
23 septembre 2014
Département de Mathématiques et Mécanique
Etude des mélanomes aux USA
Sommaire
1.1
1.2
1.3
1.4
1.5
1.6
1.7
1.1
Description . . . . . . . . . . . . . . . .
Statistiques descriptives . . . . . . . .
Calcul de la fréquence des mélanomes
Proximité de la mer . . . . . . . . . . .
Géographie . . . . . . . . . . . . . . . .
Conclusion . . . . . . . . . . . . . . . .
Rapport . . . . . . . . . . . . . . . . . .
. . . .
. . . .
au US
. . . .
. . . .
. . . .
. . . .
. .
. .
en
. .
. .
. .
. .
. . . .
. . . .
1974
. . . .
. . . .
. . . .
. . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
1
2
2
3
3
4
4
Description
Gerarld Van Belle et LLyod D. Fisher ont utilisé dans leur livre Biostatics a methology for health sciences, [Van Belle et al.(2004)V
le taux de mortalité du mélanome main en 1974 exprimé en nombre de cas pour 10 millions d’habitants. La précision de
ces données est de ±0.5 pour dix millions d’habitants. Cette étude a été réalisée par le département ”Health and Welfare”. Cet
exemple a été repris dans la bibliothèque ”HSAUR2: A Handbook of Statistical Analyses Using R”[Everitt and Hothorn(2014)].
La table contient 49+1 lignes et 4+1 colonnes. Chaque ligne concerne un état américain. La première ligne contient le
nom des variables et la première colonne contient le nom des états.
1
2
3
4
5
6
state
Alabama
Arizona
Arkansas
California
Colorado
Connecticut
mortality
219
160
170
182
149
159
latitude
33.00
34.50
35.00
37.50
39.00
41.80
longitude
87.00
112.00
92.50
119.50
105.50
72.80
ocean
yes
no
no
yes
no
yes
Table 1 – Premières lignes de la table
Elle est disponible au format
csv http://www.math.unicaen.fr/~kauffman/data/US-melanoma.csv
On peut lire ce fichier depuis R avec la commande :
X=read.table("http://www.math.unicaen.fr/~kauffman/data/US-melanoma.csv",header=TRUE,sep=";",row.names=1)
0
1
2
3
4
nom
rownames
mortality
latitude
longitude
ocean
type
quali
quanti
quanti
quanti
quali
Table
label
nom de l’état
taux de mortalité pour 10 millions d’habitants
proximité de la mer
2: Catalogue de la table sur les mélanomes
modalites
no ;yes
La table de la population estimée des Etats Unis par classe d’age de 5ans, par état et entre 1970 et 1979 peut être
consultée depuis le site du Census. Le fichier est aussi disponible au format
xls http://www.math.unicaen.fr/~kauffman/data/US-population.xls
1225
1226
1227
1228
1229
1230
Year.of.Estimate
1974
1974
1974
1974
1974
1974
FIPS.State.Code
01
01
01
01
01
01
State.Name
Alabama
Alabama
Alabama
Alabama
Alabama
Alabama
Race.Sex.Indicator
White male
White female
Black male
Black female
Other races male
Other races female
Under.5.years
104757
100056
46976
46585
449
462
X5.to.9.years
111031
105444
49225
48759
467
463
Table 3 – Sélection de lignes et colonnes de la table de population
http://www.math.unicaen.fr/~kauffman/cours
1
[email protected]
Université de Caen Basse-Normandie
23 septembre 2014
Département de Mathématiques et Mécanique
Références
[Everitt and Hothorn(2014)] Brian S. Everitt and Torsten Hothorn. HSAUR2: A Handbook of Statistical Analyses Using R
(2nd Edition), 2014. URL http://CRAN.R-project.org/package=HSAUR2. R package version 1.1-9. 1.1
[Van Belle et al.(2004)Van Belle, Fisher, Heagerty, and Lumley] Gerald Van Belle, Lloyd D. Fisher, Patrick J. Heagerty, and
Thomas Lumley. Association and prediction: Linear models with one predictor variable. In Biostatistics, pages 291–
356. John Wiley & Sons, Inc., 2004. ISBN 9780471602392. URL http://onlinelibrary.wiley.com/doi/10.1002/
0471602396.ch9/summary. 1.1
1.2
Statistiques descriptives
100
150
200
250
200
250
0
2
4
6
8
10 12
Mortality
100
150
Figure 1 – Statistiques descriptives de la variable mortality
1. On étudie dans cette question, le graphique de la partie supérieure de la figure ci dessus.
(a) Comment s’appelle ce type de graphique, décrire tous les éléments de ce graphique.
(b) A l’aide du graphique, donnez un ordre de grandeur du troisième quartile du taux de mortalité, puis calculez
estimer exactement ce quartile.
(c) Créez cette partie de la figure.
(d) Donnez le code R permettant de découper 2 graphiques sur une même figure l’un en dessous de l’autre.
2. On étudie dans cette question l’histogramme des effectifs dont la représentation graphique est dans la partie basse de
la figure ci dessus.
(a) Décrire les éléments de ce graphique
(b) Quel est le nombre d’états américains ayant un taux de mortalité supérieur à 200.
(c) Créez cette partie de la figure.
3. Réalisez la première figure, on remarquera que les échelles des abscisses sont identiques et l’une en dessous de l’autre.
1.3
1.
2.
3.
4.
5.
Calcul de la fréquence des mélanomes au US en 1974
Lire la table des populations depuis le fichier US-population.xls
Calculer la population estimée par état en 1974
Ajouter à la table des données sur les mélanomes une colonne N contenant la population estimée de chaque état.
Calculer une estimation du nombre de décès du au mélanome aux US en 1974.
Donner un encadrement de nombre total de décès.
http://www.math.unicaen.fr/~kauffman/cours
2
[email protected]
Université de Caen Basse-Normandie
1.4
23 septembre 2014
Département de Mathématiques et Mécanique
Proximité de la mer
On étudie dans cette partie si il y a un lien entre le taux de mortalité et la proximité de la mer.
ocean
no
yes
1
2
N
94160942
117971784
mortality
134.66
177.79
Table 4 – Population et taux de mortalité moyen pour 10 millions d’habitants en fonction de la proximité de la mer
1. Construire cette table.
2. Quelle est la fréquence empirique de décéder d’un mélanome malin si on est proche de la mer, si on est loin de la mer.
3. Sachant que l’on étudie la population des personnes décédées d’un mélanome malin, on voudrait savoir si il est raisonnable de penser qu’il n’y pas de lien entre la proximité de la mer et la probabilité de décéder d’un mélanome
malin.
(a) Décrire le modèle probabiliste
(b) Décrire l’hypothèse nulle
(c) Réalisez un test du χ2
(d) Quelle est votre conclusion relative à l’hypothèse nulle.
1.5
Géographie
1. Construire les deux figures indiquant expliquant le taux de mortalité en fonction de la latitude et de la longitude.
2. Construire la carte indiquant pour chaque état (hors Hawai et Alaska) le taux de mortalité.
●
220
220
●
●
●
●
●
● ●
●
200
200
●
●
●
●
●
●
●
● ●
180
180
●
●
●
● ●
●
●
●
●
●
120
●
●
●
●
●
●
●
●
●
● ●
●●
●
●
●
●
●
● ●
●
● ●●
● ● ●
●
●
●
●
●
●
●
●
●
●
●●
●
●
120
140
●
●
140
●
160
●
●●
●
●
●
●
mortality
160
mortality
●
●
●
●●
●
●
●
● ●● ● ●
●
●
●
100
100
●
●
70
80
90
100
●
120
30
35
40
45
Figure 2 – Taux de mortalité /latitude longitude
(a) Sous Unix il faut installer préalablement deux paquets systèmes GDAL and OGR are translator libraries for raster
and vector geospatial data formats gdal,gdal-devel, libgdal1 et un paquet de Cartographic projection software
proj, libproj-devel, libproj0.
(b) Installer les librairies gdal et sp de R.
(c) Télécharger les contours de cartes des états des Etats Unis au format shapefile.
(d) Consulter éventuellement http://www.math.unicaen.fr/~kauffman/cours/R/TP-cartographie.pdf
http://www.math.unicaen.fr/~kauffman/cours
3
[email protected]
Université de Caen Basse-Normandie
23 septembre 2014
Département de Mathématiques et Mécanique
3. Construire la carte suivante
Figure 3 – Taux de mortalité
.
4. Dans cette question, on se pose la question suivante : y a t-il un lien entre le taux de mortalité et la position géographique
de l’état. Comment tester l’hypothèse qu’il n’y a pas de lien entre la position géographique et le taux de mortalité.
1.6
Conclusion
Est ce plutôt la position géographique ou la proximité de la mer qui influe sur ce taux de mortalité ? Discuter en
argumentant votre réponse.
1.7
Rapport
Les documents attendus pour le vendredi 21 novembre 2014 avant minuit. Le devoir peut être fait par des groupes
d’étudiants composés d’au maximum deux étudiants.
1. Le rapport devra être d’au maximum 6 pages au format pdf. Les figures doivent être incluses dans le rapport. Il devra
contenir un résumé d’au maximum 10 lignes écrit en français et en anglais.
2. Le code R.
http://www.math.unicaen.fr/~kauffman/cours
4
[email protected]