Biostatistics example - Département de Mathématiques
Transcription
Biostatistics example - Département de Mathématiques
Université de Caen Basse-Normandie 1 23 septembre 2014 Département de Mathématiques et Mécanique Etude des mélanomes aux USA Sommaire 1.1 1.2 1.3 1.4 1.5 1.6 1.7 1.1 Description . . . . . . . . . . . . . . . . Statistiques descriptives . . . . . . . . Calcul de la fréquence des mélanomes Proximité de la mer . . . . . . . . . . . Géographie . . . . . . . . . . . . . . . . Conclusion . . . . . . . . . . . . . . . . Rapport . . . . . . . . . . . . . . . . . . . . . . . . . . au US . . . . . . . . . . . . . . . . . . . . en . . . . . . . . . . . . . . . . 1974 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1 2 2 3 3 4 4 Description Gerarld Van Belle et LLyod D. Fisher ont utilisé dans leur livre Biostatics a methology for health sciences, [Van Belle et al.(2004)V le taux de mortalité du mélanome main en 1974 exprimé en nombre de cas pour 10 millions d’habitants. La précision de ces données est de ±0.5 pour dix millions d’habitants. Cette étude a été réalisée par le département ”Health and Welfare”. Cet exemple a été repris dans la bibliothèque ”HSAUR2: A Handbook of Statistical Analyses Using R”[Everitt and Hothorn(2014)]. La table contient 49+1 lignes et 4+1 colonnes. Chaque ligne concerne un état américain. La première ligne contient le nom des variables et la première colonne contient le nom des états. 1 2 3 4 5 6 state Alabama Arizona Arkansas California Colorado Connecticut mortality 219 160 170 182 149 159 latitude 33.00 34.50 35.00 37.50 39.00 41.80 longitude 87.00 112.00 92.50 119.50 105.50 72.80 ocean yes no no yes no yes Table 1 – Premières lignes de la table Elle est disponible au format csv http://www.math.unicaen.fr/~kauffman/data/US-melanoma.csv On peut lire ce fichier depuis R avec la commande : X=read.table("http://www.math.unicaen.fr/~kauffman/data/US-melanoma.csv",header=TRUE,sep=";",row.names=1) 0 1 2 3 4 nom rownames mortality latitude longitude ocean type quali quanti quanti quanti quali Table label nom de l’état taux de mortalité pour 10 millions d’habitants proximité de la mer 2: Catalogue de la table sur les mélanomes modalites no ;yes La table de la population estimée des Etats Unis par classe d’age de 5ans, par état et entre 1970 et 1979 peut être consultée depuis le site du Census. Le fichier est aussi disponible au format xls http://www.math.unicaen.fr/~kauffman/data/US-population.xls 1225 1226 1227 1228 1229 1230 Year.of.Estimate 1974 1974 1974 1974 1974 1974 FIPS.State.Code 01 01 01 01 01 01 State.Name Alabama Alabama Alabama Alabama Alabama Alabama Race.Sex.Indicator White male White female Black male Black female Other races male Other races female Under.5.years 104757 100056 46976 46585 449 462 X5.to.9.years 111031 105444 49225 48759 467 463 Table 3 – Sélection de lignes et colonnes de la table de population http://www.math.unicaen.fr/~kauffman/cours 1 [email protected] Université de Caen Basse-Normandie 23 septembre 2014 Département de Mathématiques et Mécanique Références [Everitt and Hothorn(2014)] Brian S. Everitt and Torsten Hothorn. HSAUR2: A Handbook of Statistical Analyses Using R (2nd Edition), 2014. URL http://CRAN.R-project.org/package=HSAUR2. R package version 1.1-9. 1.1 [Van Belle et al.(2004)Van Belle, Fisher, Heagerty, and Lumley] Gerald Van Belle, Lloyd D. Fisher, Patrick J. Heagerty, and Thomas Lumley. Association and prediction: Linear models with one predictor variable. In Biostatistics, pages 291– 356. John Wiley & Sons, Inc., 2004. ISBN 9780471602392. URL http://onlinelibrary.wiley.com/doi/10.1002/ 0471602396.ch9/summary. 1.1 1.2 Statistiques descriptives 100 150 200 250 200 250 0 2 4 6 8 10 12 Mortality 100 150 Figure 1 – Statistiques descriptives de la variable mortality 1. On étudie dans cette question, le graphique de la partie supérieure de la figure ci dessus. (a) Comment s’appelle ce type de graphique, décrire tous les éléments de ce graphique. (b) A l’aide du graphique, donnez un ordre de grandeur du troisième quartile du taux de mortalité, puis calculez estimer exactement ce quartile. (c) Créez cette partie de la figure. (d) Donnez le code R permettant de découper 2 graphiques sur une même figure l’un en dessous de l’autre. 2. On étudie dans cette question l’histogramme des effectifs dont la représentation graphique est dans la partie basse de la figure ci dessus. (a) Décrire les éléments de ce graphique (b) Quel est le nombre d’états américains ayant un taux de mortalité supérieur à 200. (c) Créez cette partie de la figure. 3. Réalisez la première figure, on remarquera que les échelles des abscisses sont identiques et l’une en dessous de l’autre. 1.3 1. 2. 3. 4. 5. Calcul de la fréquence des mélanomes au US en 1974 Lire la table des populations depuis le fichier US-population.xls Calculer la population estimée par état en 1974 Ajouter à la table des données sur les mélanomes une colonne N contenant la population estimée de chaque état. Calculer une estimation du nombre de décès du au mélanome aux US en 1974. Donner un encadrement de nombre total de décès. http://www.math.unicaen.fr/~kauffman/cours 2 [email protected] Université de Caen Basse-Normandie 1.4 23 septembre 2014 Département de Mathématiques et Mécanique Proximité de la mer On étudie dans cette partie si il y a un lien entre le taux de mortalité et la proximité de la mer. ocean no yes 1 2 N 94160942 117971784 mortality 134.66 177.79 Table 4 – Population et taux de mortalité moyen pour 10 millions d’habitants en fonction de la proximité de la mer 1. Construire cette table. 2. Quelle est la fréquence empirique de décéder d’un mélanome malin si on est proche de la mer, si on est loin de la mer. 3. Sachant que l’on étudie la population des personnes décédées d’un mélanome malin, on voudrait savoir si il est raisonnable de penser qu’il n’y pas de lien entre la proximité de la mer et la probabilité de décéder d’un mélanome malin. (a) Décrire le modèle probabiliste (b) Décrire l’hypothèse nulle (c) Réalisez un test du χ2 (d) Quelle est votre conclusion relative à l’hypothèse nulle. 1.5 Géographie 1. Construire les deux figures indiquant expliquant le taux de mortalité en fonction de la latitude et de la longitude. 2. Construire la carte indiquant pour chaque état (hors Hawai et Alaska) le taux de mortalité. ● 220 220 ● ● ● ● ● ● ● ● 200 200 ● ● ● ● ● ● ● ● ● 180 180 ● ● ● ● ● ● ● ● ● ● 120 ● ● ● ● ● ● ● ● ● ● ● ●● ● ● ● ● ● ● ● ● ● ●● ● ● ● ● ● ● ● ● ● ● ● ● ● ●● ● ● 120 140 ● ● 140 ● 160 ● ●● ● ● ● ● mortality 160 mortality ● ● ● ●● ● ● ● ● ●● ● ● ● ● ● 100 100 ● ● 70 80 90 100 ● 120 30 35 40 45 Figure 2 – Taux de mortalité /latitude longitude (a) Sous Unix il faut installer préalablement deux paquets systèmes GDAL and OGR are translator libraries for raster and vector geospatial data formats gdal,gdal-devel, libgdal1 et un paquet de Cartographic projection software proj, libproj-devel, libproj0. (b) Installer les librairies gdal et sp de R. (c) Télécharger les contours de cartes des états des Etats Unis au format shapefile. (d) Consulter éventuellement http://www.math.unicaen.fr/~kauffman/cours/R/TP-cartographie.pdf http://www.math.unicaen.fr/~kauffman/cours 3 [email protected] Université de Caen Basse-Normandie 23 septembre 2014 Département de Mathématiques et Mécanique 3. Construire la carte suivante Figure 3 – Taux de mortalité . 4. Dans cette question, on se pose la question suivante : y a t-il un lien entre le taux de mortalité et la position géographique de l’état. Comment tester l’hypothèse qu’il n’y a pas de lien entre la position géographique et le taux de mortalité. 1.6 Conclusion Est ce plutôt la position géographique ou la proximité de la mer qui influe sur ce taux de mortalité ? Discuter en argumentant votre réponse. 1.7 Rapport Les documents attendus pour le vendredi 21 novembre 2014 avant minuit. Le devoir peut être fait par des groupes d’étudiants composés d’au maximum deux étudiants. 1. Le rapport devra être d’au maximum 6 pages au format pdf. Les figures doivent être incluses dans le rapport. Il devra contenir un résumé d’au maximum 10 lignes écrit en français et en anglais. 2. Le code R. http://www.math.unicaen.fr/~kauffman/cours 4 [email protected]