Devoir Master TIDE : Introduction `a R
Transcription
Devoir Master TIDE : Introduction `a R
Devoir Master TIDE : Introduction à R Nathalie Villa-Vialaneix à rendre pour le vendredi 24 octobre, 14h dernier délai 1 Introduction Les documents associés à ce projet peuvent être téléchargés sur mon site web http://www.nathalievilla.org. En particulier, vous trouverez à cette adresse : – le présent énoncé, project.pdf, au format PDF à http://www.nathalievilla.org/tide/project/project. pdf ; – un fichier zip data.zip contenant lui-même trois fichiers : deux fichiers sont au format CSV et contiennent des données, un fichier est au format PDF et contient la description des données. Il est téléchargeable à http: //www.nathalievilla.org/tide/project/data.zip. Les données pour ce projet proviennent d’un site web américain de comparaison d’hôpitaux Hospital Compare web site , http://hospitalcompare.hhs.gov, du ministère américain de la santé. En particulier, – le fichier outcome-of-care-measures.csv contient des informations sur la mortalité à 30 jours et les taux de ré-admission après une attaque cardique, une défaillance cardiaque ou une pneumonie pour plus de 4 000 hôpitaux ; – le fichier hospital-data.csv contient des informations sur chaque hôpital ; – le fichier Hospital_Revised_Flatfiles.pdf contient la description des variables de chacun des deux fichiers précédents (en anglais). Le travail peut être réalisé en groupe de une à trois personnes mais tout travail manifestement dupliqué entre groupes sera sévèrement sanctionné dans la notation. Le travail est à rendre sous la forme de : – un fichier R contenant le script vous ayant permis de répondre aux questions et que je dois pouvoir exécuter directement en le mettant dans un répertoire contenant les données ; – un fichier PDF de 5 pages maximum contenant un court compte-rendu sur les résultats trouvés. Ce fichier doit être structuré avec un titre, une introduction décrivant les données, une partie décrivant les résultats de chaque analyse et une conclusion. Ce fichier ne devra pas contenir de code R, il devra être écrit en français et contenir des résumés numériques et graphiques des résultats : le soin dans la présentation comptera pour une part importante de la note. Vous devez rédiger ce court rapport comme si il s’agissait d’un rapport de stage (en plus court). Le travail devra me parvenir avant le vendredi 24 octobre 14h dernier délai par e-mail à [email protected] : précisez dans votre e-mail l’ensemble des noms des personnes ayant participé au projet (3 maximum). J’accuse réception de votre travail par e-mail : si je n’ai pas accusé réception, contactez-moi rapidement pour m’informer du problème. Je n’accorde aucun délai sous aucun prétexte. Tout travail rendu en retard sera sanctionné de 1 point par demi-journée de retard. 2 Importation des données et première analyse Importez les deux fichier de données dans l’espace de travail de R. Dans une première partie (introduction), vous décrirez les données en précisant, comme dans l’énoncé, leur provenance et en donnant le nombre d’observations et de variables de chaque fichier. Les hôpitaux sont identifiés de manière unique dans les deux fichiers par la variables Provider.Number : combien d’hôpitaux du fichier outcome-of-care-measures.csv ne sont pas référencés dans le fichier hospital-data.csv ? Combien d’hôpitaux du fichier hospital-data.csv n’ont pas de données décrites dans le fichier outcome-of-care-measures.csv ? Indication : Utiliser l’opérateur %in% (voir help("%in%")). Toujours dans l’introduction, vous donnerez la répartition des États (variable State) hôpitaux référencés dans le fichier outcome-of-care-measures.csv à l’aide d’un graphique que vous commenterez. Vous ferez de même avec les hôpitaux du fichier hospital-data.csv qui ne sont pas référencés dans le fichier outcome-of-care-measures.csv. Enfin, vous ajouterez une variable Type aux data.frame importé du fichier outcome-of-care-measures.csv selon la valeur trouvée dans le fichier hospital-data.csv (variable Hospital.Type dans ce fichier) puis vous étudierez, à l’aide d’un graphique, la répartition des types des hôpitaux pour les hôpitaux du fichier outcome-of-care-measures.csv. Indication : pour faire la correspondance entre les deux fichiers de données, vous pourrez utiliser la fonction match sur les variables Provider.Number ou bien la fonction merge. Un exemple simple d’utilisation des deux fonctions est données ci-dessous : df1 <- data . frame ( name = c ( " H2 " ," H7 " )) df2 <- data . frame ( name = paste0 ( " H " ,1:10) , data = runif (10)) match ( df1 $ name , df2 $ name ) # [1] 2 7 merge ( df1 , df2 , by = " name " ) # name data # 1 H2 0 . 0 2 6 1 2 4 1 8 # 2 H7 0 . 5 0 2 3 1 8 0 5 Dans la suite du projet, vous étudierez une des variables parmi – le taux de mortalité à l’issu d’une admission pour attaque cardiaque Hospital.30.Day.Death..Mortality..Rates.from.Heart.Attack dans le fichier de données) ; – le taux de mortalité à l’issu d’une admission pour défaillance cardiaque Hospital.30.Day.Death..Mortality..Rates.from.Heart.Failure dans le fichier de données) ; – le taux de mortalité à l’issu d’une admission pour pneumonie Hospital.30.Day.Death..Mortality..Rates.from.Pneumonia dans le fichier de données). Précisez laquelle de ces variables vous avez choisi d’analyser à la fin de l’introduction. (noté (noté (noté 3 Analyse univariée de la variable d’intérêt Pour la variable d’intérêt que vous aurez choisie, faites une analyse univariée de la variable en donnant le nombre de valeurs manquantes, en décrivant ses caractéristiques numériques principales et en proposant un graphique approprié pour représenter sa distribution. Indication : Il faudra auparavant, si le fichier n’a pas été importé en tenant compte de ce point, recoder la valeur Not Available en NA et transformer la variable en variable numérique. 4 Analyse bivariée en fonction du type d’hôpital Déterminezla moyenne et l’écart type de la variable d’intérêt selon le type d’hôpital et commentez les résultats. Si pour un certain type d’hôpital aucune donnée n’est fournie pour la variable d’intérêt, construisez un second data.frame contenant uniquement les données des types d’hôpitaux autre que celui-ci. À partir de ce nouveau tableau de données, faites un graphique illustrant la distribution conditionnelle de la variable d’intérêt selon le type d’hôpital et commentez. 5 Analyse bivariée en fonction du nombre de ré-admissions Pour la variable d’intérêt que vous avez choisie, calculez le coefficient de corrélation linéaire avec la variable qui indique le taux de ré-admissions à 30 jours pour la pathologie que vous étudiez (cette variable est, par exemple, Number.of.Patients...Hospital.30.Day.Readmission.Rates.from.Pneumonia si la variable d’intérêt est la troisième de la liste). Effectuez le nuage de points du taux de ré-admission en fonction du taux de mortalité en choisissant comme couleur alpha("black", 0.2) (il faut pour cela, utiliser le package scales) : l’utilisation de la fonction alpha permet d’introduire de la transparence dans les couleurs et de repérer les zones de plus fortes densités lorsque beaucoup de points se superposent. Commentez le résultat.