Devoir Master TIDE : Introduction `a R

Transcription

Devoir Master TIDE : Introduction `a R
Devoir Master TIDE : Introduction à R
Nathalie Villa-Vialaneix
à rendre pour le vendredi 24 octobre, 14h dernier délai
1 Introduction
Les documents associés à ce projet peuvent être téléchargés sur mon site web http://www.nathalievilla.org. En
particulier, vous trouverez à cette adresse :
– le présent énoncé, project.pdf, au format PDF à http://www.nathalievilla.org/tide/project/project.
pdf ;
– un fichier zip data.zip contenant lui-même trois fichiers : deux fichiers sont au format CSV et contiennent
des données, un fichier est au format PDF et contient la description des données. Il est téléchargeable à http:
//www.nathalievilla.org/tide/project/data.zip.
Les données pour ce projet proviennent d’un site web américain de comparaison d’hôpitaux Hospital Compare
web site , http://hospitalcompare.hhs.gov, du ministère américain de la santé. En particulier,
– le fichier outcome-of-care-measures.csv contient des informations sur la mortalité à 30 jours et les taux de
ré-admission après une attaque cardique, une défaillance cardiaque ou une pneumonie pour plus de 4 000 hôpitaux ;
– le fichier hospital-data.csv contient des informations sur chaque hôpital ;
– le fichier Hospital_Revised_Flatfiles.pdf contient la description des variables de chacun des deux fichiers
précédents (en anglais).
Le travail peut être réalisé en groupe de une à trois personnes mais tout travail manifestement dupliqué entre groupes
sera sévèrement sanctionné dans la notation. Le travail est à rendre sous la forme de :
– un fichier R contenant le script vous ayant permis de répondre aux questions et que je dois pouvoir exécuter
directement en le mettant dans un répertoire contenant les données ;
– un fichier PDF de 5 pages maximum contenant un court compte-rendu sur les résultats trouvés. Ce fichier doit
être structuré avec un titre, une introduction décrivant les données, une partie décrivant les résultats de chaque
analyse et une conclusion. Ce fichier ne devra pas contenir de code R, il devra être écrit en français et contenir des
résumés numériques et graphiques des résultats : le soin dans la présentation comptera pour une part importante
de la note. Vous devez rédiger ce court rapport comme si il s’agissait d’un rapport de stage (en plus court).
Le travail devra me parvenir avant le vendredi 24 octobre 14h dernier délai par e-mail à [email protected] : précisez dans votre e-mail l’ensemble des noms des personnes ayant participé au projet
(3 maximum). J’accuse réception de votre travail par e-mail : si je n’ai pas accusé réception, contactez-moi rapidement pour m’informer du problème. Je n’accorde aucun délai sous aucun prétexte. Tout travail rendu en retard sera
sanctionné de 1 point par demi-journée de retard.
2 Importation des données et première analyse
Importez les deux fichier de données dans l’espace de travail de R.
Dans une première partie (introduction), vous décrirez les données en précisant, comme dans l’énoncé, leur
provenance et en donnant le nombre d’observations et de variables de chaque fichier. Les hôpitaux sont identifiés
de manière unique dans les deux fichiers par la variables Provider.Number : combien d’hôpitaux du fichier
outcome-of-care-measures.csv ne sont pas référencés dans le fichier hospital-data.csv ? Combien d’hôpitaux du
fichier hospital-data.csv n’ont pas de données décrites dans le fichier outcome-of-care-measures.csv ?
Indication : Utiliser l’opérateur %in% (voir help("%in%")).
Toujours dans l’introduction, vous donnerez la répartition des États (variable State) hôpitaux référencés dans le
fichier outcome-of-care-measures.csv à l’aide d’un graphique que vous commenterez. Vous ferez de même avec
les hôpitaux du fichier hospital-data.csv qui ne sont pas référencés dans le fichier outcome-of-care-measures.csv.
Enfin, vous ajouterez une variable Type aux data.frame importé du fichier outcome-of-care-measures.csv
selon la valeur trouvée dans le fichier hospital-data.csv (variable Hospital.Type dans ce fichier) puis
vous étudierez, à l’aide d’un graphique, la répartition des types des hôpitaux pour les hôpitaux du fichier
outcome-of-care-measures.csv.
Indication : pour faire la correspondance entre les deux fichiers de données, vous pourrez utiliser la fonction match
sur les variables Provider.Number ou bien la fonction merge. Un exemple simple d’utilisation des deux fonctions est
données ci-dessous :
df1 <- data . frame ( name = c ( " H2 " ," H7 " ))
df2 <- data . frame ( name = paste0 ( " H " ,1:10) , data = runif (10))
match ( df1 $ name , df2 $ name )
# [1] 2 7
merge ( df1 , df2 , by = " name " )
#
name
data
# 1
H2 0 . 0 2 6 1 2 4 1 8
# 2
H7 0 . 5 0 2 3 1 8 0 5
Dans la suite du projet, vous étudierez une des variables parmi
– le
taux
de
mortalité
à
l’issu
d’une
admission
pour
attaque
cardiaque
Hospital.30.Day.Death..Mortality..Rates.from.Heart.Attack dans le fichier de données) ;
– le
taux
de
mortalité
à
l’issu
d’une
admission
pour
défaillance
cardiaque
Hospital.30.Day.Death..Mortality..Rates.from.Heart.Failure dans le fichier de données) ;
– le
taux
de
mortalité
à
l’issu
d’une
admission
pour
pneumonie
Hospital.30.Day.Death..Mortality..Rates.from.Pneumonia dans le fichier de données).
Précisez laquelle de ces variables vous avez choisi d’analyser à la fin de l’introduction.
(noté
(noté
(noté
3 Analyse univariée de la variable d’intérêt
Pour la variable d’intérêt que vous aurez choisie, faites une analyse univariée de la variable en donnant le nombre de
valeurs manquantes, en décrivant ses caractéristiques numériques principales et en proposant un graphique approprié
pour représenter sa distribution.
Indication : Il faudra auparavant, si le fichier n’a pas été importé en tenant compte de ce point, recoder la valeur
Not Available en NA et transformer la variable en variable numérique.
4 Analyse bivariée en fonction du type d’hôpital
Déterminezla moyenne et l’écart type de la variable d’intérêt selon le type d’hôpital et commentez les résultats. Si
pour un certain type d’hôpital aucune donnée n’est fournie pour la variable d’intérêt, construisez un second data.frame
contenant uniquement les données des types d’hôpitaux autre que celui-ci. À partir de ce nouveau tableau de données,
faites un graphique illustrant la distribution conditionnelle de la variable d’intérêt selon le type d’hôpital et commentez.
5 Analyse bivariée en fonction du nombre de ré-admissions
Pour la variable d’intérêt que vous avez choisie, calculez le coefficient de corrélation linéaire avec la variable
qui indique le taux de ré-admissions à 30 jours pour la pathologie que vous étudiez (cette variable est, par
exemple, Number.of.Patients...Hospital.30.Day.Readmission.Rates.from.Pneumonia si la variable d’intérêt est
la troisième de la liste). Effectuez le nuage de points du taux de ré-admission en fonction du taux de mortalité en
choisissant comme couleur alpha("black", 0.2) (il faut pour cela, utiliser le package scales) : l’utilisation de la
fonction alpha permet d’introduire de la transparence dans les couleurs et de repérer les zones de plus fortes densités
lorsque beaucoup de points se superposent. Commentez le résultat.

Documents pareils