Devoir Master TIDE : Introduction `a R

Transcription

Devoir Master TIDE : Introduction à R
Nathalie Villa-Vialaneix
à rendre pour le vendredi 24 octobre, 14h dernier délai
1 Introduction
Les documents associés à ce projet peuvent être téléchargés sur mon site web http://www.nathalievilla.org. En
particulier, vous trouverez à cette adresse :
– le présent énoncé, project.pdf, au format PDF à http://www.nathalievilla.org/tide/project/project.
pdf ;
– un fichier zip data.zip contenant lui-même trois fichiers : deux fichiers sont au format CSV et contiennent
des données, un fichier est au format PDF et contient la description des données. Il est téléchargeable à http:
//www.nathalievilla.org/tide/project/data.zip.
Les données pour ce projet proviennent d’un site web américain de comparaison d’hôpitaux Hospital Compare
web site , http://hospitalcompare.hhs.gov, du ministère américain de la santé. En particulier,
– le fichier outcome-of-care-measures.csv contient des informations sur la mortalité à 30 jours et les taux de
ré-admission après une attaque cardique, une défaillance cardiaque ou une pneumonie pour plus de 4 000 hôpitaux ;
– le fichier hospital-data.csv contient des informations sur chaque hôpital ;
– le fichier Hospital_Revised_Flatfiles.pdf contient la description des variables de chacun des deux fichiers
précédents (en anglais).
Le travail peut être réalisé en groupe de une à trois personnes mais tout travail manifestement dupliqué entre groupes
sera sévèrement sanctionné dans la notation. Le travail est à rendre sous la forme de :
– un fichier R contenant le script vous ayant permis de répondre aux questions et que je dois pouvoir exécuter
directement en le mettant dans un répertoire contenant les données ;
– un fichier PDF de 5 pages maximum contenant un court compte-rendu sur les résultats trouvés. Ce fichier doit
être structuré avec un titre, une introduction décrivant les données, une partie décrivant les résultats de chaque
analyse et une conclusion. Ce fichier ne devra pas contenir de code R, il devra être écrit en français et contenir des
résumés numériques et graphiques des résultats : le soin dans la présentation comptera pour une part importante
de la note. Vous devez rédiger ce court rapport comme si il s’agissait d’un rapport de stage (en plus court).
Le travail devra me parvenir avant le vendredi 24 octobre 14h dernier délai par e-mail à [email protected] : précisez dans votre e-mail l’ensemble des noms des personnes ayant participé au projet
(3 maximum). J’accuse réception de votre travail par e-mail : si je n’ai pas accusé réception, contactez-moi rapidement pour m’informer du problème. Je n’accorde aucun délai sous aucun prétexte. Tout travail rendu en retard sera
sanctionné de 1 point par demi-journée de retard.
2 Importation des données et première analyse
Importez les deux fichier de données dans l’espace de travail de R.
Dans une première partie (introduction), vous décrirez les données en précisant, comme dans l’énoncé, leur
provenance et en donnant le nombre d’observations et de variables de chaque fichier. Les hôpitaux sont identifiés
de manière unique dans les deux fichiers par la variables Provider.Number : combien d’hôpitaux du fichier
outcome-of-care-measures.csv ne sont pas référencés dans le fichier hospital-data.csv ? Combien d’hôpitaux du
fichier hospital-data.csv n’ont pas de données décrites dans le fichier outcome-of-care-measures.csv ?
Indication : Utiliser l’opérateur %in% (voir help("%in%")).
Toujours dans l’introduction, vous donnerez la répartition des États (variable State) hôpitaux référencés dans le
fichier outcome-of-care-measures.csv à l’aide d’un graphique que vous commenterez. Vous ferez de même avec
les hôpitaux du fichier hospital-data.csv qui ne sont pas référencés dans le fichier outcome-of-care-measures.csv.
Enfin, vous ajouterez une variable Type aux data.frame importé du fichier outcome-of-care-measures.csv
selon la valeur trouvée dans le fichier hospital-data.csv (variable Hospital.Type dans ce fichier) puis
vous étudierez, à l’aide d’un graphique, la répartition des types des hôpitaux pour les hôpitaux du fichier
outcome-of-care-measures.csv.
Indication : pour faire la correspondance entre les deux fichiers de données, vous pourrez utiliser la fonction match
sur les variables Provider.Number ou bien la fonction merge. Un exemple simple d’utilisation des deux fonctions est
données ci-dessous :
df1 <- data . frame ( name = c ( " H2 " ," H7 " ))
df2 <- data . frame ( name = paste0 ( " H " ,1:10) , data = runif (10))
match ( df1 $ name , df2 $ name )
# [1] 2 7
merge ( df1 , df2 , by = " name " )
#
name
data
# 1
H2 0 . 0 2 6 1 2 4 1 8
# 2
H7 0 . 5 0 2 3 1 8 0 5
Dans la suite du projet, vous étudierez une des variables parmi
– le
taux
de
mortalité
à
l’issu
d’une
admission
pour
attaque
cardiaque
Hospital.30.Day.Death..Mortality..Rates.from.Heart.Attack dans le fichier de données) ;
– le
taux
de
mortalité
à
l’issu
d’une
admission
pour
défaillance
cardiaque
Hospital.30.Day.Death..Mortality..Rates.from.Heart.Failure dans le fichier de données) ;
– le
taux
de
mortalité
à
l’issu
d’une
admission
pour
pneumonie
Hospital.30.Day.Death..Mortality..Rates.from.Pneumonia dans le fichier de données).
Précisez laquelle de ces variables vous avez choisi d’analyser à la fin de l’introduction.
(noté
(noté
(noté
3 Analyse univariée de la variable d’intérêt
Pour la variable d’intérêt que vous aurez choisie, faites une analyse univariée de la variable en donnant le nombre de
valeurs manquantes, en décrivant ses caractéristiques numériques principales et en proposant un graphique approprié
pour représenter sa distribution.
Indication : Il faudra auparavant, si le fichier n’a pas été importé en tenant compte de ce point, recoder la valeur
Not Available en NA et transformer la variable en variable numérique.
4 Analyse bivariée en fonction du type d’hôpital
Déterminezla moyenne et l’écart type de la variable d’intérêt selon le type d’hôpital et commentez les résultats. Si
pour un certain type d’hôpital aucune donnée n’est fournie pour la variable d’intérêt, construisez un second data.frame
contenant uniquement les données des types d’hôpitaux autre que celui-ci. À partir de ce nouveau tableau de données,
faites un graphique illustrant la distribution conditionnelle de la variable d’intérêt selon le type d’hôpital et commentez.
5 Analyse bivariée en fonction du nombre de ré-admissions
Pour la variable d’intérêt que vous avez choisie, calculez le coefficient de corrélation linéaire avec la variable
qui indique le taux de ré-admissions à 30 jours pour la pathologie que vous étudiez (cette variable est, par
exemple, Number.of.Patients...Hospital.30.Day.Readmission.Rates.from.Pneumonia si la variable d’intérêt est
la troisième de la liste). Effectuez le nuage de points du taux de ré-admission en fonction du taux de mortalité en
choisissant comme couleur alpha("black", 0.2) (il faut pour cela, utiliser le package scales) : l’utilisation de la
fonction alpha permet d’introduire de la transparence dans les couleurs et de repérer les zones de plus fortes densités
lorsque beaucoup de points se superposent. Commentez le résultat.

Devoir Master TIDE : Introduction `a R

Transcription

Documents pareils

Transformer un fichier tabulé de type csv en fichier XML avec

FORMATS ET MODES DE RECEPTION DES FICHIERS MODULYS

Récupération des mots de passe Scribe

file_uploader_pdf2tab_tooltip

Projets en Programmation Java

R~PUBLlaUE FRANÇAISE FICHE DE NAVIGABiliTÉ N° 158

TUTORIAL pour réaliser un fichier horaire *.sch pour Train Director

Procédure Importation du csv de la liste des inscrits vers