1 Introduction 2 Ouvrir le jeu de données 3 Organiser les données 4
Transcription
1 Introduction 2 Ouvrir le jeu de données 3 Organiser les données 4
Université Joseph Fourier UFR IM2 AG LP BIO TP2 : Statistiques descritives 1 Introduction L’objectif de ce TP est de vous apprendre à organiser, visualiser, résumer des données sous R. Nous utiliserons essentièlement des fonctions des librairies base, graphics, stats. Les fonctions que nous vous suggérons d’utiliser sont hist(), barplot(), plot(), mean(),median(), stdev()....Ayez le reflexe de consulter l’aide pour chacune de ces fonctions et changez les paramètres initialisé par défaut ; En particulier il est intéressant de savoir changer les paramètres graphiques afin de mettre plusieurs figures sur une même page ou bien de superposer des graphes.... 2 Ouvrir le jeu de données Nous travaillons avec le jeu birthwt de la librairie MASS. Créez 2 dataframes, dans lesquelles chaque bébé est decrit par son poids de naissance et l’âge de sa mère, une pour les bébés de mère non fumeuse, une pour les bébés de mère fumeuse. De plus nous nous restreignons aux bébés dont la mère a strictement plus de 20 et moins de 36 ans. 3 Organiser les données Construisez le tableau de distribution de l’âge des mères pour l’un des 2 jeux de données. (table(), hist(..,plot=FALSE,...)). Regardez l’objet créé par hist(). (hist()->h1, names(h1)). Construisez le tableau de distribution des poids des bébés de l’un des 2 jeux de donnés, tout d’abord en utilisant des intervalles d’amplitude 300g, puis en utilisant des intervalles de largeur irrégulière et enfin en utilisant les les quantiles de la distribution (hist(..,plot=FALSE,...), quantile().) 4 Visualiser les données Représentez le diagramme en bâtons de la variable ”âge” (barplot(), plot(,”h”,)) . Représentez le fonction de répartition associée. (plot.ecdf()). Représentez l’histogramme de la variable ”poids”. (hist()). Représentez le fonction de répartition associée. (plot(), cumsum(). Représentez ces 4 figures sur une même page (par(mfrow=c(2,2)). Superposez les diagrammes en bâtons des 2 jeux de données. ( barplot(..,add=TRUE, col=rgb(),names.arge=FALSE)). Superposez les histogrammes des 2 jeux de données. Attention à définir les mêmes intervalles pour les 2 histogrammes. (hist(..,add=TRUE, col=rgb(),names.arge=FALSE)). Enregistrez une des figures au format pdf. (pdf(), dev.off().) 1 5 Résumer les données Résumez les données. (mean, median, var, sd, summary) 2