1 Introduction 2 Ouvrir le jeu de données 3 Organiser les données 4

Transcription

1 Introduction 2 Ouvrir le jeu de données 3 Organiser les données 4
Université Joseph Fourier
UFR IM2 AG
LP BIO
TP2 : Statistiques descritives
1
Introduction
L’objectif de ce TP est de vous apprendre à organiser, visualiser, résumer des données
sous R. Nous utiliserons essentièlement des fonctions des librairies base, graphics, stats. Les
fonctions que nous vous suggérons d’utiliser sont hist(), barplot(), plot(), mean(),median(),
stdev()....Ayez le reflexe de consulter l’aide pour chacune de ces fonctions et changez les
paramètres initialisé par défaut ; En particulier il est intéressant de savoir changer les
paramètres graphiques afin de mettre plusieurs figures sur une même page ou bien de
superposer des graphes....
2
Ouvrir le jeu de données
Nous travaillons avec le jeu birthwt de la librairie MASS. Créez 2 dataframes, dans lesquelles chaque bébé est decrit par son poids de naissance et l’âge de sa mère, une pour
les bébés de mère non fumeuse, une pour les bébés de mère fumeuse. De plus nous nous
restreignons aux bébés dont la mère a strictement plus de 20 et moins de 36 ans.
3
Organiser les données
Construisez le tableau de distribution de l’âge des mères pour l’un des 2 jeux de données.
(table(), hist(..,plot=FALSE,...)). Regardez l’objet créé par hist(). (hist()->h1, names(h1)).
Construisez le tableau de distribution des poids des bébés de l’un des 2 jeux de donnés, tout
d’abord en utilisant des intervalles d’amplitude 300g, puis en utilisant des intervalles de largeur irrégulière et enfin en utilisant les les quantiles de la distribution (hist(..,plot=FALSE,...),
quantile().)
4
Visualiser les données
Représentez le diagramme en bâtons de la variable ”âge” (barplot(), plot(,”h”,)) .
Représentez le fonction de répartition associée. (plot.ecdf()).
Représentez l’histogramme de la variable ”poids”. (hist()).
Représentez le fonction de répartition associée. (plot(), cumsum().
Représentez ces 4 figures sur une même page (par(mfrow=c(2,2)).
Superposez les diagrammes en bâtons des 2 jeux de données. ( barplot(..,add=TRUE,
col=rgb(),names.arge=FALSE)).
Superposez les histogrammes des 2 jeux de données. Attention à définir les mêmes intervalles pour les 2 histogrammes. (hist(..,add=TRUE, col=rgb(),names.arge=FALSE)).
Enregistrez une des figures au format pdf. (pdf(), dev.off().)
1
5
Résumer les données
Résumez les données. (mean, median, var, sd, summary)
2