Télécharger - Cours en Ligne

Transcription

Télécharger - Cours en Ligne
M1 STVE/2014-2015
TP
Module Statistique 1
Statistiques descriptives avec le logiciel R
Ce que vous devez savoir faire à la fin de la séance
À l’issue de ce TP, vous devrez être capable de :
• importer des données sous R
• utiliser R pour calculer des statistiques descriptives et faire des représentations
graphiques uni- et bi-variées pour des variables quantitatives et qualitatives
• interpréter les résultats d’une étude descriptive
1 Données et objectifs statistiques
Dans ce TP, nous travaillerons sur les données issues d’une étude sur la taille des cerveaux de
chauve-souris, présentée dans [Hutcheon et al., 2002]. Dans cette étude, les variables descriptives
des chauve-souris sont :
• Species : l’espèce,
• Diet : le régime alimentaire (1 : phytophage, 2 : glaneur, 3 : insectivore, 4 : vampire),
• BOW : la masse corporelle (g),
• BRW : la masse du cerveau (mg),
• AUD, MOB, HIP : les volumes de différentes régions du cerveau (mm3 ).
L’objectif de ce TP est de faire une étude descriptive détaillée de cet échantillon. Nous nous concentrerons plus particulièrement sur les variables Diet, BOW, BRW, dans l’idée de décrire les liaisons
entre régime alimentaire, masse corporelle et masse du cerveau.
2 Présentation du logiciel R
2.1 Généralités
R est un logiciel de calcul statistique qui peut être téléchargé gratuitement à l’adresse suivante
http://www.r-project.org/ et installé sous windows, unix ou MacOS. Il est constitué d’un noyau
de base et de multiples packages développés et mis à disposition de tous par des utilisateurs.
Le logiciel RStudio, qui peut lui aussi être téléchargé gratuitement à l’adresse suivante http:
//rstudio.org/, fournit une interface graphique très conviviale.
En TP, nous travaillerons exclusivement sous RStudio.
L’interface de RStudio est divisée en plusieurs fenêtres :
1. l’éditeur, en haut à gauche, qui permet d’écrire du code et de le sauvegarder,
2. la console, en bas à gauche, qui sert à exécuter le code. C’est aussi dans cette fenêtre qu’apparaîtront les résultats des analyses statistiques exécutées,
—1—
M1 STVE/2014-2015
TP
Module Statistique 1
3. une fenêtre en haut à droite qui contient l’espace de travail et l’historique des commandes,
4. une fenêtre en bas à droite qui regroupe les onglets Files-Plots-Packages-View.
2.2 L’éditeur
L’éditeur disponible dans RStudio permet d’écrire le code et de le sauvegarder dans un fichier
texte. Cela est particulièrement utile pour y apporter des corrections, pour conserver une trace de
vos travaux et relancer des programmes en cas d’interruption de RStudio.
• Si l’éditeur n’apparaît pas à l’ouverture de RStudio, on peut le créer à partir du menu File
- New File - R Script.
• Pour sauvegarder le contenu de l’éditeur, on suivra le chemin suivant dans le menu : File Save as.
BNous vous conseillons vivement de toujours écrire vos instructions dans l’éditeur avant de les
exécuter dans la console et d’enregistrer le contenu de l’éditeur régulièrement pendant le TP.
3 Travail sur les données
3.1 Importation des données
3.1.1 Données
1. Les données sont disponibles sous la forme d’un fichier texte bats.txt. Pour le récupérer, il
faut se rendre sur le site Web https://tice.agroparistech.fr/coursenligne/index.php,
sélectionner le cours Statistiques MSTVE puis le fichier bats.txt en cliquant sur la petite
flèche verte correspondante et Enregistrer le fichier.
—2—
M1 STVE/2014-2015
TP
Module Statistique 1
B Il est fortement déconseillé d’enregistrer le fichier après l’avoir ouvert dans le navigateur Web car cela modifie l’encodage du fichier et perturbe le bon fonctionnement de la
procédure d’import des données.
2. Une fois le fichier bats.txt enregistré dans un répertoire de votre choix, ouvrez-le avec
WordPad ou le Bloc-notes. Vous remarquerez que le fichier est organisé en lignes et colonnes, où chaque ligne représente un individu et chaque colonne une variable. Fermez le
fichier.
3.1.2 Répertoire de travail
Il est pratique de se placer dans un répertoire de travail où se trouvent les données et où seront
sauvegardés les résultats et les fichiers de programme. Le choix du répertoire peut se faire à partir
du menu Session - Set working directory - choose directory .
3 – Spécifiez dans R votre répertoire de travail.
3.2 Importation
R ne sait pas travailler sur le fichier texte initial. Il est nécessaire d’importer les données du fichier
texte dans un tableau de données au format R avant de démarrer l’analyse.
4 – Chargez les données dans la variable tab à l’aide de la commande
tab <- read.table("bats.txt",header=T)
Pour cela, placez vous dans l’éditeur et écrivez-y l’instruction. Pour l’exécuter, sélectionnez
la commande, puis presser simultanément les touches Ctrl et Entree du clavier.
BR n’est pas indifférent aux majuscules et minuscules !
3.3 Vérification du bon déroulement de l’importation
Vérifions maintenant le bon déroulement de l’importation du jeu de données.
5 – Exécutez successivement les commandes tab, head(tab) et str(tab). Qu’obtenez-vous
dans chacun des trois cas ?
6 – En examinant la structure du fichier bats.txt et de l’objet tab dans R , quel est à votre avis
le rôle de l’option header=T dans l’instruction d’import des données read.table ?
Vous pourrez également trouver cette information dans l’aide de R en exécutant la commande
help(read.table)
—3—
M1 STVE/2014-2015
TP
Module Statistique 1
7 – Combien y a-t-il d’observations (lignes) et combien y a-t-il de variables (colonnes) dans
tab ?
8 – Quels sont le nom et la nature des variables dans tab (qualitative ou quantitative) ? Dans le
cas de variables qualitatives, précisez le nombre de modalités.
9 – Vous paraît-il normal que la variable Diet soit quantitative ?
10 – Exécutez la commande
tab$Diet = as.factor(tab$Diet)
Quelle est la différence avec les données d’origine ? Pour répondre à cette question, vous
pourrez vous servir de l’instruction str().
11 – Que se passe-t-il si vous exécutez l’instruction Diet ? l’instruction tab$Diet ?
BNotez que le signe $ dans tab$Diet permet d’accéder à la variable Diet de l’objet tab.
Vous procéderez de même pour travailler sur l’ensemble des autres variables de tab.
3.4 Statistique descriptive univariée
12 – Rappelez la nature de la variable BOW. À votre avis, quels outils statistiques sont pertinents
pour décrire cette variable ?
13 – Pour obtenir un résumé de l’information contenue dans la variable BOW, exécutez les instructions :
—4—
M1 STVE/2014-2015
TP
Module Statistique 1
(a) summary(tab$BOW)
(b) sd(tab$BOW)
(c) min(tab$BOW)
(d) max(tab$BOW)
(e) mean(tab$BOW)
À quel type d’information ces différentes fonctions permettent-elles d’accéder ?
14 – Commentez les résultats obtenus.
15 – On donne ensuite une représentation graphique de la variable BOW à l’aide de l’instruction :
boxplot(tab$BOW)
(a) Quel est le nom d’un tel graphique ?
(b) Que représentent les différentes composantes de ce graphique ?
(c) Commentez l’allure du graphique obtenu.
16 – Une autre représentation graphique pertinente de la variable BOW est donnée par l’instruction
hist(tab$BOW)
(a) Quel est le nom d’un tel graphique et que représente-t-il ?
—5—
M1 STVE/2014-2015
TP
Module Statistique 1
(b) Commentez son allure.
17 – Rappelez la nature de la variable Diet. Quel(s) outil(s) de statistique descriptive vous paraît(paraissent) adapté(s) pour décrire la variable Diet ?
18 – Exécutez l’instruction
summary(tab$Diet)
Quel résultat cela donne-t-il et pourquoi est-il différent du résultat obtenu avec la même
fonction sur la variable BOW ?
Un résultat équivalent peut être obtenu avec l’instruction
table(tab$Diet)
19 – Quelques descriptions graphiques de la variable Diet peuvent être obtenues avec les instructions :
(a) barplot(table(tab$Diet))
(b) pie(table(tab$Diet))
Commentez les graphiques obtenus.
3.5 Statistique descriptive bivariée
20 – On souhaite décrire la relation entre la masse corporelle et la masse du cerveau (les variables
BOW et BRW).
(a) Rappelez la nature de ces deux variables.
—6—
M1 STVE/2014-2015
TP
Module Statistique 1
(b) Quel type de graphique vous paraît le plus adapté à cette étude ?
(c) Exécutez l’instruction
plot(tab$BOW~tab$BRW)
et commentez.
21 – On cherche maintenant à étudier le lien entre la masse corporelle et l’alimentation des chauvesouris.
(a) Rappelez la nature de ces deux variables.
(b) Que renvoie l’instruction suivante ?
by(tab$BOW,tab$Diet,mean)
Complétez cette étude descriptive bivariée en utilisant d’autres caractéristiques de position et de dispersion.
(c) Une représentation graphique adéquate est donnée par l’instruction :
boxplot(tab$BOW~tab$Diet)
Expliquez ce que représente ce graphique et commentez-le.
4 Travail personnel
Faire une étude descriptive complète, uni- et bi-variée, de l’ensemble des variables du jeu de données étudié dans ce TP.
—7—
M1 STVE/2014-2015
TP
Module Statistique 1
Références
• Hutcheon, J. M., Kirsch, J. A. W., and Garland, T. (2002). A Comparative Analysis of Brain
Size in Relation to Foraging Ecology and Phylogeny in the Chiroptera. Brain, Behavior and
Evolution, 60(3) :165-180.
—8—

Documents pareils