Télécharger - Cours en Ligne
Transcription
Télécharger - Cours en Ligne
M1 STVE/2014-2015 TP Module Statistique 1 Statistiques descriptives avec le logiciel R Ce que vous devez savoir faire à la fin de la séance À l’issue de ce TP, vous devrez être capable de : • importer des données sous R • utiliser R pour calculer des statistiques descriptives et faire des représentations graphiques uni- et bi-variées pour des variables quantitatives et qualitatives • interpréter les résultats d’une étude descriptive 1 Données et objectifs statistiques Dans ce TP, nous travaillerons sur les données issues d’une étude sur la taille des cerveaux de chauve-souris, présentée dans [Hutcheon et al., 2002]. Dans cette étude, les variables descriptives des chauve-souris sont : • Species : l’espèce, • Diet : le régime alimentaire (1 : phytophage, 2 : glaneur, 3 : insectivore, 4 : vampire), • BOW : la masse corporelle (g), • BRW : la masse du cerveau (mg), • AUD, MOB, HIP : les volumes de différentes régions du cerveau (mm3 ). L’objectif de ce TP est de faire une étude descriptive détaillée de cet échantillon. Nous nous concentrerons plus particulièrement sur les variables Diet, BOW, BRW, dans l’idée de décrire les liaisons entre régime alimentaire, masse corporelle et masse du cerveau. 2 Présentation du logiciel R 2.1 Généralités R est un logiciel de calcul statistique qui peut être téléchargé gratuitement à l’adresse suivante http://www.r-project.org/ et installé sous windows, unix ou MacOS. Il est constitué d’un noyau de base et de multiples packages développés et mis à disposition de tous par des utilisateurs. Le logiciel RStudio, qui peut lui aussi être téléchargé gratuitement à l’adresse suivante http: //rstudio.org/, fournit une interface graphique très conviviale. En TP, nous travaillerons exclusivement sous RStudio. L’interface de RStudio est divisée en plusieurs fenêtres : 1. l’éditeur, en haut à gauche, qui permet d’écrire du code et de le sauvegarder, 2. la console, en bas à gauche, qui sert à exécuter le code. C’est aussi dans cette fenêtre qu’apparaîtront les résultats des analyses statistiques exécutées, —1— M1 STVE/2014-2015 TP Module Statistique 1 3. une fenêtre en haut à droite qui contient l’espace de travail et l’historique des commandes, 4. une fenêtre en bas à droite qui regroupe les onglets Files-Plots-Packages-View. 2.2 L’éditeur L’éditeur disponible dans RStudio permet d’écrire le code et de le sauvegarder dans un fichier texte. Cela est particulièrement utile pour y apporter des corrections, pour conserver une trace de vos travaux et relancer des programmes en cas d’interruption de RStudio. • Si l’éditeur n’apparaît pas à l’ouverture de RStudio, on peut le créer à partir du menu File - New File - R Script. • Pour sauvegarder le contenu de l’éditeur, on suivra le chemin suivant dans le menu : File Save as. BNous vous conseillons vivement de toujours écrire vos instructions dans l’éditeur avant de les exécuter dans la console et d’enregistrer le contenu de l’éditeur régulièrement pendant le TP. 3 Travail sur les données 3.1 Importation des données 3.1.1 Données 1. Les données sont disponibles sous la forme d’un fichier texte bats.txt. Pour le récupérer, il faut se rendre sur le site Web https://tice.agroparistech.fr/coursenligne/index.php, sélectionner le cours Statistiques MSTVE puis le fichier bats.txt en cliquant sur la petite flèche verte correspondante et Enregistrer le fichier. —2— M1 STVE/2014-2015 TP Module Statistique 1 B Il est fortement déconseillé d’enregistrer le fichier après l’avoir ouvert dans le navigateur Web car cela modifie l’encodage du fichier et perturbe le bon fonctionnement de la procédure d’import des données. 2. Une fois le fichier bats.txt enregistré dans un répertoire de votre choix, ouvrez-le avec WordPad ou le Bloc-notes. Vous remarquerez que le fichier est organisé en lignes et colonnes, où chaque ligne représente un individu et chaque colonne une variable. Fermez le fichier. 3.1.2 Répertoire de travail Il est pratique de se placer dans un répertoire de travail où se trouvent les données et où seront sauvegardés les résultats et les fichiers de programme. Le choix du répertoire peut se faire à partir du menu Session - Set working directory - choose directory . 3 – Spécifiez dans R votre répertoire de travail. 3.2 Importation R ne sait pas travailler sur le fichier texte initial. Il est nécessaire d’importer les données du fichier texte dans un tableau de données au format R avant de démarrer l’analyse. 4 – Chargez les données dans la variable tab à l’aide de la commande tab <- read.table("bats.txt",header=T) Pour cela, placez vous dans l’éditeur et écrivez-y l’instruction. Pour l’exécuter, sélectionnez la commande, puis presser simultanément les touches Ctrl et Entree du clavier. BR n’est pas indifférent aux majuscules et minuscules ! 3.3 Vérification du bon déroulement de l’importation Vérifions maintenant le bon déroulement de l’importation du jeu de données. 5 – Exécutez successivement les commandes tab, head(tab) et str(tab). Qu’obtenez-vous dans chacun des trois cas ? 6 – En examinant la structure du fichier bats.txt et de l’objet tab dans R , quel est à votre avis le rôle de l’option header=T dans l’instruction d’import des données read.table ? Vous pourrez également trouver cette information dans l’aide de R en exécutant la commande help(read.table) —3— M1 STVE/2014-2015 TP Module Statistique 1 7 – Combien y a-t-il d’observations (lignes) et combien y a-t-il de variables (colonnes) dans tab ? 8 – Quels sont le nom et la nature des variables dans tab (qualitative ou quantitative) ? Dans le cas de variables qualitatives, précisez le nombre de modalités. 9 – Vous paraît-il normal que la variable Diet soit quantitative ? 10 – Exécutez la commande tab$Diet = as.factor(tab$Diet) Quelle est la différence avec les données d’origine ? Pour répondre à cette question, vous pourrez vous servir de l’instruction str(). 11 – Que se passe-t-il si vous exécutez l’instruction Diet ? l’instruction tab$Diet ? BNotez que le signe $ dans tab$Diet permet d’accéder à la variable Diet de l’objet tab. Vous procéderez de même pour travailler sur l’ensemble des autres variables de tab. 3.4 Statistique descriptive univariée 12 – Rappelez la nature de la variable BOW. À votre avis, quels outils statistiques sont pertinents pour décrire cette variable ? 13 – Pour obtenir un résumé de l’information contenue dans la variable BOW, exécutez les instructions : —4— M1 STVE/2014-2015 TP Module Statistique 1 (a) summary(tab$BOW) (b) sd(tab$BOW) (c) min(tab$BOW) (d) max(tab$BOW) (e) mean(tab$BOW) À quel type d’information ces différentes fonctions permettent-elles d’accéder ? 14 – Commentez les résultats obtenus. 15 – On donne ensuite une représentation graphique de la variable BOW à l’aide de l’instruction : boxplot(tab$BOW) (a) Quel est le nom d’un tel graphique ? (b) Que représentent les différentes composantes de ce graphique ? (c) Commentez l’allure du graphique obtenu. 16 – Une autre représentation graphique pertinente de la variable BOW est donnée par l’instruction hist(tab$BOW) (a) Quel est le nom d’un tel graphique et que représente-t-il ? —5— M1 STVE/2014-2015 TP Module Statistique 1 (b) Commentez son allure. 17 – Rappelez la nature de la variable Diet. Quel(s) outil(s) de statistique descriptive vous paraît(paraissent) adapté(s) pour décrire la variable Diet ? 18 – Exécutez l’instruction summary(tab$Diet) Quel résultat cela donne-t-il et pourquoi est-il différent du résultat obtenu avec la même fonction sur la variable BOW ? Un résultat équivalent peut être obtenu avec l’instruction table(tab$Diet) 19 – Quelques descriptions graphiques de la variable Diet peuvent être obtenues avec les instructions : (a) barplot(table(tab$Diet)) (b) pie(table(tab$Diet)) Commentez les graphiques obtenus. 3.5 Statistique descriptive bivariée 20 – On souhaite décrire la relation entre la masse corporelle et la masse du cerveau (les variables BOW et BRW). (a) Rappelez la nature de ces deux variables. —6— M1 STVE/2014-2015 TP Module Statistique 1 (b) Quel type de graphique vous paraît le plus adapté à cette étude ? (c) Exécutez l’instruction plot(tab$BOW~tab$BRW) et commentez. 21 – On cherche maintenant à étudier le lien entre la masse corporelle et l’alimentation des chauvesouris. (a) Rappelez la nature de ces deux variables. (b) Que renvoie l’instruction suivante ? by(tab$BOW,tab$Diet,mean) Complétez cette étude descriptive bivariée en utilisant d’autres caractéristiques de position et de dispersion. (c) Une représentation graphique adéquate est donnée par l’instruction : boxplot(tab$BOW~tab$Diet) Expliquez ce que représente ce graphique et commentez-le. 4 Travail personnel Faire une étude descriptive complète, uni- et bi-variée, de l’ensemble des variables du jeu de données étudié dans ce TP. —7— M1 STVE/2014-2015 TP Module Statistique 1 Références • Hutcheon, J. M., Kirsch, J. A. W., and Garland, T. (2002). A Comparative Analysis of Brain Size in Relation to Foraging Ecology and Phylogeny in the Chiroptera. Brain, Behavior and Evolution, 60(3) :165-180. —8—