TD1 : Régression linéaire - Cours en Ligne
Transcription
TD1 : Régression linéaire - Cours en Ligne
2015-2016 Master Nutrition Humaine TD1 : Régression linéaire R est un logiciel de calcul statistique qui peut être téléchargé gratuitement à l’adresse suivante http: //www.r-project.org/ et installé sous windows, unix ou MacOS. Il est constitué d’un noyau de base et de multiples packages développés et mis à disposition de tous par des utilisateurs. Dans sa version de base il est utilisable en mode commande, certains packages fournissent une interface graphique. Le logiciel RStudio, qui peut lui aussi être téléchargé gratuitement à l’adresse suivante http://rstudio.org/, fournit également une interface graphique très conviviale. De nombreuses introductions, documentations et tutoriaux sont disponibles en français et en anglais sur internet. On pourra citer par exemple celui d’Emmanuel Paradis qui peut être librement téléchargé à l’adresse suivante : http://cran.r-project.org/doc/contrib/Paradis-rdebuts_fr.pdf. 1 Importation des données Quelques rappels pour commencer : Il est très fortement recommandé de taper toutes les commandes dans un script (File->New File>Rscript) qui sera sauvegardé régulièrement. Les commentaires s’insérent en ajoutant un # en début de ligne. Avant d’importer des données, on indique à R le répertoire de travail courant c’est-à-dire là il y ira chercher par défaut les données. On peut le sélectionner en choisissant Session->Set Working Directory->Choose directory ou en tapant > setwd("Chemin d'accès au répertoire") Ensuite, on charge les données > donnees=read.table("regimerat.csv",sep=";",na.strings = '.',header = TRUE) Plusieurs options permettent de paramétrer précisément l’importation de données (si une option n’est pas renseignée, la fonction read.table a une option par défaut, voir l’aide...) : L’option header =TRUE précise que dans le fichier le nom des variables est indiqué sur la première ligne. Ces noms sont alors utilisés pour nommer les variables du tableau. Par défaut la fonction read.table suppose que ces noms ne sont pas précisés. Dans le fichier, les données sont séparées par un caractère spécial, ceci afin de pouvoir distinguer les variables entre elles. Ce caractère est appelé séparateur et on l’indique au logiciel avec l’option sep =";" si le séparateur est un point-virgule. Le séparateur tabulation se définit ainsi : sep ="\t". L’option dec ="," ou dec ="." précise le séparateur décimal : virgule ou point. L’option row.names = permet de renseigner le nom des lignes à l’aide d’un vecteur de chaı̂nes de caractères. Il est aussi possible d’indiquer un numéro de colonne si ces noms sont présents dans le fichier. 1 L’option na.strings=c(’.’,’9999’) permet de déclarer au logiciel que les codes . et 9999 correspondent à des valeurs manquantes. Elles seront remplacées par le code NA. Pour afficher les données chargées, il suffit de taper le nom de la table : > donnees D’autres commandes permettent d’avoir des renseignements sur la table, > head(donnees) > names(donnees) > dim(donnees) Afin de manipuler les données chargées, on utilise fréquemment ces opérations : Extraction vec[i], mat[i,j], mat[,j] où (i: ligne, j: colonne) > > > > > > donnees$LOX[9] donnees$LOX[donneesTime=='fed'] donnees[5,2] donnees[,5] donnees[Time=="fed",5] which(donnees$Time=="fed") Suppression d’individu ou de variable > donnees[-1,] > donnees[,-c(17,20)] 2 Description des données Créer une nouvelle table ne contenant que les variables pour lesquelles nous avons suffisamment de données. Proposer à l’aide des commandes summary, plot, boxplot, hist des descriptions simples de ces données. La commande by permet d’appliquer des fonctions sur des sous-groupes d’individus (voir son utilisation grâce à l’aide). Comparer les moyennes et écarts-types par groupe (NP ou HP) et par condition (fed ou fasting) des variables MT, MF, TEF, Gox, Lox, Pox. Extraire les rats dans la conditions fed et tester l’égalité des variances (var.test) et des moyennes (t.test) pour les variables MT, MF, TEF, Gox, Lox, Pox en fonction du groupe. 3 Corrélation et Régression linéaire Sur les premières données chargées, calculer les corrélations entre les variables quantitatives (fonction cor avec l’option use="pairwise.complete"). On pourra tester l’effet significatif avec la fonction cor.test. Charger le package ppcor, pour utiliser la fonction pcor.test qui permet de calculer les corrélations partielles. Charger les données metabolismerat.csv, et proposer des modèles de régression linéaire pour analyser le métabolisme basal en fonction d’autres variables. 2