TD1 : Régression linéaire - Cours en Ligne

Transcription

TD1 : Régression linéaire - Cours en Ligne
2015-2016
Master Nutrition Humaine
TD1 : Régression linéaire
R est un logiciel de calcul statistique qui peut être téléchargé gratuitement à l’adresse suivante http:
//www.r-project.org/ et installé sous windows, unix ou MacOS. Il est constitué d’un noyau de base et de
multiples packages développés et mis à disposition de tous par des utilisateurs. Dans sa version de base il est
utilisable en mode commande, certains packages fournissent une interface graphique. Le logiciel RStudio, qui
peut lui aussi être téléchargé gratuitement à l’adresse suivante http://rstudio.org/, fournit également une
interface graphique très conviviale.
De nombreuses introductions, documentations et tutoriaux sont disponibles en français et en anglais sur
internet. On pourra citer par exemple celui d’Emmanuel Paradis qui peut être librement téléchargé à l’adresse
suivante : http://cran.r-project.org/doc/contrib/Paradis-rdebuts_fr.pdf.
1
Importation des données
Quelques rappels pour commencer :
ˆ Il est très fortement recommandé de taper toutes les commandes dans un script (File->New File>Rscript) qui sera sauvegardé régulièrement.
ˆ Les commentaires s’insérent en ajoutant un # en début de ligne.
Avant d’importer des données, on indique à R le répertoire de travail courant c’est-à-dire là il y ira chercher
par défaut les données. On peut le sélectionner en choisissant Session->Set Working Directory->Choose
directory ou en tapant
> setwd("Chemin d'accès au répertoire")
Ensuite, on charge les données
> donnees=read.table("regimerat.csv",sep=";",na.strings = '.',header = TRUE)
Plusieurs options permettent de paramétrer précisément l’importation de données (si une option n’est pas
renseignée, la fonction read.table a une option par défaut, voir l’aide...) :
ˆ L’option header =TRUE précise que dans le fichier le nom des variables est indiqué sur la première ligne.
Ces noms sont alors utilisés pour nommer les variables du tableau. Par défaut la fonction read.table
suppose que ces noms ne sont pas précisés.
ˆ Dans le fichier, les données sont séparées par un caractère spécial, ceci afin de pouvoir distinguer les
variables entre elles. Ce caractère est appelé séparateur et on l’indique au logiciel avec l’option sep =";"
si le séparateur est un point-virgule. Le séparateur tabulation se définit ainsi : sep ="\t".
ˆ L’option dec ="," ou dec ="." précise le séparateur décimal : virgule ou point.
ˆ L’option row.names = permet de renseigner le nom des lignes à l’aide d’un vecteur de chaı̂nes de caractères.
Il est aussi possible d’indiquer un numéro de colonne si ces noms sont présents dans le fichier.
1
ˆ L’option na.strings=c(’.’,’9999’) permet de déclarer au logiciel que les codes . et 9999 correspondent
à des valeurs manquantes. Elles seront remplacées par le code NA.
Pour afficher les données chargées, il suffit de taper le nom de la table :
> donnees
D’autres commandes permettent d’avoir des renseignements sur la table,
> head(donnees)
> names(donnees)
> dim(donnees)
Afin de manipuler les données chargées, on utilise fréquemment ces opérations :
ˆ Extraction vec[i], mat[i,j], mat[,j] où (i: ligne, j: colonne)
>
>
>
>
>
>
donnees$LOX[9]
donnees$LOX[donneesTime=='fed']
donnees[5,2]
donnees[,5]
donnees[Time=="fed",5]
which(donnees$Time=="fed")
ˆ Suppression d’individu ou de variable
> donnees[-1,]
> donnees[,-c(17,20)]
2
Description des données
ˆ Créer une nouvelle table ne contenant que les variables pour lesquelles nous avons suffisamment de données.
ˆ Proposer à l’aide des commandes summary, plot, boxplot, hist des descriptions simples de ces données.
ˆ La commande by permet d’appliquer des fonctions sur des sous-groupes d’individus (voir son utilisation
grâce à l’aide). Comparer les moyennes et écarts-types par groupe (NP ou HP) et par condition (fed ou
fasting) des variables MT, MF, TEF, Gox, Lox, Pox.
ˆ Extraire les rats dans la conditions fed et tester l’égalité des variances (var.test) et des moyennes (t.test)
pour les variables MT, MF, TEF, Gox, Lox, Pox en fonction du groupe.
3
Corrélation et Régression linéaire
ˆ Sur les premières données chargées, calculer les corrélations entre les variables quantitatives (fonction cor
avec l’option use="pairwise.complete"). On pourra tester l’effet significatif avec la fonction cor.test.
ˆ Charger le package ppcor, pour utiliser la fonction pcor.test qui permet de calculer les corrélations
partielles.
ˆ Charger les données metabolismerat.csv, et proposer des modèles de régression linéaire pour analyser
le métabolisme basal en fonction d’autres variables.
2