TD1 : Régression linéaire - Cours en Ligne

Transcription

2015-2016
Master Nutrition Humaine
TD1 : Régression linéaire
R est un logiciel de calcul statistique qui peut être téléchargé gratuitement à l’adresse suivante http:
//www.r-project.org/ et installé sous windows, unix ou MacOS. Il est constitué d’un noyau de base et de
multiples packages développés et mis à disposition de tous par des utilisateurs. Dans sa version de base il est
utilisable en mode commande, certains packages fournissent une interface graphique. Le logiciel RStudio, qui
peut lui aussi être téléchargé gratuitement à l’adresse suivante http://rstudio.org/, fournit également une
interface graphique très conviviale.
De nombreuses introductions, documentations et tutoriaux sont disponibles en français et en anglais sur
internet. On pourra citer par exemple celui d’Emmanuel Paradis qui peut être librement téléchargé à l’adresse
suivante : http://cran.r-project.org/doc/contrib/Paradis-rdebuts_fr.pdf.
1
Importation des données
Quelques rappels pour commencer :
Il est très fortement recommandé de taper toutes les commandes dans un script (File->New File>Rscript) qui sera sauvegardé régulièrement.
Les commentaires s’insérent en ajoutant un # en début de ligne.
Avant d’importer des données, on indique à R le répertoire de travail courant c’est-à-dire là il y ira chercher
par défaut les données. On peut le sélectionner en choisissant Session->Set Working Directory->Choose
directory ou en tapant
> setwd("Chemin d'accès au répertoire")
Ensuite, on charge les données
> donnees=read.table("regimerat.csv",sep=";",na.strings = '.',header = TRUE)
Plusieurs options permettent de paramétrer précisément l’importation de données (si une option n’est pas
renseignée, la fonction read.table a une option par défaut, voir l’aide...) :
L’option header =TRUE précise que dans le fichier le nom des variables est indiqué sur la première ligne.
Ces noms sont alors utilisés pour nommer les variables du tableau. Par défaut la fonction read.table
suppose que ces noms ne sont pas précisés.
Dans le fichier, les données sont séparées par un caractère spécial, ceci afin de pouvoir distinguer les
variables entre elles. Ce caractère est appelé séparateur et on l’indique au logiciel avec l’option sep =";"
si le séparateur est un point-virgule. Le séparateur tabulation se définit ainsi : sep ="\t".
L’option dec ="," ou dec ="." précise le séparateur décimal : virgule ou point.
L’option row.names = permet de renseigner le nom des lignes à l’aide d’un vecteur de chaı̂nes de caractères.
Il est aussi possible d’indiquer un numéro de colonne si ces noms sont présents dans le fichier.
1
L’option na.strings=c(’.’,’9999’) permet de déclarer au logiciel que les codes . et 9999 correspondent
à des valeurs manquantes. Elles seront remplacées par le code NA.
Pour afficher les données chargées, il suffit de taper le nom de la table :
> donnees
D’autres commandes permettent d’avoir des renseignements sur la table,
> head(donnees)
> names(donnees)
> dim(donnees)
Afin de manipuler les données chargées, on utilise fréquemment ces opérations :
Extraction vec[i], mat[i,j], mat[,j] où (i: ligne, j: colonne)
>
>
>
>
>
>
donnees$LOX[9]
donnees$LOX[donneesTime=='fed']
donnees[5,2]
donnees[,5]
donnees[Time=="fed",5]
which(donnees$Time=="fed")
Suppression d’individu ou de variable
> donnees[-1,]
> donnees[,-c(17,20)]
2
Description des données
Créer une nouvelle table ne contenant que les variables pour lesquelles nous avons suffisamment de données.
Proposer à l’aide des commandes summary, plot, boxplot, hist des descriptions simples de ces données.
La commande by permet d’appliquer des fonctions sur des sous-groupes d’individus (voir son utilisation
grâce à l’aide). Comparer les moyennes et écarts-types par groupe (NP ou HP) et par condition (fed ou
fasting) des variables MT, MF, TEF, Gox, Lox, Pox.
Extraire les rats dans la conditions fed et tester l’égalité des variances (var.test) et des moyennes (t.test)
pour les variables MT, MF, TEF, Gox, Lox, Pox en fonction du groupe.
3
Corrélation et Régression linéaire
Sur les premières données chargées, calculer les corrélations entre les variables quantitatives (fonction cor
avec l’option use="pairwise.complete"). On pourra tester l’effet significatif avec la fonction cor.test.
Charger le package ppcor, pour utiliser la fonction pcor.test qui permet de calculer les corrélations
partielles.
Charger les données metabolismerat.csv, et proposer des modèles de régression linéaire pour analyser
le métabolisme basal en fonction d’autres variables.
2

TD1 : Régression linéaire - Cours en Ligne

Transcription

Documents pareils

Introduction to Internet Tools L1S2

business objects desktop intelligence xi utilisation

business objects desktop intelligence xi utilisateur avance

Seminario Clima, paisagem e malaia - sitio sentinela

FICHE ETUDE POUTRES LAMELLE COLLE

Le systeme de traitement automatique des livres anciens 89

t·...~..` Sunrise

Offre d`emploi : Attaché(e) de recherche clinique Date de l`offre

LYCEE GENERAL ET TECHNOLOGIQUE DU REMPART 1, RUE

Limite de la garantie HP

1. INSCRITPION POUR : 2. DONNEES PERSONNELLES 3

Scanned Document

Cartographie / Javascript et SVG