Etude descriptive d`un jeu de données 1 Importation du jeu

Transcription

Etude descriptive d`un jeu de données 1 Importation du jeu
Master Mathématiques et Applications
Spécialité Statistique
Septembre 2015
Fiche 2
Etude descriptive d’un jeu de données
Dans le cadre d’une étude de la population, un hôpital s’est intéressé à la propension à ronfler
d’hommes et de femmes. Le fichier ronfle.txt contient un échantillon de 100 patients, les variables
considérées sont :
– age : en années ;
– poids : en kg ;
– taille : en cm ;
– alcool : nombre de verres bus par jour (en équivalent verre de vin rouge) ;
– sexe : sexe de la personne (F=femme, H=homme) ;
– ronfle : diagnostic de ronflement (O=ronfle, N=ne ronfle pas) ;
– taba : comportement au niveau du tabac (O=fumeur, N=non fumeur).
Le but de cette étude est d’essayer d’expliquer le ronflement (variable ronfle) par les six autres
variables présentées ci-dessus. On dispose de 100 individus pour faire l’analyse. Le tableau suivant
présente un extrait du jeu de données :
1
2
.
.
.
99
100
1
age poids taille alcool sexe ronfle taba
47
71
158
0
H
N
O
56
58
164
7
H
O
N
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
68
108
194
0
F
O
N
50
109
195
8
H
O
O
Importation du jeu de données
Le jeu de données est disponible dans le fichier ronfle.txt à l’adresse suivante :
http://www.lsta.lab.upmc.fr/fr/pages/guyader.html
La première étape consiste à l’importer sous R. Pour ce faire, il faut au préalable vérifier que le
fichier est enregistré dans le répertoire où R travaille. L’importation s’effectue alors à partir de la
fonction read.table :
> donnees <- read.table("ronfle.txt")
1. Extraire le premier individu du fichier de données. Que remarquez-vous ?
2. A partir de l’aide de la fonction read.table, résoudre ce problème.
3. Analyser les sorties de la commande :
> summary(donnees)
1
2
Indicateurs numériques
Nous présentons dans cette partie les commandes permettant d’obtenir des indicateurs statistiques
tels que la moyenne, la variance, les quantiles, etc.
2.1
Calcul d’indicateurs pour une variable
Nous étudions ici la variable age du jeu de données.
> age <- donnees$AGE
1. Calculer la moyenne et l’écart-type de la variable age (on pourra utiliser la fonction sum).
2. Déterminer une médiane de la variable age (on pourra utiliser la fonction sort). Calculer le
premier décile.
3. Retrouver les indicateurs des questions précédentes à l’aide des fonctions mean, var, median
et quantile.
4. Déterminer les quartiles.
2.2
Calcul d’indicateurs pour un ensemble de variables
Nous reprenons les indicateurs de la question précédente dans le cas d’un tableau de données
constitué uniquement de variables quantitatives. Par exemple,
> donnees1 <- donnees[,c(1,2,3)]
1. Calculer la moyenne de chacune des trois variables.
2. Retrouver le résultat précédent à l’aide de la fonction apply.
3. Calculer l’écart-type de chacune des trois variables.
4. Calculer le premier décile de chacune des trois variables.
2.3
Exercice
On cherche à comparer les indicateurs numériques suivant les modalités de la variable à expliquer,
à savoir la variable ronfle.
1. Créer deux tableaux de données issus du tableau original : un tableau nommé ronfleur qui
contient uniquement les individus qui ronflent et un autre nommé nonronfleur qui contient
les individus ne ronflant pas (on pourra utiliser la fonction split).
2. Calculer les moyennes, variances et médiane de chaque variable quantitative dans les deux
tableaux. Comparer ces indicateurs, interpréter.
3. Quelles sont les proportions d’hommes ronfleurs et non ronfleurs ?
2