Etude descriptive d`un jeu de données 1 Importation du jeu
Transcription
Etude descriptive d`un jeu de données 1 Importation du jeu
Master Mathématiques et Applications Spécialité Statistique Septembre 2015 Fiche 2 Etude descriptive d’un jeu de données Dans le cadre d’une étude de la population, un hôpital s’est intéressé à la propension à ronfler d’hommes et de femmes. Le fichier ronfle.txt contient un échantillon de 100 patients, les variables considérées sont : – age : en années ; – poids : en kg ; – taille : en cm ; – alcool : nombre de verres bus par jour (en équivalent verre de vin rouge) ; – sexe : sexe de la personne (F=femme, H=homme) ; – ronfle : diagnostic de ronflement (O=ronfle, N=ne ronfle pas) ; – taba : comportement au niveau du tabac (O=fumeur, N=non fumeur). Le but de cette étude est d’essayer d’expliquer le ronflement (variable ronfle) par les six autres variables présentées ci-dessus. On dispose de 100 individus pour faire l’analyse. Le tableau suivant présente un extrait du jeu de données : 1 2 . . . 99 100 1 age poids taille alcool sexe ronfle taba 47 71 158 0 H N O 56 58 164 7 H O N . . . . . . . . . . . . . . . . . . . . . 68 108 194 0 F O N 50 109 195 8 H O O Importation du jeu de données Le jeu de données est disponible dans le fichier ronfle.txt à l’adresse suivante : http://www.lsta.lab.upmc.fr/fr/pages/guyader.html La première étape consiste à l’importer sous R. Pour ce faire, il faut au préalable vérifier que le fichier est enregistré dans le répertoire où R travaille. L’importation s’effectue alors à partir de la fonction read.table : > donnees <- read.table("ronfle.txt") 1. Extraire le premier individu du fichier de données. Que remarquez-vous ? 2. A partir de l’aide de la fonction read.table, résoudre ce problème. 3. Analyser les sorties de la commande : > summary(donnees) 1 2 Indicateurs numériques Nous présentons dans cette partie les commandes permettant d’obtenir des indicateurs statistiques tels que la moyenne, la variance, les quantiles, etc. 2.1 Calcul d’indicateurs pour une variable Nous étudions ici la variable age du jeu de données. > age <- donnees$AGE 1. Calculer la moyenne et l’écart-type de la variable age (on pourra utiliser la fonction sum). 2. Déterminer une médiane de la variable age (on pourra utiliser la fonction sort). Calculer le premier décile. 3. Retrouver les indicateurs des questions précédentes à l’aide des fonctions mean, var, median et quantile. 4. Déterminer les quartiles. 2.2 Calcul d’indicateurs pour un ensemble de variables Nous reprenons les indicateurs de la question précédente dans le cas d’un tableau de données constitué uniquement de variables quantitatives. Par exemple, > donnees1 <- donnees[,c(1,2,3)] 1. Calculer la moyenne de chacune des trois variables. 2. Retrouver le résultat précédent à l’aide de la fonction apply. 3. Calculer l’écart-type de chacune des trois variables. 4. Calculer le premier décile de chacune des trois variables. 2.3 Exercice On cherche à comparer les indicateurs numériques suivant les modalités de la variable à expliquer, à savoir la variable ronfle. 1. Créer deux tableaux de données issus du tableau original : un tableau nommé ronfleur qui contient uniquement les individus qui ronflent et un autre nommé nonronfleur qui contient les individus ne ronflant pas (on pourra utiliser la fonction split). 2. Calculer les moyennes, variances et médiane de chaque variable quantitative dans les deux tableaux. Comparer ces indicateurs, interpréter. 3. Quelles sont les proportions d’hommes ronfleurs et non ronfleurs ? 2