descriptives statistics - Département de Mathématiques
Transcription
descriptives statistics - Département de Mathématiques
Université de Caen Basse-Normandie 1 2 septembre 2015 Département de Mathématiques et Mécanique Stat descriptives sur les données Iris Sommaire 1.1 1.2 1.3 1.1 Objectif . . . . . . . . . . . . Description . . . . . . . . . . Enoncé . . . . . . . . . . . . . 1.3.1 Lecture, Indicage . . . . . 1.3.2 Graphiques . . . . . . . . 1.3.3 Stat descriptives . . . . . 1.3.4 Discrimination des espèces . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . d’IRIS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1 1 2 2 3 4 5 Objectif Dans cet exercice Installation de R Le site officiel de R. Il existe d’autre environnements de programmation RStudio. Introduction à R — Pour ouvrir R en ligne de commandes, dans un terminal tappez R, puis tappez la commande help.start(). Pour avoir une interface graphique tappez library(Rcmdr). — Lecture des tables — Indicage, extraction de tables — Calcul — Graphiques Statistiques descriptives — moyennes, écarts types empiriques — histogramme, distribution empiriques, histogrammes. 1.2 Description Les données iris ont été utilisées par Sir Ronald Fisher en 1936 comme exemple pour discriminer la race de trois espèces d’iris en fonction de critères morphologiques de la plante. Ces données ont été largement utilisées en.wikipedia.org. Cette données contiennent 150 lignes concernant 150 mesures d’iris et 5 colonnes. Les quatre premières colonnes sont des mesures morphologiques de la plante, la cinquième colonne est l’espèce de la plante. Le séparateur de champs est un point-virgule. 1 2 3 4 5 6 Sepal.Length 5.10 4.90 4.70 4.60 5.00 5.40 Sepal.Width 3.50 3.00 3.20 3.10 3.60 3.90 Petal.Length 1.40 1.40 1.30 1.50 1.40 1.70 Petal.Width 0.20 0.20 0.20 0.20 0.20 0.40 Species setosa setosa setosa setosa setosa setosa Table 1 – Table de données iris Stat descriptives 1 [email protected] Université de Caen Basse-Normandie 2 septembre 2015 Département de Mathématiques et Mécanique Figure 1 – La plante nom Sepal.Length Sepal.Width Petal.Length Petal.width Species type quanti quanti quanti quanti quali commentaires longueur du sépal en cm largeur du sépal en cm longueur de pétal en cm largeur du pétal en cm espèce de l’iris Table 2 – Catalogue des variables setosa versicolor virginica Species 50 50 50 Table 3 – Tableau de contingence de l’espèce versicolor virginica On peut lire les données dans R grâce à la commande setosa X=read.table( file="http://www.math.unicaen.fr/~kauffman/data/iris.txt", sep=';', header=TRUE ) 1.3 1.3.1 Enoncé Lecture, Indicage 1. Trouvez l’aide de la fonction read.table. Construire une table nommée X à partir du fichier iris.txt 2. Lire de même le fichier binaire iris.RData à l’aide de la commande load. 3. Affichez les 20 premières lignes de la table X, puis les dernières. 4. Affichez la deuxième colonne Stat descriptives 2 [email protected] Université de Caen Basse-Normandie 2 septembre 2015 Département de Mathématiques et Mécanique 5. Affichez la colonne de nom Petal.Length de deux manières différentes 6. Affichez la sous table composée des lignes 1,3 à 7 et des colonnes Sepal.Length, Species. 7. A l’aide de la commande str afficher la structure de la table X. Quel est le type de la table typeof(X);is.data.frame(X); is.list(X). Quelle est votre conclusion ? 1.3.2 Graphiques 1. Tracez la largeur du pétale en fonction du numéro de ligne 7 2. Tracez la largeur du pétale en fonction du numéro de ligne en utilisant la couleur bleu pour l’espèce sesota, la couleur rouge pour l’espece versicolor et la couleur verte pour le virginica en respectant la figure suivante. 4 1 2 3 Longueur du pétale 5 6 sesota versicolor virginica 0 50 100 150 n Figure 2 – Longuer des pétales 3. Découpez l’écran en deux parties à l’aide de la commande par(mfrow=c(1,2)) et tracez dans la partie gauche la longueur des pétales en fonction de leurs largeur et dans la partie droite faites la même chose avec les sépales. On utilisera les couleurs de la question précédente et une marque de type point. Puis imprimerez cette figure à l’aide de la fonction dev.print au format jpg. Stat descriptives 3 [email protected] 2 septembre 2015 Département de Mathématiques et Mécanique 6.5 6.0 Sepal.Length 5.5 4 1 4.5 2 5.0 3 Petal.Length 5 7.0 6 7.5 7 8.0 Université de Caen Basse-Normandie 0.5 1.0 1.5 2.0 2.5 2.0 Petal.Width 2.5 3.0 3.5 4.0 Sepal.Width Figure 3 – Séparation de la fenêtre de visualisation 1.3.3 Stat descriptives 1. Calculer le minimum (min), le maximum (max), la moyenne (mean), le premier quartile (quantile), la médiane (median, quantile et troisième quartile de la longueur des pétales. 2. Définir approximativement à partir d’un graphique la moyenne et l’écart type empirique de la longueur des pétales. Confirmez vos résultats à l’aide de commandes de R. 3. A l’aide de la fonction summary, calculez en un seul appel les statistiques descriptives précédentes pour toutes les variables quantitatives de la table. 4. A l’aide de la fonction lapply calculez les minima de toutes les variables quantitatives de la table. 5. Faire un diagramme de type boites à moustaches de la longueur des sépales en fonction de l’espèce. Décrivez ce graphique. Stat descriptives 4 [email protected] 2 septembre 2015 Département de Mathématiques et Mécanique 4.5 5.0 5.5 6.0 6.5 7.0 7.5 8.0 Université de Caen Basse-Normandie setosa versicolor virginica Figure 4 – 6. Tracez un histogramme à 10 classes de la variables Sepal.width et conserver le resultat dans la variable h. Donnez la structure de h. Que vaut la somme des densités ? Expliquez ?. Quels sont les intervalles définissant les classes ? 0.6 0.0 0.2 0.4 Density 0.8 1.0 1.2 7. Reconstruire la figure suivante. 4 5 6 7 8 Sepal.Width Figure 5 – Histogramme par espèce 1.3.4 Discrimination des espèces d’IRIS 1. Construire un scatterplot des variables quantitatives en choisissant des points de couleur bleu pour l’espèce setosa, rouge pour l’espèce versicolor et verte pour les virginica. Stat descriptives 5 [email protected] Université de Caen Basse-Normandie 2 septembre 2015 Département de Mathématiques et Mécanique 0.5 1.0 1.5 2.0 2.5 6.5 7.5 2.0 2.5 3.0 3.5 4.0 2.0 2.5 3.0 3.5 4.0 4.5 5.5 Sepal.Length 5 6 7 Sepal.Width 0.5 1.0 1.5 2.0 2.5 1 2 3 4 Petal.Length Petal.Width 4.5 5.5 6.5 7.5 1 2 3 4 5 6 7 Figure 6 – Scatterplot 2. On veut discriminer l’espèce setosa. Quelles sont les variables qui permettent simplement de discriminer cette espèce ? 3. Prouver numériquement que si la longueur d’un pétal est inférieure à 2.45 cm alors c’est un setosa. On pourra faire un tableau croisés entre la variable Petal.Length < 0.8 et la variable Species à l’aide de la fonction table comptabilisant chacun des 4 cas. Ce tableau s’appelle aussi matrice de confusion. setosa versicolor virginica FALSE 0 50 50 TRUE 50 0 0 Table 4 – Tableau de contingence croisés 4. Faire de même pour la variable Petal.Width dans le but de discriminer l’espèce setosa des autres. 5. Dans cette question, on veut discriminer l’espève virginica des autres espèces. Essayer les variables suivantes Petal.Width, (Petal.Width+Petal.Length)/2, Petal.Length. Comparez vos résultats en calculant les matrices de confusion entre les différents variables et seuils. setosa versicolor virginica FALSE 50 47 1 TRUE 0 3 49 Table 5 – Matrice de confusion avec (Petal.Width+Petal.Length)/2 >3.225 6. Construire alors la figure suivante indiquant des régions de décisions. Stat descriptives 6 [email protected] 2 septembre 2015 Département de Mathématiques et Mécanique 1.5 0.5 1.0 Petal.Width 2.0 2.5 Université de Caen Basse-Normandie 1 2 3 4 5 6 7 Petal.Length Figure 7 – Décision dans le plan Petal.Width,Petal.Length 7. Construire l’espèce prédite prédite à l’aide des règles établies en ajoutant une colonne nommée Species.pred. Puis calculer la matrice de confusion entre les epèces observées et les espèces prédites. setosa versicolor virginica setosa 50 0 0 versicolor 0 47 1 virginica 0 3 49 Table 6 – Matrice de confusion Stat descriptives 7 [email protected]