descriptives statistics - Département de Mathématiques

Transcription

descriptives statistics - Département de Mathématiques
Université de Caen Basse-Normandie
1
2 septembre 2015
Département de Mathématiques et Mécanique
Stat descriptives sur les données Iris
Sommaire
1.1
1.2
1.3
1.1
Objectif . . . . . . . . . . . .
Description . . . . . . . . . .
Enoncé . . . . . . . . . . . . .
1.3.1 Lecture, Indicage . . . . .
1.3.2 Graphiques . . . . . . . .
1.3.3 Stat descriptives . . . . .
1.3.4 Discrimination des espèces
. . . . . . . . . .
. . . . . . . . . .
. . . . . . . . . .
. . . . . . . . . . .
. . . . . . . . . . .
. . . . . . . . . . .
d’IRIS . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
. . . . . . . . .
. . . . . . . . .
. . . . . . . . .
. . . . . . . . . .
. . . . . . . . . .
. . . . . . . . . .
. . . . . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
. .
. .
. .
. . .
. . .
. . .
. . .
1
1
2
2
3
4
5
Objectif
Dans cet exercice
Installation de R Le site officiel de R. Il existe d’autre environnements de programmation
RStudio.
Introduction à R
— Pour ouvrir R en ligne de commandes, dans un terminal tappez R, puis tappez la commande
help.start(). Pour avoir une interface graphique tappez library(Rcmdr).
— Lecture des tables
— Indicage, extraction de tables
— Calcul
— Graphiques
Statistiques descriptives
— moyennes, écarts types empiriques
— histogramme, distribution empiriques, histogrammes.
1.2
Description
Les données iris ont été utilisées par Sir Ronald Fisher en 1936 comme exemple pour discriminer la race de trois espèces
d’iris en fonction de critères morphologiques de la plante. Ces données ont été largement utilisées en.wikipedia.org.
Cette données contiennent 150 lignes concernant 150 mesures d’iris et 5 colonnes. Les quatre premières colonnes sont
des mesures morphologiques de la plante, la cinquième colonne est l’espèce de la plante. Le séparateur de champs est un
point-virgule.
1
2
3
4
5
6
Sepal.Length
5.10
4.90
4.70
4.60
5.00
5.40
Sepal.Width
3.50
3.00
3.20
3.10
3.60
3.90
Petal.Length
1.40
1.40
1.30
1.50
1.40
1.70
Petal.Width
0.20
0.20
0.20
0.20
0.20
0.40
Species
setosa
setosa
setosa
setosa
setosa
setosa
Table 1 – Table de données iris
Stat descriptives
1
[email protected]
Université de Caen Basse-Normandie
2 septembre 2015
Département de Mathématiques et Mécanique
Figure 1 – La plante
nom
Sepal.Length
Sepal.Width
Petal.Length
Petal.width
Species
type
quanti
quanti
quanti
quanti
quali
commentaires
longueur du sépal en cm
largeur du sépal en cm
longueur de pétal en cm
largeur du pétal en cm
espèce de l’iris
Table 2 – Catalogue des variables
setosa
versicolor
virginica
Species
50
50
50
Table 3 – Tableau de contingence de l’espèce
versicolor
virginica
On peut lire les données dans R grâce à la commande
setosa
X=read.table(
file="http://www.math.unicaen.fr/~kauffman/data/iris.txt",
sep=';',
header=TRUE
)
1.3
1.3.1
Enoncé
Lecture, Indicage
1. Trouvez l’aide de la fonction read.table. Construire une table nommée X à partir du fichier iris.txt
2. Lire de même le fichier binaire iris.RData à l’aide de la commande load.
3. Affichez les 20 premières lignes de la table X, puis les dernières.
4. Affichez la deuxième colonne
Stat descriptives
2
[email protected]
Université de Caen Basse-Normandie
2 septembre 2015
Département de Mathématiques et Mécanique
5. Affichez la colonne de nom Petal.Length de deux manières différentes
6. Affichez la sous table composée des lignes 1,3 à 7 et des colonnes Sepal.Length, Species.
7. A l’aide de la commande str afficher la structure de la table X. Quel est le type de la table typeof(X);is.data.frame(X);
is.list(X). Quelle est votre conclusion ?
1.3.2
Graphiques
1. Tracez la largeur du pétale en fonction du numéro de ligne
7
2. Tracez la largeur du pétale en fonction du numéro de ligne en utilisant la couleur bleu pour l’espèce sesota, la couleur
rouge pour l’espece versicolor et la couleur verte pour le virginica en respectant la figure suivante.
4
1
2
3
Longueur du pétale
5
6
sesota
versicolor
virginica
0
50
100
150
n
Figure 2 – Longuer des pétales
3. Découpez l’écran en deux parties à l’aide de la commande par(mfrow=c(1,2)) et tracez dans la partie gauche la
longueur des pétales en fonction de leurs largeur et dans la partie droite faites la même chose avec les sépales. On
utilisera les couleurs de la question précédente et une marque de type point. Puis imprimerez cette figure à l’aide de la
fonction dev.print au format jpg.
Stat descriptives
3
[email protected]
2 septembre 2015
Département de Mathématiques et Mécanique
6.5
6.0
Sepal.Length
5.5
4
1
4.5
2
5.0
3
Petal.Length
5
7.0
6
7.5
7
8.0
Université de Caen Basse-Normandie
0.5
1.0
1.5
2.0
2.5
2.0
Petal.Width
2.5
3.0
3.5
4.0
Sepal.Width
Figure 3 – Séparation de la fenêtre de visualisation
1.3.3
Stat descriptives
1. Calculer le minimum (min), le maximum (max), la moyenne (mean), le premier quartile (quantile), la médiane (median,
quantile et troisième quartile de la longueur des pétales.
2. Définir approximativement à partir d’un graphique la moyenne et l’écart type empirique de la longueur des pétales.
Confirmez vos résultats à l’aide de commandes de R.
3. A l’aide de la fonction summary, calculez en un seul appel les statistiques descriptives précédentes pour toutes les
variables quantitatives de la table.
4. A l’aide de la fonction lapply calculez les minima de toutes les variables quantitatives de la table.
5. Faire un diagramme de type boites à moustaches de la longueur des sépales en fonction de l’espèce. Décrivez ce
graphique.
Stat descriptives
4
[email protected]
2 septembre 2015
Département de Mathématiques et Mécanique
4.5
5.0
5.5
6.0
6.5
7.0
7.5
8.0
Université de Caen Basse-Normandie
setosa
versicolor
virginica
Figure 4 –
6. Tracez un histogramme à 10 classes de la variables Sepal.width et conserver le resultat dans la variable h. Donnez la
structure de h. Que vaut la somme des densités ? Expliquez ?. Quels sont les intervalles définissant les classes ?
0.6
0.0
0.2
0.4
Density
0.8
1.0
1.2
7. Reconstruire la figure suivante.
4
5
6
7
8
Sepal.Width
Figure 5 – Histogramme par espèce
1.3.4
Discrimination des espèces d’IRIS
1. Construire un scatterplot des variables quantitatives en choisissant des points de couleur bleu pour l’espèce setosa,
rouge pour l’espèce versicolor et verte pour les virginica.
Stat descriptives
5
[email protected]
Université de Caen Basse-Normandie
2 septembre 2015
Département de Mathématiques et Mécanique
0.5 1.0 1.5 2.0 2.5
6.5
7.5
2.0 2.5 3.0 3.5 4.0
2.0 2.5 3.0 3.5 4.0
4.5
5.5
Sepal.Length
5
6
7
Sepal.Width
0.5 1.0 1.5 2.0 2.5
1
2
3
4
Petal.Length
Petal.Width
4.5
5.5
6.5
7.5
1
2
3
4
5
6
7
Figure 6 – Scatterplot
2. On veut discriminer l’espèce setosa. Quelles sont les variables qui permettent simplement de discriminer cette espèce ?
3. Prouver numériquement que si la longueur d’un pétal est inférieure à 2.45 cm alors c’est un setosa. On pourra faire un
tableau croisés entre la variable Petal.Length < 0.8 et la variable Species à l’aide de la fonction table comptabilisant
chacun des 4 cas. Ce tableau s’appelle aussi matrice de confusion.
setosa
versicolor
virginica
FALSE
0
50
50
TRUE
50
0
0
Table 4 – Tableau de contingence croisés
4. Faire de même pour la variable Petal.Width dans le but de discriminer l’espèce setosa des autres.
5. Dans cette question, on veut discriminer l’espève virginica des autres espèces. Essayer les variables suivantes Petal.Width, (Petal.Width+Petal.Length)/2, Petal.Length. Comparez vos résultats en calculant les matrices de
confusion entre les différents variables et seuils.
setosa
versicolor
virginica
FALSE
50
47
1
TRUE
0
3
49
Table 5 – Matrice de confusion avec (Petal.Width+Petal.Length)/2 >3.225
6. Construire alors la figure suivante indiquant des régions de décisions.
Stat descriptives
6
[email protected]
2 septembre 2015
Département de Mathématiques et Mécanique
1.5
0.5
1.0
Petal.Width
2.0
2.5
Université de Caen Basse-Normandie
1
2
3
4
5
6
7
Petal.Length
Figure 7 – Décision dans le plan Petal.Width,Petal.Length
7. Construire l’espèce prédite prédite à l’aide des règles établies en ajoutant une colonne nommée Species.pred. Puis
calculer la matrice de confusion entre les epèces observées et les espèces prédites.
setosa
versicolor
virginica
setosa
50
0
0
versicolor
0
47
1
virginica
0
3
49
Table 6 – Matrice de confusion
Stat descriptives
7
[email protected]

Documents pareils