Statistiques I: Séance informatique Exercices sur Excel

Transcription

Statistiques I: Séance informatique Exercices sur Excel
Haute Ecole de Gestion
Geneva School of Business Administration
A. Caboussat, STAT I
Automne 2010
Mercredi 8h15-10h00
Statistiques I: Séance informatique
Durant cette séance, nous allons utiliser le fichier Excel contenant les données virtuelles de l’entreprise Sun4all ;
Ce fichier (ainsi que les explications correspondantes) peut se télécharger sur
http://campus.hesge.ch/caboussata/statI/
Sur la même page web, vous trouverez également une feuille contenant les commandes utiles de R.
Part I
Exercices sur Excel
Problème 1.
Considérer le nombre de jours de délais d’attente des ventes en 2003 (onglet ’Ventes 2003’). Calculer les synthèses
numériques de distribution (moyenne, médiane, mode, variance, écart-type, quartiles, skew et kurtosis) du
nombre de jours de délais d’attente.
Aide: utiliser les fonctions moyenne, mediane, var, mode, ecartype.standard, quartile, kurtosis,
coefficient.asymmetrie, etc. dans Excel. Noter que les fonctions statistiques sont regroupées dans l’onglet
’Formules’, sous la rubrique ’Plus de fonctions’.
Problème 2.
Considérer les prix des matières premières (onglet ’Matières premières’). Représenter le diagramme de dispersion
du prix de l’aluminium et du prix du cuivre (en fonction du temps).
Calculer la covariance entre ces deux prix, ainsi que le coefficient de corrélation linéaire de Pearson. Représenter
le nuage de points obtenu lorsque le prix de l’aluminium est sur l’axe horizontal et le prix du cuivre est sur l’axe
vertical.
Aide: utiliser les fonctions covariance.standard, coefficient.correlation dans Excel.
Problème 3.
Classer la valeur moyenne par commande (onglet ’Clients’) des clients de Sun4All et écrire un tableau des
fréquences. Prendre les intervalles suivants comme définition de classes:
[0, 1000 000[, [1000 000, 1500 000[, [1500 000, 2000 000[, [2000 000, 2500 000[, [2500 000, 4000 000[.
Illustrer graphiquement cette répartition avec un diagramme en barres et un diagramme circulaire.
Aide: utiliser la fonction frequence dans Excel pour regrouper et compter les données de votre échantillon.
Les graphiques se trouvent dans le menu ’Insertion’.
1
Part II
Introduction au logiciel R
Pour entrer des données à la main, par exemple les âges 23, 19, 24, 26, 21, 24, 21, 22, 18, 24 et les stocker sous
le nom ”ages”, tapez:
ages<-c(23,19,24,26,21,24,21,22,18,24)
ou
ages=c(23,19,24,26,21,24,21,22,18,24).
Dans le fichier IntroR Dubois.pdf, vous avez les commandes de base de R. Dans le polycopié vous avez aussi
les commandes correspondantes aux différentes notions vues en cours.
Quelques petits trucs très utiles:
1. Avec la touche Tab, vous pouvez compléter des noms de fonctions ou des noms de variables;
2. Avec la flèche vers le haut, vous pouvez récupérer les dernières commandes effectuées;
3. help(commande) où ”commande” est une commande sur laquelle vous voulez obtenir de l’aide;
4. apropos("tab") vous donnera une liste de toutes les commandes qui contiennent ”tab” dans leur nom.
Pour charger les données d’un tableau Excel:
1. Dans Excel, choisissez ”Enregistrer sous. . . ”, ”Autres formats”, et choisissez le format .csv (séparateur:
point-virgule)
2. (optionnel) Ouvrez le fichier ainsi créé par exemple avec le Bloc-notes, pour voir de quoi il a l’air.
3. Importez-le dans R à l’aide de la commande
read.csv(file="fichier.csv",sep=";")
Le nom du fichier doit être précédé de son répertoire, relativement au ”répertoire de travail”, en anglais
”working directory”. La commande getwd() vous dit quel est le répertoire de travail, et la commande
setwd() vous permet de le modifier. Attention: dans R, les répertoires doivent être séparés par des ”/” et
non des ”\”.
2
Part III
Exercices sur R
Problème 4.
Construire l’histogramme des années de dernier achat (D achat) de tous les clients de l’entreprise Sun4All
(onglet ’Clients’) (similaire à l’exercice 3.3). Vous pouvez spécifier les limites des intervalles pour l’histogramme
avec l’argument ”breaks” en utilisant les bornes de l’exercice 3.3 (à savoir 1993,1996,1997,2002,2006). Faire le
boxplot de cet échantillon. Calculer la moyenne, variance, écart-type de cet échantillon. Donner le résumé en
5 nombres de cet échantillon.
Aide: Créer une nouvelle feuille Excel avec cet échantillon. Exporter cette feuille comme ci-dessus et l’importer
dans R. Pour faire un histogramme, utiliser la commande hist. Pour faire un boxplot, utiliser la commande
boxplot.
Problème 5.
Dessiner le nuage de points (commande plot dans R) de la température moyenne du mois à Genève vs la
température moyenne du mois à Boston (onglet ’Meteo mois’). Calculer et tracer la droite de régression linéaire.
Aide: la commande abline(a,b) vous permet de tracer la droite y = a · x + b. La commande lm permet de
calculer la droite de régression linéaire.
Problème 6.
Tracer la courbe de Lorenz de l’exercice 9.1.
3