Statistiques I: Séance informatique Exercices sur Excel
Transcription
Statistiques I: Séance informatique Exercices sur Excel
Haute Ecole de Gestion Geneva School of Business Administration A. Caboussat, STAT I Automne 2010 Mercredi 8h15-10h00 Statistiques I: Séance informatique Durant cette séance, nous allons utiliser le fichier Excel contenant les données virtuelles de l’entreprise Sun4all ; Ce fichier (ainsi que les explications correspondantes) peut se télécharger sur http://campus.hesge.ch/caboussata/statI/ Sur la même page web, vous trouverez également une feuille contenant les commandes utiles de R. Part I Exercices sur Excel Problème 1. Considérer le nombre de jours de délais d’attente des ventes en 2003 (onglet ’Ventes 2003’). Calculer les synthèses numériques de distribution (moyenne, médiane, mode, variance, écart-type, quartiles, skew et kurtosis) du nombre de jours de délais d’attente. Aide: utiliser les fonctions moyenne, mediane, var, mode, ecartype.standard, quartile, kurtosis, coefficient.asymmetrie, etc. dans Excel. Noter que les fonctions statistiques sont regroupées dans l’onglet ’Formules’, sous la rubrique ’Plus de fonctions’. Problème 2. Considérer les prix des matières premières (onglet ’Matières premières’). Représenter le diagramme de dispersion du prix de l’aluminium et du prix du cuivre (en fonction du temps). Calculer la covariance entre ces deux prix, ainsi que le coefficient de corrélation linéaire de Pearson. Représenter le nuage de points obtenu lorsque le prix de l’aluminium est sur l’axe horizontal et le prix du cuivre est sur l’axe vertical. Aide: utiliser les fonctions covariance.standard, coefficient.correlation dans Excel. Problème 3. Classer la valeur moyenne par commande (onglet ’Clients’) des clients de Sun4All et écrire un tableau des fréquences. Prendre les intervalles suivants comme définition de classes: [0, 1000 000[, [1000 000, 1500 000[, [1500 000, 2000 000[, [2000 000, 2500 000[, [2500 000, 4000 000[. Illustrer graphiquement cette répartition avec un diagramme en barres et un diagramme circulaire. Aide: utiliser la fonction frequence dans Excel pour regrouper et compter les données de votre échantillon. Les graphiques se trouvent dans le menu ’Insertion’. 1 Part II Introduction au logiciel R Pour entrer des données à la main, par exemple les âges 23, 19, 24, 26, 21, 24, 21, 22, 18, 24 et les stocker sous le nom ”ages”, tapez: ages<-c(23,19,24,26,21,24,21,22,18,24) ou ages=c(23,19,24,26,21,24,21,22,18,24). Dans le fichier IntroR Dubois.pdf, vous avez les commandes de base de R. Dans le polycopié vous avez aussi les commandes correspondantes aux différentes notions vues en cours. Quelques petits trucs très utiles: 1. Avec la touche Tab, vous pouvez compléter des noms de fonctions ou des noms de variables; 2. Avec la flèche vers le haut, vous pouvez récupérer les dernières commandes effectuées; 3. help(commande) où ”commande” est une commande sur laquelle vous voulez obtenir de l’aide; 4. apropos("tab") vous donnera une liste de toutes les commandes qui contiennent ”tab” dans leur nom. Pour charger les données d’un tableau Excel: 1. Dans Excel, choisissez ”Enregistrer sous. . . ”, ”Autres formats”, et choisissez le format .csv (séparateur: point-virgule) 2. (optionnel) Ouvrez le fichier ainsi créé par exemple avec le Bloc-notes, pour voir de quoi il a l’air. 3. Importez-le dans R à l’aide de la commande read.csv(file="fichier.csv",sep=";") Le nom du fichier doit être précédé de son répertoire, relativement au ”répertoire de travail”, en anglais ”working directory”. La commande getwd() vous dit quel est le répertoire de travail, et la commande setwd() vous permet de le modifier. Attention: dans R, les répertoires doivent être séparés par des ”/” et non des ”\”. 2 Part III Exercices sur R Problème 4. Construire l’histogramme des années de dernier achat (D achat) de tous les clients de l’entreprise Sun4All (onglet ’Clients’) (similaire à l’exercice 3.3). Vous pouvez spécifier les limites des intervalles pour l’histogramme avec l’argument ”breaks” en utilisant les bornes de l’exercice 3.3 (à savoir 1993,1996,1997,2002,2006). Faire le boxplot de cet échantillon. Calculer la moyenne, variance, écart-type de cet échantillon. Donner le résumé en 5 nombres de cet échantillon. Aide: Créer une nouvelle feuille Excel avec cet échantillon. Exporter cette feuille comme ci-dessus et l’importer dans R. Pour faire un histogramme, utiliser la commande hist. Pour faire un boxplot, utiliser la commande boxplot. Problème 5. Dessiner le nuage de points (commande plot dans R) de la température moyenne du mois à Genève vs la température moyenne du mois à Boston (onglet ’Meteo mois’). Calculer et tracer la droite de régression linéaire. Aide: la commande abline(a,b) vous permet de tracer la droite y = a · x + b. La commande lm permet de calculer la droite de régression linéaire. Problème 6. Tracer la courbe de Lorenz de l’exercice 9.1. 3