TP2
Transcription
TP2
Année Universitaire 2015/2016 Statistique Université de Nice Sophia-Antipolis L3 MASS TD de SAS Feuille de TP n˚2 Mme Malot Remarque 1 Cette seconde feuille de TP a pour but de revenir sur les représentations graphiques, mais d’un point de vue applicatif. Exercice 1 : Effectuer une représentation graphique adaptée et correcte des bases de données suivantes : shirts et enfants. Faire de même pour la variable flavor de la base piesales. Pour cela, utiliser l’instruction chart. Exercice 2 : Cet exercice considère la base de données piesales. – Réaliser une représentation graphique de la variable Pies_ sold de la base de données considérée. – Faire de même, mais uniquement pour les données relatives à l’année 1995. – Expliquer ce que produit ces différentes lignes de commande : proc chart data=piesales; vbar flavor / subgroup=bakery sumvar=pies_ sold; title ’Pie Sales by Flavor Subdivided by Bakery Location’; run; – A présent, on souhaite faire un diagramme en bâtons qui aurait cette allure : 1 2 – Que produisent les lignes suivantes : proc sort data=piesales out=sorted_ piesales; by year; run; options nobyline ovp; proc chart data=sorted_ piesales; by year; block bakery / group=flavor sumvar=pies_ sold noheader symbol=’OX’; title ’Pie Sales for Each Bakery and Flavor’; title2 ’# byval(year)’; run; options byline; Exercice 3 : Cet exercice est associé à la base de données grades. – Que fait cette succession d’instructions? proc chart data=grades; vbar Section / midpoints=’Mon’ ’Wed’ ’Fri’ group=Gender sumvar=Examgrade1 type=mean; title ’Mean Exam Grade for Introductory Chemistry Sections’; run; – Réaliser une représentation graphique adaptée de la variable ExamGrade1, sachant qu’il s’agit d’une variable continue. – Faire de même mais en imposant les centres de classes qui vont de 55 à 95 par pas de 10. Peut-on avoir des centres de classe non équi-espacés? – Faire de même en imposant un nombre de classes de 5. – Et si l’on souhaite des bâtons horizontaux et une table statistique? Exercice 4 : Cet exercice est toujours associé à la base de données grades. – Que fait cette séquence d’instructions? proc univariate data=grades noprint; histogram ExamGrade1; title ’Grades for First Chemistry Exam’; run; – Et ceci? inset n=’Sample Size’ std=’Std Dev’ (5.2); proc univariate data=grades noprint; 3 histogram Examgrade1 /vscale=count vaxis=0 to 16 by 2 vminor=1 hoffset=10 midpoints=55 65 75 85 95 vaxislabel=’Frequency’; inset n=’No. Students’ mean=’Mean Grade’ min=’Lowest Grade’ max=’Highest Grade’ / header=’Summary Statistics’ position=ne format=3.; title ’Grade Distribution for the First Chemistry Exam’; run; – Et cela? proc format; value $ gendfmt ’M’=’Male’ ’F’=’Female’; run; proc univariate data=grades noprint; class Gender Section(order=data); histogram Examgrade1 / midpoints=45 to 95 by 10 vscale=count vaxis=0 to 6 by 2 vaxislabel=’Frequency’ turnvlabels nrows=2 ncols=3 cframe=ligr cframeside=gwh cframetop=gwh cfill=gwh; inset mean(4.1) n / noframe position=(2,65); format Gender $ gendfmt.; title ’Grade Distribution for the First Chemistry Exam’; run; Exercice 5 : Cet exercice est associé à la base de données BPressure. – Que produisent les lignes suivantes? title ’Systolic and Diastolic Blood Pressure’; ods select BasicMeasures Quantiles; proc univariate data=BPressure; var Systolic Diastolic; run; – Et ceci? title ’Analysis of Score Changes’; ods select Frequencies; proc univariate data=BPressure freq; var Systolic; run; – Et qu’en est-il de ceci? ods select Modes; proc univariate data=BPressure modes; var Systolic; 4 run; – Que se passe t’il si l’on oublie la ligne contenant ods? – Y a t’il d’autres indicateurs qu’il est possible d’avoir? Exercice 6 : Cet exercice est associé à la base de données trans. – Commenter ce qui suit. title ’Analysis of Plating Thickness’; proc univariate data=Trans noprint; histogram Thick / cframe = ligr cfill = blue; run; – Que fait ce qui suit? title ’Analysis of Plating Thickness’; ods select ParameterEstimates GoodnessOfFit FitQuantiles Bins MyPlot; proc univariate data=Trans; histogram Thick / normal(color=yellow w=3 percents=20 40 60 80 midpercents) cfill = blue cframe = ligr name=’MyPlot’; inset n normal(ksdpval) / pos = ne format = 6.3; run; Exercice 7 : Cet exercice implique la base de données channel. 1. Transformer la base channel en une base channellot qui reprend les données de la base channel et y ajoute une variable lot qui prend pour modalités lot1, lot2 et lot3 et défini par, pour les observations de 1 à 425 inclus, lot=lot1, pour les observations allant de 426 à 925 inclus, lot=lot2, et pour toutes les autres lot=lot3. 2. On souhaite pouvoir comparer les histogrammes obtenus pour chaque modalité de lot. Comment faire? 3. Faire comme précédemment avec en plus l’ajout de la densité normale. Exercice 8 : Que font les instructions suivantes? symbol v=plus; title ’Normal Quantile-Quantile Plot for Hole Distance’; proc univariate data=Sheets noprint; qqplot Distance / cframe = ligr; run; symbol v=plus; 5 title ’Normal Quantile-Quantile Plot for Hole Distance’; proc univariate data=Sheets noprint; qqplot Distance / normal(mu=est sigma=est color=yellow l=2 w=2 noprint) square cframe = ligr; run; Exercice 9 : Retour sur la procédure format utilisée au cours d’un des exercices précédents. Ici, le jeu de données utilisé est comprev. – Comprendre ce que font les instructions suivantes. proc format; value cntryfmt 1=’United States’ 2=’Japan’; value compfmt 1=’Supercomputer’ 2=’Mainframe’ 3=’Midrange’ 4=’Workstation’ 5=’Personal Computer’ 6=’Laptop’; run; proc print data=comprev noobs; format country cntryfmt. computer compfmt.; title ’The Data Set COMPREV’; run; – Faire un tableau croisé de ces données à l’aide de la procédure tabulate. – Modifier l’observation 8 de la base de données comprev, en donnant la valuer . à la variable computer. – Refaire le tableau croisé. Que se passe t’il? – Comment faire en sorte que la donnée manquante soit prise en compte dans la table? – Modifier la procédure format de façon à ajouter le codage .=’No type given’. – Refaire le tableau croisé. Exercice 10 : – Comprendre les instructions suivantes : data tirage; do i=1 to 30; a=ranbin(-1,1,1/3); 6 output; keep a; end; run; – Simuler 1000 réalisations d’une loi uniforme sur [2, 4]. Réaliser l’histogramme associé. – Simuler 1000 réalisations d’une loi exponentielle de paramètre λ = 4, à l’aide de la fonction pré-établie de SAS, puis à l’aide de la fonction générant des réalisations d’une loi uniforme sur [0, 1]. – Faire une représentation graphique adaptée avec superposition de la loi théorique. – Faire la même chose, mais pour une loi normale de paramètres m = 1 et σ 2 = 0.01. – Comment feriez-vous pour illustrer la convergence en loi d’une loi binomiale vers une loi normale? – Si l’on revient sur les données channel, comment feriez-vous pour fitter une densité sur vos données (kernel)? – Essayer de visualiser l’importance du paramètre de lissage. – Et maintenant, si l’on voulait le fonction de répartition pour chacun de nos jeux de données? 7