TP2

Transcription

TP2
Année Universitaire 2015/2016
Statistique
Université de Nice Sophia-Antipolis
L3 MASS
TD de SAS
Feuille de TP n˚2
Mme Malot
Remarque 1
Cette seconde feuille de TP a pour but de revenir sur les représentations graphiques, mais d’un point
de vue applicatif.
Exercice 1 :
Effectuer une représentation graphique adaptée et correcte des bases de données suivantes :
shirts et enfants. Faire de même pour la variable flavor de la base piesales.
Pour cela, utiliser l’instruction chart.
Exercice 2 :
Cet exercice considère la base de données piesales.
– Réaliser une représentation graphique de la variable Pies_ sold de la base de données
considérée.
– Faire de même, mais uniquement pour les données relatives à l’année 1995.
– Expliquer ce que produit ces différentes lignes de commande :
proc chart data=piesales;
vbar flavor / subgroup=bakery
sumvar=pies_ sold;
title ’Pie Sales by Flavor Subdivided by Bakery Location’;
run;
– A présent, on souhaite faire un diagramme en bâtons qui aurait cette allure :
1
2
– Que produisent les lignes suivantes :
proc sort data=piesales out=sorted_ piesales;
by year;
run;
options nobyline ovp;
proc chart data=sorted_ piesales;
by year;
block bakery / group=flavor
sumvar=pies_ sold
noheader
symbol=’OX’;
title ’Pie Sales for Each Bakery and Flavor’;
title2 ’# byval(year)’;
run;
options byline;
Exercice 3 :
Cet exercice est associé à la base de données grades.
– Que fait cette succession d’instructions?
proc chart data=grades;
vbar Section / midpoints=’Mon’ ’Wed’ ’Fri’ group=Gender
sumvar=Examgrade1 type=mean;
title ’Mean Exam Grade for Introductory Chemistry Sections’;
run;
– Réaliser une représentation graphique adaptée de la variable ExamGrade1, sachant qu’il
s’agit d’une variable continue.
– Faire de même mais en imposant les centres de classes qui vont de 55 à 95 par pas de 10.
Peut-on avoir des centres de classe non équi-espacés?
– Faire de même en imposant un nombre de classes de 5.
– Et si l’on souhaite des bâtons horizontaux et une table statistique?
Exercice 4 :
Cet exercice est toujours associé à la base de données grades.
– Que fait cette séquence d’instructions?
proc univariate data=grades noprint;
histogram ExamGrade1;
title ’Grades for First Chemistry Exam’;
run;
– Et ceci?
inset n=’Sample Size’ std=’Std Dev’ (5.2);
proc univariate data=grades noprint;
3
histogram Examgrade1 /vscale=count vaxis=0 to 16 by 2 vminor=1 hoffset=10
midpoints=55 65 75 85 95 vaxislabel=’Frequency’;
inset n=’No. Students’ mean=’Mean Grade’ min=’Lowest Grade’
max=’Highest Grade’ / header=’Summary Statistics’ position=ne
format=3.;
title ’Grade Distribution for the First Chemistry Exam’;
run;
– Et cela?
proc format;
value $ gendfmt ’M’=’Male’
’F’=’Female’;
run;
proc univariate data=grades noprint;
class Gender Section(order=data);
histogram Examgrade1 / midpoints=45 to 95 by 10 vscale=count vaxis=0 to 6 by 2
vaxislabel=’Frequency’ turnvlabels nrows=2 ncols=3
cframe=ligr cframeside=gwh cframetop=gwh cfill=gwh;
inset mean(4.1) n / noframe position=(2,65);
format Gender $ gendfmt.;
title ’Grade Distribution for the First Chemistry Exam’;
run;
Exercice 5 :
Cet exercice est associé à la base de données BPressure.
– Que produisent les lignes suivantes?
title ’Systolic and Diastolic Blood Pressure’;
ods select BasicMeasures Quantiles;
proc univariate data=BPressure;
var Systolic Diastolic;
run;
– Et ceci?
title ’Analysis of Score Changes’;
ods select Frequencies;
proc univariate data=BPressure freq;
var Systolic;
run;
– Et qu’en est-il de ceci?
ods select Modes;
proc univariate data=BPressure modes;
var Systolic;
4
run;
– Que se passe t’il si l’on oublie la ligne contenant ods?
– Y a t’il d’autres indicateurs qu’il est possible d’avoir?
Exercice 6 :
Cet exercice est associé à la base de données trans.
– Commenter ce qui suit.
title ’Analysis of Plating Thickness’;
proc univariate data=Trans noprint;
histogram Thick / cframe = ligr
cfill = blue;
run;
– Que fait ce qui suit?
title ’Analysis of Plating Thickness’;
ods select ParameterEstimates GoodnessOfFit FitQuantiles Bins MyPlot;
proc univariate data=Trans;
histogram Thick / normal(color=yellow w=3
percents=20 40 60 80 midpercents)
cfill = blue
cframe = ligr
name=’MyPlot’;
inset n normal(ksdpval) / pos = ne format = 6.3;
run;
Exercice 7 :
Cet exercice implique la base de données channel.
1. Transformer la base channel en une base channellot qui reprend les données de la base
channel et y ajoute une variable lot qui prend pour modalités lot1, lot2 et lot3 et défini
par, pour les observations de 1 à 425 inclus, lot=lot1, pour les observations allant de 426
à 925 inclus, lot=lot2, et pour toutes les autres lot=lot3.
2. On souhaite pouvoir comparer les histogrammes obtenus pour chaque modalité de lot.
Comment faire?
3. Faire comme précédemment avec en plus l’ajout de la densité normale.
Exercice 8 :
Que font les instructions suivantes?
symbol v=plus;
title ’Normal Quantile-Quantile Plot for Hole Distance’;
proc univariate data=Sheets noprint;
qqplot Distance / cframe = ligr;
run;
symbol v=plus;
5
title ’Normal Quantile-Quantile Plot for Hole Distance’;
proc univariate data=Sheets noprint;
qqplot Distance / normal(mu=est sigma=est color=yellow
l=2 w=2 noprint)
square cframe = ligr;
run;
Exercice 9 :
Retour sur la procédure format utilisée au cours d’un des exercices précédents. Ici, le jeu de
données utilisé est comprev.
– Comprendre ce que font les instructions suivantes.
proc format;
value cntryfmt 1=’United States’
2=’Japan’;
value compfmt 1=’Supercomputer’
2=’Mainframe’
3=’Midrange’
4=’Workstation’
5=’Personal Computer’
6=’Laptop’;
run;
proc print data=comprev noobs;
format country cntryfmt. computer compfmt.;
title ’The Data Set COMPREV’;
run;
– Faire un tableau croisé de ces données à l’aide de la procédure tabulate.
– Modifier l’observation 8 de la base de données comprev, en donnant la valuer . à la variable
computer.
– Refaire le tableau croisé. Que se passe t’il?
– Comment faire en sorte que la donnée manquante soit prise en compte dans la table?
– Modifier la procédure format de façon à ajouter le codage .=’No type given’.
– Refaire le tableau croisé.
Exercice 10 :
– Comprendre les instructions suivantes :
data tirage;
do i=1 to 30;
a=ranbin(-1,1,1/3);
6
output;
keep a;
end;
run;
– Simuler 1000 réalisations d’une loi uniforme sur [2, 4]. Réaliser l’histogramme associé.
– Simuler 1000 réalisations d’une loi exponentielle de paramètre λ = 4, à l’aide de la fonction
pré-établie de SAS, puis à l’aide de la fonction générant des réalisations d’une loi uniforme
sur [0, 1].
– Faire une représentation graphique adaptée avec superposition de la loi théorique.
– Faire la même chose, mais pour une loi normale de paramètres m = 1 et σ 2 = 0.01.
– Comment feriez-vous pour illustrer la convergence en loi d’une loi binomiale vers une loi
normale?
– Si l’on revient sur les données channel, comment feriez-vous pour fitter une densité sur
vos données (kernel)?
– Essayer de visualiser l’importance du paramètre de lissage.
– Et maintenant, si l’on voulait le fonction de répartition pour chacun de nos jeux de données?
7