Examen Final
Transcription
Examen Final
MAT 3777 Examen Final Date: 29 avril 2009 Durée: 3 heures Professeur: G. Lamothe # d’étudiant: Nom: Prénom: Ceci est un examen à livre fermé. Seules les calculatrices non-programmables et non-graphiques sont permises. Deux feuilles (recto-verso) de formules sont permises. Total = 90 points Il y a 24 pages. 1 Question 1 (10 points) Considérons une population de taille N = 5 et supposons qu’on connait y1 = 10, y2 = 12, y3 = 8, y4 = 6, y5 = 20. (a) Calculer la moyenne et la variance de la population. (b) Considérons le plan d’échantillonage suivant. S {1, 5} {2, 3} {2, 5} {2, 4} P (S) 1/4 1/4 1/4 1/4 Si y est la moyenne de l’échantillon. Calculer E[y], V [y], biais[y], EQM [y]. (c) Est-ce que le plan d’échantillonage en (b) est simple? Pourquoi? English Version: Consider a population of size N = 5 and suppose that we know y1 = 10, y2 = 12, y3 = 8, y4 = 6, y5 = 20. (a) Give the population mean and variance. (b) Consider the following sampling design. S {1, 5} {2, 3} {2, 5} {2, 4} P (S) 1/4 1/4 1/4 1/4 If y is the sample mean. Determine E[y], V [y], biais[y], EQM [y]. (c) Is the sampling design from (b) simple? Why? 2 (Question 1 : cont.) 3 Question 2 (10 points) Considérons le modèle suivant: Y1 , . . . , YN sont indépendants tel que EM [Yi ] = β xi et VM [Yi ] = σ 2 xi , pour i = 1, . . . , N . (a) Démontrer que l’estimateur par les moindres carrés pondérés pour β est le quotient Y βb = . x (b) En utilisant la partie (a), démonter que notre prévision pour le total de la population est de la forme tby = y tx . x English Version: Consider the following model Y1 , . . . , YN are independent such that EM [Yi ] = β xi and VM [Yi ] = σ 2 xi , for i = 1, . . . , N . (a) Show that the weighted least squares estimator for β is the ratio βb = Y . x (b) Using part (a), show that are prediction for the total of the population is of the form y tby = tx . x 4 (Question 2 : cont.) 5 Question 3 (10 points) Une banque a 150 000 clients avec des comptes d’épargnes, et 50 000 de ces clients ont moins que 25 ans. Le gérant veut une estimation du solde moyen des comptes le 31 décembre. Il soupçonne que les jeunes clients ont des soldes plus petits que les clients plus matures. Le gérant assigne un documentaliste pour examiner la base de données pour cueillir un échantillon de 300 détenteurs de comptes stratifié par âge comme ci-haut avec une allocation proportionnelle. La moyenne pour les jeunes est $1200 avec un écart type de $900, tandis que plus vieux ont une moyenne de $3600 avec un écart type de $1800. (a) Est-ce une post-stratification? Pourquoi? (b) Déterminer l’estimation du solde moyen pour tous les jeunes clients et son erreur type. (c) Déterminer l’estimation du solde moyen pour tous les clients et son erreur type. (d) Le gérant veut une estimation du solde moyen pour tous les clients pour la fin du mois mars. En supposant que les écarts types des strates n’ont pas trop changé, déterminer l’allocation optimale pour un plan stratifié. Déterminer la taille d’échantillon requise afin que la marge d’erreur soit au plus $50 à un niveau de confiance de 95%. English Version: A bank has 150 000 clients with savings accounts, and 50 000 of those clients are 25 years old or younger. The manager wants an estimate of the mean balance in those accounts on December 31. He suspects that the younger clients have smaller balances compared to the more mature clients. He assigns a researcher to examine the data base to collect a sample of 300 clients stratitied by age as above with a proportional allocation. The mean for the young clients is $1200 with a standard deviation of $900, while the more mature clients have a mean of $3600 with a standard deviation of $1800. (a) Is it a post-stratification? Why? (b) Give an estimate for the mean balance of all the young clients with its standard error. (c) Give an estimate for the mean balance of all the clients with its standard error. (d) The manager want an estimate for the mean balance of all clients for the end of March. Assuming that the standard deviations of the strata have not changed, determine the optimal allocation for a stratified design. Determine 6 the sample size required so that the margin of error is at most $50 at a level of confidence of 95%. 7 (Question 3 : cont.) 8 Question 4 (10 points) Considérons un échantillon aléatoire simple de n = 100 comtés des N = 3141 comtés aux Etats-Unis. Le nombre moyen de vétérans par comté est y = 12 250 vétérans et l’écart type de l’échantillon est s = 47574.9 vétérans. (a) Estimer le nombre total de vétérans aux Etats-Unis et calculer l’erreur type de l’estimation. (b) Pour améliorer la précision de l’estimation en (a) nous allons utiliser une variable auxiliaire x=population du comté en 1994. En 1994, la population des Etats-Unis est estimer à 255 077 036. Estimer le nombre total de vétérans aux Etats-Unis par une régression et donner l’erreur type de l’estimation. Nous avons utiliser le programme de SAS suivant pour produire la sortie qui suit. proc reg data=counties; model veterans=totpop; run; 9 English Version: Consider a simple random sample of n = 100 counties from the N = 3141 counties in the United States. The mean number of veterans per county is y = 12 250 veterans with a standard deviation of s = 47574.9 veterans. (a) Estimate the total number of veterans in the United States and calculate the standard error. (b) To improve the precision of the estimate in (a) we shall use an auxiliary variable x=population of the county in 1994. In 1994, the population of the United States is estimated at 255 077 036. Estimate the total number of veterans in the United States with a regression and give the standard error. The SAS program and the output are above. 10 (Question 4 : cont.) 11 Question 5 (10 points) Référer à la Question 4. Si on considère seulement les comtés ayant une population inférieure à 10 000, alors la moyenne et l’écart type de l’échantillon de ces 26 comtés est y d = 586 et sd = 337.93, respectivement. (a) Estimer le nombre moyen de vétérans par comtés pour les comtés ayant une population inférieure à 10 000. Calculer l’erreur type de l’estimation. (b) Estimer le nombre total de vétérans dans les comtés ayant une population inférieure à 10 000. Calculer l’erreur type de l’estimation. P P N.B. i∈Sd yi = 15 236 et i∈Sd yi2 = 11 783 224. English Version: Refer to Question 4. If we only consider the counties with a population inferior to 10 000, then the mean and the standard deviation of those 26 counties are y d = 586 and sd = 337.93, respectively. (a) Estimate the mean number of veterans per county for the counties with a population inferior to 10 000. Calculate the standard error of the estimate. (b) Estimate the total number of veterans per county for the counties with a population inferior to 10 000. Calculate the standard error of the estimate. P P Note: i∈Sd yi = 15 236 and i∈Sd yi2 = 11 783 224. 12 (Question 5 : cont.) 13 Question 6 (10 points) Un club est formé de 1000 branches locales à travers le pays pour un total de 2 420 150 membres. Le nombre de membres par branche varie énormément de la plus grande avec 50 000 membres et la plus petite avec 10 membres. Nous allons cueillir un échantillon de 10 branches (avec remplacement) avec des probabilités proportionnelles à la taille. (a) Quelle est la probabilité que la branche de 50 000 soit dans l’échantillon? (b) Quelle est la probabilité que la branche de 10 membres soit dans l’échantillon? (c) Pour la variable y, soit y i la moyenne de la branche i. Voici les résultats de l’échantillonage: # de la branche 932 14 334 846 828 511 167 779 677 moyenne 51 43 67 50 40 55 55 50 49 fréquence 2 1 1 1 1 1 1 1 1 Estimer la moyenne de la population y U et calculer l’erreur type de l’estimation. English Version: A club is formed of 1000 local branches across the country for a total 2 420 150 members. The number of members per branch varies greatly with the largest at 50 000 members and the smallest at 10 members. We shall select a sample of 10 branches (with replacement) with probabilities proportional to size. (a) What is the probability that the branch of size 50 000 is in the sample? (b) What is the probability that the branch of size 10 is in the sample? (c) For the variable y, let y i be the mean for branch i. Here are the results of the sampling: 14 # of the branch 932 14 334 846 828 511 167 779 677 mean 51 43 67 50 40 55 55 50 49 frequency 2 1 1 1 1 1 1 1 1 Estimate the mean of the population y U et give the standard error of the estimate. 15 (Question 6 : cont.) 16 Question 7 (10 points) Nous vous montrons 3 rangées dans un ensemble de données. Chaque rangée est pour un livre qui fut sélectionné. étagère nombre total de livres coût sur cette étagère 4 23 23 .. .. .. . . . 12 35 12 .. .. .. . . . 32 .. . 30 .. . 24 .. . poids de sondage a .. . b .. . c .. . Il y a N = 50 étagères et K = 1500 livres dans la bibliothèque. On veut estimer le coût total pour remplacer les livres dans une bibliothèque. Déterminer les poids de sondage a, b, c pour les plans d’échantillonage suivants. (a) On cueille un échantillon simple de 30 livres. (b) On considère une stratification des étagères: 1-10,11-20,21-50. Cette stratification nous donne respectivement 300, 300 et 900 livres. On cueille 10 livres dans chaque strate. (c) On cueille 5 étagères et on considére tous les livres sur ces étagères. (d) On cueille 5 étagères et on cueille 5 livres au hasard de ces étagères. English Version: We are displaying 3 rows from a data set. Each row represents a book that was selected. shelf total number of books cost sampling on the shelf weight 4 23 23 a .. .. .. .. . . . . 12 35 12 b .. .. .. .. . . . . 32 30 24 c .. .. .. .. . . . . 17 There are N = 50 shelves and K = 1500 books in the library. We want to estimate the total cost to replace the books. Determine the sampling weights a, b, c for the following sampling designs. (a) We select a simple random sample of 30 books. (b) We consider a stratification of the shelves: 1-10,11-20,21-50. This stratification gives respectively 300, 300 and 900 books. We collect 10 books from each strata. (c) We select 5 shelves et consider all books on those shelves. (d) We select 5 shelves and select 5 books from those shelves. 18 (Question 7 : cont.) 19 Question 8 (10 points) Une agence veut estimer le nombre total d’appels placés par ses employés pendant une journée. L’agence a N = 100 départements et le ième département a Mi employés, pour i = 1, 2, . . . , N . Un échantillon aléatoire simple de n = 4 départements est cueilli. Ensuite un sous-échantillon de 20% des employés est cueilli de chaque départment. Voici les données: Dept. nombre d’employés i Mi 11 20 25 30 15 36 25 87 nombre d’appels yij 4, 5, 6, 3 2, 4, 7, 5, 3, 6 6, 7, 6 3, 6, 4 ,5, 2 total P j∈Si yij 18 27 19 20 84 P taille du sous-échantillon 4 6 3 5 j∈Si 86 139 121 90 436 yij2 yi s2i 4.5 1.667 4.5 3.5 6.333 0.333 4.0 2.5 Supposons que le nombre total d’employés est 1500. a) Estimer le nombre total d’appels téléphoniques. b) Calculer l’erreur type de l’estimation. English Version: An agency wants to estimate the total number of calls made by its employees during the day. The agency has N = 100 departments and the ith department has Mi employees, for i = 1, 2, . . . , N . A simple random sample of n = 4 departments is collected. Then, a sub-sample of 20% of the employees is collected from each department. Here are the data: Dept. number of employees size of i Mi sub sample 11 20 4 25 30 6 36 15 3 87 25 5 20 number of calls yij 4, 5, 6, 3 2, 4, 7, 5, 3, 6 6, 7, 6 3, 6, 4 ,5, 2 total P j∈Si yij 18 27 19 20 84 P j∈Si 86 139 121 90 436 yij2 yi s2i 4.5 1.667 4.5 3.5 6.333 0.333 4.0 2.5 Suppose that the total number of employees is 1500. a) Estimate the total number of calls. b) Compute the standard error of the estimate. 21 (Question 8 : cont.) 22 Question 9 (10 points) Référer à la Question 8. (a) Décrire l’homogénéité intra-grappe. (b) En utilisant l’information de la Question 8, planifier un nouveau sondage. Supposons que çà nous prend environ 8 heures pour nous établir dans un départment et que çà nous prend environ 45 minutes par employé pour cueillir nos données. Nous voulons que le prélèvement des données prenne au plus 250 heures. English Version: Refer to Question 8. (a) Describe the intra-cluster homogeneity. (b) Using the information from Question 8, design a new survey. Suppose that it takes about 8 hours to establish ourselves in a department and that it takes about 45 minutes per employee to collect our data. We would like to spend a maximum of 250 hours to collect all of the data. 23 (Question 9 : cont.) 24