STT-1920 : Méthodes statistiques
Transcription
STT-1920 : Méthodes statistiques
STT-1920 : Méthodes statistiques SOLUTION DE L’EXAMEN NUMÉRO 3 Mardi le 29 avril 2014 Solution du numéro 1. On calcule d’abord la moyenne échantillonnale globale : y ·· = (10 × 5.40) + (8 × 4.20) + (12 × 5.20) 150 = = 5.00 lbs. 30 30 Ensuite on calcule le SSTR : SSTR = 10 (5.40 − 5.00)2 + 8 (4.20 − 5.00)2 + 12 (5.20 − 5.00)2 = 7.20 lbs2 . Le nombre de degrés de liberté associés au SSTR est I − 1 = 3 − 1 = 2. Le M STR est donc M STR = SSTR 7.20 = = 3.60 lbs2 I −1 2 On calcule ensuite le SSE : SSE = (n1 − 1)s21 + (n2 − 1)s22 + (n3 − 1)s23 = (9 × (1.24)2 ) + (7 × (1.47)2 ) + (11 × (0.95)2 ) = 38.89 lbs2 . Le nombre de degrés de liberté associés à ce M SE est N − I = (n1 + n2 + n3 ) − 3 = 27. Le M SE est donc M SE 38.89 M SE = = = 1.44 lbs2 N −I 27 La valeur observée de notre statistique de test est donc Fobs = M STR 3.60 = = 2.50. M SE 1.44 D’après la table fournie avec l’examen, le p-value est PH0 [F ≥ 2.50] = 1 − PH0 [F < 2.50] = 1 − 0.8991 = 0.1009. Voici donc la table d’anova : Source de Somme de Degrés Moyenne Valeur p-value variation carrés liberté de carrés F ----------------------------------------------------------------Variété 7.20 2 3.60 2.50 0.1009 Résiduelle 38.89 27 1.44 Totale 46.09 29 Solution du numéro 2. (a) 2 Au seuil 5%, il n’y a pas lieu de rejeter l’hypothèse de normalité. 2 Au seuil 5%, on rejette l’hypothèse de normalité. 2 Pour obtenir le p-value correspondant à ce Wobs , il faudrait utiliser le R-Commander. Notre assistant aurait dû suivre le cours STT-1920. Explication : L’assistant aurait dû savoir que la statistique de Shapiro et Wilk est toujours un nombre entre 0 et 1. Si l’assistant a obtenu Wobs = 1.273, c’est parce qu’il a fait une erreur. En voyant ce Wobs = 1.273, l’assistant aurait dû se rendre compte que c’était une erreur. (b) 2 Le p-value est plus petit que 1/100. 2 Le p-value est entre 1/100 et 1/20. 2 Le p-value est entre 1/20 et 1/10. Le p-value est entre 1/10 et 5/10. 2 Le p-value est entre 5/10 et 9/10. 2 Le p-value est plus grand que 9/10. Explication : Sous H0 , la statistique K-squared de Bartlett suit à peu près la loi du khi-deux avec I − 1 = 3 − 1 = 2 degrés de liberté. Avec une valeur observée de 1.633, la table de la loi du khi-deux nous permet de conclure que le p-value est quelque part entre 0.100 et 0.500 c’est-à-dire entre 1/10 et 5/10. (c) Pour chacun des 3 échantillons, on calcule le plus petit résidu et le plus grand résidu. On obtient les résultats suivants : Variété Plus petit Plus grand de tomate résidu résidu Siberia −2.05 lbs 2.15 lbs Sub-Arctique −1.55 lbs 2.05 lbs Valencia −1.75 lbs 1.75 lbs Le plus petit des 30 résidus est donc égal à -2.05 lbs alors que le plus grand est égal à 2.15 lbs. 2 Solution du numéro 3. Response: TAILLE SOL Residuals Sum Sq 0.48025 4.37500 Df 4 70 F-value 1.921 Pr(>F) 0.11568 (a) La table d’anova nous donne I − 1 = 4. Le nombre de types de sol qui ont été comparés est donc I = 5. (b) La table d’anova nous donne N − I = 70. Le nombre d’épinettes ont été utilisées dans cette expérience est donc N = 75. (c) σ̂ = √ √ √ √ M SE = SSE/(N − I) = 4.375/70 = 0.0625 = 0.250. (d) On utilise l’intervalle (√ (N − I) M SE , χ2N −I, α 2 √ (N − I) M SE χ2N −I,1− α ) 2 Ici on a N − I = 70 et M SE = 0.0625. La table de la loi du khi-deux nous donne χ2N −I, α = χ270,0.05 = 90.53 2 χ2N −I,1− α 2 On obtient donc = χ270,0.95 = 51.74. (√ I.C. de niveau 95% pour σ ) √ (N − I) M SE (N − I) M SE = , χ2N −I, α χ2N −I,1− α 2 (√ )2 √ 70 × 0.0625 70 × 0.0625 = , 90.53 51.74 ) (√ √ 0.0483265 , 0.0845574 = = (0.220, 0.920). (e) PH0 [F < 1.921] = 1 − 0.11568 = 0.88432. 3 Solution du numéro 4. moyenne des 102 quotients intellectuels écart-type des 102 quotients intellectuels moyenne des 102 cotes R écart-type 102 cotes R corrélation échantillonnale = = = = = 104.8 12.5 28.75 2.25 0.753 (a) Estimation pour la moyenne théorique des cotes R des finissants dont le quotient intellectuel est 120 : ) ( ) ( 120 − x 120 − 104.8 µ̂Y |X = 120 = y + r sY = 30.81. = 28.75 + (0.753)(2.25) sX 12.5 (b) Estimation pour l’écart-type théorique des cotes R des finissants dont le quotient intellectuel est 120 : √ √ √ √ n−1 101 σ̂ = M SE = (1 − r2 ) s2Y = (1 − (0.753)2 ) (2.25)2 = 2.2139 = 1.49. n−2 100 (c) ( ) 28.78 − µY |X = 120 P[Y > 28.75 | X = 120] = 1 − Φ σ ( ) 28.78 − 30.81 ≈ 1−Φ 1.49 = 1 − Φ(−1.38) = Φ(1.38) = 0.9162. (d) Pourcentage de la variation de la cote R est expliquée par le quotient intellectuel du finissant : r2 = (0.753)2 = 0.5670 = 56.70%. 4 Solution du numéro 5. On considère un jeu de données bivariées de taille n = 600, disons (x1 , y1 ), (x2 , y2 ), (x3 , y3 ), ..., (x600 , y600 ). On suppose que les hypothèses du modèle de régression linéaire simple sont satisfaites. À partir des deux graphes ci-dessous, obtenez (a) Estimation pour le paramètre β0 du modèle de régression linéaire simple : β̂0 = 3.00. On lit cette valeur directement sur le graphe de la droite de régression empirique. Il s’agit de l’ordonnée à l’origine (c’est-à-dire la valeur y à l’endroit où la droite coupe d’axe des y). (b) Estimation pour le paramètre β1 du modèle de régression linéaire simple : β̂1 = 2.0. On lit cette valeur directement sur le graphe de la droite de régression empirique. Il s’agit de la pente de la droite (c’est-à-dire l’accroissement en y correspondant à un accroissement de 1 en x). (c) Estimation pour le paramètre σ du modèle de régression linéaire simple : σ̂ ≈ 3. Il s’agit de l’écart-type de l’histogramme des résidus. (d) Le résidu associé à l’observation (x437 , y437 ) = (3.50, 8.50) est y437 − (β̂0 + β̂1 x437 = 8.50 − (3.00 + (2.00 × 3.50)) = 8.50 − 10.00 = −1.50. Solution du numéro 6. Pour tester H0 : ρ = 0 contre H1 : ρ > 0 on utilise la règle de décision suivante : √ n − 2r On rejette H0 si √ ≥ tn−2,α . 1 − r2 Sous H0 , la statistique T = obtient Tobs tn−2,α √ √n−2 r 1−r2 suit la loi de Student avec n − 2 degrés de liberté. Ici on √ √ n − 2r 30 × 0.375 = √ = = 2.2156 2 1 − (0.375)2 1−r = t30,0.05 = 1.697. (a) Au seuil 5%, on rejette l’hypothèse nulle. (b) D’après la table, le p-value est entre 1% et 2.5%. 5 Solution du numéro 7. On calcule d’abord les fréquences espérées Eij sous l’hypothèse O O d’indépendance. Pour y arriver, on utilise la formule Eij = i·n ·j . On obtient les résultats indiqués entre parenthèses dans le tableau ci-dessous : Abolition Réforme Homme 38 (33) 22 (27) 60 Femme 17 (22) 23 (18) 40 55 45 100 On calcule ensuite la valeur observée de notre statistique du khi-deux : 2 ∑ 2 ∑ (Oij − Eij )2 = Eij i=1 j=1 ( )2 Oi· O·j 2 2 ∑ ∑ Oij − n = Oi· O·j Uobs i=1 j=1 n (38 − 33) (22 − 27)2 (17 − 22)2 (23 − 18)2 + + + 33 27 22 18 = 0.7576 + 0.9259 + 1.1364 + 1.3889 = 4.21. 2 = (a) Sous H0 notre statistique de test suit la loi du khi-deux à un degré de liberté. La table nous donne χ21,0.05 = 3.84. La valeur observée de notre statistique de test est plus grande que 3.84. Donc au seuil 5%, on rejette l’hypothèse d’indépendance entre la variable sexe et la variable opinion relative au Sénat. (b) La table nous permet de conclure que le p-value est 2 2 2 2 entre 0.050 et 0.100 2 entre 0.100 et 0.500 2 plus grand que 0.500 plus petit que 0.005 entre 0.005 et 0.010 entre 0.010 et 0.025 entre 0.025 et 0.050 (c) Il suffit de se rappeler que si U est une variable aléatoire qui suit la loi du khi-deux avec 1 degré de liberté, alors U a la même distribution que Z 2 , avec Z ∼ N (0, 1). P[U ≥ 1.44] = P[Z 2 ≥ 1.44] = P[|Z| ≥ 1.20] = 2 P[Z ≥ 1.20] = 2 (1 − Φ(1.20)) = 2 (1 − 0.8849) = 2 × 0.1151 = 0.2302 Remarque. Avec cette technique on peut obtenir une meilleure idée du p-value de la partie (b) : √ p-value = PH0 [U ≥ 4.21] ≈ 2 P[Z ≥ 4.21] = 2 P[Z ≥ 2.05] = 2 × 0.0202 = 0.0404. 6