STT-1920 : Méthodes statistiques

Transcription

STT-1920 : Méthodes statistiques
STT-1920 : Méthodes statistiques
SOLUTION DE L’EXAMEN NUMÉRO 3
Mardi le 29 avril 2014
Solution du numéro 1. On calcule d’abord la moyenne échantillonnale globale :
y ·· =
(10 × 5.40) + (8 × 4.20) + (12 × 5.20)
150
=
= 5.00 lbs.
30
30
Ensuite on calcule le SSTR :
SSTR = 10 (5.40 − 5.00)2 + 8 (4.20 − 5.00)2 + 12 (5.20 − 5.00)2 = 7.20 lbs2 .
Le nombre de degrés de liberté associés au SSTR est I − 1 = 3 − 1 = 2. Le M STR est donc
M STR =
SSTR
7.20
=
= 3.60 lbs2
I −1
2
On calcule ensuite le SSE :
SSE = (n1 − 1)s21 + (n2 − 1)s22 + (n3 − 1)s23
= (9 × (1.24)2 ) + (7 × (1.47)2 ) + (11 × (0.95)2 ) = 38.89 lbs2 .
Le nombre de degrés de liberté associés à ce M SE est N − I = (n1 + n2 + n3 ) − 3 = 27. Le
M SE est donc
M SE
38.89
M SE =
=
= 1.44 lbs2
N −I
27
La valeur observée de notre statistique de test est donc
Fobs =
M STR
3.60
=
= 2.50.
M SE
1.44
D’après la table fournie avec l’examen, le p-value est
PH0 [F ≥ 2.50] = 1 − PH0 [F < 2.50] = 1 − 0.8991 = 0.1009.
Voici donc la table d’anova :
Source de
Somme de
Degrés
Moyenne
Valeur
p-value
variation
carrés
liberté
de carrés
F
----------------------------------------------------------------Variété
7.20
2
3.60
2.50
0.1009
Résiduelle
38.89
27
1.44
Totale
46.09
29
Solution du numéro 2.
(a)
2 Au seuil 5%, il n’y a pas lieu de rejeter l’hypothèse de normalité.
2 Au seuil 5%, on rejette l’hypothèse de normalité.
2 Pour obtenir le p-value correspondant à ce Wobs , il faudrait utiliser le R-Commander.
Notre assistant aurait dû suivre le cours STT-1920.
Explication : L’assistant aurait dû savoir que la statistique de Shapiro et Wilk est
toujours un nombre entre 0 et 1. Si l’assistant a obtenu Wobs = 1.273, c’est parce qu’il
a fait une erreur. En voyant ce Wobs = 1.273, l’assistant aurait dû se rendre compte que
c’était une erreur.
(b)
2 Le p-value est plus petit que 1/100.
2 Le p-value est entre 1/100 et 1/20.
2 Le p-value est entre 1/20 et 1/10.
Le p-value est entre 1/10 et 5/10.
2 Le p-value est entre 5/10 et 9/10.
2 Le p-value est plus grand que 9/10.
Explication : Sous H0 , la statistique K-squared de Bartlett suit à peu près la loi du
khi-deux avec I − 1 = 3 − 1 = 2 degrés de liberté. Avec une valeur observée de 1.633, la
table de la loi du khi-deux nous permet de conclure que le p-value est quelque part entre
0.100 et 0.500 c’est-à-dire entre 1/10 et 5/10.
(c) Pour chacun des 3 échantillons, on calcule le plus petit résidu et le plus grand résidu. On
obtient les résultats suivants :
Variété
Plus petit
Plus grand
de tomate
résidu
résidu
Siberia
−2.05 lbs
2.15 lbs
Sub-Arctique
−1.55 lbs
2.05 lbs
Valencia
−1.75 lbs
1.75 lbs
Le plus petit des 30 résidus est donc égal à -2.05 lbs alors que le plus grand est égal à
2.15 lbs.
2
Solution du numéro 3.
Response: TAILLE
SOL
Residuals
Sum Sq
0.48025
4.37500
Df
4
70
F-value
1.921
Pr(>F)
0.11568
(a) La table d’anova nous donne I − 1 = 4. Le nombre de types de sol qui ont été comparés
est donc I = 5.
(b) La table d’anova nous donne N − I = 70. Le nombre d’épinettes ont été utilisées dans
cette expérience est donc N = 75.
(c)
σ̂ =
√
√
√
√
M SE = SSE/(N − I) = 4.375/70 = 0.0625 = 0.250.
(d) On utilise l’intervalle
(√
(N − I) M SE
,
χ2N −I, α
2
√
(N − I) M SE
χ2N −I,1− α
)
2
Ici on a N − I = 70 et M SE = 0.0625. La table de la loi du khi-deux nous donne
χ2N −I, α = χ270,0.05 = 90.53
2
χ2N −I,1− α
2
On obtient donc
= χ270,0.95 = 51.74.
(√
I.C. de niveau 95% pour σ
)
√
(N − I) M SE
(N − I) M SE
=
,
χ2N −I, α
χ2N −I,1− α
2
(√
)2
√
70 × 0.0625
70 × 0.0625
=
,
90.53
51.74
)
(√
√
0.0483265 , 0.0845574
=
= (0.220, 0.920).
(e)
PH0 [F < 1.921] = 1 − 0.11568 = 0.88432.
3
Solution du numéro 4.
moyenne des 102 quotients intellectuels
écart-type des 102 quotients intellectuels
moyenne des 102 cotes R
écart-type 102 cotes R
corrélation échantillonnale
=
=
=
=
=
104.8
12.5
28.75
2.25
0.753
(a) Estimation pour la moyenne théorique des cotes R des finissants dont le quotient intellectuel est 120 :
)
(
)
(
120 − x
120 − 104.8
µ̂Y |X = 120 = y + r sY
= 30.81.
= 28.75 + (0.753)(2.25)
sX
12.5
(b) Estimation pour l’écart-type théorique des cotes R des finissants dont le quotient intellectuel est 120 :
√
√
√
√
n−1
101
σ̂ = M SE =
(1 − r2 ) s2Y =
(1 − (0.753)2 ) (2.25)2 = 2.2139 = 1.49.
n−2
100
(c)
(
)
28.78 − µY |X = 120
P[Y > 28.75 | X = 120] = 1 − Φ
σ
(
)
28.78 − 30.81
≈ 1−Φ
1.49
= 1 − Φ(−1.38) = Φ(1.38) = 0.9162.
(d) Pourcentage de la variation de la cote R est expliquée par le quotient intellectuel du
finissant : r2 = (0.753)2 = 0.5670 = 56.70%.
4
Solution du numéro 5. On considère un jeu de données bivariées de taille n = 600, disons
(x1 , y1 ), (x2 , y2 ), (x3 , y3 ), ..., (x600 , y600 ). On suppose que les hypothèses du modèle de régression
linéaire simple sont satisfaites. À partir des deux graphes ci-dessous, obtenez
(a) Estimation pour le paramètre β0 du modèle de régression linéaire simple : β̂0 = 3.00. On
lit cette valeur directement sur le graphe de la droite de régression empirique. Il s’agit de
l’ordonnée à l’origine (c’est-à-dire la valeur y à l’endroit où la droite coupe d’axe des y).
(b) Estimation pour le paramètre β1 du modèle de régression linéaire simple : β̂1 = 2.0. On
lit cette valeur directement sur le graphe de la droite de régression empirique. Il s’agit de
la pente de la droite (c’est-à-dire l’accroissement en y correspondant à un accroissement
de 1 en x).
(c) Estimation pour le paramètre σ du modèle de régression linéaire simple : σ̂ ≈ 3. Il s’agit
de l’écart-type de l’histogramme des résidus.
(d) Le résidu associé à l’observation (x437 , y437 ) = (3.50, 8.50) est
y437 − (β̂0 + β̂1 x437 = 8.50 − (3.00 + (2.00 × 3.50)) = 8.50 − 10.00 = −1.50.
Solution du numéro 6. Pour tester
H0 : ρ = 0
contre
H1 : ρ > 0
on utilise la règle de décision suivante :
√
n − 2r
On rejette H0 si √
≥ tn−2,α .
1 − r2
Sous H0 , la statistique T =
obtient
Tobs
tn−2,α
√
√n−2 r
1−r2
suit la loi de Student avec n − 2 degrés de liberté. Ici on
√
√
n − 2r
30 × 0.375
= √
=
= 2.2156
2
1 − (0.375)2
1−r
= t30,0.05 = 1.697.
(a) Au seuil 5%, on rejette l’hypothèse nulle.
(b) D’après la table, le p-value est entre 1% et 2.5%.
5
Solution du numéro 7. On calcule d’abord les fréquences espérées Eij sous l’hypothèse
O O
d’indépendance. Pour y arriver, on utilise la formule Eij = i·n ·j . On obtient les résultats
indiqués entre parenthèses dans le tableau ci-dessous :
Abolition
Réforme
Homme
38 (33)
22 (27)
60
Femme
17 (22)
23 (18)
40
55
45
100
On calcule ensuite la valeur observée de notre statistique du khi-deux :
2 ∑
2
∑
(Oij − Eij )2
=
Eij
i=1 j=1
(
)2
Oi· O·j
2
2
∑ ∑ Oij − n
=
Oi· O·j
Uobs
i=1 j=1
n
(38 − 33)
(22 − 27)2 (17 − 22)2 (23 − 18)2
+
+
+
33
27
22
18
= 0.7576 + 0.9259 + 1.1364 + 1.3889 = 4.21.
2
=
(a) Sous H0 notre statistique de test suit la loi du khi-deux à un degré de liberté. La table
nous donne
χ21,0.05 = 3.84.
La valeur observée de notre statistique de test est plus grande que 3.84. Donc au seuil
5%, on rejette l’hypothèse d’indépendance entre la variable sexe et la variable opinion
relative au Sénat.
(b) La table nous permet de conclure que le p-value est
2
2
2
2 entre 0.050 et 0.100
2 entre 0.100 et 0.500
2 plus grand que 0.500
plus petit que 0.005
entre 0.005 et 0.010
entre 0.010 et 0.025
entre 0.025 et 0.050
(c) Il suffit de se rappeler que si U est une variable aléatoire qui suit la loi du khi-deux avec
1 degré de liberté, alors U a la même distribution que Z 2 , avec Z ∼ N (0, 1).
P[U ≥ 1.44] = P[Z 2 ≥ 1.44] = P[|Z| ≥ 1.20]
= 2 P[Z ≥ 1.20] = 2 (1 − Φ(1.20))
= 2 (1 − 0.8849) = 2 × 0.1151 = 0.2302
Remarque. Avec cette technique on peut obtenir une meilleure idée du p-value de la
partie (b) :
√
p-value = PH0 [U ≥ 4.21] ≈ 2 P[Z ≥ 4.21] = 2 P[Z ≥ 2.05] = 2 × 0.0202 = 0.0404.
6