Tests d`hypothèse

Transcription

Tests d`hypothèse
P brincipe des tests d’hypothèses sur les moyennes
Rappel : vous devez procéder en 5 étapes :
1. Formuler une hypothèse de recherche (H1)
2. Formuler une hypothèse nulle (H0) dont l’objectif est de la battre lors du test. Il s’agit d’une hypothèse d’un
évènement dont on ne veut pas qu’il arrive
3. Choisir un seuil de signification. Celui-ci va donner un seuil à travers lequel on teste l’hypothèse nulle.
L’inverse du seuil de signification est constitué de l’intervalle de confiance de notre test
4. Choisir une distribution théorique (distribution normale, t de Student) en fonction de la taille de l’échantillon
5. Se prononcer sur la validité de l’hypothèse nulle
Objectif : Vous avez les résultats d’un échantillon de données, et vous souhaitez en tirer des conséquences sur les
caractéristiques de la population. Vous savez que vous ne pouvez pas avoir de résultat précis à partir d’un
échantillon, mais vous pouvez toujours opérer à un certain nombre d’estimations. À partir des statistiques de votre
échantillon, vous allez tester vos données pour voir ce que le les données ne sont pas, à défaut de pouvoir
déterminer ce qu’elles sont. Ce que vous ne voulez pas, vous le formulez sous forme d’hypothèse nulle (H0).
Les données dont vous avez besoin :
- Moyenne de l’échantillon
- Taille de la population
- Écart-type de l’échantillon
- Une hypothèse de recherche
- Taille de l’échantillon
- Une hypothèse nulle
VALEUR CRITIQUE DE Z OU DE t DANS LE CAS D’UNE VÉRIFICATION BILATÉRALE
Seuil de signification de 10 % Seuil de signification de 5 %
Seuil de signification de 1 %
0.9 (90 %)
0.95 (95 %)
0.99 (99 %)
Valeur critique
+/- 1.64
+/- 1.96
+/- 2.58
Distribution normale
Vérification bilatérale
exemple : seuil de signification de 5%
On cherche à tester
L’aire contenue entre les deux
une « hypothèse nulle égale à »
L’aire contenue
bornes
est égale entre
à 95 %
lesdes
deux
cas
bornes est égale à 95 % des cas
possibles
possibles
47,5 %
-1.96
t de Student
47,5 %
+1.96
Bilatéral veut dire
que l’on teste une
hypothèse nulle
des deux côtés
Voir la table des valeurs de t pour des seuils de signification POUR VÉRIFICATION
BILATÉRALE de 0,1 (=90 %) ; 0,05 (95 %) et 0,01 (99 %)
Rappel : le dl signifie de degré de liberté. Pour choisir la bonne ligne, dites-vous que le degré de
liberté est toujours égal à l’échantillon moins 1 (=n-1).
Exemple : pour un échantillon de 25 : dl=n-1=25-1=24
Si pour cet échantillon de 25 vous cherchez à avoir un seuil de signification de 5 %, alors votre
valeur critique de t sera égale à 2,064
1
VALEUR CRITIQUE DE Z OU DE t DANS LE CAS D’UNE VÉRIFICATION UNILATÉRALE
Intervalle (ou niveau) de
0.9 (90 %)
0.95 (95 %)
0.99 (99 %)
confiance
Cote
Soit +1,28 ; soit – 1,28
Soit + 1,64, soit – 1,64
Soit +2,33, soit -2,33
Distribution normale
Vérification unilatérale à droite
exemple : seuil de signification de 5%
On cherche à tester
L’aire contenue avant la borne est
une « hypothèse nulle inférieure à »
égale à 95 % des cas possibles
95 %
5%
+1.64
Distribution normale
Vérification unilatérale à gauche
exemple : seuil de signification de 5%
On cherche à tester
une « hypothèse nulle supérieure à »
L’aire contenue après la borne est
égale à 95 % des cas possibles
95 %
5%
-1,64
T de Student
Unilatéral veut
dire que l’on
teste l’hypothèse
nulle d’un seul
côté
Unilatéral veut
dire que l’on
teste l’hypothèse
nulle d’un seul
côté
Voir la table des valeurs de t pour des seuils de signification POUR VÉRIFICATION
UNILATÉRALE de 0,1; 0,05 et 0,01
Rappel : le dl signifie de degré de liberté. Pour choisir la bonne ligne, dites-vous que le degré de
liberté est toujours égal à l’échantillon moins 1 (=n-1).
Exemple : pour un échantillon de 25 : dl=n-1=25-1=24
Si pour cet échantillon de 25 vous cherchez à avoir un seuil de signification de 5 %, alors votre t
sera égal à 1,711
2
Formule de calcul d’une cote Z ou d’un t afin de tester une hypothèse nulle
Échantillon/
n/N>1/20
n/N<1/20
population (n/N)
=
légende
Taille de
l’échantillon
(erreur type sans correctif)
xi n < 30
=
(On ulitise t)
xi -
0
t=
σ
avec
σ
σ
= s / √n
avec
= s / √n * √ (N-n)
(N-1)
0
Z=
σ
avec
σ
xi -
0
Z=
(On utilise Z)
0
t=
xi n > 30
(erreur type avec correctif)
σ
σ
= s / √n
avec
σ
0 = moyenne de la
population selon votre
hypothèse nulle
xi = moyenne de l’échantillon
t = t de Student
σ
= erreur type
s = écart-type de l’échantillon
n = taille de l’échantillon
N= taille de la population
√= racine
= s / √n * √ (N-n)
(N-1)
Votre Z calculé va devoir être comparé avec la cote Z.
1. Déterminez une hypothèse nulle
2. Calculez la cote Z ou le t de votre donnée d’échantillon en fonction de l’hypothèse nulle en fonction du tableau
ci-dessus.
3. Comparez votre cote Z ou le t calculé avec la valeur critique de Z ou de t en fonction de votre seuil de
signification
Hypothèse nulle est rejetée si :
L’hypothèse nulle ne peut pas être rejetée si
La valeur calculée de Z (ou de t) se trouve
La valeur calculée de Z (ou de t) se trouve à
au-delà
des
bornes
de
la
valeur
critique
de
Z
l’intérieur des bornes de la valeur critique
Vérification
(ou de t)
de Z (ou de t)
bilatérale
Z calculé < Z critique négatif
Ou Z calculé > Z critique positif
Vérification
unilatérale à droite
Vérification
unilatérale à gauche
Z critique négatif < Z calculé < Z critique positif
La valeur calculée de Z (ou de t) est
La valeur calculée de Z (ou de t) est
supérieure à la borne de la valeur critique de supérieure à la borne de la valeur critique de
Z (ou de t)
Z (ou de t)
Z critique < Z calculé
Z calculé < Z critique
La valeur calculée de Z (ou de t) est
inférieure à la borne de la valeur critique de
Z (ou de t)
La valeur calculée de Z (ou de t) est
inférieure à la borne de la valeur critique de
Z (ou de t)
Z calculé < Z critique
Z critique < Z calculé
Exemple :
Selon un sondage portant sur (n=) 1 000 personnes de la population québécoise (N= 7 000 000), le revenu moyen de
l’échantillon était de 28 000 $ avec un écart-type de 7 000 $
Nous allons faire trois hypothèses nulles successives, afin de comprendre de fonctionnement des trois tests
disponible.
1. test bilatéral
3
Hypothèse de recherche H1: la population québécoise a un revenu moyen différent de 27 000 $
Hypothèse nulle
H0: La population québécoise a un revenu moyen égal à 27 000 $
Nous cherchons à tester l’hypothèse avec un seuil de signification de 5 %.
Calculons d’abord le Z à partir de nos données (n/N< à 1/20 ; n>30)
xi - 0
28 000-27 000
Z=
=
= + 4,51
σ
7 000 / √1 000
Les valeurs critiques de Z sont : - 1,96 et + 1,96 donc le Z calculé plus grand que la borne supérieure de la valeur
critique, car 4,51 > 1,96
Dans ces conditions, nous pouvons rejeter l’hypothèse nulle selon laquelle les Québécois ont un revenu moyen égal à
27000 $, avec un seuil de signification de 5 % (nous pouvons affirmer avec un intervalle de confiance de 95 %, que le
revenu moyen des Québécois est différent de 27 000 $)
2. Test unilatéral à droite
Hypothèse de recherche H1: la population québécoise a un revenu moyen supérieur à 27 000 $
Hypothèse nulle
H0: La population québécoise a un revenu inférieur à 27 000 $
Z calculé = + 4,51
Z critique unilatéral avec un seuil de 5 % = + 1,64
+4,51 > +1,64
Dans ces conditions, nous pouvons rejeter l’hypothèse nulle selon laquelle les Québécois ont un revenu moyen
inférieur à 27 000 $, avec un seuil de signification de 5 % (nous pouvons affirmer avec un intervalle de confiance de
95 %, que le revenu moyen des Québécois est supérieur à 27 000 $)
3. Test unilatéral à gauche
Hypothèse de recherche H1: la population québécoise a un revenu moyen inférieur à 27 000 $
Hypothèse nulle
H0: La population québécoise a un revenu supérieur à 27 000 $
Z calculé = + 4,51
Z critique unilatéral avec un seuil de 5 % = - 1,64
+4,51 > -1,64
Dans ces conditions, nous ne pouvons pas rejeter l’hypothèse nulle selon laquelle les Québécois ont un revenu moyen
supérieur à 27000 $, avec un seuil de signification de 5 % (nous ne pouvons donc pas affirmer avec un intervalle de
confiance de 95 %, que le revenu moyen des Québécois soit inférieur à 27 000 $)
Variante n° 2
Hypothèse de recherche H1: la population québécoise a un revenu moyen inférieur à 28500 $
Hypothèse nulle
H0: La population québécoise a un revenu supérieur à 28500 $
xi Z=
28 000-28 500
0
=
= - 2,25
-2,25 < -1.64
4
σ
7 000 / √1 000
Z critique unilatéral avec un seuil de 5 % = - 1,64
Dans ces conditions, nous pouvons rejeter l’hypothèse nulle selon laquelle les Québécois ont un revenu moyen
supérieur à 28500 $, avec un seuil de signification de 5 % (nous pouvons donc affirmer avec un intervalle de
confiance de 95 %, que le revenu moyen des Québécois est inférieur à 28 500 $)
Principe des tests d’hypothèses sur les pourcentages
Formule de calcul d’une cote Z ou d’un t afin de tester une hypothèse nulle pour un pourcentage
Échantillon/
n/N>1/20
n/N<1/20
population (n/N)
=
légende
Taille de
(erreur type sans correctif)
(erreur type avec correctif)
l’échantillon
π = pourcentage concerné
p-π
p-π
de la population selon
t=
t=
n < 30
votre hypothèse nulle
=
p = pourcentage concerné
de l’échantillon
(On ulitise t)
avec
=√ (p*q / n) avec
= √ (p*q / n )* √ (N-n)
(N-1)
t = t de Student
n > 30
σ
σ
σ
σ
p-π
p-π
Z=
σ
(On utilise Z)
avec
σ
Z=
σ
σ
=√ (p*q / n)
avec
σ
= √ (p*q / n )* √ (N-n)
(N-1)
= erreur type
q = inverse du pourcentage
de p = (100-p)
n = taille de l’échantillon
N= taille de la population
√= racine
Votre Z calculé va devoir être comparé avec la cote Z.
1. Déterminez une hypothèse nulle
2. Calculez la cote Z ou le t de votre donnée d’échantillon en fonction de l’hypothèse nulle en fonction du tableau
ci-dessus.
3. Comparez votre cote Z ou le t calculé avec la valeur critique de Z ou de t en fonction de votre seuil de
signification
Hypothèse nulle est rejetée si :
L’hypothèse nulle ne peut pas être rejetée si
La valeur calculée de Z (ou de t) se trouve
La valeur calculée de Z (ou de t) se trouve à
au-delà
des
bornes
de
la
valeur
critique
de
Z
l’intérieur des bornes de la valeur critique
Vérification
(ou de t)
de Z (ou de t)
bilatérale
Z calculé < Z critique négatif
Ou Z calculé > Z critique positif
Vérification
unilatérale à droite
Vérification
unilatérale à gauche
Z critique négatif < Z calculé < Z critique positif
La valeur calculée de Z (ou de t) est
La valeur calculée de Z (ou de t) est
supérieure à la borne de la valeur critique de supérieure à la borne de la valeur critique de
Z (ou de t)
Z (ou de t)
Z critique < Z calculé
Z calculé < Z critique
La valeur calculée de Z (ou de t) est
inférieure à la borne de la valeur critique de
Z (ou de t)
La valeur calculée de Z (ou de t) est
inférieure à la borne de la valeur critique de
Z (ou de t)
Z calculé < Z critique
Z critique < Z calculé
5
Exemple :
Selon un sondage portant sur (n=) 800 personnes des étudiants de l’UQAM (N= 40 000), 40 % avaient un revenu
inférieur à 10 000 $
Nous allons faire trois hypothèses nulles successives, afin de comprendre de fonctionnement des trois tests
disponible.
1. test bilatéral
Hypothèse de recherche H1: le % des étudiants de l’UQÀM ayant un revenu inférieur à 10 000 $ est différent de 45 %
Hypothèse nulle
H0: le % des étudiants de l’UQÀM ayant un revenu inférieur à 10 000 $ est égal à 45 %
Nous cherchons à tester l’hypothèse avec un seuil de signification de 1 %.
Calculons d’abord le Z à partir de nos données (n/N< à 1/20 ; n>30)
p-π
40−45
Z=
=
= - 2,89
σ
√(40*60 / 800)
Les valeurs critiques de Z sont : - 2,58 et + 2,58 donc le Z calculé plus petit que la borne inférieure de la valeur
critique, car -2,89 < -2,58
Dans ces conditions, nous pouvons rejeter l’hypothèse nulle selon le % des étudiants de l’UQÀM ayant un revenu
inférieur à 10 000 $ est égal à 45 %, avec un seuil de signification de 1 % (nous pouvons affirmer avec un intervalle
de confiance de 99 %, le % des étudiants de l’UQÀM ayant un revenu inférieur à 10 000 $ est différent de 45 %
2. Test unilatéral à droite
Hypothèse de recherche H1: le % des étudiants de l’UQÀM ayant un revenu inférieur à 10 000 $ est supérieur à 45 %
Hypothèse nulle
H0: le % des étudiants de l’UQÀM ayant un revenu inférieur à 10 000 $ est inférieur à 45 %
Z calculé = - 2,89
Z critique unilatéral avec un seuil de 15 % = + 2,33
-2,89 < 2,33
Dans ces conditions, nous ne pouvons pas rejeter l’hypothèse nulle selon laquelle le % des étudiants de l’UQÀM
ayant un revenu inférieur à 10 000 $ est inférieur à 45 %, avec un seuil de signification de 1 % (Il est donc impossible
d’affirmer avec un intervalle de confiance de 99 %, que le % des étudiants de l’UQÀM ayant un revenu inférieur à 10
000 $ est supérieur à 45 %)
3. Test unilatéral à gauche
Hypothèse de recherche H1: le % des étudiants de l’UQÀM ayant un revenu inférieur à 10 000 $ est inférieur à 45 %
Hypothèse nulle
H0: le % des étudiants de l’UQÀM ayant un revenu inférieur à 10 000 $ est supérieur à 45 %
Z calculé = - 2,89
Z critique unilatéral avec un seuil de 1 % = -2,33
-2,89 > - 2,33
Dans ces conditions, nous pouvons rejeter l’hypothèse nulle selon laquelle le % des étudiants de l’UQÀM ayant un
revenu inférieur à 10 000 $ est supérieur à 45 %, avec un seuil de signification de 1 % (nous pouvons donc affirmer
avec un intervalle de confiance de 99 %, que le le % des étudiants de l’UQÀM ayant un revenu inférieur à 10 000 $
est inférieur à 45 %)
6
Tests relatifs à une différence de moyenne
Formule de calcul d’une cote Z ou d’un t afin de tester une hypothèse nulle
Taille de
l’échantillon
n1 + n2 < 30
n1 + n2 > 30
=
(On ulitise t)
(On ulitise Z)
(x1 – x2) - (
(x1 – x2) - (
2)
1 -
t=
Z=
σx -x
1
avec
σx -x
1
2
=
s1 ²
n1
σx -x
2
1
+
2
s2 ²
n2
1 -
légende
2)
différence théorique
des moyennes selon votre
hypothèse nulle
x1 – x2 = différence des
moyennes des échantillons
1 -
σx -x
1
2=
2
= erreur type
s1 = écart-type de l’échantillon 1
s2 = écart-type de l’échantillon 2
n1 = taille de l’échantillon 1
n2= taille de l’échantillon 2
Votre Z calculé va devoir être comparé avec la cote Z.
1. Déterminez une hypothèse nulle qui est : 1 = 2 (donc 1 - 2 = 0)
2 proposez votre hypothèse de recherche H1.
2. Calculez la cote Z ou le t de votre donnée d’échantillon en fonction de l’hypothèse nulle en fonction du tableau
ci-dessus.
3. Comparez votre cote Z ou le t calculé avec la valeur critique de Z ou de t en fonction de votre seuil de
signification
Hypothèse nulle est rejetée si :
L’hypothèse nulle ne peut pas être rejetée si
La valeur calculée de Z (ou de t) se trouve
La valeur calculée de Z (ou de t) se trouve à
au-delà des bornes de la valeur critique de Z l’intérieur des bornes de la valeur critique
Vérification
(ou de t)
de Z (ou de t)
bilatérale
Z calculé < Z critique négatif
Ou Z calculé > Z critique positif
Vérification
unilatérale à droite
Z critique négatif < Z calculé < Z critique positif
La valeur calculée de Z (ou de t) est
La valeur calculée de Z (ou de t) est
supérieure à la borne de la valeur critique de supérieure à la borne de la valeur critique de
Z (ou de t)
Z (ou de t)
Z critique < Z calculé
Z calculé < Z critique
Vérification
unilatérale à gauche
La valeur calculée de Z (ou de t) est
inférieure à la borne de la valeur critique de
Z (ou de t)
La valeur calculée de Z (ou de t) est
inférieure à la borne de la valeur critique de
Z (ou de t)
Z calculé < Z critique
Z critique < Z calculé
T de Student
Voir la table des valeurs de t pour des seuils de signification POUR VÉRIFICATION
UNILATÉRALE ou BILATÉRALE en fonction du groupe de 0,1; 0,05 et 0,01
Rappel : le dl signifie de degré de liberté. Pour choisir la bonne ligne, dites-vous que le degré de liberté est
toujours égal à la somme des échantillons échantillon moins 1 (=n1+ n2-1).
Exemple : pour deux échantillon de 12 et 13 personnes : dl= n1+ n2-1= 12+13-1= 25-1=24
Si pour cet échantillon de 25 vous cherchez à avoir un seuil de signification de 5 %, alors votre t sera égal à
2,064 dans le cas d’un test bilatéral et 1,711 dans le cas d’un test unilatéral
7
Vous voulez savoir si la différence de note entre les femmes et les hommes est significative dans une classe donnée.
Le groupe de 15 hommes à une moyenne de 82 (écart-type de 12) et le groupe de 17 femmes est de 87 (écart-type de
15). Vous allez donc utiliser la formule :
Hypothèse nulle
H0: Il n’y a pas de différence entre les moyennes 1 = 2 (donc 1 - 2 = 0)
Hypothèse de recherche H1: Il n’y a pas de différence entre les moyennes 1 ≠ 2 (donc 1 - 2 ≠ 0)
82-87 – 0
-5
(x1 – x2) - ( 1 - 2)
Z=
=
=
= -1,04
σx -x
1
2
√ ((12²/15)+ (15²/17))
4,78
Z critique pour un seul de signification de 1 % (vérification bilatérale) est : +/- 2.58
Comme le Z calculé est compris entre les deux bornes du Z critique, alors H0 ne peut être rejetée. La différence entre
les deux moyennes n’est donc pas significative au seuil de signification de 1 %.
8
Tests relatifs à une différence de pourcentages
Formule de calcul d’une cote Z ou d’un t afin de tester une hypothèse nulle
n > 30
n < 30
Taille de
l’échantillon
=
(On ulitise t*)
(p1 – p2) -
(π1
-
(p1 – p2) - (π1
π2)
t=
Z=
σp -p
1
avec
σ p -p =
1
2
σp -p
2
p1*q1
n1
légende
(On ulitise Z)
1
+
2
p2*q2
n2
-
π2)
π1 - π2 = différence théorique des
pourcentages selon votre hypothèse
nulle
p1 – p2= différence des
pourcentages des échantillons
t = t de Student
σ p -p = erreur type
1
2
q1 = 100- p1
q2 = 100- p2
n1 = taille de l’échantillon 1
n2= taille de l’échantillon 2
Votre Z calculé va devoir être comparé avec la cote Z.
1. Déterminez une hypothèse nulle qui est : π1 = π2 (donc π1 - π2= 0)
2. Calculez la cote Z ou le t de votre donnée d’échantillon en fonction de l’hypothèse nulle en fonction du tableau
ci-dessus.
3. Comparez votre cote Z ou le t calculé avec la valeur critique de Z ou de t en fonction de votre seuil de
signification
Hypothèse nulle est rejetée si :
L’hypothèse nulle ne peut pas être rejetée si
La valeur calculée de Z (ou de t) se trouve
La valeur calculée de Z (ou de t) se trouve à
au-delà
des
bornes
de
la
valeur
critique
de
Z
l’intérieur des bornes de la valeur critique
Vérification
(ou de t)
de Z (ou de t)
bilatérale
Z calculé < Z critique négatif
Ou Z calculé > Z critique positif
Vérification
unilatérale à droite
Vérification
unilatérale à gauche
T de Student
Z critique négatif < Z calculé < Z critique positif
La valeur calculée de Z (ou de t) est
La valeur calculée de Z (ou de t) est
supérieure à la borne de la valeur critique de supérieure à la borne de la valeur critique de
Z (ou de t)
Z (ou de t)
Z critique < Z calculé
Z calculé < Z critique
La valeur calculée de Z (ou de t) est
inférieure à la borne de la valeur critique de
Z (ou de t)
La valeur calculée de Z (ou de t) est
inférieure à la borne de la valeur critique de
Z (ou de t)
Z calculé < Z critique
Z critique < Z calculé
Voir la table des valeurs de t pour des seuils de signification POUR VÉRIFICATION
UNILATÉRALE ou BILATÉRALE en fonction du groupe de 0,1; 0,05 et 0,01
Rappel : le dl signifie de degré de liberté. Pour choisir la bonne ligne, dites-vous que le degré de liberté est
toujours égal à la somme des échantillons échantillon moins 1 (=n1+ n2-1).
Exemple : pour deux échantillon de 12 et 13 personnes : dl= n1+ n2-1= 12+13-1= 25-1=24
Si pour cet échantillon de 25 vous cherchez à avoir un seuil de signification de 5 %, alors votre t sera égal à
2,064 dans le cas d’un test bilatéral et 1,711 dans le cas d’un test unilatéral
9
Un homme politique cherche à savoir si les francophones et les non francophones (anglophones+allophones) ont des
intentions de vote significativement différentes dans son comté. 36 % des 48 francophones interrogées voteraient ce
politicien tandis que 33 % des 35 non francophones voteraient pour lui. Vous allez donc utiliser la formule :
Hypothèse nulle
H0: Il n’y a pas de différence entre les moyennes π1 = π2 (donc π1 - π2 = 0)
Hypothèse de recherche H1: Il n’y a pas de différence entre les moyennes π1 ≠ π2 (donc π1 - π2 ≠ 0)
(p1 – p2) - (π1
Z=
-
π2)
36-33 – 0
=
σp -p
1
2
3
=
√ ((36*64/48)+ (33*67/35))
= + 0,28
10,54
Z critique pour un seul de signification de 1 % (vérification bilatérale) est : +/- 2.58
Comme le Z calculé est compris entre les deux bornes du Z critique, alors H0 ne peut être rejetée. La différence entre
les deux proportions n’est donc pas significative au seuil de signification de 1 %.
10