Tests d`hypothèse
Transcription
Tests d`hypothèse
P brincipe des tests d’hypothèses sur les moyennes Rappel : vous devez procéder en 5 étapes : 1. Formuler une hypothèse de recherche (H1) 2. Formuler une hypothèse nulle (H0) dont l’objectif est de la battre lors du test. Il s’agit d’une hypothèse d’un évènement dont on ne veut pas qu’il arrive 3. Choisir un seuil de signification. Celui-ci va donner un seuil à travers lequel on teste l’hypothèse nulle. L’inverse du seuil de signification est constitué de l’intervalle de confiance de notre test 4. Choisir une distribution théorique (distribution normale, t de Student) en fonction de la taille de l’échantillon 5. Se prononcer sur la validité de l’hypothèse nulle Objectif : Vous avez les résultats d’un échantillon de données, et vous souhaitez en tirer des conséquences sur les caractéristiques de la population. Vous savez que vous ne pouvez pas avoir de résultat précis à partir d’un échantillon, mais vous pouvez toujours opérer à un certain nombre d’estimations. À partir des statistiques de votre échantillon, vous allez tester vos données pour voir ce que le les données ne sont pas, à défaut de pouvoir déterminer ce qu’elles sont. Ce que vous ne voulez pas, vous le formulez sous forme d’hypothèse nulle (H0). Les données dont vous avez besoin : - Moyenne de l’échantillon - Taille de la population - Écart-type de l’échantillon - Une hypothèse de recherche - Taille de l’échantillon - Une hypothèse nulle VALEUR CRITIQUE DE Z OU DE t DANS LE CAS D’UNE VÉRIFICATION BILATÉRALE Seuil de signification de 10 % Seuil de signification de 5 % Seuil de signification de 1 % 0.9 (90 %) 0.95 (95 %) 0.99 (99 %) Valeur critique +/- 1.64 +/- 1.96 +/- 2.58 Distribution normale Vérification bilatérale exemple : seuil de signification de 5% On cherche à tester L’aire contenue entre les deux une « hypothèse nulle égale à » L’aire contenue bornes est égale entre à 95 % lesdes deux cas bornes est égale à 95 % des cas possibles possibles 47,5 % -1.96 t de Student 47,5 % +1.96 Bilatéral veut dire que l’on teste une hypothèse nulle des deux côtés Voir la table des valeurs de t pour des seuils de signification POUR VÉRIFICATION BILATÉRALE de 0,1 (=90 %) ; 0,05 (95 %) et 0,01 (99 %) Rappel : le dl signifie de degré de liberté. Pour choisir la bonne ligne, dites-vous que le degré de liberté est toujours égal à l’échantillon moins 1 (=n-1). Exemple : pour un échantillon de 25 : dl=n-1=25-1=24 Si pour cet échantillon de 25 vous cherchez à avoir un seuil de signification de 5 %, alors votre valeur critique de t sera égale à 2,064 1 VALEUR CRITIQUE DE Z OU DE t DANS LE CAS D’UNE VÉRIFICATION UNILATÉRALE Intervalle (ou niveau) de 0.9 (90 %) 0.95 (95 %) 0.99 (99 %) confiance Cote Soit +1,28 ; soit – 1,28 Soit + 1,64, soit – 1,64 Soit +2,33, soit -2,33 Distribution normale Vérification unilatérale à droite exemple : seuil de signification de 5% On cherche à tester L’aire contenue avant la borne est une « hypothèse nulle inférieure à » égale à 95 % des cas possibles 95 % 5% +1.64 Distribution normale Vérification unilatérale à gauche exemple : seuil de signification de 5% On cherche à tester une « hypothèse nulle supérieure à » L’aire contenue après la borne est égale à 95 % des cas possibles 95 % 5% -1,64 T de Student Unilatéral veut dire que l’on teste l’hypothèse nulle d’un seul côté Unilatéral veut dire que l’on teste l’hypothèse nulle d’un seul côté Voir la table des valeurs de t pour des seuils de signification POUR VÉRIFICATION UNILATÉRALE de 0,1; 0,05 et 0,01 Rappel : le dl signifie de degré de liberté. Pour choisir la bonne ligne, dites-vous que le degré de liberté est toujours égal à l’échantillon moins 1 (=n-1). Exemple : pour un échantillon de 25 : dl=n-1=25-1=24 Si pour cet échantillon de 25 vous cherchez à avoir un seuil de signification de 5 %, alors votre t sera égal à 1,711 2 Formule de calcul d’une cote Z ou d’un t afin de tester une hypothèse nulle Échantillon/ n/N>1/20 n/N<1/20 population (n/N) = légende Taille de l’échantillon (erreur type sans correctif) xi n < 30 = (On ulitise t) xi - 0 t= σ avec σ σ = s / √n avec = s / √n * √ (N-n) (N-1) 0 Z= σ avec σ xi - 0 Z= (On utilise Z) 0 t= xi n > 30 (erreur type avec correctif) σ σ = s / √n avec σ 0 = moyenne de la population selon votre hypothèse nulle xi = moyenne de l’échantillon t = t de Student σ = erreur type s = écart-type de l’échantillon n = taille de l’échantillon N= taille de la population √= racine = s / √n * √ (N-n) (N-1) Votre Z calculé va devoir être comparé avec la cote Z. 1. Déterminez une hypothèse nulle 2. Calculez la cote Z ou le t de votre donnée d’échantillon en fonction de l’hypothèse nulle en fonction du tableau ci-dessus. 3. Comparez votre cote Z ou le t calculé avec la valeur critique de Z ou de t en fonction de votre seuil de signification Hypothèse nulle est rejetée si : L’hypothèse nulle ne peut pas être rejetée si La valeur calculée de Z (ou de t) se trouve La valeur calculée de Z (ou de t) se trouve à au-delà des bornes de la valeur critique de Z l’intérieur des bornes de la valeur critique Vérification (ou de t) de Z (ou de t) bilatérale Z calculé < Z critique négatif Ou Z calculé > Z critique positif Vérification unilatérale à droite Vérification unilatérale à gauche Z critique négatif < Z calculé < Z critique positif La valeur calculée de Z (ou de t) est La valeur calculée de Z (ou de t) est supérieure à la borne de la valeur critique de supérieure à la borne de la valeur critique de Z (ou de t) Z (ou de t) Z critique < Z calculé Z calculé < Z critique La valeur calculée de Z (ou de t) est inférieure à la borne de la valeur critique de Z (ou de t) La valeur calculée de Z (ou de t) est inférieure à la borne de la valeur critique de Z (ou de t) Z calculé < Z critique Z critique < Z calculé Exemple : Selon un sondage portant sur (n=) 1 000 personnes de la population québécoise (N= 7 000 000), le revenu moyen de l’échantillon était de 28 000 $ avec un écart-type de 7 000 $ Nous allons faire trois hypothèses nulles successives, afin de comprendre de fonctionnement des trois tests disponible. 1. test bilatéral 3 Hypothèse de recherche H1: la population québécoise a un revenu moyen différent de 27 000 $ Hypothèse nulle H0: La population québécoise a un revenu moyen égal à 27 000 $ Nous cherchons à tester l’hypothèse avec un seuil de signification de 5 %. Calculons d’abord le Z à partir de nos données (n/N< à 1/20 ; n>30) xi - 0 28 000-27 000 Z= = = + 4,51 σ 7 000 / √1 000 Les valeurs critiques de Z sont : - 1,96 et + 1,96 donc le Z calculé plus grand que la borne supérieure de la valeur critique, car 4,51 > 1,96 Dans ces conditions, nous pouvons rejeter l’hypothèse nulle selon laquelle les Québécois ont un revenu moyen égal à 27000 $, avec un seuil de signification de 5 % (nous pouvons affirmer avec un intervalle de confiance de 95 %, que le revenu moyen des Québécois est différent de 27 000 $) 2. Test unilatéral à droite Hypothèse de recherche H1: la population québécoise a un revenu moyen supérieur à 27 000 $ Hypothèse nulle H0: La population québécoise a un revenu inférieur à 27 000 $ Z calculé = + 4,51 Z critique unilatéral avec un seuil de 5 % = + 1,64 +4,51 > +1,64 Dans ces conditions, nous pouvons rejeter l’hypothèse nulle selon laquelle les Québécois ont un revenu moyen inférieur à 27 000 $, avec un seuil de signification de 5 % (nous pouvons affirmer avec un intervalle de confiance de 95 %, que le revenu moyen des Québécois est supérieur à 27 000 $) 3. Test unilatéral à gauche Hypothèse de recherche H1: la population québécoise a un revenu moyen inférieur à 27 000 $ Hypothèse nulle H0: La population québécoise a un revenu supérieur à 27 000 $ Z calculé = + 4,51 Z critique unilatéral avec un seuil de 5 % = - 1,64 +4,51 > -1,64 Dans ces conditions, nous ne pouvons pas rejeter l’hypothèse nulle selon laquelle les Québécois ont un revenu moyen supérieur à 27000 $, avec un seuil de signification de 5 % (nous ne pouvons donc pas affirmer avec un intervalle de confiance de 95 %, que le revenu moyen des Québécois soit inférieur à 27 000 $) Variante n° 2 Hypothèse de recherche H1: la population québécoise a un revenu moyen inférieur à 28500 $ Hypothèse nulle H0: La population québécoise a un revenu supérieur à 28500 $ xi Z= 28 000-28 500 0 = = - 2,25 -2,25 < -1.64 4 σ 7 000 / √1 000 Z critique unilatéral avec un seuil de 5 % = - 1,64 Dans ces conditions, nous pouvons rejeter l’hypothèse nulle selon laquelle les Québécois ont un revenu moyen supérieur à 28500 $, avec un seuil de signification de 5 % (nous pouvons donc affirmer avec un intervalle de confiance de 95 %, que le revenu moyen des Québécois est inférieur à 28 500 $) Principe des tests d’hypothèses sur les pourcentages Formule de calcul d’une cote Z ou d’un t afin de tester une hypothèse nulle pour un pourcentage Échantillon/ n/N>1/20 n/N<1/20 population (n/N) = légende Taille de (erreur type sans correctif) (erreur type avec correctif) l’échantillon π = pourcentage concerné p-π p-π de la population selon t= t= n < 30 votre hypothèse nulle = p = pourcentage concerné de l’échantillon (On ulitise t) avec =√ (p*q / n) avec = √ (p*q / n )* √ (N-n) (N-1) t = t de Student n > 30 σ σ σ σ p-π p-π Z= σ (On utilise Z) avec σ Z= σ σ =√ (p*q / n) avec σ = √ (p*q / n )* √ (N-n) (N-1) = erreur type q = inverse du pourcentage de p = (100-p) n = taille de l’échantillon N= taille de la population √= racine Votre Z calculé va devoir être comparé avec la cote Z. 1. Déterminez une hypothèse nulle 2. Calculez la cote Z ou le t de votre donnée d’échantillon en fonction de l’hypothèse nulle en fonction du tableau ci-dessus. 3. Comparez votre cote Z ou le t calculé avec la valeur critique de Z ou de t en fonction de votre seuil de signification Hypothèse nulle est rejetée si : L’hypothèse nulle ne peut pas être rejetée si La valeur calculée de Z (ou de t) se trouve La valeur calculée de Z (ou de t) se trouve à au-delà des bornes de la valeur critique de Z l’intérieur des bornes de la valeur critique Vérification (ou de t) de Z (ou de t) bilatérale Z calculé < Z critique négatif Ou Z calculé > Z critique positif Vérification unilatérale à droite Vérification unilatérale à gauche Z critique négatif < Z calculé < Z critique positif La valeur calculée de Z (ou de t) est La valeur calculée de Z (ou de t) est supérieure à la borne de la valeur critique de supérieure à la borne de la valeur critique de Z (ou de t) Z (ou de t) Z critique < Z calculé Z calculé < Z critique La valeur calculée de Z (ou de t) est inférieure à la borne de la valeur critique de Z (ou de t) La valeur calculée de Z (ou de t) est inférieure à la borne de la valeur critique de Z (ou de t) Z calculé < Z critique Z critique < Z calculé 5 Exemple : Selon un sondage portant sur (n=) 800 personnes des étudiants de l’UQAM (N= 40 000), 40 % avaient un revenu inférieur à 10 000 $ Nous allons faire trois hypothèses nulles successives, afin de comprendre de fonctionnement des trois tests disponible. 1. test bilatéral Hypothèse de recherche H1: le % des étudiants de l’UQÀM ayant un revenu inférieur à 10 000 $ est différent de 45 % Hypothèse nulle H0: le % des étudiants de l’UQÀM ayant un revenu inférieur à 10 000 $ est égal à 45 % Nous cherchons à tester l’hypothèse avec un seuil de signification de 1 %. Calculons d’abord le Z à partir de nos données (n/N< à 1/20 ; n>30) p-π 40−45 Z= = = - 2,89 σ √(40*60 / 800) Les valeurs critiques de Z sont : - 2,58 et + 2,58 donc le Z calculé plus petit que la borne inférieure de la valeur critique, car -2,89 < -2,58 Dans ces conditions, nous pouvons rejeter l’hypothèse nulle selon le % des étudiants de l’UQÀM ayant un revenu inférieur à 10 000 $ est égal à 45 %, avec un seuil de signification de 1 % (nous pouvons affirmer avec un intervalle de confiance de 99 %, le % des étudiants de l’UQÀM ayant un revenu inférieur à 10 000 $ est différent de 45 % 2. Test unilatéral à droite Hypothèse de recherche H1: le % des étudiants de l’UQÀM ayant un revenu inférieur à 10 000 $ est supérieur à 45 % Hypothèse nulle H0: le % des étudiants de l’UQÀM ayant un revenu inférieur à 10 000 $ est inférieur à 45 % Z calculé = - 2,89 Z critique unilatéral avec un seuil de 15 % = + 2,33 -2,89 < 2,33 Dans ces conditions, nous ne pouvons pas rejeter l’hypothèse nulle selon laquelle le % des étudiants de l’UQÀM ayant un revenu inférieur à 10 000 $ est inférieur à 45 %, avec un seuil de signification de 1 % (Il est donc impossible d’affirmer avec un intervalle de confiance de 99 %, que le % des étudiants de l’UQÀM ayant un revenu inférieur à 10 000 $ est supérieur à 45 %) 3. Test unilatéral à gauche Hypothèse de recherche H1: le % des étudiants de l’UQÀM ayant un revenu inférieur à 10 000 $ est inférieur à 45 % Hypothèse nulle H0: le % des étudiants de l’UQÀM ayant un revenu inférieur à 10 000 $ est supérieur à 45 % Z calculé = - 2,89 Z critique unilatéral avec un seuil de 1 % = -2,33 -2,89 > - 2,33 Dans ces conditions, nous pouvons rejeter l’hypothèse nulle selon laquelle le % des étudiants de l’UQÀM ayant un revenu inférieur à 10 000 $ est supérieur à 45 %, avec un seuil de signification de 1 % (nous pouvons donc affirmer avec un intervalle de confiance de 99 %, que le le % des étudiants de l’UQÀM ayant un revenu inférieur à 10 000 $ est inférieur à 45 %) 6 Tests relatifs à une différence de moyenne Formule de calcul d’une cote Z ou d’un t afin de tester une hypothèse nulle Taille de l’échantillon n1 + n2 < 30 n1 + n2 > 30 = (On ulitise t) (On ulitise Z) (x1 – x2) - ( (x1 – x2) - ( 2) 1 - t= Z= σx -x 1 avec σx -x 1 2 = s1 ² n1 σx -x 2 1 + 2 s2 ² n2 1 - légende 2) différence théorique des moyennes selon votre hypothèse nulle x1 – x2 = différence des moyennes des échantillons 1 - σx -x 1 2= 2 = erreur type s1 = écart-type de l’échantillon 1 s2 = écart-type de l’échantillon 2 n1 = taille de l’échantillon 1 n2= taille de l’échantillon 2 Votre Z calculé va devoir être comparé avec la cote Z. 1. Déterminez une hypothèse nulle qui est : 1 = 2 (donc 1 - 2 = 0) 2 proposez votre hypothèse de recherche H1. 2. Calculez la cote Z ou le t de votre donnée d’échantillon en fonction de l’hypothèse nulle en fonction du tableau ci-dessus. 3. Comparez votre cote Z ou le t calculé avec la valeur critique de Z ou de t en fonction de votre seuil de signification Hypothèse nulle est rejetée si : L’hypothèse nulle ne peut pas être rejetée si La valeur calculée de Z (ou de t) se trouve La valeur calculée de Z (ou de t) se trouve à au-delà des bornes de la valeur critique de Z l’intérieur des bornes de la valeur critique Vérification (ou de t) de Z (ou de t) bilatérale Z calculé < Z critique négatif Ou Z calculé > Z critique positif Vérification unilatérale à droite Z critique négatif < Z calculé < Z critique positif La valeur calculée de Z (ou de t) est La valeur calculée de Z (ou de t) est supérieure à la borne de la valeur critique de supérieure à la borne de la valeur critique de Z (ou de t) Z (ou de t) Z critique < Z calculé Z calculé < Z critique Vérification unilatérale à gauche La valeur calculée de Z (ou de t) est inférieure à la borne de la valeur critique de Z (ou de t) La valeur calculée de Z (ou de t) est inférieure à la borne de la valeur critique de Z (ou de t) Z calculé < Z critique Z critique < Z calculé T de Student Voir la table des valeurs de t pour des seuils de signification POUR VÉRIFICATION UNILATÉRALE ou BILATÉRALE en fonction du groupe de 0,1; 0,05 et 0,01 Rappel : le dl signifie de degré de liberté. Pour choisir la bonne ligne, dites-vous que le degré de liberté est toujours égal à la somme des échantillons échantillon moins 1 (=n1+ n2-1). Exemple : pour deux échantillon de 12 et 13 personnes : dl= n1+ n2-1= 12+13-1= 25-1=24 Si pour cet échantillon de 25 vous cherchez à avoir un seuil de signification de 5 %, alors votre t sera égal à 2,064 dans le cas d’un test bilatéral et 1,711 dans le cas d’un test unilatéral 7 Vous voulez savoir si la différence de note entre les femmes et les hommes est significative dans une classe donnée. Le groupe de 15 hommes à une moyenne de 82 (écart-type de 12) et le groupe de 17 femmes est de 87 (écart-type de 15). Vous allez donc utiliser la formule : Hypothèse nulle H0: Il n’y a pas de différence entre les moyennes 1 = 2 (donc 1 - 2 = 0) Hypothèse de recherche H1: Il n’y a pas de différence entre les moyennes 1 ≠ 2 (donc 1 - 2 ≠ 0) 82-87 – 0 -5 (x1 – x2) - ( 1 - 2) Z= = = = -1,04 σx -x 1 2 √ ((12²/15)+ (15²/17)) 4,78 Z critique pour un seul de signification de 1 % (vérification bilatérale) est : +/- 2.58 Comme le Z calculé est compris entre les deux bornes du Z critique, alors H0 ne peut être rejetée. La différence entre les deux moyennes n’est donc pas significative au seuil de signification de 1 %. 8 Tests relatifs à une différence de pourcentages Formule de calcul d’une cote Z ou d’un t afin de tester une hypothèse nulle n > 30 n < 30 Taille de l’échantillon = (On ulitise t*) (p1 – p2) - (π1 - (p1 – p2) - (π1 π2) t= Z= σp -p 1 avec σ p -p = 1 2 σp -p 2 p1*q1 n1 légende (On ulitise Z) 1 + 2 p2*q2 n2 - π2) π1 - π2 = différence théorique des pourcentages selon votre hypothèse nulle p1 – p2= différence des pourcentages des échantillons t = t de Student σ p -p = erreur type 1 2 q1 = 100- p1 q2 = 100- p2 n1 = taille de l’échantillon 1 n2= taille de l’échantillon 2 Votre Z calculé va devoir être comparé avec la cote Z. 1. Déterminez une hypothèse nulle qui est : π1 = π2 (donc π1 - π2= 0) 2. Calculez la cote Z ou le t de votre donnée d’échantillon en fonction de l’hypothèse nulle en fonction du tableau ci-dessus. 3. Comparez votre cote Z ou le t calculé avec la valeur critique de Z ou de t en fonction de votre seuil de signification Hypothèse nulle est rejetée si : L’hypothèse nulle ne peut pas être rejetée si La valeur calculée de Z (ou de t) se trouve La valeur calculée de Z (ou de t) se trouve à au-delà des bornes de la valeur critique de Z l’intérieur des bornes de la valeur critique Vérification (ou de t) de Z (ou de t) bilatérale Z calculé < Z critique négatif Ou Z calculé > Z critique positif Vérification unilatérale à droite Vérification unilatérale à gauche T de Student Z critique négatif < Z calculé < Z critique positif La valeur calculée de Z (ou de t) est La valeur calculée de Z (ou de t) est supérieure à la borne de la valeur critique de supérieure à la borne de la valeur critique de Z (ou de t) Z (ou de t) Z critique < Z calculé Z calculé < Z critique La valeur calculée de Z (ou de t) est inférieure à la borne de la valeur critique de Z (ou de t) La valeur calculée de Z (ou de t) est inférieure à la borne de la valeur critique de Z (ou de t) Z calculé < Z critique Z critique < Z calculé Voir la table des valeurs de t pour des seuils de signification POUR VÉRIFICATION UNILATÉRALE ou BILATÉRALE en fonction du groupe de 0,1; 0,05 et 0,01 Rappel : le dl signifie de degré de liberté. Pour choisir la bonne ligne, dites-vous que le degré de liberté est toujours égal à la somme des échantillons échantillon moins 1 (=n1+ n2-1). Exemple : pour deux échantillon de 12 et 13 personnes : dl= n1+ n2-1= 12+13-1= 25-1=24 Si pour cet échantillon de 25 vous cherchez à avoir un seuil de signification de 5 %, alors votre t sera égal à 2,064 dans le cas d’un test bilatéral et 1,711 dans le cas d’un test unilatéral 9 Un homme politique cherche à savoir si les francophones et les non francophones (anglophones+allophones) ont des intentions de vote significativement différentes dans son comté. 36 % des 48 francophones interrogées voteraient ce politicien tandis que 33 % des 35 non francophones voteraient pour lui. Vous allez donc utiliser la formule : Hypothèse nulle H0: Il n’y a pas de différence entre les moyennes π1 = π2 (donc π1 - π2 = 0) Hypothèse de recherche H1: Il n’y a pas de différence entre les moyennes π1 ≠ π2 (donc π1 - π2 ≠ 0) (p1 – p2) - (π1 Z= - π2) 36-33 – 0 = σp -p 1 2 3 = √ ((36*64/48)+ (33*67/35)) = + 0,28 10,54 Z critique pour un seul de signification de 1 % (vérification bilatérale) est : +/- 2.58 Comme le Z calculé est compris entre les deux bornes du Z critique, alors H0 ne peut être rejetée. La différence entre les deux proportions n’est donc pas significative au seuil de signification de 1 %. 10