TD5 Tests de comparaison d`échantillons

Transcription

TD5 Tests de comparaison d`échantillons
1
Université Joseph Fourier
L2/STA230
TD5 Tests de comparaison d’échantillons
Objectifs : Modéliser deux jeux de données avec deux variables aléatoires et comparer les
paramètres de ces variables par une procédure de test. Les paramètres étudiés sont les moyennes
et les variances des populations étudiées et leurs comparaisons permettra d’évaluer l’influence
du facteur qui définit les variables étudiées. Savoir décrire le problème à l’aide d’échantillons
appariés ou indépendants. Poser (et éventuellement vérifier à l’aide d’un test) dans chaque
situation les hypothèses (conditions) requises sur le(s) modèle(s) puis mettre en oeuvre le test
adéquat. Finalement, savoir exprimer littéralement et en précisant le risque de se tromper, la
conclusion du test.
Remarques : Tous les exercices ne seront pas nécéssairement complètement traités. En revanche, dans chaque exercice on posera le problème mathématique permettant de répondre à
la question posée. Ainsi on décrira le modèle ainsi que les conditions requises pour mettre en
œuvre le test envisagé pour conclure. On rédigera complètement la solution d’un exercice avec
échantillons appariés et d’un exercice avec échantillons indépendants.
Exercice 1 (Extrait de l’examen, DEUG SVT2, juin 2004, Grenoble) On étudie l’activité d’un
enzyme sérique PDE, en fonction de différents facteurs dans l’espèce humaine. Les résultats sont
exprimés en unités internationales par litre de sérum. On admettra l’hypothèse de normalité
et d’égalité des variances de la variable ‘activité de la PDE’ dans les populations. Chez deux
groupes de femmes, enceintes (yi ) ou non (xi ), on obtient les résultats suivants :
non enceinte
enceinte
non enceinte
enceinte
1.5
4.2
2.2
4.1
1.6
5.5
2.8
4.1
1.4
4.6
2.1
4.6
2.9
5.4
1.8
3.9
2.2
3.9
3.7
3.5
1.8
5.4
1.8
2.7
2.7
2.1
1.9
3.9
La grossesse a-t-elle une influence significative sur l’activité de la PDE ?
1. Proposer une méthode de travail permettant de répondre à cette question ; préciser toutes
les hypothèses requises.
2. Mettre en œuvre cette méthode et conclure pour un risque α = 1%. (Indications numériques :
P
P
P
P
xi = 32.5, x2i = 75.83, yi = 55.8, yi2 = 247.32).
Exercice 2 (Extrait de l’examen, DEUG SVST2, juin 1997, Grenoble) Pour déterminer le
poids moyen d’un épis de blé appartenant à deux variétés, on procède à 10 pesées pour chaque
variété. On donne ci-après les moyennes et variances empiriques des deux échantillons des
variétés.
x̄1 = 170.7cg, x̄2 = 168.5cg, s21 = 432.90, s22 = 182.70.
Faire l’étude statistique permettant de répondre à la question : ‘Les deux variétés sont-elles
significativement différentes au risque α = 5% ?
2
Exercice 3 Les QI de 9 enfants d’un quartier d’une grande ville ont pour moyenne empirique
107 et écart-type empirique 10. Les QI de 12 enfants d’un autre quartier ont pour moyenne
empirique 112 et écart-type empirique 9. On suppose que la variable aléatoire associée au QI
suit une loi Normale.
1. Que vaut la p-valeur du test d’égalité des variances ? Pensez-vous raisonnable de supposer
l’égalité de ces variances ?
2. Peut-on appliquer un test permettant de savoir s’il y a une différence significative entre les
QI moyens des deux quartiers ? Si oui mettre en œuvre un tel test aux niveaux 0.05 puis
0.01.
Exercice 4 Dans une coopérative agricole, on désire tester l’effet d’un engrais sur la production
de blé. Pour cela, on choisit 200 lots de terrain de même superficie. La moitié de ces lots est
traitée avec l’engrais, et l’autre ne l’est pas. Les récoltes en tonnes obtenues pour les 100 lots non
P
P
P
P
traités donnent xi = 61.6, x2i = 292.18 et pour les lots traités yi = 66.8, yi2 = 343.48.
5.0 5.1 5.3 5.3 5.2 5.0 5.3 4.9 5.2 5.1 5.1 5.0 5.3.
Tester l’hypothèse “L’engrais n’est pas efficace” contre “L’engrais est efficace” aux niveaux de
0.01 et 0.05.
Exercice 5 Au cours d’une étude destinée à comparer diverses méthodes d’échantillonage
de sols forestiers, on a analysé, d’une part 20 échantillons de terre prélevés individuellement
et d’autre part, 10 échantillons moyens obtenus chacun en mélangeant 25 échantillons individuels. On a obtenu pour les échantillons individuels les teneurs en K2 O suivantes, (indication
P
P
numérique : xi = 259.2, x2i = 3662.08)
8 8.4 8.8 8.8 9.2 9.2 10 10.4 12 12.4
12.8 14 14.8 14.8 14.8 15.2 15.6 18.8 19.2 22;
et pour les échantillons moyens (indication numérique :
P
xi = 109.2,
9.6 10 10.4 10.4 10.8 10.8 10.8 11.6 12 12.8.
P
x2i = 1200.8)
Tous les prélèvements ont été réalisés au hasard et indépendamment les uns des autres. On doit
s’attendre à ce que les deux méthodes d’échantillonage donnent des variances très différentes.
Justifier cela et vérifiez le par le test adéquat (on donnera la valeur critique de ce test).
Exercice 6 Une société de location de voiture met en place une expérience afin de décider si
deux types de pneus sont différents. Seize voitures sont conduites sur un parcours précis avec
des pneus de type A. Les pneus sont alors remplacés par ceux de type B et les voitures sont
de nouveaux conduites sur le même parcours. Les consommations en (km/litre) des voitures en
question sont supposées être distribuées selon une loi gaussienne et on a observé
Voiture
A
B
1
4.2
4.1
2
4.7
4.9
3
6.6
6.2
4
7
6.9
5
6.7
6.8
Au seuil de 5% quelles sont vos conclusions ?
6
4.5
4.4
7
5.7
5.7
8
6
5.8
9
7.4
6.9
10
4.9
4.9
11
6.1
6
3
Exercice 7 Neuf malades présentant des symptômes d’anxiété reçoivent un tranquillisant.
On évalue l’état du malade avant et après traitement par un indice X que le médecin traitant
calcule d’après les réponses à une série de questions. Si le traitement est efficace, l’indice X doit
diminuer. Les valeurs de cet indice sont les suivantes :
Avant
Apres
1.83
0.5
1.62 2.48 1.68 1.88 1.55 3.06 1.3
0.878 0.647 0.598 2.05 1.06 1.29 1.06 3.14 1.29
On précisera les hypothèses que l’on fait pour ce traitement statistique. Tester si le traitement
est efficace.
Exercice 8 Les tensions maximales des muscles gastro-cnémiens (exprimées en g) de la grenouille varient selon que ces muscles sont normaux ou dénervés. Lors d’une expérience faite sur
10 grenouilles, on a relevé les mesures suivantes :
Muscles normaux
Muscles dénervés
75 96 32 41 50 39 59 45 30 33
53 67 32 29 35 27 37 30 21 10
Peut-on admettre au seuil de 2%, que la tension maximale moyenne est différente pour les
muscles normaux et les muscles dénervés ? On précisera les hypothèses que l’on fait pour ce
traitement statistique.
Exercice 9 Dans un échantillon de 300 personnes, prélevé dans la population d’une ville A, il
y en a 36 qui fument au moins deux paquets de cigarettes par jours. Dans une autre ville B et
pour un échantillon de 100 personnes, on trouve une proportion de 8% de personnes qui fument
au moins deux paquets de cigarettes par jours. On veut tester H0 : “il n’y a aucune différence
entre les deux villes” contre H1 : “il y a plus de personnes qui fument au moins deux paquets
de cigarettes par jours dans la ville A que dans la ville B”.
1. Quelles sont les variables parentes qui modélisent le problème (i.e donnez leur loi) ? On les
note X et Y. De plus pA (resp. pB ) désigne la proportion d’individus qui fument au moins
deux paquets de cigarettes dans la ville A (resp. B). Les tailles des échantillons ainsi que
les variances empiriques seront également indexées par A et B.
2. Quel test allez-vous faire ?
3. Quelles statistiques utilisez-vous pour estimer pA et pB :
4. En déduire la forme de la région critique.
r
5. On pose U = (X̄ − Ȳ )/
′ 2
SA
nA
+
′ 2
SB
nB .
′ 2 en fonction de P̂ et S ′ 2 en fonction
Exprimez SA
A
B
de P̂B .
6. Sachant que U suit, sous H0 , approximativement une loi normale centrée réduite, déterminez
la région critique pour un niveau α quelconque.
7. Que concluez-vous au niveau α = 5% ?
8. Que vaut la p−valeur ?
4
Exercice 10 (Extrait de l’examen, DEUG SVT2, juin 2004, Grenoble) Soit p1 la probabilité
de guérison d’une maladie grâce à un traitement T1 . Un groupe de 50 malades est soumis à ce
traitement et 28 guérissent.
1. A un niveau de risque α = 1%, peut-on dire que la probabilité p1 de guérison par le
traitement T1 est égale à 50% ou bien est supérieure à 50% ?
2. On s’intéresse maintenant à un nouveau traitement T2 permettant de soigner cette maladie.
Sur 60 malades soumis à ce nouveau traitement, 34 guérissent. On se demande s’il y a une
différence significative entre T1 et T2 quant à leur efficacité.
(a) Expliquer la méthode qui permet de traiter ce problème et préciser les hypothèses.
(b) Mettre en œuvre cette méthode et conclure pour un risque α = 1%.

Documents pareils