Tests - wwwdfr

Transcription

Tests - wwwdfr

Tests : Introduction
Modélisation
Statistique
(MAP-STA1)
Christine Keribin
Les faiseurs de pluie 1 : L’insémination des nuages par des
sels d’argent augmentent-elle le niveau des précipitations ?
(H0 ) Niveau naturel annuel des pluies dans la Beauce
X ∼ N (600mm, σ = 100mm)
µ = µ0 = 600
(H1 ) En inséminant avec des sels d’argent, augmente-t-on en
moyenne de 50 mm par an les précipitations ?
µ = µ1 = 650
I
Introduction
Modèle
Démarche
Estimation
ponctuelle
Estimateur
Estimateur des
moments
EMV
Intervalle de
confiance
Tests
Choisir entre deux hypothèses (H0 ) et (H1 ), en calibrant
le risque de première espèce α (5%, 10%,..) de choisir
(H1 ) à tort.
1. Saporta, Probabilités Analyse de Données et Statistiques, Technip
67/88
Les faiseurs de pluie (suite)
I
I
Statistique X̄ , moyenne des pluies annuelles sur n = 9
années
Loi sous (H0 ),
√ X̄ − µ0
σ2
∼ N (0, 1)
X̄ ∼ N (µ0 , ) soit T = n
n
σ
I
choisir a priori un niveau α, calibrant la probabilité de
rejet de (H0 ) à tort (α = 5% par exemple)
Modélisation
Statistique
(MAP-STA1)
Christine Keribin
Introduction
Modèle
Démarche
Estimation
ponctuelle
Estimateur
Estimateur des
moments
EMV
Intervalle de
confiance
Tests
∗
T > q1−α
)
| {z }
R: Région de rejet fct de T
σ
∗
√
X̄ > µ0 + q1−α
n
|
{z
}
Région de rejet fct de X̄
α = IP(H0 ) (
= IP(H0 )
∗
avec q1−α
le quantile d’une loi N (0, 1) d’ordre 1 − α
68/88
Modélisation
Statistique
(MAP-STA1)
Christine Keribin
Introduction
I
I
I
I
Modèle
Démarche
Décider :
si T est dans la région de rejet, on rejette H0
sinon, on conserve (H0 ) faute de preuves suffisantes
ici, x̄ = 610mm,
tobs
610 − 600
√ = 0.3 < 1.64
=
100/ 9
Estimation
ponctuelle
Estimateur
Estimateur des
moments
EMV
Intervalle de
confiance
Tests
au niveau 5%, les données ne sont pas significatives
pour rejeter (H0 ) qu’on conserve.
I
avec quelle erreur ?
69/88
Modélisation
Statistique
(MAP-STA1)
Christine Keribin
Introduction
Une autre façon de se tromper : l’erreur de seconde espèce β
I
ne pas rejeter (H0 ) alors que (H1 ) est vraie
I
Sous (H1 ),
X̄ ∼ N (µ1 ,
σ2
)
n
σ
∗
√ )=β
IP(H1 ) (X̄ < µ0 + q(1−α)
n
I
Modèle
Démarche
Estimation
ponctuelle
Estimateur
Estimateur des
moments
EMV
Intervalle de
confiance
Tests
App.Num : β ' 0.56
pnorm(600+1.644*100/3,650,100/sqrt(9))
la puissance π = 1 − β n’est pas très grande
70/88
Représentation graphique
Modélisation
Statistique
(MAP-STA1)
Christine Keribin
Introduction
Modèle
Démarche
Estimation
ponctuelle
Estimateur
Estimateur des
moments
EMV
Intervalle de
confiance
Tests
71/88
Procédure de test
Modélisation
Statistique
(MAP-STA1)
Christine Keribin
Introduction
Définition
I
Un test est une procédure de décision qui permet de
trancher, au vu des résultats d’un échantillon, entre
deux hypothèses l’hypothèse nulle (H0 ) et une
hypothèse alternative (H1 ), dont une seule est vraie.
I
La région critique ou région de rejet R est l’ensemble
des valeurs de la variable de décision T qui conduisent à
écarter (H0 ) au profit de (H1 ).
I
La région d’acceptation du test est R.
Modèle
Démarche
Estimation
ponctuelle
Estimateur
Estimateur des
moments
EMV
Intervalle de
confiance
Tests
72/88
Modélisation
Statistique
(MAP-STA1)
Procédure de test
Christine Keribin
Introduction
A l’issue du test, les quatre situations suivantes sont
possibles
(H0 ) vraie
(H1 ) vraie
Choix (H0 )
1−α
bonne décision
β = IP(T ∈
/ R|(H1 ))
erreur seconde espèce
mauvaise décision
Choix (H1 )
α = IP(T ∈ R|(H0 ))
erreur première espèce
mauvaise décision
π =1−β
puissance
bonne décision
Modèle
Démarche
Estimation
ponctuelle
Estimateur
Estimateur des
moments
EMV
Intervalle de
confiance
Tests
73/88
Construire un test
Modélisation
Statistique
(MAP-STA1)
Christine Keribin
Choisir entre deux hypothèses (H0 ) et (H1 ), en calibrant le
risque de choisir (H1 ) à tort.
I
Définir le modèle
I
Définir les hypothèses nulle (H0 ) et alternative (H1 )
I
Choisir une statistique de test T (X ), calculer sa loi sous
(H0 )
I
Définir la règle de décision en calibrant la région de
rejet R suivant le risque α
I
Calcul éventuel de la puissance β
I
Calcul de la statistique observée et décision : rejet ou
acceptation de (H0 ).
Introduction
Modèle
Démarche
Estimation
ponctuelle
Estimateur
Estimateur des
moments
EMV
Intervalle de
confiance
Tests
74/88
La décision
Modélisation
Statistique
(MAP-STA1)
Christine Keribin
Introduction
Modèle
Démarche
La décision du test, à partir de la valeur observée t de la
statistique de test T est :
I
I
si t ∈ R, on rejette (H0 ) au risque α : l’erreur commise
est α.
si t 6∈ R, on conserve (H0 ) dans le test de risque α : les
données ne sont pas significatives pour accepter (H1 ).
L’erreur de seconde espèce β commise n’est en général
pas connue.
Estimation
ponctuelle
Estimateur
Estimateur des
moments
EMV
Intervalle de
confiance
Tests
75/88
Dissymétrie de la situation de test
Modélisation
Statistique
(MAP-STA1)
Christine Keribin
Introduction
Modèle
Démarche
I
le risque n’est contrôlé que pour (H0 )
,→ la véritable décision est celle qui rejette (H0 ).
,→ (H0 ) et (H1 ) ne sont pas interchangeables.
Estimation
ponctuelle
Estimateur
Estimateur des
moments
EMV
I
il faut connaı̂tre la loi de la statistique de test sous (H0 )
Intervalle de
confiance
I
il faut que cette loi soit différente sous (H1 )
Tests
I
entre deux tests de même niveau, il faut choisir le plus
puissant
76/88
Modélisation
Statistique
(MAP-STA1)
p-value
Christine Keribin
I
I
C’est le plus petit niveau qui fait rejeter (H0 ) au vu des
données
C’est une variable aléatoire
p-value = α
b = inf P(T ∈ Rα )
α∈[0,1]
Dans un test de niveau α, (H0 ) est rejetée si α > p-value,
conservée si α < p-value :
I
si 0.05 > p-value > 0.01, le test est significatif,
I
si 0.01 > p-value > 0.001, le test est très significatif,
I
si 0.001 > p-value, le test est hautement significatif.
Introduction
Modèle
Démarche
Estimation
ponctuelle
Estimateur
Estimateur des
moments
EMV
Intervalle de
confiance
Tests
,→ dessin !
,→ AN : 1-pnorm(610 ,600,100/3)=0.38
77/88
Formes d’hypothèses
Modélisation
Statistique
(MAP-STA1)
Christine Keribin
I
Hypothèses simples
(H0 ) : θ = θ0 contre (H1 ) : θ = θ1
I
test bilaréral pour une hypothèse nulle simple
(H0 ) : θ = θ0 contre (H1 ) : θ 6= θ0
I
test unilatéral pour une hypothèse nulle composite
Introduction
Modèle
Démarche
Estimation
ponctuelle
Estimateur
Estimateur des
moments
EMV
Intervalle de
confiance
Tests
(H0 ) : θ ≤ θ0 contre (H1 ) : θ > θ0
I
De façon générale :
(H0 ) : θ ∈ Θ0 contre (H1 ) : θ ∈ Θ1 = Θ \ Θ0
78/88
Les risques du test
Soit R la région de rejet du test.
I
Risque de 1ère espèce : proba. de rejeter (H0 ) à tort :
Modélisation
Statistique
(MAP-STA1)
Christine Keribin
Introduction
Modèle
Démarche
θ ∈ Θ0 , α(θ) = IPθ ({T ∈ R})
I
Taille du test : supα∈Θ0 α(θ). Un test est de niveau α si
sa taille ≤ α
I
Risque de 2nde espèce : proba. de conserver (H0 ) à tort
Estimation
ponctuelle
Estimateur
Estimateur des
moments
EMV
Intervalle de
confiance
Tests
θ ∈ Θ1 , β(θ) = IPθ ({T ∈
/ R}).
I
Puissance du test : proba. de refuser (H0 ) à raison :
θ ∈ Θ1 , π(θ) = IPθ ({T ∈ R}) = 1 − β(θ).
I
Le test sans biais si 1 − β(θ) = π(θ) > α pour tout
θ ∈ Θ1
79/88
Test optimal de θ = θ0 vs θ = θ1 au niveau α
Soit X un n-échantillon d’une variable à densité, et L(θ, x) la
vraisemblance de X . Soit W une région de rejet de niveau
α:
Z
L(θ0 ; x)dx = α.
W
On veut maximiser la puissance correspondante :
Z
Z
L(θ1 ; x)
L(θ0 ; x)dx.
π =1−β =
L(θ1 ; x)dx =
W
W L(θ0 ; x)
Modélisation
Statistique
(MAP-STA1)
Christine Keribin
Introduction
Modèle
Démarche
Estimation
ponctuelle
Estimateur
Estimateur des
moments
EMV
Intervalle de
confiance
Tests
Théorème (Neyman-Pearson)
La région critique optimale est définie pour l’ensemble des
points de IRn tels que
L(θ1 ; x)
> kα
L(θ0 ; x)
80/88
Test optimal de θ = θ0 vs θ = θ1 au niveau α
Modélisation
Statistique
(MAP-STA1)
Christine Keribin
Introduction
Propriétés : le test de Neyman-Pearson est
I
sans biais : 1 − β = π > α sur Θ1 ;
I
consistant (convergent) : la suite des puissances πn (θ)
tend vers 1 avec n
Si on dispose de plus d’une statistique exhaustive d’un
paramètre scalaire, la région critique en dépend
exclusivement et le test de NP se réduit à
Modèle
Démarche
Estimation
ponctuelle
Estimateur
Estimateur des
moments
EMV
Intervalle de
confiance
Tests
g (t; θ1 )
> kα
g (t; θ0 )
81/88
Tests hyp. simple contre hyp. composite
La puissance est une fonction de θ
Définition
Un test est uniformément plus puissant (UPP) si, quelle que
soit la valeur de θ, sa puissance π(θ) est supérieure à la
puissance de tout autre test de niveau α.
I
I
θ = θ0 contre θ > θ0 est UPP sous certaines conditions
θ = θ0 contre θ 6= θ0 n’est pas UPP
Modélisation
Statistique
(MAP-STA1)
Christine Keribin
Introduction
Modèle
Démarche
Estimation
ponctuelle
Estimateur
Estimateur des
moments
EMV
Intervalle de
confiance
Tests
82/88
TRV entre deux hypothèse composites
Modélisation
Statistique
(MAP-STA1)
Christine Keribin
Introduction
Théorème (rapport de vraisemblance monotone)
S’il existe une statistique T telle que le rapport
L(θ1 ; x)/L(θ0 ; x) soit une fonction monotone de T , alors il
existe un test UPP de θ < θ0 contre θ ≥ θ0
Modèle
Démarche
Estimation
ponctuelle
Estimateur
Estimateur des
moments
EMV
I
(H0 ) : θ ≤ θ0 et RV fct % de T : R = {T > k}
Intervalle de
confiance
I
(H0 ) : θ ≤ θ0 et RV fct & de T : R = {T < k}
Tests
I
(H0 ) : θ ≥ θ0 et RV fct % de T : R = {T < k}
I
(H0 ) : θ ≥ θ0 et RV fct & de T : R = {T > k}
,→ cas des statistiques exhaustives des familles
exponentielles de loi.
83/88
Test du rapport de vraisemblances maximales
Modélisation
Statistique
(MAP-STA1)
Christine Keribin
Cas d’hypothèses paramétriques plus générales
Introduction
Modèle
Démarche
Définition
Soit une famille paramétrique IPθ , θ ⊂ Θ et les hypothèses
(H0 ) : θ ∈ Θ0 contre (H1 ) : θ ∈ Θ1 = Θ − Θ0 . On appelle
rapport de vraisemblance généralisé, la fonction TRV (X )
telle que
supθ∈Θ0 L(θ; x)
TRV (X ) =
supθ∈Θ L(θ; x)
Estimation
ponctuelle
Estimateur
Estimateur des
moments
EMV
Intervalle de
confiance
Tests
Le test du rapport de vraisemblance est le test défini par une
région de rejet de la forme
R = {TRV (X ) < kα ≤ 1}.
84/88
Modélisation
Statistique
(MAP-STA1)
Asymptotique du TRV
Christine Keribin
Introduction
Modèle
Démarche
Théorème
Soit une famille paramétrique IPθ , θ ⊂ Θ. Si θ0 définit une
sous-hypothèse linéaire de Θ, dim(Θ0 ) = q, dim(Θ) = p, et
sous les conditions de régularité de l’EMV, alors, sous (H0 )
L
2
−2 log(TRV ) −→ χ (p − q)
Estimation
ponctuelle
Estimateur
Estimateur des
moments
EMV
Intervalle de
confiance
Tests
La région de rejet {−2 log(TRV ) > qχ2 (r ) (1 − α)} du test
de rapport de vraisemblances maximales est
asymptotiquement de niveau α.
85/88
Test de Wald :
(H0 ) : Aθ = Aθ0 contre (H1 ) : Aθ 6= Aθ0
Modélisation
Statistique
(MAP-STA1)
Christine Keribin
Théorème
Introduction
Soit une famille paramétrique IPθ , θ ∈ Θ et A est une matrice
de dimension q × p de rang r . Si θbn est un estimateur
asymptotiquement normal (par ex, l’EMV), alors sous (H0 )
L
Vn−1 (θbn − θ0 ) −→ N (0, Idp )
et
Modèle
Démarche
Estimation
ponctuelle
Estimateur
Estimateur des
moments
EMV
Intervalle de
confiance
Tests
L
W = (θbn − θ0 )0 A0 (A0 Vn A)−1 A(θbn − θ0 ) −→ χ2 (r )
W est la statistique de Wald.
La région de rejet {W > qχ2 (r ) (1 − α)} du test de Wald est
asymptotiquement de niveau α.
86/88
Lien entre intervalle de confiance et test
Modélisation
Statistique
(MAP-STA1)
Christine Keribin
I
si RC est une région de confiance de niveau 1 − α de θ,
alors pour tout θ? ,
δ(X ) = 1I(θ? ∈
/ RC )
est un test de niveau α pour tester (H0 ) : θ = θ? contre
(H1 ) : θ 6= θ?
I
si pour tout θ? on dispose d’un test δθ? (X ) de niveau α
de (H0 ) : θ = θ? contre (H1 ) : θ 6= θ? , alors la région
d’acceptation
Introduction
Modèle
Démarche
Estimation
ponctuelle
Estimateur
Estimateur des
moments
EMV
Intervalle de
confiance
Tests
RC = {θ ∈ Θ : δθ? (X ) = 0}
est une région de confiance de niveau 1 − α pour θ
87/88
Exemples de tests paramétriques usuels
I
Test bilateral de l’espérance d’une loi N (µ, σ 2 ) à
variance inconnue : la variable de décision est la
statistique pivotale
Tn =
√
n qP
i (Xi
X̄ − µ
− X̄ )2 /(n − 1)
∼(H0 ) T (n − 1)
R = {|T | > qt(n − 1, 1 − α/2)}, IP(H0 ) (R) = α
I
Modélisation
Statistique
(MAP-STA1)
Christine Keribin
Introduction
Modèle
Démarche
Estimation
ponctuelle
Estimateur
Estimateur des
moments
EMV
Intervalle de
confiance
Tests
Test unilatéral σ < σ0 contre σ > σ0 sur la variance
d’une loi N (µ, σ 2 )
P
(Xi − X̄ )2
∼(H0 ) χ2n−1
Tn = i
σ2
R = {T > qchisq(1 − α, n − 1)}, IP(H0 ) (R) = α
88/88

Tests - wwwdfr

Transcription

Documents pareils

Probabilités et statistique II

Documentation de présentation Mercury Technologies

Nous sommes des salariés d`IBM France, sans affiliation syndicale

Question 1 : tnhtnh

x x xxf + + - = 1 )1ln( )(

MAP-STA1

1 Description 2 Références

Les rendez- vous du Yoga Om shanti

BTS NRC - Lycée le Verger

Estimation d`une courbe moyenne de consommation