Choisir la Taille de l`Echantillon pour les Evaluations Aléatoires

Transcription

Choisir la Taille de l`Echantillon pour les Evaluations Aléatoires
Choisir la Taille de l’Echantillon
pour les Evaluations Aléatoires
Esther Duflo
J-PAL
povertyactionlab.org
Choisir la Taille de l’Echantillon
pour les Evaluations Aléatoires
• Question générale :
Quelle taille doit avoir l’échantillon pour pouvoir
détecter un effet de façon crédible ?
• Que veut dire « crédible » dans ce cas ?
Veut dire que je peux être raisonnablement sûr que la
différence entre le groupe test et le groupe contrôle est due
au programme, pas a la chance
• L’évaluation aléatoire élimine le biais, mais n’élimine
pas le bruit: cela marche grâce à la loi des grands
nombres. Mais à partir de quelle taille d’échantillon
cela marche-t-il ?
Configuration de Base
• A la fin de l’expérience, on comparera le résultat qui
nous intéresse dans le groupe contrôle et dans le
groupe test.
• On s’intéresse à la différence:
Moyenne du traitement – Moyenne du contrôle
= Taille de l’effet
• Exemple : moyenne du nombre de puits dans les
villages avec des femmes, contre moyenne du
nombre de puits dans les villages avec des hommes.
Estimation
Cependant, on n’observe pas toute la population, juste
un échantillon.
Dans chaque village de l’échantillon, il y a un nombre
donné de puits, plus ou moins proche de la moyenne
dans la population, en fonction des autres facteurs
qui influencent l’emplacement des puits.
On estime la moyenne (mean) dans la population en
calculant la moyenne (average) dans l’échantillon
Si l’on a très peu de villages, les moyennes sont peu
précises. Lorsque l’on observe une différence dans
les moyennes, on ne peut pas savoir si elle provient
d’un effet du traitement ou d’un autre facteur.

i 1
Les facteurs qui influencent la
precision
Taille de L’échantillon:
• Peut-on tirer des conclusions si l’on a un village
traité et un non-traité?
• Peut-on tirer des conclusions si l’on donne des
manuels à une classe et pas à une autre ?
• Même si l’on a une classe d’une grande taille ?
• Ce qui est important c’est la taille effective de
l’échantillon. i.e. le nombre d’unités traitées et
d’unités de contrôle (ici les classes). Quelle est
l’unité dans le cas des Panchâyat ?

i 1
Les facteurs qui influencent la
precision
La variabilité de la variable que l’on
essaye de mesurer:
• S’il y a d’autres facteurs non mesurés
qui influencent ces variables, ce sera
plus difficile d’affirmer si le
traitement a vraiment influencé celuici
Quand les résultats sont très précis
Low Standard Deviation
25
15
mean 50
mean 60
10
5
Number
89
85
81
77
73
69
65
61
57
53
49
45
41
37
33
0
value
Frequency
20
Moins précis
Medium Standard Deviation
9
8
6
5
mean 50
4
3
mean 60
2
1
Number
89
85
81
77
73
69
65
61
57
53
49
45
41
37
33
0
value
Frequency
7
Peut-on Conclure?
High Standard Deviation
8
7
5
mean 50
4
mean 60
3
2
1
Number
89
85
81
77
73
69
65
61
57
53
49
45
41
37
33
lu
e
0
va
Frequency
6
Intervalles de Confiance
• La taille de l’effet estimé (la différence entre les moyennes
dans les deux groupes) est valide seulement pour notre
échantillon. Chaque échantillon donnera une réponse
légèrement différente. Comment utilise-t-on notre échantillon
pour faire des hypothèses sur toute la population?
• Un intervalle de confiance à 95% pour un effet mesure nous dit
que, pour 95% des échantillons que l’on aurait pu tirer de la
même population, l’intervalle de confiance calcule de la meme
facon aurait contenu cet effet.
• Les écarts-types (se) des estimateurs dans cet échantillon
reflètent à la fois la taille de l’échantillon et la variabilité du
résultat (qui est plus large lorsque l’échantillon est petit et avec
un résultat variable).
• Règle : un intervalle de confiance à 95% est en gros l’effect,
plus ou moins deux (1.96) écarts-types.
Test d’Hypothèses
On veut souvent tester l’hypothèse que l’effet est égal
à zéro (on veut rejeter l’hypothèse que le programme
n’a pas eu d’effet).
On veut tester :
H o : Effect size  0
Contre:
H a : Effect size  0
Deux types d’erreurs
• Erreur de type I: Conclure qu’il y a un effet alors qu’il n’y
en a pas.
Le niveau du test c’est la probabilité de conclure
erronément que le programme a un effet alors qu’il n’en
a pas.
Avec un niveau de 5%, on peut être sûrs à 95% en la
validité de notre conclusion que notre programme a eu
un effet.
Pour l’évaluation des politiques, on veut réduire au minimum le risque
de se tromper. On veut un niveau de test très petit, pour être très sur
de la réponse.
Niveau usuel de : 5%, 10%, 1%.
Relation avec les intervalles de
confiance
• Si zéro n’appartient pas à l’intervalle de confiance à
95% pour l’ampleur de l’effet que l’on a mesuré, alors
on peut être à 95% sûrs que l’effet est différent de zéro.
• La règle est donc la suivante: si l’ampleur de l’effet est
deux fois plus grande que l’écart type; alors on peut
conclure, avec 95% de certitude, que le programme a eu
un effet.
Deux types d’erreurs
Erreur de type II: on ne rejette pas l’hypothèse que le
programme n’a pas d’effet alors qu’en fait il a un effet.
• Puissance=1-probabilite d’une erreur de type II
• La Puissance d’un test c’est la probabilité de trouver un
effet significatif dans l’expérience. (une puissance plus
élevée est préférable car j’ai plus de chance de trouver
un effet)
• La puissance d’un test est un outil d’organisation. Elle
me dira la probabilité de trouver un effet significatif
pour une taille d’échantillon donnée.
Le calcul de la puissance
(power calculations)
• Lorsque l’on planifie une évaluation, en faisant des
hypotheses, on peut calculer la taille minimum nécessaire de
l’échantillon dont on aura besoin pour:
–
–
–
–
Tester une hypothèse pré-spécifiée : programme a ou n’a pas d’effet.
Pour un niveau de confiance pré-spécifié (ex.. 5%)
Pour une taille de l’effet pré-spécifié
Pour atteindre une puissance donnée
• Une puissance de 80% nous indique que dans 80% des
expériences de cet échantillon dans cette population, s’il y a un
effet dans la population, on sera capable de dire que dans notre
échantillon, il y a un effet avec le degré de confiance désiré.
• Plus l’échantillon est grand, plus la puissance du test augmente
Puissance utilisée normalement: 80%, 90%
Ingrédients pour un calcul de puissance
d’un test dans un cas simple
Ce dont on a besoin
Où le trouver
Niveau du test
Souvent conventionnellement fixé à 5%.
S’il est plus faible, on a besoin d’un
échantillon plus grand pour maintenir la
puissance du test.
La moyenne et la variabilité du résultat
dans le groupe contrôle.
-Dans les enquêtes précédentes conduites
dans des conditions similaires.
-Plus la variance est grande, plus on a
besoin d’un grand échantillon pour
maintenir la puissance du test.
L’ampleur de l’effet que l’on veut
détecter.
Quel est l’effet du programme qu’on veut
detecter? Plus l’effet que l’on veut
détecter est petit, plus grand est
l’échantillon dont on a besoin pour
pouvoir détecter l’effet.
Choisir la taille d’un effet
• Quelle est la taille minimale d’un effet qui justifie
l’adoption d’un programme :
– Coût du programme vs bénéfices qu’il engendre
– Coût du programme vs utilisations alternatives du même
montant d’argent (coût d’opportunité).
• Si l’effet est plus petit que cela, il pourrait aussi bien
être zéro: on ne s’intéresse pas au programme étant
donné que l’effet n’est pas très différent de zéro.
• Au contraire, n’importe quel effet plus grand justifie
l’adoption du programme: on veut le distinguer de
zéro.
• Danger commun: choisir la taille d’un effet qui est
trop optimiste: l’échantillon risque d’être trop petit.
Taille d’effet standardisé
• La taille de l’effet que l’on trouvera, dans un échantillon d’une
taille donnée, dépendra beaucoup de la variance du résultat.
– Exemple: Si tous les enfants ont un niveau d’apprentissage très
similaire sans le programme, alors l’impact du programme sera facile à
détecter.
• L’écart-type calcule la variance du résultat. Plus la variance
augmente, plus l’écart-type devient grand.
• La taille de l’effet standardisé : c’est la taille de l’effet divisée
par l’écart-type du résultat.
 = taille de l’effet/écart-type.
• Taille de l’effet fréquentes :
petit) moyen) grand)
Les éléments de design qui influencent
la puissance
• Le niveau de randomisation
• Disponibilité d’un baseline
• Disponibilité de variables de contrôle, et de
stratification.
• Le type d’hypothèses qui sont testées.
Niveau de Randomisation:
randomisation par grappes
Tests aléatoires de groupements sont des expériences
dans lesquelles des unités sociales ou des
groupements (au lieu d’individus) sont alloués
aléatoirement dans des groupes test et contrôle.
Exemples:
PROGRESA
Village
Réservations par sexe
Panchayats
Tableaux à feuilles,
Vaccinations
Complément de Fer
école
Famille
Raisons pour l’adoption de la
randomisation par grappes
• Besoin de minimiser ou d’éliminer la contamination
– Exemple: dans le programme de vaccinations, les écoles
étaient choisies comme unité car les virus sont contagieux.
• Considérations de faisabilité
– Exemple: le programme PROGRESA n’aurait pas été
politiquement réalisable si certaines familles étaient
choisies et d’autres non.
• Simplement un choix naturel
– Exemple: Toute intervention éducative qui influence toute
une classe (ex: tableaux, formation de l’enseignant)
Impact de la randomisation par grappes
• Les résultats des individus à l’intérieur d’un
groupement peuvent être corrélés
–
–
–
–
–
Tous les villageois exposés au même climat.
Tous les Panchâyat partagent une histoire commune
Tous les étudiants partagent un maître
Le programme affecte tous les étudiant en même temps.
Les membres du village interagissent entre eux.
• La taille de l’échantillon a besoin d’être ajustée pour
tenir compte de cette corrélation
• Plus la corrélation entre les résultats est grande, plus
l’on a besoin d’ajuster les écarts-types.
Exemple de multiplicateurs
de l’effet de groupe
________________________________
Intraclasse
Randomized Group Size_
Corrélation

 
 
 
 

Implications
• Il est extrêmement important de choisir aléatoirement
un nombre correct de groupes.
• Souvent, le nombre d’individus dans les groupes est
moins important que le nombre de groupes.
• La “loi des grands nombres” s’applique seulement
lorsque le nombre de groupes choisis aléatoirement
augmente.
• On ne peut PAS randomiser au niveau de la région,
avec une région traitée et une région contrôle !!!
Disponibilité d’une enquete de
référence (Baseline)
• Une enquete beaseline a trois usages :
– Peut vérifier si le groupe test et contrôle étaient pareils ou différents
avant le traitement.
– Peut réduire la taille de l’échantillon nécessaire, mais requiert de faire
une enquête avant l’intervention: normalement le cout de l’évaluation
augmente et celui de l’intervention diminue.
– Peut être utilisé pour stratifier et former des sous-groupes. (ex..
balsakhi)
• Calculer la puissance avec une enquete baseline:
– On a besoin de connaitre la corrélation entre deux mesures
consécutives du résultat. (par exemple: entre la consommation
maintenant et celle de l’année dernière).
– Plus la corrélation est élevée, plus le gain est grand.
– Grands gains pour des résultats très persistants, tels que les résultats
aux examens.
Variables de Contrôle
Si l’on a des variables de contrôle (ex.. population du village,
localisation du village), on peut aussi contrôler par ces
variables.
Ce qui importe maintenant pour la puissance c’est la variation
résiduelle après avoir contrôlé par ces variables.
Si les variables de contrôle expliquent une grande partie de la
variance, alors la précision augmente et la taille de
l’échantillon nécessaire diminue.
Attention: dans les variables de contrôle on doit seulement
inclure celles qui ne sont pas INFLUENCEES par le
traitement: des variables qui ont été collectées AVANT
l’intervention.
Echantillons Stratifiés
• Stratification: créer des blocs par les valeurs des
variables de contrôle et randomiser à l’intérieur de
chaque bloc.
• La stratification assure que les groupes test et
contrôle sont équilibrés en terme de ces variables de
contrôle.
• Cela réduit la variance pour deux raisons:
– Cela réduit la variance du résultat qui nous intéresse dans
chaque strate.
– La corrélation des unités à l’intérieur de chaque groupe.
• Exemple: si l’on stratifie par secteur, dans un
programme d’extension agricole
– Les facteurs Agro climatiques sont contrôlés
– L’effet “magistrat commun du secteur” disparait.
Les éléments de design qui influencent
la puissance
• Randomisation par grappes
• Disponibilité d’une référence de base
• Disponibilité de variables de contrôle, et de
stratification.
• Le type d’hypothèses qui sont testées.
Les Hypothèses Testées
• S’intéresse-t-on aux différences entre deux
traitements en même temps que l’on s’intéresse aux
différences entre groupe test et contrôle ?
• S’intéresse-t-on aux interactions entre traitement et
contrôle ?
• Veut-on tester si les effets varient en fonction des
différentes sous-populations ?
• Notre design implique-t-il une adhesion partielle a la
randomisation (e.g. encouragement design).
Les Hypothèses Testées
• S’intéresse-t-on aux différences entre deux traitements en
même temps que l’on s’intéresse aux différences entre groupe
test et contrôle ?
• S’intéresse-t-on aux interactions entre traitement et contrôle ?
• Veut-on tester si les effets varient en fonction des différentes
sous-populations ?
• Dans ces trois cas, il va falloir calculer la taille d’echantillon
qui permettra de tester les bonnes hypotheses…. Souvent des
echantillons plus grands
Les Hypothèses Testées
• Notre design implique-t-il une adhesion partielle a la
randomisation (e.g. encouragement design).
• En cas d’adhesion partielle, on doit toujours mesurer la
difference traitement (initial) vs control (initial). La
difference=effet du treatment *taux d’adhesion. L’effet a
detecter est donc plus faible (i.e. si 30% des gens suivent le
programme, effet mesure sera 30%*effet du programme).
Un faible « take up » a des effets nefaste sur la puissance: la
precision augmente de maniere lineaire avec le take up, mais
suelement en proportion de la racine carree du nombre
d’observations…. Il faut garder ca en tete dans les designs: ne
pas surestimer le take up.
Calculs de Puissance utilisant le
logiciel OD
• Choisir “Power vs number of clusters” dans le menu
“clustered randomized trials”
Taille du groupe
• Choisir cluster size
Choisir un niveau de Test,
Effet du traitement, et corrélation
• Choisir  : level
– Normalement on prend 0.05
• Choisir 
– On peut expérimenter avec 0.20
• Choisir la corrélation intra classe (rho)
• On obtient le graphique suivant qui montre la
puissance en fonction de la taille de
l’échantillon.
Puissance et Taille de l’échantillon
Conclusions: Calcul de Puissance
dans la Pratique
• Les calculs de puissance impliquent un peu de travail
d’approximation.
• Souvent, on n’a pas l’information adéquate pour le
conduire correctement.
• Toutefois, il est important de leur consacrer un peu
de temps et d’effort. :
– Evitez de lancer des études qui n’auront aucun pouvoir:
c’est un gaspillage de temps et d’argent.
– Consacrez les ressources nécessaires aux études que vous
décidez de conduire (et pas trop).