Séminaire Environnement

Transcription

Séminaire Environnement
Séminaire
Environnement
Constitution d’échantillons
pour études quantitatives
Myriam Campardon – Unité Mixte de Recherche Cemagref-ENGEES en Gestion des Services Publics
Séminaire environnement - Ateliers enquête - 10 octobre 2006
1
Plan
Une introduction à la théorie des sondages
Les méthodes de sondage probabilistes
Les méthodes de sondage empiriques
Séminaire environnement - Ateliers enquête - 10 octobre 2006
2
Une introduction à la théorie
des sondages
Séminaire environnement - Ateliers enquête - 10 octobre 2006
3
Une introduction à la théorie des sondages
Exemples de problèmes
Population : ensemble des individus auxquels on s’intéresse
dans le cadre d’une étude donnée
Population
Information recherchée
Réservoir d’eau
Concentration en certaines
bactéries
Lycéens de la classe de Tale
Poids moyen
Électorat français
Proportion de « oui » au
référendum
Séminaire environnement - Ateliers enquête - 10 octobre 2006
4
Une introduction à la théorie des sondages
Pourquoi échantillonner ?
Recherche d’information sur une population concrète et définie
x
xxx
xx
• Recensement :
x
xxx
xx
• Sondage :
Recueil des données sur la population entière (population de faible
effectif)
Mesurer une partie seulement de la population pour économiser temps et
argent (tirage d’un échantillon)
xx
Séminaire environnement - Ateliers enquête - 10 octobre 2006
5
Une introduction à la théorie des sondages
Estimation
• Les données obtenues par sondage
fournissent une estimation des
caractéristiques de la population.
• Selon l’échantillon tiré les résultats varient.
Séminaire environnement - Ateliers enquête - 10 octobre 2006
6
Une introduction à la théorie des sondages
Un exemple simple…
Population N=6
a
b
c
d
e
f
total
1
2
4
6
7
16
36
Tirer un échantillon de n=3 individus pour
estimer le total (T=36)
Séminaire environnement - Ateliers enquête - 10 octobre 2006
7
Une introduction à la théorie des sondages
… une méthode de tirage simple
• tirage aléatoire simple (ou tirage exhaustif ou
encore tirage sans remise).
– Chaque lettre a la même chance d’être tirée
– Chaque combinaison de 3 lettres a la même chance de
constituer l’échantillon
• 20 échantillons possibles
• Cette méthode donne-t-elle une bonne estimation
de la population totale ??
Æ Mesurer la précision et le biais
Séminaire environnement - Ateliers enquête - 10 octobre 2006
8
Une introduction à la théorie des sondages
Les 20 échantillons possibles
Echantillon
abc
abd
abe
abf
acd
ace
acf
ade
adf
aef
bcd
bce
bcf
bde
bdf
bef
cde
cdf
cef
def
Moyenne
Estimation
du total de
Erreur de
Total de
l'échantillon la population l'estimation
7
9
10
19
11
12
21
14
23
24
12
13
22
15
24
25
17
26
27
29
18
14
18
20
38
22
24
42
28
46
48
24
26
44
30
48
50
34
52
54
58
36
Séminaire environnement - Ateliers enquête - 10 octobre 2006
-22
-18
-16
2
-14
-12
6
-8
10
12
-12
-10
8
-6
12
14
-2
16
18
22
0
9
Une introduction à la théorie des sondages
Le biais
• Biais = moyenne des erreurs = 0
(espérance de l’estimateur)
• Le tirage aléatoire simple est un plan de
sondage donnant des estimations sans biais
(valable pour toute population et tout
effectif d’échantillon)
ÖPrendre un grand échantillon ne réduit pas le
biais !!
Séminaire environnement - Ateliers enquête - 10 octobre 2006
10
Une introduction à la théorie des sondages
La précision
• précision = carré moyen des erreurs = 175.2
(variance de l’estimateur)
• Écart-type = 13.2 , soit 37% du vrai total de
la population
• Le tirage aléatoire simple n’est pas très
précis dans le cas de petites populations
Séminaire environnement - Ateliers enquête - 10 octobre 2006
11
Une introduction à la théorie des sondages
Illustration
Estimations de la vraie valeur selon 2 plans de sondage
(tous les échantillons possibles sont représentés)
Vraie valeur
ÆQuel que soit l’échantillon tiré selon le plan 1, l’estimation de la vraie
valeur sera précise mais « biaisée » (décalé et non centré, par rapport à
la vraie valeur)
Æ Le plan 2 peut illustrer le plan se sondage aléatoire simple
Séminaire environnement - Ateliers enquête - 10 octobre 2006
12
Les méthodes de sondage
probabilistes
Séminaire environnement - Ateliers enquête - 10 octobre 2006
13
Les méthodes de sondage probabilistes
Sondages probabilistes
• Méthodes de sondage où :
– Chaque individu de la population a une
probabilité connue et non nulle de figurer dans
l’échantillon
– Ces probabilités sont prises en compte pour le
choix de la méthode de tirage et pour les
estimations
• Possibilité de calculer, à partir de l’échantillon, la
précision de l’estimation obtenue (IC)
Æ Les résultats sont généralisables à la population
Séminaire environnement - Ateliers enquête - 10 octobre 2006
14
Les méthodes de sondage probabilistes
Quelques méthodes
Méthode/plan
Caractéristiques
Dans quel cas l’utiliser ?
Exemple
Sondage
aléatoire simple
(sans remise)
Choix de l’échantillon laissé
au hasard
Satisfaisante lorsque la
population n’est pas très
variable (en particulier lorsque
les proportions à estimer sont
entre 20% et 80%)
Stratification
- Population divisée en strates
(partition)
- Échantillon tiré de façon
indépendante dans chaque
strate
- On peut choisir la taille de
l’échantillon de chaque strate
Gain de précision par rapport au
sondage aléatoire simple dans la
cas d’une population hétérogène
divisée en strates assez bien
homogènes
- Sondage sur la population
d’une ville Æ hôtels et
grandes maisons placés à part
dans une strate
- Estimer la récolte de blé à
partir d’un échantillon de
fermes Æ stratifier en
fonction de la taille des
fermes
Sondage à 2
degrés
L’unité statistique peut être
sous-échantillonnée :
- Choix d’un échantillon
d’unités primaires (UP)
- Choix d’un sous-échantillon
d’unités secondaires (US)
dans chaque UP
Quelques fois la seule méthode
possible…
Liste des UP souvent facile à
obtenir. Permet d’éviter de lister
toutes la population (US)
Étude de la teneur en vitamine
A du beurre produit par les
laiteries Æ on ne prendra pas
tout le beurre de la laiterie
Séminaire environnement - Ateliers enquête - 10 octobre 2006
15
Les méthodes de sondage probabilistes
Taille d’échantillon ?
Elle est déterminée en fonction du plan de sondage.
ÖDécider d’abord de la valeur de l’erreur que l’on
peut tolérer pour l’estimation recherchée
ÖL’expression de l’erreur au risque 5% (avoir au + 5
chances sur 100 que l’erreur dépasse la valeur fixée)
donne n.
Séminaire environnement - Ateliers enquête - 10 octobre 2006
16
Les méthodes de sondage
empiriques
Séminaire environnement - Ateliers enquête - 10 octobre 2006
17
Les méthodes de sondage empiriques
Méthode des quotas
Échantillon = Modèle réduit de la population
– Reproduction en proportions de certaines caractéristiques
socio-démographiques de la population (âge, sexe, CSP)
– Hypothèse : « effet de halo »
Æ Représentativité de l’échantillon
(condition permettant d’étendre les résultats et conclusions
de l’enquête à l’ensemble de la population)
Séminaire environnement - Ateliers enquête - 10 octobre 2006
18
Les méthodes de sondage empiriques
Avantages / Inconvénients
• + rapide (et - coûteux)
• Individus
interchangeables
• Préférable pour petits
échantillons
• Précision pas
calculable
rigoureusement
• Postulat
(difficulté de déterminer les
caractéristiques pertinentes !)
Séminaire environnement - Ateliers enquête - 10 octobre 2006
19
Les méthodes de sondage empiriques
Quels quotas ?
• Quotas simples :
x% de femmes et y% de 20-25 ans
• Quotas croisés :
z% de femmes de 20-25 ans
•
•
•
•
Plutôt simples que croisés
2 à 3 quotas max.
Fins de quotas
Ne pas tricher…
Séminaire environnement - Ateliers enquête - 10 octobre 2006
20
Les méthodes de sondage empiriques
Taille d’échantillon
• Veut-on une certaine précision ?
• Homogénéité de la population
• Ressources
Séminaire environnement - Ateliers enquête - 10 octobre 2006
21
Documentation
• Théorie des sondages : Snedecor &
Cochran, « Méthodes statistiques », 6ème
édition (bibliothèque)
• Les sondages, en général : articles sur
Wikipédia
• Tuyaux sur les tailles d’échantillon :
http://www.surveystore.info/NSarticle/enqu
ete-par-questionnaire.asp
Séminaire environnement - Ateliers enquête - 10 octobre 2006
22
Qui interroger ?
• Base de sondage disponible :
ÆÉchantillon probabiliste (tirage aléatoire)
• Base de sondage non disponible :
ÆÉchantillon empirique
Séminaire environnement - Ateliers enquête - 10 octobre 2006
23
Et nous ??
Absence d’information sur la population étudiée
Æ Réduction des biais et contrôle de l’échantillon :
– Éviter les enquêtes sur base volontaire !
– Quotas, unité géographique (région, département, ville,
quartier), taille (ville, ménage,…)
– Temporalité (période, jour, plage horaire)
ÖTrouver une répartition qui assure une VARIETE max.
ÖEffectifs suffisants dans les « cases »
ÆÉchantillons non représentatifs mais :
• Cohérence avec l’objet de l’étude
• Rigueur dans la réalisation et l’analyse
Séminaire environnement - Ateliers enquête - 10 octobre 2006
24