Séminaire Environnement
Transcription
Séminaire Environnement
Séminaire Environnement Constitution d’échantillons pour études quantitatives Myriam Campardon – Unité Mixte de Recherche Cemagref-ENGEES en Gestion des Services Publics Séminaire environnement - Ateliers enquête - 10 octobre 2006 1 Plan Une introduction à la théorie des sondages Les méthodes de sondage probabilistes Les méthodes de sondage empiriques Séminaire environnement - Ateliers enquête - 10 octobre 2006 2 Une introduction à la théorie des sondages Séminaire environnement - Ateliers enquête - 10 octobre 2006 3 Une introduction à la théorie des sondages Exemples de problèmes Population : ensemble des individus auxquels on s’intéresse dans le cadre d’une étude donnée Population Information recherchée Réservoir d’eau Concentration en certaines bactéries Lycéens de la classe de Tale Poids moyen Électorat français Proportion de « oui » au référendum Séminaire environnement - Ateliers enquête - 10 octobre 2006 4 Une introduction à la théorie des sondages Pourquoi échantillonner ? Recherche d’information sur une population concrète et définie x xxx xx • Recensement : x xxx xx • Sondage : Recueil des données sur la population entière (population de faible effectif) Mesurer une partie seulement de la population pour économiser temps et argent (tirage d’un échantillon) xx Séminaire environnement - Ateliers enquête - 10 octobre 2006 5 Une introduction à la théorie des sondages Estimation • Les données obtenues par sondage fournissent une estimation des caractéristiques de la population. • Selon l’échantillon tiré les résultats varient. Séminaire environnement - Ateliers enquête - 10 octobre 2006 6 Une introduction à la théorie des sondages Un exemple simple… Population N=6 a b c d e f total 1 2 4 6 7 16 36 Tirer un échantillon de n=3 individus pour estimer le total (T=36) Séminaire environnement - Ateliers enquête - 10 octobre 2006 7 Une introduction à la théorie des sondages … une méthode de tirage simple • tirage aléatoire simple (ou tirage exhaustif ou encore tirage sans remise). – Chaque lettre a la même chance d’être tirée – Chaque combinaison de 3 lettres a la même chance de constituer l’échantillon • 20 échantillons possibles • Cette méthode donne-t-elle une bonne estimation de la population totale ?? Æ Mesurer la précision et le biais Séminaire environnement - Ateliers enquête - 10 octobre 2006 8 Une introduction à la théorie des sondages Les 20 échantillons possibles Echantillon abc abd abe abf acd ace acf ade adf aef bcd bce bcf bde bdf bef cde cdf cef def Moyenne Estimation du total de Erreur de Total de l'échantillon la population l'estimation 7 9 10 19 11 12 21 14 23 24 12 13 22 15 24 25 17 26 27 29 18 14 18 20 38 22 24 42 28 46 48 24 26 44 30 48 50 34 52 54 58 36 Séminaire environnement - Ateliers enquête - 10 octobre 2006 -22 -18 -16 2 -14 -12 6 -8 10 12 -12 -10 8 -6 12 14 -2 16 18 22 0 9 Une introduction à la théorie des sondages Le biais • Biais = moyenne des erreurs = 0 (espérance de l’estimateur) • Le tirage aléatoire simple est un plan de sondage donnant des estimations sans biais (valable pour toute population et tout effectif d’échantillon) ÖPrendre un grand échantillon ne réduit pas le biais !! Séminaire environnement - Ateliers enquête - 10 octobre 2006 10 Une introduction à la théorie des sondages La précision • précision = carré moyen des erreurs = 175.2 (variance de l’estimateur) • Écart-type = 13.2 , soit 37% du vrai total de la population • Le tirage aléatoire simple n’est pas très précis dans le cas de petites populations Séminaire environnement - Ateliers enquête - 10 octobre 2006 11 Une introduction à la théorie des sondages Illustration Estimations de la vraie valeur selon 2 plans de sondage (tous les échantillons possibles sont représentés) Vraie valeur ÆQuel que soit l’échantillon tiré selon le plan 1, l’estimation de la vraie valeur sera précise mais « biaisée » (décalé et non centré, par rapport à la vraie valeur) Æ Le plan 2 peut illustrer le plan se sondage aléatoire simple Séminaire environnement - Ateliers enquête - 10 octobre 2006 12 Les méthodes de sondage probabilistes Séminaire environnement - Ateliers enquête - 10 octobre 2006 13 Les méthodes de sondage probabilistes Sondages probabilistes • Méthodes de sondage où : – Chaque individu de la population a une probabilité connue et non nulle de figurer dans l’échantillon – Ces probabilités sont prises en compte pour le choix de la méthode de tirage et pour les estimations • Possibilité de calculer, à partir de l’échantillon, la précision de l’estimation obtenue (IC) Æ Les résultats sont généralisables à la population Séminaire environnement - Ateliers enquête - 10 octobre 2006 14 Les méthodes de sondage probabilistes Quelques méthodes Méthode/plan Caractéristiques Dans quel cas l’utiliser ? Exemple Sondage aléatoire simple (sans remise) Choix de l’échantillon laissé au hasard Satisfaisante lorsque la population n’est pas très variable (en particulier lorsque les proportions à estimer sont entre 20% et 80%) Stratification - Population divisée en strates (partition) - Échantillon tiré de façon indépendante dans chaque strate - On peut choisir la taille de l’échantillon de chaque strate Gain de précision par rapport au sondage aléatoire simple dans la cas d’une population hétérogène divisée en strates assez bien homogènes - Sondage sur la population d’une ville Æ hôtels et grandes maisons placés à part dans une strate - Estimer la récolte de blé à partir d’un échantillon de fermes Æ stratifier en fonction de la taille des fermes Sondage à 2 degrés L’unité statistique peut être sous-échantillonnée : - Choix d’un échantillon d’unités primaires (UP) - Choix d’un sous-échantillon d’unités secondaires (US) dans chaque UP Quelques fois la seule méthode possible… Liste des UP souvent facile à obtenir. Permet d’éviter de lister toutes la population (US) Étude de la teneur en vitamine A du beurre produit par les laiteries Æ on ne prendra pas tout le beurre de la laiterie Séminaire environnement - Ateliers enquête - 10 octobre 2006 15 Les méthodes de sondage probabilistes Taille d’échantillon ? Elle est déterminée en fonction du plan de sondage. ÖDécider d’abord de la valeur de l’erreur que l’on peut tolérer pour l’estimation recherchée ÖL’expression de l’erreur au risque 5% (avoir au + 5 chances sur 100 que l’erreur dépasse la valeur fixée) donne n. Séminaire environnement - Ateliers enquête - 10 octobre 2006 16 Les méthodes de sondage empiriques Séminaire environnement - Ateliers enquête - 10 octobre 2006 17 Les méthodes de sondage empiriques Méthode des quotas Échantillon = Modèle réduit de la population – Reproduction en proportions de certaines caractéristiques socio-démographiques de la population (âge, sexe, CSP) – Hypothèse : « effet de halo » Æ Représentativité de l’échantillon (condition permettant d’étendre les résultats et conclusions de l’enquête à l’ensemble de la population) Séminaire environnement - Ateliers enquête - 10 octobre 2006 18 Les méthodes de sondage empiriques Avantages / Inconvénients • + rapide (et - coûteux) • Individus interchangeables • Préférable pour petits échantillons • Précision pas calculable rigoureusement • Postulat (difficulté de déterminer les caractéristiques pertinentes !) Séminaire environnement - Ateliers enquête - 10 octobre 2006 19 Les méthodes de sondage empiriques Quels quotas ? • Quotas simples : x% de femmes et y% de 20-25 ans • Quotas croisés : z% de femmes de 20-25 ans • • • • Plutôt simples que croisés 2 à 3 quotas max. Fins de quotas Ne pas tricher… Séminaire environnement - Ateliers enquête - 10 octobre 2006 20 Les méthodes de sondage empiriques Taille d’échantillon • Veut-on une certaine précision ? • Homogénéité de la population • Ressources Séminaire environnement - Ateliers enquête - 10 octobre 2006 21 Documentation • Théorie des sondages : Snedecor & Cochran, « Méthodes statistiques », 6ème édition (bibliothèque) • Les sondages, en général : articles sur Wikipédia • Tuyaux sur les tailles d’échantillon : http://www.surveystore.info/NSarticle/enqu ete-par-questionnaire.asp Séminaire environnement - Ateliers enquête - 10 octobre 2006 22 Qui interroger ? • Base de sondage disponible : ÆÉchantillon probabiliste (tirage aléatoire) • Base de sondage non disponible : ÆÉchantillon empirique Séminaire environnement - Ateliers enquête - 10 octobre 2006 23 Et nous ?? Absence d’information sur la population étudiée Æ Réduction des biais et contrôle de l’échantillon : – Éviter les enquêtes sur base volontaire ! – Quotas, unité géographique (région, département, ville, quartier), taille (ville, ménage,…) – Temporalité (période, jour, plage horaire) ÖTrouver une répartition qui assure une VARIETE max. ÖEffectifs suffisants dans les « cases » ÆÉchantillons non représentatifs mais : • Cohérence avec l’objet de l’étude • Rigueur dans la réalisation et l’analyse Séminaire environnement - Ateliers enquête - 10 octobre 2006 24