Rappel sur la théorie des sondages
Transcription
Rappel sur la théorie des sondages
1. RAPPELS PRINCIPES THEORIE DES SONDAGES Choix d'une méthode de sondage Quand un recensement (i.e. interrogation exhaustive de l’ensemble d’une population) est impossible, la mise en place d’un sondage permet "d’observer" un sous-ensemble de la population (i.e. échantillon) afin d’extrapoler les résultats obtenus dans cet échantillon à l’ensemble de la population. Il existe plusieurs méthodes de sondage dépendant principalement de la manière : De "construire" l’échantillon = l’échantillonnage D’estimer les indicateurs inconnus à partir cet échantillon : estimation "directe" ou avec "redressement". Les méthodes de redressement ont pour but d’améliorer la qualité/précision de l’estimation en faisant en sorte que la structure de l’échantillon soit identique à la structure CONNUE sur la population de certaines variables liées aux indicateurs étudiés. Schématiquement, il existe 2 grandes familles d’échantillonnage : Les sondages aléatoires ou probabilistes : L’échantillon est sélectionné avec une méthode de tirage tel que chaque individu de la population a une probabilité connue (mais pas nécessairement égale) d’être sélectionné. Ils nécessitent de disposer de la base complète des prospects et de respecter les probabilités de tirage fixées a priori. Ils sont plus fiables statistiquement mais plus chers et souvent impossibles à mettre en place (cas d’un nouveau produit pour lequel on ne dispose pas de fichiers de prospects exhaustifs par exemple). Les sondages non aléatoires ou empiriques ou raisonnés : Pas de sélection aléatoire des individus. La sélection repose au contraire sur un choix raisonné d’individus de la population en respectant des règles fixées à l’avance concernant notamment les caractéristiques des individus (méthodes des quotas) et/ou les lieux d’enquêtes et/ou les moments d’enquête. L’échantillon est profilé, qualifié. Ils ne nécessitent pas de disposer d’un fichier d’enquête complet, ils sont moins chers, plus faciles à mettre en place, mais davantage sujets aux biais et erreurs statistiques. Un sondage est susceptible d’être entaché de plusieurs types de biais et erreurs : Biais de couverture : différence entre la population à étudier et la population source (problème de base de sondage, contraintes de terrain) Biais d’échantillonnage : mauvais plan/méthode de sondage Biais de codification et de saisie (inexactitude de réponses enregistrées à cause de l’interviewé, du questionnaire, de l’enquêteur) Erreur ou précision statistique : taille de l'échantillon inadaptée Source: IDATE 2. L’ERREUR OU PRECISION STATISTIQUE Intervalle de confiance -taille d'échantillon réduite par rapport à la population Formellement, pour un risque de 5%, l'erreur ou précision statistique se définit par la formule : +/- 1.96 * (fn*( 1- fn)/n) 0.5 où n, représente la taille de l'échantillon et fn, la fréquence observée. L'erreur ou précision dépend de 3 facteurs : Le niveau de risque accepté, c’est-à-dire le risque d’accepter une hypothèse/valeur alors qu’elle est fausse (traditionnellement dans des études statistique il est de 5%), La taille de l’échantillon (plus la taille de l’échantillon, n, augmente plus la précision est fine), La fréquence estimée elle-même (plus la fréquence observée, fn, est proche de 50% plus la précision est faible). Le tableau suivant précise, pour un risque de 5%, le niveau de précision en fonction de la fréquence observée et de la taille de l’échantillon : Précision statistique en fonction de la fréquence observée et de la taille de l'échantillon Proportion observée : fn ► 5% ou 95% 10% ou 90% 25% ou 75% 50% ou 50% 30 8% 11% 15% 18% 50 6% 8% 12% 14% 100 4% 6% 8% 10% 150 3% 5% 7% 8% 200 3% 4% 6% 7% 250 3% 4% 5% 6% 300 2% 3% 5% 6% 400 2% 3% 4% 5% 500 2% 3% 4% 4% 600 2% 2% 3% 4% 1 000 1% 2% 3% 3% 2 000 1% 1% 2% 2% Taille de l'échantillon : n ▼ Source : IDATE À titre d’illustration : soit un échantillon d’enquête de 400 entreprises dont 20 font état d’un usage donné. En première lecture il vient : La pénétration estimée de l’usage étudié parmi la population est de 5%. Néanmoins, en statistique, la lecture "théorique correcte" de ce résultat est la suivante : "Il y a 95% de chance que la diffusion de cet usage parmi les entreprises égale 5%, à plus ou moins 2%". En résumé, une taille d’échantillon trop petite grève trop lourdement la précision statistique : les indicateurs inférés ne sont alors plus robustes (i.e. reproductibles d’un échantillon à l’autre). En pratique, il est d’usage de retenir un seuil minimal de 50 interviewés pour pouvoir avancer une estimation jugée suffisamment robuste, c’est-à-dire reproductible d’un échantillon d’enquête à un autre. Intervalle de confiance -une taille d'échantillon proche de la population L’intervalle de confiance peut s’améliorer si la taille de l’échantillon s’approche de la taille de la population mère. La formule complète de l’intervalle de confiance dans ce cas est alors : +/- 1.96 (fn( 1- fn)/n) 0.5 ((N-n)/(N-1)) 0.5 où N, représente la taille de la population mère. Les niveaux d'ajustement peuvent ainsi conduire à un bonus de précision conséquent, comme l'illustré le tableau suivant : Gains de précision dans le cas d'une taille d'échantillon proche de la population mère N n Ajustement 1 000 000 1 000 0,99950 100 000 1 000 0,99499 10 000 400 0,97984 1 000 400 0,77498 400 150 0.79156 200 150 0.50125 100 60 0,63564 100 80 0,44947 Source : IDATE