Rappel sur la théorie des sondages

Transcription

Rappel sur la théorie des sondages
1. RAPPELS PRINCIPES THEORIE DES SONDAGES
Choix d'une méthode de sondage
Quand un recensement (i.e. interrogation exhaustive de l’ensemble d’une population) est impossible,
la mise en place d’un sondage permet "d’observer" un sous-ensemble de la population (i.e.
échantillon) afin d’extrapoler les résultats obtenus dans cet échantillon à l’ensemble de la population.
Il existe plusieurs méthodes de sondage dépendant principalement de la manière :

De "construire" l’échantillon = l’échantillonnage

D’estimer les indicateurs inconnus à partir cet échantillon : estimation "directe" ou avec
"redressement".
 Les méthodes de redressement ont pour but d’améliorer la qualité/précision de l’estimation
en faisant en sorte que la structure de l’échantillon soit identique à la structure CONNUE
sur la population de certaines variables liées aux indicateurs étudiés.
Schématiquement, il existe 2 grandes familles d’échantillonnage :

Les sondages aléatoires ou probabilistes :
 L’échantillon est sélectionné avec une méthode de tirage tel que chaque individu de la
population a une probabilité connue (mais pas nécessairement égale) d’être sélectionné.
 Ils nécessitent de disposer de la base complète des prospects et de respecter les
probabilités de tirage fixées a priori.
 Ils sont plus fiables statistiquement mais plus chers et souvent impossibles à mettre en place
(cas d’un nouveau produit pour lequel on ne dispose pas de fichiers de prospects
exhaustifs par exemple).

Les sondages non aléatoires ou empiriques ou raisonnés :
 Pas de sélection aléatoire des individus. La sélection repose au contraire sur un choix
raisonné d’individus de la population en respectant des règles fixées à l’avance concernant
notamment les caractéristiques des individus (méthodes des quotas) et/ou les lieux
d’enquêtes et/ou les moments d’enquête. L’échantillon est profilé, qualifié.
 Ils ne nécessitent pas de disposer d’un fichier d’enquête complet, ils sont moins chers, plus
faciles à mettre en place, mais davantage sujets aux biais et erreurs statistiques.
Un sondage est susceptible d’être entaché de plusieurs types de biais et erreurs :
 Biais de couverture : différence entre la population à étudier et la population source
(problème de base de sondage, contraintes de terrain)
 Biais d’échantillonnage : mauvais plan/méthode de sondage
 Biais de codification et de saisie (inexactitude de réponses enregistrées à cause de
l’interviewé, du questionnaire, de l’enquêteur)
 Erreur ou précision statistique : taille de l'échantillon inadaptée
Source: IDATE
2. L’ERREUR OU PRECISION STATISTIQUE
Intervalle de confiance -taille d'échantillon réduite par rapport à la population
Formellement, pour un risque de 5%, l'erreur ou précision statistique se définit par la formule :
+/- 1.96 * (fn*( 1- fn)/n) 0.5
où n, représente la taille de l'échantillon et fn, la fréquence observée.
L'erreur ou précision dépend de 3 facteurs :
 Le niveau de risque accepté, c’est-à-dire le risque d’accepter une hypothèse/valeur alors
qu’elle est fausse (traditionnellement dans des études statistique il est de 5%),
 La taille de l’échantillon (plus la taille de l’échantillon, n, augmente plus la précision est fine),
 La fréquence estimée elle-même (plus la fréquence observée, fn, est proche de 50% plus la
précision est faible).
Le tableau suivant précise, pour un risque de 5%, le niveau de précision en fonction de la fréquence
observée et de la taille de l’échantillon :
Précision statistique en fonction de la fréquence observée et de la taille de l'échantillon
Proportion observée : fn ►
5% ou 95%
10% ou 90%
25% ou 75%
50% ou 50%
30
8%
11%
15%
18%
50
6%
8%
12%
14%
100
4%
6%
8%
10%
150
3%
5%
7%
8%
200
3%
4%
6%
7%
250
3%
4%
5%
6%
300
2%
3%
5%
6%
400
2%
3%
4%
5%
500
2%
3%
4%
4%
600
2%
2%
3%
4%
1 000
1%
2%
3%
3%
2 000
1%
1%
2%
2%
Taille de l'échantillon : n ▼
Source : IDATE
À titre d’illustration : soit un échantillon d’enquête de 400 entreprises dont 20 font état d’un usage
donné. En première lecture il vient : La pénétration estimée de l’usage étudié parmi la population est
de 5%.
Néanmoins, en statistique, la lecture "théorique correcte" de ce résultat est la suivante :
"Il y a 95% de chance que la diffusion de cet usage parmi les entreprises égale 5%, à plus ou moins 2%".
En résumé, une taille d’échantillon trop petite grève trop lourdement la précision statistique : les
indicateurs inférés ne sont alors plus robustes (i.e. reproductibles d’un échantillon à l’autre). En
pratique, il est d’usage de retenir un seuil minimal de 50 interviewés pour pouvoir avancer une
estimation jugée suffisamment robuste, c’est-à-dire reproductible d’un échantillon d’enquête à un
autre.
Intervalle de confiance -une taille d'échantillon proche de la population
L’intervalle de confiance peut s’améliorer si la taille de l’échantillon s’approche de la taille de la
population mère.
La formule complète de l’intervalle de confiance dans ce cas est alors :
+/- 1.96  (fn( 1- fn)/n) 0.5  ((N-n)/(N-1)) 0.5
où N, représente la taille de la population mère.
Les niveaux d'ajustement peuvent ainsi conduire à un bonus de précision conséquent, comme l'illustré
le tableau suivant :
Gains de précision dans le cas d'une taille d'échantillon proche de la population mère
N
n
Ajustement
1 000 000
1 000
0,99950
100 000
1 000
0,99499
10 000
400
0,97984
1 000
400
0,77498
400
150
0.79156
200
150
0.50125
100
60
0,63564
100
80
0,44947
Source : IDATE