10 questions/réponses pour devenir incollable surlessondages

Transcription

10 questions/réponses pour devenir incollable surlessondages
10 QUESTIONS/RÉPONSES
POUR DEVENIR INCOLLABLE
S U R L E S S O N D A G E S
Marine Le Pen était-elle vraiment première candidate des jeunes en 2012 ? Dix ans plus
tôt, pouvait-on prévoir le 21 avril 2002 ? Les sondages en ligne sont-il fiables ?
Ce mois-ci, dans Brèves de campagne, rejouez le match des dernières élections présidentielles et découvrez les votes de paille du XIXe siècle, Nate Silver, star américaine de
la prédiction ou encore CrowdGuess, le nouveau marché prédictif à la française.
Comme avant chaque élection, à moins de cinquante jours du premier tour des municipales, les sondages sont au cœur des analyses politiques. Mais les sondages sont
aussi régulièrement critiqués, pour leur imprécision ou l’influence qu’ils exercent sur
l’opinion. Au moment de leur invention, en 1936, ils représentaient pourtant une avancée
considérable par rapport aux mesures d’opinion plus anciennes. Faut-il continuer à les
croire en 2014 ? Ou devons-nous leur préférer des méthodes de prédiction alternatives
?
Pour sa troisième édition, Brèves de campagne vous propose 10 questions/réponses
pour devenir incollable sur les sondages !
1. De quand date le premier sondage ?
Peu se souviennent aujourd’hui de l’homme politique américain Alf Landon. C’est pourtant lui qu’on annonçait vainqueur de la Présidentielle de 1936 face à Franklin D. Roosevelt. C’était du moins la prédiction d’un « straw poll », un « vote de paille » réalisé
auprès de 10 millions de personnes par la revue Literary Digest peu avant l’élection.
En effet, depuis le début du XIXème siècle, les journaux américains avaient
pris l’habitude d’interroger leurs lecteurs, par exemple en leur demandant de découper dans le journal le bulletin de leur candidat favori et de
le renvoyer. Ces votes de paille portaient sur des échantillons très larges.
Comment ont-ils alors pu se tromper en 1936 alors que l’institut de sondage Gallup, fondé l’année précédente seulement, avait prédit l’élection de Franklin D. Roosevelt en interrogeant seulement quelques milliers de personnes ?
C’est que la méthode de sondage développée par Gallup pour ce premier sondage tirait
sa force non pas du nombre (quelques milliers de personnes contre dix millions) mais de
sa représentativité. Plus l’échantillon interrogé constitue une image fidèle de l’électorat,
plus les prédictions qu’on peut en tirer sont fiables. Pour avoir la meilleure représentativité, c’est très simple, il suffit de tirer les répondants au sort. Le hasard faisant bien
les choses, si l’électorat compte 40% de femmes et si l’électeur moyen a 45 ans, un
échantillon tiré au sort aura également 40% de femmes et une moyenne d’âge de 45 ans.
www.liegeymullerpons.fr
LE JOUR OÙ LE FRONT NATIONAL A RECULÉ
2. «Marine le Pen, première candidate des
jeunes en 2012» : était-ce vrai ?
Le 9 avril 2012, deux semaines avant le premier tour de l’élection présidentielle, Le Monde
publiait un article intitulé « Marine Le Pen pourrait arriver en tête chez les jeunes »1. Pourtant,
le sondage sur lequel le journal s’appuyait ne portait pas sur les intentions de vote des jeunes
en particulier mais sur l’électorat en général. L’institut de sondage avait interrogé des personnes de tous âges (afin d’avoir un échantillon représentatif de la population) puis avait isolé
les réponses des 100 jeunes de 18 à 24 ans faisant partie de l’échantillon. 26% avaient déclaré
leur intention de voter pour Marine Le Pen, contre 25% pour François Hollande. Un petit
point de différence, pour une marge d’erreur de … plus ou moins 8,7 points de pourcentage !
Qu’appelle-t-on la marge d’erreur ? Il s’agit de l’intervalle de tous les scores probables autour de la prédiction. La plupart des sondages utilisent environ un millier
d’observations, ce qui leur donne une précision de plus ou moins 3 points de pourcentage. Mais la marge d’erreur augmente dès lors qu’on réduit le nombre d’observations.
Dans ce cas précis, le score prédit par le sondage – 26% de vote en faveur de Marine
Le Pen - ne permettait d’exclure comme improbables que des scores du Front National en-deçà de 17.3% (26 – 8.7) ou au-delà de 34.7% (26 + 8.7). Tous les scores situés au sein de cette fourchette étaient probables, mais seuls une partie d’entre eux
faisaient de Marine Le Pen la première candidate des jeunes. De fait, le 22 avril, les
jeunes la placèrent en troisième position, derrière François Hollande et Nicolas Sarkozy.
Bref, le nombre d’observations, s’il compte moins que la représentativité de
l’échantillon, compte tout de même un peu : on ne devrait pas tirer de conclusions hâtives de l’analyse des résultats de sondage obtenus sur un échantillon trop petit.
3. Pouvait-on prévoir le 21 avril 2002 ?
Du 21 avril 2002, on retient surtout le résultat : Jean-Marie Le Pen arrivé en seconde position du premier tour de la présidentielle, derrière Jacques Chirac mais devant Lionel
Jospin. Pourtant, aucun sondage réalisé pendant la campagne du premier tour n’avait
prédit que Jean-Marie Le Pen pouvait devancer Lionel Jospin. Au contraire, les sondages
de la dernière semaine annonçaient pour Jean-Marie Le Pen un score maximal de 14%
et pour Lionel Jospin un score minimal de 17%. Cette erreur s’explique probablement par
une mauvaise prise en compte de ce qu’on appelle la « sous-déclaration » des électeurs
du Front National : ces électeurs sont moins disposés que les électeurs d’autres partis à
annoncer leur intention d’aller voter et surtout à révéler leur choix pour l’élection à venir.
Ces deux biais de réponse sont bien connus des instituts de sondage, qui tentent de
les corriger en « redressant » les réponses des sondés. On sait par exemple qu’il
faut corriger à la hausse les intentions de vote en direction du Front National, et on
peut comparer les sondages et résultats des élections passées pour déterminer
1
http://www.lemonde.fr/election-presidentielle-2012/article/2012/04/09/marine-le-penpourrait-arriver-en-tete-chez-les-jeunes_1682543_1471069.html
2
www.liegeymullerpons.fr
l’ampleur de la correction nécessaire. On estime également que la sous-déclaration
des électeurs du Front National est moins élevée aujourd’hui qu’elle l’était en 2002.
Mais le 21 avril 2002 nous rappelle que le redressement reste une science inexacte.
4. Qu’est-ce que la méthode des quotas ?
La méthode des quotas est une extension de la méthode du tirage aléatoire. Elle vise à renforcer la représentativité de l’échantillon sur certaines caractéristiques telles que le sexe, l’âge,
la situation socio-professionnelle, ou le lieu d’habitation. Par exemple, si 52% des électeurs
français sont des électrices, la méthode garantit que 52% des enquêtés seront des femmes.
La méthode des quotas comporte cependant des limites. Il est facile d’interroger une
personne enquêtée sur son âge et sur d’autres variables démographiques. En revanche,
il est beaucoup plus difficile de mesurer de façon précise d’autres variables qui influencent son intention de vote, par exemple les orientations politiques d’autres membres de son entourage. La méthode des quotas ne peut donc inclure des variables de
ce type : elle ne peut garantir la représentativité de l’échantillon quant à ces variables.
Bref, la similarité de l’échantillon à la population sur quelques variables ne signifie pas qu’il est similaire sur toutes, qu’il est totalement représentatif.
5. Les sondeurs n’appellent-ils que des
téléphones fixes ?
Bien sûr que non ! La très grande majorité des sondages sont réalisés par téléphone, mais ceux-ci portent aussi bien sur des numéros fixes que sur des mobiles. Or, en 2011, 89% des Français possédaient un téléphone fixe, 85% un téléphone portable et 74% possédaient l’un et l’autre1. Le téléphone permet donc en
principe d’obtenir un échantillon assez bien représentatif de la population totale.
L’utilisation du téléphone mobile pose cependant des problèmes spécifiques. Décrochezvous lorsque vous êtes dans un café avec un ami ou au travail? Si oui, accorderiez-vous du
temps à un sondeur dans ces conditions ? Et même si vous acceptiez, feriez-vous des réponses précises et réfléchies ? L’environnement n’est pas toujours très favorable aux sondages.
Au total, téléphones fixes et mobiles confondus, le taux de réponse est faible, en général inférieur à 20%. Or rien n’indique que les 20% qui répondent aient les mêmes
caractéristiques que les 80% qui ne répondent pas. En effet, ceux qui répondent sont
peut-être ceux qui ont beaucoup de temps disponible, ou qui font plus confiance
aux inconnus que la moyenne et acceptent de répondre à un numéro qu’ils ne connaissent pas - toutes caractéristiques qui sont peut-être associés à un comportement électoral particulier. Le faible taux de réponse peut donc introduire un biais
de représentativité de l’échantillon et donc mettre en danger la fiabilité du sondage.
1
Source : ARCEP 2011
www.liegeymullerpons.fr
3
LE JOUR OÙ LE FRONT NATIONAL A RECULÉ
6. Les sondages en ligne sont-ils fiables ?
Les sondages en ligne sont parfois présentés comme une alternative aux sondages téléphoniques. Pourtant, leur fiabilité est faible : le nombre d’enquêtés
potentiels est limité et eux-ci ne sont pas représentatifs de la population.
Pour être interrogé par Internet, vous devez avoir donné votre accord. Ainsi, les sondeurs
ne peuvent pas tirer aléatoirement leurs enquêtés parmi l’ensemble des 75% de Français possédant aujourd’hui une connexion1. L’institut YouGov, par exemple, possède un
panel propriétaire de 100 000 contacts, très régulièrement interrogés. Certains panélistes
répondent ainsi plusieurs fois par mois à des questions aussi diverses que leur goût en
matière de yoghourts, leurs achats sur internet ou leur intention de vote en cas d’une
primaire UMP en 2016. Des instituts comme celui-ci se heurtent donc rapidement au
problème de la professionnalisation des enquêtés au sein de bases de données limitées.
En outre, il n’y a aucune raison de penser que les individus interrogés en ligne sont
représentatifs de la population. Avoir donné son accord pour figurer dans une base de données révèle un certain niveau de maturité dans l’utilisation d’Internet, qui est corrélé à de
nombreuses caractéristiques, notamment le niveau de revenu, la profession ou encore le
fait d’avoir ou non des d’enfants. La méthode des quotas réduit une partie de ces biais, mais
les caractéristiques inobservées peuvent constituer un risque pour la fiabilité du sondage.
Quant aux sondages organisés par les sites de journaux ou d’autres sites d’information,
qui demandent à leurs internautes de répondre à une question, ils ne sont que le visage moderne des « votes de pailles » organisés par les journaux américains du XIXe siècle : les caractéristiques des répondants ne sont pas contrôlées et rien n’empêche une
même personne de répondre plusieurs fois si elle le souhaite. Ces sondages ne peuvent
donner qu’une image imparfaite des opinions des lecteurs d’un site particulier et ils ne
disent rien sur l’opinion de la population générale, au-delà des seuls lecteurs du site.
7. En campagne, on rencontre des milliers
d’électeurs. Peut-on en tirer parti pour réaliser
un sondage de terrain ?
Les volontaires d’Anne Hidalgo ont entrepris de tester la popularité de Nathalie Koscusko-Morizet lors des sessions de porte-à-porte2. Mais les informations collectées à cette occasion constituent-elles un véritable sondage de terrain ?
Les militants vous le diront : parler directement à des électeurs permet d’avoir des
discussions plus approfondies et personnelles. En outre, se déplacer jusqu’au pas
des portes permet d’avoir accès aux électeurs sous-représentés dans les sondages classiques parce qu’ils ne possèdent pas de téléphone ou y répondent rarement.
1
Source : CREDOC, Enquêtes « Conditions de vie et Aspirations » 2011
2
http://lelab.europe1.fr/t/l-equipe-hidalgo-teste-la-notoriete-de-nathalie-kosciuskomorizet-pendant-ses-porte-a-porte-12279. Liegey Muller Pons accompagne l’équipe d’Anne Hidalgo sur cette campagne.
4
www.liegeymullerpons.fr
Cependant, est-il si facile de dire à celui ou celle en face de soi que l’on votera pour
l’adversaire ? Ou que l’on s’abstiendra ? L’équipe de campagne socialiste à Paris le reconnaît volontiers : les biais de ce type d’interactions sont multiples et ils sont renforcés par le ciblage réalisé par les partis politiques. En effet, les volontaires ne vont
pas frapper aléatoirement aux portes : lors des campagnes de mobilisation par exemple, ils visent un électorat majoritairement en leur faveur, afin d’augmenter son taux de
participation. Les rencontres de terrain sont donc complémentaires des sondages téléphoniques, mais ne peuvent s’y substituer, à moins que les actions de terrain ne soient conçues spécifiquement dans l’objectif d’interroger un échantillon représentatif.
8. Quel institut de sondage avait prédit parfaitement le résultat des dernières élections
présidentielles américaines dans chacun des
50 Etats?
Aucun.
En
revanche,
plusieurs
universitaires
et
un
bloggeur
désormais célèbre, Nate Silver, avaient réussi à prédire avec exactitude, dans chacun des 50 Etats, qui, de Barack Obama ou Mitt Romney, l’emporterait.
Rien, a priori, ne prédisposait Nate Silver à réaliser un tel coup de force. Il avait en effet débuté sa carrière en construisant des modèles permettant de prédire les résultats de matches de baseball ! Ce n’est qu’en 2007, soit un an avant la première élection de Barack Obama, qu’il s’est intéressé à la prédiction politique.
Quelle recette Nate Silver a-t-il bien pu appliquer pour battre les prédictions des instituts de sondage ? Le détail de celle-ci restera secret. Mais on en connaît les ingrédients principaux. D’une part, utiliser les résultats d’un grand nombre de
sondages réalisés par différents instituts et les pondérer en fonction de la qualité de leurs prédictions aux élections passées : plus un sondage a prédit un score
proche du résultat final à une élection antérieure, plus son poids est important.
Ensuite, compléter ce travail par des données sur les déterminants du vote : les caractéristiques sociodémographiques des électeurs et leur comportement électoral passé. A partir de
l’ensemble de ces éléments, Nate Silver construit un puissant modèle statistique prédictif du
vote qui lui a permis de donner avec exactitude le nom du gagnant de l’élection dans chaque Etat.
En France, cette stratégie est tout aussi réalisable : à l’échelle de chaque ville, on dispose
d’informations sur la notoriété des candidats, l’évolution de la situation économique et de
la démographie, et l’évolution des préférences politiques, reflétée par les résultats électoraux passés. Certaines de ces variables sont même disponibles à l’échelle du bureau de
vote. L’équipe de Liegey Muller Pons a utilisé ces ingrédients pour prédire les résultats
des municipales 2014 dans chacun des 68 000 bureaux de vote français. Grâce à notre
modèle, nous pouvons indiquer aux utilisateurs de notre logiciel Cinquante Plus Un quels
sont les bureaux de vote à cibler en priorité. Nous n’en dirons pas plus : comme pour Nate
Silver ou pour le Coca-Cola, éventée, notre recette perdrait une bonne partie de sa valeur !
www.liegeymullerpons.fr
5
LE JOUR OÙ LE FRONT NATIONAL A RECULÉ
9. Les sondages peuvent-ils être remplacés
par des sites de paris en ligne ?
Si vous pouviez parier sur le gagnant des élections municipales dans notre ville, sur qui
parieriez-vous ? C’est à cette question que vous devrez répondre si vous décidez de participer à un marché prédictif, un site de paris en ligne un peu particulier. Evaluer les chances
de victoire des différents candidats est plus éloigné de l’acte du vote qu’indiquer ses préférences politiques à un sondeur. Pourtant, les marchés prédictifs permettent souvent
de formuler des prédictions plus fiables que les sondages. Depuis 1988, par exemple, les
marchés de l’université de l’Iowa sont utilisés pour prédire les résultats des élections présidentielles américaines. Dans 74% des cas, ils se sont avérés plus précis que les sondages1.
Comment les marchés prédictifs fonctionnent-ils? Considérons par exemple le marché
associé à la victoire d’Anne Hidalgo à Paris. Sur ce marché, je peux acheter à un autre
joueur la promesse que celui-ci me paiera 100 euros en cas de victoire de la candidate
socialiste, et 0 euro sinon. Si j’estime que la probabilité qu’Anne Hidalgo gagne est de
75%, j’estime qu’en achetant cette promesse je réaliserai un gain moyen de 75 euros (75%
x 100 euros + 25% x 0 euro). Je suis donc prêt à acheter cette promesse si son prix est
inférieur ou égal à 75 euros. En plus de moi, de nombreux acheteurs et vendeurs potentiels s’échangent des promesses. Le marché concentre tous ces échanges et définit le prix
d’équilibre, c’est-à-dire le prix auquel le nombre d’acheteurs égale le nombre de vendeurs.
Supposons par exemple qu’au début de la campagne le prix d’équilibre soit de 30 euros, annonçant une probabilité de victoire de 30% seulement. Cependant, je reçois la visite du candidat lors d’un porte-à-porte et je suis marqué par son charisme. C’est certes un candidat
encore peu connu, mais je pense désormais qu’il peut convaincre beaucoup d’électeurs au
cours de sa campagne. J’en déduis que ses chances de victoire sont supérieures à 30%, et
sans doute plus proches de 50%. Pour cette raison, j’achète un grand nombre de promesses,
pensant réaliser un gain espéré futur de 20 euros (50 - 30) par promesse achetée. Si d’autres
électeurs, qui ont eux-mêmes reçu la visite du candidat ou qui ont écouté ses premiers discours, font la même analyse que moi, l’augmentation de la demande accroît le prix, jusqu’à
un nouveau prix d’équilibre qui reflète désormais l’information privée dont je disposais.
La force d’un tel marché est donc d’agréger l’ensemble de l’information publique et privée
disponible sur les chances de victoire de chaque candidat. En outre, les marchés prédictifs
répondent à un grand nombre de critiques traditionnellement adressées aux sondages : ils
échappent notamment aux biais systématiques dans les réponses données aux enquêteurs.
Toutefois, ils ne fonctionnent qu’à certaines conditions : que le nombre de participants soit
suffisamment grand, et que les participants parient de façon stratégique, en favorisant
le candidat qui a le plus de chances de gagner plutôt que celui qui a leur préférence.
Malgré leur efficacité, les marchés prédictifs américains ont dû fermer en raison de la réglementation financière. De même, en France, il est aujourd’hui interdit de créer un marché
1
Joyce E. Berg, Forrest D. Nelson and Thomas A. Rietz, “Prediction Market Accuracy in the
Long Run”, International Journal of Forecasting, 2008, 24(2), 283-298.
6
www.liegeymullerpons.fr
prédictif en monnaie réelle. Un site récemment créé, CrowdGuess1, contourne cette interdiction en utilisant de la monnaie virtuelle. Saura-t-il prédire les résultats des prochaines
élections municipales de façon fiable ? Nous saurons très vite si cet artifice ingénieux
permet de faire des marchés prédictifs une véritable alternative aux sondages en France.
10.Lorsqu’un candidat est haut dans les sondages, les électeurs votent-ils davantage pour
lui ?
Oui. Plusieurs études ont établi que les sondages ne se contentent pas de mesurer l’opinion publique, mais qu’ils contribuent aussi à l’influencer et qu’ils affectent ainsi les résultats de l’élection. Cet effet reflète deux mécanismes
complémentaires : un effet de contagion et le phénomène du vote utile.
D’abord, les sondages peuvent être contagieux. Ils peuvent affecter la perception, positive ou négative, que les électeurs ont des différents candidats. Les
électeurs préfèrent en effet les vainqueurs aux perdants – et ils préfèrent donc
le candidat que les sondages font apparaître comme un vainqueur potentiel2.
En outre, les sondages peuvent modifier les choix stratégiques des électeurs sans changer
leurs véritables opinions politiques3. Par exemple, si les électeurs doivent choisir entre plusieurs candidats idéologiquement assez proches – comme c’est souvent le cas en France
– les sondages peuvent indiquer le candidat qui a le plus de chances de gagner l’élection. A
partir de cette information, les électeurs peuvent adopter une stratégie de « vote utile » : ils
choisissent de voter pour un candidat qui n’est pas forcément leur candidat préféré mais qui
a le plus de chance de porter leur camp, gauche ou droite, au pouvoir. C’est une des raisons
pour lesquelles les partis politiques commanditent des sondages et, s’ils sont favorables,
les laissent parfois « fuiter » ensuite : cela leur permet d’exercer une pression sur leurs
adversaires, mais aussi sur leurs éventuels alliés, afin d’obtenir un accord plus favorable.
Cela ne signifie cependant pas forcément que les gros candidats soient nécessairement favorisés : aux Etats-Unis, les sondages réalisés pendant la campagne des primaires ont montré qu’aussi bien Barack Obama qu’Hillary Clinton l’emporterait face à John McCain. Ces sondages ont sans doute contribué à
prouver que la candidature de Barack Obama – alors outsider – était viable et à éviter
que ses partisans se sentent obligés de « voter utile » pour Hilary Clinton, alors favorite.
1
https://www.crowdguess.org/
2
Voir par exemple Stephen Ansolabehere et Shanto Iyengar, « Of Horseshoes and Horse
Races : Experimental Studies of the Impact of Poll Results on Electoral Behavior », Political Communication, 1994, 11(4), 413-430.
3
Voir par exemple André Blais, Elisabeth Gidengil et Neil Nevitte, “Do Polls Influence the
Vote?”, dans Capturing Campaign Effects, Henry E. Brady and Richard Johnston (eds), Ann Arbor,
University of Michigan Press, 2006.
www.liegeymullerpons.fr
7