Elections présidentielles, analyse des sondages janvier
Transcription
Elections présidentielles, analyse des sondages janvier
1 Bernard Aubry 17 février 2014 Elections présidentielles 2012 analyse statistique des sondages janvier-avril 2012 La campagne 2012 des présidentielles a été scandée par la diffusion de sondages réalisés par huit instituts qui interrogent plus ou moins régulièrement, mais à des fréquences qui s’accélèrent au fur et à mesure que l’on approche de la date du 22 avril, des échantillons d’environ mille personnes censées représenter chacun un modèle réduit de la population décidée à se rendre aux urnes. L’IFOP publie même depuis janvier une série quotidienne basée sur une enquête « rolling » (échantillon tournant, renouvelé par tiers). Chaque institut s’est associé pour l’occasion à un ou plusieurs médias, de sorte que le retentissement des résultats ne dépend pas seulement de la notoriété de l’institut, mais aussi de l’impact médiatique du diffuseur. On sait que les résultats par échantillon sont affectés de diverses incertitudes, à savoir les incertitudes aléatoires liées à la nature même de la démarche d’observation, des erreurs de mesure (les non réponses, les éventuelles défaillances des enquêteurs…), mais également les effets des méthodes de redressement. Celles-ci sont indispensables, ne serait-ce que du fait que l’on sait par expérience que les personnes interrogées maquillent parfois leurs intentions, tantôt de façon intentionnelle, tantôt de façon inconsciente. Enfin, même si la capacité d’observation était parfaite à un instant t, on reste encore largement démuni quand il s’agit de procéder à des projections. En sociologie comme dans bien d’autres disciplines, l’habitude est prise de quantifier les phénomènes, mais contrairement à ce qui se passe en démographie (et dans une certaine mesure en économie), il n’existe pas de modèles de projection qui permette de prévoir les comportements de la société. Ceux-ci échappent aux meilleurs spécialistes. La célèbre formule de Pierre Vianson-Ponté : « Les sondages n’annoncent pas la révolution » demeure assurément valable aujourd’hui comme il y a près d’un demi-siècle, à la veille des événements de mai 1968. Et ce n’est pourtant pas faute de le leur rappeler régulièrement (ils le rappellent eux-mêmes quand ça les arrange : Ah ! les sondages…), mais bien des hommes politiques semblent oublier que, s’ils sont là pour les éclairer, les sondages risquent fort de les éblouir, à la manière de la Lorelei qui, du haut de son rocher, égarait les nochers imprudents. Le sondage ne serait-il pas, finalement, aux hommes politiques ce que le miroir est aux alouettes ? Pourtant, on ne peut être qu’admiratif – et donc indulgent - quand on regarde dans le passé la capacité remarquable qu’ont eue les sondages à coller à la réalité des scrutins. Il n’en demeure pas moins que certains écarts (erreurs ou mauvaise lecture ?) ont eu des conséquences cruelles et devraient conduire à la plus grande modestie. 1 2 Première partie, rédigée quelques jours avant l’élection Dans le travail qui est proposé, on a rassemblé les résultats essentiels, à savoir les intentions de vote au premier tour, publiées depuis le mois de janvier. Les données ont fait l’objet d’une analyse statistique simple, faite d’interpolations élémentaires et de moyennes. Graphique 1 : intentions de vote au premier tour (moyenne des 8 instituts de sondages depuis janvier) situation le 13 avril (1er tour) 35,0 30,0 MEL 25,0 HOL 20,0 JOL 15,0 BAY Quelques dates : 22.1 : Discours du Bourget (Hollande) 15.2 : Candidature Sarkozy 11.3 : Discours de Villepinte (Sarkozy) 18.3 : Discours Bastille (Mélenchon) 19.3+ : Affaire Mehra (Toulouse) Les courbes de Hollande et de Sarkozy SAR se seraient croisées le 23 mars et le 7 5,0 avril. LPE Le retrait de plusieurs candidats 0,0 aut (Lepage, Villepin…), a sans doute largement favorisé la remontée de Sarkozy. j-14 : 14 janvier, f-13 : 13 février – m-13 :13 mars – a-13 : 13 avril 10,0 Les hypothèses justifiant la méthode de calcul sont les suivantes : 1) on accorde à chaque institut la même pondération 2) entre deux enquêtes d’un même institut (elles se font d’abord tous les mois peu à peu toutes les semaines), les variations sont linéaires 3) entre la date de publication de la dernière enquête d’un institut et la dernière date figurant sur le graphique, on crée par convention une variation fictive correspondant à la moitié de la variation observée depuis la précédente enquête. Du fait que la moyenne repose sur huit instituts, chaque apport ne contribue qu’à raison de 1 huitième de sa valeur, ce qui fait que les incertitudes de toute nature sont minorées. L’examen des courbes montre une bonne cohérence des résultats, qui tranche avec les courbes que l’on peut faire en regardant les séries institut par institut. C’est conforme aux règles de convergence statistique, quand des observations sont indépendantes (quoique en l’occurrence cette indépendance ne peut être prouvée). On voit se dessiner chez chaque candidat des périodes de remarquable stabilité, mais aussi des inflexions qui sont l’expression d’un 2 3 indiscutable changement. Les courbes permettent ainsi de à mettre en relation les impacts des événements qui se sont déroulés au cours de la période pré-électorale. Tableau 1 - La situation au 13 avril et les variations * J-3 : trois jours avant l’élection – J-7 : 7 jours avant l’élection, etc. – Noter que seule une partie des Variations depuis J - … Situation au candidat 13 avril J – 3* J-7 Mélenchon 14,3 0,0 0,0 Hollande 28,2 0,1 0,3 Joly 2,1 0,0 0,0 Bayrou 10,1 -0,1 -0,2 Sarkozy 27,1 -0,2 -0,6 Le Pen 15,3 0,1 0,2 autres 2,9 0,1 0,3 instituts ont fourni des résultats au cours de ces trois jours. J - 14 J - 30 0,2 0,8 0,0 -0,7 -1,4 0,5 0,6 3,1 -0,5 -0,1 -2,4 -0,4 0,1 0,2 J - 90 6,4 -0,9 -0,9 -3,3 2,7 -2,3 -1,8 Remarques A propos des incertitudes aléatoires. Elles ne peuvent être évaluées que pour des échantillons tirés de façon aléatoire. Elles sont alors de l’ordre +/- 3 points si le tirage est simple, moins élevées si le mode de tirage est élaboré. Mais en France les sondages électoraux ne se font pas par tirage aléatoire, ils se font selon la méthode des quotas (modèle-réduit de la population en âge de voter). Les enquêteurs interrogent un ensemble de personnes inscrites sur les listes électorales prélevées sur une base composée de façon aléatoire (extraction de numéros de téléphones, panel d’internautes). Les enquêteurs interrogent n’importent qui, pour autant qu’au bout du compte, les proportions pour certaines variables dites de contrôle (sexe, âge, profession, habitat…) soient les mêmes dans l’échantillon et dans la population de référence. L’hypothèse implicite est que les personnes contactées qui refusent de répondre ont, à structure égale, les mêmes comportements que ceux qui ont répondu. Comme par ailleurs les répondants ne disent pas toujours leurs véritables intentions de vote (cf l’extrême sous-estimation du vote concernant Jean-Marie Le Pen dans le passé), comme la décision de voter pour tel ou candidat (ou d’aller voter tout court) est fluctuante, la nécessité de procéder à des corrections s’impose absolument. A propos des redressements. Par principe la démarche statistique reconnaît la nécessité des redressements. Mais toute science impose la transparence. Or celle-ci n’est pas acquise dans le cas des sondages d’opinion et on peut le regretter. On accepte l’idée que le redressement relèverait de l’art (à l’instar de l’art culinaire). Chaque institut souhaite garder sa méthode de redressement secrète. Il est seulement demandé aux instituts de communiquer à la Commission des sondages un dossier technique indiquant, notamment, de façon précise les méthodes de redressements appliquées aux résultats bruts. La Commission n’a que peu de moyens d’intervenir (elle le fait parfois sous forme de « mises au point » diffusées en ligne). Quoique non transparentes, les méthodes de redressement sont néanmoins sérieuses et l’on admet volontiers que tout institut a le souci d’assurer ou de maintenir sa crédibilité (en effet on sait que les instituts de sondage ne vivent pas des sondages politiques puisque ceux-ci ne représentent que 5 3 4 à 10% de leur chiffre d’affaires). Toutefois, il ne serait pas anormal, et d’aucuns le suggèrent, qu’au nom de la transparence, on oblige les instituts à fournir les données avant et après redressement.. D’aucuns pensent que certains instituts « travaillent » pour tel ou tel candidat. Hypothèse qui est loin d’être prouvée. Il est plus réaliste de penser que les spécialistes de chaque organisme font « ce qu’ils peuvent » pour appréhender au mieux le tréfonds de l’âme de l’électeur s’il est vrai que ceux-ci ont quelque chose d’ « insondable », ce dont il faut sans doute se réjouir. Le calcul de certains indicateurs d’écart, tel qu’il est effectué dans ce document, aide à y voir un peu plus clair. La position de chaque institut par rapport à chaque candidat Vous pouvez tromper tout le monde un certain temps; vous pouvez même tromper quelques personnes tout le temps; mais vous ne pouvez pas tromper tout le monde tout le temps. Abraham Lincoln S’il n’y avait ces fameux redressements, il n’y aurait pas, en moyenne, pour un institut donné, d’écart systématique entre ses propres résultats et ceux de l’ensemble de ses confrères, sauf défectuosité sélective de l’échantillon. Or on voit bien, en suivant de longues séries, que les écarts sont significatifs et, le plus souvent, permanents. On se propose donc de mettre en évidence ces écarts, en indiquant, à côté du nom de l’entreprise des sondages, celui du ou des médias associés. Tableau 2 – les écarts entre les instituts, par candidat (situation au 4 avril) Mélenchon BVA CSA HARRIS IFOP IPSOS LH2 OPINION WAY TNS SOFRES 4 Hollande Joly Bayrou Sarkozy Le Pen Autres Moyenne des écarts absolus 1,0 1,2 0,5 0,4 0,4 0,6 1,2 1,2 se situent à 2,9 0,2 2,9* -0,2 -0,2 -0,1 -1,8 -0,7 0,3 -1,8 -0,6 0,2 1,2 0,0 0,7 0,0 -2,0 0,8 0,3 -1,1 2,1 -0,1 -0,2 -1,1 0,1 -0,3 0,2 1,0 0,1 0,1 0,6 -0,3 -0,2 -0,5 -0,1 0,3 0,0 1,7 0,3 0,6 -0,8 -1,3 -0,6 -1,2 -1,3 -0,1 0,8 0,1 0,5 1,2 0,7 1,1 0,0 -1,3 1,0 -0,4 -1,0 * Mode de lecture : en moyenne, sur 3 mois, les résultats de BVA concernant F.Hollande points au-dessus de la moyenne calculée sur les 8 instituts. Colonne de droite : IFOP et IPSOS sont les instituts qui ls plus proches de la moyenne (tous candidats). Noter que ces résultats ne prennent pas en compte le sondage quotidien IFOP, mais les résultats des enquêtes classiques, comme en font ses confrères. Il s’agit de la situation observée au début du mois d’avril. 5 Graphique 2a Ecarts à la moyenne générale pour F.Hollande (G) et N.Sarkozy (D) 4,0 3,0 Hollande Sarkozy 2,0 1,0 0,0 bva csa harr ifop ipso lh2 oway tns bva csa harr ifop ipso lh2 oway tns -1,0 -2,0 -3,0 On constate que BVA (Orange-RTL-Presse régionale – Le Parisien-Aujourd’hui en France) accorde toujours un meilleur score relatif à Hollande plutôt qu’aux autres candidats (2,9 points en moyenne). De même, dans une moindre mesure, LH2 (Yahoo) et TNS-Sofres (Nouvel Observateur et i-Télé). A l’inverse le déficit est significatif pour CSA (BFMTV-RMC-20 MinutesCSC) et Harris-France (VSD-LCP), IFOP (Paris-Match-Europe 1). S’agissant de Sarkozy, les instituts semblent mieux s’accorder. Graphique 2b Ecarts à la moyenne générale pour J.L. Mélenchon (G) et M. Le Pen (D) 1,5 MELENCHON 1,0 LE PEN 0,5 0,0 bva csa harr ifop ipso lh2 oway tns -0,5 -1,0 -1,5 5 bva csa harr ifop ipso lh2 oway tns 6 S’agissant de JL Mélenchon, seuls Opinion-Way –Fiducial (Le Figaro – LCI) qui le sous-estime franchement et TNS-Sofres qui au contraire le sur-estime, s’écartent nettement de la moyenne des 8 instituts. Du côté de Marine Le Pen, il est clair que les méthodes de redressement conduisent à des divergences d’appréciation : Opinion-Way lui donne plus d’importance, de même que CSA (BFMTV – RMC). TNS-Sofres au contraire la désavantage. En revanche IPSOSLogica Business Consulting (France-TV - Radio-France – Le Monde) est en règle générale proche de la moyenne. Peut-on, à l’examen de ces résultats, suspecter certaines accointances ? On ne connait évidemment pas les communautés d’intérêt que peuvent entretenir entre eux les différents partenaires de la vie publique. Mais avant de porter des jugements définitifs, il vaut mieux s’interroger sur les dangers que court un institut qui chercherait à avantager tel ou tel candidat. Prenons l’exemple du cas de François Hollande vu par BVA. En janvier les scores de BVA pour ce candidat étaient nettement au-dessus de la moyenne (près de 5 points de plus, à 34%). Etait-ce bon pour le candidat ? Pas si sûr. Soit BVA a raison et c’est tant mieux pour l’institut qui aura fait les bons ajustements ; en revanche si le résultat n’est pas confirmé, ce sera interprété comme une défaillance, voire une tromperie. D’un autre côté, si au cours de la période, l’institut revoit sa méthode de redressement, il prend le risque d’accentuer la baisse du candidat. C’est d’ailleurs ce qui se semble s’être passé : en trois mois, le score de BVA pour Hollande baisse de 4 points, alors qu’il change assez peu pour nombre de ses confrères. S’il est peu probable que les instituts favorisent systématiquement tel ou tel candidat pour des raisons d’affiliation politique, en revanche il n’est nullement impossible que tel ou tel d’entre eux soit tenté de donner un petit coup de pouce pour être le premier à annoncer un événement qui se fait attendre (par exemple être le premier à annoncer le croisement des courbes des deux principaux candidats). En situation de monopole, de telles manipulations pourraient avoir l’effet d’entraînement (le fameux effet bandwagon) recherché. Mais aujourd’hui, en situation de concurrence dans une économie de marché, aucun institut n’a intérêt à s’éloigner sensiblement des estimations que ses spécialistes ont établies après des redressements rationnels s’appuyant sur les réponses spontanées. 6 7 II - Mise à jour et compléments au lendemain de l’élection (le 20 avril) Tableau 1 : La situation le 20 avril et les variations depuis … candidat 20 avril …J-3 …J-7 … J - 15 … J - 30 … J - 90 Mélenchon 13,8 -0,1 -0,4 -0,4 1,4 5,7 Hollande 28,1 0,2 0,5 0,2 -0,2 -1,3 Joly 2,5 0,1 0,1 0,3 0,2 -0,5 Bayrou 10,1 -0,2 -0,1 -0,3 -1,9 -3,2 Sarkozy 26,3 -0,2 -0,6 -1,6 -1,7 1,9 Le Pen 16,0 0,2 0,4 1,0 1,1 -1,3 autres 3,3 0,1 0,2 0,9 1,1 -1,3 Mode de lecture : Hollande : 28,1 % des voix au premier tour, Sarkozy, 26,3% En regardant la série des sondages, on constate que depuis au moins un mois, la moyenne des 8 instituts ne s’est jamais écartée de plus d’un demi-point pour Hollande, ce qui n’est pas le cas pour Sarkozy : son électorat a sans doute été plus difficile à cerner. 7 8 Tableau 2: Les écarts à la moyenne générale, ensemble sur 3 mois, Candidat Mélen Chon Hollan de Joly Bayrou Sarkozy Le Pen Autre s institut bva csa 0,0 2,7* -0,2 0,0 Mode de collecte et échantillon (1) Ecarts absolus moyens (2) -0,1 -1,6 -0,7 Int. - 2150 1,0 0,5 -1,4 -0,6 0,3 0,8 0,0 0,4 Tél. - 1130 1,1 Harris inter. -0,3 -1,8 0,8 0,3 -0,9 1,9 0,0 Tél. -1070 0,5 ifop -0,1 -0,9 0,2 -0,3 0,3 0,8 0,0 Int. - 1810 0,4 ipsos 0,1 0,5 -0,3 -0,2 -0,4 -0,1 0,4 Tél. -1020 0,5 lh2 0,0 1,4 0,3 0,6 -0,7 -1,2 -0,4 Tél. - 960 0,5 -0,9 -1,3 -0,1 0,6 0,2 0,4 1,1 Int. - 1000 1,1 opinionway Tns-sofres 0,7 0,8 0,1 -1,2 0,7 -0,2 -0,9 Tél.- 1000 1,0 * en moyenne, sur 3 mois, les résultats de BVA pour Hollande se situent à 2,7 points au-dessus de la moyenne calculée pour les 8 instituts. 1) Int. pour interview par internet, Tél pour téléphone – le chiffres correspond au nombre d’électeurs interrogés à la dernière enquête. 2) on a calculé l’écart en valeur absolue, entre le chiffre estimé quotidiennement par un institut et la moyenne pour les 8 instituts. Graphiques 2 : Comparaison des séries quotidiennes L’Ifop (pour Fiducial et Paris-Match) a réalisé un sondage quotidien depuis le début janvier. Les graphiques comparent les indications de votent des deux séries : série rolling d’une part, moyenne des 8 instituts qui chacun ont effectué une dizaine d’enquêtes « classiques d’autre part. On reconnait les séries rolling par leur irrégularité « naturelle » (notons que les séries publiées ont fait l’objet d’un lissage par mise en moyenne mobile des données sur trois jours) 8 9 Les courbes quotidiennes « rolling », bien que mises en moyennes sur trois jours restent empreintes de mouvements aléatoires importants. Mais globalement elles épousent assez bien les grandes tendances observées par les sondages classiques. On note cependant que la courbe « rolling » pour Hollande est toujours au-dessous de la courbe classique, sauf peu avant l’élection où elles se croisent. Les écarts systématiques sont surtout élevés pour Le Pen – (longtemps l’écart a été de l’ordre de 4 points) et pour Joly. Sources : http://www.sondages-en-france.fr/sondages/Elections/Pr%C3%A9sidentielles%202012/#pq3982 et les sites des huit instituts cités dans l’étude. On pourra consulter également les sites du Monde et du Nouvel Observateur qui proposent l’un et l’autre un comparateur des sondages. Voir aussi : l’association Pénombre, la vie publique des nombres : http://www.penombre.org/Nocturne-sondages?var_recherche=nocturne%20sondage 9