wie aussagekräftig sind die resultate von online
Transcription
wie aussagekräftig sind die resultate von online
WIE AUSSAGEKRÄFTIG SIND DIE RESULTATE VON ONLINEUMFRAGEN? Thomas Milic INHALTSVERZEICHNIS INHALTSVERZEICHNIS ............................................................................................................................. 2 I. Einleitung ......................................................................................................................................... 1 II. Eine Typologie von Online-Umfragen ............................................................................................. 1 III. Vor- und Nachteile von Online-Umfragen................................................................................... 3 IV. Wie repräsentativ sind selbstrekrutierte Online-Umfragen?...................................................... 3 V. Gewichtungsverfahren .................................................................................................................... 4 A. Kalibrations- und Redressmentverfahren ................................................................................... 5 B. Propensity Score-Gewichtung ..................................................................................................... 6 C. Multilevel Regression with Poststratification ............................................................................. 6 VI. Wie aussagekräftig sind die Resultate von Online-Umfragen? ................................................... 7 VII. Diskussion .................................................................................................................................... 7 VIII. Bibliographie................................................................................................................................ 8 I. Einleitung Die erst kürzlich erfolgte Ankündigung zweier führender amerikanischer Medienhäuser (New York Times und CBS News), Online-Umfragen als Teil ihrer Wahlkampfberichterstattung zu verwenden, löste in den USA eine ungewöhnlich kontroverse Debatte über die Qualität solcher Umfragen aus.1 Dieselbe Diskussion ist mittlerweile auch in der Schweiz angekommen, wenngleich die Intensität, mit welcher sie geführt wird, nicht mit derjenigen in den USA vergleichbar ist. Immerhin aber widmete die NZZ2 diesem Thema jüngst einen längeren Artikel, der mit dem Ausblick endete, wonach OnlineUmfragen auch in der Schweiz das Potenzial haben, "die Branche aufzumischen". Was in der Schweiz (noch) Ausblicke oder Visionen sind, ist in anderen Staaten bereits Realität: In Australien beispielsweise machen Online-Umfragen in der Zwischenzeit die Mehrheit aller Befragungen aus (Fielding, Lee und Blank 2008: 188). Der Siegeszug von Internetbefragungen hat sowohl mit ihren Stärken als auch mit der Krise der klassischen Befragungsmodi zu tun. Zu den unbestrittenen Stärken von webbasierten Befragungen zählen die hohe Effizienz und die geringen Kosten: Umfragen im Internet können im Prinzip von jedermann realisiert werden und sind deshalb erheblich zeitsparender und insbesondere kostengünstiger als die klassischen Offline-Befragungen. Hinzu kommt der Umstand, dass telefonische Befragungen mit steigenden Kosten, sinkenden Antwortraten und einem immer geringeren Abdeckungsgrad von Telefonanschlüssen zu kämpfen haben (z.B. Blumberg und Luke 2007, Steeh und Piekarski 2008, Kohut et al. 2012, Tourangeau und Plewes 2013, Keeter et al. 2006). Doch die steigende Popularität von Online-Umfragen steht beinahe umgekehrt proportional zum Umgang mit Erfassungsproblemen (under- und overcoverage) und anderen Herausforderungen solcher, häufig selbstrekrutierter Umfragen (Tourangeau et al. 2013: 11). Kurz gesagt: Eben weil sie so einfach aufzusetzen sind, wird dies häufig nur wenig gewissenhaft getan (Couper 2000). Dies aber hat Auswirkungen auf die Ergebnisse solcher Surveys - und daran, d.h. an den Ergebnissen, bemisst sich letztendlich die Qualität von Umfragen. Deshalb ist es von grösster Bedeutung, die Auswahlmechanismen und das Antwortverhalten bei solchen Umfragen zu erforschen. Eine Übersicht der bisherigen Forschungsergebnisse in diesem Bereich präsentieren wir im vorliegenden Beitrag. II. Eine Typologie von Online-Umfragen Beginnen wollen wir mit einer kurzen Übersicht der verschiedenen Umfragetypen. Wenn von OnlineUmfragen die Rede ist, so denken die meisten spontan an Umfragen mit selbstselektiver Rekrutierung. In der Tat machen solche opt-in surveys - der englische Ausdruck ist wahrscheinlich auch im deutschsprachigen Raum gebräuchlicher - die Mehrheit aller webbasierten Umfragen aus. Das optingin beschreibt dabei einen Auswahlprozess, bei dem die Besucher derjenigen Internetseite, auf welcher die Umfrage gehostet wird, am Ende selbst entscheiden, ob sie teilnehmen wollen oder nicht. Das wiederum unterscheidet opt-in Umfragen von den traditionellen, auf Zufallsauswahlen3 1 http://www.washingtonpost.com/blogs/the-fix/wp/2014/07/31/the-new-york-times-rocked-the-polling-world-over-theweekend-heres-why/. 2 NZZ 17.10.2014. „Online-Umfragen mischen Branche auf“. 3 Eine Zufallsauswahl zeichnet sich dadurch aus, dass alle Elemente der Grundgesamtheit dieselbe Chance haben, Element der Stichprobe zu werden. Diese Inklusionschance muss zudem höher als Null betragen. Alleine diese Definition macht schon deutlich, dass die herkömmlichen Telefonumfragen, die in der Regel auf offiziellen Telefonverzeichnissen beruhen, keine Zufallsauswahlen sein können - auch wenn sie sich oftmals dieses Label geben. Denn das Telefonverzeichnis enthält 1 zugrundeliegenden (Telefon-)Umfragen. Denn bei letzteren erfolgt die Auswahl der Befragungsteilnehmer systematisch auf der Basis einer (möglichst) vollständigen Liste der Grundgesamtheit.4 Die einzelnen Befragungsteilnehmer werden sodann zufällig (und aktiv) aus dieser Liste gezogen und nehmen demnach nicht "von sich aus" an der Umfrage teil. Der Auswahlprozess ist demnach für eine erste Unterscheidung von Online-Umfragen zentral: Bei zufallsbasierten Umfragen erfolgt die Auswahl zufällig und liegt in den Händen des Forschenden (und ermöglicht deshalb auch die Anwendung aller Methoden der Inferenzstatistik), während sie bei nicht-zufallsgesteuerten Auswahlen von der Internetpräsenz der potenziell Befragten und ihrer Teilnahmebereitschaft abhängig ist5. Die traditionellen Telefonumfragen wiederum beruhen meist auf Zufallsauswahlen, während Online-Umfragen sich (notwendigerweise)6 häufiger auf nicht-zufallsgesteuerte Auswahlen stützen. Allerdings darf nicht unerwähnt bleiben, dass es auch zufallsgesteuerte Online-Umfragen gibt. Indes, solche Umfragen erfordern einen sehr hohen Aufwand, womit die Vorteile, derentwegen InternetUmfragen so beliebt sind, wegfallen. Deshalb bilden zufallsgesteuerte Online-Umfragen die Ausnahme (Battaglia 2008).7 Wir werden uns deshalb auch nicht weiter mit ihnen auseinandersetzen (für eine Übersicht siehe z.B.: Chang und Krosnick 2009, Couper und Coutts 2006). Eine weitere Unterscheidung betrifft die Auswahl innerhalb der Gruppe derjenigen, die sich bereit erklären, an Internetumfragen teilzunehmen. Diesbezüglich gibt es einerseits Online-Umfragen, die sich auf einen Pool eingeschriebener und grundsätzlich teilnahmewilliger Befragter abstützen. YouGov, der weltweit wohl grösste Anbieter von Online-Umfragen, unterhält beispielsweise ein solches, mehrere Millionen Mitglieder umfassendes „Reservoir“ an eingeschriebenen Teilnahmewilligen. Aus dieser zahlenmässig überwältigenden (indes nicht-zufallsgesteuerten) Auswahl werden sodann jeweils weitere, nun jedoch zufallsgesteuerte oder quotierte („matching“) Subsamples gezogen (für weitere Informationen siehe: Rivers und Bailey 2009). Diese Subsamples mögen zwar mitunter „repräsentativ“ sein (vielleicht gar repräsentativer als Zufallsauswahlen), sie sind jedoch keine Zufallsauswahlen, weil die ursprüngliche Einschreibung in den Teilnehmerpool von YouGov selbst kein zufallsgesteuerter Prozess war. Auf der anderen Seite gibt es Online-Umfragen, die keinerlei Restriktionen beim Auswahlprozess kennen. Mit anderen Worten: Jeder, der – wie auch immer – auf diese Umfrage aufmerksam wurde und teilnehmen will, kann dies auch tun. Die bekanntesten politischen Umfragen dieser Art in der Schweiz sind die 20 Minuten-Umfragen im Vorfeld von eidgenössischen Urnengängen. beispielsweise nur registrierte Nummern, weshalb etwa die Inhaber einer nicht-registrierten Telefonnummer keine Chance mehr haben, Element der besagten Stichprobe zu werden. 4 Eine vollständige Liste aller Schweizer Stimmberechtigten gibt es erst seit Kurzem (siehe: Roberts et al. 2013). Sie wurde beispielsweise von SELECTS genutzt, steht aber kommerziellen Umfrageinstituten nicht zur Verfügung. 5 Auch bei Zufallsauswahlen gibt es de facto ein opt in-Element. Denn die angerufenen Befragten müssen ja nicht teilnehmen, womit auch ihre Teilnahme von ihrer Teilnahmebereitschaft abhängig ist. Der Unterschied zu Umfragen ohne Teilnahmerestriktionen ist aber, dass - sollte der ausgewählte Befragungsteilnehmer das Interview verweigern - ein weiterer Befragter nach dem Zufallsprinzip ausgesucht wird. Mit anderen Worten: Die Auswahl liegt nach wie vor in den Händen des Forschenden und wird nicht den potenziell Befragten alleine überlassen (Selbstselektion). Deshalb ist bei opt in-Umfragen auch davon auszugehen, dass die Teilnahme viel stärker vom Interesse am Untersuchungsthema abhängig ist als bei probabilistischen Umfragen. 6 Um probabilistische Auswahlverfahren anwenden zu können, bedürfte es - sofern man die Befragten nicht offline rekrutiert - eines vollständigen Verzeichnisses aller Internetteilnehmer oder eines Verfahrens, dass - ähnlich wie RDD - zufällig Emailoder IP-Adressen generieren könnte. Beides gibt es (noch) nicht. 7 Ein Beispiel dafür ist jedoch Selects 2015. 2 Im Weiteren soll nur noch auf opt-in Online-Umfragen eingegangen werden. Sie machen, wie gesagt, die klare Mehrheit aller Online-Umfragen aus (Lutter 2005) und bedürfen, da sie sich fundamental von zufallsbasierten Umfragen unterscheiden, auch der zusätzlichen Erörterung. III. Vor- und Nachteile von Online-Umfragen Die grössten Vorteile von Online-Umfragen wurden bereits genannt: sie sind weitaus zeitsparender und kostengünstiger als Offline-Umfragen. Die NZZ schätzt8, dass sie um mindestens ein Drittel günstiger sind als vergleichbare, herkömmliche Telefonumfragen. Weiter können in kürzester Zeit enorm hohe Fallzahlen realisiert werden. Darüber hinaus bieten Online-Umfragen jedoch weitere Vorteile: Sie kommen dem Zeitmanagement des Befragten eher entgegen, erreichen zumindest bestimmte, via Telefon kaum zu kontaktierende Gruppen eher (Fricker 2008), erlauben den Einsatz multimedialer Fragetechniken (Couper 2000) und sind weniger anfällig für den Effekt der sozialen Erwünschtheit (Holbrook und Krosnick 2010). Nachteile gibt es selbstverständlich auch. Die zentralen Nachteile haben dabei weniger mit dem Modus der Befragung (Online) zu tun als vielmehr mit der Samplingmethode von opt-in Umfragen: Der Auswahlprozess ist nicht probabilistisch. Werden aber die Anforderungen an eine Zufallsauswahl nicht erfüllt, ist es in der Folge auch nicht möglich, die mögliche Verzerrung der Stichprobe (bei einer vorgegebenen Wahrscheinlichkeit) zu schätzen. Beispielsweise ist es nicht möglich, den Stichprobenfehler – d.h. den „Unschärfebereich“ einer Schätzung – anzugeben. OnlineStichproben, die auf einer selbstselektionierten Rekrutierung beruhen, sind aber mit allergrösster Wahrscheinlichkeit verzerrt – meist gar stark verzerrt (siehe nachfolgenden Abschnitt). Aber, wie gesagt, die Irrtumswahrscheinlichkeit lässt sich anders als bei zufallsgesteuerten Umfragen nicht angeben.9 Ein von der Samplingmethode unabhängiger Nachteil ist weiter der Umstand, dass sich Online-Umfragen leichter manipulieren lassen als herkömmliche Telefonumfragen. IV. Wie repräsentativ sind selbstrekrutierte Online-Umfragen? Die Aussagekraft bzw. genereller die Qualität von Umfragen ist an ihrer Repräsentativität messbar. Repräsentativität ist ein schillernder Begriff mit einer Vielzahl von Bedeutungen (Kruskal und Mosteller 1979 a, b, c). Konsens besteht noch am ehesten darüber, dass eine repräsentative Stichprobe eine Art Miniatur der Grundgesamtheit darstellen sollte, d.h. die wichtigsten Variablen sollten dieselbe Verteilung in Stichprobe wie auch in der Gesamtheit aufweisen. Inwieweit trifft dies auf opt-in Online-Umfragen zu? Dabei möchten wir zunächst einmal die Repräsentativität ungewichteter OnlineUmfragen erörtern. Diese sind eigentlich ausnahmslos verzerrt - und dies häufig in erheblichem Ausmass. Die Verzerrung ist dabei meist auch bedeutend grösser als in Zufallsauswahlen, was allerdings nicht überraschend kommt (Yeager et al. 2011). Die demographische Verzerrung ist meist deckungsgleich mit derjenigen der generellen Internetnutzung: Junge sowie Personen mit hohem formalen Schulabschluss und vergleichsweise hohem Einkommen sind klar überrepräsentiert. Hinzu kommt eine deutliche Übervertretung von Männern (Yeager et al. 2011, Bandilla et al. 2009, Bieber und Bytzek 2012, Hoogendorn und Daalmans 2009, Szolnoki und Hoffmann 2013). Bei Online-Umfragen verhält es sich demnach genau 8 NZZ 17.10.2014. „Online-Umfragen mischen Branche auf“. 9 Deshalb wird beispielsweise bei den 20 Minuten-Umfragen zu eidgenössischen Urnengängen, die von Lucas Leemann und Fabio Wasserfallen gewichtet werden, auch kein Stichprobenfehler, sondern einzig Punktschätzungen ausgewiesen. 3 umgekehrt als bei Telefonumfragen: Bei letzteren gehören junge Männer zu jener Gruppe, die am schwersten zu erreichen ist, während sie bei Online-Umfragen, wie gesagt, deutlich übervertreten sind. Hingegen nehmen ältere Frauen sehr viel seltener an Online-Umfragen teil als an Telefonumfragen. Was politische Präferenzen anbelangt, so sind die Ergebnisse etwas weniger eindeutig (vgl. z.B. Faas und Schoen 2009, Bieber und Bytzek 2012). Die Wahl- oder Abstimmungsteilnahme wird in der Regel massiv überschätzt - noch mehr als bei Telefonumfragen, die ebenfalls ein erhebliches Problem mit Overreporting haben (Selb und Munzert 2014). In den USA scheinen konservative Haltungen zudem eher überschätzt zu werden als liberale Meinungen (Wang et al. 2014), was möglicherweise mit der Übervertretung von Männern zu tun hat. In der Schweiz gibt es zur Repräsentativität von Umfragen generell kaum Forschung. Eine Analyse der ungewichteten 20 Minuten-Umfragen vor 2014 deutet darauf hin, dass konservative Haltungen überschätzt werden. Das dürfte aber weniger mit dem Befragungsmodus als mit der politischen Zusammensetzung der Leserschaft zu tun haben. Eine Tages Anzeiger-Umfrage wies beispielsweise eine zu hohe Zahl an linken SympathisantInnen auf. Im Vergleich dazu scheinen die gfs.bern-Befragungen - die allerdings keine Online-, sondern zufallsbasierte Telefonumfragen sind - eher einen linksliberalen Bias aufzuweisen.10 Kurz gesagt, noch ist wenig über die politische Verzerrung von Online-Umfragen bekannt und noch viel weniger, woher diese Verzerrung rührt. Auf jeden Fall aber sind opt in-Online-Umfragen verzerrt. Indes, die Verfechter von Online-Umfragen bestreiten dies auch nicht. Sie sind jedoch der Ansicht, dass, erstens, auch die Telefonumfragen immer stärkere Verzerrungen aufweisen und, zweitens, diese Verzerrungen mit entsprechenden Gewichtungsverfahren korrigiert werden können. Aus diesem Grund folgt eine Übersicht zu Gewichtungsverfahren bei Online-Umfragen. V. Gewichtungsverfahren Die Gewichtung bei Umfragen ist eine Strategie, um die Fehler (d.h. Nonresponse- und NoncoverageEffekte), die bei jeder Stichprobenziehung (notwendigerweise) auftreten, (so weit als möglich) korrigieren zu können. Ganz generell gesprochen wird bei einer Gewichtung versucht, die Stichprobenwerte zentraler Variablen in Einklang zu bringen mit den entsprechenden (notwendigerweise bekannten) Werten in der Grundgesamtheit. Dadurch erhält man eine Stichprobe, die betreffend den herangezogenen Gewichtungskriterien mit der Grundgesamtheit übereinstimmt. Die zentrale Annahme ist nun diejenige, dass man damit auch die Verteilung anderer, hauptsächlich interessierender Variablen, deren Verteilungsprofile nicht bekannt sind, näher an die "wahren" Werte heranführt.11 Inzwischen hat sich ein gesonderter Zweig der Gewichtungsforschung etabliert und entsprechend mannigfaltig sind die Verfahren, die mittlerweile möglich sind (für eine Übersicht: Kalton und Flores-Cervantes 2003). In unserer Übersicht wollen wir uns indessen auf lediglich drei 10 Diese Vermutung nährt sich aus dem Umstand, dass SP-SympathisantInnen bei den Vox-Analysen die zahlenmässig stärkste Gruppe unter den Befragten ausmachen - in der Regel klar vor der SVP-Anhängerschaft, die aber nachweislich mehr Wähler aufweist als die SP. 11 Will man beispielsweise die Wahlabsichten der Schweizer und Schweizerinnen im Vorfeld einer Wahl erheben, so wird man die erhobenen Daten nach bekannten Parametern (Geschlecht, Alter, Wohnsitz, etc.) gewichten. Hingegen lassen sich die Daten nicht nach den Wahlabsichten gewichten, denn diese sind ja zum Zeitpunkt der Vorerhebung nicht bekannt. Just aus letzterem Grund wird die Vorumfrage überhaupt durchgeführt. Man erhofft sich jedoch von der Gewichtung nach besagten, bekannten Parametern (Alter, etc.), dass die erhobenen Wahlabsichten näher an den "wahren" Wert in der Bevölkerung herangebracht werden können. 4 Verfahren beschränken: Kalibrationsmethoden (Deville und Särndahl 1992), Propensity Score Weighting (PSW; Rosenbaum und Rubin 1983) und Multilevel Regression with Poststratification (MRP; Gelman und Little 1997). Doch bevor wir auf die einzelnen Verfahren zu sprechen kommen, sei auf zwei zentrale Aspekte hingewiesen, die bei jeder der vorgestellten Gewichtungsmethoden von enormer Bedeutung sind. Erstens, ist eine Gewichtung nur dann von Erfolg gekrönt, wenn man zunächst einmal diejenigen Variablen identifizieren kann, die sich massgeblich entweder auf die zu interessierende Variable oder die Teilnahme an der Umfrage auswirken (Bethlehem 2002, Little und Vartivarian 2005).12 Zweitens, gehen die allermeisten Gewichtungsverfahren von der Missing at Random-Annahme (MAR)13 aus (Little und Rubin 2002). Diese Bedingung wird aber nicht immer erfüllt. Sollte die Bedingung aber nicht erfüllt sein, führt die Gewichtung nicht zu einer Verbesserung der Schätzresultate, sondern vielmehr zu einer noch stärkeren Verzerrung. A. Kalibrations- und Redressmentverfahren Eine sehr simple, aber durchaus effektive Form der Gewichtung ist die Zellgewichtung (cell-by-cell weighting). Grundvoraussetzung für diese Art von Gewichtung ist, dass die Anteile aller Anpassungszellen bekannt sind. Nehmen wir das einfache Beispiel einer Umfrage, die nach Alter und Geschlecht gewichtet werden soll.14 Wünscht man nun, die Umfragedaten nach dem Verfahren der Zellgewichtung zu gewichten, so ermittelt man für jede mögliche Kombination zwischen Geschlecht und Altersklasse (z.B. 18-29-jährige Frauen, etc.) die Anzahl (bzw. daraus abgeleitet: den Anteil) Befragter im Sample. Anschliessend wird diese Gruppe nach ihrem tatsächlichen Anteil in der Grundgesamtheit gewichtet. Dazu müssen diese Populationsparameter (z.B. der Anteil 18-29-jähriger Frauen in der Gesamtbevölkerung15) bekannt sein. Für gewisse Variablen - etwa das Geschlecht oder das Alter - liegen solche Zensuswerte in aller Regel vor, für andere Variablen jedoch nicht. Sind die Zellensummen in der Grundgesamtheit aber nicht bekannt, kann auch keine Zellgewichtung vorgenommen werden. Eine Alternative dazu bietet das "Raking" (oder auch Iterative Proportional Fitting, siehe: Lahr und Mesnard 2004), welches nicht auf die Zellenhäufigkeiten (z.B. der Anteil 18-29-jähriger Frauen), sondern auf die Randsummen (z.B. der Anteil 18-29-Jähriger und der Anteil Frauen) abzielt. Mit einem bestimmten Algorithmus (siehe Lutter 2005: 31f.) werden beim Raking die Randverteilungen zwischen Stichprobe und den bekannten Parametern der Grundgesamtheit durch ein iteratives Vorgehen (möglichst) in Einklang gebracht (für eine weitaus detailliertere Beschreibung: Lutter 2005). Der Vorteil gegenüber der zuvor genannten Methode besteht darin, dass Randverteilungen eher bekannt sind als gemeinsame Häufigkeiten. Indes, es bleiben auch bei dieser Vorgehensweise gewisse Probleme: Bei einer hohen Zahl von Gewichtungskriterien ist davon 12 Ein Beispiel: Will man etwa die Wahlabsichten der Schweizer und Schweizerinnen erheben, so ist eine Gewichtung nach der Haarfarbe wenig erspriesslich, weil die (natürliche) Haarfarbe wohl keinen Einfluss auf die Parteipräferenz hat. Hingegen dürfte die Gewichtung nach sozialer Herkunft oder Bildungsniveau die Schätzung der Parteipräferenz signifikant verbessern. 13 MAR setzt voraus, dass fehlende Werte nur mit beobachteten Daten zusammenhängen (und demnach mit Hilfe dieser Variablen korrigiert werden können). 14 Wobei wir darauf hinweisen wollen, dass diese - im Übrigen - sehr geläufige Form von Gewichtung bei politikwissenschaftlich motivierten Umfragen in der Regel wenig bringt. Denn das Alter und das Geschlecht korrelieren nur selten einmal mit einer politisch relevanten Variable (siehe dazu Schnell 1993). 15 Dies wird beispielsweise schon erheblich schwieriger, wenn man nach an den Wahlen teilnehmenden 18-29-jährigen Frauen gewichten möchte. Die soziodemographische Zusammensetzung des Wahl- oder Stimmkörpers ist - mit wenigen Ausnahmen (beispielsweise die Stadt St. Gallen, welche die Stimmregisterdaten veröffentlicht) - nur selten bekannt. 5 auszugehen, dass die Anzahl der Beobachtungen in einzelnen Anpassungszellen sehr gering ausfallen, ja gar Null betragen können16. Mit dem IPF (nicht aber mit der Zellgewichtung) ist auch dann noch eine Gewichtung möglich17, aber damit werden unter Umständen sehr hohe Gewichtungsfaktoren ermittelt, die zu höchst unstabilen Ergebnissen führen können.18 B. Propensity Score-Gewichtung Abhilfe schaffen kann - unter bestimmten Bedingungen - das Propensity Score Weigthing (Rosenbaum und Rubin 1983, Lee, Lessler & Stuart 2011). Der Vorteil dieses Verfahrens liegt darin, dass keine Zellen- oder Randsummen ermittelt werden müssen (was bei einer hohen Zahl von Gewichtungsfaktoren ein höchst mühevolles Verfahren mit hohem Verzerrungspotenzial ist), sondern ein Kausalmodell errechnet wird, dass die Teilnahme an der vorliegenden Umfrage im Vergleich zu Zensusdaten oder der Teilnahme an einer nachweislich repräsentativen Referenzumfrage schätzt. Dabei werden, kurz zusammengefasst, die Daten der zu gewichtenden Umfrage und diejenigen einer Referenzumfrage zusammengelegt und anschliessend ein Logit-Modell errechnet, welches die Teilnahme an der vorliegenden opt-in Umfrage im Vergleich zur Referenzumfrage erklärt.19 Die ermittelten Logitkoeffizienten bzw. geschätzten Wahrscheinlichkeiten (propensity scores) für die einzelnen Variablen des zuvor spezifizierten Modells dienen sodann als Gewichtungsfaktoren. In der Tat ist dies eine elegante Art und Weise, um das Problem der geringen Fallzahl zu entschärfen. Indes, man benötigt dazu eine Referenzumfrage, die einerseits dieselben erklärenden Variablen enthält wie die zu gewichtende Umfrage und andererseits nachweislich repräsentativ ist, sprich: erwartungstreue Schätzwerte liefert (Betlehem und Stoop 2007). Eine solche Referenzumfrage zu finden, ist einfacher gesagt als getan. C. Multilevel Regression with Poststratification (MRP) Das Problem der kleinen Fallzahl ist auch der Ausgangspunkt von MRP (Gelman und Little 1997, Lax und Phillips 2010). MRP wurde ursprünglich zur Schätzung von Umfragewerten auf subnationaler Ebene entwickelt, für welche unter Umständen nur wenige Fälle vorliegen. Im Prinzip ist das Verfahren aber auch für weitere (nicht-geographische) Einheiten anwendbar - also beispielsweise, wenn es darum geht, die Zustimmung 18-29-jähriger Bernerinnen mit Hochschulabschluss zu einer (beliebigen) Initiative zu ermitteln (Leemann und Wasserfallen 2014b). MRP weist zwei Stufen auf: 16 Dies ist, wie gesagt, von der Anzahl Gewichtungsvariablen abhängig. Ist diese hoch, dann steigt auch die Anzahl der Anpassungszellen. Bei einer hohen Anzahl von Anpassungszellen - und dies ist in der Praxis ziemlich schnell erreicht bleiben viele Zellen notwendigerweise gänzlich unbesetzt. 17 Indem Variablen jeweils dergestalt kombiniert werden, dass keine Nullzellen entstehen. Damit aber fällt eine einzelne Beobachtung allenfalls nicht mehr in eine Anpassungszelle, sondern bloss in eine der neu gebildeten Teiltafeln. 18 Vehovar et al. (1999) berichten davon, dass bei gewissen Umfragen Differenzen von etwa 100 zwischen den einzelnen Multiplikationsfaktoren ermittelt wurden. Mit anderen Worten: Gewisse Befragte erhielten dadurch, dass sie einer sehr stark unterrepräsentierten Gruppe angehören, ein hundert Mal höheres Gewicht als andere Befragte. Wenn die MAR-Annahme zutreffen sollte, wäre selbst dies noch unproblematisch. Wenn es aber Anzeichen dafür geben sollte, dass diese einzelnen Befragten aus stark unterrepräsentierten Gruppen nicht stellvertretend für alle anderen Personen aus derselben Gruppe (die aber nicht an der Umfrage teilnahmen) stehen, dann muss davon ausgegangen werden, dass die Umfrageergebnisse durch diese massive Gewichtung einzelner, nicht "repräsentativer" Fälle erheblich verzerrt wird. Battaglia et al. (2009) schlagen deshalb vor, keine Gewichtungsfaktoren über 5 zuzulassen. 19 Es sind Variationen davon möglich (Lutter 2005): Beispielsweise können anhand eines verlässlichen Referenzdatensatzes auch die propensity scores für den Internetzugang ermittelt werden und sodann für die Gewichtung des nonprobabilistischen Datensatz verwendet werden. 6 Zunächst wird ein Modell zur Erklärung der interessierenden Variablen gerechnet. Dieses Modell soll einen substantiellen Anteil der Varianz der unabhängigen Variable erklären, ansonsten fällt die anschliessende Gewichtung auch nicht erfolgreich aus (Buttice und Highton 2013). Das Problem der kleinen Fallzahl wird bei MRP dadurch gelöst, dass jeweils Informationen von gleichen Merkmalsträgern aus den restlichen geographischen (oder anderweitigen) Einheiten "geliehen" werden (Selb und Munzert 2011, z.B. 18-29-jährige Zürcherinnen mit Hochschulabschluss, etc.), um das Modell zu schätzen. Anschliessend werden in einer zweiten Stufe die Schätzwerte (in unserem Beispiel: die Zustimmung zu einer Initiative) entsprechend ihrem Anteil in der Grundgesamtheit gewichtet. Leemann und Wasserfallen (2014a) haben mit MRmP ein Verfahren entwickelt, dass ähnlich wie bei den beiden Kalibrationstechniken - keine gemeinsamen Häufigkeiten, sondern nur noch die Randverteilungen benötigt. VI. Wie aussagekräftig sind die Resultate von Online-Umfragen? Die Verfechter von opt in-Online-Umfragen stellen nicht in Abrede, dass nicht-zufallsgesteuerte Umfragen verzerrt sind. Sie argumentieren jedoch, dass diese Abweichungen mit den richtigen Gewichtungsverfahren (zumindest teilweise) korrigiert werden können. In der Tat können Verzerrungen durch entsprechende Gewichtungsverfahren abgeschwächt werden, wenn auch nur bis zu einem gewissen Grad (Yeager et al. 2011). Vielversprechend scheint insbesondere das MRPVerfahren zu sein, welches nachweislich zu sehr akkuraten Schätzungen geführt hat (Lax and Phillips 2009, Warshaw and Rodden 2012, see also: Buttice and Highton 2013). Wang und Mitautoren (2014) ist es beispielsweise gelungen, erstaunlich genaue Schätzwerte aus einer stark verzerrten Stichprobe bestehend aus Xbox-Usern zu generieren. Lucas Leemann und Fabio Wasserfallen, welche MRP zur Gewichtung der 20 Minuten-Vorumfragen verwenden, sind in der Zwischenzeit gar noch etwas genauer als die entsprechenden Telefonumfragen des Umfrageinstituts gfs.bern (Leemann and Wasserfallen 2014b: 7). VII. Diskussion Online-Umfragen gehört die Zukunft - zumindest so lange, als sie selbst nicht von einer (noch) neueren Technologie abgelöst werden. Ihre Vorteile sind es, die sie für kommerzielle, aber auch wissenschaftliche Zwecke so attraktiv machen. Indes, sie haben auch gewichtige Nachteile, denen nur selten Beachtung geschenkt wird. Opt in-Umfragen im Besonderen haben ein hohes Verzerrungspotential. Davon sind mittlerweile zwar die meisten Umfragen betroffen, selbst diejenigen, die sie sich das Attribut "repräsentativ" selbst geben. Doch dies soll nicht davon ablenken, dass opt in-Online-Umfragen nach wie vor am stärksten von Coverage-Problemen betroffen sind. Sie sind deshalb auch in weitaus stärkerem Ausmass von Gewichtungsverfahren abhängig, um aussagekräftige Schätzungen generieren zu können. Deshalb überrascht es auch nicht, dass die Erforschung von Gewichtungsmethoden von den Verfechtern von non-probabilistischen OnlineUmfragen am stärksten vorangetrieben wird. Für sie steht auch am meisten auf dem Spiel. Das hat aber mittlerweile dazu geführt, dass nach den neusten Methoden gewichtete opt in-Umfragen den Zufallsauswahlen betreffend Repräsentativität in nichts mehr nachstehen: In der Rangliste der genauesten Umfragen zu den amerikanischen Präsidentschaftswahlen20 erzielten OnlinePanelumfragen Spitzenwerte und selbst einmalige opt in-Online-Umfragen lagen noch im Mittelfeld. Dieselbe Rangliste zeigt indes auch, dass viele Umfragen - unabhängig davon, ob sie on- oder offline 20 http://fivethirtyeight.blogs.nytimes.com/2012/11/10/which-polls-fared-best-and-worst-in-the-2012-presidential- race/?_r=0. 7 durchgeführt wurden - daneben lagen. Zuweilen lagen sie nur geringfügig daneben, aber immer noch in einem Ausmass, welches ein Mehr an Forschung zu Gewichtungsmethoden rechtfertigt. VIII. Bibliographie Arbeitskreis Deutscher Markt- und Sozialforschungsinstitute (ADM), (2001). Standards zur Qualitätssicherung für Online-Befragungen. Online verfügbar unter: http://www.admev.de/fileadmin/user_upload/PDFS/Onlinestandards_D.PDF, zuletzt abgefragt: 18. 2. 2015. Bandilla, W. M. Bosnjak and P. Altdorfer (2003). Survey Administration Effects? A comparison of Webbased and traditional written self-administered surveys using the ISSP environment module. Social Science Computer Review 21: 235-243. Bandilla, W., L. Kaczmirek, M. Blohm und W. Neubarth (2009). Coverage- und Nonresponse- Effekte bei Online-Bevölkerungsumfragen. In: Jackob, Nikolaus, Schoen, Harald, Zerback, Thomas (Hg.): Sozialforschung im Internet. Methodologie und Praxis der Online- Befragung. Wiesbaden: VS Verlag für Sozialwissenschaften, 129-145. Battaglia, Michael P. (2008). Convenience Sampling. In P. Lavrakas (Ed.), Encyclopedia of survey research methods. Thousand Oaks: SAGE Publications, pp. 149-150. Battaglia, Michael P. David C. Hoaglin and Martin R. Frankel (2009). Practical Considerations in Raking Survey Data. Survey Practice 2(5). http://surveypractice.org/index.php/SurveyPractice/issue/view/40 Baur, N. und M. J. Florian (2009). Stichprobenprobleme bei Online-Umfragen. In: Jackob, Nikolaus, Schoen, Harald, Zerback, Thomas (Hg.): Sozialforschung im Internet. Methodologie und Praxis der Online-Befragung. Wiesbaden: VS-Verlag für Sozialwissenschaften, 109-128. Bernhard, Laurent (2012). Campaign Strategy in Direct Democracy. Basingstoke: Palgrave Macmillan. Bethlehem, J.G. (2002). Weighting Nonresponse Adjustments Based on Auxiliary Information. Survey Nonresponse, R.M. Groves, D.A. Dillman, J.L. Eltinge, and R.J.A. Little (eds). New York: Wiley. Betlehem, J.G. and I. Stopp (2007). Online panles, a paradigm theft? In M. Trotman et al. (eds.), The Challenge of a Changing World, Southhampton. Association fo Survey Computing, pp. 113-131. Betlehem, J. (2010). Selection Bias in Web Surveys. International Statistical Review 78(2): 161-188. http://onlinelibrary.wiley.com/doi/10.1111/j.1751-5823.2010.00112.x/abstract Bieber; I. E. und E. Bytzek (2012). Online-Umfragen: Eine geeignete Erhebungsmethode für die Wahlforschung? Methoden – Daten – Analysen 6(2): 185-211. Blom, A.G., Gathman, C. and Krieger, U. (2015). "Setting Up an Online Panel Representative of the General Population: The German Internet Panel". Field Methods, 27(4). Blumberg, Stephen J. and Julian V. Luke. 2007. “Coverage Bias in Traditional Telephone Surveys of Low-Income and Young Adults.” Public Opinion Quarterly 1:1-16. Brehm, J. (1993). The Phantom Respondents. Ann Arbor: University of Michigan Press. Buttice, Matthew K. and Benjamin Highton (2013). How Does Multilevel Regression and Poststratification Perform with Conventional National Surveys? Political Analysis 21(4): 449-467. 8 Cappelletti, F., N. Eggert, A. Nai und P. Sciarini (2012). Analyse der eidgenössischen Abstimmungen vom 23. September 2012. gfs.bern und Universität Genf. Chang, L. und J. A. Krosnick (2009). National Surveys Via RDD Telephone Interviewing Versus the Internet. Comparing Sample Representativeness and Response Quality. Public Opinion Quarterly 73 (4), 641-678. Couper, M. P., (2000). Web Surveys: A Review of Issues and Approaches. Public Opinion Quarterly 64 (4), 464-494. Couper, M. P. (2011). The Future of Modes of Data Collection. Public Opinion Quarterly 75(5): 889-908. Couper, M. and E. Coutts (2006). Online-Befragung. Probleme und Chancen verschiedener OnlineErhebungen. In: Diekmann, A. (ed.): Methoden der Sozialforschung, Sonderheft 44 der KZfSS. Wiesbaden: VS Verlag für Sozialwissenschaften, 217-243. Deville, Jean-Claude and Carl-Erik Sarndal (1992). Calibration Estimators in Survey Sampling. Journal of the American Statistical Association 87: 376-382. Faas, T. (2009). Umfragen im Umfeld der Bundestagswahl 2002: Offline und Online im Vergleich. In: ZA-Information / Zentralarchiv für Empirische Sozialforschung 52: 120-135. Faas, T. and H. Schoen (2009). Nur eine Frage der Zeit? Eine Analyse zweier Online-Umfragen zu den Bundestagswahlen 2002 und 2005. In: Schoen, H., H. Rattinger, und O. W. Gabriel (Hg.): Vom Interview zur Analyse. Methodische Aspekte der Einstellungs- und Wahlforschung. Baden-Baden: Nomos, 343-360. Fielding, Nigel, Raymond M. Lee & Grant Blank (2008). The Sage Handbook of Online Research Methods. London and Thousand Oaks: SAGE. Fricker, R.D.J. (2008). Sampling methods for web and email surveys. In Fielding, Nigel, Raymond M. Lee & Grant Blank (2008). The Sage Handbook of Online Research Methods. London and Thousand Oaks: SAGE. Gelman, A. und T. C. Little (1997). Poststratification into Many Categories Using Hierarchical Logistic Regression. Survey Methodologist 23: 127-135. Gelman, Andrew and John B. Carlin (2002). Poststratification and Weighting Adjustments. In R.M. Groves, D.A. Dillman; J.L. Eltinge and R.J.A. Little (eds.), Survey Nonresponse. Wiley: New York, pp. 289-302.. Groves, R. M. (1989). Survey Errors and Survey Costs. New York: Wiley. Hertig, H. P., (1982). Sind Abstimmungserfolge käuflich? – Elemente der Meinungsbildung bei eidgenössischen Abstimmungen, in: Schweizerisches Jahrbuch für Politische Wissenschaft 22: 35-57. Holbrook, A. L. and J. A. Krosnick (2010). Social desirability bias in voter turnout reports. Public Opinion Quarterly 74(1): 37-67. Hoogendorn, Adriaan and Jacco Daalmans (2009). Nonresponse in the Recruitment of an Internet Panel Based on Probability Sampling. Survey Research Methods 3(2): 59-72. 9 Hugi, Simon (2014). Verzerrungen von selbstberichteten politischen Partizipationsangaben. Eine Validierungstudie zu Abdeckungs-, Nonresponse- und Overreporting-Fehlern in der Schweizer Umfrageforschung. Masterarbeit, Universität Bern. Jackman, S. (1999). Correcting surveys for non-response and measurement error using auxiliary information. Electoral Studies 18: 7-27. Kalton, Graham and Ismael Flores-Cervantes (2003). Weighting Methods. Journal of Official Statistics 19(2): 81-97. Katz, J. and G. Katz (2010). Correcting for Survey Misreports using auxiliary information with an application to estimating turnout. American Journal of Political Science 54: 815-835. Keeter, S., Kennedy, C., Dimock, M., Best, J., & Craighill, P. (2006). Gauging the impact of growing nonresponse on estimates from a national RDD telephone survey. Public Opinion Quarterly 70: 759– 779. Kohut, A., Keeter, S., Doherty, C., Dimock, M., & Christian, L. (2012). Assessing the representativeness of public opinion surveys. Pew Research Center for The People & The Press. Kriesi, H. (1994). Akteure-Medien-Publikum. Die Herausforderung direkter Demokratie durch die Transformation der Öffentlichkeit. Kölner Zeitschrift für Soziologie und Sozialpsychologie, Sonderheft 34: 234-260. Kriesi, H. (2005). Direct Democratic Choice. The Swiss Experience, Lanham: Lexington. Kruskal, W. H. und F. Mosteller (1979a). Representative sampling, I: Nonscientific literature. International Statistical Review 47: 13-24. Kruskal, W. H. und F. Mosteller (1979b). Representative sampling, II: Scientific literature, excluding statistics. International Statistical Review 47: 111-127. Kruskal, W. H. und F. Mosteller (1979c). Representative sampling, III: The current statistical literature. International Statistical Review 47: 245-265. Lahr, Michael & Louis de Mesnard (2004). Biproportional techniques in input-output analysis: table updating and structural analysis. Economic Systems Research 16(2): 115-134. Lax, Jeffrey R. and Justin H. Phillips (2009). Gay Rights in the States: Public Opinion and Policy Responsiveness. American Political Science Review 103(3): 376-386. Little, Roderick J.A. and Donald B. Rubin (2002). Statistical Analysis with Missing Data. 2nd Edition. New York, NY: Wiley. Little, R.J. and S. Vartivarian (2005). Does Weighting for Nonresponse increase the variance of survey means? Survey Methodology 31: 161-168. Lee, Myoung Ho (2011). Statistical Methods for reducing Bias in Web Surveys. Department of Statistics and Actuarial Science, Simon Fraser University. Lee, B., Lessler, J., and Stuart, E.A. (2011). Weight trimming and propensity score weighting. PLoS ONE 6(3): e18174. 10 Leemann, L. und F. Wasserfallen (2014a). Extending the Use and Prediction of Subnational Public Opinion Estimation. Leemann, L. und F. Wasserfallen (2014b). Zur Methodik der gewichteten 20min-Umfragen. Lutz, G. (2012). Eidgenössische Wahlen 2011. Wahlteilnahme und Wahlentscheid. Selects – Fors, Lausanne 2012. Malhotra, Neil and Jon A. Krosnick (2007). The Effect of Survey Mode and Sampling on Inferences about Political Attitudes and Behavior: Comparing the 2000 and 2004 ANES to Internet Surveys with Nonprobability Samples. Political Analysis 15: 286-323. Milic, T., B. Rousselot und A. Vatter (2014). Handbuch Abstimmungsforschung. Zürich: NZZ Libro. Möckli, S. (1989). Abstimmungsbudget und Abstimmungserfolg. Erfahrungen und Forschungsergebnisse aus den USA und aus der Schweiz, Institut für Politikwissenschaft, Hochschule St. Gallen, Beiträge und Berichte 138/1989, St. Gallen. Nicolet, S. und P. Sciarini (2006). When Do Issue Opinions Matter, and to Whom? The Determinants of Long-Term Stability and Change in Party Choice in the 2003 Swiss Elections. Swiss Political Science Review 12(4): 159-190. Olivier, Lex. 2011. “River Sampling Non-Probability Sampling in an Online Environment.” [Web log, November 13, 2011.] Center for Information-Based Decision Making and Marketing Research. http://lexolivier.blogspot.com/2011/11/river-sampling-non-probability-sampling.html Presser, S. (1990). Can changes in context reduce vote overreporting in surveys? Public Opinion Quarterly 54: 586-593. Ramsey, C. und A. D. Hewitt (2005). A Methodology for Assessing Sample Representativeness. Environmental Forensics 6 : 71-75. Rivers, Douglas and Bailey, Delia (2009).Inference From Matched Samples in the 2008 U.S. National Elections. Proceedings of the Joint Statistical Meetings, pp. 627-639. Roberts, Caroline, Oliver Lipps and Kathrin Kissau (2013). Using the Swiss population register for research into survey methodology. FORS Working Papers: Lausanne. Rosenbaum, P.R. and D.B. Rubin (1983). The Central Role of Propensity Score in Observational Studies for Causal Effects. Biometrika 70: 41-55. Sanders, D., H. Clarke, D. Harold, D. M. Stewart und P. Whiteley (2007). Does Mode Matter for Modeling Political Choice? Evidence from the 2005 British Election Study. Political Analysis 15(3): 257-285. Schenk, M. und M. Wolf (2006). Die digitale Spaltung der Gesellschaft. Zur politikorientierten Nutzung des Internets und der traditionellen Medien in den sozialen Milieus. In: Imhof, K., R. Blum, H. Bonfadelli und O. Jarren (Hg.): Demokratie in der Mediengesellschaft. Wiesbaden: VS Verlag für Sozialforschung, 239-260. Selb, Peter and Simon Munzert (2011). Estimating constituency preferences from sparse survey data using auxiliary geographic information. Political Analysis 19(4): 455-470. 11 Selb, Peter and Simon Munzert (2013). Voter overrepresentation, vote misreporting, and turnout bias in postelections surveys. Electoral Studies 32(1): 186-196. Soroka, S. N. (2002). Issue Attributes and Agenda-Setting: Media, the Public, and Policymakers in Canada. International Journal of Public Opinion Research, 14(3): 264-285. Stähli, M. E. (2012). Switzerland. In: Häder, S. (Hg.), Telephone Surveys in Europe: Research and Practice. Springer Verlag, 25-36. Steeh, C. and L. Piekarski (2008). Accomodating new technologies: Mobile and VoIP communication. In J. M. Lepkowski, C. Tucker, J. M. Brick, E. de Leeuw, L. Japec, P. J. Lavrakas, M. W. Link & R. L. Sangster (Eds.): Advances in telephone survey methodology. New York: Wiley, pp. 423-448. Steiner, Peter M. and David L. Cook (2013). Matching and Propensity Scores. In T.D. Little (Ed.), The Oxford Handbook of Qunatitative Methods, Volume I, Foundations. New York, NY: Oxford University Press. Squire, P. (1988). Why the 1936 Literary Digest Poll Failed. Public Opinion Quarterly 52: 125-133. Szolnoki, Gergely and Dieter Hoffmann (2013). Wine Economics and Policy 2(2): 57-66. Tourangeau, R., und T. J. Plewes (2013). Nonresponse in social science surveys: a research agenda. The National Academies Press, http://www.nap.edu/openbook.php?record_id=18293&page=7, zuletzt abgerufen am 18. 2. 2015. Vehovar, V., K. Lozar Manfreda, and Z. Batagelj (1999). Web Surveys: Can the Weighting Solve the Problem? Proceedings of the Survey Research Method Section. Wang, W., D. Rothschild, S. Goel und A. Gelman (2014). Forecasting elections with non-representative polls. International Journal of Forecasting. Warshaw, Christopher and Jonathan Rodden (2012). How Should we measure District-Level Public Opinion on Individual Issues? Journal of Politics 74(1): 203-219. Wretman, J. (2010) Reflections on probability vs nonprobability sampling. In M. Carlson, H. Nyquist & M. Villani (eds.), Official Statistics -- Methodology and Applications in Honour of Daniel Thorburn, pp. 29-35. Yeager, D. S., J. A. Krosnick, L. Chang, H. S. Javitz, M. S. Levendusky, A. Simpser und R. Wang, (2011). Comparing the Accuracy of RDD Telephone Surveys and Internet Surveys Conducted with Probability and Non-probability samples. Public Opinion Quarterly 75(4): 709-747. Zhang, Li-Chun (2000). Post-Stratification and Calibration - A Synthesis. The American Statistician 54(3): 178-184. 12