wie aussagekräftig sind die resultate von online

Transcription

wie aussagekräftig sind die resultate von online
WIE AUSSAGEKRÄFTIG SIND DIE RESULTATE VON ONLINEUMFRAGEN?
Thomas Milic
INHALTSVERZEICHNIS
INHALTSVERZEICHNIS ............................................................................................................................. 2
I.
Einleitung ......................................................................................................................................... 1
II.
Eine Typologie von Online-Umfragen ............................................................................................. 1
III.
Vor- und Nachteile von Online-Umfragen................................................................................... 3
IV.
Wie repräsentativ sind selbstrekrutierte Online-Umfragen?...................................................... 3
V.
Gewichtungsverfahren .................................................................................................................... 4
A.
Kalibrations- und Redressmentverfahren ................................................................................... 5
B.
Propensity Score-Gewichtung ..................................................................................................... 6
C.
Multilevel Regression with Poststratification ............................................................................. 6
VI.
Wie aussagekräftig sind die Resultate von Online-Umfragen? ................................................... 7
VII.
Diskussion .................................................................................................................................... 7
VIII.
Bibliographie................................................................................................................................ 8
I.
Einleitung
Die erst kürzlich erfolgte Ankündigung zweier führender amerikanischer Medienhäuser (New York
Times und CBS News), Online-Umfragen als Teil ihrer Wahlkampfberichterstattung zu verwenden,
löste in den USA eine ungewöhnlich kontroverse Debatte über die Qualität solcher Umfragen aus.1
Dieselbe Diskussion ist mittlerweile auch in der Schweiz angekommen, wenngleich die Intensität, mit
welcher sie geführt wird, nicht mit derjenigen in den USA vergleichbar ist. Immerhin aber widmete
die NZZ2 diesem Thema jüngst einen längeren Artikel, der mit dem Ausblick endete, wonach OnlineUmfragen auch in der Schweiz das Potenzial haben, "die Branche aufzumischen". Was in der Schweiz
(noch) Ausblicke oder Visionen sind, ist in anderen Staaten bereits Realität: In Australien
beispielsweise machen Online-Umfragen in der Zwischenzeit die Mehrheit aller Befragungen aus
(Fielding, Lee und Blank 2008: 188).
Der Siegeszug von Internetbefragungen hat sowohl mit ihren Stärken als auch mit der Krise
der klassischen Befragungsmodi zu tun. Zu den unbestrittenen Stärken von webbasierten Befragungen
zählen die hohe Effizienz und die geringen Kosten: Umfragen im Internet können im Prinzip von
jedermann realisiert werden und sind deshalb erheblich zeitsparender und insbesondere
kostengünstiger als die klassischen Offline-Befragungen. Hinzu kommt der Umstand, dass
telefonische Befragungen mit steigenden Kosten, sinkenden Antwortraten und einem immer
geringeren Abdeckungsgrad von Telefonanschlüssen zu kämpfen haben (z.B. Blumberg und Luke
2007, Steeh und Piekarski 2008, Kohut et al. 2012, Tourangeau und Plewes 2013, Keeter et al. 2006).
Doch die steigende Popularität von Online-Umfragen steht beinahe umgekehrt proportional
zum Umgang mit Erfassungsproblemen (under- und overcoverage) und anderen Herausforderungen
solcher, häufig selbstrekrutierter Umfragen (Tourangeau et al. 2013: 11). Kurz gesagt: Eben weil sie
so einfach aufzusetzen sind, wird dies häufig nur wenig gewissenhaft getan (Couper 2000). Dies aber
hat Auswirkungen auf die Ergebnisse solcher Surveys - und daran, d.h. an den Ergebnissen, bemisst
sich letztendlich die Qualität von Umfragen. Deshalb ist es von grösster Bedeutung, die
Auswahlmechanismen und das Antwortverhalten bei solchen Umfragen zu erforschen. Eine Übersicht
der bisherigen Forschungsergebnisse in diesem Bereich präsentieren wir im vorliegenden Beitrag.
II.
Eine Typologie von Online-Umfragen
Beginnen wollen wir mit einer kurzen Übersicht der verschiedenen Umfragetypen. Wenn von OnlineUmfragen die Rede ist, so denken die meisten spontan an Umfragen mit selbstselektiver Rekrutierung.
In der Tat machen solche opt-in surveys - der englische Ausdruck ist wahrscheinlich auch im
deutschsprachigen Raum gebräuchlicher - die Mehrheit aller webbasierten Umfragen aus. Das optingin beschreibt dabei einen Auswahlprozess, bei dem die Besucher derjenigen Internetseite, auf welcher
die Umfrage gehostet wird, am Ende selbst entscheiden, ob sie teilnehmen wollen oder nicht. Das
wiederum unterscheidet opt-in Umfragen von den traditionellen, auf Zufallsauswahlen3
1
http://www.washingtonpost.com/blogs/the-fix/wp/2014/07/31/the-new-york-times-rocked-the-polling-world-over-theweekend-heres-why/.
2
NZZ 17.10.2014. „Online-Umfragen mischen Branche auf“.
3
Eine Zufallsauswahl zeichnet sich dadurch aus, dass alle Elemente der Grundgesamtheit dieselbe Chance haben, Element
der Stichprobe zu werden. Diese Inklusionschance muss zudem höher als Null betragen. Alleine diese Definition macht
schon deutlich, dass die herkömmlichen Telefonumfragen, die in der Regel auf offiziellen Telefonverzeichnissen beruhen,
keine Zufallsauswahlen sein können - auch wenn sie sich oftmals dieses Label geben. Denn das Telefonverzeichnis enthält
1
zugrundeliegenden (Telefon-)Umfragen. Denn bei letzteren erfolgt die Auswahl der
Befragungsteilnehmer systematisch auf der Basis einer (möglichst) vollständigen Liste der
Grundgesamtheit.4 Die einzelnen Befragungsteilnehmer werden sodann zufällig (und aktiv) aus dieser
Liste gezogen und nehmen demnach nicht "von sich aus" an der Umfrage teil. Der Auswahlprozess ist
demnach für eine erste Unterscheidung von Online-Umfragen zentral: Bei zufallsbasierten Umfragen
erfolgt die Auswahl zufällig und liegt in den Händen des Forschenden (und ermöglicht deshalb auch
die Anwendung aller Methoden der Inferenzstatistik), während sie bei nicht-zufallsgesteuerten
Auswahlen von der Internetpräsenz der potenziell Befragten und ihrer Teilnahmebereitschaft abhängig
ist5. Die traditionellen Telefonumfragen wiederum beruhen meist auf Zufallsauswahlen, während
Online-Umfragen sich (notwendigerweise)6 häufiger auf nicht-zufallsgesteuerte Auswahlen stützen.
Allerdings darf nicht unerwähnt bleiben, dass es auch zufallsgesteuerte Online-Umfragen gibt. Indes,
solche Umfragen erfordern einen sehr hohen Aufwand, womit die Vorteile, derentwegen InternetUmfragen so beliebt sind, wegfallen. Deshalb bilden zufallsgesteuerte Online-Umfragen die
Ausnahme (Battaglia 2008).7 Wir werden uns deshalb auch nicht weiter mit ihnen auseinandersetzen
(für eine Übersicht siehe z.B.: Chang und Krosnick 2009, Couper und Coutts 2006).
Eine weitere Unterscheidung betrifft die Auswahl innerhalb der Gruppe derjenigen, die sich
bereit erklären, an Internetumfragen teilzunehmen. Diesbezüglich gibt es einerseits Online-Umfragen,
die sich auf einen Pool eingeschriebener und grundsätzlich teilnahmewilliger Befragter abstützen.
YouGov, der weltweit wohl grösste Anbieter von Online-Umfragen, unterhält beispielsweise ein
solches, mehrere Millionen Mitglieder umfassendes „Reservoir“ an eingeschriebenen
Teilnahmewilligen. Aus dieser zahlenmässig überwältigenden (indes nicht-zufallsgesteuerten)
Auswahl werden sodann jeweils weitere, nun jedoch zufallsgesteuerte oder quotierte („matching“)
Subsamples gezogen (für weitere Informationen siehe: Rivers und Bailey 2009). Diese Subsamples
mögen zwar mitunter „repräsentativ“ sein (vielleicht gar repräsentativer als Zufallsauswahlen), sie
sind jedoch keine Zufallsauswahlen, weil die ursprüngliche Einschreibung in den Teilnehmerpool von
YouGov selbst kein zufallsgesteuerter Prozess war. Auf der anderen Seite gibt es Online-Umfragen,
die keinerlei Restriktionen beim Auswahlprozess kennen. Mit anderen Worten: Jeder, der – wie auch
immer – auf diese Umfrage aufmerksam wurde und teilnehmen will, kann dies auch tun. Die
bekanntesten politischen Umfragen dieser Art in der Schweiz sind die 20 Minuten-Umfragen im
Vorfeld von eidgenössischen Urnengängen.
beispielsweise nur registrierte Nummern, weshalb etwa die Inhaber einer nicht-registrierten Telefonnummer keine Chance
mehr haben, Element der besagten Stichprobe zu werden.
4
Eine vollständige Liste aller Schweizer Stimmberechtigten gibt es erst seit Kurzem (siehe: Roberts et al. 2013). Sie wurde
beispielsweise von SELECTS genutzt, steht aber kommerziellen Umfrageinstituten nicht zur Verfügung.
5
Auch bei Zufallsauswahlen gibt es de facto ein opt in-Element. Denn die angerufenen Befragten müssen ja nicht
teilnehmen, womit auch ihre Teilnahme von ihrer Teilnahmebereitschaft abhängig ist. Der Unterschied zu Umfragen ohne
Teilnahmerestriktionen ist aber, dass - sollte der ausgewählte Befragungsteilnehmer das Interview verweigern - ein weiterer
Befragter nach dem Zufallsprinzip ausgesucht wird. Mit anderen Worten: Die Auswahl liegt nach wie vor in den Händen des
Forschenden und wird nicht den potenziell Befragten alleine überlassen (Selbstselektion). Deshalb ist bei opt in-Umfragen
auch davon auszugehen, dass die Teilnahme viel stärker vom Interesse am Untersuchungsthema abhängig ist als bei
probabilistischen Umfragen.
6
Um probabilistische Auswahlverfahren anwenden zu können, bedürfte es - sofern man die Befragten nicht offline rekrutiert
- eines vollständigen Verzeichnisses aller Internetteilnehmer oder eines Verfahrens, dass - ähnlich wie RDD - zufällig Emailoder IP-Adressen generieren könnte. Beides gibt es (noch) nicht.
7
Ein Beispiel dafür ist jedoch Selects 2015.
2
Im Weiteren soll nur noch auf opt-in Online-Umfragen eingegangen werden. Sie machen, wie
gesagt, die klare Mehrheit aller Online-Umfragen aus (Lutter 2005) und bedürfen, da sie sich
fundamental von zufallsbasierten Umfragen unterscheiden, auch der zusätzlichen Erörterung.
III. Vor- und Nachteile von Online-Umfragen
Die grössten Vorteile von Online-Umfragen wurden bereits genannt: sie sind weitaus zeitsparender
und kostengünstiger als Offline-Umfragen. Die NZZ schätzt8, dass sie um mindestens ein Drittel
günstiger sind als vergleichbare, herkömmliche Telefonumfragen. Weiter können in kürzester Zeit
enorm hohe Fallzahlen realisiert werden. Darüber hinaus bieten Online-Umfragen jedoch weitere
Vorteile: Sie kommen dem Zeitmanagement des Befragten eher entgegen, erreichen zumindest
bestimmte, via Telefon kaum zu kontaktierende Gruppen eher (Fricker 2008), erlauben den Einsatz
multimedialer Fragetechniken (Couper 2000) und sind weniger anfällig für den Effekt der sozialen
Erwünschtheit (Holbrook und Krosnick 2010).
Nachteile gibt es selbstverständlich auch. Die zentralen Nachteile haben dabei weniger mit
dem Modus der Befragung (Online) zu tun als vielmehr mit der Samplingmethode von opt-in
Umfragen: Der Auswahlprozess ist nicht probabilistisch. Werden aber die Anforderungen an eine
Zufallsauswahl nicht erfüllt, ist es in der Folge auch nicht möglich, die mögliche Verzerrung der
Stichprobe (bei einer vorgegebenen Wahrscheinlichkeit) zu schätzen. Beispielsweise ist es nicht
möglich, den Stichprobenfehler – d.h. den „Unschärfebereich“ einer Schätzung – anzugeben. OnlineStichproben, die auf einer selbstselektionierten Rekrutierung beruhen, sind aber mit allergrösster
Wahrscheinlichkeit verzerrt – meist gar stark verzerrt (siehe nachfolgenden Abschnitt). Aber, wie
gesagt, die Irrtumswahrscheinlichkeit lässt sich anders als bei zufallsgesteuerten Umfragen nicht
angeben.9 Ein von der Samplingmethode unabhängiger Nachteil ist weiter der Umstand, dass sich
Online-Umfragen leichter manipulieren lassen als herkömmliche Telefonumfragen.
IV. Wie repräsentativ sind selbstrekrutierte Online-Umfragen?
Die Aussagekraft bzw. genereller die Qualität von Umfragen ist an ihrer Repräsentativität messbar.
Repräsentativität ist ein schillernder Begriff mit einer Vielzahl von Bedeutungen (Kruskal und
Mosteller 1979 a, b, c). Konsens besteht noch am ehesten darüber, dass eine repräsentative Stichprobe
eine Art Miniatur der Grundgesamtheit darstellen sollte, d.h. die wichtigsten Variablen sollten dieselbe
Verteilung in Stichprobe wie auch in der Gesamtheit aufweisen. Inwieweit trifft dies auf opt-in
Online-Umfragen zu? Dabei möchten wir zunächst einmal die Repräsentativität ungewichteter OnlineUmfragen erörtern. Diese sind eigentlich ausnahmslos verzerrt - und dies häufig in erheblichem
Ausmass. Die Verzerrung ist dabei meist auch bedeutend grösser als in Zufallsauswahlen, was
allerdings nicht überraschend kommt (Yeager et al. 2011).
Die demographische Verzerrung ist meist deckungsgleich mit derjenigen der generellen
Internetnutzung: Junge sowie Personen mit hohem formalen Schulabschluss und vergleichsweise
hohem Einkommen sind klar überrepräsentiert. Hinzu kommt eine deutliche Übervertretung von
Männern (Yeager et al. 2011, Bandilla et al. 2009, Bieber und Bytzek 2012, Hoogendorn und
Daalmans 2009, Szolnoki und Hoffmann 2013). Bei Online-Umfragen verhält es sich demnach genau
8
NZZ 17.10.2014. „Online-Umfragen mischen Branche auf“.
9
Deshalb wird beispielsweise bei den 20 Minuten-Umfragen zu eidgenössischen Urnengängen, die von Lucas Leemann und
Fabio Wasserfallen gewichtet werden, auch kein Stichprobenfehler, sondern einzig Punktschätzungen ausgewiesen.
3
umgekehrt als bei Telefonumfragen: Bei letzteren gehören junge Männer zu jener Gruppe, die am
schwersten zu erreichen ist, während sie bei Online-Umfragen, wie gesagt, deutlich übervertreten sind.
Hingegen nehmen ältere Frauen sehr viel seltener an Online-Umfragen teil als an Telefonumfragen.
Was politische Präferenzen anbelangt, so sind die Ergebnisse etwas weniger eindeutig (vgl. z.B. Faas
und Schoen 2009, Bieber und Bytzek 2012). Die Wahl- oder Abstimmungsteilnahme wird in der
Regel massiv überschätzt - noch mehr als bei Telefonumfragen, die ebenfalls ein erhebliches Problem
mit Overreporting haben (Selb und Munzert 2014). In den USA scheinen konservative Haltungen
zudem eher überschätzt zu werden als liberale Meinungen (Wang et al. 2014), was möglicherweise mit
der Übervertretung von Männern zu tun hat. In der Schweiz gibt es zur Repräsentativität von
Umfragen generell kaum Forschung. Eine Analyse der ungewichteten 20 Minuten-Umfragen vor 2014
deutet darauf hin, dass konservative Haltungen überschätzt werden. Das dürfte aber weniger mit dem
Befragungsmodus als mit der politischen Zusammensetzung der Leserschaft zu tun haben. Eine Tages
Anzeiger-Umfrage wies beispielsweise eine zu hohe Zahl an linken SympathisantInnen auf. Im
Vergleich dazu scheinen die gfs.bern-Befragungen - die allerdings keine Online-, sondern
zufallsbasierte Telefonumfragen sind - eher einen linksliberalen Bias aufzuweisen.10
Kurz gesagt, noch ist wenig über die politische Verzerrung von Online-Umfragen bekannt und
noch viel weniger, woher diese Verzerrung rührt. Auf jeden Fall aber sind opt in-Online-Umfragen
verzerrt. Indes, die Verfechter von Online-Umfragen bestreiten dies auch nicht. Sie sind jedoch der
Ansicht, dass, erstens, auch die Telefonumfragen immer stärkere Verzerrungen aufweisen und,
zweitens, diese Verzerrungen mit entsprechenden Gewichtungsverfahren korrigiert werden können.
Aus diesem Grund folgt eine Übersicht zu Gewichtungsverfahren bei Online-Umfragen.
V.
Gewichtungsverfahren
Die Gewichtung bei Umfragen ist eine Strategie, um die Fehler (d.h. Nonresponse- und NoncoverageEffekte), die bei jeder Stichprobenziehung (notwendigerweise) auftreten, (so weit als möglich)
korrigieren zu können. Ganz generell gesprochen wird bei einer Gewichtung versucht, die
Stichprobenwerte zentraler Variablen in Einklang zu bringen mit den entsprechenden
(notwendigerweise bekannten) Werten in der Grundgesamtheit. Dadurch erhält man eine Stichprobe,
die betreffend den herangezogenen Gewichtungskriterien mit der Grundgesamtheit übereinstimmt. Die
zentrale Annahme ist nun diejenige, dass man damit auch die Verteilung anderer, hauptsächlich
interessierender Variablen, deren Verteilungsprofile nicht bekannt sind, näher an die "wahren" Werte
heranführt.11
Inzwischen hat sich ein gesonderter Zweig der Gewichtungsforschung etabliert und
entsprechend mannigfaltig sind die Verfahren, die mittlerweile möglich sind (für eine Übersicht:
Kalton und Flores-Cervantes 2003). In unserer Übersicht wollen wir uns indessen auf lediglich drei
10
Diese Vermutung nährt sich aus dem Umstand, dass SP-SympathisantInnen bei den Vox-Analysen die zahlenmässig
stärkste Gruppe unter den Befragten ausmachen - in der Regel klar vor der SVP-Anhängerschaft, die aber nachweislich mehr
Wähler aufweist als die SP.
11
Will man beispielsweise die Wahlabsichten der Schweizer und Schweizerinnen im Vorfeld einer Wahl erheben, so wird
man die erhobenen Daten nach bekannten Parametern (Geschlecht, Alter, Wohnsitz, etc.) gewichten. Hingegen lassen sich
die Daten nicht nach den Wahlabsichten gewichten, denn diese sind ja zum Zeitpunkt der Vorerhebung nicht bekannt. Just
aus letzterem Grund wird die Vorumfrage überhaupt durchgeführt. Man erhofft sich jedoch von der Gewichtung nach
besagten, bekannten Parametern (Alter, etc.), dass die erhobenen Wahlabsichten näher an den "wahren" Wert in der
Bevölkerung herangebracht werden können.
4
Verfahren beschränken: Kalibrationsmethoden (Deville und Särndahl 1992), Propensity Score
Weighting (PSW; Rosenbaum und Rubin 1983) und Multilevel Regression with Poststratification
(MRP; Gelman und Little 1997). Doch bevor wir auf die einzelnen Verfahren zu sprechen kommen,
sei auf zwei zentrale Aspekte hingewiesen, die bei jeder der vorgestellten Gewichtungsmethoden von
enormer Bedeutung sind. Erstens, ist eine Gewichtung nur dann von Erfolg gekrönt, wenn man
zunächst einmal diejenigen Variablen identifizieren kann, die sich massgeblich entweder auf die zu
interessierende Variable oder die Teilnahme an der Umfrage auswirken (Bethlehem 2002, Little und
Vartivarian 2005).12 Zweitens, gehen die allermeisten Gewichtungsverfahren von der Missing at
Random-Annahme (MAR)13 aus (Little und Rubin 2002). Diese Bedingung wird aber nicht immer
erfüllt. Sollte die Bedingung aber nicht erfüllt sein, führt die Gewichtung nicht zu einer Verbesserung
der Schätzresultate, sondern vielmehr zu einer noch stärkeren Verzerrung.
A.
Kalibrations- und Redressmentverfahren
Eine sehr simple, aber durchaus effektive Form der Gewichtung ist die Zellgewichtung (cell-by-cell
weighting). Grundvoraussetzung für diese Art von Gewichtung ist, dass die Anteile aller
Anpassungszellen bekannt sind. Nehmen wir das einfache Beispiel einer Umfrage, die nach Alter und
Geschlecht gewichtet werden soll.14 Wünscht man nun, die Umfragedaten nach dem Verfahren der
Zellgewichtung zu gewichten, so ermittelt man für jede mögliche Kombination zwischen Geschlecht
und Altersklasse (z.B. 18-29-jährige Frauen, etc.) die Anzahl (bzw. daraus abgeleitet: den Anteil)
Befragter im Sample. Anschliessend wird diese Gruppe nach ihrem tatsächlichen Anteil in der
Grundgesamtheit gewichtet. Dazu müssen diese Populationsparameter (z.B. der Anteil 18-29-jähriger
Frauen in der Gesamtbevölkerung15) bekannt sein. Für gewisse Variablen - etwa das Geschlecht oder
das Alter - liegen solche Zensuswerte in aller Regel vor, für andere Variablen jedoch nicht. Sind die
Zellensummen in der Grundgesamtheit aber nicht bekannt, kann auch keine Zellgewichtung
vorgenommen werden.
Eine Alternative dazu bietet das "Raking" (oder auch Iterative Proportional Fitting, siehe:
Lahr und Mesnard 2004), welches nicht auf die Zellenhäufigkeiten (z.B. der Anteil 18-29-jähriger
Frauen), sondern auf die Randsummen (z.B. der Anteil 18-29-Jähriger und der Anteil Frauen) abzielt.
Mit einem bestimmten Algorithmus (siehe Lutter 2005: 31f.) werden beim Raking die
Randverteilungen zwischen Stichprobe und den bekannten Parametern der Grundgesamtheit durch ein
iteratives Vorgehen (möglichst) in Einklang gebracht (für eine weitaus detailliertere Beschreibung:
Lutter 2005). Der Vorteil gegenüber der zuvor genannten Methode besteht darin, dass
Randverteilungen eher bekannt sind als gemeinsame Häufigkeiten. Indes, es bleiben auch bei dieser
Vorgehensweise gewisse Probleme: Bei einer hohen Zahl von Gewichtungskriterien ist davon
12
Ein Beispiel: Will man etwa die Wahlabsichten der Schweizer und Schweizerinnen erheben, so ist eine Gewichtung nach
der Haarfarbe wenig erspriesslich, weil die (natürliche) Haarfarbe wohl keinen Einfluss auf die Parteipräferenz hat. Hingegen
dürfte die Gewichtung nach sozialer Herkunft oder Bildungsniveau die Schätzung der Parteipräferenz signifikant verbessern.
13
MAR setzt voraus, dass fehlende Werte nur mit beobachteten Daten zusammenhängen (und demnach mit Hilfe dieser
Variablen korrigiert werden können).
14
Wobei wir darauf hinweisen wollen, dass diese - im Übrigen - sehr geläufige Form von Gewichtung bei
politikwissenschaftlich motivierten Umfragen in der Regel wenig bringt. Denn das Alter und das Geschlecht korrelieren nur
selten einmal mit einer politisch relevanten Variable (siehe dazu Schnell 1993).
15
Dies wird beispielsweise schon erheblich schwieriger, wenn man nach an den Wahlen teilnehmenden 18-29-jährigen
Frauen gewichten möchte. Die soziodemographische Zusammensetzung des Wahl- oder Stimmkörpers ist - mit wenigen
Ausnahmen (beispielsweise die Stadt St. Gallen, welche die Stimmregisterdaten veröffentlicht) - nur selten bekannt.
5
auszugehen, dass die Anzahl der Beobachtungen in einzelnen Anpassungszellen sehr gering ausfallen,
ja gar Null betragen können16. Mit dem IPF (nicht aber mit der Zellgewichtung) ist auch dann noch
eine Gewichtung möglich17, aber damit werden unter Umständen sehr hohe Gewichtungsfaktoren
ermittelt, die zu höchst unstabilen Ergebnissen führen können.18
B.
Propensity Score-Gewichtung
Abhilfe schaffen kann - unter bestimmten Bedingungen - das Propensity Score Weigthing
(Rosenbaum und Rubin 1983, Lee, Lessler & Stuart 2011). Der Vorteil dieses Verfahrens liegt darin,
dass keine Zellen- oder Randsummen ermittelt werden müssen (was bei einer hohen Zahl von
Gewichtungsfaktoren ein höchst mühevolles Verfahren mit hohem Verzerrungspotenzial ist), sondern
ein Kausalmodell errechnet wird, dass die Teilnahme an der vorliegenden Umfrage im Vergleich zu
Zensusdaten oder der Teilnahme an einer nachweislich repräsentativen Referenzumfrage schätzt.
Dabei werden, kurz zusammengefasst, die Daten der zu gewichtenden Umfrage und diejenigen einer
Referenzumfrage zusammengelegt und anschliessend ein Logit-Modell errechnet, welches die
Teilnahme an der vorliegenden opt-in Umfrage im Vergleich zur Referenzumfrage erklärt.19 Die
ermittelten Logitkoeffizienten bzw. geschätzten Wahrscheinlichkeiten (propensity scores) für die
einzelnen Variablen des zuvor spezifizierten Modells dienen sodann als Gewichtungsfaktoren. In der
Tat ist dies eine elegante Art und Weise, um das Problem der geringen Fallzahl zu entschärfen. Indes,
man benötigt dazu eine Referenzumfrage, die einerseits dieselben erklärenden Variablen enthält wie
die zu gewichtende Umfrage und andererseits nachweislich repräsentativ ist, sprich: erwartungstreue
Schätzwerte liefert (Betlehem und Stoop 2007). Eine solche Referenzumfrage zu finden, ist einfacher
gesagt als getan.
C.
Multilevel Regression with Poststratification (MRP)
Das Problem der kleinen Fallzahl ist auch der Ausgangspunkt von MRP (Gelman und Little 1997, Lax
und Phillips 2010). MRP wurde ursprünglich zur Schätzung von Umfragewerten auf subnationaler
Ebene entwickelt, für welche unter Umständen nur wenige Fälle vorliegen. Im Prinzip ist das
Verfahren aber auch für weitere (nicht-geographische) Einheiten anwendbar - also beispielsweise,
wenn es darum geht, die Zustimmung 18-29-jähriger Bernerinnen mit Hochschulabschluss zu einer
(beliebigen) Initiative zu ermitteln (Leemann und Wasserfallen 2014b). MRP weist zwei Stufen auf:
16
Dies ist, wie gesagt, von der Anzahl Gewichtungsvariablen abhängig. Ist diese hoch, dann steigt auch die Anzahl der
Anpassungszellen. Bei einer hohen Anzahl von Anpassungszellen - und dies ist in der Praxis ziemlich schnell erreicht bleiben viele Zellen notwendigerweise gänzlich unbesetzt.
17
Indem Variablen jeweils dergestalt kombiniert werden, dass keine Nullzellen entstehen. Damit aber fällt eine einzelne
Beobachtung allenfalls nicht mehr in eine Anpassungszelle, sondern bloss in eine der neu gebildeten Teiltafeln.
18
Vehovar et al. (1999) berichten davon, dass bei gewissen Umfragen Differenzen von etwa 100 zwischen den einzelnen
Multiplikationsfaktoren ermittelt wurden. Mit anderen Worten: Gewisse Befragte erhielten dadurch, dass sie einer sehr stark
unterrepräsentierten Gruppe angehören, ein hundert Mal höheres Gewicht als andere Befragte. Wenn die MAR-Annahme
zutreffen sollte, wäre selbst dies noch unproblematisch. Wenn es aber Anzeichen dafür geben sollte, dass diese einzelnen
Befragten aus stark unterrepräsentierten Gruppen nicht stellvertretend für alle anderen Personen aus derselben Gruppe (die
aber nicht an der Umfrage teilnahmen) stehen, dann muss davon ausgegangen werden, dass die Umfrageergebnisse durch
diese massive Gewichtung einzelner, nicht "repräsentativer" Fälle erheblich verzerrt wird. Battaglia et al. (2009) schlagen
deshalb vor, keine Gewichtungsfaktoren über 5 zuzulassen.
19
Es sind Variationen davon möglich (Lutter 2005): Beispielsweise können anhand eines verlässlichen Referenzdatensatzes
auch die propensity scores für den Internetzugang ermittelt werden und sodann für die Gewichtung des nonprobabilistischen
Datensatz verwendet werden.
6
Zunächst wird ein Modell zur Erklärung der interessierenden Variablen gerechnet. Dieses Modell soll
einen substantiellen Anteil der Varianz der unabhängigen Variable erklären, ansonsten fällt die
anschliessende Gewichtung auch nicht erfolgreich aus (Buttice und Highton 2013). Das Problem der
kleinen Fallzahl wird bei MRP dadurch gelöst, dass jeweils Informationen von gleichen
Merkmalsträgern aus den restlichen geographischen (oder anderweitigen) Einheiten "geliehen" werden
(Selb und Munzert 2011, z.B. 18-29-jährige Zürcherinnen mit Hochschulabschluss, etc.), um das
Modell zu schätzen. Anschliessend werden in einer zweiten Stufe die Schätzwerte (in unserem
Beispiel: die Zustimmung zu einer Initiative) entsprechend ihrem Anteil in der Grundgesamtheit
gewichtet. Leemann und Wasserfallen (2014a) haben mit MRmP ein Verfahren entwickelt, dass ähnlich wie bei den beiden Kalibrationstechniken - keine gemeinsamen Häufigkeiten, sondern nur
noch die Randverteilungen benötigt.
VI. Wie aussagekräftig sind die Resultate von Online-Umfragen?
Die Verfechter von opt in-Online-Umfragen stellen nicht in Abrede, dass nicht-zufallsgesteuerte
Umfragen verzerrt sind. Sie argumentieren jedoch, dass diese Abweichungen mit den richtigen
Gewichtungsverfahren (zumindest teilweise) korrigiert werden können. In der Tat können
Verzerrungen durch entsprechende Gewichtungsverfahren abgeschwächt werden, wenn auch nur bis
zu einem gewissen Grad (Yeager et al. 2011). Vielversprechend scheint insbesondere das MRPVerfahren zu sein, welches nachweislich zu sehr akkuraten Schätzungen geführt hat (Lax and Phillips
2009, Warshaw and Rodden 2012, see also: Buttice and Highton 2013). Wang und Mitautoren (2014)
ist es beispielsweise gelungen, erstaunlich genaue Schätzwerte aus einer stark verzerrten Stichprobe
bestehend aus Xbox-Usern zu generieren. Lucas Leemann und Fabio Wasserfallen, welche MRP zur
Gewichtung der 20 Minuten-Vorumfragen verwenden, sind in der Zwischenzeit gar noch etwas
genauer als die entsprechenden Telefonumfragen des Umfrageinstituts gfs.bern (Leemann and
Wasserfallen 2014b: 7).
VII. Diskussion
Online-Umfragen gehört die Zukunft - zumindest so lange, als sie selbst nicht von einer (noch)
neueren Technologie abgelöst werden. Ihre Vorteile sind es, die sie für kommerzielle, aber auch
wissenschaftliche Zwecke so attraktiv machen. Indes, sie haben auch gewichtige Nachteile, denen nur
selten Beachtung geschenkt wird. Opt in-Umfragen im Besonderen haben ein hohes
Verzerrungspotential. Davon sind mittlerweile zwar die meisten Umfragen betroffen, selbst
diejenigen, die sie sich das Attribut "repräsentativ" selbst geben. Doch dies soll nicht davon ablenken,
dass opt in-Online-Umfragen nach wie vor am stärksten von Coverage-Problemen betroffen sind. Sie
sind deshalb auch in weitaus stärkerem Ausmass von Gewichtungsverfahren abhängig, um
aussagekräftige Schätzungen generieren zu können. Deshalb überrascht es auch nicht, dass die
Erforschung von Gewichtungsmethoden von den Verfechtern von non-probabilistischen OnlineUmfragen am stärksten vorangetrieben wird. Für sie steht auch am meisten auf dem Spiel. Das hat
aber mittlerweile dazu geführt, dass nach den neusten Methoden gewichtete opt in-Umfragen den
Zufallsauswahlen betreffend Repräsentativität in nichts mehr nachstehen: In der Rangliste der
genauesten Umfragen zu den amerikanischen Präsidentschaftswahlen20 erzielten OnlinePanelumfragen Spitzenwerte und selbst einmalige opt in-Online-Umfragen lagen noch im Mittelfeld.
Dieselbe Rangliste zeigt indes auch, dass viele Umfragen - unabhängig davon, ob sie on- oder offline
20
http://fivethirtyeight.blogs.nytimes.com/2012/11/10/which-polls-fared-best-and-worst-in-the-2012-presidential-
race/?_r=0.
7
durchgeführt wurden - daneben lagen. Zuweilen lagen sie nur geringfügig daneben, aber immer noch
in einem Ausmass, welches ein Mehr an Forschung zu Gewichtungsmethoden rechtfertigt.
VIII. Bibliographie
Arbeitskreis Deutscher Markt- und Sozialforschungsinstitute (ADM), (2001). Standards zur
Qualitätssicherung für Online-Befragungen. Online verfügbar unter: http://www.admev.de/fileadmin/user_upload/PDFS/Onlinestandards_D.PDF, zuletzt abgefragt: 18. 2. 2015.
Bandilla, W. M. Bosnjak and P. Altdorfer (2003). Survey Administration Effects? A comparison of Webbased and traditional written self-administered surveys using the ISSP environment module. Social
Science Computer Review 21: 235-243.
Bandilla, W., L. Kaczmirek, M. Blohm und W. Neubarth (2009). Coverage- und Nonresponse- Effekte
bei Online-Bevölkerungsumfragen. In: Jackob, Nikolaus, Schoen, Harald, Zerback, Thomas (Hg.):
Sozialforschung im Internet. Methodologie und Praxis der Online- Befragung. Wiesbaden: VS Verlag
für Sozialwissenschaften, 129-145.
Battaglia, Michael P. (2008). Convenience Sampling. In P. Lavrakas (Ed.), Encyclopedia of survey
research methods. Thousand Oaks: SAGE Publications, pp. 149-150.
Battaglia, Michael P. David C. Hoaglin and Martin R. Frankel (2009). Practical Considerations in Raking
Survey Data. Survey Practice 2(5). http://surveypractice.org/index.php/SurveyPractice/issue/view/40
Baur, N. und M. J. Florian (2009). Stichprobenprobleme bei Online-Umfragen. In: Jackob, Nikolaus,
Schoen, Harald, Zerback, Thomas (Hg.): Sozialforschung im Internet. Methodologie und Praxis der
Online-Befragung. Wiesbaden: VS-Verlag für Sozialwissenschaften, 109-128.
Bernhard, Laurent (2012). Campaign Strategy in Direct Democracy. Basingstoke: Palgrave Macmillan.
Bethlehem, J.G. (2002). Weighting Nonresponse Adjustments Based on Auxiliary Information. Survey
Nonresponse, R.M. Groves, D.A. Dillman, J.L. Eltinge, and R.J.A. Little (eds). New York: Wiley.
Betlehem, J.G. and I. Stopp (2007). Online panles, a paradigm theft? In M. Trotman et al. (eds.), The
Challenge of a Changing World, Southhampton. Association fo Survey Computing, pp. 113-131.
Betlehem, J. (2010). Selection Bias in Web Surveys. International Statistical Review 78(2): 161-188.
http://onlinelibrary.wiley.com/doi/10.1111/j.1751-5823.2010.00112.x/abstract
Bieber; I. E. und E. Bytzek (2012). Online-Umfragen: Eine geeignete Erhebungsmethode für die
Wahlforschung? Methoden – Daten – Analysen 6(2): 185-211.
Blom, A.G., Gathman, C. and Krieger, U. (2015). "Setting Up an Online Panel Representative of the
General Population: The German Internet Panel". Field Methods, 27(4).
Blumberg, Stephen J. and Julian V. Luke. 2007. “Coverage Bias in Traditional Telephone Surveys of
Low-Income and Young Adults.” Public Opinion Quarterly 1:1-16.
Brehm, J. (1993). The Phantom Respondents. Ann Arbor: University of Michigan Press.
Buttice, Matthew K. and Benjamin Highton (2013). How Does Multilevel Regression and
Poststratification Perform with Conventional National Surveys? Political Analysis 21(4): 449-467.
8
Cappelletti, F., N. Eggert, A. Nai und P. Sciarini (2012). Analyse der eidgenössischen Abstimmungen
vom 23. September 2012. gfs.bern und Universität Genf.
Chang, L. und J. A. Krosnick (2009). National Surveys Via RDD Telephone Interviewing Versus the
Internet. Comparing Sample Representativeness and Response Quality. Public Opinion Quarterly 73
(4), 641-678.
Couper, M. P., (2000). Web Surveys: A Review of Issues and Approaches. Public Opinion Quarterly 64
(4), 464-494.
Couper, M. P. (2011). The Future of Modes of Data Collection. Public Opinion Quarterly 75(5): 889-908.
Couper, M. and E. Coutts (2006). Online-Befragung. Probleme und Chancen verschiedener OnlineErhebungen. In: Diekmann, A. (ed.): Methoden der Sozialforschung, Sonderheft 44 der KZfSS.
Wiesbaden: VS Verlag für Sozialwissenschaften, 217-243.
Deville, Jean-Claude and Carl-Erik Sarndal (1992). Calibration Estimators in Survey Sampling. Journal
of the American Statistical Association 87: 376-382.
Faas, T. (2009). Umfragen im Umfeld der Bundestagswahl 2002: Offline und Online im Vergleich. In:
ZA-Information / Zentralarchiv für Empirische Sozialforschung 52: 120-135.
Faas, T. and H. Schoen (2009). Nur eine Frage der Zeit? Eine Analyse zweier Online-Umfragen zu den
Bundestagswahlen 2002 und 2005. In: Schoen, H., H. Rattinger, und O. W. Gabriel (Hg.): Vom
Interview zur Analyse. Methodische Aspekte der Einstellungs- und Wahlforschung. Baden-Baden:
Nomos, 343-360.
Fielding, Nigel, Raymond M. Lee & Grant Blank (2008). The Sage Handbook of Online Research
Methods. London and Thousand Oaks: SAGE.
Fricker, R.D.J. (2008). Sampling methods for web and email surveys. In Fielding, Nigel, Raymond M.
Lee & Grant Blank (2008). The Sage Handbook of Online Research Methods. London and Thousand
Oaks: SAGE.
Gelman, A. und T. C. Little (1997). Poststratification into Many Categories Using Hierarchical Logistic
Regression. Survey Methodologist 23: 127-135.
Gelman, Andrew and John B. Carlin (2002). Poststratification and Weighting Adjustments. In R.M.
Groves, D.A. Dillman; J.L. Eltinge and R.J.A. Little (eds.), Survey Nonresponse. Wiley: New York,
pp. 289-302..
Groves, R. M. (1989). Survey Errors and Survey Costs. New York: Wiley.
Hertig, H. P., (1982). Sind Abstimmungserfolge käuflich? – Elemente der Meinungsbildung bei
eidgenössischen Abstimmungen, in: Schweizerisches Jahrbuch für Politische Wissenschaft 22: 35-57.
Holbrook, A. L. and J. A. Krosnick (2010). Social desirability bias in voter turnout reports. Public
Opinion Quarterly 74(1): 37-67.
Hoogendorn, Adriaan and Jacco Daalmans (2009). Nonresponse in the Recruitment of an Internet Panel
Based on Probability Sampling. Survey Research Methods 3(2): 59-72.
9
Hugi, Simon (2014). Verzerrungen von selbstberichteten politischen Partizipationsangaben. Eine
Validierungstudie zu Abdeckungs-, Nonresponse- und Overreporting-Fehlern in der Schweizer
Umfrageforschung. Masterarbeit, Universität Bern.
Jackman, S. (1999). Correcting surveys for non-response and measurement error using auxiliary
information. Electoral Studies 18: 7-27.
Kalton, Graham and Ismael Flores-Cervantes (2003). Weighting Methods. Journal of Official Statistics
19(2): 81-97.
Katz, J. and G. Katz (2010). Correcting for Survey Misreports using auxiliary information with an
application to estimating turnout. American Journal of Political Science 54: 815-835.
Keeter, S., Kennedy, C., Dimock, M., Best, J., & Craighill, P. (2006). Gauging the impact of growing
nonresponse on estimates from a national RDD telephone survey. Public Opinion Quarterly 70: 759–
779.
Kohut, A., Keeter, S., Doherty, C., Dimock, M., & Christian, L. (2012). Assessing the representativeness
of public opinion surveys. Pew Research Center for The People & The Press.
Kriesi, H. (1994). Akteure-Medien-Publikum. Die Herausforderung direkter Demokratie durch die
Transformation der Öffentlichkeit. Kölner Zeitschrift für Soziologie und Sozialpsychologie,
Sonderheft 34: 234-260.
Kriesi, H. (2005). Direct Democratic Choice. The Swiss Experience, Lanham: Lexington.
Kruskal, W. H. und F. Mosteller (1979a). Representative sampling, I: Nonscientific literature.
International Statistical Review 47: 13-24.
Kruskal, W. H. und F. Mosteller (1979b). Representative sampling, II: Scientific literature, excluding
statistics. International Statistical Review 47: 111-127.
Kruskal, W. H. und F. Mosteller (1979c). Representative sampling, III: The current statistical literature.
International Statistical Review 47: 245-265.
Lahr, Michael & Louis de Mesnard (2004). Biproportional techniques in input-output analysis: table
updating and structural analysis. Economic Systems Research 16(2): 115-134.
Lax, Jeffrey R. and Justin H. Phillips (2009). Gay Rights in the States: Public Opinion and Policy
Responsiveness. American Political Science Review 103(3): 376-386.
Little, Roderick J.A. and Donald B. Rubin (2002). Statistical Analysis with Missing Data. 2nd Edition.
New York, NY: Wiley.
Little, R.J. and S. Vartivarian (2005). Does Weighting for Nonresponse increase the variance of survey
means? Survey Methodology 31: 161-168.
Lee, Myoung Ho (2011). Statistical Methods for reducing Bias in Web Surveys. Department of Statistics
and Actuarial Science, Simon Fraser University.
Lee, B., Lessler, J., and Stuart, E.A. (2011). Weight trimming and propensity score weighting. PLoS ONE
6(3): e18174.
10
Leemann, L. und F. Wasserfallen (2014a). Extending the Use and Prediction of Subnational Public
Opinion Estimation.
Leemann, L. und F. Wasserfallen (2014b). Zur Methodik der gewichteten 20min-Umfragen.
Lutz, G. (2012). Eidgenössische Wahlen 2011. Wahlteilnahme und Wahlentscheid. Selects – Fors,
Lausanne 2012.
Malhotra, Neil and Jon A. Krosnick (2007). The Effect of Survey Mode and Sampling on Inferences
about Political Attitudes and Behavior: Comparing the 2000 and 2004 ANES to Internet Surveys with
Nonprobability Samples. Political Analysis 15: 286-323.
Milic, T., B. Rousselot und A. Vatter (2014). Handbuch Abstimmungsforschung. Zürich: NZZ Libro.
Möckli, S. (1989). Abstimmungsbudget und Abstimmungserfolg. Erfahrungen und Forschungsergebnisse
aus den USA und aus der Schweiz, Institut für Politikwissenschaft, Hochschule St. Gallen, Beiträge
und Berichte 138/1989, St. Gallen.
Nicolet, S. und P. Sciarini (2006). When Do Issue Opinions Matter, and to Whom? The Determinants of
Long-Term Stability and Change in Party Choice in the 2003 Swiss Elections. Swiss Political Science
Review 12(4): 159-190.
Olivier, Lex. 2011. “River Sampling Non-Probability Sampling in an Online Environment.” [Web log,
November 13, 2011.] Center for Information-Based Decision Making and Marketing Research.
http://lexolivier.blogspot.com/2011/11/river-sampling-non-probability-sampling.html
Presser, S. (1990). Can changes in context reduce vote overreporting in surveys? Public Opinion
Quarterly 54: 586-593.
Ramsey, C. und A. D. Hewitt (2005). A Methodology for Assessing Sample Representativeness.
Environmental Forensics 6 : 71-75.
Rivers, Douglas and Bailey, Delia (2009).Inference From Matched Samples in the 2008 U.S. National
Elections. Proceedings of the Joint Statistical Meetings, pp. 627-639.
Roberts, Caroline, Oliver Lipps and Kathrin Kissau (2013). Using the Swiss population register for
research into survey methodology. FORS Working Papers: Lausanne.
Rosenbaum, P.R. and D.B. Rubin (1983). The Central Role of Propensity Score in Observational Studies
for Causal Effects. Biometrika 70: 41-55.
Sanders, D., H. Clarke, D. Harold, D. M. Stewart und P. Whiteley (2007). Does Mode Matter for
Modeling Political Choice? Evidence from the 2005 British Election Study. Political Analysis 15(3):
257-285.
Schenk, M. und M. Wolf (2006). Die digitale Spaltung der Gesellschaft. Zur politikorientierten Nutzung
des Internets und der traditionellen Medien in den sozialen Milieus. In: Imhof, K., R. Blum, H.
Bonfadelli und O. Jarren (Hg.): Demokratie in der Mediengesellschaft. Wiesbaden: VS Verlag für
Sozialforschung, 239-260.
Selb, Peter and Simon Munzert (2011). Estimating constituency preferences from sparse survey data
using auxiliary geographic information. Political Analysis 19(4): 455-470.
11
Selb, Peter and Simon Munzert (2013). Voter overrepresentation, vote misreporting, and turnout bias in
postelections surveys. Electoral Studies 32(1): 186-196.
Soroka, S. N. (2002). Issue Attributes and Agenda-Setting: Media, the Public, and Policymakers in
Canada. International Journal of Public Opinion Research, 14(3): 264-285.
Stähli, M. E. (2012). Switzerland. In: Häder, S. (Hg.), Telephone Surveys in Europe: Research and
Practice. Springer Verlag, 25-36.
Steeh, C. and L. Piekarski (2008). Accomodating new technologies: Mobile and VoIP communication. In
J. M. Lepkowski, C. Tucker, J. M. Brick, E. de Leeuw, L. Japec, P. J. Lavrakas, M. W. Link & R. L.
Sangster (Eds.): Advances in telephone survey methodology. New York: Wiley, pp. 423-448.
Steiner, Peter M. and David L. Cook (2013). Matching and Propensity Scores. In T.D. Little (Ed.), The
Oxford Handbook of Qunatitative Methods, Volume I, Foundations. New York, NY: Oxford
University Press.
Squire, P. (1988). Why the 1936 Literary Digest Poll Failed. Public Opinion Quarterly 52: 125-133.
Szolnoki, Gergely and Dieter Hoffmann (2013). Wine Economics and Policy 2(2): 57-66.
Tourangeau, R., und T. J. Plewes (2013). Nonresponse in social science surveys: a research agenda. The
National Academies Press, http://www.nap.edu/openbook.php?record_id=18293&page=7, zuletzt
abgerufen am 18. 2. 2015.
Vehovar, V., K. Lozar Manfreda, and Z. Batagelj (1999). Web Surveys: Can the Weighting Solve the
Problem? Proceedings of the Survey Research Method Section.
Wang, W., D. Rothschild, S. Goel und A. Gelman (2014). Forecasting elections with non-representative
polls. International Journal of Forecasting.
Warshaw, Christopher and Jonathan Rodden (2012). How Should we measure District-Level Public
Opinion on Individual Issues? Journal of Politics 74(1): 203-219.
Wretman, J. (2010) Reflections on probability vs nonprobability sampling. In M. Carlson, H. Nyquist &
M. Villani (eds.), Official Statistics -- Methodology and Applications in Honour of Daniel Thorburn,
pp. 29-35.
Yeager, D. S., J. A. Krosnick, L. Chang, H. S. Javitz, M. S. Levendusky, A. Simpser und R. Wang,
(2011). Comparing the Accuracy of RDD Telephone Surveys and Internet Surveys Conducted with
Probability and Non-probability samples. Public Opinion Quarterly 75(4): 709-747.
Zhang, Li-Chun (2000). Post-Stratification and Calibration - A Synthesis. The American Statistician
54(3): 178-184.
12

Documents pareils