Prüfungstraining Deskriptive Statistik - Schäffer
Transcription
Prüfungstraining Deskriptive Statistik - Schäffer
978-3-7910-3393-8 Schuldenzucker, Prüfungstraining Deskriptive Statistik © 2014 Schäffer-Poeschel Verlag (www.schaeffer-poeschel.de) 1 Einleitung Die deskriptive Statistik dient der systematischen Erfassung und Darstellung von Daten, die bestimmte Zustände oder Entwicklungen aufzeigen. Sehr viele Entscheidungen des Alltags, in Wirtschaftsunternehmen oder etwa bei der Entwicklung von Medikamenten basieren auf der Erhebung von Daten: Kommt die Straßenbahn, die jemand benötigt, häufig zu spät, muss er genügend Reserve einplanen, um pünktlich zu sein. Führt der DVBT-Empfang beim Fernsehen häufig zu Störungen, wird man überlegen, ob man die Verstärkung des Signals erhöht oder auf Satellitenempfang umstellt. Zur Beurteilung eines Investitionsprojekts werden Daten erhoben, um zu klären, welche Rückflüsse zu welchen Zeitpunkten zu erwarten sind. Für die Fortentwicklung eines Autos wird man Daten bezüglich des technischen Stands vergleichbarer Autos und bezüglich der Kundenwünsche erheben. Ein neu entwickeltes Medikament muss auf Wirksamkeit und Verträglichkeit überprüft werden; hat es häufige oder starke Nebenwirkungen, wird man weiter entwickeln müssen. Die Erfassung von Daten erfordert zunächst einige Vorbereitungen, um sicherzustellen, dass mit Hilfe der Daten die gewünschten Ziele tatsächlich erreicht werden können. Nach der Erfassung werden die Daten tabellarisch oder grafisch aufgearbeitet, um einen ersten Überblick zu erhalten. Anschließend wird eine Analyse der Daten durchgeführt, aussagekräftige Parameter werden ermittelt und Schlussfolgerungen gezogen, soweit dies möglich ist. Diese Ergebnisse werden in geeigneter Form dargestellt. Häufig dient das Erheben und Analysieren von Daten der Vorbereitung und Absicherung von Entscheidungen, sodass der Bezug der Erkenntnisse aus den Daten zu diesen Entscheidungen herausgearbeitet werden muss. Bei der Erhebung eines vollständigen Datensatzes erfasst man alle in einem Bereich existierenden Werte. Häufig werden allerdings Daten als Stichprobe einer größeren Grundgesamtheit erhoben, da es nicht möglich ist, alle interessierenden Werte zu erfassen. In diesem Fall werden manche Parameter gegenüber einem vollständigen Datensatz leicht abgewandelt, um der Unsicherheit bezüglich der nicht erhobenen Werte Rechnung zu tragen. Beide Sichtweisen werden im vorliegenden Buch sorgfältig besprochen. Methoden der deskriptiven Statistik reichen über eine Vielfalt von Feldern. Die Methoden, die hier angesprochen werden, beginnen nach einer einführenden Darstellung der Klassifizierung von Merkmalen mit der Behandlung eindimensionaler Datenreihen, sodass zum Beispiel charakteristische Daten eines Betriebs zusammengestellt werden können. Zusammenhänge zwischen zwei Merkmalen werden untersucht. Konzentrationseffekte wie etwa Einkommenskonzentration können grafisch wie rechnerisch erfasst werden. Parameter zur Messung von Inflation werden vorgestellt. 3 1 Einführung und Grundbegriffe 1.1 Begriff Statistik Die Statistik befasst sich mit dem Sammeln und Aufbereiten von Wissen über bestimmte interessierende Merkmale. Solche Merkmale können von sehr unterschiedlicher Natur sein. Zum Beispiel die Beschreibungen der Merkmale »Haarfarbe«, »Vorliebe bei Mineralwasser«, »Körpergröße«, »Alter in Jahren« unterscheiden sich sehr stark: Haarfarben werden nur durch Worte beschrieben; Vorlieben werden ebenfalls nur durch Worte beschrieben, enthalten aber eine Präferenz. Die Körpergröße kann jeden Wert innerhalb eines bestimmten Intervalls annehmen, während beim Alter in Jahren als Werte nur natürliche Zahlen in Frage kommen. Daten, die etwa in einem Betrieb erhoben werden, weisen diese Vielfalt auf, denn sie reichen von Geschlecht und Familienstand des Personals bis hin zum Materialverbrauch oder zur Qualität einer Ware. Die deskriptive Statistik befasst sich mit der reinen Erhebung und Analyse von Daten. Ein Datensatz wird beschrieben, tabellarisch oder grafisch dargestellt und es werden Kenngrößen ermittelt. In der induktiven Statistik nutzt man einen Datensatz als Stichprobe; das Ziel ist, aufgrund von erhobenen Daten Schlussfolgerungen über Grundgesamtheiten zu ziehen, die größer sind als der Datensatz. 1.2 Statistische Einheiten und deren Merkmale Eine in der deskriptiven Statistik interessierende Größe wird ein Merkmal genannt. Die möglichen Ergebnisse beim Erheben von Daten zu diesem Merkmal heißen Merkmalsausprägungen; sie werden an sogenannten Merkmalsträgern oder statistischen Einheiten erhoben. Etwa beim Merkmal »Geschlecht« werden die Ausprägungen »männlich« und »weiblich« beobachtet, beim Merkmal »Körpergröße« liegen bei Erwachsenen die Ausprägungen meist zwischen 1:00 m und 2:20 m. Man unterscheidet zwischen unterschiedlichen Merkmalstypen: 1. Qualitative Merkmale sind solche, die nur durch Worte beschrieben werden können. Diese werden weiter unterschieden: (a) Nominale Merkmale sind solche ohne natürliche Rangordnung wie etwa Haarfarbe, Beruf oder Familienstand. 4 Einführung und Grundbegriffe (b) Ordinal nennt man qualitative Merkmale, die eine natürliche Rangordnung aufweisen. Hier sind zum Beispiel Güteklassen bei Lebensmitteln, Tabellenplätze einer Fußballiga oder Noten zu nennen. 2. Quantitative (kategoriale) Merkmale sind solche, deren Ausprägungen durch Zahlen beschrieben werden können. Sie können natürlich insbesondere der Größe nach geordnet werden. Unter den quantitativen Merkmalen gibt es folgende Unterscheidungen: (a) Diskrete Merkmale besitzen nur endlich viele oder abzählbar viele verschiedene Ausprägungen. Hier sind Anzahlen oder Häufigkeiten oder etwa Stunden pro Tag zu nennen. (b) Stetige Merkmale können Ausprägungen annehmen, die ein ganzen Intervall ausfüllen. Etwa Gewicht oder Körpergröße zählen dazu. 1.3 Messbarkeitseigenschaften Der Typ eines Merkmals legt fest, auf welcher Skala es gemessen werden kann: A) Eine Nominalskala beschreibt nur die Verschiedenheit der Ausprägungen. B) Eine Ordinalskala bringt Merkmalsausprägungen in eine Rangordnung. C) Eine Metrische Skala (Kardinalskala) ermöglicht rechnerische Vergleiche zwischen Merkmalsausprägungen und deren Interpretation. – Bei einer Intervallskala sind Abstände sinnvoll; zum Beispiel Temperatur [ ı C], Breiten- und Längengrade fallen hierunter. – Im Fall einer Verhältnisskala existiert darüber hinaus ein absoluter Nullpunkt, sodass die Ausprägungen zueinander ins Verhältnis gesetzt werden können: Beispielsweise bei der Temperatur [ ı K], bei Längen, Gewichten oder Einkommen ist es möglich, etwa von Verdoppelung zu sprechen. – Eine Absolutskala ist eine Verhältnisskala, die über eine natürlich gegebene Maßeinheit (»Stück«) verfügt, zum Beispiel die Zahl der Studierenden an einer Hochschule. Rezeptartige Lösungswege 1.4 5 Rezeptartige Lösungswege Aufgabe: Merkmalstypen und Skalen erkennen Gegeben: Unterschiedliche Merkmale Gesucht: Zugehörige Merkmalstypen und Skalen Lösungsweg: Ein Merkmal ist qualitativ, wenn die Ausprägungen nur durch Worte beschrieben werden können. Dann ist es nominal, wenn seine Ausprägungen keine natürliche Rangfolge haben. Zugehörige Skala: Nominalskala Es ist ordinal, wenn seine Ausprägungen eine natürliche Rangfolge haben. Zugehörige Skala: Ordinalskala Ein Merkmal ist quantitativ, wenn die Ausprägungen durch Zahlen beschrieben werden können. Zugehörige Skala: Metrische Skala Dann ist es diskret, wenn es endlich viele oder höchstens abzählbar viele Ausprägungen gibt. Es ist stetig, wenn die Ausprägungen ein ganzes Intervall füllen. Zugehörige Skalen: Intervallskala, falls kein absoluter Nullpunkt existiert Verhältnisskala, falls ein absoluter Nullpunkt existiert; dann ist es auch möglich, etwa davon zu sprechen, dass eine Ausprägung doppelt so groß ist wie eine andere. Absolutskala, falls zusätzlich eine natürliche Maßeinheit vorgegeben ist s. Aufgabe 1.1, S. 6 6 Einführung und Grundbegriffe 1.5 Übungsaufgaben Merkmalstypen und Skalen Aufgabe 1.1 Gegeben sind die Merkmale – Beruf – Leistungsbeurteilung – Kinderzahl – Temperatur in °C – Länge (a) Geben Sie an, ob diese Merkmale qualitativ oder quantitativ sind. (b) Bei qualitativen Merkmalen bestimmen Sie, ob sie nominal oder ordinal sind. Bei quantitativen Merkmalen geben Sie an, ob sie diskret oder stetig sind. (c) Geben Sie die zugehörige Skala an. Aufgabe 1.2 (a) Beschreiben Sie, was qualitative von quantitativen Merkmalen unterscheidet. (b) Welche Eigenschaft eines qualitativen Merkmals bewirkt, dass es ordinal ist? (c) Was unterscheidet bei quantitativen Merkmalen diskrete von stetigen? (d) Was zeichnet ein Merkmal aus, das man auf einer Absolutskala misst? Lösungen 1.6 7 Lösungen Merkmalstypen und Skalen Lösung 1.1 – Beruf: Qualitativ, nominal. Nominalskala – Leistungsbeurteilung: Qualitativ, ordinal. Ordinalskala – Kinderzahl: Quantitativ, diskret. Metrisch, Absolutskala – Temperatur in ı C : Quantitativ, stetig. Metrisch, Intervallskala. In der Regel wird das Merkmal diskretisiert. – Länge: Quantitativ, stetig. Metrisch, Verhältnisskala Lösung 1.2 (a) Qualitative Merkmale können nur durch Worte beschrieben werden, quantitative Merkmale werden durch Zahlen beschrieben. (b) Bei einem ordinalen Merkmal können die Ausprägungen angeordnet werden, es gibt eine Hierarchie. (c) Ein diskretes Merkmal besitzt Ausprägungen, die durchnummeriert werden können. Bei einem stetigen Merkmal füllen die Ausprägungen ein ganzes Intervall. (d) Ein Merkmal wird auf einer Absolutskala gemessen, wenn es quantitativ ist, einen absoluten Nullpunkt besitzt und es nur eine natürliche Maßeinheit gibt. 9 2 Eindimensionale Datenreihen 2.1 Datensatz/Stichprobe 2.1.1 Absolute und relative Häufigkeiten, empirische Verteilungsfunktion Beim Erfassen von Daten wird die Anzahl der Daten mit n abgekürzt. Für den Fall, dass die Daten als Stichprobe einer größeren Grundgesamtheit dienen, heißt diese Anzahl auch Stichprobenlänge. Daten werden mit dem Buchstaben x bezeichnet, der Datensatz wird als n-Tupel der Messwerte durchnummeriert in der Form .x1 ; : : : ; xn /: Die möglichen oder gemessenen verschiedenen Merkmalsausprägungen werden bezeichnet als a1 ; : : : ; am : Bemerkung: Stellvertretend für die Indizes, also die Zahlen, die die Messwerte oder Ausprägungen durchnummerieren, wählt man einen Buchstaben. Häufig ist dieser allgemeine Index i oder j oder k. Zur allgemeinen Beschreibung für die durchnummerierten Ausprägungen a1 ; : : : ; am wird ein Laufindex j benutzt. Die Daten x1 ; : : : ; xn werden mit dem Index i nummeriert. Die absolute Häufigkeit, mit der eine Merkmalsausprägung aj im Datensatz vorkommt, ist hj D hn .aj /: Die relative Häufigkeit, also der Anteil, zu dem eine Merkmalsausprägung aj im Datensatz vorkommt, ist hj rj D rn .aj / D : n P Die Summe der absoluten Häufigkeiten ist m j D1 hj D n; die relativen HäufigkeiPn ten summieren sich zu j D1 rj D 1. Hierbei wird das große P griechische Sigma ˙ als Symbol für das Aufsummieren verwendet. Unten am notiert man, bei welchem Index die Summation beginnt, oben notiert man den größten verwendeten Index. Als absolute Häufigkeitsverteilung bezeichnet man die Zusammenstellung der Paare .aj ; hj / der Ausprägungen und ihrer absoluten Häufigkeiten. Die relative Häufigkeitsverteilung besteht aus den Paaren .aj ; rj /. Beide Verteilungen können in Form von Tabellen dargestellt werden. 10 Eindimensionale Datenreihen Beispiel: Sie möchten einen Eindruck von der Lohnverteilung in einem Niedriglohnsektor von 1500 bis 2000 Euro bekommen, um substantiiert über Mindestlöhne diskutieren zu können. Vorbereitende Überlegungen: – Sie identifizieren Ihre Ziele: Sie möchten den Niedriglohnsektor kennenlernen. – Die interessierende Gesamtheit besteht aus allen Beschäftigten in diesem Sektor. – Erhebbar ist nur eine Stichprobe. – Das interessierende Merkmal ist das Monatseinkommen. – Dieses Merkmal ist quantitativ und diskret. – Die Skala ist metrisch. Erfassen von Daten: Es wurden die Monatseinkommen von n D 50 Personen erhoben: x1 D 1600 x2 D 1900 x3 D 1800 x4 D 1950 x5 D 1850 x6 D 1600 x7 D 2000 x8 D 1950 x9 D 2000 x10 D 1900 x11 D 1950 x12 D 1900 x13 D 1800 x14 D 1950 x15 D 1950 x16 D 1850 x17 D 1850 x18 D 1950 x19 D 2000 x20 D 1950 x21 D 1900 x22 D 1900 x23 D 1850 x24 D 2000 x25 D 1800 x26 D 1900 x27 D 1850 x28 D 1600 x29 D 1500 x30 D 1900 x31 D 1850 x32 D 1800 x33 D 1850 x34 D 1950 x35 D 1900 x36 D 1800 x37 D 1850 x38 D 1750 x39 D 2000 x40 D 1800 x41 D 1850 x42 D 1900 x43 D 1850 x44 D 1950 x45 D 1600 x46 D 1500 x47 D 1850 x48 D 1800 x49 D 1950 x50 D 1650 Aus den Daten erstellt man zunächst eine Strichliste: Monatliches Einkommen a1 D 1500 a2 D 1550 a3 D 1600 a4 D 1650 a5 D 1700 a6 D 1750 a7 D 1800 a8 D 1850 a9 D 1900 a10 D 1950 a11 D 2000 Absolute Häufigkeit Datensatz/Stichprobe 11 Datenaufbereitung: (a) Tabellarische Darstellung: Monatliches Einkommen a1 D 1500 a2 D 1550 a3 D 1600 a4 D 1650 a5 D 1700 a6 D 1750 a7 D 1800 a8 D 1850 a9 D 1900 a10 D 1950 a11 D 2000 Absolute Häufigkeit h1 D 2 h2 D 0 h3 D 4 h4 D 1 h5 D 0 h6 D 1 h7 D 7 h8 D 11 h9 D 9 h10 D 10 h11 D 5 Relative Häufigkeit r1 D 0:04 r2 D 0:00 r2 D 0:08 r4 D 0:02 r4 D 0:00 r4 D 0:02 r7 D 0:14 r8 D 0:22 r9 D 0:18 r10 D 0:20 r10 D 0:10 Bei der tabellarischen Darstellung werden in der ersten Spalte die verschiedenen Merkmalsausprägungen aufgelistet. (b) Grafische Darstellung durch Balkendiagramme: Auf der waagerechten Achse (Abszisse) sind die Merkmalsausprägungen aufgetragen, auf der senrechten (Ordinate) die Häufigkeiten. 12 0.25 10 0.2 8 0.15 6 0.1 4 0.05 2 0 1400 1500 1600 1700 1800 1900 Absolute Häufigkeiten 2000 2100 0 1400 1500 1600 1700 1800 1900 2000 2100 Relative Häufigkeiten Zur Beantwortung von Fragen zu Anzahlen oder Anteilen der Daten mit Messwerten bis zu einer gewissen Grenze oder ab einer gewissen Grenze erweitert man die Tabelle um die absolute Summenhäufigkeit Hn .aj / und die relative Summenhäufigkeit Fn .aj /, die auch empirische Verteilungsfunktion genannt wird. Diese beiden Funktionen entstehen durch sukzessives Addieren der absoluten beziehungsweise relativen Häufigkeiten. Diese kumulierten Häufigkeiten können in jeder beliebigen 12 Eindimensionale Datenreihen Zahl x ausgewertet werden, denn sie spiegeln die Anzahl beziehungsweise den Anteil der Daten wider, die kleinergleich x sind: Hn .x/ D Fn .x/ D P mit aj x hj j mit aj x rj Pj D 1 n P j mit aj x hj D n1 Hn .x/ Am Beispiel: (a) Bestimmen Sie die Anzahl der Befragten mit einem Monatskeinkommen von höchstens 1800 Euro. (b) Berechnen Sie den Anteil der Befragten mit einem Monatseinkommen von höchstens 1700 Euro. (c) Errechnen Sie den Prozentsatz der Befragten mit einem Monatseinkommen von mindestens 1750 Euro. Lösung: Erweiterung der Tabelle um die absolute Summenhäufigkeit und die empirische Verteilungsfunktion: aj 1500 1550 1600 1650 1700 1750 1800 1850 1900 1950 2000 h.aj / 2 0 4 1 0 1 7 11 9 10 5 Hn .aj / 2 2 6 7 7 8 15 26 35 45 50 r.aj / 0:04 0:00 0:08 0:02 0:00 0:02 0:14 0:22 0:18 0:20 0:10 Fn .aj / 0:04 0:04 0:12 0:14 0:14 0:16 0:30 0:52 0:70 0:90 1:00 (a) 15 Befragte habe ein Monatseinkommen von höchstens 1800 Euro. (b) Der Anteil der Befragten mit einem Monatseinkommen von höchstens 1700 Euro liegt bei 14 %. (c) Der Prozentsatz der Befragten mit einem Monatseinkommen von mindestens 1750 ist .100 0:14 100/% D 86 % Die Graphen von absoluter Summenhäufigkeitsfunktion und empirischer Verteilungsfunktion sind monoton steigende Treppenfunktionen. Datensatz/Stichprobe 13 Am Beispiel: 50 1 40 0.8 30 0.6 20 0.4 10 0.2 0 1400 1500 1600 1700 1800 1900 2000 2100 Absolute Summenhäufigkeitsfunktion 0 1400 1500 1600 1700 1800 1900 2000 2100 Empirische Verteilungsfunktion 2.1.2 Klasseneinteilung Bei manchen Datensätzen ist es günstig, die Messwerte in Klassen zusammenzufassen. Das wird etwa bei einem stetigen Merkmal wegen der Messungenauigkeit nötig sein, aber auch bei diskreten Merkmalen können Klassen die Daten übersichtlicher darstellen. Beispiele: – Einkommensklassen – Mietspiegel (abhängig von der Wohnungsgröße) – Unfallstatistik, etwa bezüglich der Zeit bis zum ersten Unfall nach dem Führerscheinerwerb Bei der Erstellung von Klassen muss immer festgelegt werden, zu welchen Klassen die Klassengrenzen gehören. Häufig werden halboffene, nach oben geschlossene Klassen gewählt. Alternativ sind auch halboffene, nach unten geschlossene Klassen möglich. Die unterste Klasse wird meist nach unten geschlossen gewählt, die oberste nach oben geschlossen. Bei der Darstellung von Klassen ist es üblich, dass ein Endpunkt einer Klasse zur Klasse gehört, wenn die zugehörige Klammer sich der Klasse zuwendet: Œa; b. Ein Endpunkt gehört nicht zur Klasse, wenn die zugehörige Klammer sich von der Klasse wegwendet. Halboffene nach oben geschlossene Klassen sind also von der Gestalt a; b; halboffene nach unten geschlossene Klassen sind von der Gestalt Œa; bŒ. 14 Eindimensionale Datenreihen Beispiele: – Einkommen: Œ0; 500; 500; 1000; 1000; 2000; : : : sind halboffene, nach oben geschlossene Klassen. Hier gehören also die Zahlen 0 und 500 zur ersten Klasse, die Zahl 1000 gehört zur zweiten Klasse, die Zahl 2000 zur dritten. Zu beachten ist, dass etwa in der zweiten Klasse jede Zahl liegt, die größer als 500 und kleinergleich 1000 ist; so gehört die Zahl 500:00000001 zur zweiten Klasse. – Wohnungsgröße: Œ10; 30; 30; 50; 50; 70; 70; 100; 100; 150; 150; 300 sind ebenfalls halboffene, nach oben geschlossene Klassen. – Körpergröße auf 2 cm genau, mit halboffenen, nach unten geschlossenen Klassen: Œ160; 162Œ; Œ162; 164Œ; Œ164; 166Œ; : : : Beispiel: Bei einer Kontrolle in einer Tempo-30-Zone wurden folgende Geschwindigkeitsüberschreitungen festgestellt: Geschwindigkeit: Häufigkeit: 31 2 33 5 35 3 37 8 39 3 41 1 43 9 45 3 47 3 49 2 Die Höhe des Verwarngeldes ist an Grenzen gebunden: Geschwindigkeitsklasse: Verwarngeld: (a) (b) (c) (d) 30; 35 10 Euro 35; 50 20 Euro 50; 70 50 Euro ::: ... Auf welchen Betrag belaufen sich die Einnahmen der Stadt? Wie viele Fahrer zahlten das geringste Bußgeld? Welcher Prozentsatz der Fahrer fuhr höchstens 50 km/h? Welcher Anteil der Fahrer fuhr mehr als 35 km/h? Lösung: Klasse 30; 35 35; 50 50; 70 Verwarngeld 10 20 50 Absolute Häufigkeit Relative Häufigkeit 10 29 1 0.25 0.725 0.025 Absolute Summenhäufigkeit 10 39 40 Empirische Verteilungsfunktion 0.25 0.975 1 (a) Einnahmen der Stadt: 10 10 C 29 20 C 1 50 D 730 Euro (b) Das geringste Bußgeld bezahlen 10 Fahrer. (c) Bis einschließlich 50 km/h fuhren 39 Fahrer, entsprechend 97:5 %. (d) Der Anteil der Fahrer, die mehr als 35 km/h fuhren, liegt bei 1 0:25 D 0:75. 55 1