Prüfungstraining Deskriptive Statistik - Schäffer

Transcription

Prüfungstraining Deskriptive Statistik - Schäffer
978-3-7910-3393-8 Schuldenzucker, Prüfungstraining Deskriptive Statistik
© 2014 Schäffer-Poeschel Verlag (www.schaeffer-poeschel.de)
1
Einleitung
Die deskriptive Statistik dient der systematischen Erfassung und Darstellung von
Daten, die bestimmte Zustände oder Entwicklungen aufzeigen. Sehr viele Entscheidungen des Alltags, in Wirtschaftsunternehmen oder etwa bei der Entwicklung von
Medikamenten basieren auf der Erhebung von Daten: Kommt die Straßenbahn, die
jemand benötigt, häufig zu spät, muss er genügend Reserve einplanen, um pünktlich zu sein. Führt der DVBT-Empfang beim Fernsehen häufig zu Störungen, wird
man überlegen, ob man die Verstärkung des Signals erhöht oder auf Satellitenempfang umstellt. Zur Beurteilung eines Investitionsprojekts werden Daten erhoben,
um zu klären, welche Rückflüsse zu welchen Zeitpunkten zu erwarten sind. Für die
Fortentwicklung eines Autos wird man Daten bezüglich des technischen Stands
vergleichbarer Autos und bezüglich der Kundenwünsche erheben. Ein neu entwickeltes Medikament muss auf Wirksamkeit und Verträglichkeit überprüft werden;
hat es häufige oder starke Nebenwirkungen, wird man weiter entwickeln müssen.
Die Erfassung von Daten erfordert zunächst einige Vorbereitungen, um sicherzustellen, dass mit Hilfe der Daten die gewünschten Ziele tatsächlich erreicht werden
können. Nach der Erfassung werden die Daten tabellarisch oder grafisch aufgearbeitet, um einen ersten Überblick zu erhalten. Anschließend wird eine Analyse der
Daten durchgeführt, aussagekräftige Parameter werden ermittelt und Schlussfolgerungen gezogen, soweit dies möglich ist. Diese Ergebnisse werden in geeigneter
Form dargestellt. Häufig dient das Erheben und Analysieren von Daten der Vorbereitung und Absicherung von Entscheidungen, sodass der Bezug der Erkenntnisse
aus den Daten zu diesen Entscheidungen herausgearbeitet werden muss.
Bei der Erhebung eines vollständigen Datensatzes erfasst man alle in einem Bereich
existierenden Werte. Häufig werden allerdings Daten als Stichprobe einer größeren
Grundgesamtheit erhoben, da es nicht möglich ist, alle interessierenden Werte zu
erfassen. In diesem Fall werden manche Parameter gegenüber einem vollständigen
Datensatz leicht abgewandelt, um der Unsicherheit bezüglich der nicht erhobenen
Werte Rechnung zu tragen. Beide Sichtweisen werden im vorliegenden Buch sorgfältig besprochen.
Methoden der deskriptiven Statistik reichen über eine Vielfalt von Feldern. Die
Methoden, die hier angesprochen werden, beginnen nach einer einführenden Darstellung der Klassifizierung von Merkmalen mit der Behandlung eindimensionaler Datenreihen, sodass zum Beispiel charakteristische Daten eines Betriebs zusammengestellt werden können. Zusammenhänge zwischen zwei Merkmalen werden untersucht. Konzentrationseffekte wie etwa Einkommenskonzentration können
grafisch wie rechnerisch erfasst werden. Parameter zur Messung von Inflation werden vorgestellt.
3
1
Einführung und Grundbegriffe
1.1
Begriff Statistik
Die Statistik befasst sich mit dem Sammeln und Aufbereiten von Wissen über bestimmte interessierende Merkmale. Solche Merkmale können von sehr unterschiedlicher Natur sein. Zum Beispiel die Beschreibungen der Merkmale »Haarfarbe«,
»Vorliebe bei Mineralwasser«, »Körpergröße«, »Alter in Jahren« unterscheiden
sich sehr stark: Haarfarben werden nur durch Worte beschrieben; Vorlieben werden
ebenfalls nur durch Worte beschrieben, enthalten aber eine Präferenz. Die Körpergröße kann jeden Wert innerhalb eines bestimmten Intervalls annehmen, während
beim Alter in Jahren als Werte nur natürliche Zahlen in Frage kommen. Daten, die
etwa in einem Betrieb erhoben werden, weisen diese Vielfalt auf, denn sie reichen
von Geschlecht und Familienstand des Personals bis hin zum Materialverbrauch
oder zur Qualität einer Ware.
Die deskriptive Statistik befasst sich mit der reinen Erhebung und Analyse von
Daten. Ein Datensatz wird beschrieben, tabellarisch oder grafisch dargestellt und
es werden Kenngrößen ermittelt.
In der induktiven Statistik nutzt man einen Datensatz als Stichprobe; das Ziel ist,
aufgrund von erhobenen Daten Schlussfolgerungen über Grundgesamtheiten zu
ziehen, die größer sind als der Datensatz.
1.2
Statistische Einheiten und deren Merkmale
Eine in der deskriptiven Statistik interessierende Größe wird ein Merkmal genannt.
Die möglichen Ergebnisse beim Erheben von Daten zu diesem Merkmal heißen
Merkmalsausprägungen; sie werden an sogenannten Merkmalsträgern oder statistischen Einheiten erhoben.
Etwa beim Merkmal »Geschlecht« werden die Ausprägungen »männlich« und
»weiblich« beobachtet, beim Merkmal »Körpergröße« liegen bei Erwachsenen die
Ausprägungen meist zwischen 1:00 m und 2:20 m.
Man unterscheidet zwischen unterschiedlichen Merkmalstypen:
1. Qualitative Merkmale sind solche, die nur durch Worte beschrieben werden
können.
Diese werden weiter unterschieden:
(a) Nominale Merkmale sind solche ohne natürliche Rangordnung wie etwa
Haarfarbe, Beruf oder Familienstand.
4
Einführung und Grundbegriffe
(b) Ordinal nennt man qualitative Merkmale, die eine natürliche Rangordnung aufweisen. Hier sind zum Beispiel Güteklassen bei Lebensmitteln,
Tabellenplätze einer Fußballiga oder Noten zu nennen.
2. Quantitative (kategoriale) Merkmale sind solche, deren Ausprägungen durch
Zahlen beschrieben werden können. Sie können natürlich insbesondere der
Größe nach geordnet werden.
Unter den quantitativen Merkmalen gibt es folgende Unterscheidungen:
(a) Diskrete Merkmale besitzen nur endlich viele oder abzählbar viele verschiedene Ausprägungen. Hier sind Anzahlen oder Häufigkeiten oder etwa Stunden pro Tag zu nennen.
(b) Stetige Merkmale können Ausprägungen annehmen, die ein ganzen Intervall ausfüllen. Etwa Gewicht oder Körpergröße zählen dazu.
1.3
Messbarkeitseigenschaften
Der Typ eines Merkmals legt fest, auf welcher Skala es gemessen werden kann:
A) Eine Nominalskala beschreibt nur die Verschiedenheit der Ausprägungen.
B) Eine Ordinalskala bringt Merkmalsausprägungen in eine Rangordnung.
C) Eine Metrische Skala (Kardinalskala) ermöglicht rechnerische Vergleiche zwischen Merkmalsausprägungen und deren Interpretation.
– Bei einer Intervallskala sind Abstände sinnvoll; zum Beispiel Temperatur
[ ı C], Breiten- und Längengrade fallen hierunter.
– Im Fall einer Verhältnisskala existiert darüber hinaus ein absoluter Nullpunkt, sodass die Ausprägungen zueinander ins Verhältnis gesetzt werden
können: Beispielsweise bei der Temperatur [ ı K], bei Längen, Gewichten
oder Einkommen ist es möglich, etwa von Verdoppelung zu sprechen.
– Eine Absolutskala ist eine Verhältnisskala, die über eine natürlich gegebene
Maßeinheit (»Stück«) verfügt, zum Beispiel die Zahl der Studierenden an
einer Hochschule.
Rezeptartige Lösungswege
1.4
5
Rezeptartige Lösungswege
Aufgabe: Merkmalstypen und Skalen erkennen
Gegeben: Unterschiedliche Merkmale
Gesucht: Zugehörige Merkmalstypen und Skalen
Lösungsweg:
Ein Merkmal ist qualitativ, wenn die Ausprägungen nur durch Worte beschrieben
werden können.
Dann ist es nominal, wenn seine Ausprägungen keine natürliche Rangfolge haben.
Zugehörige Skala: Nominalskala
Es ist ordinal, wenn seine Ausprägungen eine natürliche Rangfolge haben.
Zugehörige Skala: Ordinalskala
Ein Merkmal ist quantitativ, wenn die Ausprägungen durch Zahlen beschrieben
werden können.
Zugehörige Skala: Metrische Skala
Dann ist es diskret, wenn es endlich viele oder höchstens abzählbar viele Ausprägungen gibt.
Es ist stetig, wenn die Ausprägungen ein ganzes Intervall füllen.
Zugehörige Skalen:
Intervallskala, falls kein absoluter Nullpunkt existiert
Verhältnisskala, falls ein absoluter Nullpunkt existiert; dann ist es auch möglich,
etwa davon zu sprechen, dass eine Ausprägung doppelt so groß ist wie eine andere.
Absolutskala, falls zusätzlich eine natürliche Maßeinheit vorgegeben ist
s. Aufgabe 1.1, S. 6
6
Einführung und Grundbegriffe
1.5
Übungsaufgaben
Merkmalstypen und Skalen
Aufgabe 1.1
Gegeben sind die Merkmale
– Beruf
– Leistungsbeurteilung
– Kinderzahl
– Temperatur in °C
– Länge
(a) Geben Sie an, ob diese Merkmale qualitativ oder quantitativ sind.
(b) Bei qualitativen Merkmalen bestimmen Sie, ob sie nominal oder ordinal sind.
Bei quantitativen Merkmalen geben Sie an, ob sie diskret oder stetig sind.
(c) Geben Sie die zugehörige Skala an.
Aufgabe 1.2
(a) Beschreiben Sie, was qualitative von quantitativen Merkmalen unterscheidet.
(b) Welche Eigenschaft eines qualitativen Merkmals bewirkt, dass es ordinal ist?
(c) Was unterscheidet bei quantitativen Merkmalen diskrete von stetigen?
(d) Was zeichnet ein Merkmal aus, das man auf einer Absolutskala misst?
Lösungen
1.6
7
Lösungen
Merkmalstypen und Skalen
Lösung 1.1
– Beruf: Qualitativ, nominal. Nominalskala
– Leistungsbeurteilung: Qualitativ, ordinal. Ordinalskala
– Kinderzahl: Quantitativ, diskret. Metrisch, Absolutskala
– Temperatur in ı C : Quantitativ, stetig. Metrisch, Intervallskala. In der Regel wird
das Merkmal diskretisiert.
– Länge: Quantitativ, stetig. Metrisch, Verhältnisskala
Lösung 1.2
(a) Qualitative Merkmale können nur durch Worte beschrieben werden, quantitative Merkmale werden durch Zahlen beschrieben.
(b) Bei einem ordinalen Merkmal können die Ausprägungen angeordnet werden,
es gibt eine Hierarchie.
(c) Ein diskretes Merkmal besitzt Ausprägungen, die durchnummeriert werden
können. Bei einem stetigen Merkmal füllen die Ausprägungen ein ganzes Intervall.
(d) Ein Merkmal wird auf einer Absolutskala gemessen, wenn es quantitativ ist,
einen absoluten Nullpunkt besitzt und es nur eine natürliche Maßeinheit gibt.
9
2
Eindimensionale Datenreihen
2.1
Datensatz/Stichprobe
2.1.1 Absolute und relative Häufigkeiten,
empirische Verteilungsfunktion
Beim Erfassen von Daten wird die Anzahl der Daten mit n abgekürzt. Für den Fall,
dass die Daten als Stichprobe einer größeren Grundgesamtheit dienen, heißt diese
Anzahl auch Stichprobenlänge. Daten werden mit dem Buchstaben x bezeichnet,
der Datensatz wird als n-Tupel der Messwerte durchnummeriert in der Form
.x1 ; : : : ; xn /:
Die möglichen oder gemessenen verschiedenen Merkmalsausprägungen werden
bezeichnet als
a1 ; : : : ; am :
Bemerkung:
Stellvertretend für die Indizes, also die Zahlen, die die Messwerte oder Ausprägungen durchnummerieren, wählt man einen Buchstaben. Häufig ist dieser allgemeine
Index i oder j oder k.
Zur allgemeinen Beschreibung für die durchnummerierten Ausprägungen a1 ; : : : ;
am wird ein Laufindex j benutzt. Die Daten x1 ; : : : ; xn werden mit dem Index i
nummeriert.
Die absolute Häufigkeit, mit der eine Merkmalsausprägung aj im Datensatz vorkommt, ist
hj D hn .aj /:
Die relative Häufigkeit, also der Anteil, zu dem eine Merkmalsausprägung aj im
Datensatz vorkommt, ist
hj
rj D rn .aj / D
:
n
P
Die Summe der absoluten Häufigkeiten ist m
j D1 hj D n; die relativen HäufigkeiPn
ten summieren sich zu j D1 rj D 1. Hierbei wird das große
P griechische Sigma ˙
als Symbol für das Aufsummieren verwendet. Unten am
notiert man, bei welchem Index die Summation beginnt, oben notiert man den größten verwendeten
Index.
Als absolute Häufigkeitsverteilung bezeichnet man die Zusammenstellung der Paare .aj ; hj / der Ausprägungen und ihrer absoluten Häufigkeiten. Die relative Häufigkeitsverteilung besteht aus den Paaren .aj ; rj /. Beide Verteilungen können in
Form von Tabellen dargestellt werden.
10
Eindimensionale Datenreihen
Beispiel:
Sie möchten einen Eindruck von der Lohnverteilung in einem Niedriglohnsektor
von 1500 bis 2000 Euro bekommen, um substantiiert über Mindestlöhne diskutieren zu können.
Vorbereitende Überlegungen:
– Sie identifizieren Ihre Ziele: Sie möchten den Niedriglohnsektor kennenlernen.
– Die interessierende Gesamtheit besteht aus allen Beschäftigten in diesem Sektor.
– Erhebbar ist nur eine Stichprobe.
– Das interessierende Merkmal ist das Monatseinkommen.
– Dieses Merkmal ist quantitativ und diskret.
– Die Skala ist metrisch.
Erfassen von Daten:
Es wurden die Monatseinkommen von n D 50 Personen erhoben:
x1 D 1600 x2 D 1900 x3 D 1800 x4 D 1950 x5 D 1850
x6 D 1600 x7 D 2000 x8 D 1950 x9 D 2000 x10 D 1900
x11 D 1950 x12 D 1900 x13 D 1800 x14 D 1950 x15 D 1950
x16 D 1850 x17 D 1850 x18 D 1950 x19 D 2000 x20 D 1950
x21 D 1900 x22 D 1900 x23 D 1850 x24 D 2000 x25 D 1800
x26 D 1900 x27 D 1850 x28 D 1600 x29 D 1500 x30 D 1900
x31 D 1850 x32 D 1800 x33 D 1850 x34 D 1950 x35 D 1900
x36 D 1800 x37 D 1850 x38 D 1750 x39 D 2000 x40 D 1800
x41 D 1850 x42 D 1900 x43 D 1850 x44 D 1950 x45 D 1600
x46 D 1500 x47 D 1850 x48 D 1800 x49 D 1950 x50 D 1650
Aus den Daten erstellt man zunächst eine Strichliste:
Monatliches Einkommen
a1 D 1500
a2 D 1550
a3 D 1600
a4 D 1650
a5 D 1700
a6 D 1750
a7 D 1800
a8 D 1850
a9 D 1900
a10 D 1950
a11 D 2000
Absolute Häufigkeit
Datensatz/Stichprobe 11
Datenaufbereitung:
(a) Tabellarische Darstellung:
Monatliches
Einkommen
a1 D 1500
a2 D 1550
a3 D 1600
a4 D 1650
a5 D 1700
a6 D 1750
a7 D 1800
a8 D 1850
a9 D 1900
a10 D 1950
a11 D 2000
Absolute
Häufigkeit
h1 D 2
h2 D 0
h3 D 4
h4 D 1
h5 D 0
h6 D 1
h7 D 7
h8 D 11
h9 D 9
h10 D 10
h11 D 5
Relative
Häufigkeit
r1 D 0:04
r2 D 0:00
r2 D 0:08
r4 D 0:02
r4 D 0:00
r4 D 0:02
r7 D 0:14
r8 D 0:22
r9 D 0:18
r10 D 0:20
r10 D 0:10
Bei der tabellarischen Darstellung werden in der ersten Spalte die verschiedenen Merkmalsausprägungen aufgelistet.
(b) Grafische Darstellung durch Balkendiagramme:
Auf der waagerechten Achse (Abszisse) sind die Merkmalsausprägungen aufgetragen, auf der senrechten (Ordinate) die Häufigkeiten.
12
0.25
10
0.2
8
0.15
6
0.1
4
0.05
2
0
1400
1500
1600
1700
1800
1900
Absolute Häufigkeiten
2000
2100
0
1400
1500
1600
1700
1800
1900
2000
2100
Relative Häufigkeiten
Zur Beantwortung von Fragen zu Anzahlen oder Anteilen der Daten mit Messwerten bis zu einer gewissen Grenze oder ab einer gewissen Grenze erweitert man die
Tabelle um die absolute Summenhäufigkeit Hn .aj / und die relative Summenhäufigkeit Fn .aj /, die auch empirische Verteilungsfunktion genannt wird. Diese beiden
Funktionen entstehen durch sukzessives Addieren der absoluten beziehungsweise
relativen Häufigkeiten. Diese kumulierten Häufigkeiten können in jeder beliebigen
12
Eindimensionale Datenreihen
Zahl x ausgewertet werden, denn sie spiegeln die Anzahl beziehungsweise den Anteil der Daten wider, die kleinergleich x sind:
Hn .x/
D
Fn .x/
D
P
mit aj x
hj
j mit aj x
rj
Pj
D
1
n
P
j mit aj x
hj
D n1 Hn .x/
Am Beispiel:
(a) Bestimmen Sie die Anzahl der Befragten mit einem Monatskeinkommen von
höchstens 1800 Euro.
(b) Berechnen Sie den Anteil der Befragten mit einem Monatseinkommen von
höchstens 1700 Euro.
(c) Errechnen Sie den Prozentsatz der Befragten mit einem Monatseinkommen
von mindestens 1750 Euro.
Lösung:
Erweiterung der Tabelle um die absolute Summenhäufigkeit und die empirische
Verteilungsfunktion:
aj
1500
1550
1600
1650
1700
1750
1800
1850
1900
1950
2000
h.aj /
2
0
4
1
0
1
7
11
9
10
5
Hn .aj /
2
2
6
7
7
8
15
26
35
45
50
r.aj /
0:04
0:00
0:08
0:02
0:00
0:02
0:14
0:22
0:18
0:20
0:10
Fn .aj /
0:04
0:04
0:12
0:14
0:14
0:16
0:30
0:52
0:70
0:90
1:00
(a) 15 Befragte habe ein Monatseinkommen von höchstens 1800 Euro.
(b) Der Anteil der Befragten mit einem Monatseinkommen von höchstens 1700
Euro liegt bei 14 %.
(c) Der Prozentsatz der Befragten mit einem Monatseinkommen von mindestens
1750 ist
.100 0:14 100/% D 86 %
Die Graphen von absoluter Summenhäufigkeitsfunktion und empirischer Verteilungsfunktion sind monoton steigende Treppenfunktionen.
Datensatz/Stichprobe 13
Am Beispiel:
50
1
40
0.8
30
0.6
20
0.4
10
0.2
0
1400
1500
1600
1700
1800
1900
2000
2100
Absolute
Summenhäufigkeitsfunktion
0
1400
1500
1600
1700
1800
1900
2000
2100
Empirische
Verteilungsfunktion
2.1.2 Klasseneinteilung
Bei manchen Datensätzen ist es günstig, die Messwerte in Klassen zusammenzufassen. Das wird etwa bei einem stetigen Merkmal wegen der Messungenauigkeit
nötig sein, aber auch bei diskreten Merkmalen können Klassen die Daten übersichtlicher darstellen.
Beispiele:
– Einkommensklassen
– Mietspiegel (abhängig von der Wohnungsgröße)
– Unfallstatistik, etwa bezüglich der Zeit bis zum ersten Unfall nach dem Führerscheinerwerb
Bei der Erstellung von Klassen muss immer festgelegt werden, zu welchen Klassen
die Klassengrenzen gehören. Häufig werden halboffene, nach oben geschlossene
Klassen gewählt. Alternativ sind auch halboffene, nach unten geschlossene Klassen möglich. Die unterste Klasse wird meist nach unten geschlossen gewählt, die
oberste nach oben geschlossen.
Bei der Darstellung von Klassen ist es üblich, dass ein Endpunkt einer Klasse zur
Klasse gehört, wenn die zugehörige Klammer sich der Klasse zuwendet: Œa; b.
Ein Endpunkt gehört nicht zur Klasse, wenn die zugehörige Klammer sich von der
Klasse wegwendet. Halboffene nach oben geschlossene Klassen sind also von der
Gestalt a; b; halboffene nach unten geschlossene Klassen sind von der Gestalt
Œa; bŒ.
14
Eindimensionale Datenreihen
Beispiele:
– Einkommen: Œ0; 500; 500; 1000; 1000; 2000; : : : sind halboffene, nach oben
geschlossene Klassen.
Hier gehören also die Zahlen 0 und 500 zur ersten Klasse, die Zahl 1000 gehört
zur zweiten Klasse, die Zahl 2000 zur dritten. Zu beachten ist, dass etwa in der
zweiten Klasse jede Zahl liegt, die größer als 500 und kleinergleich 1000 ist; so
gehört die Zahl 500:00000001 zur zweiten Klasse.
– Wohnungsgröße: Œ10; 30; 30; 50; 50; 70; 70; 100; 100; 150; 150; 300 sind
ebenfalls halboffene, nach oben geschlossene Klassen.
– Körpergröße auf 2 cm genau, mit halboffenen, nach unten geschlossenen Klassen: Œ160; 162Œ; Œ162; 164Œ; Œ164; 166Œ; : : :
Beispiel:
Bei einer Kontrolle in einer Tempo-30-Zone wurden folgende Geschwindigkeitsüberschreitungen festgestellt:
Geschwindigkeit:
Häufigkeit:
31
2
33
5
35
3
37
8
39
3
41
1
43
9
45
3
47
3
49
2
Die Höhe des Verwarngeldes ist an Grenzen gebunden:
Geschwindigkeitsklasse:
Verwarngeld:
(a)
(b)
(c)
(d)
30; 35
10 Euro
35; 50
20 Euro
50; 70
50 Euro
:::
...
Auf welchen Betrag belaufen sich die Einnahmen der Stadt?
Wie viele Fahrer zahlten das geringste Bußgeld?
Welcher Prozentsatz der Fahrer fuhr höchstens 50 km/h?
Welcher Anteil der Fahrer fuhr mehr als 35 km/h?
Lösung:
Klasse
30; 35
35; 50
50; 70
Verwarngeld
10
20
50
Absolute
Häufigkeit
Relative
Häufigkeit
10
29
1
0.25
0.725
0.025
Absolute
Summenhäufigkeit
10
39
40
Empirische
Verteilungsfunktion
0.25
0.975
1
(a) Einnahmen der Stadt:
10 10 C 29 20 C 1 50 D 730 Euro
(b) Das geringste Bußgeld bezahlen 10 Fahrer.
(c) Bis einschließlich 50 km/h fuhren 39 Fahrer, entsprechend 97:5 %.
(d) Der Anteil der Fahrer, die mehr als 35 km/h fuhren, liegt bei
1 0:25 D 0:75.
55
1