Die Hypergeometrische Verteilung

Transcription

Die Hypergeometrische Verteilung
Die Hypergeometrische Verteilung
Timm Grams, Fulda, 31. Juli 2010 (rev. 02.08.10)
Formel für die Wahrscheinlichkeiten
Die Grundmenge der Größe N möge M Merkmalsträger enthalten. Es ist M ≤ N. Aus dieser
Grundmenge werden n Elemente rein zufällig ausgewählt. Die Wahrscheinlichkeit pk, dass
sich in dieser Auswahl genau k Merkmalsträger befinden, ist gleich
⎛M ⎞⋅⎛ N − M ⎞
⎜ k ⎟ ⎜ n−k ⎟
⎠
pk = ⎝ ⎠ ⎝
.
⎛N⎞
⎜n⎟
⎝ ⎠
Dass es sich hier tatsächlich um eine Verteilung handelt, wird dadurch nachgewiesen, dass die
Summe der pk gleich 1 ist. Das ist genau dann der Fall, wenn die Formel
n
⎞ = ⎛N⎞
∑ ⎛⎜⎝ Mk ⎞⎟⎠ ⋅ ⎛⎜⎝ Nn −− M
k ⎟⎠ ⎜⎝ n ⎟⎠
k =0
gilt. Ich beweise sie mittels vollständiger Induktion über N. (Ich reite auf der Sache mehr als
nötig herum, weil wir die Formel in den folgenden Herleitungen wiederholt benötigen werden.)
Induktionsanfang: Weil 0 über 0 gleich 1 ist, gilt die Formel für N = 0.
Induktionsschluss: Wie man leicht einsieht, gilt die Formel für M=0 grundsätzlich. Wir können für den Induktionsschluss also davon ausgehen, dass M eine natürliche Zahl ist, dass also
0<M gilt. Nun nehmen wir an, dass die Formel für N-1 bereits bewiesen worden ist. Daraus
folgt
⎛M ⎞ ⎛N − M ⎞ ⎛N − M ⎞ n ⎛M ⎞ ⎛N − M ⎞
⎟⎟
⎟⎟ + ∑ ⎜⎜ ⎟⎟ ⋅ ⎜⎜
⎟⎟ = ⎜⎜
⎜⎜ ⎟⎟ ⋅ ⎜⎜
∑
k =0 ⎝ k ⎠ ⎝ n − k ⎠
⎝ n ⎠ k =1 ⎝ k ⎠ ⎝ n − k ⎠
n
⎛ N − M ⎞ n ⎛ ⎛ M − 1⎞ ⎛ M − 1 ⎞ ⎞ ⎛ N − M ⎞
⎟⎟
⎟⎟ ⎟⎟ ⋅ ⎜⎜
⎟⎟ + ⎜⎜
⎟⎟ + ∑ ⎜⎜ ⎜⎜
= ⎜⎜
⎝ n ⎠ k =1 ⎝ ⎝ k − 1 ⎠ ⎝ k ⎠ ⎠ ⎝ n − k ⎠
n
n
n
n
= ∑ ⎛⎜ M − 1⎞⎟ ⋅ ⎛⎜ N − M ⎞⎟ + ∑ ⎛⎜ M − 1⎞⎟ ⋅ ⎛⎜ N − M ⎞⎟
k − 1 ⎠ ⎝ n − k ⎠ k =0 ⎝ k ⎠ ⎝ n − k ⎠
k =1 ⎝
= ∑ ⎛⎜ M − 1⎞⎟ ⋅ ⎛⎜ N − M ⎞⎟ + ∑ ⎛⎜ M − 1⎞⎟ ⋅ ⎛⎜ N − M ⎞⎟
k − 1 ⎠ ⎝ n − k ⎠ k =0 ⎝ k ⎠ ⎝ n − k ⎠
k =1 ⎝
n
N − 1 − ( M − 1) ⎞ n ⎛ M − 1⎞ ⎛ N − 1 − ( M − 1) ⎞
= ∑ ⎛⎜ M − 1⎞⎟ ⋅ ⎛⎜
+ ⎜
⋅
⎟
k − 1 ⎠ ⎝ n − 1 − (k − 1) ⎟⎠ ∑
k ⎟⎠ ⎜⎝
n−k
⎠
k =1 ⎝
k =0 ⎝
n −1
N − 1 − ( M − 1) ⎞ n ⎛ M − 1⎞ ⎛ N − 1 − ( M − 1) ⎞
= ∑ ⎛⎜ M − 1⎞⎟ ⋅ ⎛⎜
⎟
⎟ + ∑⎜ k ⎟ ⋅ ⎜
k ⎠ ⎝ n −1− k
n−k
⎠ ⎝
⎠
⎠ k =0 ⎝
k =0 ⎝
= ⎛⎜ N − 1⎞⎟ + ⎛⎜ N − 1⎞⎟ = ⎛⎜ N ⎞⎟ ,
⎝ n −1 ⎠ ⎝ n ⎠ ⎝ n ⎠
also die Gültigkeit der Formel für N.
-2-
Der Erwartungswert
n
Der Erwartungswert μ ist in diesem Fall gegeben durch μ = ∑ k ⋅ p k . Wegen
k =0
n
n
k =0
k =0
n
⎞⋅⎛N − M ⎞ ⎛ N ⎞ = k ⋅⎛M ⎞⋅⎛ N − M ⎞ ⎛N ⎞
μ = ∑ x k p k = ∑ k ⋅ ⎛⎜ M
k ⎟ ⎜ n−k ⎟ ⎜ n⎟ ∑ ⎜ k ⎟ ⎜ n−k ⎟ ⎜ n⎟
⎝
⎠ ⎝
⎠ ⎝
⎠
k =1
⎝
⎠ ⎝
⎠ ⎝
⎠
n
= ∑ M ⋅ ⎛⎜ M − 1⎞⎟ ⋅ ⎛⎜ N − M ⎞⎟ ⎛⎜ N ⎞⎟
⎝ k −1 ⎠ ⎝ n − k ⎠ ⎝ n ⎠
k =1
n
N − 1 − ( M − 1) ⎞ ⎛ N ⎞
= ∑ M ⋅ ⎛⎜ M − 1⎞⎟ ⋅ ⎛⎜
⎟ ⎜ ⎟
−
1
k
⎝
⎠ ⎝ n − 1 − (k − 1) ⎠ ⎝ n ⎠
k =1
n −1
N − 1 − ( M − 1) ⎞ ⎛ N ⎞
= ∑ M ⋅ ⎛⎜ M − 1⎞⎟ ⋅ ⎛⎜
⎟ ⎜n⎟
k
⎝
⎠ ⎝ n −1− k
⎠ ⎝ ⎠
k =0
n −1
N − 1 − ( M − 1) ⎞ ⎛ N ⎞
= M ⋅ ∑ ⎛⎜ M − 1⎞⎟ ⋅ ⎛⎜
⎟ ⎜n⎟
k
⎠ ⎝ n −1− k
⎠ ⎝ ⎠
k =0 ⎝
M
= M ⋅ ⎛⎜ N − 1⎞⎟ ⎛⎜ N ⎞⎟ = n .
⎝ n −1 ⎠ ⎝ n ⎠
N
ist also
μ=n
M
N
Die Streuung
n
⎛ n
⎞
2
Die Streuung σ2 ist in diesem Fall gegeben durch σ 2 = ∑ (k − μ ) p k = ⎜ ∑ k 2 p k ⎟ − μ 2 . Es
k =0
⎝ k =1
⎠
ist
k 2 ⋅ ⎛⎜ M ⎞⎟ ⋅ ⎛⎜ N − M ⎞⎟
⎝ k ⎠ ⎝ n−k ⎠
k pk = ∑
∑
⎛N⎞
k =1
k =1
⎜n⎟
⎝ ⎠
n
2
n
k (k − 1) ⋅ ⎛⎜ M ⎞⎟ ⋅ ⎛⎜ N − M ⎞⎟ n k ⋅ ⎛⎜ M ⎞⎟ ⋅ ⎛⎜ N − M ⎞⎟
⎝ k ⎠ ⎝ n−k ⎠ +
⎝ k ⎠ ⎝ n−k ⎠
=∑
∑
⎛N⎞
⎛N⎞
k =1
k =1
⎜n⎟
⎜n⎟
⎝ ⎠
⎝ ⎠
n
k (k − 1) ⋅ ⎛⎜ M ⎞⎟ ⋅ ⎛⎜ N − M ⎞⎟
⎝ k ⎠ ⎝ n−k ⎠ +nM
=∑
N
⎛N⎞
k =2
⎜n⎟
⎝ ⎠
n
M ( M − 1) ⋅ ⎛⎜ M − 2 ⎞⎟ ⋅ ⎛⎜ N − M ⎞⎟
⎝ k −2 ⎠ ⎝ n−k ⎠ +nM
=∑
N
⎛N⎞
k =2
⎜n⎟
⎝ ⎠
n
-3-
n
=∑
k =2
N − 2 − ( M − 2) ⎞
M ( M − 1) ⋅ ⎛⎜ M − 2 ⎞⎟ ⋅ ⎛⎜
⎟
M
⎝ k − 2 ⎠ ⎝ n − 2 − ( k − 2) ⎠
+n
N
⎛N⎞
⎜n⎟
⎝ ⎠
⎛ M − 2 ⎞ ⋅ ⎛ N − 2 − ( M − 2) ⎞
⎜ k ⎟ ⎜
⎟
n−2−k
⎝
⎠ ⎝
⎠+nM
= M ( M − 1) ⋅ ∑
N
⎛N⎞
k =0
⎜n⎟
⎝ ⎠
n−2
=
=
=
M ( M − 1) n − 2 ⎛ M − 2 ⎞ ⎛ N − 2 − ( M − 2) ⎞
M
⋅∑⎜
+n
⋅⎜
⎟
⎟
k ⎠ ⎝
n−2−k
N
⎠
⎛N⎞
k =0 ⎝
⎜n⎟
⎝ ⎠
M ( M − 1) ⎛ N − 2 ⎞
M
⋅⎜
+n
⎟
⎝ n−2⎠
N
⎛N⎞
⎜n⎟
⎝ ⎠
M ( M − 1)n( n − 1)
M
+n .
N ( N − 1)
N
Für die Streuung ergibt sich damit
M ( M − 1)n(n − 1)
M ⎛ M⎞
+n
− ⎜n ⎟
σ =
N ( N − 1)
N ⎝ N⎠
2
2
M ( M − 1)n(n − 1)
M ⎛ M⎞
=
+n
− ⎜n ⎟
N ( N − 1)
N ⎝ N⎠
=
2
MN ( M − 1)n(n − 1) + MN ( N − 1)n − M 2 ( N − 1)n 2
N 2 ( N − 1)
MN ( M − 1)n(n − 1) + MN ( N − 1)n − M 2 ( N − 1)n 2
=
N 2 ( N − 1)
=
M 2 Nn 2 − M 2 Nn − MNn 2 + MNn + MN 2 n − MNn − M 2 Nn 2 + M 2 n 2
N 2 ( N − 1)
− M 2 Nn − MNn 2 + MN 2 n + M 2 n 2
=
N 2 ( N − 1)
=
MN ( N − M )n − M ( N − M )n 2
N 2 ( N − 1)
=
nM ( N − M )( N − n)
.
N 2 ( N − 1)
In Kürze:
σ2 =
nM ( N − M )( N − n)
N 2 ( N − 1)