超幾何分布

2019年3月10日 mathematics

はじめに

確率分布には色々な種類が存在するため、すべてを把握するのは難しいですが、その代表的なものを一つ一つを簡単に紹介していきます。 本記事では、超幾何分布について紹介します。

超幾何分布とは

2種類のAとBからなるN個のものがあり、Aの個数を $M$ とし, Bの個数は $ N - M$ とする。
そのときにそこから 非復元抽出 をn回繰り返したときにAが $x$ 個出現するときの確率が従う分布のことを 超幾何分布 と言います。

非復元抽出とは、 $x$ 個抽出するときに1個ずつ元に戻さずに続けて抽出することを意味します。
(復元する場合は、二項分布となります)

確率分布は以下の式で与えられます。

$$ f(x) = \frac{ {}_M C_{x} \cdot {}_{N-M} C_{n-x} } { {}_N C_n } $$

上記の式は以下のように解釈できます。 $$ f(x) = \frac{ Aの組合せ \cdot Bの組合せ } { 全体からn個取り出す組合せ } $$

また $x$ は、以下の範囲の値を取り得ます。

$$ Max(0, n - (N-M)) \le x \le Min(n, M) $$

わかりにくいので具体的な例を考えてみます。

たとえば、赤と白のボールが合計100個入った袋からボールを10個とりだし、赤がいくつ出るかということを考えます。
また、赤のボールは30個、白のボールは70個とします。 上記の変数に当てはめると $N = 100$、$n=10$、 $M=30$ の場合です。
そして、赤のボールが現れた個数を $x$ とするとその確率 $f (x)$ は以下のようになります。

$$ f(x) = \frac{ {}_{30} C_{x} \cdot {}_{100-30} C_{10-x} } { {}_{100} C_{10} } $$

試しに赤のボールが3個出る確率を求めてみると以下のようになります。

$$ f(3) = \frac{ {}_{30} C_{3} \cdot {}_{100-30} C_{10-3} } { {}_{100} C_{10} } $$ $$ = \frac{ {}_{30} C_{3} \cdot {}_{70} C_{7} } { {}_{100} C_{10} } $$

$$ = 0.314241441 $$

統計量

期待値や分散などの統計量をまとめます。
なお、 $p = \frac{M}{N}$ とします。

期待値

$$ E(X) = \frac{nM}{N} = np $$

分散

$$ V(X) = n \frac{M(N-M)(N-n)}{N^2 (N - 1)} = np (1-p) \frac{N-n}{N-1} $$

まとめ

超幾何分布について簡単にその確率分布と、期待値・分散についてまとめました。 次は、二項分布 (ベルヌーイ分布) についてまとめていこうと思います。