はじめに
確率分布には色々な種類が存在するため、すべてを把握するのは難しいですが、その代表的なものを一つ一つを簡単に紹介していきます。 本記事では、超幾何分布について紹介します。
超幾何分布とは
2種類のAとBからなるN個のものがあり、Aの個数を $M$ とし, Bの個数は $ N - M$ とする。
そのときにそこから 非復元抽出
をn回繰り返したときにAが $x$ 個出現するときの確率が従う分布のことを 超幾何分布
と言います。
非復元抽出とは、 $x$ 個抽出するときに1個ずつ元に戻さずに続けて抽出することを意味します。
(復元する場合は、二項分布となります)
確率分布は以下の式で与えられます。
$$ f(x) = \frac{ {}_M C_{x} \cdot {}_{N-M} C_{n-x} } { {}_N C_n } $$
上記の式は以下のように解釈できます。 $$ f(x) = \frac{ Aの組合せ \cdot Bの組合せ } { 全体からn個取り出す組合せ } $$
また $x$ は、以下の範囲の値を取り得ます。
$$ Max(0, n - (N-M)) \le x \le Min(n, M) $$
わかりにくいので具体的な例を考えてみます。\
たとえば、赤と白のボールが合計100個入った袋からボールを10個とりだし、赤がいくつ出るかということを考えます。
また、赤のボールは30個、白のボールは70個とします。
上記の変数に当てはめると $N = 100$、$n=10$、 $M=30$ の場合です。
そして、赤のボールが現れた個数を $x$ とするとその確率 $f (x)$ は以下のようになります。
$$ f(x) = \frac{ {}_{30} C_{x} \cdot {}_{100-30} C_{10-x} } { {}_{100} C_{10} } $$
試しに赤のボールが3個出る確率を求めてみると以下のようになります。
$$ f(3) = \frac{ {}_{30} C_{3} \cdot {}_{100-30} C_{10-3} } { {}_{100} C_{10} } $$ $$ = \frac{ {}_{30} C_{3} \cdot {}_{70} C_{7} } { {}_{100} C_{10} } $$
$$ = 0.314241441 $$
統計量
期待値や分散などの統計量をまとめます。
なお、 $p = \frac{M}{N}$ とします。
期待値
$$ E(X) = \frac{nM}{N} = np $$
分散
$$ V(X) = n \frac{M(N-M)(N-n)}{N^2 (N - 1)} = np (1-p) \frac{N-n}{N-1} $$
まとめ
超幾何分布について簡単にその確率分布と、期待値・分散についてまとめました。 次は、二項分布 (ベルヌーイ分布) についてまとめていこうと思います。