確率とベイズの定理について

2019年2月2日 mathematics

確率とベイズの定理について簡単にまとめます。

確率とは

確率とは、ランダムに起こる現象の法則性を扱っていくものです。

標本空間と事象

ランダムに起こる現象とはどんなものがあるかというと、たとえば「コインを投げて表と裏どちらがでるか?」や「サイコロを振ってどの数字がでるか?」などのことです。
このときの起こりうる事柄のことを 事象 と言います。

コインであれば「表」と「裏」、サイコロであれば N=1,2,3,4,5,6 という数字が取りうる値となりますが、 この、表・裏や1~6の数字など取りうる結果のことを 標本点 、 取りうる値全体の集合を 標本空間 (または全事象) といいます。

言い換えると、事象は標本空間の部分集合ということができます。

また、決して起こらない(標本空間以外の事象)こと自体も事象とみなし、 空事象 と呼びます。

記号での表現

コインを投げたときの例で考えます。

標本空間は $\Omega$ で表現し、「表」を1、「裏」を0とすると以下のように表せます。 $$ \Omega = \{ 0,1 \} $$

事象は以下のようになります。($\phi$は空事象を表しています) $$ \{ 0, 1 \}, \{1\}, \{0\}, \phi $$

(事象に $\{0, 1\}$が入っているのは違和感がありそうですが、例えばコインを投げて「表か裏がでる事象」とすれば、その事象を満たすのは$\{0, 1\}$となります)

この時、ただ一つの標本点からなる事象を 根元事象 と呼びます。上記の例でいうと、$\{1\}$と$\{0\}$がそれに当たります。

また、コインを2回投げた時を考えると標本空間は以下のようになります。

$$ \Omega = \{ (0,0), (0,1), (1,0), (1,1) \} $$

確率の定義

根元事象の総数をN。ある事象Aが起こるような根元事象の数ををRで表すと、確率は以下の式で定義されます。

$$ P(A) = \frac{R}{N} $$

具体的にサイコロの例で考えると、 標本空間(全ての根元事象)は $\Omega = \{ 1, 2, 3, 4, 5, 6 \}$ となり、 N=6。 事象Aを「サイコロの目が奇数である」とすると、奇数である根元事象は $\{ 1, 3, 5 \}$ となるので、 R=3 となるので、

$$ P(A=奇数) = \frac{3}{6} $$

となります。

確率の公理主義的定義

次の三つを満たす数は全て確率とみなすことができるという定義です。

  • すべての事象Aにおいて$0 \le P(A) \le 1$
  • $P(\Omega) = 1$
  • 互いに排反な事象$A_1, A_2, A_3 \dots$ に対して

$$ P(A_1, A_2, A_3 \dots) = P(A_1) + P(A_2) + P(A_3) + \cdots $$

確率の加法定理

$$ P(A \cup B) = P(A) + P(B) - P(A \cap B) $$

AとBが排反事象のときは $P(A \cap B) = \phi$のため、以下のようになります。

$$ P(A \cup B) = P(A) + P(B) $$

条件付き確率

Bという事象が起こった上で、Aという事象がおこる確率のことを、Bを条件とするAの条件付き確率 といいます。 式で表すと、

$$ P(A | B) = \frac{P(A \cap B)}{P(B)} $$

のようになります。このままだと自分はあまりしっくりこないのですが、以下のように式変形すると意味がなんとなくわかると思います。

$$ P(A \cap B) = P(A | B) \cdot P(B) $$

AとBが同時に起こる確率は、事象Bが起こってからそのうえで事象Bを条件とした事象Aが起こる確率となっています。 (事象Bの確率と、事象Bを条件としたAの条件付き確率の積)

ちなみに、二つ目の式を 乗法定理 と呼んだりもするらしいです。

また、$P(A \cap B)$ を 同時確率 と呼び、$P(A, B)$ と表記したりします。

独立

事象Aと事象Bがお互いに独立なときに以下の式が成り立ちます。(以下の式が成り立つ時独立と言える)

$$ P(A) = P(A|B) $$

これはAが起こる確率とBが起こった上でAが起こる確率が同じ、つまり事象Bが事象Aとは無関係なことを示しています。

この式を乗法定理の式 $P(A \cap B) = P(A | B) \cdot P(B)$ に当てはめると以下の式が得られます。

$$ P(A \cap B) = P(A) \cdot P(B) $$

この式を独立であることの定義とする場合もあります。

例えば、サイコロを2回振って(1,1)が出る確率は$\frac{1}{6} \cdot \frac{1}{6} = \frac{1}{36}$ ですが、これは二つの確率の積で洗わせるため各々のサイコロで1が出る事象はそれぞれ独立であると言えます。

ベイズの定理

ベイズの定理は得られた結果から原因を推定するような問題に使われるものです。 このベイズの定理について簡単にまとめます。

定理の式

ベイズの定理の式は以下のようになっています。

$$ P(B | A) = \frac{P(A|B) \cdot P(B)}{P(A)} $$

上記の式の事象Aを得られた結果、事象Bを原因とすると左辺は結果が与えられた時の原因の確率となる。言い換えると、結果から原因を推定しているとも言えるでしょう。

また普通の実験などで手に入れられるのは、それぞれの事象 ( $P(A), P(B)$ ) の確率と、原因から結果( $P(A|B)$ )の確率であることが多いが、
上記の式はそれら3つの確率 ( $P(A), P(B), P(A|B)$ ) から結果から原因を推定する確率が求められることを意味しています。

このベイズの定理を基礎とするものとして、 ベイズ統計学 というものがあります。

まとめ

確率とはなんなのかというところからベイズの定理までざっくりと説明しました。
この辺りは今後確率分布などを扱っていく際に必要な基礎なのでしっかり覚えておきたいと思いました。