確率変数と確率分布

確率変数、確率まわりについてまとめます。

確率変数と確率分布

サイコロを振って1がでる確率は以下のように表示することができます。

$$ P(X=1) = \frac{1}{6} $$

上記のような各Xの値に対してそれぞれ確率が与えられている変数のことを 確率変数 と呼びます。
もちろんすべてのXの値に対し、$P(X=1) = \frac{1}{6}, P(X=2) = \frac{1}{6}, \cdots, P(X=6)=\frac{1}{6}$ となります。

一般化すると、$P(X=x_k) = p_k$ となり、すべてのとりうるiで以下を満たします。

$$ p_k \ge 0\ \ \ \ (k = 1,2,3,\cdots,n) $$ $$ \sum^n_{k=1} p_k = 1 $$

ここで、各 $p_k$ を $x_k$ の関数$\ f(x_k)$ として表すと以下のように表せます。

$$ P(X=x_k) = f(x_k) \ \ \ \ (k = 1,2,3,\cdots) $$

この関数 $f$ をXの 確率分布 と呼びます。
また、確率変数 $X$ は確率分布 $f(x)$ に従うといいます。

上記の例では離散型の確率変数・確率分布を見てきましたが、連続型は以下のように定義されます。

$$ P(a \le X \le b) = \int_a^b f(x)\ dx $$

これは、確率変数Xがaとbの間にはいる確率を確率分布の積分 (面積) をとることで求めています。

また $$ すべての\ x\ に対し\ \ f(x) \ge 0,\ \ \ \ かつ \int_{-\infty}^{\infty} f(x)\ dx = 1 $$ であるものとします。

連続型の場合は、関数 $f(x)$ を $X$ の確率密度関数 (あるいは密度関数) と呼ぶようです。

累積分布関数

連続型の確率分布において、確率変数がある値以下の場合の確率が必要なことがしばしばあります。式で表すと、ある実数x以下の確率は $F(x)$ でおくと $$ F(x) = P(X \le x) $$ のように表すことができます。

これを Xの累積分布関数 という風に呼びます。

連続型の場合は、以下のように $-\infty$ から xまでの積分で表すことができます。 $$ F(x) = \int_{-\infty}^{x} f(x)\ dx $$

また以下のように $F(x)$ を微分すれば、 $f(x)$を復元することも可能です。 $$ F'(x) = f(x) $$

離散型の場合は、以下のような感じです。

$$ F(x) = \sum_{u \le x}f(u) $$

また、累積分布関数 $F(x)$ は以下の3つ性質をもちます。

広義単調増加: $x_1 \lt x_2 → F(x_1) \le F(x_2)$
範囲: $x → \infty$ のとき, $F(x) → 1$, $x → -\infty$ のとき $F(x) → 0$
右連続: 各点 $x$ で $\epsilon ↓ 0$ のとき $F(x+\epsilon) = F(x)$

1つめは分布の面積を足していくので、純粋に増えていくのは自然に納得できるかと思います。
2つめは $x → \infty$ の時は $F(x) = \int_{-\infty}^{\infty}f(x)\ dx = 1$ となりますし、 $x → -\infty$ であれば、 $F(x) = \int_{-\infty}^{-\infty} f(x)\ dx = 0$ となります。
3つめは右連続がちゃんと理解できていないのですが、$\epsilon$ が正の方向から0に近づいた場合に満たされます。

モードとメディアン

確率分布を代表する値として、 モード と メディアン があります。

モードは $f(x)$ を最大にする $x=x_0$ の値で、この値($x_0$)がもっとも出る確率が高いという意味を持ちます。

メディアンは中央値とも呼ばれ、 $F(x_m) = P(X \le x_m) = \frac{1}{2}$ となるちょうど真ん中の値($x_m$) のことで、この値以上が出る確率と、それ以下の値が出る確率が等しいという意味を持ちます。

期待値・分散

期待値

確率分布を代表する値として、モードとメディアンを紹介したがもう一つ代表的なものが、期待値 (つまるところの平均) です。

期待値は以下の式で定義されます。

$$ 離散型:\ E(X) = \sum_{x} x\ f(x) $$

$$ 連続型:\ E(X) = \int^{\infty}_{-\infty} x\ f(x)\ dx $$

期待値は以下の4つの性質をもちます。

$E(c) = c$
$E(X + c) = E(X) + c$
$E(cX) = c\ E(X)$
$E(X + Y) = E(X) + E(Y)$

分散

また、確率分布の分散は以下のように定義されます。

$$ V(X) = E (\ (X - \mu)^2\ ) $$

これは、確率変数Xとその期待値 $\mu$ の差の2乗の平均 (期待値) を求めてます。
つまり期待値からどれだけ外れるか？という式になっているかと思います。

分散は以下のような式で計算できます。

$$ 離散型:\ V(X) = \sum_{x} (x-\mu)^2 \ f(x) $$

$$ 連続型:\ V(X) = \int^{\infty}_{-\infty} (x - \mu)^2\ f(x)\ dx $$

また、

$$ (X - \mu) ^2 = X^2 - 2\mu X + \mu^2 $$

なので、以下の式が得られ、こちらの式の方が計算が楽で使われることが多いです。

$$ E( (X - \mu) ) = E(X^2) - 2\mu E(X) + \mu^2 = E(X^2) - ( E(X) )^2 $$

また、標準偏差は以下のように定義されます。

$$ D(X) = \sqrt{V(X)} $$

分散の性質として以下の3つが挙げられます。

$V(c) = 0$
$V(X + c) = V(X)$
$V(cX) = c^2 V(X)$

標準化

$E(Z) = 0, V(Z) = 1$ となるようにZを変形することを標準化といいます。

確率変数から期待値を引き、その標準偏差で割ることで標準化を実現しています。

$$ Z = \frac{X - E(X)}{\sqrt{V(X)}} $$

上記の Z を 標準化変数 と言います。

まとめ

確率変数と確率分布の期待値、分散について簡単にまとめました。次は、モーメントとモーメント母関数についてまとめていこうと思います。

普段はソフトウェアエンジニアとして活動をしていますが、面白そうなので統計学について学んだ結果を少しずつ書いていきます。記述統計学と推測統計学統計学には大きく分けて二つの分類があります。それが、「記述統計学」と「推測統計学」です。記述統計学記述統計学は既知のデータに対して、集計する方法を学ぶ統計学です。具体的に言うと、平均や分散などの統計量を集計することが記述統計学に当たります。今のデータがどのような特性を持っているのかを統計量を使って表すことで分析することが目的となります。例えば、数値データの集合Aと集合Bがあったときにどちらの集合が大きいかと言うことが知りたかった場合には、データの一つ一つを比べていくのではなく、例えば「平均」と言う統計量を利用して、比較することで簡潔に二つの集合の関係を表すことができます。しかし、現実的に世の中の全てのデータを入手することは不可能であり、未知のデータを推測したいケースは一般的に多く存在します。そこで推測統計学という学問が必要になってきます。推測統計学推測統計学は既知のデータを分析した結果、まだ手に入れていないデータについて推測をしていく統計学です。前述した通り、現実のデータを全て入手することは不可能なため、実際にはこちらの推測統計学の知識が一般的に必要とされています。例えば、東京都民の意識調査みたいなアンケートの例を考えます。現実的に東京都民全員に対してアンケートを実施することは不可能なため、ある一定数の人にアンケートをとってそれを結果として利用するかと思います。このときに知りたいのは実際にアンケートをとった1000人のアンケート結果ではなく、その裏側に隠れている東京都民全体の意識調査結果です。このときの実際の1000人のデータを標本と呼び、実際に知りたい都民全体のデータを母集団と呼びます。この標本データから母集団の特性を分析することがまさに推測統計学で行いたいことになります。ちなみに、標本データを分析するのに使われるのが記述統計学です。(推測統計学の前処理が記述統計学のようなイメージ) まとめ統計学には記述統計学と推測統計学がある現実的に全データを集めることは不可能なため推測統計学が必要推測統計学の前処理として記述統計学がある

確率変数と確率分布