以前 の記事でも軽く触れましたが、相関係数についてもう少し深掘りしようと思います。
相関係数の式
相関係数の式は以下のようになっています。
$$ 相関係数 r = \frac{\sum^{n}_{i=1}(x_i - \overline{x})(y_i - \overline{y}) }{\sqrt{\sum^{n}_{i=1}(x_i - \overline{x})^2} \sqrt{\sum^{n}_{i=1}(y_i - \overline{y})^2}} $$
今回はこの式がどのような意味を持っているのか見ていきます。
ちなみに$\overline{x}$, $\overline{y}$ は x, yのそれぞれの平均を表します。
式変形
まずは分子分母をnで割って見ます。
$$ r = \frac{ \frac{\sum^{n}_{i=1}(x_i - \overline{x})(y_i - \overline{y}) }{ n } }{ \frac{\sqrt{\sum^{n}_{i=1}(x_i - \overline{x})^2} \sqrt{\sum^{n}_{i=1}(y_i - \overline{y})^2}} { n }} $$
$$ r = \frac{ \frac{\sum^{n}_{i=1}(x_i - \overline{x})(y_i - \overline{y}) }{ n } } {\sqrt{\frac{ \sum^{n}_{i=1}(x_i - \overline{x})^2 }{n}} \sqrt{\frac{ \sum^{n}_{i=1}(y_i - \overline{y})^2 }{n}}} $$
ここで、標準偏差が$ S = \sqrt{\frac{ \sum^{n}_{i=1}(x_i - \overline{x})^2 }{n}} $ であったことを考えると
$$ r = \frac{ \frac{\sum^{n}_{i=1}(x_i - \overline{x})(y_i - \overline{y}) }{ n } } { S_x S_y } $$
となります。
ここで標準化の式
$$ z = \frac{x - \overline{x}}{S} $$
より、$z = \frac{x - \overline{x}}{S_x}$, $w = \frac{y - \overline{y}}{S_y}$ とすると。
$$ r = \frac{1}{n} \sum^{n}_{i=1}\frac{(x_i - \overline{x})(y_i - \overline{y})}{S_x S_y} $$
$$ r = \frac{1}{n} \sum^{n}_{i=1} z_i w_i $$
と表せます。
標準化というのは、データを平均 = 0, 分散 = 1 の形に変形する操作のことなので、
つまり、相関係数というのは標準化されたx, y それぞれを掛け合わせて n で割る操作のことと言えます。
共分散
前述した以下の式は、共分散
と呼ばれます。
$$ \frac{1}{n} \sum^{n}_{i=1} z_i w_i $$
この共分散が正であるときは、一方の値が増加するともう一方の値も増加する傾向にあり、
負であるときは、一方の値が増加するともう一方の値は減少していきます。
そして、共分散が正のときに「正の相関がある」。負のときに「負の相関がある」ということができ、
この共分散をしらべることで、2変数の間の相関をしらべることができるというわけです。
共分散が正である、または負であるとはどういうことなのかについてもうすこし補足して説明します。
わかりやすいように共分散の式を以下のように展開してみます。
$$ \frac{1}{n} \sum^n_{i=1} z_i w_i = \frac{1}{n} (z_1 w_1 + z_2 w_2 + z_3 w_3 + \cdots + z_n w_n) $$
ここで各項 $w_i z_i$ の正負について考えます。
$z_i w_i \gt 0$ となるのは、「$z_i \gt 0$ かつ $w_i \gt 0 $」、もしくは 「$z_i \lt 0$ かつ $w_i \lt 0 $」となり、
$z_i w_i \lt 0$ となるのは、$z_i$ と $w_i$ の符号が違うときになります。
共分散が正とはこれらの各項の総和が正ということなので、$z_iw_i \gt 0$ の項 (どちらも正もしくは、どちらも負) がたくさんあるということになります。
どちらも正のパターンとどちらも負のパターンが多いということは、つまり、片方が増えればもう片方も増える(片方が減れば、もう片方も減る) ということなので、これはつまり共分散が正である = 正の相関があるということが言えそうです。
$-1 \le r \le 1$ の証明
相関係数 r は $-1 \le r \le 1$ の範囲になりますがそのことを証明してみます。
以下の式を利用します。
$$ \frac{1}{n}\sum^n_{i=1} (z_i \pm w_i)^2 \ge 0 $$
左辺を展開していきます。
$$ \frac{1}{n}\sum^n_{n=1} (z_i^2 \pm 2z_iw_i + w_i^2) \ = \frac{1}{n}\sum^n_{i=1} z_i^2 \pm \frac{2}{n} \sum^n_{i=1} z_i w_i + \frac{1}{n} \sum^n_{i=1} w_i^2 $$
ここで $\frac{1}{n}\sum^n_{i=1}z_i^2 = 1$ と(証明は後述) 、前述の$r = \frac{1}{n} \sum^n_{i=1} z_i w_i$ を利用して、
$$ 1 \pm 2 \cdot \frac{1}{n}\sum^n_{i=1} z_iw_i + 1 = 2 \pm 2 r $$
これが常に、0以上になるので、
$$ 2 \pm 2r \ge 0 $$
$$ 1 \pm r \ge 0 $$
$1 + r \ge 0$と$1 - r \ge 0$ をそれぞれ考えれば良いので、
$$ 1 + r \ge 0 $$
$$ r \ge -1 $$
と
$$ 1 - r \ge 0 $$
$$ r \le 1 $$
を合わせて以下のようになります。
$$ -1 \le r \le 1 $$
「$\frac{1}{n}\sum^n_{i=1}z_i^2 = 1$」 の証明
$$ \frac{1}{n} \sum^n_{i=1} z_i^2 = \frac{1}{n}\sum^n_{i=1} \frac{(x - \overline{x})^2}{S_x^2} = \frac{1}{n} \cdot \frac{1}{S_x^2} \sum^n_{i=1}(x - \overline{x})^2 $$
$S^2 = \sum^n_{i=1} \frac{(x - \overline{x})^2}{n}$ を利用して、
$$ = \frac{1}{n} \cdot \frac{1}{\sum^n_{i=1} \frac{(x-\overline{x})^2}{n}} \cdot \sum^2_{i=1} (x - \overline{x})^2 = \frac{1}{n} \cdot \frac{n}{\sum^n_{i=1} (x-\overline{x})^2} \cdot \sum^2_{i=1} (x - \overline{x})^2 = 1 $$
以上で、$-1 \le r \le 1$ が示ました。
まとめ
まとめると、相関係数とは標準化した2変数の共分散
と言えるでしょう。これを調べることにより正の相関、負の相関のどちらかということがわかります。
また相関係数ではその程度も同時にわかるというわけです。
相関係数の式はパッとみただけでは意味がよくわからなかったのですが、こうして分解して見るとその式の意味がわかりやすくなったのではないでしょうか。