普段はソフトウェアエンジニアとして活動をしていますが、面白そうなので統計学について学んだ結果を少しずつ書いていきます。
記述統計学と推測統計学
統計学には大きく分けて二つの分類があります。
それが、「記述統計学」と「推測統計学」です。
記述統計学
記述統計学は既知のデータに対して、集計する方法を学ぶ統計学です。
具体的に言うと、平均や分散などの統計量を集計することが記述統計学に当たります。
今のデータがどのような特性を持っているのかを統計量を使って表すことで分析することが目的となります。
例えば、数値データの集合Aと集合Bがあったときにどちらの集合が大きいかと言うことが知りたかった場合には、 データの一つ一つを比べていくのではなく、例えば「平均」と言う統計量を利用して、比較することで簡潔に二つの集合の関係を表すことができます。
しかし、現実的に世の中の全てのデータを入手することは不可能であり、未知のデータを推測したいケースは一般的に多く存在します。
そこで推測統計学という学問が必要になってきます。
推測統計学
推測統計学は既知のデータを分析した結果、まだ手に入れていないデータについて推測をしていく統計学です。 前述した通り、現実のデータを全て入手することは不可能なため、実際にはこちらの推測統計学の知識が一般的に必要とされています。
例えば、東京都民の意識調査みたいなアンケートの例を考えます。
現実的に東京都民全員に対してアンケートを実施することは不可能なため、ある一定数の人にアンケートをとってそれを結果として利用するかと思います。
このときに知りたいのは実際にアンケートをとった1000人のアンケート結果ではなく、その裏側に隠れている東京都民全体の意識調査結果です。このときの実際の1000人のデータを 標本
と呼び、実際に知りたい都民全体のデータを 母集団
と呼びます。
この標本データから母集団の特性を分析することがまさに推測統計学で行いたいことになります。
ちなみに、標本データを分析するのに使われるのが記述統計学です。(推測統計学の前処理が記述統計学のようなイメージ)
まとめ
- 統計学には
記述統計学
と推測統計学
がある - 現実的に全データを集めることは不可能なため推測統計学が必要
- 推測統計学の前処理として記述統計学がある