記述統計学とデータについて

2018年11月5日 mathematics

前回の記事では記述統計学と推測統計学の違いについて簡単に紹介しました。

記述統計学はデータを分析していくわけですが、データはその特性によりいくつかにカテゴライズすることができます。

データの種類

記述統計学で大暑とするデータには大きく分けて 量的データ質的データ があります。

データの種類を以下の表にまとめます。

データ名称 可能な演算
量的データ 比率データ +-×÷ 重さ、長さ、年齢、時間
間隔データ +- 時刻、IQ
質的データ 順位データ >= 満足度
カテゴリデータ カウント 電話番号、性別、血液型

量的データ

量的データとは気温や体重など数値として表せるデータのことです。 量的データには比率データと間隔データがあります。 比率データはデータの比率に意味があるデータで、間隔データはデータの間隔に意味のあるデータです。

比率データ

比率データの特徴としては、絶対的な0があることがあげられます。
どういうことかというと、質量0g、0cm、0歳など、0が何もないということを表し、基準となっているものが比率データとなります。

また加減乗除ができるのも比率データ特徴です。 (上記表の可能な演算の列参照)
2倍の重さ、Aより10cm長い長さという風に表現することができます。

間隔データ

比率データとは対照的に間隔データには絶対的な0はありません。
時刻を例にとって考えると、時刻の一種として0時というものは存在しますがそれはあくまで間隔の一種でしかなく、絶対的な0 (何もないということ) を表ているわけではありません。

また、比率データが加減乗除ができるのに対し、間隔データは乗除算を行うことができません。 今は3:00の2倍の時刻という風な表現はできません。

質的データ

質的データとはアンケート結果の5段階評価や電話番号など数値そのものに意味がないようなものを指します。
質的データには、順位データとカテゴリデータがあります。

順位データ

順位データは、例えばアンケート結果の満足度のようなデータで1が大変不満足、5が大変満足などと決めた場合に、大小関係のみ意味があるようなデータのことを指します。 満足度というデータに対して、満足度2 + 満足度3 = 満足度5 というような演算には意味がなく、順序にのみ意味があるようなデータです。

カテゴリデータ

カテゴリデータは、数値自体に意味が内容なデータになります。 具体的には、電話番号、性別 (女性: 1, 男性: 2のようなデータ)などがカテゴリデータに当たります。 カテゴリデータは、算術演算(加減乗除)や大きさなどは意味を持ちません。 できることといえば、その数をカウントすることくらいです。

まとめ

  • データの種類は大きく分けて量的データと質的データがある
  • 各データの種類によって利用可能な演算が異なる
  • 今どのデータを扱っているのかに注意しながら分析することが重要