データの代表値について
データの集合を見るときにどの様な傾向があるのか、またデータ集合同士を比較などしたいときに、用いられるのが代表値です。 (統計量とも呼ばれます)
具体的にいうと、データセットAとデータセットBどちらが大きいか?という問いに対して、「平均」という代表値を用いA,Bの平均を比較することによって答えることができます。
データには量的データと質的データがある (記述統計学とデータについて参照) ので、それぞれで主な代表値をまとめます。
データの準備 Irisのデータを使用しながら、各代表値を見ていくので準備をします。
今回は sepal length (cm) のみを使用することにします。
import pandas as pd from sklearn import datasets iris = datasets.load_iris() df = pd.DataFrame(iris.data, columns=iris.feature_names) sepal_lengths = pd.Series(df['sepal length (cm)']) 代表値 ~量的データ~ 算術平均 (mean) いわゆる一般的な平均。
$$ 算術平均 = \frac{全データの総和}{データ数}
$$ $$ \overline{x} = \frac{\sum^{n}_{i=1}x_{i}}{n} $$
python実装 sepal_lengths.mean() # => 5.843333333333334 トリム平均 (trimmed_mean) 外れ値の影響を受けないようにするために、異常値を取り除いた平均です。
もっとも小さい値からp個, もっとも大きい値からp個取り除いたデータ集合をxを整列したものを
$x_{(i)}: x_{(1)}, x_{(2)}, x_{(3)}, …, x_{(n)}$
で表すと
$$ トリム平均 = \frac{取り除いた後のデータの総和}{取り除いた後のデータ数} $$ $$ \overline{x} = \frac{\sum^{n-p}_{i=p+1}x_{(i)}}{n-2p} $$