blog.foresta.me

2019年4月11日

SwiftLintを導入とそのきっかけについて
2019年4月7日

HHKB BTを静音化してみた
2019年3月31日

ブログ執筆を支える技術というタイトルでLTをしてきた話

はじめに「ブログ執筆を支える技術」というタイトルでLTをしてきましたので、その感想だったり補足だったりをしていこうと思います。\ 参加したのはこちらのイベントです。なんでもLT大会第3弾内容について主にHugoについての補足を簡単にしていこうかと思います。スライドはこちらちなみに、表紙を作るのが一番時間がかかったりしました。大まかに説明すると以下のような内容です。週一でブログを書いている書かざるを得ない環境をつくるの大事快適な執筆環境を自力で構築した車輪の再開発は贅沢 Hugo についてこのサイトはHugoという静的サイトジェネレータを用いているので、それについて簡単に説明します。 https://gohugo.io/ インストール基本的にOSXの方であれば、Homebrewを用いて一発でインストールできます。 brew install hugo サイト作成最初にサイトを立ち上げる時は以下のコマンドを打ちます。 $ hugo new site sample_site ディレクトリ構成 Hugoのディレクトリの基本構成は以下のようになっています。 . ├── README.md ├── archetypes │ └── 記事の雛形.md ├── config.toml ├── content │ └── 実際の記事.md ├── data ├── layouts │ ├── _default │ ├── index.html │ ├── partials │ ├── shortcodes │ └── taxonomy ├── public │ └── ビルドした成果物が入る ├── resources ├── static │ └── 静的ファイル └── themes └── hugo のテーマファイル各ディレクトリについて簡単に説明します。
2019年3月19日

ポアソン分布

はじめに今回は、ポアソン分布について紹介していきたいと思います。ポアソン分布とは一定期間内に、平均して $\lambda$ 回ランダムに発生する事象があるとします。この事象が同じ期間内に $k$ 回起きる確率が従う分布のことをポアソン分布と呼びます。その確率関数は以下のようになります。 $$ P(k) = \frac{\lambda^k e^{-\lambda}}{k!} $$ この分布は「馬に蹴られて死ぬ確率」というのを求めるときに初めて利用された分布らしいです。確率分布であることの確認これが確率分布であることを確かめてみます。これはつまり、 $$ \sum_k \frac{\lambda^k}{k!} e^{-\lambda} = 1 $$ となることを確かめればOKです。以下の式 $$ \sum_k \frac{\lambda^k}{k!} = 1 + \lambda + \frac{1}{2!} \lambda^2 + \frac{1}{3!} \lambda^3 + \cdots $$ は、$e^{\lambda}$ のマクローリン展開と等価なため、 $$ e^{\lambda} e^{-\lambda} = 1 $$ となり、確率分布であることがわかりました。二項分布との関係ポアソン分布の確率関数と二項分布には深く関係があり、二項分布の一種の極限としてポアソン分布があるということが知られています。つまりポアソン分布の確率関数の式は、二項分布から求めることができます。二項分布の試行回数を $n$、$X = 1$ がでる回数を $\lambda$ 回とします。この $\lambda$ を固定したまま、$n → \infty$ の極限を考えます。
2019年3月17日

ベルヌーイ分布と二項分布

はじめに本記事では数ある確率分布の中でも、有名なベルヌーイ分布と、二項分布について説明していきます。ベルヌーイ分布とはコインを投げるときの「表」と「裏」のように、二種類の結果を取りうる試みがあったときに、このような試みのことをベルヌーイ試行と呼びます。二つの事象を $X = 1$ , $ X = 0 $ とすると、 $$ P(X = 1) = p、 P(X = 0) = 1 - p $$ であり、これらの分布のことをベルヌーイ分布と呼びます。確率関数は以下の式で表されます。 $$ f (x) = p^x (1 - p)^{1-x},\ \ x \in (1,0) $$ 二項分布とは上記で説明したベルヌーイ試行をn回繰り返すことを考えます。たとえば、コイン投げを5回繰り返すといった具合にです。この場合に、「$X=1$」が $x$ 回、「$X=0$」が $n-x$ 回生じるとすれば、 $x = 0, 1, \cdots , n$ でありそのときに確率関数は、 $$ f(x) = {}_n C_{x}\ p^x (1-p)^{n-x} $$
2019年3月10日

超幾何分布

はじめに確率分布には色々な種類が存在するため、すべてを把握するのは難しいですが、その代表的なものを一つ一つを簡単に紹介していきます。本記事では、超幾何分布について紹介します。超幾何分布とは 2種類のAとBからなるN個のものがあり、Aの個数を $M$ とし, Bの個数は $ N - M$ とする。そのときにそこから非復元抽出をn回繰り返したときにAが $x$ 個出現するときの確率が従う分布のことを超幾何分布と言います。非復元抽出とは、 $x$ 個抽出するときに1個ずつ元に戻さずに続けて抽出することを意味します。 (復元する場合は、二項分布となります) 確率分布は以下の式で与えられます。 $$ f(x) = \frac{ {}_M C_{x} \cdot {}_{N-M} C_{n-x} } { {}_N C_n } $$ 上記の式は以下のように解釈できます。 $$ f(x) = \frac{ Aの組合せ \cdot Bの組合せ } { 全体からn個取り出す組合せ } $$ また $x$ は、以下の範囲の値を取り得ます。 $$ Max(0, n - (N-M)) \le x \le Min(n, M) $$ わかりにくいので具体的な例を考えてみます。\ たとえば、赤と白のボールが合計100個入った袋からボールを10個とりだし、赤がいくつ出るかということを考えます。また、赤のボールは30個、白のボールは70個とします。上記の変数に当てはめると $N = 100$、$n=10$、 $M=30$ の場合です。
2019年2月24日

チェビシェフの不等式

はじめに今回はチェビシェフの不等式について簡単に説明します。チェビシェフの不等式とは確率分布がわかっていない時に、確率の値の検討をつけるといったケース現実にはよくあります。平均と分散から、確率の大まかな見当をつけたいという時にある程度役に立つのが、チェビシェフの不等式です。確率変数 $X$ はどんなものであっても、その期待値 $\mu = E(X)$ の周りに集まり、期待値から離れると次第に少なくなっていきます。その少なくなる程度は分散 $\sigma^2 = V(X)$ によります。このときに、標準偏差 $\sigma = D(X)$ と単位にとるときに、次の不等式が成立します。 $$ P(|X - \mu| \ge k\sigma) \le \frac{1}{k^2}\ \ \ (k \gt 0) $$ 上記の式を、チェビシェフの不等式と言います。まず、左辺 $P(|X - \mu| \ge k\sigma)$ をみていきます。これは、確率変数 $X$ と期待値 $\mu$ の距離が、標準偏差の $k$ 倍以上になる確率のことを示しています。 (下記の図で表している、青 ( $x \le -k\sigma$ ) と紫 ( $x \ge k\sigma$ )の領域のことです) This graph exported by https://www.
2019年2月22日

モーメントとモーメント母関数

確率分布におけるモーメントとモーメント母関数についてまとめます。確率分布の形確率分布の形を決める値として、期待値や分散があると思います。例えば以下のような正規分布であれば、期待値 (平均) と分散がわかればその形を一意に決めることができます。正規分布だけではない確率分布一般の話をすると、この二つ以外にも例えば「左右のどちらかに歪んでいるか」や「尖っているか、なだらかか」のような形を決定づける要素があります。理論的に言えば、確率分布の形を一意に決めるためには無限個の要素を知る必要があります。この要素をどのように知るかというのが確率分布を決定づけるために必要なわけですが、はじめに、先ほど軽く触れたどちらに歪んでいるかや、尖っているかの要素について簡単に紹介します。歪度と尖度歪度確率分布が左右のどちらに歪んでいるかを決める要素です。確率分布の歪度 (skewness、歪度係数) と呼び、以下の式で定義されます。 $$ \alpha_3 = E(X - \mu)^3 / \sigma ^3 $$ $\alpha_3 \gt 0$ ならば右側の裾が長く、 $\alpha_3 \lt 0$ ならば左側の裾が長くなり、その程度は $|\alpha_3|$ で表されます。 $E(X - \mu)^3$ 部分は式変形すると、以下のようになります。 $$ E(X - \mu)^3 = E(X^3) - 3\mu E(X^2) + 3\mu E(x) - \mu^3 $$ $$ = E(X^3) - 3\mu E(X^2) + 2\mu^3 $$ 尖度確率分布の中心の周囲がどのくらい尖っているのかを表す要素です。確率分布の尖度 (kurtness、超過係数: coefficient of excess)と呼び、以下の式で定義されます。
2019年2月16日

確率変数と確率分布

確率変数、確率まわりについてまとめます。確率変数と確率分布サイコロを振って1がでる確率は以下のように表示することができます。 $$ P(X=1) = \frac{1}{6} $$ 上記のような各Xの値に対してそれぞれ確率が与えられている変数のことを確率変数と呼びます。もちろんすべてのXの値に対し、$P(X=1) = \frac{1}{6}, P(X=2) = \frac{1}{6}, \cdots, P(X=6)=\frac{1}{6}$ となります。一般化すると、$P(X=x_k) = p_k$ となり、すべてのとりうるiで以下を満たします。 $$ p_k \ge 0\ \ \ \ (k = 1,2,3,\cdots,n) $$ $$ \sum^n_{k=1} p_k = 1 $$ ここで、各 $p_k$ を $x_k$ の関数$\ f(x_k)$ として表すと以下のように表せます。 $$ P(X=x_k) = f(x_k) \ \ \ \ (k = 1,2,3,\cdots) $$ この関数 $f$ をXの確率分布と呼びます。また、確率変数 $X$ は確率分布 $f(x)$ に従うといいます。
2019年2月6日

Hugoで外部リンクを開くためのshortcodeを作った話

Hugoでマークダウンで記事を書くときに、リンクを外部リンクで開きたかったのでそれ専用のshortcodeを作りました。モチベーションとしてはマークダウンでも外部リンクは開きたいけど、markdownの中にaタグを記入するのはイケてないし、こちらの記事に書かれている rel="noopener noreferrer" の指定などを自動で入れてくれるものを作ろうと言った感じです。完成品実際のコード Hugoでshortcodeは以下の順番で探されます。 /layouts/shortcodes/<SHORTCODE>.html /themes/<THEME>/layouts/shortcodes/<SHORTCODE>.html 参考: https://gohugo.io/templates/shortcode-templates/#shortcode-template-lookup-order そのため、今回は /layouts/shortcodes/ 以下にexlink.htmlという名前で作りました。 /layouts/shortcods/exlink.html {{ if .IsNamedParams }} <a href="{{ .Get "href" }}" target="_blank" rel="noopener noreferrer">{{ if .Get "text"}}{{ .Get "text" }}{{ else }}{{ .Get "href"}}{{ end }}</a> {{ else }} <a href="{{ .Get 0 }}" target="_blank" rel="noopener noreferrer">{{ .Get 0 }}</a> {{ end }} 使用例名前付き引数なし ① {{< exlink "https://google.com" >}} <a href="https://google.com" target="_blank" rel="noopener noreferrer">https://google.
2019年2月2日

確率とベイズの定理について

確率とベイズの定理について簡単にまとめます。確率とは確率とは、ランダムに起こる現象の法則性を扱っていくものです。標本空間と事象ランダムに起こる現象とはどんなものがあるかというと、たとえば「コインを投げて表と裏どちらがでるか？」や「サイコロを振ってどの数字がでるか？」などのことです。このときの起こりうる事柄のことを事象と言います。コインであれば「表」と「裏」、サイコロであれば N=1,2,3,4,5,6 という数字が取りうる値となりますが、この、表・裏や1~6の数字など取りうる結果のことを標本点、取りうる値全体の集合を標本空間 (または全事象) といいます。言い換えると、事象は標本空間の部分集合ということができます。また、決して起こらない(標本空間以外の事象)こと自体も事象とみなし、空事象と呼びます。記号での表現コインを投げたときの例で考えます。標本空間は $\Omega$ で表現し、「表」を1、「裏」を0とすると以下のように表せます。 $$ \Omega = \{ 0,1 \} $$ 事象は以下のようになります。($\phi$は空事象を表しています) $$ \{ 0, 1 \}, \{1\}, \{0\}, \phi $$ (事象に $\{0, 1\}$が入っているのは違和感がありそうですが、例えばコインを投げて「表か裏がでる事象」とすれば、その事象を満たすのは$\{0, 1\}$となります) この時、ただ一つの標本点からなる事象を根元事象と呼びます。上記の例でいうと、$\{1\}$と$\{0\}$がそれに当たります。また、コインを2回投げた時を考えると標本空間は以下のようになります。 $$ \Omega = \{ (0,0), (0,1), (1,0), (1,1) \} $$ 確率の定義根元事象の総数をN。ある事象Aが起こるような根元事象の数ををRで表すと、確率は以下の式で定義されます。 $$ P(A) = \frac{R}{N} $$ 具体的にサイコロの例で考えると、標本空間(全ての根元事象)は $\Omega = \{ 1, 2, 3, 4, 5, 6 \}$ となり、 N=6。事象Aを「サイコロの目が奇数である」とすると、奇数である根元事象は $\{ 1, 3, 5 \}$ となるので、 R=3 となるので、
2019年1月27日

neovimとLSPでRust開発環境をつくったら最高だった話

背景 Rust の開発環境をつくろうとしてたら、いつのまにか vim から nvim に移行して、LSP で補完ができるようにしていました。完全に「ヤクの毛刈り」ですが、ある程度動くようになって結構かきやすくなったので設定周りを紹介します。成果物先に成果物を。コード補完フォーマット手順インストール系 Rust はインストールされているものとして話を進めます。 neovim のインストール $ brew install neovim pip で neovim をインストール $ pip install neovim $ pip3 install neovim rust の LSP サーバーや補完用のものをインストール $ rustup update $ rustup component add rls-preview --toolchain nightly $ rustup component add rust-analysis --toolchain nightly $ rustup component add rust-src --toolchain nightly 設定ファイル設定ファイルは以下のディレクトリ配下にいれています。 $HOME/.config/nvim/ ├── colors │ └── iceberg.
2019年1月19日

相関係数について

以前の記事でも軽く触れましたが、相関係数についてもう少し深掘りしようと思います。相関係数の式相関係数の式は以下のようになっています。 $$ 相関係数 r = \frac{\sum^{n}_{i=1}(x_i - \overline{x})(y_i - \overline{y}) }{\sqrt{\sum^{n}_{i=1}(x_i - \overline{x})^2} \sqrt{\sum^{n}_{i=1}(y_i - \overline{y})^2}} $$ 今回はこの式がどのような意味を持っているのか見ていきます。ちなみに$\overline{x}$, $\overline{y}$ は x, yのそれぞれの平均を表します。式変形まずは分子分母をnで割って見ます。 $$ r = \frac{ \frac{\sum^{n}_{i=1}(x_i - \overline{x})(y_i - \overline{y}) }{ n } }{ \frac{\sqrt{\sum^{n}_{i=1}(x_i - \overline{x})^2} \sqrt{\sum^{n}_{i=1}(y_i - \overline{y})^2}} { n }} $$ $$ r = \frac{ \frac{\sum^{n}_{i=1}(x_i - \overline{x})(y_i - \overline{y}) }{ n } } {\sqrt{\frac{ \sum^{n}_{i=1}(x_i - \overline{x})^2 }{n}} \sqrt{\frac{ \sum^{n}_{i=1}(y_i - \overline{y})^2 }{n}}} $$
2019年1月13日

Google スプレッドシートで個別にフィルターする方法

背景 Google スプレッドシートは普段業務などでよく使うかと思います。私も、バグのチケット管理やタスク管理などで用いることがあります。スプレッドシートにはフィルター機能があるのですが、普通にフィルターをかけてしまうと全ユーザーのスプレッドシートがフィルタリングされてしまいます。たとえば、タスク管理で自分のタスクだけ表示させておきたいといった場合に他の人もそのフィルターの影響を受けてしまします。当然スプレッドシートには個別にフィルタリングできる機能が用意されているのですが、意外と知らない方が多かったのでその方法をまとめます。方法今回は以下のようなスプレッドシートを対象に考えます。データ > フィルタ表示 > 新しいフィルタ表示を作成すると以下のような黒色でフィルタ表示がされます。名前がつけられるので、なに用のフィルタか記載しておくとよいでしょう。（今回は田中タスク確認用と入力しました）この状態で、田中さんのタスクだけ確認しようとしてみると以下のようになります。このようにすると他のユーザーに影響を与えず好きにフィルタリングすることができます。まとめスプレッドシート便利なので、こういったフィルタなども駆使してどんどん業務効率化していきましょう！ 🍻
2019年1月1日

2018年のふりかえりと2019年に向けて

2019年になったので、2018年のことを振り返ってみます。 (年内に書き上げるつもりが年を越してしまいました・・・) ブログ 2018年は19本のブログを書きました。以下に列挙してみます。 1/16 「ベタープログラマ」を読んだ 4/15 Hugoで作成したブログをPWA対応した(ホーム画面に追加のみ) 8/25 Planckキーボードを作ってみた 8/31 週一ブログチャレンジ 9/2 書籍「Clean Architecture」を読んだまとめ 9/9 DIPを意識してgoを書いてみる 9/16 isucon8予選に参加してきました 9/23 Elmに入門してみたその1 9/30 Elmに入門してみたその2 10/7 Cocos2d-xのActionまとめ基本編 10/14 Elmに入門してみたその3 10/21 Percelで静的ページをつくってみた 10/28 記述統計学と推測統計学 11/5 記述統計学とデータについて 11/17 度数分布表とヒストグラム 11/17 データの代表値について 11/24 相関について 12/13 ElmでWebGLしてみる 12/29 C++で逆ポーランド記法を実装するこうみるとそんなに多くはないかなぁという印象です。 9/1から週一でブログを書いて行こうという試みを個人的に行なっていたのですが、ところどころ途切れちゃってますね。まぁでも以前よりははるかにブログ書く回数も増えたのでこれは2019年も継続してやっていきます！ブログの内容ですが、○○をしてみた、入門してみた系の記事が多く、後半は統計学の基本的なところの記事がおおいです。来年は入門じゃなくもうちょっと深いところまで踏み込んだ内容がかけるとよいなぁと思います。ジャンルとしては、Elm、確率・統計あたりがメインな感じです。来年は機械学習系をもっと書いていきたいです。読んだ本こちらも雑に列挙してみます。 Python クローリング&スクレイピング自然言語処理の基本と技術世界でもっとも強力な９のアルゴリズムみんなのGo言語 Being Geek ベタープログラマ仕事ではじめる機械学習データサイエンスのための統計学入門ゼロから作るDeep Learning 2 直感 Deep Learning ふつうのLinuxプログラミングエンジニアのためのマネジメントキャリアパス Clean Architecture 機械学習系のやさしめの本が多い感じですね。ほかにも読んでるかもしれませんが、Amazonの購入履歴からはこんな感じでした。
2018年12月29日

C++で逆ポーランド記法を実装する

背景 make 10 (4つの数字と四則演算を用いて10をつくるゲーム。切符とかでよく遊ぶやつ) を解くプログラムを作ろうとして、その1要素としてC++で逆ポーランド記法を計算するプログラムを書いてみたら楽しかったのでメモしておきます。逆ポーランド記法とは? 四則演算を計算する際の記法で、例えば 1 + 2ならば、12+の用に書きます。コンピュータで計算式を解析するのに向いている記法で、演算子を後置するようなイメージです。 \ 具体的な 123+4++ のような例をつかって計算順序のイメージをみてみます。左から順番に文字を処理していき以下のような順序で演算していきます。 1 12 123 123+ // (23+ -> 5) 15 154 154+ // (54+ -> 9) 19 19+ // (19+ -> 10) 10 詳しい説明はこちらのサイトがすごくわかりやすいので、ぜひ参照してみてください。 https://qiita.com/yumura_s/items/ddb0d143fb0e9a082891 環境環境は以下の通りです。 OS X(High Sierra) $ g++ -v Configured with: --prefix=/Applications/Xcode.app/Contents/Developer/usr --with-gxx-include-dir=/usr/include/c++/4.2.1 Apple LLVM version 10.0.0 (clang-1000.11.45.5) Target: x86_64-apple-darwin17.7.0 Thread model: posix InstalledDir: /Applications/Xcode.app/Contents/Developer/Toolchains/XcodeDefault.xctoolchain/usr/bin また、c++14の記法を一部使っています。今回はユニットテスト用にgoogleTestを使用することにしました。 https://github.com/google/googletest Google Testに関しては参考になったサイトを載せておくのでそちらを参照していただければと思います。 Google Test ことはじめ GoogleTestでC++のコードをテストする GoogleTest + CMakeでC++の実践的なユニットテスト環境を構築する実装今回実装した成果物はこちら
2018年12月13日

ElmでWebGLしてみる

この記事はElm2(完全版) Advent Calendar 2018の 13 日目の記事です。はじめに Elm が楽しいので、WebGL も動かしてみました。今回はサンプルを動かして簡単にソースを見て行きます。環境 OSX 10.13.6 (High Sierra) Elm 0.19.0 WebGL ライブラリについて現状(2018/12/10)、elm の 0.19.0 では elm-explorations/webgl を用いると良さそうです。 https://package.elm-lang.org/packages/elm-explorations/webgl/latest ちなみにこいつにたどり着くまでにちょっと苦労しました。どうやらElmにもWebGLのライブラリがあるらしい ↓ Googleで「elm webgl」と検索 ↓ 検索の一番上に引っかかるのが、elm-community/elm-webgl ↓ deprecated orz ↓ elm-community/webglにリンクが貼られている。 ↓ elm-community/webglを見ると使えそうな雰囲気。 ↓ githubを見るとdeprecated ↓ elm-explorations/webgl !! ソースコードを見る elm-explorations/webgl の sample コードを軽く眺めて見ます。ソースコードはこちらのを使用します。examples/cube.elm Main 部分は以下のような感じです。 main : Program Value Float Float main = Browser.element { init = \_ -> ( 0, Cmd.
2018年11月24日

相関について

相関係数について相関係数は二つの変量どうしの関係性について知りたい時に用いられる統計量です。相関係数には、正の相関関係と負の相関関係があります。片方の変量が増えた時に、もう片方の変量も比例して増えていく時には正の相関関係があり、一方が増えるともう一方が減る傾向があるときは負の相関関係があると言えます。例えば、身体データの身長と体重という二つの変量の相関は一般的に身長が大きい人の方が体重が重くなりやすいだろうと考えられ、その場合には身長と体重には正の相関関係があるといえます。相関係数はこの相関関係の度合いを表す変量となっています。相関係数の式は以下のようになっています。 $$ 相関係数 r = \frac{\sum^{n}_{i=1}(x_i - \overline{x})(y_i - \overline{y}) }{\sqrt{\sum^{n}_{i=1}(x_i - \overline{x})^2} \sqrt{\sum^{n}_{i=1}(y_i - \overline{y})^2}} $$ この相関係数 r は $-1 \le r \le 1$ となっており、1に近いほど正に強い相関関係があり、-1に近いほど負に強い相関関係があります。 Pythonでの実装それでは実際にPythonでデータの相関について見ていきます。データはIrisのデータを使用します。環境は今回も、Google Colabratoryを使用しています。まずはデータの準備から。 import pandas as pd from sklearn import datasets iris = datasets.load_iris() df = pd.DataFrame(iris.data, columns=iris.feature_names) 相関を計算するには以下のようにします。 df.corr() すると以下の様に表示されるかと思います。 sepal length (cm) sepal width (cm) petal length (cm) petal width (cm) sepal length (cm) 1.
2018年11月17日

データの代表値について

データの集合を見るときにどの様な傾向があるのか、またデータ集合同士を比較などしたいときに、用いられるのが代表値です。 (統計量とも呼ばれます) 具体的にいうと、データセットAとデータセットBどちらが大きいか？という問いに対して、「平均」という代表値を用いA,Bの平均を比較することによって答えることができます。データには量的データと質的データがある (記述統計学とデータについて参照) ので、それぞれで主な代表値をまとめます。データの準備 Irisのデータを使用しながら、各代表値を見ていくので準備をします。今回は sepal length (cm) のみを使用することにします。 import pandas as pd from sklearn import datasets iris = datasets.load_iris() df = pd.DataFrame(iris.data, columns=iris.feature_names) sepal_lengths = pd.Series(df['sepal length (cm)']) 代表値 ~量的データ~ 算術平均 (mean) いわゆる一般的な平均。 $$ 算術平均 = \frac{全データの総和}{データ数} $$ $$ \overline{x} = \frac{\sum^{n}_{i=1}x_{i}}{n} $$ python実装 sepal_lengths.mean() # => 5.843333333333334 トリム平均 (trimmed_mean) 外れ値の影響を受けないようにするために、異常値を取り除いた平均です。もっとも小さい値からp個, もっとも大きい値からp個取り除いたデータ集合をxを整列したものを $x_{(i)}: x_{(1)}, x_{(2)}, x_{(3)}, …, x_{(n)}$ で表すと $$ トリム平均 = \frac{取り除いた後のデータの総和}{取り除いた後のデータ数} $$ $$ \overline{x} = \frac{\sum^{n-p}_{i=p+1}x_{(i)}}{n-2p} $$
2018年11月17日

度数分布表とヒストグラム

データを統計学ではどの様に見て行くのかをまとめます。また今回は実際にデータを可視化していきます。サンプルで使うデータとしてirisデータセットを使用します。環境はcolaboratoryで行い、python、scikit-learn、pandasなどを用います。データの準備 import pandas as pd from sklearn import datasets iris = datasets.load_iris() pd.DataFrame(iris.data, columns=iris.feature_names) 実行すると以下の様なデータが取得できます。 sepal length (cm) sepal width (cm) petal length (cm) petal width (cm) 0 5.1 3.5 1.4 0.2 1 4.9 3.0 1.4 0.2 2 4.7 3.2 1.3 0.2 3 4.6 3.1 1.5 0.2 4 5.0 3.6 1.4 0.
2018年11月5日

記述統計学とデータについて

前回の記事では記述統計学と推測統計学の違いについて簡単に紹介しました。記述統計学はデータを分析していくわけですが、データはその特性によりいくつかにカテゴライズすることができます。データの種類記述統計学で大暑とするデータには大きく分けて量的データと質的データがあります。データの種類を以下の表にまとめます。データ名称可能な演算例量的データ比率データ +-×÷ 重さ、長さ、年齢、時間間隔データ +- 時刻、IQ 質的データ順位データ >= 満足度カテゴリデータカウント電話番号、性別、血液型量的データ量的データとは気温や体重など数値として表せるデータのことです。量的データには比率データと間隔データがあります。比率データはデータの比率に意味があるデータで、間隔データはデータの間隔に意味のあるデータです。比率データ比率データの特徴としては、絶対的な0があることがあげられます。どういうことかというと、質量0g、0cm、0歳など、0が何もないということを表し、基準となっているものが比率データとなります。また加減乗除ができるのも比率データ特徴です。 (上記表の可能な演算の列参照) 2倍の重さ、Aより10cm長い長さという風に表現することができます。間隔データ比率データとは対照的に間隔データには絶対的な0はありません。時刻を例にとって考えると、時刻の一種として0時というものは存在しますがそれはあくまで間隔の一種でしかなく、絶対的な0 (何もないということ) を表ているわけではありません。また、比率データが加減乗除ができるのに対し、間隔データは乗除算を行うことができません。今は3:00の2倍の時刻という風な表現はできません。質的データ質的データとはアンケート結果の５段階評価や電話番号など数値そのものに意味がないようなものを指します。質的データには、順位データとカテゴリデータがあります。順位データ順位データは、例えばアンケート結果の満足度のようなデータで1が大変不満足、5が大変満足などと決めた場合に、大小関係のみ意味があるようなデータのことを指します。満足度というデータに対して、満足度2 + 満足度3 = 満足度5 というような演算には意味がなく、順序にのみ意味があるようなデータです。
2018年10月28日

記述統計学と推測統計学

普段はソフトウェアエンジニアとして活動をしていますが、面白そうなので統計学について学んだ結果を少しずつ書いていきます。記述統計学と推測統計学統計学には大きく分けて二つの分類があります。それが、「記述統計学」と「推測統計学」です。記述統計学記述統計学は既知のデータに対して、集計する方法を学ぶ統計学です。具体的に言うと、平均や分散などの統計量を集計することが記述統計学に当たります。今のデータがどのような特性を持っているのかを統計量を使って表すことで分析することが目的となります。例えば、数値データの集合Aと集合Bがあったときにどちらの集合が大きいかと言うことが知りたかった場合には、データの一つ一つを比べていくのではなく、例えば「平均」と言う統計量を利用して、比較することで簡潔に二つの集合の関係を表すことができます。しかし、現実的に世の中の全てのデータを入手することは不可能であり、未知のデータを推測したいケースは一般的に多く存在します。そこで推測統計学という学問が必要になってきます。推測統計学推測統計学は既知のデータを分析した結果、まだ手に入れていないデータについて推測をしていく統計学です。前述した通り、現実のデータを全て入手することは不可能なため、実際にはこちらの推測統計学の知識が一般的に必要とされています。例えば、東京都民の意識調査みたいなアンケートの例を考えます。現実的に東京都民全員に対してアンケートを実施することは不可能なため、ある一定数の人にアンケートをとってそれを結果として利用するかと思います。このときに知りたいのは実際にアンケートをとった1000人のアンケート結果ではなく、その裏側に隠れている東京都民全体の意識調査結果です。このときの実際の1000人のデータを標本と呼び、実際に知りたい都民全体のデータを母集団と呼びます。この標本データから母集団の特性を分析することがまさに推測統計学で行いたいことになります。ちなみに、標本データを分析するのに使われるのが記述統計学です。(推測統計学の前処理が記述統計学のようなイメージ) まとめ統計学には記述統計学と推測統計学がある現実的に全データを集めることは不可能なため推測統計学が必要推測統計学の前処理として記述統計学がある
2018年10月21日

Parcelで静的ページをつくってみた

背景だいぶ昔に、自分のホームページ製作をやろうかなーと思い、中途半端に作って放置してたのですが、今回重い腰を上げて製作を始めようとしました。しかし、そんな私の前に立ちふさがったのは、はるか昔に作成したまま動かぬものと化したgulpfile。何もしてないのに壊れたってやつです。(多分npmとかのバージョンガンガン上げてたからそれ) もうエラーを直すのも億劫なので、ビルド環境を作り直そうと思いちょっと前から気になっていたparcelを使って見ました。結論から言うと、かなり簡単にサクッと導入できたので最高でした。せっかく試したので軽くまとめておきます。前提すごくシンプルなこんなサイトを公開したかった(https://foresta.me) 公開したいのはHTMLファイル1つ CSSはSASSを使いたい JSはそんなに書かない想定導入最初に今回対応した、ページのリポジトリはこちらです。 (https://github.com/foresta/foresta.me) 今までのgulpfileなどを全削除して、npm initからはじめました。 $ npm init $ npm i -D parcel 今回のケースだと環境構築は以上で終了なので非常にお手軽です。ローカルでの開発今回作成したページのディレクトリ構成はこんな感じになっています。 $ tree -I "node_modules" . ├── README.md ├── dist/ ├── package-lock.json ├── package.json └── src ├── app.js ├── images │ └── profile.jpg ├── index.html └── sass ├── _base.scss ├── _color.scss ├── _font.scss ├── _media-query.scss ├── _reset.scss └── style.scss 4 directories, 20 files 以下のコマンドを打つと、ビルドとローカルにサーバーが立ち上がるのでそこで動作確認しつつページを実装していけばOKな感じです。 (自分が試した時は, localhost:1234 が立ち上がりました)
2018年10月14日

Elmに入門してみたその3

Elmに入門してみたのでそのメモです。今回は、The Elm Architectureについて簡単にまとめます。その1はこちらその2はこちら The Elm Architecture Elmは言語が特定のアーキテクチャ推奨しているという珍しい一面があります。そのアーキテクチャですが大きく分けて以下の三つの部品からなります. Model – アプリケーションの状態を管理する Update – 状態を更新するためのロジック View – HTMLで状態を表示するためのロジックソースコードをみるとわかりやすいと思いますので、今回はgithubで公開されている簡単なサンプルを取り上げて見ていきます。 The Elm Architectureについてのサンプル実装はこちらです。 https://github.com/evancz/elm-architecture-tutorial/ このサンプルの中からボタンをクリックのものを今回は見ていきます。 +ボタンと-ボタンが表示され、それぞれ押されるたびにModelの数値がincrement/decrementされるというものです。\ 実際の動きはこんな感じ。短いのでソースコード全文を載せます。 import Browser import Html exposing (Html, button, div, text) import Html.Events exposing (onClick) main = Browser.sandbox { init = init, update = update, view = view } -- MODEL type alias Model = Int init : Model init = 0 -- UPDATE type Msg = Increment | Decrement update : Msg -> Model -> Model update msg model = case msg of Increment -> model + 1 Decrement -> model - 1 -- VIEW view : Model -> Html Msg view model = div [] [ button [ onClick Decrement ] [ text "-" ] , div [] [ text (String.

15 / 16