word cloud で今年のブログを振り返る
こんにちは、 @kz_morita です。
12/23 日に行われた、「エンジニアの成長を応援する忘年 LT 大会 2019」 というイベントに参加させていただき、そこで「ブログを書き続けた話」というタイトルで 2019 年のブログの執筆を振り返る LT を行いました。
そのなかで以下のような、Word Cloud を用いてブログの内容を可視化してみたところ面白かったので、今日はその Word Cloud について書いていきます。
Word Cloud とは? Word Cloud は上記の画像のように、単語の出現頻度を可視化するテキストマイニングの手法です。テキストマイニングといったら難しそうですが、ライブラリが用意されていて非常に簡単につくることができます。
ライブラリはこちら。 https://github.com/amueller/word_cloud
全体のながれ 作成の流れとしては以下のようになります。
可視化したい文章の準備 前処理 (不要文字の削除, Stop Word) 実行 説明の都合で上記順番で説明していますが、実際には、文章を準備 → 前処理 → 実行 → 前処理 → … となんども前処理を調整しました。
それでは順を追って説明していきます。
可視化したい文章の準備 今回は 2019 年に書いた記事を抽出したかったので、以下のようにコマンドでテキストファイルにしました。
$ grep 2019 -rl ./content/posts/ | xargs cat > blog.txt grep コマンドの “-l” オプションでパターンを含むファイル名だけを標準出力できるので、それを cat で ファイルの内容を標準出力に書いたのを、blog.