検索システムと辞書・用語

こんにちは、 @kz_morita です。

今回は，検索システムにおいてインデックスを構築する際の辞書と用語についてまとめます．

辞書と用語

検索システムは，検索クエリに合致する文書を探すことが目的のシステムです．効率的に探すために，インデックスを事前に構築します．

情報検索と転置インデックス

上記の以前書いた記事にもありますが，インデックスには用語集である辞書と，その用語が出現する文書IDを記した，ポスティングリストがあります．

文書の取得からこの辞書を構築するまでについて手順を説明します．

辞書作成の手順

辞書を作成するには，おおまかに以下のような手順が必要になります．

文字列の取得
語彙の決定
語彙の正規化

これらについてまとめます．

文字列の取得

検索システムの検索対象である文書ですが，データある以上もとのデータは byte 列になります．これを文字列として認識するためにはいくつかの懸念点があります．

文字コード

byte 列を文字列として認識するためにはその文書がどの文字コードで書かれているかということを知る必要があります．

文字コード判別の手段として以下のようなものがあります．

機械学習分類
ヒューリスティック
ユーザー選択
文書メタデータ

多くは，下３つが使われているようです．

ちなみに文書メタデータは，HTML の meta 属性のようなものと考えると良さそうです．

ファイルタイプ

ファイルのタイプにより特別な復号化が必要な場合があります．

zip
docx
xml
PDF

たとえば，zip であれば解凍する必要がありますし，xml などでも，& など特別なエンコードをもとに戻したりする必要があります．

言語

アラビア語など文書の読む方向が違うような言語についても，必要があれば考慮する必要があります．

語彙の決定

文字列が取得できたら，そこから語彙を決定します．語彙を決定するために文字列から Token 列を得る必要があります．

Token 化は文書の言語に依存するため，分類器などを用いて言語を推定します．

たとえば，英語などは単語がスペースで区切られているため分割は比較的簡単ですが，日本語などでは区切られてないため形態素解析などで語分割を行います．

とはいえ，英語などでも，アポストロフィの扱いなど考えなければならない点があります．

Token 列が取得できたら，語彙として使用しないワードをストップワードとして登録して辞書から除外することがあります．

たとえば，日本語の助詞などをストップワードに登録することが多いです．ストップワードをつくることのメリットしては，助詞などはとても頻度が多いため辞書とポスティングりすとの個数を大幅に減らせることにあります．

ただし，歌のタイトルや，格言など，ストップワードが大きく影響をうけるような分野もあるため，Web検索などでは使用されない傾向にあるそうです．

その代わりとして，言語統計などを用いて，頻出語をどのように扱い削減するかに焦点が当てられています．

語彙の正規化

語彙が決定したら，正規化を行います．

表記が異なっていても，等価として扱いたいものを一つに正規化をします．

たとえば，USA と U.S.A といった具合です．

正規化の方法として，クエリ時に拡張する方法と，インデックス時に拡張する方法があります．

クエリ時の拡張

たとえば，USA と検索されたときに，USA の辞書と，U.S.A の辞書を両方検索するというのが，クエリ時の拡張になります．

インデックス時の拡張

対して，USA というワードが含まれた文書が与えられたときに，USA と U.S.A の両方のポスティングリストに，文書IDを追加するのが，インデックス時の拡張になります．

よく用いられる正規化

その他によく用いられる正規化として以下のようなものがあります．

アクセント記号や特殊記号
大文字化 / 大文字小文字平準化
言語特有の問題
ステミング, レンマ処理

大文字，小文字の統一や，英語の color と colour ，日本語のひらがなとカタカナと漢字，言語学的に同一のものを処理するステミング，レンマ処理など，検索結果を改善するためにさまざまな正規化が施されます．

まとめ

今回は，検索システムの辞書を作るときの概要について簡単にまとめました．

さらっと，まとめたそれぞれに更に深い議論があるとおもうので引き続きキャッチアップしていきます．

参考

情報検索の基礎

こんにちは、 @kz_morita です。情報検索の概要について学んだことをまとめます．情報検索とは情報検索の目的は，大規模なコレクションのなかから必要な情報を含むデータや文書を見つけることです．見つけたいデータは，テキストや画像，音声など様々あります．（主にテキストの検索について語られれていることが多いと思います) テキストなどのように探したいデータは非構造的なものが多いため，どのように効率的に探すのかといったことが重要です．情報検索の規模も，個人的な PC 内の検索といった比較的小さいものから，Web 検索といった膨大な量の文書の中から必要なデータを探すといったものがあり，その中間に各ドメインごとの検索といったものもあります． adhoc 検索 1回のクエリでユーザーがほしい文書，情報を検索して取得するものを adhoc 検索と呼びます．ユーザーがクエリとして入力していないもので，それがユーザーに対して価値がある欲しい情報であれば，関連している文書として返すことも重要になっています．論理検索モデル Google 検索などでも採用されていると思いますが，検索したい用語を AND や OR や NOT で結合して検索できるものが論理検索モデルです． dog AND cat などと検索して，犬と猫が同時に現れる文書を検索するようなモデルになります．検索の方法検索の方法は様々ありますが，まず一番シンプルなのは線形に全探索することだと思います．いわゆる grep です．こちらは，シンプルである程度の規模の文書のコレクションであれば効果的ですが以下のようなことは難しいです．大規模のコレクションを高速に処理するより柔軟な検索クエリに対応する (たとえば，NEAR 検索 dog の近くに cat と書かれている文書 etc) 検索結果をランク付けするこれらを解決するために，文書をあらかじめインデックス付けをすることが重要です．検索システムの評価検索システムは，どれだけユーザーの要求する結果を返せるのかというところが評価対象になります．評価指標としては以下の２つなどがあげられます．適合率 (precision) : 返した文書のうちに価値あるものの割合再現率 (recall) : 関連する全文書のうち検索システムが返した文書の割合まとめ情報検索の概要についてざっくりまとめました．次はインデックス周りについてまとめていきたいと思います．参考情報検索の基礎