検索システムのワイルドカードクエリ

こんにちは、 @kz_morita です。

情報検索のシステムについて勉強中で，以下のような記事をこれまでにまとめました．

今回はワイルドカードのクエリについてまとめます．

ワイルドカードクエリとは

ワイルドカードクエリとは，以下のようなクエリのことを指します．

pro*ing

このようなクエリに対して，programming や，processing などといったワードで検索したような文書を返すことを目的にしたものです．

このような検索を実現するための手法について見ていきます．

辞書とデータ構造

その前に，検索システムにおける語彙とそれを扱うデータ構造についてまとめます．

検索システムでは，検索されたワードに対して一定の正規化などを行った後にそのワードを辞書から見つけ出す必要があります．辞書から見つければその後は，ポスティングリストを参照し文書IDを得るといった流れになります．

辞書から見つけるのには，通常の全探索だと語彙数を N としたときに O(N) の計算量となります．効率よく探すために以下のようなデータ構造が用いられます．

ハッシュ
探索木

ハッシュ

ハッシュは，用語を特定のハッシュ関数でハッシュ化して格納するもので，計算量は (ハッシュ計算する時間を除いて) O(1) になり高速です．

ただし，デメリットもあります．

まず，ハッシュの衝突です．ハッシュの計算結果は十分大きい数の数値のため通常は衝突を気にするケースはあまりありませんが，Web 検索システムなど扱う語彙の数が膨大なシステムnの場合は，本当に衝突を気にする必要がないかどうかをよく検討する必要がありそうです．

２つめに，似ている語彙を探すことが困難なことがあります．語彙がすこしでも違えば，まったく別のハッシュ値になることも普通にありえるので柔軟的に扱うのは難しいです．

探索木

探索木は，データを木構造で扱うことで O(logN) の計算量で探索できるようにしたものです．

以下のようなものが代表的です．

二分木 (binary-tree)
B 木 (B-tree)

詳細はここでは扱いませんが，検索システムでは，B-tree が用いられることが多いそうです．

B-tree については，下記のサイトなどがわかりやすかったです．

RDBMSで使われるB木を学ぼう（1/3）－＠IT

ワイルドカードクエリの実現方法

後方一致

まずは，以下のような後方一致のワイルドカードクエリについて考えます．

prog*

後方一致のクエリに関しては，以下の図のように探索木を辿っていって prog までたどれたらその子供の木でアクセスできる用語すべてのリストが用語リストになります．

この用語のリストの論理積のクエリととらえて，あとは転置インデックスから文書IDを取得すれば prog* の検索を実現できます．

前方一致

たとえば，以下のようなクエリを考えます．

*ing

これは，用語を逆順に格納した，リバース B-tree を考えれば実現することが出来ます．

予め語彙を逆順にしたものをTreeに保持しておいて gni* というクエリで探すという形です．

こうすることで，後方一致と同じように検索が可能です．

間にワイルドカードが挟まった形

以下のようなクエリの場合です．

prog*ing

この場合は，クエリを prog* と *ing と分けて考え，それぞれ後方一致と前方一致で用語リストを得たあとに，それぞれのリストの論理積をとることで実現できます．

順序入れ替え用語語彙

上記では，前方一致と後方一致で考えましたが，順序入れ替え用語語彙 を用いる方法では，用語を回転したものを拡張して順序入れ替え用語語彙の集合として保持することで実現します．

具体的に，computer という文字列で考えると以下のようになります．

末尾に終端文字をつける

computer => computer$

回転させる

computer$
omputer$c
mputer$co
puter$com
uter$comp
ter$compu
er$comput
r$compute
$computer

回転させた各ワードから元の computer への参照を保持する

それでは実際の動きを c*r というクエリで，car と computer が見つかるまでの例を用いて説明します．

検索クエリをワイルドカードが後ろに来るように回転させる

c*r => r$c*

あらかじめ回転させておいた順序入れ替え用語語彙の集合から探す

computer$
omputer$c
mputer$co
puter$com
uter$comp
ter$compu
er$comput
r$compute <-- r$c* に hit!
$computer

car$
ar$c
r$ca <-- r$c* に hit!
$car

上記のような手順で，c*r というクエリで, car や computer を見つけることが出来ます．

k グラムインデックス

上記の順序入れ替え用語語彙では，シンプルにワイルドカードを見つけることができるのですが，順序入れ替え用語語彙の集合がかなり大きなサイズになります．

そこで，単語を kグラムに分割してワイルドカード検索を実現する方法があります．

k グラムとは k 個の文字の並びのことで，たとえば computer という単語の 3グラムは以下のようになります．

com
omp
mpu
put
ute
ter

単語の最初と最後を識別できるように，拡張すると以下のようになります．

$co
com
omp
mpu
put
ute
ter
er$

k グラムで検索を実現するために，kグラムインデックスを予め構築します．これは，k グラムから，用語リストを参照できるようにしたインデックスになります．具体的には以下のような感じです．

mpu => computer, impulse, tempura ...

これらを用いて，com* というワイルドカードクエリで検索する流れを説明します．3 グラムの例で説明します．

手順としては以下のような感じです．

ワイルドカードクエリを，3グラムに分割する
3グラムのクエリを，kグラムインデックスを用いて用語リストを得る
ポストフィルタリング
転置インデックスで文書 ID を得る

ワイルドカードクエリを，3グラムに分割する

com* というクエリを以下のように分割します．

3グラムのクエリを，kグラムインデックスを用いて用語リストを得る

k グラムインデックスを用いて，$co AND com という条件で，用語リストを得ます．

以下のような用語リストが得られたとします．

computer
compress
concomitance

ポストフィルタリング

kグラムインデックスから用語を得ましたが，concomitance という単語は，com* というクエリには，マッチしていないのにもかかわらず検索に引っかかってしまっています．

そのため，このポストフィルタリングの手順では，得られた用語リストを更に，元のクエリである com* で grep し，フィルタリングします．

o: computer
o: compress
x: ~~concomitance~~

転置インデックスで文書 ID を得る

ポストフィルタリングのステップで，computer , compress という用語が得られたので，computer, compress という用語で転置インデックスから，文書IDを取得し，それぞれの文書 ID 集合の論理積をとれば結果を得ることが出来ます．

まとめ

今回は，ワイルドカードクエリの仕組みについて簡単にまとめました．ワイルドカード検索の手法をいくつかまとめましたが，かなりコストのかかる処理になってしまうのは間違いないため，そもそも対象とする検索システムに導入するかどうかという点も検討する必要がありそうです．

ただ，このようにワイルドカード検索を実装するために，いくつかのデータ構造を検討し処理を効率化するプロセス自体はとても工夫がなされていて参考になるし，とてもおもしろいものだと思います．

参考

情報検索の基礎

こんにちは、 @kz_morita です。今回は，検索システムにおいてインデックスを構築する際の辞書と用語についてまとめます．辞書と用語検索システムは，検索クエリに合致する文書を探すことが目的のシステムです．効率的に探すために，インデックスを事前に構築します．情報検索と転置インデックス上記の以前書いた記事にもありますが，インデックスには用語集である辞書と，その用語が出現する文書IDを記した，ポスティングリストがあります．文書の取得からこの辞書を構築するまでについて手順を説明します．辞書作成の手順辞書を作成するには，おおまかに以下のような手順が必要になります．文字列の取得語彙の決定語彙の正規化これらについてまとめます．文字列の取得検索システムの検索対象である文書ですが，データある以上もとのデータは byte 列になります．これを文字列として認識するためにはいくつかの懸念点があります．文字コード byte 列を文字列として認識するためにはその文書がどの文字コードで書かれているかということを知る必要があります．文字コード判別の手段として以下のようなものがあります．機械学習分類ヒューリスティックユーザー選択文書メタデータ多くは，下３つが使われているようです．ちなみに文書メタデータは，HTML の meta 属性のようなものと考えると良さそうです．ファイルタイプファイルのタイプにより特別な復号化が必要な場合があります． zip docx xml PDF たとえば，zip であれば解凍する必要がありますし，xml などでも，& など特別なエンコードをもとに戻したりする必要があります．言語アラビア語など文書の読む方向が違うような言語についても，必要があれば考慮する必要があります．語彙の決定文字列が取得できたら，そこから語彙を決定します．語彙を決定するために文字列から Token 列を得る必要があります． Token 化は文書の言語に依存するため，分類器などを用いて言語を推定します．たとえば，英語などは単語がスペースで区切られているため分割は比較的簡単ですが，日本語などでは区切られてないため形態素解析などで語分割を行います．とはいえ，英語などでも，アポストロフィの扱いなど考えなければならない点があります． Token 列が取得できたら，語彙として使用しないワードをストップワードとして登録して辞書から除外することがあります．たとえば，日本語の助詞などをストップワードに登録することが多いです．ストップワードをつくることのメリットしては，助詞などはとても頻度が多いため辞書とポスティングりすとの個数を大幅に減らせることにあります．ただし，歌のタイトルや，格言など，ストップワードが大きく影響をうけるような分野もあるため，Web検索などでは使用されない傾向にあるそうです．その代わりとして，言語統計などを用いて，頻出語をどのように扱い削減するかに焦点が当てられています．語彙の正規化語彙が決定したら，正規化を行います．表記が異なっていても，等価として扱いたいものを一つに正規化をします．たとえば，USA と U.