BM25 の式を読み解く

こんにちは、 @kz_morita です。

今回は，検索エンジンなどの，クエリと文書のマッチ度に使われる BM25 の式を読み解いていきます．

BM25 とは

BM25 は，検索システムにおいて，クエリが文書とどれだけマッチしているかについてを計算するための手法になります．

式で表すと以下になります．

$$ score(D, Q) = \sum^{n}_{i=1} IDF (q_i) \cdot \frac{f(q_i, D) \cdot (k_1 + 1)} {f(q_i, D) + k_1 \cdot (1 - b + b \cdot \frac{|D|}{avgdl})} $$

これらの式の意味を一つずつ見ていきます．

各種変数の意味

上記の式の score 関数に登場する各種変数について見ていきます．

D: 検索対象の特定の文書の文字列集合
|D|: 検索対象の特定の文書の文字列集合の大きさ (どれくらいの単語量 ≒ 文書量) なのか
avgdl: 全文書の文字列集合の大きさの平均
Q: 検索クエリの文字列集合
q: 検索クエリの１つの単語
IDF関数: Inverse Document Frequency の略．いろんな文書に登場する一般的な単語だと値が小さく，レアな単語だと値が大きい
f 関数: 検索クエリの単語が対象の文書の中でどのくらい現れるかの指標．tf (Term Frequency) であったり，純粋な数のカウントだったりする．tf の場合は，以下のような式になる

$$ tf = \frac{ある単語の出現回数}{全単語の合計数} $$

$k1$ と $b$ に関してはこの式の挙動を制御するためのパラメータになります．式を深堀しながらこれらのパラメータの役割も見ていきます．

式の理解

上記の式を大まかにみると以下のような構成になっていると思います．

$$ score(D, Q) = \sum_{i=1}^n IDF(q_i)\cdot A $$

$$ A = \frac{f(q_i, D) \cdot (k_1 + 1)} {f(q_i, D) + k_1 \cdot (1 - b + b \cdot \frac{|D|}{avgdl})} $$

A の式の中が難解そうなので，一旦大枠を考えると，score 関数は，検索クエリの単語ごとに $IDF(q_i) \cdot A$ を計算し加算しています．

IDF 関数は，単語がレアなほど大きな数値になるような関数なので，検索クエリの単語ごとに A の結果に重みをつけています．

これは，どの文書でもでてくるような汎用的な単語より，めったに文書にでてこない珍しい単語で検索にマッチしたときのほうがそのスコアを大きくするということで，検索のロジックとして直感的に妥当そうです．

あとは，検索クエリの単語と文書とのマッチ度である A の中身を解読すれば式全体の意味がわかりそうです．

A の式を再掲すると

$$ A = \frac{f(q_i, D) \cdot (k_1 + 1)} {f(q_i, D) + k_1 \cdot (1 - b + b \cdot \frac{|D|}{avgdl})} $$

で f 関数は，単語の出現頻度で，k と b がパラメータでした． $\frac{|D|}{avgdl}$ の部分は，文書の単語数を全文書の平均単語数で割っているので，相対的に対象の文章が長いのか短いのかを見ている部分になります．この部分が 1 であれば，平均と同じ文書量であり，2 であれば，2倍の文書量，$\frac{1}{2}$であれば，半分の文書量ということになります．

ここで，仮に，文書量を平均値．つまり，$\frac{|D|}{avgdl} = 1$ と固定してみます．

そうすると，Aの式は

$$ A = \frac{f(q_i, D) \cdot (k_1 + 1)} {f(q_i, D) + k_1 \cdot (1 - b + b \cdot 1)} = \frac{f(q_i, D) \cdot (k_1 + 1)} {f(q_i, D) + k_1} $$

となります．

この式を fの値を変数として，$k =1$ をパラメータとしてプロットしてみると以下のようになります．

グラフから，f関数の値が増えれば増えるほど score も増やすけど，多くても k + 1 (つまり2) に漸近する程度になるという式なことがわかります．

ためしに，k = 3 などとしてみると，f の数が増えると，4 に漸近するようなグラフになります．

つまり，k の値は，スコアの上限値を決めるパラメータ となります．k の値が大きれば大きいほど，出現頻度である f 関数によって大きな差が生まれます．

さて，残りよくわかってないのが $ (1 - b + b \cdot \frac{|D|}{avgdl})$ の部分になります．

先程は，$\frac{|D|}{avgdl} = 1$ としましたが，ここではここの値もパラメータとして式を見ていきます．

$\frac{|D|}{avgdl} = 0.5$ つまり，文書量が平均の半分のときは以下のようなグラフになります．

つぎに $\frac{|D|}{avgdl} = 2$ つまり，文書量が平均の2倍のときは以下のようなグラフになります．

つまり，文書量が多いほど f関数の値によるスコアの上昇率が，緩やかになっています．

これは，クエリにヒットした文書のうち，文書量が少ないのにもかかわらずヒットした文書のほうがマッチ度合いが高いという意味になっています．文書量が多ければ含まれる単語の種類も増え検索クエリには必然的にマッチしやすくなるので文書量が少ないのにヒットした文書のほうを重視するというのは直感的にも正しそうです．

最後に残ったパラメータの b ですが，これは先程の 文書量に応じたペナルティの度合いを調整するためのパラメータ になります．

以下は，$\frac{|D|}{avgdl} = 2$ で固定し b の値を，0.5, 1, 2, 3 と動かしたときのグラフになります．

0.5: 紫
1: 赤
2: 青
3: 緑

b の値が大きければ大きいほど，文書量によるペナルティを受けスコアが上がりづらくなっていることがわかります．

もとの式を再掲します．

$$ score(D, Q) = \sum^{n}_{i=1} IDF (q_i) \cdot \frac{f(q_i, D) \cdot (k_1 + 1)} {f(q_i, D) + k_1 \cdot (1 - b + b \cdot \frac{|D|}{avgdl})} $$

これまで見てきたことをまとめると以下のようになります．

まとめ

今回は，BM25 の式について深堀りしました．一見複雑な式でしたが，ひとつずつ見ていくとパラメータによってうまく検索のマッチ度を考慮されていて，うまくできてるなぁと改めて思いました．

式から意図を読み解くと，どういう目的で使われるかしっかりわかるので数式を読み解くのはしっかり習慣にしていきたいと思います．

こんにちは、 @kz_morita です。今回は，検索システムにおいてインデックスを構築する際の辞書と用語についてまとめます．辞書と用語検索システムは，検索クエリに合致する文書を探すことが目的のシステムです．効率的に探すために，インデックスを事前に構築します．情報検索と転置インデックス上記の以前書いた記事にもありますが，インデックスには用語集である辞書と，その用語が出現する文書IDを記した，ポスティングリストがあります．文書の取得からこの辞書を構築するまでについて手順を説明します．辞書作成の手順辞書を作成するには，おおまかに以下のような手順が必要になります．文字列の取得語彙の決定語彙の正規化これらについてまとめます．文字列の取得検索システムの検索対象である文書ですが，データある以上もとのデータは byte 列になります．これを文字列として認識するためにはいくつかの懸念点があります．文字コード byte 列を文字列として認識するためにはその文書がどの文字コードで書かれているかということを知る必要があります．文字コード判別の手段として以下のようなものがあります．機械学習分類ヒューリスティックユーザー選択文書メタデータ多くは，下３つが使われているようです．ちなみに文書メタデータは，HTML の meta 属性のようなものと考えると良さそうです．ファイルタイプファイルのタイプにより特別な復号化が必要な場合があります． zip docx xml PDF たとえば，zip であれば解凍する必要がありますし，xml などでも，& など特別なエンコードをもとに戻したりする必要があります．言語アラビア語など文書の読む方向が違うような言語についても，必要があれば考慮する必要があります．語彙の決定文字列が取得できたら，そこから語彙を決定します．語彙を決定するために文字列から Token 列を得る必要があります． Token 化は文書の言語に依存するため，分類器などを用いて言語を推定します．たとえば，英語などは単語がスペースで区切られているため分割は比較的簡単ですが，日本語などでは区切られてないため形態素解析などで語分割を行います．とはいえ，英語などでも，アポストロフィの扱いなど考えなければならない点があります． Token 列が取得できたら，語彙として使用しないワードをストップワードとして登録して辞書から除外することがあります．たとえば，日本語の助詞などをストップワードに登録することが多いです．ストップワードをつくることのメリットしては，助詞などはとても頻度が多いため辞書とポスティングりすとの個数を大幅に減らせることにあります．ただし，歌のタイトルや，格言など，ストップワードが大きく影響をうけるような分野もあるため，Web検索などでは使用されない傾向にあるそうです．その代わりとして，言語統計などを用いて，頻出語をどのように扱い削減するかに焦点が当てられています．語彙の正規化語彙が決定したら，正規化を行います．表記が異なっていても，等価として扱いたいものを一つに正規化をします．たとえば，USA と U.

BM25 の式を読み解く

BM25 とは

各種変数の意味

式の理解

まとめ

関連記事