情報検索と転置インデックス
こんにちは、 @kz_morita です。
今回は,検索に使われる転置インデックスについてまとめます.
検索におけるインデックスとは 情報検索システムの目的は,ユーザーが入力したクエリに関連する文書を見つけることにありますが,文書が大量にある場合は全文検索では到底探しきれないためインデックス付けを行います.
インデックスをつける際は,どのような用語がどの文書に現れるかを知る必要があります.
そこで,文書と用語を行列で表す方法があります.具体的には以下のようなものになります.
文書を以下のようなものだと仮定します.
文書1: I have a pen. 文書2: This is a pen. 文書3: I am grad to see you. すると,出てくる単語は,I, have, a, pen, This, is, am, grad, to, see, you となります.これらの対応表を書くと以下のとおりです. (現れるところは 1 それ以外は 0)
I have a pen This is am grad to see you 文書1 1 1 1 1 0 0 0 0 0 0 0 文書2 0 0 1 1 1 1 0 0 0 0 0 文書3 1 0 0 0 0 0 1 1 1 1 1 上記を結合行列といいます.