【Python+MeCab】形態素解析を使ってファイル内テキストマイニング
Python+MeCabを使い、入力した任意のテキストとサーバー内にあるファイル(PDF)内テキストをマッチングさせて意味的に類似する文書抽出する装置を開発しました。
あらかじめサーバーにアップロードされたファイル(今回はPDFのみ)に対して、テキストBOXに入力されたテキストに意味的に近しい内容のファイルを(類似度が高い順番に)表示します。
対象ファイルをページ単位でマッチングするのが基本ですが、ページを分割して細かくマッチングすることも可能です。また、該当ファイルのどの部分が意味的に近いと判断したかをマーキングして閲覧することも可能です。
今回の仕様は、ファイルがアップロードされた時点では形態素解析は行わず(インデックスは生成せず)、毎回検索時にすべてのファイルの形態素解析を行うので多少のタイムラグが発生します。
キーワード検索とは違い、一連の文章内容でマッチングさせるので、インデックス化されていない大量のデジタル書籍、文献、カタログ等の中から意味的にマッチする書籍や情報を見つけることが可能になります。
今後はAIを使って画像を言語化し、マッチングするなどにも挑戦しようと思います。