日記
形態素解析した結果の並びで怪しいところだけN-gramを使う (15:50)Edit

思いつきネタ。形態素解析した結果の要素の並びとして、いかにもミスヒット(分割)らしいパターンの周辺だけN-gramも併用すると、検索精度が上がったりしないだろうか。

ちょろっと試してみた限りでは、名詞(非人名)+名詞(人名)の並びはいかにも辞書に載っていない名詞のミス分割って感じになりそうだった。あとひらがなの連続単語とかの場合も、なにか特徴的なパターンがありそう。

形態素解析ロジックではうまく分割できないパターンを見つけ出すいい方法があれば、そこだけN-gramを併用することで、インデックスのサイズを抑えながら精度を高めることができそうな気がする。

Published At2005-02-24 00:00Updated At2005-02-24 00:00