日記
HTMLからのキーワード自動抽出の精度を上げた (00:02)Edit

  • URLにページ内アンカーが含まれている場合は、そのアンカー部以降を評価するようにした
  • ChaSenで形態素解析したあと、名詞・未知語・記号要素の連続は複合語としてまとめて扱うようにした

ってだけなんだけど、前よりもだいぶいい感じで抽出できるようになった気がする。

Published At2005-02-23 00:00Updated At2005-02-23 00:00