日記
ジャンル抽出キーワード調整中 (14:22)Edit

newswatchも、ずいぶんジャンルごとのニュースの抽出精度が良くなってきたのではないでしょうか? でもまだ全然関係ないニュースが混ざったりするけど。

ちなみにこのジャンル抽出は単なる検索キーワードの設定なんで、newswatchの検索機能を使って完全に再現可能です。なんで、標準のジャンル抽出が気に入らない人は、自分でオリジナルの検索キーワード設定でもして使ってください。検索パターンをRSSリーダーとかに登録しておくと、いい感じのニュースソースとして使えるんじゃないかと思います。

オリジナルキーワード設定の作り方としては、

  • そのジャンルに特徴的なキーワードを[or]でつないで羅列する。たとえば「KDDI [or] au [or] ドコモ」とかで携帯電話会社関連のニュースを拾ったり。
  • 複合語などのキーワードは、ChaSenで複数語に分割されてしまい、うまく一つのキーワードとして認識されなかったりするので注意する。ちなみに「大リーグ」とかは「大」と「リーグ」に分割されちゃったよ。
  • 関係ないジャンルでも使われそうな語の使用はできるだけ避ける。特に同音同表記異義語とか、ありがちな人名とか。あとヘッダ・フッタ・サイドバーなんかに含まれがちなキーワードも誤爆しやすい。
  • どうしても他のジャンルで使われる語を使いたい場合は、[not]を使って他のジャンルで利用されるパターンを弾く。たとえば、「ドコモ」を検索するとドコモに関するさまざまなニュースが検索されるが、「ドコモ[not]株価」とかしておくとそのうち株価情報関係なんかが弾かれる。

まあそんな感じで。

Published At2005-01-11 00:00Updated At2005-01-11 00:00