日記
Googleニュースいいなー (14:22)Edit

今更だけどやっぱりGoogleニュースはいいなー。なんかもう一般ニュースチェックはRSSリーダーなんて使わずに、Googleニュースだけでおなかいっぱいだよ。blogmapを再構築するときには、Googleニュースの存在を前提に、それと補完するような方向性を探さないとな。

あと、そのうち作ろうと思っていた、同一内容のニュースをまとめる機能(Googleニュースがやっているような)もやっぱりあった方が便利だな。見だしレベルでやるならそんなに難しくないんだけど、本文レベルまで使って内容の同一チェックをかけるとなると、各サイトの記事HTMLの構造解析用データベースを作らなきゃいけなくなるんで、面倒くさくて手を出していなかった。

ふつうにやると、特徴的なパターンを探して、タイトル・本文部分を抽出する(メニューや広告を排除する)って感じになるんだけど、Googleはもしかしてそういうやり方ではなく、もっと一般的な解析ロジックとかで対応してたりするのかなー。そういうアプローチでうまく行くんだったら、チャレンジしてみたいところだけど。

一般ニュースサイト系は、HTMLが腐っているところが多いんで(見出しが<font size="4">とかだったりすることが多く、しかも揺らぎも多い)、解析用データベースを作っているとうんざりするんだよな。

Published At2004-09-03 00:00Updated At2004-09-03 00:00