日記
自分の見たWebページを全文検索する 2 (13:51)Edit

昨日「自分の見たWebページを全文検索するhttp://mylog.ishinao.net/id/1242)」で、Estraierを使ってIEキャッシュを全文検索するってネタを書いたけど、実際のところ、私自身は似たような用途のための別のシステムをすでに持っている。ってのは、実はblogmapのNews検索とクリッピングサービスのこと。

blogmapクリッピングサービスでクリッピングされたURLは、自動的にblogmapのNews検索のインデクシング対象に追加される。blogmapのNews検索は、Webで話題になっている(blogmapで複数ポイントを集めた)URL+クリッピングサービスで手動クリップされたURLに対して全文検索を行うようにしてある。

つまり実際のところ、blogmapのニュース検索ってのは俺が興味を持った範囲に特化したWeb系ドキュメント検索ツールであり、クリッピングサービスってのはそこへ検索対象ドキュメントを追加するためのインターフェースだったりするわけだ。

というわけなんで、利用者が少ない(割にトラブルが多い)クリッピングサービスと検索サービスをがんばって稼働させ続けているのは、実はこのシステムってのは、限りなく自分用の検索ツールを一般向けのふりをして公開しているから、だったりする。

ただ、こういうやり方だとサーバーを持っている人しか実現できないけれども、この間のIEキャッシュを使った全文検索のアプローチと組み合わせるともっと便利なシステムが作れそうだ。

基本的には、ローカルディスクに興味をもったWebドキュメントをクリッピング(紙2001でいうところの「ページ全体を紙に取り込む」)していく。インターフェースとしては、blogmapクリッピングサービスと同様に、右クリックメニュー拡張からクリッピングするパターンが一つ。あと、できればブラウザに「録画」ボタンを組み込んで、録画ボタンがオンの間に閲覧された履歴はすべて自動的にクリッピングされる仕組みを持つと便利そう。

ただ、クリッピング処理の実装をリアルタイムにHTTP GETするようにしてしまうと、たぶん処理が重くて使うのがたるくなりそうなんで、非同期にIEキャッシュからコピーする方針にする。具体的には、リアルタイムではURL文字列だけを記録しておき、システムIdle時にIEキャッシュからURLから得られるキャッシュファイルをコピーするイメージ。

クリッピングされたWebドキュメントは、指定されたディレクトリ以下にHTML形式で保存されていく。あとは、適当なタイミングで検索インデックスを更新すればいい。これもIdle時に更新されたドキュメント数とか更新間隔とかをチェックして、非同期で処理すればいいだろう。検索処理自体は、Webインターフェースを使ってもいいし、専用のツールごしに(Estraierを使うならばestxview用のフロントエンドツールを作って)行ってもいい。

こういうツールってちょっとまじめにほしいかもと思って、Sleipnirのプラグインとして録画ツールを作れないかと調べてみたんだけど、Sleipnirのプラグイン関連の情報って少ないなー。IEのツールバー拡張だったら作れそうだけど、素のIEなんて仕事でしか使わなしなー。自分でタブブラウザを作るのは今更面倒くさいし。Sleipnirとかが標準で録画機能を組み込んでくれないかなー。

Published At2004-06-18 00:00Updated At2004-06-18 00:00