日記
MicrosoftPrototypeCrawler (13:49)Edit

この間「検索に力を入れるMS――Overtureとの関係に影響? from ZDNet」で、

>でもマイクロソフトが下手に検索システム関連の開発を強化すると、インターネット上にさまざまな迷惑(主に規格違反系)を巻き起こしそうな気がするな。

と書いたことが早くも現実になりかかっている模様。この週末から目立ってやってくるようになった「MicrosoftPrototypeCrawler (please report obnoxious behavior to newbiecrawler@hotmail.com)」ってクローラーだけど、頻度はまだ許容範囲なんだけど、再帰的なURLの解決の仕方が腐っている。

というのは、うちのサイトには「./」というカレントディレクトリのインデックスファイルへのリンク表記を使っているページがあるんだけど、再帰処理をする際に「./」を削って最適化せずに、文字列完全一致でURLの同一判定をしているらしい。というわけで、たとえば「http://ishinao.net/」に「./」というリンク文字列があった場合、「http://ishinao.net/./」「http://ishinao.net/././」「http://ishinao.net/./././」「http://ishinao.net/././././」と延々とリンクをたどり続けてくれる。

しかも、うちのサイトはWikiLikeのようなキーワード検索リンクが山のようにあるのを、その形式で延々とつついてくれている模様。この状態がしばらく続くようだったら、完全拒否モードにするしかないかな。obnoxious behaviorをreportしようかなーと思っても、その宛先がhotmailアカウントのメールアドレスのみじゃー、とても実行する気になれないし。


一応補足しておくと、まだ「././」の2階層目をたどり始めた状態なんで、3階層目以降まで本当にそのまま再帰するのかは現時点では不明。2階層目までの挙動からの推測です。為念。


2003/04/26追記

前回は2階層目まで掘ったところでこなくなったんで、問題に気付いていったん処理を停止させたのかなーと思ったんだけど、昨日あたりからまたやってくるようになった。相対パスを使ったURLの解決が腐っている状態は相変わらず(まだ1階層目「/./***」を掘り始めた状態だけど)。UserAgent名はちょっと変わって、「MicrosoftPrototypeCrawler (How's my crawling? mailto:newbiecrawler@hotmail.com)」になった。あと「検索エンジンの裏側http://internet.watch.impress.co.jp/www/column/kensaku/0422.htm)」にちょっとだけこのクローラーの話が載っている。

Published At2003-04-21 00:00Updated At2003-04-21 00:00