日記
blogmapの巡回がはてなダイアリーに偏っている? (01:14)Edit

blogmapの「『『ユリイカ』2005年4月号特集*ブログ作法』(青土社)のネットでの評判」が?Dだらけだったという件について』のコメント欄のやりとりあたりへの反応。

blogmapは、各blogサイトの更新時刻情報を取得し、それを元に巡回をしています。はてなダイアリー上にあるサイトの更新時刻情報は、

からかなり確実に取れるんですが、それ以外のサイトに関しては、ping.bloggers.jpとかbulkfeedsとかの公開pingサーバー経由で更新情報を取得しているんで、それらにpingを飛ばしていないサイトは巡回対象から外れます。

blogmap自身でも公開pingサーバー(http://1470.net/api/ping)を用意しているんで、ここにpingを飛ばしてもらえると一番確実に巡回対象になります。

ということで、blogmapの情報ソースにはてなダイアリーの情報がやたらと多いのは、巡回のきっかけになる更新時刻情報の精度が高いから、というのが第一の理由でしょう。

あと、最近はてなダイアリーはRSSのdescriptionに含まれる情報量を増やせるようにしました。また、もともと日記系ツールということで、1エントリー(<h3>タグ間)が短くなりがちな分、他のblogツールと比べるとdescriptionの中に本文中の主要な要素(ISBNとかURLとか)が含まれやすくできています。

一方、通常の(MT系みたいな)blogサイトだと、1エントリーは長文になりがちで、その冒頭をdescriptionとして取り出した場合に、blogmapの解析対象要素がそこに含まれないという場合が出てきます。

たとえば、「絵文録ことのは」がblogmapのユリイカに言及したサイトとして表示されない=blogmapで巡回されていないという話が出てますけど、これは巡回されていないんじゃなくて、絵文録のRSSの該当エントリーのdescriptionにユリイカのISBNコードが含まれていないんで解析できなかった、というのが正解です。

blogmapは1470.netに移転したタイミングで、HTMLではなくRSSのdescriptionもしくはcontent:encodedのみを解析するようになったんで、本文中でふれている話題でも、RSSに載っていなければなかったものと見なされます。旧バージョンではHTMLを直接解析していたんで、本文中に書かれていればすべて解析対象になったんですけど。

ちなみにblogmapが2005/3/1以降に巡回した(ユニーク)サイト数は324250サイトで、そのうちはてなダイアリーのサイトは49671サイトでした。だいたい1/6くらいなんで、割合として結構多い方であることも確かですね。

Published At2005-03-31 00:00Updated At2005-03-31 00:00