日記
巡回ロジックについて (09:32)Edit

blogmapの巡回方法は、

  • 公開されているアンテナ(LIRS)やRSS配信サイトから定期的に、さまざまなサイトの更新時刻情報を取得する
  • blogmap weblogUpdates.pingサーバー(http://1470.net/api/ping)にpingが送られたサイトはリアルタイムで更新時刻を変更する
  • 更新されたサイトが、
    • 未登録サイトの場合は、RSS AutoDiscoveryを試み、RSSが見つかった場合はそれを情報収集先URLとして登録する
    • 既登録サイトの場合は、RSSのURLが登録されていれば次回巡回時にRSSを取得し、descriptionもしくはcontent:encodedに含まれるURL、ASIN情報を解析する

となっています。現在更新時刻情報を取得しているサイトは、

です(要は記事単位ではなく、サイト単位での更新時刻が取得できるところ。記事単位の更新情報からもデータを集めることは可能なんだけど、いろいろ問題がありそうなんでやめた)。あと、上記から更新時刻情報を取得できていないサイトのうち、私が個人的にチェックしているサイトは自前で適当に更新チェックをかけたりしていますけど、これは将来的に内蔵のアンテナ機能に置き換える予定です。

というわけですので、blogmapに確実に情報を収集される方法としては、

  • RSSを配信し、できるだけ多くのURL、ASIN情報をRSSに含める
  • RSS autodiscoveryに対応する
  • 更新情報取得先アンテナ、pingサーバーにpingを送る(更新情報取得タイミングによっては、たまにデータ収集対象から漏れてしまう場合もある)。あるいはblogmapのpingサーバーにpingを送る(こっちの方が確実)

としておくといいかと思います。RSS autodiscoveryに対応していないけれども、RSSを配信しているという場合は、ツッコミかメールでRSSのURLを教えていただければ、手動で登録します。逆に現在情報収集先に登録されているが、データ収集をされたくない場合も、申し訳ありませんがメールかツッコミでサイトのURLを教えてください。巡回対象から外します。

Published At2004-12-16 00:00Updated At2004-12-16 00:00