Home

日記
ランキングRSSにcontent:encodedを追加 (08:41)Edit

ランキングRSSのdescriptionの代わりにcontent:encodedを追加し、従来よりもちょっと詳しい内容を埋め込むようにしました。あと、ついでにtrackback:pingも一応入れておいたけど、これに対応しているリーダーってあるのかな?

Published At2004-12-16 00:00Updated At2004-12-16 00:00

日記
巡回ロジックについて (09:32)Edit

blogmapの巡回方法は、

  • 公開されているアンテナ(LIRS)やRSS配信サイトから定期的に、さまざまなサイトの更新時刻情報を取得する
  • blogmap weblogUpdates.pingサーバー(http://1470.net/api/ping)にpingが送られたサイトはリアルタイムで更新時刻を変更する
  • 更新されたサイトが、
    • 未登録サイトの場合は、RSS AutoDiscoveryを試み、RSSが見つかった場合はそれを情報収集先URLとして登録する
    • 既登録サイトの場合は、RSSのURLが登録されていれば次回巡回時にRSSを取得し、descriptionもしくはcontent:encodedに含まれるURL、ASIN情報を解析する

となっています。現在更新時刻情報を取得しているサイトは、

です(要は記事単位ではなく、サイト単位での更新時刻が取得できるところ。記事単位の更新情報からもデータを集めることは可能なんだけど、いろいろ問題がありそうなんでやめた)。あと、上記から更新時刻情報を取得できていないサイトのうち、私が個人的にチェックしているサイトは自前で適当に更新チェックをかけたりしていますけど、これは将来的に内蔵のアンテナ機能に置き換える予定です。

というわけですので、blogmapに確実に情報を収集される方法としては、

  • RSSを配信し、できるだけ多くのURL、ASIN情報をRSSに含める
  • RSS autodiscoveryに対応する
  • 更新情報取得先アンテナ、pingサーバーにpingを送る(更新情報取得タイミングによっては、たまにデータ収集対象から漏れてしまう場合もある)。あるいはblogmapのpingサーバーにpingを送る(こっちの方が確実)

としておくといいかと思います。RSS autodiscoveryに対応していないけれども、RSSを配信しているという場合は、ツッコミかメールでRSSのURLを教えていただければ、手動で登録します。逆に現在情報収集先に登録されているが、データ収集をされたくない場合も、申し訳ありませんがメールかツッコミでサイトのURLを教えてください。巡回対象から外します。

Published At2004-12-16 00:00Updated At2004-12-16 00:00

日記
サイト情報を追加 (15:27)Edit

「サイト情報」ページを追加しました。ちなみにうちの場合は、

なんて感じになります。現状では、

  • 他サイトからリンクされている記事一覧
  • そのサイトで今まで紹介したメディア一覧

を表示しています。自分のサイトの情報を見てみたい場合は、SEARCHから自サイトのURLで検索し、[サイト情報]をクリックしてみてください。

なんかこの機能をつけたら、ずいぶん本来の目的であったblogmap(blogサイト関係図)っぽい感じになったなー。ってあたりで、そろそろサーバーの負荷的に限界が見えてきたかも。まだつけたい機能はたくさんあるんだけどなー。

Published At2004-12-16 00:00Updated At2004-12-16 00:00

日記
今日のREFERER SPAM (17:04)Edit

ちょっとたちが悪いなー。いつもの絨毯爆撃系なんだけど、1日に3回もIPアドレスを変えてやってきているし、しかもIPアドレスも80.58.46.235 80.58.34.237 80.55.195.214と最初のオクテットしかあってない。プロバイダもひとつじゃないみたいだし。

しょうがないんで、80.で丸ごとアクセス拒否することにした。けど、どうやらこのSPAMスクリプトはHEADリクエストしか使わないみたいなんで、ひとまず、

<Limit HEAD>
deny from 80.
</Limit>

ってことで。なんかまずい人がいたら言ってください。

Published At2004-12-16 00:00Updated At2004-12-16 00:00

日記
(19:24)Edit

西太后は民主主義の英雄だったというすごいストーリーを骨格に、清朝末期の中国を、

  • 貧乏な糞拾い出身の少年宦官
  • 不良少年出身の英才官僚
  • 西太后を始めとした、滅びつつある清朝政府首脳陣
  • 各国中国特派員たち

というさまざまな視点から描いた大作。西太后関連の話があまりにもトンデモすぎて、そこだけがいまいちむずがゆかったけど、後は相変わらずの浅田次郎節で面白かった。

特に最後ぐだぐだになりつつあったところで、主人公が見得を切るところがなんかやたらと格好良かった。なんかもう「チャー!」って感じ(意味不明)。

ところでこの辺の歴史的事実ってほとんど覚えてないから、どう見てもトンデモ度が高いこの小説の話が、俺の中で史実になってしまいそうな予感。

Published At2004-12-16 00:00Updated At2004-12-16 00:00

日記
引数にURLを使った情報ページへのリンク (18:19)Edit

URL情報およびサイト情報ページのURLは、blogmapが内部で割り振った数値IDを使って、

となっていますが、これを、

という表現でもアクセスできるようにしました。

たとえばうちのサイトならば、

なんて感じになります。ちなみにurlパラメータ文字列は、上記一番下の例のようにURLエンコードされている方が確実です。

もしも登録されていないURLが渡された場合は、検索ページにリダイレクトされます。

Published At2004-12-17 00:00Updated At2004-12-17 00:00

日記
忘年会 (20:25)Edit

image 焼酎はまわりが早い。

Published At2004-12-17 00:00Updated At2004-12-17 00:00

日記
サーバー止めてます (12:54)Edit

すみません。ちょっと実験君をしていたら大がかりになりすぎちゃったんで、急遽サーバーを止めちゃってます。1時間くらいしたら復帰させると思いますので、それまでアクセスした方ごめんなさい。

Published At2004-12-20 00:00Updated At2004-12-20 00:00

日記
復帰しました (16:09)Edit

一応動いてるけど、まだ実験は継続中。ちなみにどんな実験をしているのかというと、「はてなCTOの伊藤直也氏が語る「はてな開発の裏側」の、

はてな検索では、はてなダイアリーのデータが入力されている検索用のデータベースをメモリ上に用意、さらに検索用のレプリケーションDBを用意することで、はてなダイアリーのパフォーマンスが下がらないよう対策を施している。

を読んで、検索用のレプリケーションサーバーを作ってみた。といっても、マシンは1台しかないんで、同一マシン上にMySQLサーバーをもう1個動かしてレプリケーションしつつ、スレーブ側は検索専用に使うという方法。

はてなの場合は、「別マシン上でメモリを潤沢に使った専用検索サーバー」だからこそパフォーマンスが出ているんだろうし、それに対してここの場合、同一マシン上で複数サーバーを立ち上げたのではマシンリソースが分散されてしまうから意味がないかもしれないけど、各サーバーの設定(主にメモリ使用量)によっては、見かけのパフォーマンスが向上するんじゃないかと思って。lockが分散できるというメリットも大きそうだし。

それに、いったんこうやって同一マシン上でスレーブサーバーを動かしてしまえば、後々別マシン上にレプリケーションサーバーを構築するとき、スレーブを新しいスレーブサーバーのマスターとしてload data from masterすれば、メインのサーバーはread lockなしで簡単に初期導入できそうだ。

とかいいつつ、単にMySQLのレプリケーションを試してみたかったってのが一番大きな理由だったりするんだけど。

Published At2004-12-20 00:00Updated At2004-12-20 00:00

日記
うがー、また風邪だ (01:22)Edit

今度の風邪は下痢系らしいですよ。というか、また下の子、上の子、私と順番にうつってきていますよ。昨日休んだんだけど、全然治る気配がないなー。

Published At2004-12-22 00:00Updated At2004-12-22 00:00