日記
クリッピングサイト度 (08:21)Edit

リンクと非リンクの割合」を読んで、試しにblogmapにそれっぽいものを付けてみた。blogmapの詳細ページ「この話題を取り上げたサイト」で「◆」が頭に着いているところは、クリッピングサイトである可能性が高いかも、ってカンジっていうかー。

ロジックとしては、ドキュメントサイズとリンク数と「ドキュメントサイズ/リンク数」という3つを巡回時に記録しておき、それらから適当にそれっぽいものを抽出している。今のところ、

$docsize > 20000 && $linkcount > 100 && $docperlink < 500

とかにしているんだったかな。しばらく様子を見て適当に条件はいじるかも。あと、しばらくはキャッシュが効いているんで、判別結果が表示されない詳細ページも結構あるけど、まあ1、2日経てば一通り表示されるようになるかな。

Published At2004-10-23 00:00Updated At2004-10-23 00:00