日記
URLの圧縮Edit

url_compressを見て、ふと気になって今まで1470.netのデータベースに保存されたURLの情報を調べてみた。1470.netのデータベース上では、

http://example.com/foo/bar?baz=hoge#fuga

みたいなURLを、

という形式に分解して保存している。これもURLに関する情報量を圧縮するのが目的ね。

で、今まで収集したURLごとに、上記に分解した要素がどの程度重複するのか見てみた。

  • URL総数: 12,922,530
  • protocol: 2 (httpとhttpsのみ収集対象としているので)
  • hostname: 580,683
  • path: 8,572,046
  • querystring: 2,352,518
  • fragment: 545,343
1470.netで収集対象としているURLがある程度偏っているというのはあるだろうけど、実際に使われているURLの特徴がなんとなく見える気がする。

Published At2010-10-21 15:52Updated At2010-10-21 15:52