日記
リンクの集積で構造をみる (20:02)Edit

結局、日誌』Tue. Nov. 26, 2002(http://www.ne.senshu-u.ac.jp/~yamasita/diary/200211.html#20021126)の、 >テキストサイト(でも、ウェブ日記でも)、単一のリンクだけだと全体像が把握しにくいという問題。 とか >1週間とか1ヶ月くらいのリンクの集積構造をみる。これは、blog mapの集計がヒント。 とか。

そのうちそういうことを自分でやりたいなーと思ってデータを集めていたんだけど、そんなことをやっている暇はいつになっても出来そうにない(というか、自分の中の優先順位が下がりすぎてしまった)んで、そういうことがやりたい人のためにblogmapで収集している生データを公開(http://ishinao.mine.nu/blogmap_rawdata.zip)。

zipファイル容量7Mバイト弱。展開すると35Mバイトくらいになります。中身は3個のCSVファイル。

  • 「blogmap_source.csv」が「データ収集元ページのurl」とその「sid」
  • 「blogmap_crawl.csv」が「データ収集日時(その日の最終回開始時間)」とその日を表す「sid」
  • 「blogmap.csv」が収集したデータ本体で、「収集日sid」、「リンクされていたurl」、「収集元ページsid」

となっています。

ただし適当なフィルタリング処理によって、自動的に「リンクされていたurl」から除去されてしまっているものや、データ収集タイミングの狭間に消えてしまったデータなんてのもあります。ご利用したい方は何かの参考にどうぞ。面白い結果が出たら是非Webで公開してください。

Published At2002-11-27 00:00Updated At2002-11-27 00:00