はてブのホスト名ランキング

はてなブックマークのエクスポート機能del.ciou.usと組み合わせていまいちウマく使えんかったので、いいかげんなスクリプトを勢いで作ってうさをはらしてみる。

とりあえず、タグの集計とかしてみたんだけど、それはなんか普通なので自分がブックマークしてるサイトのホスト名を集計してみた。上位5位の結果が以下。

  1. d.hatena.ne.jp: 321
  2. blog.livedoor.jp: 143
  3. subtech.g.hatena.ne.jp: 42
  4. www.itmedia.co.jp: 30
  5. labs.cybozu.co.jp: 30

はてな好きだなうち。こんだけはてなダイアリーのブックマークがあるので、ID別の集計もしてみたけど、あんまりおもしろくないというか平凡だった。アルファクリッパーへの道は遠いな。

とりあえずいろいろと集計に使ったコードを貼っとく。

#!/opt/local/bin/perl
use warnings;
use strict;

use URI;
use XML::Atom::Feed;
use XML::Atom::Entry;

my ($feed_file) = @ARGV;

open my $fh, '<', $feed_file;
my $feed = XML::Atom::Feed->new($fh);
close $fh;

my %count;
for my $entry ($feed->entries) {
    # $entryからなにかしら情報をとりだす。
    my $uri  = URI->new($entry->link->href);
    my $key = $uri->host;

    # 集計
    $count{$key}++;
}

# 結果表示
my @keys = sort {$count{$b} <=> $count{$a}} keys %count;
for my $key (@keys) {
    print "$key: $count{$key}\n";
}