はてなブックマークのエクスポート機能del.ciou.usと組み合わせていまいちウマく使えんかったので、いいかげんなスクリプトを勢いで作ってうさをはらしてみる。
とりあえず、タグの集計とかしてみたんだけど、それはなんか普通なので自分がブックマークしてるサイトのホスト名を集計してみた。上位5位の結果が以下。
- d.hatena.ne.jp: 321
- blog.livedoor.jp: 143
- subtech.g.hatena.ne.jp: 42
- www.itmedia.co.jp: 30
- labs.cybozu.co.jp: 30
はてな好きだなうち。こんだけはてなダイアリーのブックマークがあるので、ID別の集計もしてみたけど、あんまりおもしろくないというか平凡だった。アルファクリッパーへの道は遠いな。
とりあえずいろいろと集計に使ったコードを貼っとく。
#!/opt/local/bin/perl
use warnings;
use strict;
use URI;
use XML::Atom::Feed;
use XML::Atom::Entry;
my ($feed_file) = @ARGV;
open my $fh, '<', $feed_file;
my $feed = XML::Atom::Feed->new($fh);
close $fh;
my %count;
for my $entry ($feed->entries) {
# $entryからなにかしら情報をとりだす。
my $uri = URI->new($entry->link->href);
my $key = $uri->host;
# 集計
$count{$key}++;
}
# 結果表示
my @keys = sort {$count{$b} <=> $count{$a}} keys %count;
for my $key (@keys) {
print "$key: $count{$key}\n";
}