未踏ユースでやってたブログ+コードな話題の関連で。未踏ユースのほうの成果は、今ちょっとごちゃごちゃしているのでまたの機会に。
みんな大好きGoogleCodeSearchですが、実はCVSやSubversionなどのソースコードリポジトリだけでなく、ブログに書かれているソースコードも検索できるんですね。しかも、それだけではなく、あるURL以下のソースコードの一覧の表示等もできるようです。これは、ちょっと面白い。
例えば、GoogleCodeSearchでは以下のようなページを表示することができます
さらに、このページのソースコードひとつひとつを見てみると、ちゃんと言語が判別されているんですよね。例えば、このページの最下部をみるとちゃんとPerlで書かれたコードであると判別されているのがわかります。
具体的にどうやって判別してるのかはわかんないんですが、Googleのことなので、HTMLのPRE内の文字列に言語ごとのパーサーを片っ端からかけるとかやってそうですね。逆に、言語が判定できたものをコードとして扱っているのかもしれません。
これを使うとなにかとおもしろいことができそうなんですが、残念ながら現在のところ簡単に利用できるようにはなっていないみたいです。というのは、たとえば、このページのソースコード一覧ページにアクセスするためには最低限以下のようなクエリを作る必要があります。
http://www.google.co.jp/codesearch?q=show:iI9ijRW02TM:LgJXbUoEevc
このqというクエリがどうやら何かのハッシュ値なのですが、これをどうやって計算するのかわからない以上、ブログのURLをもとにソースコードを取得するのはちょっと面倒ですね。
これがちゃんとAPIとして公開されると便利なんだけどなぁ。
追記
どうやら、GoogleCodeSearchのURLごとのページは定期的にURLが更新されてしまうようです。なので、現在うえに書いたURLにはアクセスできません。現在のところは、以下からアクセスできます。