仕事やらなんやらで、データの様子をみる場面はよくあるものの、データの調べ方や分析の方法を知らなくてなにかと困るので、なんとかしたい... という気持ちの高まりがあって、連休のちょっと前から確率統計の勉強をはじめた。
確率統計は大学の講義で一通りやったはずだけど、たいして活用できないまま数年がすぎてほぼ忘れてしまった。そういう調子なので、今となっては、適当な数の標本を用意してきて、標本比率を求めてみるけど、この値は母比率にどれくらい近いものなの? と言われても、まったく何も言うことはできないのであった。
ひとまず基本的な内容をザクッと学べそうな、まずは、やさしく学べる統計学を読んでみた。
- 作者: 石村園子
- 出版社/メーカー: 共立出版
- 発売日: 2006/06/30
- メディア: 単行本
- 購入: 1人 クリック: 12回
- この商品を含むブログ (13件) を見る
以前、微分積分の勉強してた ときもこのシリーズにお世話になった。やさしく学べるというタイトルどおり、難しいところには深入りしすぎない構成なので脱落せずに最後まで読める。例題や練習問題が充実していて、具体的な推定や検定をやってみることができる。
確率統計全般にいえそうだけど、連続的な確率分布の解析は主に微分積分でがんばる感じなので、入門本を読むにも軽く微分積分を復習しておくといいかもしれない(部分積分の公式暗記してない)。
やさしく学べる統計学の次は、キーポイント確率統計を読んでみた。
- 作者: 和達三樹,十河清
- 出版社/メーカー: 岩波書店
- 発売日: 1993/02/22
- メディア: 単行本
- 購入: 1人 クリック: 38回
- この商品を含むブログ (5件) を見る
自分が大学の確率統計の講義を受けてたときの教科書がこの本で、家にもともとあった。改めてページを開いてみたところ結構おもしろく読めた。
前述の、やさしく学べる統計学に比べると数学的な説明がもう少し丁寧で、難しいけど納得して読み進めることができる。拡散方程式と正規分布の関係についての話題など、発展的な話題が合間に語られるのもおもしろい。もともと確率統計のイメージがある人は、はじめにこの本を読んでも良さそう。
ここまでで、ざっくりとは基礎を学んだので、実際のデータを処理できるようにRを使った本にも手を出してみた。この本はまだ半分くらいしか読んでない。
- 作者: 山田剛史,杉澤武俊,村井潤一郎
- 出版社/メーカー: オーム社
- 発売日: 2008/01/25
- メディア: 単行本
- 購入: 64人 クリック: 782回
- この商品を含むブログ (68件) を見る
この本では、数学的な証明や法則の紹介は限定的になっているが、Rのスクリプトを使って中心極限定理が成り立つことを見せてくれたり、いろんな標本分布のグラフを見せながら説明してくれたりするので、これまで勉強したことを具体的なデータで確認できてためになってる。
ひとまず、今はここまで勉強したものの、実際のデータを使って何かするにはもうちょっと知識と練習が必要そう。もうちょっとがんばろう。
おまけ
そういう調子なので、今となっては、適当な数の標本を用意してきて、標本比率を求めてみるけど、この値は母比率にどれくらい近いものなの? と言われても、まったく何も言うことはできないのであった。
これ実際に気になってたのだけど、母比率の区間推定という問題でRを使うと関数一つ呼ぶだけでできる..(どういう理屈でこういう計算ができるかはキーポイント確率統計に書いてある)。
例えば、自分にとどくメールのスパム率が知りたいとする。大量にあるメールのうち、200通のメールをサンプルとして取り出して調べたら70通はスパムメールだったというときに、自分にとどくメール全体のスパム率はどれくらいだと考えられるかという問題を考えると以下のようにすると結果が得られる。
> binom.test(70,200) Exact binomial test data: 70 and 200 number of successes = 70, number of trials = 200, p-value = 2.653e-05 alternative hypothesis: true probability of success is not equal to 0.5 95 percent confidence interval: 0.2840707 0.4204506 sample estimates: probability of success 0.35
binom.test
は二項分布に基づく検定をしたりする関数(だと思う)。ついでにいろんな便利情報も出力される。今は検定はしたいわけではないのでp値とかは無視して、95 percent confidence interval
のとこだけをみると、だいたい0.23 ~ 0.42 くらいになっている。これは、スパムメールの割合は95%の確率で23% ~ 42%の範囲に入りますねという意味。0.18の範囲で揺らぎがあるので、もう少し揺らぎを少なくしたければ、標本数を増やせば良い、となる(標本数10倍にして標本比率を変えないようにすると、揺らぎの範囲は0.04くらいになる)。