【このシリーズについて】私は34歳です。データ分析を仕事にしたくて、ほとんど未知の領域であるにもかかわらず、この春(2014)思い切って転職しました。入れてくれた会社には感謝ですが、何も分からずほとんど貢献できていない現在、自分でも心苦しいし、何よりそのうち解雇されてしまいます。
というわけで、なんとか会社に食らいつくべく、仕事の後に、少しずつでも勉強することにしました。そして、勉強した内容を、ブログに記録していく事にしました。
したがって、このテクストは情報を世間に流そうとか、あるいは誰かの為に分かり易く解説してあげようとか、そういうタグイのものではなく(私にはそんな資格はありません!)、あくまで自分の学習を目的として書かれています。
『データ解析のための統計モデリング入門』
先日、「データ解析のための統計モデリング入門」勉強会に出席してきました。会に参加するのは3回目で、今回は第7章の一般化線形混合モデル(GLMM) がテーマでした。で、ぼくはだんだんと話についていけなくなってきました。
なので、もう一度、ざっくりと頭から復習してみたいと思いました。
そもそもこの本はどういう本かというと、ある観測データセットがあったときに、そのデータの発生確率が従う確率分布を推定してモデル化しましょう、という内容でした。「確率分布」がポイントなんだろうと思います。
*当てはめに用いられる代表的な確率分布は次の確率分布
- ポアソン分布
- 二項分布
- 正規分布
- ガンマ分布
- 一様分布
http://qiita.com/HirofumiYashima/items/69c08eba285cc278a5b5
http://www.slideshare.net/tetsuroito/20140222-tokyor-lt-r
*データに、「最も当てはまる」確率分布をどのように定めるか?
最尤推定法→ex) ポアソン分布は一つのパラメータ(λ)で分布の形状が決まる。ある λ のポアソン分布がデータの従う分布と仮定した時、「実際のデータの発生する確率」を求める。これは、データ達を、仮定の分布関数にそれぞれ代入して、全ての積をとればよい(=尤度)。→ この λ に依存する確率を尤度関数という。尤度が最大となるときの λ を求めれば、それが最尤推定値となる。
- 最尤推定値の求め方:尤度関数の対数をとり(対数尤度関数)、微分して、0 となるときの λ を求める。
- 解析的に求められないときは?→ 数値解析。ニュートン・ラプソン・アルゴリズムや MCMC 法がある。
以上は、ある観測データの分布を確率分布で表現する際の話だが、データの属性によって、属する分布が異なるケースがある。
例:体重のデータに対し、「性別」や「民族」など。それらの属性も含めてモデリングする場合は?→ データの分布に影響を与えると予測される因子を説明変数という。→ 説明変数を加えたモデルを、「一般化線形モデル(GLM) 」という。
*手順
- 説明変数に応じて分布(のパラメータ)が変わると考えるため、次のように定式化する。→ λi = exp (b1 + b2*xi) (なぜ指数? ポアソン回帰の場合はそれがよいらしい。正準リンク関数という)
- xi は yi に対応する説明変数。
- 上記式の右側の () 内を「線形予測子」、また関数をリンク関数という。
- 上記式に対して、対数尤度関数を導出し、b1 と b2 を求めれば良い。
疑問:どうやって?Rのglmを使うと一瞬で出るらしいけど、アルゴリズムはどうなっているのだろう(こういうのが直に分からないところが、数学的能力の低さか。。)
次回はこのあたりを探りつつ、さらに緑本を要約したいです。