狠狠撸
Submit Search
Tokyor23
?
17 likes
?
4,757 views
D
Daisuke Ichikawa
Follow
1 of 53
Download now
Downloaded 51 times
More Related Content
Tokyor23
1.
最近、混合効果モデ ルに興味をもった私 がとりいそぎやった こと
@dichika
2.
みなさん こんにちは
3.
谁や
4.
俺や ?? @dichika ?? Tokyo.Rで受付嬢やってます ??
I? Rシャツあります –? ありがとう@doryokujin ?? Tokyo.Lang.Rで見習いやってます
5.
Tokyo.Lang.R? ?? いままで出世するための道具としてしかみ
ていなかったRとの関係をもう一度見直す ための勉強会です。 ?? Rを少し深いところから理解できるので、 エラーが出ても優しい気持ちで対応でき るようになれます。 ?? RはCとLispの合いの子らしいので気が ついたらLispにも詳しくなれます。
6.
主催はこの人 @tyatsuta
7.
次回は6月2日 TokyoLangR
検索
8.
さて
9.
こんな话がありました
サイバーエージェントを支える技術者たち http://gihyo.jp/dev/serial/01/cyberagent/0031
10.
「たとえばPatriotで集計した値を用い,アメー バ全体でDAU(Daily Active User)が高い 日のモデル化を行っています。これで良好なモデ ルができたということは,DAUが上昇する特徴 をうまく説明できたということになり,何らかの 施策を講じる際に参考にできます。このモデル化 は一般化線形混合モデル(※2)などを用いて行 い,パラメータの推定にはMCMC(Markov chain
Monte Carlo methods:※3)を用 いることもあります。R言語はこうした統計解析 モデルやアルゴリズムを使った解析を,少なくと も道具に困ることなく手軽に行えることから重宝 しています」(和田氏)
11.
?
12.
「たとえばPatriotで集計した値を用い,アメー バ全体でDAU(Daily Active User)が高い 日のモデル化を行っています。これで良好なモデ ルができたということは,DAUが上昇する特徴 をうまく説明できたということになり,何らかの 施策を講じる際に参考にできます。このモデル化 は一般化線形混合モデル(※2)などを用いて行 い,パラメータの推定にはMCMC(Markov chain
Monte Carlo methods:※3)を用 いることもあります。R言語はこうした統計解析 モデルやアルゴリズムを使った解析を,少なくと も道具に困ることなく手軽に行えることから重宝 しています」(和田氏)
13.
気になる (2012/4/24)
14.
でもしばらく放置 (~2012/5/19)
15.
本が出た
16.
通称?久保本/緑本
17.
その目次 1.? データを理解するために統計モデルを作る 2.? 確率分布と統計モデルの最尤推定 3.?
一般化線形モデル (GLM)ーポアソン回帰ー 4.? GLMのモデル選択ーAIC とモデルの予測の良さー 5.? GLMの尤度比検定と検定の非対称性 6.? GLMの応用範囲をひろげるーロジスティック回帰などー 7.? 一般化線形混合モデル (GLMM)ー個体差のモデリングー 8.? マルコフ連鎖モンテカルロ (MCMC) 法とベイズ統計モデル 9.? GLM のベイズモデル化と事後分布の推定 10.?階層ベイズモデルーGLMM のベイズモデル化ー 11.?空間構造のある階層ベイズモデル
18.
!
19.
キタコレ 1.? データを理解するために統計モデルを作る 2.? 確率分布と統計モデルの最尤推定 3.?
一般化線形モデル (GLM)ーポアソン回帰ー 4.? GLMのモデル選択ーAIC とモデルの予測の良さー 5.? GLMの尤度比検定と検定の非対称性 6.? GLMの応用範囲をひろげるーロジスティック回帰などー 7.? 一般化線形混合モデル (GLMM)ー個体差のモデリングー 8.? マルコフ連鎖モンテカルロ (MCMC) 法とベイズ統計モデル 9.? GLM のベイズモデル化と事後分布の推定 10.?階層ベイズモデルーGLMM のベイズモデル化ー 11.?空間構造のある階層ベイズモデル
20.
勉强するしかない
21.
ということで この後の私の試行錯誤が 現場でRを使ってなにかをする 際の参考になれば幸いです
22.
やっと本題です 1.?GLMMの概要をつかむ 2.?Rのパッケージを探して試す 3.?TokyoRで発表する 4.?仕事で本格的に使う
23.
GLMMの概要をつかむ ?? とりいそぎ緑本を読む –?
良本 –? GLMの導入から階層ベイズまで ?? 名前が分野により異なるらしい –? 統計学ではよくあること ?? マルチレベルモデル ?? 階層モデル ?? 混合効果モデル ?? 調べる際に役立つ
24.
GLMMの概要をつかむ ?? 基本はGLM –?
GLMについては後述 –? 一般化线形モデル入门おすすめです ?? GLMにおいて、2つの効果が混合してい ると考える –? 固定効果+変量効果 –? 普通のGLMは固定効果のみ –? 変量効果を加えてモデルの表現力を上げる
25.
一般化线形モデル入门
26.
ざっくり GLM
27.
使うデータ ?? lme4パッケージのsleepstudyデータ –?
睡眠時間を3時間に制限 –? 刺激に対する反応時間との関係をみる
28.
こういう光が见えたら
29.
ボタンを押す
30.
そんなデータに
450 400 350 Reaction 300 250 200 0 2 4 6 8 Days
31.
こんな感じで线を引けるモデルを作るのが骋尝惭
450 400 350 Reaction 300 250 200 0 2 4 6 8 Days
32.
でも本当はこんなデータ
450 Subject 308 309 400 310 330 331 332 350 333 334 Reaction 335 337 349 300 350 351 352 369 250 370 371 372 200 0 2 4 6 8 Days
33.
个人差ありそう(倾きと切片)
450 400 350 Reaction 300 250 200 0 2 4 6 8 Days
34.
変量効果を加えて表现力アップ
450 450 400 400 350 350 Reaction Reaction 300 300 250 250 200 200 0 2 4 6 8 0 2 4 6 8 Days Days 傾きと切片にそれぞれ変量効果を加える
35.
結局、変量効果とは ?? 変量効果って –?
項目としては採れていない隠れた差(ただし その差には無限水準の母集団が仮定される) ?? 個人差 ?? 施設間差 –? なお、何を変量効果として何を固定効果とす るかには色々議論があるらしい
36.
どうやって傾きと係数を求める ?? 最尤法を使う –?
大体どの教科書にも載ってる –? でも求める傾き?係数が多いと無理 –? 最尤法の説明は省きます ?? だからMCMC+ベイズ推定する –? これも省きますごめんなさい –? 過去の勉強会資料をご覧ください ?? ATNDにリンクがあります –? マルコフ連鎖モンテカルロ入門(@teramonagi) –? 近似ベイズ計算でカジュアルなベイズ推定 (@kos59125)
37.
もくじ 1.?混合効果モデルの概要をつかむ 2.?Rのパッケージを探して試す 3.?TokyoRで発表する 4.?仕事で本格的に使う
38.
Rのパッケージを探して試す ?? ググる –?
緑本著者のページへ –? GLMM + 日本語 ?? CRAN Task Viewで探す –? Bayesian ?? R言语逆引きハンドブックで探す –? MCMC:P469~ ?? Rパッケージガイドブックで探す –? MCMC:P156~
39.
CRAN Task View
40.
R言语逆引きハンドブック
41.
搁パッケージガイドブック
42.
とりあえずMCMCglmmに ?? 候補としては –?
MCMCglmmパッケージ –? lme4パッケージ –? R2WinBUGS (+WinBUGS) ?? 緑本はWinBUGS –? BUGSコードを書く必要があるのでちょっと めんどい ?? MCMCglmmがお手軽っぽいので先ほ どのデータを適用してみる
43.
コードはこんな感じ library(lme4) data(sleepstudy) library(MCMCglmm) # 変量効果なし res1 <-
MCMCglmm(Reaction Days, data = sleepstudy) #変量効果あり res2 <- MCMCglmm(Reaction Days, random = us (Days):Subject + Subject, data = sleepstudy) #結果確認 summary(res1) summary(res2)
44.
結果(1つ目のモデル) > summary(res1) Iterations =
3001:12991 Thinning interval = 10 Sample size = 1000 DIC: 1906.268 R-structure: units post.mean l-95% CI u-95% CI eff.samp units 2301 1866 2759 1000 Location effects: Reaction Days post.mean l-95% CI u-95% CI eff.samp pMCMC (Intercept) 251.350 239.694 265.033 1000 <0.001 *** Days 10.519 8.051 12.682 1000 <0.001 *** --- Signif. codes: 0 *** 0.001 ** 0.01 * 0.05 . 0.1 1
45.
結果(2つ目のモデル) > summary(res2) Iterations =
3001:12991 Thinning interval = 10 Sample size = 1000 DIC: 1743.6 G-structure: us(Days):Subject post.mean l-95% CI u-95% CI eff.samp Days:Days.Subject 60.01 24.85 104.5 783.2 R-structure: units post.mean l-95% CI u-95% CI eff.samp units 851.2 674.5 1038 1288 Location effects: Reaction Days post.mean l-95% CI u-95% CI eff.samp pMCMC (Intercept) 251.487 243.789 259.436 1000 <0.001 *** Days 10.347 6.462 14.783 1000 <0.001 *** --- Signif. codes: 0 *** 0.001 ** 0.01 * 0.05 . 0.1 1
46.
色々確認する ?? 結果指標 –?
統計学の本と行ったり来たり ?? サンプルのデータ構造 –? 自分が持っているデータに適用する場合に参 考にする –? データ操作については、Rデータ自由自在や R逆引きハンドブックがおすすめ ?? パラメータ –? 最低限指定するべきパラメータの確認
47.
Rデータ自由自在
48.
もくじ 1.?混合効果モデルの概要をつかむ 2.?Rのパッケージを探して試す 3.?TokyoRで発表する 4.?仕事で本格的に使う
49.
TokyoRで発表する ?? 統計の世界にはたくさん職人がいる –?
たとえば重回帰職人 ?? 参考:重回帰職人の朝は早い(第2回Japan.R) –? ATNDの過去の勉強会資料からご覧ください –? 職人に聞くのが手っ取り早い ?? ありがちな落とし穴とか ?? 皆さんもなにか勉強したら主催の @yokkunsに声をかけて発表するとい いですよ
50.
もくじ 1.?混合効果モデルの概要をつかむ 2.?Rのパッケージを探して試す 3.?TokyoRで発表する 4.?仕事で本格的に使う
51.
仕事で本格的に使う ?? 実は少し使ってみているけど、色々うまく
いってない –? うまくいってない原因が ?? 自分の知識不足にあるのか ?? 手法のミスマッチにあるのか ?? パッケージのバグにあるのか –? 確認するために緑本をまた読んでいる –? また今度実例を交えてお悩み相談します ?? 今後のご活躍にご期待ください
52.
ということでまとめ ?? GLMMには名前が色々ある ?? パラメータはMCMCで推定する ??
RのパッケージはMCMCglmmがお手 軽に使える ?? 俺たちの戦いはまだ始まったばかりだ ?? データ解析のための統計モデリング入門 おすすめです –? 勉強会やりたい人がいたら一緒にやりましょう
53.
enjoy!!!
Download