狠狠撸

狠狠撸Share a Scribd company logo
いいからベイズ推定してみる
広島大学大学院教育学研究科
平川 真
第3回Hijiyama.R (2015.11.28)
おしながき
? ベイズ推定について
? ベイズ推定のやりかた
? 驳濒尘尘蝉迟补苍()で游んでみた
ベイズ推定について
推定法としてのベイズ
? 従来の推定法(最尤法、最小二乗法)
> パラメタが定数、データが確率変数と考える
? ベイズ推定
> パラメタが確率変数、データが定数と考える
> 手元のデータからパラメタを推測 (=不確実性が伴う) する、
という自然な発想
推定法としてのベイズ
http://norimune.net/708
推定法としてのベイズ
?(?|?) =
? ? ? ? ?(?)
?(?)
事後分布
尤度 事前分布
周辺尤度
あるデータのときの
θの分布
データを得る前の
θの分布
尤度ってなんだ
? あるデータを得たときに、分布のパラメタが特定の値である
ことがどれほど尤もらしいか
> 最尤法: 尤度が最も高い値をパラメタの推定値とする
http://norimune.net/2510
ベイズ推定のいいところ
? 事前分布を設定できる
? データが少なくても推定できる
? 解析的に解けない複雑なモデルでもいける
? パラメタを確率変数として考える
事前分布を設定できる
? いろんな立場がある
> 豊田(2015)の立場
“公的分析では無情報事前分布を使用し、
尤度への影響を最小限にすべきである (p. 69)”
? おそらく研究実践では無情報事前分布を使うことになる
? 最尤法と変わらないではないか
最尤推定量 = 尤度 * 一様分布
データが少なくても推定できる
とはいえ、
データはあった方が良い
パラメタを確率変数と考える
? 頻度主義の区間推定
> 標準誤差: 標本統計量 (≠パラメタ) のちらばり
> 95%信頼区間:「95%の95%CIが真値を含む」という意味
? ベイズ主義の区間推定
> 事後標準偏差: パラメタのちらばり
> 95%信用区間:「真値が含まれる確率が95%」という意味
ベイズ推定のやり方
rstanでt検定的な
サンプリングしたパラメタを利用
して生成量を定義
μ2-μ1>0である確率を求められる
rstanで回帰分析
2番目に簡単なrstanコード
http://qiita.com/hoxo_m/items/ad4ffb091aec535f3125
谤蝉迟补苍で混合分布
GLMM
? 一般化線形混合モデル
> Generalized Linear Mixed Modeling
> G: 正規分布以外の確率分布を扱える
> M: 固定効果だけでなく変量効果を組み込める
> 線形モデル(LM)を含んでいる
? ベイズ推定でGLMMできたらなぁ(お手軽に)
あった
SappoRo.R #5 (2015.11.14)
? 開発者による説明
> http://www.slideshare.net/simizu706/glmmstan-55104119
? youtubeでもみれる
> https://www.youtube.com/watch?v=Kd0pxFq9F6c
> 30分でスライド70枚越を疾走する動画
glmmstanパッケージ
? インストール方法
glmmstanの特徴
? stanコードを生成し、実行してくれる
> stanコードを自力で書かなくても分析できる
> stanコードをみることができるので、コードの書き方の勉
強もできる
? モデル式はglmer()と同じ文法
> glmmstan(y ~ x1+x2+(1|id), data=dat)
glmmstanの遊び方(開発者推奨)
? いろんなモデルをベイズ推定してみる
? 慣れたらstanコードを修正してみる
? ハマってきたらstanコードを自分で書いてみる
? 興奮してきたら新しい統計モデルを作ってみる
驳濒尘尘蝉迟补苍()で游んでみた
データの説明
? 間接的発話の理解傾向を測定する尺度(18項目)
> 状況についての簡単な説明文+発話
> 発話の字義的意味と間接的意味を呈示し、妥当だと思う解
釈を選択させる(2値)
分析したいこと
? 間接的意味を妥当だと思う程度を検討したい
> 妥当だと思う?思わないの2値変数
> 上限がある (n=18) ので二項分布を使ったモデリング
? 個人は確率θで間接的意味を妥当だと思う
> 反応数 ~ binomial(θ, n)
反応確率の推定
? 結果
間接的意味を妥当
だと判断した数
字義的意味を妥当
だと判断した数
データはこんな感じ→
←確率になおす
個人差を考えたい
? 確率θは個人によって異なるだろう(むしろそこが知りたい
> 反応数 ~ binomial (θi, n)
> θiも何らかの確率分布から発生する
? 階層ベイズ!
個人を変量効果として
モデルにいれる
個人差を考えたい
? stanコードをみてみる
個人差を考えたい
? モデルブロックを拡大
変量効果が
ないモデル→
分布をまぜまぜ
個人差を考えたい
? 結果
beta →
tau_sd1 →
けっこう大きい
ベータ二項分布
? 二項分布のθがベータ分布に従う分布
? 階層モデルと何が違う?
やってみる
うまくいってない。。
項目の違いを考えても構わんのだろう?
? 確率θは項目によっても異なるだろう
> 間接的意味がわかりやすい項目
> わかりにくい项目
? データを縦長の型にする
? 項目の変量効果もモデルにいれる
分布をまぜまぜ
項目の違いを考えても構わんのだろう?
項目の違いを考えても構わんのだろう?
? 結果
95%CIが広くなった
項目の違いを考えても構わんのだろう?
? 結果
础厂顿尺度との関连
? 間接的発話の理解における個人差
> 自閉スペクトラム症 (ASD: autism spectrum disorder)
> 定型発達者の中でも、理解が困難な人も
> 過剰に間接的な意味を読み取る人も
? ASD傾向が高い人は字義的解釈を妥当だと判断するだろう
础厂顿尺度との関连
stan_glmer()
さわりだけ
? rstanarmのインストール
? glmer()の文法
> 驳濒尘尘蝉迟补苍()とかわらない
使える分布
? stan_glmer()
? glmmstan()
擬似○○
過分散が生じたとき
こんな感じ
ちょっと結果がみにくい、かなぁ

More Related Content

いいからベイズ推定してみる