狠狠撸

狠狠撸Share a Scribd company logo
第1章 ベイズ推論の考え方 Part 1
市東 亘
2021 年 8 月 22 日
1 概観
目 次
1 概観 1
2 確率の基礎 1
2.1 確率とは? . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1
2.2 頻度主義とベイズ主義 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1
2.3 同時確率と周辺確率 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2
2.4 条件確率 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4
3 確率的独立 4
4 ベイズ統計学入門 5
4.1 ベイズの定理 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
4.2 ベイズの定理の応用 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
4.3 事前確率と事後確率 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8
4.4 ベイズ更新 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9
2 確率の基礎
2.1 確率とは?
確率変数が離散値をとる場合の確率の定義
P(X) =
n(X)
n(?)
=
事象 X の頻度
全事象の頻度
母集団の場合の数を数えあげれば求まる.
2 枚のコイン同時投げの例
? x = { 表裏 }
1
? ? =
? P(X = { 表裏 }) =
2.2 頻度主義とベイズ主義
? 頻度主義(フィ
ッシャー,ネイマン)
– 標本から推定する場合,繰り返し事象を想定して頻度の割合を求める.
? ベイズ主義
– 観測されたデータから確率を求める.
– 繰り返し事象を想定しない.
– 経験主義的.
? ここではベイズ統計を使いながらデータに基づいて確率を計算する方法を学ぶ.
2.3 同時確率と周辺確率
いま仮に,西南学院大学の学生が 100 人だとしよう.このうち男子学生は 40 人,女子学生は 60
人いるとする.男子学生のうち,サークルに所属している学生は 30 人,女子学生では 20 人いる.
これを表にまとめると,以下のようになる.
サークル所属 サークル無所属
男 30 人 10 人 40 人
女 20 人 40 人 60 人
50 人 50 人 100 人
表 1: 人数表
100 人の学生の中から無作為に一人抽出した時,その学生が男である場合もあるし女である場合
もある.したがって,結果は不確実である.抽出した学生が男か女かを表す確率変数を X としよ
う.確率変数 X は男か女を表すため,2 つの値しかとらないことに注意しよう.例えば,男だっ
たら 0,女だったら 1 という具合である.特に数値は何でもよいので,ここではより一般的に,男
だったら x1 を女だったら x2 をとると定義しよう.
X =
{
x1, 男子学生の場合
x2, 女子学生の場合
確率変数 Y も同様に以下の様に定義する.
Y =
{
y1, サークル所属
y2, サークル無所属
西南学院大学 演習 II(2019 年) 2 担当 市東 亘
西南学院大学の学生から無作為に 1 人抽出した時,男であり (X = x1) かつサークルに所属
(Y = y1) している学生を抽出する確率を P(x1, y1) で表そう.同様に,X = xi, Y = yj の学生を
抽出する確率は P(xi, yj) で表すことにする.この確率 P(xi, yj) は,X と Y の事象が同時に生起
する確率であるから,同時確率と呼ばれる.
一方,抽出した学生が男か女かだけに興味がある場合には,X = x1 か X = x2 の確率だけ分か
ればよい.したがって,抽出した学生が男である確率は P(x1),女である確率は P(x2) で表そう.
同様に,サークルに所属しているかどうかという確率は,P(yi), (i = 1, 2) で表すことにする.
以上を表にまとめると以下のようになる.
サークル所属 サークル無所属
y1 y2
男 x1 P(x1, y1) P(x1, y2) P(x1)
女 x2 P(x2, y1) P(x2, y2) P(x2)
P(y1) P(y2) 1
表 2: 確率表
練習問題 1. 西南学院大学の人数構成から表 2 の各確率を求めて,表 3 を完成させよ.
サークル所属 サークル無所属
y1 y2
男 x1
女 x2
1
表 3: 確率表(練習問題)
さて,表 2 と表 3 を比較して見よう.サークル所属 (y1) の列を見てみよう.練習問題で完成さ
せた表 3 で,この列の確率を縦に足し会わせると,
P(x1, y1) + P(x2, y1) = P(y1)
が確認出来るだろうか.すなわち,先の練習問題の答えが正しければ,
3
10
+
1
5
=
1
2
になっているはずである.これが意味していることは何か?いま,サークルに所属している学生の
うち,男である確率と女である確率を足し合わせた.男女以外いないわけだから,もはや,性別に
不確実性はないことになる.したがって,足し会わせた確率は,単純にサークルに所属していると
いう確率 P(y1) になったのだ.
同様に,サークル無所属 y2 の列についても縦に足し合わせて,
P(x1, y2) + P(x2, y2) = P(y2)
が成立するか,表 3 で各自確認してみよう.
西南学院大学 演習 II(2019 年) 3 担当 市東 亘
次に,表を横に見てみよう.今度は,男 x1 の行の確率を横に足し合わせて,
P(x1, y1) + P(x1, y2) = P(x1)
が成立しているか各自確認してみよう.男性であり,かつ,サークルに所属している学生と無所属
の学生の人数を足し合わせれば,単純に男性の合計人数である.したがって,男性であり,かつ,
サークルに所属している学生と無所属の学生を抽出する確率を足し合わせれば,単純に男性を抽出
する確率になるのである.
このように,確率を表にすると,P(xi) や P(yj) は表の周囲 (margin) に位置する.したがって,
同時確率 P(xi, yj) に対し,P(xi) や P(yj) など単一事象のみが生起する確率を周辺確率 (marginal
probability) と呼ぶ.
以上をまとめると,離散値をとる確率変数 X と Y の同時確率 P(x, y) と周辺確率 P(x), P(y) に
は以下の関係が成立する.
∑
y
P(x, y) = P(x)
∑
x
P(x, y) = P(y)
∑
x
∑
y
P(x, y) = 1
2.4 条件確率
先ほどの西南学院大学の学生の例を再び用いる.西南学院大学の学生 100 人を N で表すことに
する.男性の数 40 人を Nx1
,サークルに入っている数 50 人を Ny1
で表そう.
西南学院大学の学生から無作為に 1 人抽出した時,男性である確率 P(x1) とサークルに入って
いる確率 P(y1) は,N,Nx1
,Ny1
を用いて以下のように求めることが出来る.
P(x1) =
Nx1
N
=
2
5
(1)
P(y1) =
Ny1
N
=
1
2
(2)
(1) 式は母集団 N 人の中から x1 を選出する確率であり,(2) 式は母集団 N 人の中から y1 を選出す
る確率である,
ここで,母集団全体の代わりに,サークルに入っている人だけを集めて,その部分集団の中から
ランダムに選ばれた人が男性である確率を求めるたいとしよう.Nx1y1
をサークルに所属しかつ男
性である人数とおけば,求める確率は
Nx1y1
Ny1
で求めることが出来る.分母と分子をそれぞれ N で割ると,
Nx1y1
Ny1
=
Nx1y1
/N
Ny1
/N
=
P(x1, y1)
P(y1)
(3)
となり,同時確率 P(x1, y1) と周辺確率 P(y1) で表すことが出来る.
いま,P(x1|y1) を事象 y1 の条件下で事象 x1 が起こる確率と定義する.y1 の条件下というのは,
y1 という事象が既に生じているということを前提としていうことである.上の例では,サークル
西南学院大学 演習 II(2019 年) 4 担当 市東 亘
に入っている y1 学生のみを集めて,それを前提として,その中から男性が選ばれる確率を求めた
ので,まさにこの確率が P(x1|y1) である.したがって,(3) 式より,
P(x1|y1) =
P(x1, y1)
P(y1)
が成立する.P(x1|y1) を条件確率と呼ぶ.上の式を変形した
P(x1, y1) = P(x1|y1)P(y1) (4)
もよく使われる.
3 確率的独立
通常,P(x1|y1) と P(x1) は等しくならない.これは,y1 が生起したかどうかの情報は,事象 x1
が生起するかどうかという予測に影響を与えることを意味する. つまり,事象 x1 は y1 のでかた
に依存しているのである.
一方,P(x1|y1) = P(x1) ならば,y1 に関する情報は,x1 の生起に対して何の推測も与えないこ
とになる.この場合,x1 は確率的に y1 に独立であるという.このとき,(4) 式は,
P(x1, y1) = P(x1|y1)P(y1)
= P(x1)P(y1)
となり,同時確率は,単に 2 つの事象の生起確率の積となる.
練習問題 2. 西南の例で「サークル所属」と「性別」は独立か?
サークル所属 サークル無所属
男 30 人(0.3) 10 人(0.1) 40 人(0.4)
女 20 人(0.2) 40 人(0.4) 60 人(0.6)
50 人(0.5) 50 人(0.5) 100 人(1)
西南学院大学 演習 II(2019 年) 5 担当 市東 亘
4 ベイズ統計学入門
4.1 ベイズの定理
条件確率の条件を入れ替える定理.
P(x1|y1) =
P(x1, y1)
P(y1)
=
P(y1, x1)
P(y1)
=
P(y1|x1)P(x1)
P(y1)
? 左辺と右辺で,条件確率の順番が入れ替わっている!
? 同時確率に事象の順番が関係ないという性質(交換可能性)が仮定されている.
4.2 ベイズの定理の応用
4.2.1 昇進試験の合否に人種差別は存在するか?
不合格 合格 計
白人 53 206 259
黒人 22 26 48
計 75 232 307
? どのような確率を求めたら人種差別の有無を判定できるだろうか?
? 考えられる確率は以下の 8 種類.
P(合格),P(不合格),P(黒人),P(白人)
P(黒人 | 合格),P(合格 | 黒人)
P(白人 | 合格),P(合格 | 白人)
? 一般に観察されるのは以下の確率.
西南学院大学 演習 II(2019 年) 6 担当 市東 亘
? 正しくは以下の確率を比較すべき!
? 通常,昇進試験合格者に占める黒人と白人の割合は幹部の人種構成比率観察すれば把握でき
るが,人種毎の合格率は公表されていない.
P(黒人 | 合格) 観察できる
P(合格 | 黒人) 観察できない
つまり,観察できるのは下の表のみ.
不合格 合格 計
白人 ? 206 259
黒人 ? 26 48
計 75 232 307
? ベイズの定理を使えば,条件確率の順番を入れ替えられる!
P(合格 | 黒人) =
P(合格, 黒人)
P(黒人)
=
P(黒人, 合格)
P(黒人)
=
P(黒人 | 合格)P(合格)
P(黒人)
P(合格) は一般社員に占める幹部の割合から求まる.
P(黒人) は人口構成から求まる.
西南学院大学 演習 II(2019 年) 7 担当 市東 亘
4.2.2 検査結果と病気の確率
ある検査は病気にかかっている人を 98%の確率で正しく陽性と判定する.一方,5%の確率で病気
にかかっていない人を誤って陽性と判定する.この病気の罹患率は 3%であることが知られている.
この検査を受けた人が陽性判定を受けた時,その人が実際に病気である確率を求めよ.
4.3 事前確率と事後確率
我々は,Data が観測された時に,Hypothesis がどれくらい確からしいのか,その確率 P(H|D)
を知りたい.
P(H|D) =
P(D|H)P(H)
P(D)
? P(H|D) は,Data が観測された後の事後的な確率なので と呼ば
れる.
? P(H) は,Data が観測される前の仮説 H が生起する確率なので
と呼ばれる.
? 我々が統計的推定を試みる時には,仮説 H が正しいとして統計モデルを組み立てる.その統
計モデルでデータが従う分布関数は,H が与えられた時の D の分布なので,P(D|H) は我々
が仮定している統計モデルの分布関数(尤度)を表すことになる.ベイズ統計学では P(D|H)
を と呼ぶ.
? P(D)はP(D|H)のH について積分したものなので周辺確率に対応するもので
と呼ばれる.
西南学院大学 演習 II(2019 年) 8 担当 市東 亘
4.4 ベイズ更新
概観
? 機械学習で使われるナイーブベイズ(単純ベイズ)という学習器の基礎であるベイズ更新を
学ぶ.
? データが追加的に観測されるたびに,事後確率を更新していき,予測精度を高める機械学習
アルゴリズム.
? 応用例.スパムフィルタ,地震予知,故障予測.
問題
見た目が同じ 2 つの壷にそれぞれ 5 つずつ玉が入っている.壷 1 には赤玉 4 つと白玉 1 つが,壷
2 には赤玉 2 つと白玉 3 つが入っている.目隠しをした状態で壷を選び,その壷から無作為に玉を
1 つ取り出しては戻すという操作を 3 回行うと,順に赤,赤,白の玉が出た.この壷が壷 1 である
確率を求めよ.
4.4.1 頻度論で解く
観察された事象の頻度と,全事象の頻度との比で求まる.場合分けの問題.
4.4.2 ベイズの定理を使って解く
求めたい確率は「赤赤白」というデータが与えられた時の「壷 1」という事象が生起する確率.
=?
西南学院大学 演習 II(2019 年) 9 担当 市東 亘
個別の確率は頻度主義で求める.
P(赤赤白 | 壷 1) =
P(壷 1) =
P(赤赤白) =
以上 3 つをベイズの定理の式に代入すると以下を得る.
P(壷 1| 赤赤白) =
4.4.3 ベイズ更新で解く
いよいよベイズ更新という新しい考え方を学ぶ.これは機械学習の単純ベイズ法の基本となる考
え方なので完璧に身につけておこう!
? データが 1 つずつ観測された時点で確率を更新していき,最終的なデータが観測された時に,
求めたい複数データが与えられた時の条件確率を求める方法.
? P(壷 1| 赤赤白) の計算方法.
最初に赤が出る ? 壷 1 の確率を計算
? 次に赤が出る ? 壷 1 の確率をアップデート
? 次に白が出る ? 壷 1 の確率をアップデート
? P(壷 1| 赤赤白) が求まる.
西南学院大学 演習 II(2019 年) 10 担当 市東 亘
? 多くのデータを処理しなければならない時,一度に全て処理するのではなく,利用可能になっ
たデータを使って求めたい確率を逐次更新していき,最終的な確率を求めることができる.
? データが利用可能になるごとに確率を更新していくさまは,データを使って学習していくさ
まと似ている.
=? 機械学習
? スパムフィルタのように,メールを受け取るごとにスパムメールの確率をアップデートする
ことで,より正確にスパムメールを選り分けることができる.大量のメールからスパムメー
ルの確率モデルを一気に作るより効率的.
壷から取り出す 3 つの玉の問題をベイズ更新を用いて解く.
1 回目の取り出し
? 赤玉が取り出されたので,それが壷 1 から取り出された確率を求める.
? 与えられた情報から,赤玉が壷 1 内で分布する尤度 P(赤 | 壷 1) は知っている.
? そこでベイズの定理を使って条件確率を入れ替える.
P(壷 1| 赤) =
P(赤 | 壷 1)P(壷 1)
P(赤)
分母 P(赤) を計算する際の母集団は何であったかというと,2 つの壷の中身を混ぜた状態で
はなく,1 つの壷から取り出した時に赤玉が出る確率だ.ただし,どちらの壷か条件がない
場合の確率であったことを思い出そう(第 4.4.2 節参照)
.
=? 壷に関して積分した周辺尤度.
? 分母を計算できる形式に変形すると以下を得る.
– ここで分子の P(壷 1) について考える.我々が求めたかった条件確率 P(壷 1| 赤) の
Hypothesis 部分だけを抽出した確率だ.つまり,データである赤玉が観測される前の状
態で,
「壷 1 から玉が取り出される」という仮説が正しい確率,
を表している.
西南学院大学 演習 II(2019 年) 11 担当 市東 亘
– 我々の問題では区別できない壷が 2 つあるので P(壷 1) は 1/2 と求まるが,スパムメー
ルやガン検査の問題では仮説の事前確率が求まるとは限らない.
=? ベイズ更新では事前確率をとりあえず主観的に定めて,新しいデータが利用可能
になるごとに,尤もらしい事前確率にアップデートしていくというアプローチを取る.
– どちらの壷が有力かわからないので,ここでは同様に確からしいとして P(壷 1) = 1/2
とする.
=? 「理由不十分の原則」ではとりあえず等確率とする.
以上より,第 1 回目の取り出し後に「壷 1 から取り出した確率」を推定した結果を P1(壷 1| 赤),
1 回目に想定した事前確率を P1(壷 1) で表すと以下を得る.
P1(壷 1| 赤) =
P(赤 | 壷 1)P1(壷 1)
P(赤 | 壷 1)P1(壷 1) + P(赤 | 壷 2)P1(壷 2)
=
2 回目の取り出し
? 再び赤玉が取り出されたので,それが壷 1 から取り出された確率 P2(壷 1| 赤) を求める.
? ただし,先ほど事前確率をその都度更新するとしたので,2 回目の推定で使用する事前確率
を P2(·) とする.
P2(壷 1| 赤) =
P(赤 | 壷 1)P2(壷 1)
P2(赤)
=
P(赤 | 壷 1)P2(壷 1)
P(赤 | 壷 1)P2(壷 1) + P(赤 | 壷 2)P2(壷 2)
? ベイズ更新のポイントは,2 回目の事前確率 P2(壷 i) に,1 回目のデータが観測された後の
Hypothesis 壷 i の確率である事後確率 P1(壷 i| 赤) を使用する点.
? 従って 2 回目の赤玉が観測された後の事後確率は以下で求まる.
P2(壷 1| 赤) =
P(赤 | 壷 1)P1(壷 1| 赤)
P(赤 | 壷 1)P1(壷 1| 赤) + P(赤 | 壷 2)P1(壷 2| 赤)
=
西南学院大学 演習 II(2019 年) 12 担当 市東 亘
? 1 回目のもう一つの事後確率 P1(壷 2| 赤) も求めておく必要がある点に注意.ただし,今回
は 2 事象しかなく排反事象になるので,1 ? P1(壷 2| 赤) で求まる.
3 回目の取り出し
? 最後は白玉が取り出される.
? 自分で最終的な事後確率を求めてみよ.
考察
? 事前確率 P1(壷 1) を 1/2 と置いたが,もしこの値を 1/3 とすれば当然異なる結果を得ること
になる.
? つまりベイズ統計学は事前確率に分析者の主観を許容する.これが科学的な客観性を重んじ
る学界から長らく冷遇されてきた理由である.
? 今回はたまたま事前確率が頻度論の確率と一致していたため,頻度論の解と同じになった.
? 主観が介入するとはいえ,大量のデータが利用可能ならば確率はデータに合わせて更新され
ていき,データをよく反映した事後確率に到達することができる.
? 大量のデータ処理が必要な現代社会ではむしろベイズ統計学が見直されている.
? 最後になぜベイズ更新で他の 2 つの方法と同じ結果が得られたのか考えてみよう.
西南学院大学 演習 II(2019 年) 13 担当 市東 亘
P3(壷 1| 白) =
P(白 | 壷 1)P3(壷 1)
P3(白)
=
P(白 | 壷 1)P2(壷 1| 赤)
P(白 | 壷 1)P3(壷 1) + P(白 | 壷 2)P3(壷 2)
=
P(白 | 壷 1)P2(壷 1| 赤)
P(白 | 壷 1)P2(壷 1| 赤) + P(白 | 壷 2)P2(壷 2| 赤)
=
今回の問題では,各玉が出る確率は取り出す順番や前に出た玉に依存せず独立であった.したがっ
て,P(白 | 壷 1)P(赤 | 壷 1)P(赤 | 壷 1) は,壷 1 を条件とした時に赤赤白が同時に生起した確率に
等しい(独立事象の同時確率は単独事象の積)
.
P(白 | 壷 1)P(赤 | 壷 1)P(赤 | 壷 1) = P(赤 ∩ 赤 ∩ 白 | 壷 1)
西南学院大学 演習 II(2019 年) 14 担当 市東 亘
したがって我々が求めた確率は以下の式に書き換えられる.
P3(壷 1| 白) =
P(白 | 壷 1)P(赤 | 壷 1)P(赤 | 壷 1)P1(壷 1)
P(白 | 壷 1)P(赤 | 壷 1)P(赤 | 壷 1)P1(壷 1) + P(白 | 壷 2)P(赤 | 壷 2)P(赤 | 壷 2)P1(壷 2)
(5)
=
P(赤 ∩ 赤 ∩ 白 | 壷 1)P1(壷 1)
P(赤 ∩ 赤 ∩ 白 | 壷 1)P1(壷 1) + P(赤 ∩ 赤 ∩ 白 | 壷 2)P1(壷 2)
(6)
=
P(赤 ∩ 赤 ∩ 白 ∩ 壷 1)
P(赤 ∩ 赤 ∩ 白 ∩ 壷 1) + P(赤 ∩ 赤 ∩ 白 ∩ 壷 2)
(7)
=
P(赤 ∩ 赤 ∩ 白 ∩ 壷 1)
P(赤 ∩ 赤 ∩ 白)
(8)
まさに頻度論の計算方法に他ならない!
まとめ
? それぞれの事象が独立であったためにベイズ更新の答えが,頻度論や,事象を同時に扱った
ベイズ定理の解き方と一致した.
? 式 (6) から (7) への変形で用いた最初の事前確率 P1(·) の値が,頻度論の 1/2 と等しかったた
め答えが一致した.
? ベイズ更新を採用するということは,各事象が独立に分布していない限り近似計算となる.
=? 非常にナイーブな前提の上に成り立っている.
西南学院大学 演習 II(2019 年) 15 担当 市東 亘

More Related Content

演習II.第1章 ベイズ推論の考え方 Part 1.講義ノート

  • 1. 第1章 ベイズ推論の考え方 Part 1 市東 亘 2021 年 8 月 22 日 1 概観 目 次 1 概観 1 2 確率の基礎 1 2.1 確率とは? . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1 2.2 頻度主義とベイズ主義 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1 2.3 同時確率と周辺確率 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2 2.4 条件確率 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4 3 確率的独立 4 4 ベイズ統計学入門 5 4.1 ベイズの定理 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5 4.2 ベイズの定理の応用 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5 4.3 事前確率と事後確率 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8 4.4 ベイズ更新 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9 2 確率の基礎 2.1 確率とは? 確率変数が離散値をとる場合の確率の定義 P(X) = n(X) n(?) = 事象 X の頻度 全事象の頻度 母集団の場合の数を数えあげれば求まる. 2 枚のコイン同時投げの例 ? x = { 表裏 } 1
  • 2. ? ? = ? P(X = { 表裏 }) = 2.2 頻度主義とベイズ主義 ? 頻度主義(フィ ッシャー,ネイマン) – 標本から推定する場合,繰り返し事象を想定して頻度の割合を求める. ? ベイズ主義 – 観測されたデータから確率を求める. – 繰り返し事象を想定しない. – 経験主義的. ? ここではベイズ統計を使いながらデータに基づいて確率を計算する方法を学ぶ. 2.3 同時確率と周辺確率 いま仮に,西南学院大学の学生が 100 人だとしよう.このうち男子学生は 40 人,女子学生は 60 人いるとする.男子学生のうち,サークルに所属している学生は 30 人,女子学生では 20 人いる. これを表にまとめると,以下のようになる. サークル所属 サークル無所属 男 30 人 10 人 40 人 女 20 人 40 人 60 人 50 人 50 人 100 人 表 1: 人数表 100 人の学生の中から無作為に一人抽出した時,その学生が男である場合もあるし女である場合 もある.したがって,結果は不確実である.抽出した学生が男か女かを表す確率変数を X としよ う.確率変数 X は男か女を表すため,2 つの値しかとらないことに注意しよう.例えば,男だっ たら 0,女だったら 1 という具合である.特に数値は何でもよいので,ここではより一般的に,男 だったら x1 を女だったら x2 をとると定義しよう. X = { x1, 男子学生の場合 x2, 女子学生の場合 確率変数 Y も同様に以下の様に定義する. Y = { y1, サークル所属 y2, サークル無所属 西南学院大学 演習 II(2019 年) 2 担当 市東 亘
  • 3. 西南学院大学の学生から無作為に 1 人抽出した時,男であり (X = x1) かつサークルに所属 (Y = y1) している学生を抽出する確率を P(x1, y1) で表そう.同様に,X = xi, Y = yj の学生を 抽出する確率は P(xi, yj) で表すことにする.この確率 P(xi, yj) は,X と Y の事象が同時に生起 する確率であるから,同時確率と呼ばれる. 一方,抽出した学生が男か女かだけに興味がある場合には,X = x1 か X = x2 の確率だけ分か ればよい.したがって,抽出した学生が男である確率は P(x1),女である確率は P(x2) で表そう. 同様に,サークルに所属しているかどうかという確率は,P(yi), (i = 1, 2) で表すことにする. 以上を表にまとめると以下のようになる. サークル所属 サークル無所属 y1 y2 男 x1 P(x1, y1) P(x1, y2) P(x1) 女 x2 P(x2, y1) P(x2, y2) P(x2) P(y1) P(y2) 1 表 2: 確率表 練習問題 1. 西南学院大学の人数構成から表 2 の各確率を求めて,表 3 を完成させよ. サークル所属 サークル無所属 y1 y2 男 x1 女 x2 1 表 3: 確率表(練習問題) さて,表 2 と表 3 を比較して見よう.サークル所属 (y1) の列を見てみよう.練習問題で完成さ せた表 3 で,この列の確率を縦に足し会わせると, P(x1, y1) + P(x2, y1) = P(y1) が確認出来るだろうか.すなわち,先の練習問題の答えが正しければ, 3 10 + 1 5 = 1 2 になっているはずである.これが意味していることは何か?いま,サークルに所属している学生の うち,男である確率と女である確率を足し合わせた.男女以外いないわけだから,もはや,性別に 不確実性はないことになる.したがって,足し会わせた確率は,単純にサークルに所属していると いう確率 P(y1) になったのだ. 同様に,サークル無所属 y2 の列についても縦に足し合わせて, P(x1, y2) + P(x2, y2) = P(y2) が成立するか,表 3 で各自確認してみよう. 西南学院大学 演習 II(2019 年) 3 担当 市東 亘
  • 4. 次に,表を横に見てみよう.今度は,男 x1 の行の確率を横に足し合わせて, P(x1, y1) + P(x1, y2) = P(x1) が成立しているか各自確認してみよう.男性であり,かつ,サークルに所属している学生と無所属 の学生の人数を足し合わせれば,単純に男性の合計人数である.したがって,男性であり,かつ, サークルに所属している学生と無所属の学生を抽出する確率を足し合わせれば,単純に男性を抽出 する確率になるのである. このように,確率を表にすると,P(xi) や P(yj) は表の周囲 (margin) に位置する.したがって, 同時確率 P(xi, yj) に対し,P(xi) や P(yj) など単一事象のみが生起する確率を周辺確率 (marginal probability) と呼ぶ. 以上をまとめると,離散値をとる確率変数 X と Y の同時確率 P(x, y) と周辺確率 P(x), P(y) に は以下の関係が成立する. ∑ y P(x, y) = P(x) ∑ x P(x, y) = P(y) ∑ x ∑ y P(x, y) = 1 2.4 条件確率 先ほどの西南学院大学の学生の例を再び用いる.西南学院大学の学生 100 人を N で表すことに する.男性の数 40 人を Nx1 ,サークルに入っている数 50 人を Ny1 で表そう. 西南学院大学の学生から無作為に 1 人抽出した時,男性である確率 P(x1) とサークルに入って いる確率 P(y1) は,N,Nx1 ,Ny1 を用いて以下のように求めることが出来る. P(x1) = Nx1 N = 2 5 (1) P(y1) = Ny1 N = 1 2 (2) (1) 式は母集団 N 人の中から x1 を選出する確率であり,(2) 式は母集団 N 人の中から y1 を選出す る確率である, ここで,母集団全体の代わりに,サークルに入っている人だけを集めて,その部分集団の中から ランダムに選ばれた人が男性である確率を求めるたいとしよう.Nx1y1 をサークルに所属しかつ男 性である人数とおけば,求める確率は Nx1y1 Ny1 で求めることが出来る.分母と分子をそれぞれ N で割ると, Nx1y1 Ny1 = Nx1y1 /N Ny1 /N = P(x1, y1) P(y1) (3) となり,同時確率 P(x1, y1) と周辺確率 P(y1) で表すことが出来る. いま,P(x1|y1) を事象 y1 の条件下で事象 x1 が起こる確率と定義する.y1 の条件下というのは, y1 という事象が既に生じているということを前提としていうことである.上の例では,サークル 西南学院大学 演習 II(2019 年) 4 担当 市東 亘
  • 5. に入っている y1 学生のみを集めて,それを前提として,その中から男性が選ばれる確率を求めた ので,まさにこの確率が P(x1|y1) である.したがって,(3) 式より, P(x1|y1) = P(x1, y1) P(y1) が成立する.P(x1|y1) を条件確率と呼ぶ.上の式を変形した P(x1, y1) = P(x1|y1)P(y1) (4) もよく使われる. 3 確率的独立 通常,P(x1|y1) と P(x1) は等しくならない.これは,y1 が生起したかどうかの情報は,事象 x1 が生起するかどうかという予測に影響を与えることを意味する. つまり,事象 x1 は y1 のでかた に依存しているのである. 一方,P(x1|y1) = P(x1) ならば,y1 に関する情報は,x1 の生起に対して何の推測も与えないこ とになる.この場合,x1 は確率的に y1 に独立であるという.このとき,(4) 式は, P(x1, y1) = P(x1|y1)P(y1) = P(x1)P(y1) となり,同時確率は,単に 2 つの事象の生起確率の積となる. 練習問題 2. 西南の例で「サークル所属」と「性別」は独立か? サークル所属 サークル無所属 男 30 人(0.3) 10 人(0.1) 40 人(0.4) 女 20 人(0.2) 40 人(0.4) 60 人(0.6) 50 人(0.5) 50 人(0.5) 100 人(1) 西南学院大学 演習 II(2019 年) 5 担当 市東 亘
  • 6. 4 ベイズ統計学入門 4.1 ベイズの定理 条件確率の条件を入れ替える定理. P(x1|y1) = P(x1, y1) P(y1) = P(y1, x1) P(y1) = P(y1|x1)P(x1) P(y1) ? 左辺と右辺で,条件確率の順番が入れ替わっている! ? 同時確率に事象の順番が関係ないという性質(交換可能性)が仮定されている. 4.2 ベイズの定理の応用 4.2.1 昇進試験の合否に人種差別は存在するか? 不合格 合格 計 白人 53 206 259 黒人 22 26 48 計 75 232 307 ? どのような確率を求めたら人種差別の有無を判定できるだろうか? ? 考えられる確率は以下の 8 種類. P(合格),P(不合格),P(黒人),P(白人) P(黒人 | 合格),P(合格 | 黒人) P(白人 | 合格),P(合格 | 白人) ? 一般に観察されるのは以下の確率. 西南学院大学 演習 II(2019 年) 6 担当 市東 亘
  • 7. ? 正しくは以下の確率を比較すべき! ? 通常,昇進試験合格者に占める黒人と白人の割合は幹部の人種構成比率観察すれば把握でき るが,人種毎の合格率は公表されていない. P(黒人 | 合格) 観察できる P(合格 | 黒人) 観察できない つまり,観察できるのは下の表のみ. 不合格 合格 計 白人 ? 206 259 黒人 ? 26 48 計 75 232 307 ? ベイズの定理を使えば,条件確率の順番を入れ替えられる! P(合格 | 黒人) = P(合格, 黒人) P(黒人) = P(黒人, 合格) P(黒人) = P(黒人 | 合格)P(合格) P(黒人) P(合格) は一般社員に占める幹部の割合から求まる. P(黒人) は人口構成から求まる. 西南学院大学 演習 II(2019 年) 7 担当 市東 亘
  • 8. 4.2.2 検査結果と病気の確率 ある検査は病気にかかっている人を 98%の確率で正しく陽性と判定する.一方,5%の確率で病気 にかかっていない人を誤って陽性と判定する.この病気の罹患率は 3%であることが知られている. この検査を受けた人が陽性判定を受けた時,その人が実際に病気である確率を求めよ. 4.3 事前確率と事後確率 我々は,Data が観測された時に,Hypothesis がどれくらい確からしいのか,その確率 P(H|D) を知りたい. P(H|D) = P(D|H)P(H) P(D) ? P(H|D) は,Data が観測された後の事後的な確率なので と呼ば れる. ? P(H) は,Data が観測される前の仮説 H が生起する確率なので と呼ばれる. ? 我々が統計的推定を試みる時には,仮説 H が正しいとして統計モデルを組み立てる.その統 計モデルでデータが従う分布関数は,H が与えられた時の D の分布なので,P(D|H) は我々 が仮定している統計モデルの分布関数(尤度)を表すことになる.ベイズ統計学では P(D|H) を と呼ぶ. ? P(D)はP(D|H)のH について積分したものなので周辺確率に対応するもので と呼ばれる. 西南学院大学 演習 II(2019 年) 8 担当 市東 亘
  • 9. 4.4 ベイズ更新 概観 ? 機械学習で使われるナイーブベイズ(単純ベイズ)という学習器の基礎であるベイズ更新を 学ぶ. ? データが追加的に観測されるたびに,事後確率を更新していき,予測精度を高める機械学習 アルゴリズム. ? 応用例.スパムフィルタ,地震予知,故障予測. 問題 見た目が同じ 2 つの壷にそれぞれ 5 つずつ玉が入っている.壷 1 には赤玉 4 つと白玉 1 つが,壷 2 には赤玉 2 つと白玉 3 つが入っている.目隠しをした状態で壷を選び,その壷から無作為に玉を 1 つ取り出しては戻すという操作を 3 回行うと,順に赤,赤,白の玉が出た.この壷が壷 1 である 確率を求めよ. 4.4.1 頻度論で解く 観察された事象の頻度と,全事象の頻度との比で求まる.場合分けの問題. 4.4.2 ベイズの定理を使って解く 求めたい確率は「赤赤白」というデータが与えられた時の「壷 1」という事象が生起する確率. =? 西南学院大学 演習 II(2019 年) 9 担当 市東 亘
  • 10. 個別の確率は頻度主義で求める. P(赤赤白 | 壷 1) = P(壷 1) = P(赤赤白) = 以上 3 つをベイズの定理の式に代入すると以下を得る. P(壷 1| 赤赤白) = 4.4.3 ベイズ更新で解く いよいよベイズ更新という新しい考え方を学ぶ.これは機械学習の単純ベイズ法の基本となる考 え方なので完璧に身につけておこう! ? データが 1 つずつ観測された時点で確率を更新していき,最終的なデータが観測された時に, 求めたい複数データが与えられた時の条件確率を求める方法. ? P(壷 1| 赤赤白) の計算方法. 最初に赤が出る ? 壷 1 の確率を計算 ? 次に赤が出る ? 壷 1 の確率をアップデート ? 次に白が出る ? 壷 1 の確率をアップデート ? P(壷 1| 赤赤白) が求まる. 西南学院大学 演習 II(2019 年) 10 担当 市東 亘
  • 11. ? 多くのデータを処理しなければならない時,一度に全て処理するのではなく,利用可能になっ たデータを使って求めたい確率を逐次更新していき,最終的な確率を求めることができる. ? データが利用可能になるごとに確率を更新していくさまは,データを使って学習していくさ まと似ている. =? 機械学習 ? スパムフィルタのように,メールを受け取るごとにスパムメールの確率をアップデートする ことで,より正確にスパムメールを選り分けることができる.大量のメールからスパムメー ルの確率モデルを一気に作るより効率的. 壷から取り出す 3 つの玉の問題をベイズ更新を用いて解く. 1 回目の取り出し ? 赤玉が取り出されたので,それが壷 1 から取り出された確率を求める. ? 与えられた情報から,赤玉が壷 1 内で分布する尤度 P(赤 | 壷 1) は知っている. ? そこでベイズの定理を使って条件確率を入れ替える. P(壷 1| 赤) = P(赤 | 壷 1)P(壷 1) P(赤) 分母 P(赤) を計算する際の母集団は何であったかというと,2 つの壷の中身を混ぜた状態で はなく,1 つの壷から取り出した時に赤玉が出る確率だ.ただし,どちらの壷か条件がない 場合の確率であったことを思い出そう(第 4.4.2 節参照) . =? 壷に関して積分した周辺尤度. ? 分母を計算できる形式に変形すると以下を得る. – ここで分子の P(壷 1) について考える.我々が求めたかった条件確率 P(壷 1| 赤) の Hypothesis 部分だけを抽出した確率だ.つまり,データである赤玉が観測される前の状 態で, 「壷 1 から玉が取り出される」という仮説が正しい確率, を表している. 西南学院大学 演習 II(2019 年) 11 担当 市東 亘
  • 12. – 我々の問題では区別できない壷が 2 つあるので P(壷 1) は 1/2 と求まるが,スパムメー ルやガン検査の問題では仮説の事前確率が求まるとは限らない. =? ベイズ更新では事前確率をとりあえず主観的に定めて,新しいデータが利用可能 になるごとに,尤もらしい事前確率にアップデートしていくというアプローチを取る. – どちらの壷が有力かわからないので,ここでは同様に確からしいとして P(壷 1) = 1/2 とする. =? 「理由不十分の原則」ではとりあえず等確率とする. 以上より,第 1 回目の取り出し後に「壷 1 から取り出した確率」を推定した結果を P1(壷 1| 赤), 1 回目に想定した事前確率を P1(壷 1) で表すと以下を得る. P1(壷 1| 赤) = P(赤 | 壷 1)P1(壷 1) P(赤 | 壷 1)P1(壷 1) + P(赤 | 壷 2)P1(壷 2) = 2 回目の取り出し ? 再び赤玉が取り出されたので,それが壷 1 から取り出された確率 P2(壷 1| 赤) を求める. ? ただし,先ほど事前確率をその都度更新するとしたので,2 回目の推定で使用する事前確率 を P2(·) とする. P2(壷 1| 赤) = P(赤 | 壷 1)P2(壷 1) P2(赤) = P(赤 | 壷 1)P2(壷 1) P(赤 | 壷 1)P2(壷 1) + P(赤 | 壷 2)P2(壷 2) ? ベイズ更新のポイントは,2 回目の事前確率 P2(壷 i) に,1 回目のデータが観測された後の Hypothesis 壷 i の確率である事後確率 P1(壷 i| 赤) を使用する点. ? 従って 2 回目の赤玉が観測された後の事後確率は以下で求まる. P2(壷 1| 赤) = P(赤 | 壷 1)P1(壷 1| 赤) P(赤 | 壷 1)P1(壷 1| 赤) + P(赤 | 壷 2)P1(壷 2| 赤) = 西南学院大学 演習 II(2019 年) 12 担当 市東 亘
  • 13. ? 1 回目のもう一つの事後確率 P1(壷 2| 赤) も求めておく必要がある点に注意.ただし,今回 は 2 事象しかなく排反事象になるので,1 ? P1(壷 2| 赤) で求まる. 3 回目の取り出し ? 最後は白玉が取り出される. ? 自分で最終的な事後確率を求めてみよ. 考察 ? 事前確率 P1(壷 1) を 1/2 と置いたが,もしこの値を 1/3 とすれば当然異なる結果を得ること になる. ? つまりベイズ統計学は事前確率に分析者の主観を許容する.これが科学的な客観性を重んじ る学界から長らく冷遇されてきた理由である. ? 今回はたまたま事前確率が頻度論の確率と一致していたため,頻度論の解と同じになった. ? 主観が介入するとはいえ,大量のデータが利用可能ならば確率はデータに合わせて更新され ていき,データをよく反映した事後確率に到達することができる. ? 大量のデータ処理が必要な現代社会ではむしろベイズ統計学が見直されている. ? 最後になぜベイズ更新で他の 2 つの方法と同じ結果が得られたのか考えてみよう. 西南学院大学 演習 II(2019 年) 13 担当 市東 亘
  • 14. P3(壷 1| 白) = P(白 | 壷 1)P3(壷 1) P3(白) = P(白 | 壷 1)P2(壷 1| 赤) P(白 | 壷 1)P3(壷 1) + P(白 | 壷 2)P3(壷 2) = P(白 | 壷 1)P2(壷 1| 赤) P(白 | 壷 1)P2(壷 1| 赤) + P(白 | 壷 2)P2(壷 2| 赤) = 今回の問題では,各玉が出る確率は取り出す順番や前に出た玉に依存せず独立であった.したがっ て,P(白 | 壷 1)P(赤 | 壷 1)P(赤 | 壷 1) は,壷 1 を条件とした時に赤赤白が同時に生起した確率に 等しい(独立事象の同時確率は単独事象の積) . P(白 | 壷 1)P(赤 | 壷 1)P(赤 | 壷 1) = P(赤 ∩ 赤 ∩ 白 | 壷 1) 西南学院大学 演習 II(2019 年) 14 担当 市東 亘
  • 15. したがって我々が求めた確率は以下の式に書き換えられる. P3(壷 1| 白) = P(白 | 壷 1)P(赤 | 壷 1)P(赤 | 壷 1)P1(壷 1) P(白 | 壷 1)P(赤 | 壷 1)P(赤 | 壷 1)P1(壷 1) + P(白 | 壷 2)P(赤 | 壷 2)P(赤 | 壷 2)P1(壷 2) (5) = P(赤 ∩ 赤 ∩ 白 | 壷 1)P1(壷 1) P(赤 ∩ 赤 ∩ 白 | 壷 1)P1(壷 1) + P(赤 ∩ 赤 ∩ 白 | 壷 2)P1(壷 2) (6) = P(赤 ∩ 赤 ∩ 白 ∩ 壷 1) P(赤 ∩ 赤 ∩ 白 ∩ 壷 1) + P(赤 ∩ 赤 ∩ 白 ∩ 壷 2) (7) = P(赤 ∩ 赤 ∩ 白 ∩ 壷 1) P(赤 ∩ 赤 ∩ 白) (8) まさに頻度論の計算方法に他ならない! まとめ ? それぞれの事象が独立であったためにベイズ更新の答えが,頻度論や,事象を同時に扱った ベイズ定理の解き方と一致した. ? 式 (6) から (7) への変形で用いた最初の事前確率 P1(·) の値が,頻度論の 1/2 と等しかったた め答えが一致した. ? ベイズ更新を採用するということは,各事象が独立に分布していない限り近似計算となる. =? 非常にナイーブな前提の上に成り立っている. 西南学院大学 演習 II(2019 年) 15 担当 市東 亘