狠狠撸

狠狠撸Share a Scribd company logo
PRML輪読会 2017
第1章 序論
東京?学?学院?学系研究科
技術経営戦略学専攻
松尾研究室
M1 中川 ?海
構成
1.1 多項式曲線フィッティング
1.2 確率論
1.3 モデル選択
1.4 次元の呪い
1.5 決定理論
1.6 情報理論
2
1.1 多項式曲線フィッティング
? 訓練集合:N個の??値 XNと対応するN個の?標値TN
? 訓練集合から新たな?? x の?標変数 t を予測することが?標
? 以下のような多項式で予測することを考える
– パラメータ w に対して線形:線形モデル
– M はモデルのパラメータ
? パラメータを固定した時の関数 y(x, w) と訓練集合の値のズレを最?化す
るパラメータを選ぶことで関数を推定
– ?乗和誤差関数
3
1.1 多項式曲線フィッティング
? 変数が増えるとデータに含まれるノイズの影響が強くなる
– 係数の値が?きくなる
4
1.1 多項式曲線フィッティング
? データが少ないと過学習が起こりやすい
? データが少なくても正則化によって過学習を抑えられる
– 正則化をかけすぎると係数が?さくなりすぎる
5
1.2 確率論
6
確率の基本法則
引?: /takushimiki/prml-52113785
1.2.1 確率密度
7
確率密度関数
累積分布関数
引?: /takushimiki/prml-52113785
1.2.1 確率密度
? 確率密度はヤコビ?列により特殊な変換を?う
? 確率密度の最?値は変数の選び?に依存する
8
引?: /alembert2000/prml-at-1
1.2.1 確率密度
9引?: https://drive.google.com/drive/folders/0Bz9yuvZCp4qSZXB1MUpQSG9KQWs
1.2.2 期待値と分散
? 離散分布の期待値
? 連続分布の期待値
? 離散/連続を問わず、有限個のN個の点から近似できる
– サンプリングを?う時などに?いる(11章)
? 分散と共分散
10
1.2.4 ガウス分布
? 単?の実数変数 x に対するガウス分布
? 期待値
? ?次モーメント(?乗の期待値)
? 分散
11
1.2.4 ガウス分布
? ガウス分布から?成されたi.i.dなN個の点から分布のパラメータを推定する
? データ集合の確率:尤度関数
– パラメータを固定とした時に観測されたデータがどれくらい起こりやすいか?
– 周辺確率の積で求まる
– 尤度関数の最?化:最尤推定
? 対数尤度を?いる
– 積を和に変換できる
– ?さな確率値の積のアンダーフローを防げる
– 対数は単調増加なので 対数最?化=元の関数最?化
12
1.2.4 ガウス分布
? ?	と ?	を最尤推定する(各変数について最?化する)
– ガウス分布では両者を分離して最?化を?える
– 標本平均と標本分散が得られる
? 最尤推定の問題点:分散が過?評価される=バイアス
– サンプル数が?きくなれば影響は減るが、これが過学習の根本
13
1.2.5 曲線フィッティング再訪
? 曲線フィッテイングの尤度関数
? 対数尤度
? 対数尤度の最?化=負の対数尤度の最?化
– ノイズがガウス分布に従うという仮定の元では、?乗和誤差の最?化=尤度の最?化
14
1.2.5 曲線フィッティング再訪
? 最尤推定によってパラメータが求まり得られる予測分布
? これにパラメータ w に関する事前分布を導?する
– 頻度論的なアプローチからベイズ的なアプローチへ
? w の事後分布は尤度関数と事前分布の積に?例
? これにより事後分布を最?化する w が求められる
– 最?事後確率推定(MAP推定)
15
1.2.6 ベイズ曲線フィッティング
? 事後分布を組み込むだけでは点推定にとどまる
? 加法?乗法定理を?盾なく適?して、wの全ての値に関して積分する
– 完全なベイズアプローチに
? 予測分布
– 新たな点 x に関する?標値 t を を w に対して周辺化し求める
? 予測平均
? 予測分散
? 分散?列
? 基底
16
?標変数のノイズによる不確実性
パラメータwに対する不確実性
1.3 モデル選択
? モデルの汎化性能を上げるには?
? 交差検証
– 訓練データをs分割
– 訓練時間はs倍になる
– パラメータが増えると指数関数的に訓練回数が増えうる
? ?回の訓練だけで複数の超パラメータとモデルタイプを?較したい
– 訓練データのみに依存し過学習バイアスを持たない性能尺度が必要
? 情報量基準(4章)
– AIC, BICなど
– モデルのパラメータの不確実性は考慮していない
– 過度に単純なモデルを選びやすい
? より?然で理にかなうのがベイズアプローチ(3章)
17
1.4 次元の呪い
? 学習アルゴリズムの設計
? マス?に分割してみる
– ??空間の次元数の増加に対してマス?が指数関数的に増加
? 多項式曲線フィッティング
– 係数の数がべき乗に増加
? 幾何的直感が?致しないなど、様々な困難が伴う=次元の呪い
? 実?では、意外と?次元空間でもなんとかなる
– 実データは実際には低次元領域に存在する
– ?標変数の重要な変化が?じる?向はそこまで多くない
– ??空間上の?さな変化は?標変数に?さな変化しか与えない
18
1.5 決定理論
? 訓練データ集合 → 同時分布:推定(難しい)
? 同時分布 → 基準に基づき最適な?動:決定(簡単)
? どのような基準で決定するか? → 誤識別率の最?化
– 事後確率が最?のクラスに分類するのが最適
? 誤り率の定式化(2クラス)
? より?次だと正解率を定式化するほうが易しい
19
1.5.2 期待損失の最?化
? 識別率だけ上がればよいのか?
– ex) 癌患者を健康と誤診するほうが問題...
– 損失関数を定めて期待損失を最?化する必要がある
? 期待損失
– 同時確率で定義される
– 共通因?を除くと事後確率
? 棄却オプションという選択肢もある
– 事後確率が閾値θ以下なら決定を避ける
20
k を j と識別した際の損失(k = j なら0)
1.5.4 推論と決定
21
?成モデル
? 同時分布を推論する
? 出?の分布だけでなく??の分布もモデル化
? 新規性検出などのメリット
? 訓練コストが?い
識別モデル
識別関数
? 事後確率のみ推論して決定理論でクラス割当
? 出?の分布をモデル化
? 訓練コスト節約
? ??を直接ラベルに写像する関数を学習
? 確率は?いない
難
易
1.5.4 推論と決定
? 事後確率を求めるメリット
– 損失?列の変更や棄却オプションなどへの柔軟性
– 訓練データの修正などの情報による事前確率の補正
– 複数のモジュールの結合
22
1.5.5 回帰のための損失関数
? 損失関数が?乗誤差の場合の期待損失
? 最適解は条件付き平均になる
? 変形した損失関数
23
回帰関数
解が条件付き平均の時に最?
=最適解
?標データが持つノイズ
=損失関数の最?値
1.6 情報理論
? 離散確率変数xを観測した時の情報量
– 確率が低い事象が起こったときほど?きくなる
– 互いに独?な確率変数の情報量は単独の場合の和になる
– 底2:ビット、底e:ナット
? 情報量の平均:エントロピー
? 離散分布
– ?様分布で最?
? 連続分布
– ガウス分布で最?
– 分散が?きくなるに連れてエントロピーも増?
24
lnΔ異なる
=Δ→0で発散
=連続変数を厳密に定義するには無限のビット数が必要
1.6.1 相対エントロピーと相互情報量
? 真の分布 p(x) を q(x) で近似したい
? q(x)でxの値を特定するのに追加で必要な情報量は
? KLダイバージェンス(相対エントロピー)
– (p(x)のエントロピー) – (q(x)のエントロピー)
– 分布間の距離のようなもの(?対称)
? であり、0になるのは p(x) = q(x)
– 凸関数であるため成り?つ
25
1.6.1 相対エントロピーと相互情報量
? 凸関数
– 関数 f(x) は全ての弦が関数に乗っているか、それよりも上にある
? 関数の値 ≦ 弦上の値
– 数学的帰納法によりイェンセンの不等式に変換
– を確率分布と?なすと
– 連続変数に対しては
– KLダイバージェンスに適?すると
26
http://qiita.com/kenmatsu4/items/26d098a4048f84bf85fb
1.6.1 相対エントロピーと相互情報量
? データを?成している未知の分布 p(x) をモデル化したい場合
– パラメータ θ をもつパラメトリックな分布 q(x) で近似してみる
– θ は KL(p||q) を θ について最?化することで求まる
? p(x)を知らないからKLが計算できない
– p(x) をサンプリングによって近似する
? KLの最?化=尤度最?化(最尤法)
27
θ と独?な項
θ の負の対数尤度
? xとyが独?に近いかどうか?
? p(x,y)とp(x)p(y)のKLダイバージェンス(相互情報量)で求まる
1.6.1 相対エントロピーと相互情報量
? xとyが独?に近いかどうか?
? p(x,y)とp(x)p(y)のKLダイバージェンス(相互情報量)で求まる
? y(x)を知ることでx(y)に関する不確実性がどのように減少するかを表す
28
参考資料
? パターン認識と機械学習 上
– C.M. ビショップ (著), 元? 浩 (監訳), 栗? 多喜夫 (監訳), 樋? 知之 (監訳), 松本 裕治 (監訳), 村? 昇 (監訳)
? PRML読み会#1 (三?, 狠狠撸Share)
– /takushimiki/prml-52113785
? PRML 上巻勉強会 第1章 序論 (?澤, 狠狠撸Share)
– /alembert2000/prml-at-1
? 演習問題解答
– https://drive.google.com/drive/folders/0Bz9yuvZCp4qSZXB1MUpQSG9KQWs
? イェンセン(Jensen)の不等式の直感的理解 (Qiita)
– http://qiita.com/kenmatsu4/items/26d098a4048f84bf85fb
29

More Related Content

笔搁惭尝轮読#1