狠狠撸
Submit Search
笔搁惭尝轮読#1
?
73 likes
?
27,457 views
M
matsuolab
Follow
东京大学松尾研究室における笔搁惭尝の轮読资料です。
Read less
Read more
1 of 29
Download now
Downloaded 603 times
More Related Content
笔搁惭尝轮読#1
1.
PRML輪読会 2017 第1章 序論 東京?学?学院?学系研究科 技術経営戦略学専攻 松尾研究室 M1
中川 ?海
2.
構成 1.1 多項式曲線フィッティング 1.2 確率論 1.3
モデル選択 1.4 次元の呪い 1.5 決定理論 1.6 情報理論 2
3.
1.1 多項式曲線フィッティング ? 訓練集合:N個の??値
XNと対応するN個の?標値TN ? 訓練集合から新たな?? x の?標変数 t を予測することが?標 ? 以下のような多項式で予測することを考える – パラメータ w に対して線形:線形モデル – M はモデルのパラメータ ? パラメータを固定した時の関数 y(x, w) と訓練集合の値のズレを最?化す るパラメータを選ぶことで関数を推定 – ?乗和誤差関数 3
4.
1.1 多項式曲線フィッティング ? 変数が増えるとデータに含まれるノイズの影響が強くなる –
係数の値が?きくなる 4
5.
1.1 多項式曲線フィッティング ? データが少ないと過学習が起こりやすい ?
データが少なくても正則化によって過学習を抑えられる – 正則化をかけすぎると係数が?さくなりすぎる 5
6.
1.2 確率論 6 確率の基本法則 引?: /takushimiki/prml-52113785
7.
1.2.1 確率密度 7 確率密度関数 累積分布関数 引?: /takushimiki/prml-52113785
8.
1.2.1 確率密度 ? 確率密度はヤコビ?列により特殊な変換を?う ?
確率密度の最?値は変数の選び?に依存する 8 引?: /alembert2000/prml-at-1
9.
1.2.1 確率密度 9引?: https://drive.google.com/drive/folders/0Bz9yuvZCp4qSZXB1MUpQSG9KQWs
10.
1.2.2 期待値と分散 ? 離散分布の期待値 ?
連続分布の期待値 ? 離散/連続を問わず、有限個のN個の点から近似できる – サンプリングを?う時などに?いる(11章) ? 分散と共分散 10
11.
1.2.4 ガウス分布 ? 単?の実数変数
x に対するガウス分布 ? 期待値 ? ?次モーメント(?乗の期待値) ? 分散 11
12.
1.2.4 ガウス分布 ? ガウス分布から?成されたi.i.dなN個の点から分布のパラメータを推定する ?
データ集合の確率:尤度関数 – パラメータを固定とした時に観測されたデータがどれくらい起こりやすいか? – 周辺確率の積で求まる – 尤度関数の最?化:最尤推定 ? 対数尤度を?いる – 積を和に変換できる – ?さな確率値の積のアンダーフローを防げる – 対数は単調増加なので 対数最?化=元の関数最?化 12
13.
1.2.4 ガウス分布 ? ? と
? を最尤推定する(各変数について最?化する) – ガウス分布では両者を分離して最?化を?える – 標本平均と標本分散が得られる ? 最尤推定の問題点:分散が過?評価される=バイアス – サンプル数が?きくなれば影響は減るが、これが過学習の根本 13
14.
1.2.5 曲線フィッティング再訪 ? 曲線フィッテイングの尤度関数 ?
対数尤度 ? 対数尤度の最?化=負の対数尤度の最?化 – ノイズがガウス分布に従うという仮定の元では、?乗和誤差の最?化=尤度の最?化 14
15.
1.2.5 曲線フィッティング再訪 ? 最尤推定によってパラメータが求まり得られる予測分布 ?
これにパラメータ w に関する事前分布を導?する – 頻度論的なアプローチからベイズ的なアプローチへ ? w の事後分布は尤度関数と事前分布の積に?例 ? これにより事後分布を最?化する w が求められる – 最?事後確率推定(MAP推定) 15
16.
1.2.6 ベイズ曲線フィッティング ? 事後分布を組み込むだけでは点推定にとどまる ?
加法?乗法定理を?盾なく適?して、wの全ての値に関して積分する – 完全なベイズアプローチに ? 予測分布 – 新たな点 x に関する?標値 t を を w に対して周辺化し求める ? 予測平均 ? 予測分散 ? 分散?列 ? 基底 16 ?標変数のノイズによる不確実性 パラメータwに対する不確実性
17.
1.3 モデル選択 ? モデルの汎化性能を上げるには? ?
交差検証 – 訓練データをs分割 – 訓練時間はs倍になる – パラメータが増えると指数関数的に訓練回数が増えうる ? ?回の訓練だけで複数の超パラメータとモデルタイプを?較したい – 訓練データのみに依存し過学習バイアスを持たない性能尺度が必要 ? 情報量基準(4章) – AIC, BICなど – モデルのパラメータの不確実性は考慮していない – 過度に単純なモデルを選びやすい ? より?然で理にかなうのがベイズアプローチ(3章) 17
18.
1.4 次元の呪い ? 学習アルゴリズムの設計 ?
マス?に分割してみる – ??空間の次元数の増加に対してマス?が指数関数的に増加 ? 多項式曲線フィッティング – 係数の数がべき乗に増加 ? 幾何的直感が?致しないなど、様々な困難が伴う=次元の呪い ? 実?では、意外と?次元空間でもなんとかなる – 実データは実際には低次元領域に存在する – ?標変数の重要な変化が?じる?向はそこまで多くない – ??空間上の?さな変化は?標変数に?さな変化しか与えない 18
19.
1.5 決定理論 ? 訓練データ集合
→ 同時分布:推定(難しい) ? 同時分布 → 基準に基づき最適な?動:決定(簡単) ? どのような基準で決定するか? → 誤識別率の最?化 – 事後確率が最?のクラスに分類するのが最適 ? 誤り率の定式化(2クラス) ? より?次だと正解率を定式化するほうが易しい 19
20.
1.5.2 期待損失の最?化 ? 識別率だけ上がればよいのか? –
ex) 癌患者を健康と誤診するほうが問題... – 損失関数を定めて期待損失を最?化する必要がある ? 期待損失 – 同時確率で定義される – 共通因?を除くと事後確率 ? 棄却オプションという選択肢もある – 事後確率が閾値θ以下なら決定を避ける 20 k を j と識別した際の損失(k = j なら0)
21.
1.5.4 推論と決定 21 ?成モデル ? 同時分布を推論する ?
出?の分布だけでなく??の分布もモデル化 ? 新規性検出などのメリット ? 訓練コストが?い 識別モデル 識別関数 ? 事後確率のみ推論して決定理論でクラス割当 ? 出?の分布をモデル化 ? 訓練コスト節約 ? ??を直接ラベルに写像する関数を学習 ? 確率は?いない 難 易
22.
1.5.4 推論と決定 ? 事後確率を求めるメリット –
損失?列の変更や棄却オプションなどへの柔軟性 – 訓練データの修正などの情報による事前確率の補正 – 複数のモジュールの結合 22
23.
1.5.5 回帰のための損失関数 ? 損失関数が?乗誤差の場合の期待損失 ?
最適解は条件付き平均になる ? 変形した損失関数 23 回帰関数 解が条件付き平均の時に最? =最適解 ?標データが持つノイズ =損失関数の最?値
24.
1.6 情報理論 ? 離散確率変数xを観測した時の情報量 –
確率が低い事象が起こったときほど?きくなる – 互いに独?な確率変数の情報量は単独の場合の和になる – 底2:ビット、底e:ナット ? 情報量の平均:エントロピー ? 離散分布 – ?様分布で最? ? 連続分布 – ガウス分布で最? – 分散が?きくなるに連れてエントロピーも増? 24 lnΔ異なる =Δ→0で発散 =連続変数を厳密に定義するには無限のビット数が必要
25.
1.6.1 相対エントロピーと相互情報量 ? 真の分布
p(x) を q(x) で近似したい ? q(x)でxの値を特定するのに追加で必要な情報量は ? KLダイバージェンス(相対エントロピー) – (p(x)のエントロピー) – (q(x)のエントロピー) – 分布間の距離のようなもの(?対称) ? であり、0になるのは p(x) = q(x) – 凸関数であるため成り?つ 25
26.
1.6.1 相対エントロピーと相互情報量 ? 凸関数 –
関数 f(x) は全ての弦が関数に乗っているか、それよりも上にある ? 関数の値 ≦ 弦上の値 – 数学的帰納法によりイェンセンの不等式に変換 – を確率分布と?なすと – 連続変数に対しては – KLダイバージェンスに適?すると 26 http://qiita.com/kenmatsu4/items/26d098a4048f84bf85fb
27.
1.6.1 相対エントロピーと相互情報量 ? データを?成している未知の分布
p(x) をモデル化したい場合 – パラメータ θ をもつパラメトリックな分布 q(x) で近似してみる – θ は KL(p||q) を θ について最?化することで求まる ? p(x)を知らないからKLが計算できない – p(x) をサンプリングによって近似する ? KLの最?化=尤度最?化(最尤法) 27 θ と独?な項 θ の負の対数尤度 ? xとyが独?に近いかどうか? ? p(x,y)とp(x)p(y)のKLダイバージェンス(相互情報量)で求まる
28.
1.6.1 相対エントロピーと相互情報量 ? xとyが独?に近いかどうか? ?
p(x,y)とp(x)p(y)のKLダイバージェンス(相互情報量)で求まる ? y(x)を知ることでx(y)に関する不確実性がどのように減少するかを表す 28
29.
参考資料 ? パターン認識と機械学習 上 –
C.M. ビショップ (著), 元? 浩 (監訳), 栗? 多喜夫 (監訳), 樋? 知之 (監訳), 松本 裕治 (監訳), 村? 昇 (監訳) ? PRML読み会#1 (三?, 狠狠撸Share) – /takushimiki/prml-52113785 ? PRML 上巻勉強会 第1章 序論 (?澤, 狠狠撸Share) – /alembert2000/prml-at-1 ? 演習問題解答 – https://drive.google.com/drive/folders/0Bz9yuvZCp4qSZXB1MUpQSG9KQWs ? イェンセン(Jensen)の不等式の直感的理解 (Qiita) – http://qiita.com/kenmatsu4/items/26d098a4048f84bf85fb 29
Download