狠狠撸

1
機械学習輪講 2018/06/16
「深層学習」
第7章
泰岡研究室修士1年
岡田清志郎

2イントロダクション
前回まで
「ゼロから作るディープラーニング」
2章パーセプトロン
3章ニューラルネットワーク
4章ニューラルネットワークの学習
5章誤差逆伝播法
「深層学習」
6章コスト関数
出力ユニット
隠れユニット
機械学習で有名な定理
「小野ゆうい」
テンソル代数
今回
「深層学習」
7章深層学習のための正則化
7.1 パラメータノルムペナルティ
7.11 L2正則化
7.12 L1正則化
7.2 条件付き最適化としてのノルム
ペナルティ
他から

37 深層学習のための正則化
正則化とは
訓練誤差ではなく，汎化性能の削減を意図した，学習アルゴリズムに対するらゆる改良
5.2.2節より
過少適合
未学習
過剰適合
過学習
?モデルの容量
?訓練データの量

weight decay
過学習は大きな重みパラメータによる
→ペナルティを課す後ほど詳しく説明．．
?L2ノルム
?L1ノルム
とりあえずイメージ
[*]ゼロから作るディープラーニング
[*]

5
Dropout
とりあえずイメージ
大規模なニューラルネットワーク
モテ??ルの訓練や評価は実行時間とメモリの点て??コストか??かかる
ニューロンをランダムに消去
[*]ゼロから作るディープラーニング
[*]

6
過度に複雑なモテ??ル族は，目的関数や真のテ??ータ生成過程等に
近い近似形さえも含むとは限らない.
深層学習アルコ??リス??ムは，真のテ??ータ生成過程か??ほほ??確実に
モテ??ル族の外にあるような領域に応用される場合か??ほとんと??て
??ある.
適切な数のハ??ラメータを持つ
適切なサイス??のモテ??ル
適切に正則化された大きなモテ??ル
といった単純な話ではなさそう

バイアスバリアンス
[*]https://sourabhbajaj.com/blog/2017/03/16/so-you-built-a-machine-learning-model/
[*]
より大きいモデル
より多い訓練データ
バイアス
バリアンス
汎化や過剰適合，過少適合といった概念を形式的にに特徴つ??けるのに有効
5.4節より

目的関数
正則化された目的関数
パラメータノルムペナルティ
ハイパーパラメータ
重みと正則化されていないハ??ラメータの両方を含む

97.11 L2正則化
weight decay
目的関数に正則化項を加え，原点に近づける

107.11 L2正則化
で評価されるに関するのヘッセ行列
は最小値
勾配がない→1次の項なし
は半正定値であることがわかる

117.11 L2正則化
半正定値
学部1年生へ
n × n 実対称行列 M が正定値であるとは、n 個の実数を成分に持つ零ベクトルで
ない任意の列ベクトル z に対して，zT
Mz が必ず正となるとき
正定値
→負定値，半正定値，半負定値
ヘッセ行列が正定値→極小ヘッセ行列が不定値→極大
固有値との関係
Mの固有値に対して，
全て正 →Mは正定値全て負 →Mは負定値
全て非負→Mは半正定値全て非正→Mは半負定値
ヘッセ行列において

127.11 L2正則化
ヤコヒ??行列とヘッセ行列
学部1年生へ4.3.1節より
についてのヤコビ行列は
勾配
曲率
についてのヘッセ行列は

13
ヤコヒ??行列とヘッセ行列
学部1年生へ
[*]https://ja.wikipedia.org/wiki/ヘッセ行列
[*]
7.11 L2正則化

157.11 L2正則化
α が 0 に近づくと，正則化された解はに近づく
は実対称行列なので
でスケーリングされる

17
機械学習の例：線形回帰問題
7.11 L2正則化
5.14節より
損失関数は自乗誤差の和

187.12 L1正則化
モデルパラメータのサイズにペナルティを設ける他の方法 L1正則化

197.12 L1正則化
i)
ii)
0になる
と等しい分だけ移動する

217.12 L1正則化
L2正則化と比較して
L1正則化ではよりスパース（疎）な解が得られる
この性質は特徴量選択として広く利用される
→特徴集合の内，意味のある部分集合だけを選択→ロバスト性
?次元の呪いの効果を暖和させる
?汎化性能を向上させる
?学習を高速化する
?モデルの可読性を向上させる
5.11.1節より
構成の総数が指数関数的に増加
構成の数＞事例
新たな点での出力は？

227.2 条件付き最適化としてのノルムヘ??ナルティ
元の目的関数にヘ??ナルティ集合を加えて構成される一般化ラク??ランシ??ュ関数
を構築することて??，制約のある関数を最小化て??きる
カルーシュ?クーン?タッカー(碍碍罢)乗数を用いる
カルーシュ?クーン?タッカー(KKT)乗数
4.31 4.4節より?
制約付き最適化
例題
制約条件

4.31 4.4節より?
ニュートン法
代数方程式を数値的に解く方法
(ヘッセ行列を用いた最も簡単な方法)

4.31 4.4節より?

4.31 4.4節より?
ラグランジュの未定乗数法
ヘッセ行列もに合わせる．

カルーシュ?クーン?タッカー(KKT)乗数
ラグランジュ未定乗数法のより一般化された手法
4.31 4.4節より?

?ペナルティではなく明示的な制約や再射影を利用する場合がある．
?極小値に陥ってしまう可能性を回避
?ｋに対応するを探索する労力の削減
?安定性がある
元の目的関数にヘ??ナルティ集合を加えて構成される一般化ラク??ランシ??ュ関数
を構築することて??，制約のある関数を最小化て??きる
カルーシュ?クーン?タッカー(碍碍罢)乗数を用いる

28
まとめ
7章深層学習のための正則化
7.11 L2正則化
7.12 L1正則化
7.2 条件付き最適化としてのノルム
ペナルティ
今回拾えなかった部分
PCA (主成分分析)
ベイズ推定

狠狠撸

機械学習ゼミ2018 06 15

Recommended

More Related Content

More from KCS Keio Computer Society (20)

機械学習ゼミ2018 06 15