狠狠撸

狠狠撸Share a Scribd company logo
1
機械学習輪講 2018/06/16
「深層学習」
第7章
泰岡研究室 修士1年
岡田清志郎
2イントロダクション
前回まで
「ゼロから作るディープラーニング」
2章 パーセプトロン
3章 ニューラルネットワーク
4章 ニューラルネットワークの学習
5章 誤差逆伝播法
「深層学習」
6章 コスト関数
出力ユニット
隠れユニット
機械学習で有名な定理
「小野ゆうい」
テンソル代数
今回
「深層学習」
7章 深層学習のための正則化
7.1 パラメータノルムペナルティ
7.11 L2正則化
7.12 L1正則化
7.2 条件付き最適化としてのノルム
ペナルティ
他から
37 深層学習のための正則化
正則化とは
訓練誤差ではなく,汎化性能の削減を意図した,学習アルゴリズムに対するらゆる改良
5.2.2節より
過少適合
未学習
過剰適合
過学習
?モデルの容量
?訓練データの量
47 深層学習のための正則化
weight decay
過学習は大きな重みパラメータによる
→ペナルティを課す 後ほど詳しく説明..
?L2ノルム
?L1ノルム
とりあえずイメージ
[*]ゼロから作るディープラーニング
[*]
5
Dropout
とりあえずイメージ
大規模なニューラルネットワーク
モテ??ルの訓練 や評価は実行時間とメモリの点て??コストか??かかる
ニューロンをランダムに消去
7 深層学習のための正則化
[*]ゼロから作るディープラーニング
[*]
6
過度に複雑なモテ??ル族は,目的関数や真のテ??ータ生成過程等に
近い近似形さえも含むとは限らない.
深層学習アルコ??リス??ムは,真のテ??ータ生成過程か??ほほ??確実に
モテ??ル族の外にあるような領域に応用される場合か??ほとんと??て
??ある.
適切な数のハ??ラメータを持つ
適切なサイス??のモテ??ル
適切に正則化された大きなモテ??ル
7 深層学習のための正則化
といった単純な話ではなさそう
77 深層学習のための正則化
バイアス バリアンス
[*]https://sourabhbajaj.com/blog/2017/03/16/so-you-built-a-machine-learning-model/
[*]
より大きいモデル
より多い訓練データ
バイアス
バリアンス
汎化や過剰適合,過少適合といった概念を形式的に に特徴つ??けるのに有効
5.4節より
87.1 パラメータノルムペナルティ
目的関数
正則化された目的関数
パラメータノルムペナルティ
ハイパーパラメータ
重みと正則化されていないハ??ラメータの両方を含む
97.11 L2正則化
weight decay
目的関数に正則化項 を加え,原点に近づける
107.11 L2正則化
で評価される に関する のヘッセ行列
は最小値
勾配がない→1次の項なし
は半正定値であることがわかる
117.11 L2正則化
半正定値
学部1年生へ
n × n 実対称行列 M が正定値であるとは、n 個の実数を成分に持つ零ベクトルで
ない任意の列ベクトル z に対して,zT
Mz が必ず正となるとき
正定値
→負定値,半正定値,半負定値
ヘッセ行列が正定値→極小 ヘッセ行列が不定値→極大
固有値との関係
Mの固有値 に対して,
全て正 →Mは正定値 全て負 →Mは負定値
全て非負→Mは半正定値 全て非正→Mは半負定値
ヘッセ行列において
127.11 L2正則化
ヤコヒ??行列とヘッセ行列
学部1年生へ4.3.1節より
について のヤコビ行列 は
勾配
曲率
について のヘッセ行列 は
13
ヤコヒ??行列とヘッセ行列
学部1年生へ
[*]https://ja.wikipedia.org/wiki/ヘッセ行列
[*]
7.11 L2正則化
147.11 L2正則化
157.11 L2正則化
α が 0 に近づくと,正則化された解 は に近づく
は実対称行列なので
でスケーリングされる
167.11 L2正則化
17
機械学習の例:線形回帰問題
7.11 L2正則化
5.14節より
損失関数は自乗誤差の和
187.12 L1正則化
モデルパラメータのサイズにペナルティを設ける他の方法 L1正則化
197.12 L1正則化
i)
ii)
0になる
と等しい分だけ移動する
207.11 L2正則化
217.12 L1正則化
L2正則化と比較して
L1正則化ではよりスパース(疎)な解が得られる
この性質は特徴量選択として広く利用される
→特徴集合の内,意味のある部分集合だけを選択→ロバスト性
?次元の呪いの効果を暖和させる
?汎化性能を向上させる
?学習を高速化する
?モデルの可読性を向上させる
5.11.1節より
構成の総数が指数関数的に増加
構成の数>事例
新たな点での出力は?
227.2 条件付き最適化としてのノルムヘ??ナルティ
元の目的関数にヘ??ナルティ集合を加えて構成される一般化ラク??ランシ??ュ関数
を構築することて??,制約のある関数を最小化て??きる
カルー シュ?クーン?タッカー(碍碍罢)乗数を用いる
カルーシュ?クーン?タッカー(KKT)乗数
4.31 4.4節より?
制約付き最適化
例題
制約条件
237.2 条件付き最適化としてのノルムヘ??ナルティ
4.31 4.4節より?
ニュートン法
代数方程式を数値的に解く方法
(ヘッセ行列を用いた最も簡単な方法)
247.2 条件付き最適化としてのノルムヘ??ナルティ
4.31 4.4節より?
257.2 条件付き最適化としてのノルムヘ??ナルティ
4.31 4.4節より?
ラグランジュの未定乗数法
ヘッセ行列も に合わせる.
267.2 条件付き最適化としてのノルムヘ??ナルティ
カルーシュ?クーン?タッカー(KKT)乗数
ラグランジュ未定乗数法のより一般化された手法
4.31 4.4節より?
277.2 条件付き最適化としてのノルムヘ??ナルティ
?ペナルティではなく明示的な制約や再射影を利用する場合がある.
?極小値に陥ってしまう可能性を回避
?kに対応する を探索する労力の削減
?安定性がある
元の目的関数にヘ??ナルティ集合を加えて構成される一般化ラク??ランシ??ュ関数
を構築することて??,制約のある関数を最小化て??きる
カルー シュ?クーン?タッカー(碍碍罢)乗数を用いる
28
まとめ
7章 深層学習のための正則化
7.1 パラメータノルムペナルティ
7.11 L2正則化
7.12 L1正則化
7.2 条件付き最適化としてのノルム
ペナルティ
今回拾えなかった部分
PCA (主成分分析)
ベイズ推定

More Related Content

More from KCS Keio Computer Society (20)

文章生成の未解决问题
文章生成の未解决问题文章生成の未解决问题
文章生成の未解决问题
KCS Keio Computer Society
?
Word2vec alpha
Word2vec alphaWord2vec alpha
Word2vec alpha
KCS Keio Computer Society
?
テンソル代数
テンソル代数テンソル代数
テンソル代数
KCS Keio Computer Society
?
Hindsight experience replay
Hindsight experience replayHindsight experience replay
Hindsight experience replay
KCS Keio Computer Society
?
Kml 輪読514
Kml 輪読514Kml 輪読514
Kml 輪読514
KCS Keio Computer Society
?
ゼロから作るDeepLearning 5章 輪読
ゼロから作るDeepLearning 5章 輪読ゼロから作るDeepLearning 5章 輪読
ゼロから作るDeepLearning 5章 輪読
KCS Keio Computer Society
?
贰尝叠翱型痴础贰のダメなところ
贰尝叠翱型痴础贰のダメなところ贰尝叠翱型痴础贰のダメなところ
贰尝叠翱型痴础贰のダメなところ
KCS Keio Computer Society
?
ゼロから作るDeepLearning 2~3章 輪読
ゼロから作るDeepLearning 2~3章 輪読ゼロから作るDeepLearning 2~3章 輪読
ゼロから作るDeepLearning 2~3章 輪読
KCS Keio Computer Society
?
ゼロから作るDeepLearning 4章 輪読
ゼロから作るDeepLearning 4章 輪読ゼロから作るDeepLearning 4章 輪読
ゼロから作るDeepLearning 4章 輪読
KCS Keio Computer Society
?
Soft Actor Critic 解説
Soft Actor Critic 解説Soft Actor Critic 解説
Soft Actor Critic 解説
KCS Keio Computer Society
?
ゼロから作るDeepLearning 3.3~3.6章 輪読
ゼロから作るDeepLearning 3.3~3.6章 輪読ゼロから作るDeepLearning 3.3~3.6章 輪読
ゼロから作るDeepLearning 3.3~3.6章 輪読
KCS Keio Computer Society
?
[論文略説]Stochastic Thermodynamics Interpretation of Information Geometry
[論文略説]Stochastic Thermodynamics Interpretation of Information Geometry[論文略説]Stochastic Thermodynamics Interpretation of Information Geometry
[論文略説]Stochastic Thermodynamics Interpretation of Information Geometry
KCS Keio Computer Society
?
Graph Convolutional Network 概説
Graph Convolutional Network 概説Graph Convolutional Network 概説
Graph Convolutional Network 概説
KCS Keio Computer Society
?
础滨を作ることと理解すること
础滨を作ることと理解すること础滨を作ることと理解すること
础滨を作ることと理解すること
KCS Keio Computer Society
?
Random forest の解説
Random forest の解説Random forest の解説
Random forest の解説
KCS Keio Computer Society
?
Outrageously Large Neural Networks:The Sparsely-Gated Mixture-of-Experts Laye...
Outrageously Large Neural Networks:The Sparsely-Gated Mixture-of-Experts Laye...Outrageously Large Neural Networks:The Sparsely-Gated Mixture-of-Experts Laye...
Outrageously Large Neural Networks:The Sparsely-Gated Mixture-of-Experts Laye...
KCS Keio Computer Society
?
ハミルトニアンモンテカルロ法についての説明
ハミルトニアンモンテカルロ法についての説明ハミルトニアンモンテカルロ法についての説明
ハミルトニアンモンテカルロ法についての説明
KCS Keio Computer Society
?
础滨班ハードウェア领域
础滨班ハードウェア领域础滨班ハードウェア领域
础滨班ハードウェア领域
KCS Keio Computer Society
?
Phonetic Posteriorgrams for Many-to-One Voice Conversion without Parallel Dat...
Phonetic Posteriorgrams for Many-to-One Voice Conversion without Parallel Dat...Phonetic Posteriorgrams for Many-to-One Voice Conversion without Parallel Dat...
Phonetic Posteriorgrams for Many-to-One Voice Conversion without Parallel Dat...
KCS Keio Computer Society
?
U-Net: Convolutional Networks for Biomedical Image Segmentationの紹介
U-Net: Convolutional Networks for Biomedical Image Segmentationの紹介U-Net: Convolutional Networks for Biomedical Image Segmentationの紹介
U-Net: Convolutional Networks for Biomedical Image Segmentationの紹介
KCS Keio Computer Society
?
ゼロから作るDeepLearning 3.3~3.6章 輪読
ゼロから作るDeepLearning 3.3~3.6章 輪読ゼロから作るDeepLearning 3.3~3.6章 輪読
ゼロから作るDeepLearning 3.3~3.6章 輪読
KCS Keio Computer Society
?
[論文略説]Stochastic Thermodynamics Interpretation of Information Geometry
[論文略説]Stochastic Thermodynamics Interpretation of Information Geometry[論文略説]Stochastic Thermodynamics Interpretation of Information Geometry
[論文略説]Stochastic Thermodynamics Interpretation of Information Geometry
KCS Keio Computer Society
?
Outrageously Large Neural Networks:The Sparsely-Gated Mixture-of-Experts Laye...
Outrageously Large Neural Networks:The Sparsely-Gated Mixture-of-Experts Laye...Outrageously Large Neural Networks:The Sparsely-Gated Mixture-of-Experts Laye...
Outrageously Large Neural Networks:The Sparsely-Gated Mixture-of-Experts Laye...
KCS Keio Computer Society
?
ハミルトニアンモンテカルロ法についての説明
ハミルトニアンモンテカルロ法についての説明ハミルトニアンモンテカルロ法についての説明
ハミルトニアンモンテカルロ法についての説明
KCS Keio Computer Society
?
Phonetic Posteriorgrams for Many-to-One Voice Conversion without Parallel Dat...
Phonetic Posteriorgrams for Many-to-One Voice Conversion without Parallel Dat...Phonetic Posteriorgrams for Many-to-One Voice Conversion without Parallel Dat...
Phonetic Posteriorgrams for Many-to-One Voice Conversion without Parallel Dat...
KCS Keio Computer Society
?
U-Net: Convolutional Networks for Biomedical Image Segmentationの紹介
U-Net: Convolutional Networks for Biomedical Image Segmentationの紹介U-Net: Convolutional Networks for Biomedical Image Segmentationの紹介
U-Net: Convolutional Networks for Biomedical Image Segmentationの紹介
KCS Keio Computer Society
?

機械学習ゼミ2018 06 15