狠狠撸

Re: ゼロから作る
Deep Learning
?Pythonで学ぶディープラーニ
ングの理論と実装?

テーマ
l 6.1 パラメータの更新
l 6.2 重みの初期値
l 6.3 Batch Normalization
l 6.4 正則化
l 6.5 ハイパーパラメータの検証
l 6.6 まとめ

6.1 パラメータの更新
? 最適化?法が沢?ある理由
? 実际にどれを使うべきか

はじめに
l NNの学習の?的
– 損失関数の値をできるだけ?さくするパラメータを?つけ
ること -> 最適化
l 最適解が簡単には?つからない…(cf. 2次関数 -> 平?完成)
– 損失関数が複雑
– パラメータ空間が膨?
l どうやって最適なパラメタを?つける？
– 誤差逆伝播法
– パラメータの勾配(損失関数のパラメタによる勾配)を求めて，
損失関数を減少させるようにパラメタを更新
– 勾配法
3

勾配法
l 損失関数Lに対するパラメタWについて
– ? ← ? ? ?
&'
&(
(? : 学習率)
– と更新して，損失関数が少し減少したWに変更するこ
とを繰り返す

具体的な例題
l パラメータ? = ?+, ?-
.による損失関数
– ? ? = ? -
= ?+
-
+ ?-
-

&'
&(
= 2?+,2-
.

l 損失関数が最?になるのは？
– ? = 0 ? ?+ = ?- = 0
– ?乗が必ず正の値→0以外ありえない
– 微分して0になるところ
l 勾配法は後者(微分して0になるところ)
– ? ← ? ? ?
&'
&(
で値を更新．
– ある値Wから少しずつ変更 -> 初期値W= 2,3 .

– ? ← 2,3 .
? ? 4,6 .
仮に， ? = 0.5とすると直ぐに? = 0,0 .
とわかる．(以下，更新は?われない)

具体的な例題(続き)
l ? = 0.1として，学習率を下げてみると
– ? ? 2,3 . ? 0.1 4,6 . = 2 ? 0.4, 3 ? 0.6 =
1.6, 2.4 .と新しい値が得られる．
– この値における勾配を計算すると，
–
&'
&(
= 3.2, 4.8 .と求まるので，再び更新すると，
– ? ? 1.6, 2.4 . ? 0.1 3.2, 4.8 . = (1.6 ? 0.32, 2.4 ?
0.48). = 1.28, 1.92 .
– となり，少しずつ，最適解 0,0 .
に近づく．

l ずっとやれば最適解に近づきそう！

なぜたくさんの最適化?法があるのか
l 学習の基本は勾配法
– 勾配を計算して誤差逆伝播していけば良い
– だけのはずだけど…本には，SGD, AdaGrad, Adamなど…
– 最適化?法がたくさんある…
– 何か?夫が必要？

l 単に勾配を計算するだけではダメという認識
– 学習の停滞(鞍点，特異点による)

学習が停滞する原因
l ? ← ? ? ?
&'
&(
ステップが進むごとに勾配は?さくな
る
– 学習が停滞するのは，損失関数が現在のパラメタの値に
おいてかなり平坦な状態だから
– 解に近づいている -> 勾配は?さくなる -> 学習停滞(例↓)
l NNには，この鞍点が?常に多い！
– 素早く抜け出すために，?々?夫が施された?法
– AdaGrad, Adamなど
沢?あるのはそのため

局所最適解に陥った
ローカルミニマムにハマった
鞍点
(勾配が0に
なるところ)

問題：
なぜたくさんの最適化?法があるのか
l 解答
– NNに学習が停滞する原因となる鞍点が?常に多く存在
するので，そこから素早く抜け出すために?夫が必要
だから
– 具体例を挙げると，
– AdaGrad, RMSprop, Adadelta, Adamax, Nadam, Adam,
Momentum

で，どの最適化?法を使えば良いの？
l 経験則で作られた?法達なので，理論的な根拠に乏
しい．つまり，試すしかない
– Momentum SGD, Adamを普通は良く使う
– RNN系統はEVEが良かった(下はLSTMで使?)

l もっと詳しい内容は，
– http://postd.cc/optimizing-gradient-descent/
– や
– http://www.orsj.or.jp/archive2/or60-4/or60_4_191.pdf
– の得意さん(PFN)のペーパー参照

6.2 重みの初期値
? 推奨される重みの初期値
? その理由
11

重みの初期値を0にする？
l 機械学習の?的
– 汎化誤差が?さいモデルを作ること
– 汎化性能が?いモデル
– 過学習(テストデータに対して不適合)を起きにくくす
る必要あり

過学習とは
l 訓練データだけに適応し過ぎてしまい，訓練データ
に含まれない他のデータ(テストデータ)にはうまく
対応できない状態
13

重みの初期値を0にする？
l 機械学習の?的
– 汎化誤差が?さいモデルを作ること
– 汎化性能が?いモデル
– 過学習(テストデータに対して不適合)を起きにくくす
る必要あり
l 重みの値を?さくすることで過学習を防ぐ
– テクニック：Weight decay(荷重減衰)->後ほど
– 重み?さく…0にすれば？->駄?

重み0が駄?な理由
l 重みは対象的な値(重複した値)をもつようになり，
ニューロンに表現?をもたせられなくなる
– ランダムな初期値が必要
l 上図
– 標準偏差1のガウス分布
– 勾配消失問題
l 下図
– 標準偏差0.01のガウス分布
– 偏りが発?
– 表現?の制限
sigmoid関数:
出?が0, 1に近づくと
微分値が0に近づく

重みの初期値どうすれば？
l 活性化関数によって変更するのがBEST
– sigmoid, tanh：Xavierの初期値
– 搁别尝鲍：贬别の初期値(惭厂搁础)

sigmoid, tanh：Xavierの初期値
l Caffeのデフォルトはこれ
l 「各層のアクティベーションを同じ広がりのある分
布にすること」を?的
– 前層のノード数をnとして時，1/√n の標準偏差を持つ
分布を初期値に設定
– 前層のノードが
多ければ多いほど，
設定する重みの
スケールは?さくなる

sigmoid, tanh：Xavierの初期値 ~表現?~
l 上位の層に?くに連れ，歪な形になるが，これまで
より広がりを持った(良い表現?をもった)分布
– 各層に流れるデータに適度な広がりがある
– sigmoid関数の表現?も制限されず，効率的に学習が?
える

搁别尝鲍：贬别の初期値(惭厂搁础)
l Xavierの初期値を√2倍しただけ
– sigmoidやtanhは左右対称で中央付近がほぼ線形
– ReLUは負の領域が0 -> sigmoidなどと?べて，より広が
りを持たせるには倍の係数が必要(直感的)

MNISTデータセットによる重み初期値の?
較
l std=0.01
– 順伝搬で?さな値が流れ，逆伝搬で求める勾配も?さ
くなり，重みの更新がほぼ?われない

6.3 BATCH NORMALIZATION(BN)
? BNの効果
? BNのアルゴリズム
21

Batch Normalizationとは？
l 前節では「重みの初期値」を適切に設定すれば，各
層のアクティベーションの分布を適度な広がりを持
ち，学習がスムーズに?えることを学んだ
– 各層が適度な広がりを持つように，強制的に，アク
ティベーションの分布を調整するのは？

l このアイデアをベースとする?法
– Batch Normalization

Batch Normalization(以下，BN)の良さ
1. 学習を早く進?させることができる
– 学習係数を?きくできる
2. 初期値にそれほど依存しない
– 神経質にならなくてOK
3. 過学習を抑制できる
– Dropoutの必要性なし

BNアルゴリズムの概観①
ミニバッチ
l Batchとあるように学習の際のミニバッチを単位とし
て，ミニバッチ毎に正規化
l 個々で計算するより、
Mini-Batchで計算した
?が、並列処理ができ
るため計算効率が良い
Training Data
Mini
Batch
Mini
Batch
Mini
Batch
Mini
Batch
Mini
Batch
Mini
Batch

BNアルゴリズムの概観②
アクティベーション分布問題
l データをバッチで??する時、バッチ毎のデータの分布
の違いにより、学習の収束が遅くなったり、パラメータ
の初期値を慎重に決める必要がある
– Deep Networkでは、各層と活性化関数ごとに??の分
布が変わってしまうことが問題になる
? この現象を、内部の共変量シフト(Internal Covariate Shift)と呼
んでいる
– 勾配消失?爆発問題
? 多層のニューラルネットワークで層を増やしていくと、重み
の勾配が??層にたどり着くまでに劇的に０に近づいてしま
う問題
? 活性化関数を使うなどでこの問題を軽減してきた

BNアルゴリズムの概観②
アルゴリズム
まず、m個のデータから
なるmini-batch と学習さ
せるパラメータγとβを?
意
mini-batchの平均と分散を
計算
平均を0、分散を1なるよ
うに正規化
パラメータγとβを?いて
スケールとシフトを調整
Training Data
Mini
Batch
Mini
Batch
Mini
Batch
Mini
Batch
Mini
Batch
Mini
Batch

BNアルゴリズムの概観③
性能評価
l 結論
– 問答無?で使うべき
l 覚えるべきポイント
1. 学習を早く進?可能に
– 学習係数を?きくできる
2. 初期値にそれほど依存しない
– 神経質にならなくてOK
3. 過学習を抑制できる
– Dropoutの必要性なし

6.4 正則化
? Weight decay
? Dropout
※本の順番通りにやっていますが，本来はBNより先にあるべき？
28

過学習とは(再掲)
l 訓練データだけに適応し過ぎてしまい，訓練データ
に含まれない他のデータ(テストデータ)にはうまく
対応できない状態
29

機械学習の?的(再掲)
l 汎化性能
– 未知のデータでも，正しく識別できるモデル
l 過学習の起きる原因
– パラメタを?量にもち，表現?の?いモデル
– 訓練データが少ない
l 過学習の抑制?法
– Weight decay(荷重減衰)
– Dropout

Weight decay(荷重減衰)
l 各層の重みWが?きくならないよう調整
– L2ノルム
– L1ノルム
– L∞ノルム
l 損失関数にL2ノルムを加算して重みを?さくする
– バイアスにはかけないのが普通

l Deepだとこれだけでは対応困難

Dropout
l ニューロンをランダムに消去しながら学習(普通半分)
– 訓練時に隠れ層のニューロンをランダムに選択
– 選択したニューロンを消去
– 全結合層(FC)や畳込み層(conv)に適?
l テスト時は，各ニューロンの出?に割合を乗算

6.5 ハイパーパラメータの検証
? 効率的な探索?法
? 最適化の注意点
33

パラメータのいろいろ
1. 機械全体の形
l レイヤの数
l モデルの選択
l 判別器の選択
2. 各層のモデルのパラメタ
l 隠れ層のユニット数
l 重みの正規化
l ユニットのスパース化
l 活性化関数の選択
3. 最適化のためのパラメタ
l 学習?法
l 学習率(初期値，減衰)
l ミニバッチサイズ
l イテレーション回数
l Momentum
4. その他
l 重みの初期値(スケール)
l 乱数
l 前処理

効率的な探索
l ハイパラ職?になるのは?変なので，効率的な探索?法を使いましょう，
に留めます．
– ??
? 収束カーブを?て，「Dropoutが必要だ！」と判断
– グリッドサーチ
? パラメータ少ないならこっち
– ランダムサンプリング(こっちのが良い)(パラメタ多い場合)
? 重要なパラメタが何だかわからない時有効
l グリッドサーチ
– 総当り
– activation = ["relu", "sigmoid"] optimizer = ["adam", "adagrad"] out_dim = [100,
200] nb_epoch = [10, 25] batch_size = [5, 10]
l ランダムサンプリング
– グリッドサーチと同じだが，何パターンまで調べるか指定可能
35

ハイパラ最適化の注意点
l log scaleでざっくり範囲を指定(0.001 ~ 1.0)など
l 学習回数(epoch)を?さくして，1回の評価に要する
時間の短縮
– Deep Learningは学習に数?~数週間かかる場合も
– 筋の悪そうなハイパラを早く?切るため
l 他にもやり?沢?
– https://book.mynavi.jp/manatee/detail/id=59393
– インターンでは，ガウス過程で探索するのが良いと教
わった

ランダムサンプリング vs. グリッドサーチ
l ランダムサンプリングが良い理由(早いだけでなく…)
– 計算をいつやめても良い
– 計算機が追加で利?可能になった場合，特にグリッド
の再設
– 定などの考慮を?わなくて良い
– それぞれのtrial は，?同期に?える
– あるtrial が失敗しても，単に無視すればよい
l まあ，ランダムサンプリングでOK

まとめ
l パラメータの更新?法
– Momentum付きSGD, Adam以外は別に使わない
– RNN?だとEVE(RNN系?)が良さげ(実験済)
l 重みの初期値は，正しい学習するのに?事だよ
– ReLu -> Heの初期値(MSRA)
– sigmoid, tanh -> Xavierの初期値
l 過学習抑えるのに必要な技術
– Batch Normalization(必須), Dropout, Weight decay
– RNN系は,Weight Normalization, RBN, Layer Normalizationなど
– ?章?成はNAISTが神なので，http://isw3.naist.jp/~neubig/student/2015/seitaro-
s/161025neuralnet_study_LSTM.pdf参照
l ハイパラ調整は賢いやり?あるよ
– Grid Search, ランダムサンプリング, Gaussian Process, BayesianOptimization

狠狠撸

【2017年度】勉强会资料冲学习に関するテクニック

Recommended

More Related Content

What's hot (20)

Similar to 【2017年度】勉强会资料冲学习に関するテクニック (12)

More from Ryosuke Tanno (17)

【2017年度】勉强会资料冲学习に関するテクニック