狠狠撸

狠狠撸Share a Scribd company logo
2
Most read
8
Most read
13
Most read
Optimizer?? & 最新動向
?塚研究室
本川哲哉
Optimizerとは
? Optimization(最適化)する者
? 機械学習の?脈では、損失関数の値をできるだけ?さくするパラメータの
値を?つけることを最適化(Optimization) といい、その?法を指して
Optimizerと呼ぶ。
? 関数の最?化と?うと、ラグランジュの未定乗数法、ニュートン法、共役
勾配法など?々あるが、機械学習タスクに使われているOptimizerは主に
計算量的な観点から1階微分の勾配降下法がベースとなる。
みんな?好き確率的勾配降下法
? Stochastic Gradient Descent
? 最近流?りのあらゆるOptimizerの基礎
? ミニバッチごとに勾配降下法を適?するため、局所解に陥りに
くい!
引?:?塚先?の本
シンプルだけど不便!
? 学習率の初期値を設定しにくい
? 初期値の設定に失敗すると劇的に悪化
???SGDを改良していこう!
引?:/kisa12012/sgd-future-best-27314417?next_slideshow=1
Momentum SGD
「慣性付けるか」
下図のように、より収束に関連性のある?向にSGDを加速させて、振動を
抑制する。
引?: http://postd.cc/optimizing-gradient-descent/#adagrad
Nesterov accelerated gradient (NAG)
「慣性に加えて?歩先の位置での勾配を使おう」
現在のパラメータの勾配ではなく、未来のパラメータの推定位置を計算す
ることで効率的な予測が可能になる。
引?:http://www.cs.toronto.edu/~tijmen/csc321/slides/lecture_slides_lec6.pdf
Adaptive Learning Rate(適応学習率法)
今までは全てのパラメータに対して同じ学習率を掛けていた。
稀にしか観測されないパラメータにはより?きな更新を、よく観
測されるパラメータにはより?さな更新をさせたいよね。
???学習率をパラメータ(軸)毎に適応させよう!
Adagrad(Adaptive Gradient)
<?点>
? エポックを重ねるごとに過去の学習率が累積していき、やがて0に漸近してしまう
? 学習の初期に勾配の?きな場所を通ると、それ以降その軸?向の勾配は?さいまま
になってしまう
RMSprop
「過去全部ではなく最近の勾配の?乗和のみ使おう」
指数関数的に減衰する指数移動平均によって、極めて遠い過去の勾配
は取り除く。
?凸の条件下でAdagradの性能を改善.
凸関数??凸関数
引?: http://ogyahogya.hatenablog.com/entry/2016/05/19/凸解析
Adagradは凸関数では急速に収束するが、?凸関数ではうまく機
能しない。RMSpropでこの?点を改善。DNNで表現される多く
の関数は?凸。
Adadelta
「過去全部ではなく最近の勾配の?乗和のみ使おう、
さらに次元も合わそう。」
Adagrad、 RMSpropなどは全て次元がおかしい.
>次元とは?
横軸t(s)、縦軸x(m)のyという関数を考えるとき,
yの勾配(速度)の単位はm/sである。
勾配降下法では、x(m)を勾配(m/s)で更新
していることになるので、次元が合わない!
ここでの勾配降下法:?"#$ = ?" ? ?
()*
("
引?: https://physnotes.jp/mechanics/motion_diff/
Adadelta
もはや?分で学習率をチューニングする必要がない!!
Adam(Adaptive moment estimation)
「勾配の1次(平均)と2次(分散)のモーメント推定しよう」
結局どれが良いの??
? 今のところ、?間が経験的に「このタスクにはこのOptimizer
を使う」のような決め?をしている
? ??データが疎な場合、適応学習率法のどれかを使うと良い
? Adamが最強というわけではない
むしろタスクによってはSGDの?がより良い性能を?せることもある…!
最近の流れの1つ:Adamを改良しよう!
Weight decay
? DNNにおいて、多層になるほどモデルの表現?は増すが、その
分オーバーフィッティングの危険性も?まる
? そこでパラメータの?由度を制限するWeight decayが?いられ
る
? 重みの?由度を制限するという意味で、これはL2正則化と同じ
効果を得ると理解できる
Adam with Weight decay
新しい更新式
?さなデータセットやCIFAR-10のデータセットではAdam with
Weight decayの?が通常のAdamよりもパフォーマンスが向上.
Fixing the exponential moving average
? 指数移動平均(EMA)とは、指数関数的に減衰する重み付き平
均のことで、Adamのような適応学習率法の基本的な考え?
? Adamで最適解を狙う場合、?部のミニバッチでは有益な勾配
が得られるが、そのようなミニバッチは稀にしか現れない
→そこでパラメータ更新時に?乗勾配に関してはEMAではなく、過去の
?乗勾配の最?値を?いるAMSgradという?法が提案された。
Learning rate annealing schedule
? 学習率アニーリング
? annealing:焼きなまし
? ?旦?きくなりすぎた学習率をもう?度?さくするイメージ
? つまり、勾配降下法における損失関数の下がり?を調整してい
る
興味深い?例:Adam+以下の学習率アニーリングによって機械翻訳タスクに成功
Warm Restarts
? cosineなどを?いた周期的な学習率アニーリング
? 通常の学習率アニーリングよりも2~4倍のエポックが必要とな
るが、同等以上のパフォーマンスを達成する。
Restart後の?い学習率によって、前に収束
した最?値から損失関数の異なる領域へと
抜け出せるようになる。
引?:http://ruder.io/deep-learning-optimization-2017/index.html#fnref:22
課題と今後の?針
? 今のところタスクによって最適なOptimizerは異なる
? ?間が経験的にこれ!ってやつを使っている
? Adamのような複雑な最適化よりも、シンプルで軽いSGDが使われることも少なくない
? 最適化理論(局所解の性質、最適化の簡単さ etc...)
? 損失関数の形?体が分かれば、勾配が消失するor爆発するタイミングが分かって、?幅
な改善につながるのでは
? また、損失関数の構造が分かればどのタスクにどのOptimizerが効くかが分かる?
? 近似理論(表現?解析、層とノードの関係 etc...)
? 2階微分まで盛り込んでいるニュートン法(計算量がとてつもなく?きいが収束が早い)
と1階微分の通常の勾配降下法を交互に組み合わせる?法は??そう
? Adadeltaで議論されている次元おかしい問題の突き詰め
参考?献
? Sebastian Ruder. “An overview of gradient descent optimization algorithms”. http://ruder.io/optimizing-gradient-descent/.
? Sebastian Ruder. “Optimization for Deep Learning Highlights in 2017”. http://ruder.io/deep-learning-optimization-
2017/index.html.
? Ian Goodfellow and Yoshua Bengio and Aaron Courville. “Deep Learning”. http://www.deeplearningbook.org.
? Vaswani, A., Shazeer, N., Parmar, N., Uszkoreit, J., Jones, L., Gomez, A. N., … Polosukhin, I. (2017). Attention Is All You
Need. In Advances in Neural Information Processing Systems.
? Loshchilov, I., & Hutter, F. (2017). SGDR: Stochastic Gradient Descent with Warm Restarts. In Proceedings of ICLR 2017.
? Loshchilov, I., & Hutter, F. (2017). Fixing Weight Decay Regularization in Adam. arXiv Preprint arXi1711.05101. Retrieved
from http://arxiv.org/abs/1711.05101
? Zeiler, M. D. (2012). ADADELTA: An Adaptive Learning Rate Method. Retrieved from http://arxiv.org/abs/1212.5701
? Kingma, D. P., & Ba, J. L. (2015). Adam: a Method for Stochastic Optimization. International Conference on Learning
Representations, 1?13.
? Masaaki Imaizumi. “深層学習による?滑らかな関数の推定”. 狠狠撸Share.
/masaakiimaizumi1/ss-87969960.
? nishio.”勾配降下法の最適化アルゴリズム”. 狠狠撸Share. /nishio/ss-66840545

More Related Content

What's hot (20)

PDF
[DL輪読会]Decision Transformer: Reinforcement Learning via Sequence Modeling
Deep Learning JP
?
PDF
[DL輪読会]A Bayesian Perspective on Generalization and Stochastic Gradient Descent
Deep Learning JP
?
PPTX
摆顿尝轮読会闭相互情报量最大化による表现学习
Deep Learning JP
?
PDF
研究効率化Tips Ver.2
cvpaper. challenge
?
PDF
Transformer メタサーベイ
cvpaper. challenge
?
PDF
贰尝叠翱型痴础贰のダメなところ
KCS Keio Computer Society
?
PPTX
モデル高速化百选
Yusuke Uchida
?
PDF
【メタサーベイ】数式ドリブン教师あり学习
cvpaper. challenge
?
PDF
骋础狈(と强化学习との関係)
Masahiro Suzuki
?
PDF
多様な强化学习の概念と课题认识
佑 甲野
?
PPTX
強化学習の基礎と深層強化学習(東京大学 松尾研究室 深層強化学習サマースクール講義資料)
Shota Imai
?
PPTX
【DL輪読会】Reward Design with Language Models
Deep Learning JP
?
PDF
最近の碍补驳驳濒别に学ぶテーブルデータの特徴量エンジニアリング
mlm_kansai
?
PDF
机械学习モデルの判断根拠の説明
Satoshi Hara
?
PPTX
【DL輪読会】SimCSE: Simple Contrastive Learning of Sentence Embeddings (EMNLP 2021)
Deep Learning JP
?
PDF
[DL輪読会]data2vec: A General Framework for Self-supervised Learning in Speech,...
Deep Learning JP
?
PPTX
[DL輪読会]Learning Latent Dynamics for Planning from Pixels
Deep Learning JP
?
PPTX
[DL輪読会]“SimPLe”,“Improved Dynamics Model”,“PlaNet” 近年のVAEベース系列モデルの進展とそのモデルベース...
Deep Learning JP
?
PPTX
[DL輪読会] マルチエージェント強化学習と心の理論
Deep Learning JP
?
PDF
强化学习と逆强化学习を组み合わせた模倣学习
Eiji Uchibe
?
[DL輪読会]Decision Transformer: Reinforcement Learning via Sequence Modeling
Deep Learning JP
?
[DL輪読会]A Bayesian Perspective on Generalization and Stochastic Gradient Descent
Deep Learning JP
?
摆顿尝轮読会闭相互情报量最大化による表现学习
Deep Learning JP
?
研究効率化Tips Ver.2
cvpaper. challenge
?
Transformer メタサーベイ
cvpaper. challenge
?
贰尝叠翱型痴础贰のダメなところ
KCS Keio Computer Society
?
モデル高速化百选
Yusuke Uchida
?
【メタサーベイ】数式ドリブン教师あり学习
cvpaper. challenge
?
骋础狈(と强化学习との関係)
Masahiro Suzuki
?
多様な强化学习の概念と课题认识
佑 甲野
?
強化学習の基礎と深層強化学習(東京大学 松尾研究室 深層強化学習サマースクール講義資料)
Shota Imai
?
【DL輪読会】Reward Design with Language Models
Deep Learning JP
?
最近の碍补驳驳濒别に学ぶテーブルデータの特徴量エンジニアリング
mlm_kansai
?
机械学习モデルの判断根拠の説明
Satoshi Hara
?
【DL輪読会】SimCSE: Simple Contrastive Learning of Sentence Embeddings (EMNLP 2021)
Deep Learning JP
?
[DL輪読会]data2vec: A General Framework for Self-supervised Learning in Speech,...
Deep Learning JP
?
[DL輪読会]Learning Latent Dynamics for Planning from Pixels
Deep Learning JP
?
[DL輪読会]“SimPLe”,“Improved Dynamics Model”,“PlaNet” 近年のVAEベース系列モデルの進展とそのモデルベース...
Deep Learning JP
?
[DL輪読会] マルチエージェント強化学習と心の理論
Deep Learning JP
?
强化学习と逆强化学习を组み合わせた模倣学习
Eiji Uchibe
?

Similar to 翱辫迟颈尘颈锄别谤入门&最新动向 (8)

PPTX
Deep learning basics described
Naoki Watanabe
?
PDF
SGD+α: 確率的勾配降下法の現在と未来
Hidekazu Oiwa
?
PPTX
エンジニアのための机械学习の基础
Daiyu Hatakeyama
?
PDF
社内機械学習勉強会 #5
shingo suzuki
?
PDF
Lookahead Optimizer: k steps forward, 1 step back
harmonylab
?
PDF
第2回nips+読み会: Learning to learn by gradient decent by gradient decent
Taku Tsuzuki
?
PDF
Optimization and simulation with DataRobot
Yuya Yamamoto
?
PDF
[読会]Long tail learning via logit adjustment
shima o
?
Deep learning basics described
Naoki Watanabe
?
SGD+α: 確率的勾配降下法の現在と未来
Hidekazu Oiwa
?
エンジニアのための机械学习の基础
Daiyu Hatakeyama
?
社内機械学習勉強会 #5
shingo suzuki
?
Lookahead Optimizer: k steps forward, 1 step back
harmonylab
?
第2回nips+読み会: Learning to learn by gradient decent by gradient decent
Taku Tsuzuki
?
Optimization and simulation with DataRobot
Yuya Yamamoto
?
[読会]Long tail learning via logit adjustment
shima o
?
Ad

翱辫迟颈尘颈锄别谤入门&最新动向