19. 勾配と活性化の大きさ
左:正規化あり
右:正規化なし
スケールが2桁異なる!
For the unnormalized network, the gradients are distributed with heavy tails,
whereas for the normalized networks the gradients are concentrated around
the mean. (Note that we have to use different scales for the two plots
because the gradients for the unnormalized network are almost two orders of
magnitude larger than for the normalized on.)
39. dropoutとの併用
Understanding the Disharmony between Dropout and Batch Normalization by Variance Shift
https://arxiv.org/abs/1801.05134
正則化の手法としてよく使われるDropoutとBatch Normalizationは、併用すると
パフォーマンスの悪化が起こることがあるが、その原因について検証した研究。
悪化の理由として、Dropoutを行うことで学習時と評価時で分散が変わってしまう一方、
Batch Normalizationは学習で得られた分散を評価時もキープしてしまうため齟齬が
生じることが原因と指摘された。
40. dropoutとの併用
Theoretically, we find that Dropout would shift the variance of a specific neural unit when we transfer the state of that
network from train to test. However, BN would maintain its statistical variance, which is accumulated from the entire learning
procedure, in the test phase. The inconsistency of that variance (we name this scheme as "variance shift") causes
the unstable numerical behavior in inference that leads to more erroneous predictions finally, when applying
Dropout before BN.
ドロップアウトによって特定のニューラルユニットの分散がシフトすることが
わかりました。
ただし、BNはテスト段階で学習手順全体から累積される統計的分散を維持します。
その分散の不一致(この方式を"分散シフト"と呼びます)は、BNの前に
ドロップアウトを適用するとき、推論において不安定な数値的振る舞いを
引き起こします。