ゼロから始める深層強化学習(NLP2018講演資料)/ Introduction of Deep Reinforcement LearningPreferred Networks
?
Introduction of Deep Reinforcement Learning, which was presented at domestic NLP conference.
言語処理学会第24回年次大会(NLP2018) での講演資料です。
http://www.anlp.jp/nlp2018/#tutorial
ゼロから始める深層強化学習(NLP2018講演資料)/ Introduction of Deep Reinforcement LearningPreferred Networks
?
Introduction of Deep Reinforcement Learning, which was presented at domestic NLP conference.
言語処理学会第24回年次大会(NLP2018) での講演資料です。
http://www.anlp.jp/nlp2018/#tutorial
11. V ar[p ] =j
=
=
V ar [ w x
i=1
∑
n
ij i]
V ar
i=1
∑
n
[w xij i]
i=1
∑
n
?
?
?
+
+
(E[w ]) V ar[x ]ij
2
i
(E[x ]) V ar[w ]i
2
ij
V ar[w ]V ar[x ]ij i
?
?
?
(4.43)
(4.44)
(4.45)
29. Adagraは次の式
ただし、
?は1.0 × 10 ~ 1.0 × 10 程度の微小な項
0除算の回避用途
θ =i
(t)
θ ? gi
(t?1)
√G + ?ii
(t)
η
i
(t)
(4.56)
gi
G ii
(t)
: =
=
? E(θ )θ i
g ? g
τ =0
∑
t
i
(τ )
i
(τ )
(4.55)
(4.57)
?6 ?8
30. Gは対角行列なので、(4.56)は要素積に置き換えられる
通常の勾配降下法ではθ = θ ? ηg
G は、 t までの勾配の2乗和
直感的にはこれまでのステップで小さかった勾配の
成分が次のステップでは大きくなるように更新され
る
θ =i
(t)
θ ? ⊙ gi
(t?1)
√G + ?ii
(t)
η
i
(t)
(4.56)
i
(t)
i
(t?1)
i
(t)
ii
32. 「勾配の2乗」(= g ⊙ g )の移動平均E[g ]は
(以降ではg はg と表記)
t t t
2
E[g ]2
t = ρE[g ] + (1 ? ρ)g2
t?1 t
2
(4.59)
(t)
t
33. Adagradの式
このG_tをE[g ]で置は換える
さらに はRMS[g] に置き換えられて
θ =t+1 θ ? ⊙ gt
√G + ?t
η
t (4.60)
t
2
θ =t+1 θ ? gt
√E[g ] + ?2
t
η
t (4.61)
√E[g ]2
t t
θ =t+1 θ ? gt
RMS[g]t
η
t (4.62)
36. 元の論文読むと
このΔxが Δθのこと
?x t for the current
time step is not known, so we assume the
curvature is locally
smooth and approximate ?x t by compute the
exponentially
decaying RMS over a window of size w of
previous ?x
“
“
37. RMSprop
RMSprop は Adadelta と同様に、Adagrad の学習率の
急激な減少を解決する手法
E[g?2]t = 0.9E[g?2] + 0.1g?2t?1 t (4.67)
θt+1 = θ ? gt
√E[g?2] + ?t
η
t (4.68)
38. Adam(adap ve?moment?es ma on)
つぎの2つをパラメータの更新式に使う方式
勾配の2乗の移動平均v := E[g ] の減衰平均
勾配の単純な移動平均m := E[g] の減衰平均
β , β ∈ [0, 1)はハイパーパラメタ
移動平均の減衰率を調整
t
2
t
t t
m =t
v =t
β m + (1 ? β )g1 t?1 1 t
β v + (1 ? β )g2 t?1 2 t
2
(4.69)
(4.70)
1 2
39. v ,m は真のモーメントから偏りがあるので、この偏りを0
にした推定値 , を求めたい。
について、v = 0で初期化した場合、v は
(1 ? β ) β ? g のような項もあるんじゃ
ないかと思うが、(1 ? β ) ? 1として無視されてい
ると思われる
t t
vt^ mt^
v =t β v + (1 ? β )g2 t?1 2 t
2
(4.70)
0 t
v =t (1 ? β ) β ? g2
i=1
∑
t
2
t?i
i
2
(4.71)
2
n
∑i=n
t
2
t?i
i
2
2
n
40. ここから2次モーメントの移動平均E[v ]と真の2次モー
メントE[g ]の関係を求めると
v =t (1 ? β ) β ? g2
i=1
∑
t
2
t?i
i
2
(4.71)
t
t
2
E[v ] =t
=
=
E [(1 ? β ) β ? g2
i=1
∑
t
2
t?i
i
2
]
E[g ] ? (1 ? β ) β + ζt
2
2
i=1
∑
t
2
t?i
E[g ] ? (1 ? β ) + ζt
2
2
t
(4.72)
(4.73)
(4.74)