狠狠撸

??
1. ?? & ???? ??
2. ???? ??
3. ???? ??

? ?? ????? ????
? ????? ?? ??? ?? ???? ??
? ????? ??? ??? ??????
? ????? ??? ??? ??? ?? ??
? ??? ?? ????? ??? ? ? ??? ??.

??action
reward
??~ observatio
n
?????? ?? ?? ??
MDP

????? MDP ???? ..
? ?? ?? ???
? ?? ??? method
..? ???? ??? ????.

? ? ?, ? = ? ? ?+1
+ ? ? ? ? ??+1, ? ?+1 ?? = ?]
? ? ?, ? : Q??
? ?+1
∶??
? : ???
?? ?? ???
? S?? ???? a ??? ??? ? ?? ????
?? ???? ???

?? ???? ??
? MDP ??? ??? ?? ??? ??.

Monte-Carlo
? ????? ???? ???(???? ?? ??? ??).
? ??? ?? ?? -> ???? ? -> ??? ????
???? ????? ??
? 100?? ????? ??? ?? -> ? state?? ???
???? ??? ?? ????? ??

?? =
1
?
?=1
?
??
Monte-Carlo
=
1
?
?? +
?=1
??1
??
?=1
??1
?? = ? ? 1 ???1
=
1
?
?? + (? ? 1)???1
???1 =
1
? ? 1
?=1
??1
??
? ? 1 ???1 =
?=1
??1
??

?? =
1
?
?? + (? ? 1)???1
=
1
?
?? + ???1 ?
1
?
? ???1
= ???1 +
1
?
?? ? ???1
???1 +
1
?
?? ?
1
?
? ???1
= ???1 + ? ?? ? ???1

?? = ???1 + ? ?? ? ???1
?? ???? ???
?? ??
???
?? ????
?? ???? ?
????

Monte-Carlo ??
? ????? ???? ????? ?
? ????? ??? ??? ? ???? ??? ???(ex.
??????)

Time difference
? ?????? ???? Monte-Carlo ??? ?????
???
?? = ??+1 + ???+1
??+1 + ?? (??+1)
?? = ?? + ? ??+1 + ?? (??+1) ? ??
? ? ?? ← ? ?(??) + ? ?? ? ?(??)

Action? ??? ??? ???
?????
Stat
e Q Value

??action
reward
??~ observatio
n
Replay
Buffer
Target Network

Q ??? ??? ? ??
? Action? ????? Q??? ????? ??.
? ????? ?? ???

??? ?????
? Policy based Learning
? ?? action? ?? ????? ?? ??
? Continuous ? action ??? ? ???

?? : http://rail.eecs.berkeley.edu/deeprlcourse-fa17/f17docs/lecture_4_policy_gradient.pdf
?? = ?????? ? ??~? ?(?)[
?
?(??, ? ?)]
?
…
?? ?(?) = ?? log ? ?
? ??
= ? ?~? ? ?
?=1
?
?? log ? ? ? ? ??
?=1
?
? ??, ? ?

A2C
? Stochastic Policy Gradient ??? ??
? Policy gradient ?? ??? ????? Critic ???? ?? ??
actor
critic
env
?? ?(?) = ? ?~? ? ?
?=1
?
?? log ? ? ? ? ??
?=1
?
? ??, ? ?
? ?~? ? ?
?=1
?
?? log ? ? ? ? ?? ? ?(??)

A2C ????? ???
? Softmax? 64*64 ?? ? ? ?? ????? ??
? Stochastic Policy Gradient
? Action? attack ?, actor ??? ???

A2C ????? ???
? ?? ? ??????
? Action space? ?? ??(4096) – ?? ????? q?? ???
? ??? ?? ??
? ?? ? ??????

DDPG
? Deep Deterministic Policy Gradient
? A2C ????? Deterministic Policy Gradient ??
? ???? action ??? ?? ??? ???
? Target network ? replay buffer ??? ??

DDPG? ??!!
? ??? ???? action?? ??? ????!
? Action? ??? ??? ? ???

DDPG? ??!!
actor
critic
env
action
coordinate
Action? ?? ??
Coordinate ? ?? ??

DDPG ???
? ??? ????? ?? ???? ???? ??
? DDPG?? ????? action ??? ???? ??(argmax)
? ?~? ? ?
?=1
?
?? log ? ? ? ? ??
?=1
?
? ??, ? ? Stochastic Policy Gradient
? ?~? ? ? ?? ? ?, ? ? ? ?? ?(?|? ?) Deterministic Policy Gradient

?? ?? ??
? ??? ?? ??? ?? ?? ??
? Action ??actor? ?? ?? actor 2?? ??? ?? Critic
??? ?? ??
- (DPG SPG ??? ??)

狠狠撸

????????? ????? ?????

Recommended

More Related Content

What's hot (20)

Similar to ????????? ????? ????? (20)

More from Euijin Jeong (6)

????????? ????? ?????