�ݺ�ߣ

???? ????? ??? Part 1
- ?? ?? -
???

Reference
? ??? ?? ?? ???? ??????.
?? : ???? ???? ??? ????
??? ?? : http://wikibook.co.kr/reinforcement-learning

Index
1. MDP
2. ??
3. ????
4. ???? ?????
???? ????? ??? Part 1
- ?? ?? -

1. MDP(Markov Decision Process)

1. MDP(Markov Decision Process)
?? = s??(State)
??(Action) ? ? = a
????(Reward Function) ? ?
?
= E[??+1|?? = ?, ? ? = ?]
?? ?? ??
(State Transition Probability) ???`
?
= P[??+1 = ?`|?? = ?, ? ? = ?]
???(Discount Factor) ? (?, ? �� [0,1])

2. ??(Policy)
? ? ? = ?[? ? = ?|?? = ?]
??(Policy)? ??

3. ????(Value Function)
????(Value Function)
?? ????(State Value Function) ?? ????(Action Value Function)
??? ???? ???? ? ????
??? ?? ??? ?? ???? ??
?? ???? ? ??? ??
?? ????? ????
?? ??? ??? ??? ???? ??

?? ????(State Value Function)
? ? = ?[??|?? = ?]
? ? = ?[??+1 + ???+2 + ?2
??+3 + ? |?? = ?]
- ?? ????? ??
? ? = ?[??+1 + ?(??+2 + ???+3 + ? )|?? = ?]
- ??? ?? ???? ??? ?? ????
(?? = ??+1 + ???+2 + ?2
??+3 + ?)
- ??? ?? ???? ? ? ?? ??? ?? ????
? ? = ?[??+1 + ???+1|?? = ?] - ???(?)?? ??? ?? ????

?? ????(State Value Function)
? ? = ?[??+1 + ???+1|?? = ?] - ???(?)?? ??? ?? ????
? ? = ?[??+1 + ??(??+1)|?? = ?] - ????? ??? ?? ????
? ? ? = ? ?[??+1 + ?? ?(??+1)|?? = ?] - ??? ??? ?? ????
(? ??+1 = ?[??+1|??+1 = ?])

?? ????(Action Value Function)
?? ????(Action Value Function)
= ???(Q Function)

???(Q Function)
? ? ? = ?
?��?
?(?|?)? ?(?, ?)
? ?(?, ?) = ? ?[??+1 + ?? ?(??+1, ? ?+1)|?? = ?, ? ? = ?] - ???? ??
- ?? ????? ??? ??? ???

4. ???? ?????
(Dynamic Programming)

???? ?????(Dynamic Programming, DP)???
????(Dynamic)
?? ???
(?????? ????
??? ?? ??? ???)
?????(Programming)
??? ?????? ???
??? ?? ???? ?? ?????
???? ????? ?
+
? ??? ? ?? ?? ?? ???? ??? ???
?? ? ??? ?? ??? ??? ???? ?.

4. ???? ?????(Dynamic Programming)
? ???? ?????? ?????? ??????

???? ?????? ??? ????? ??? ??? ?????.

???? ?????(DP)
?? ?????(Policy Iteration) ?? ?????(Value Iteration)
???? ???????
?? ?? ???? ????
???? ?? ?? ??? ?? ?
???? ???????
?? ?? ???? ????
???? ?? ?? ??? ?? ?

?? ?????(Policy Iteration)
?? ?????
= ?? ?? ???? ??
= ?? + ????
= ?? + ?? ????(???) + ?? ????(=???, argmax)
= ?? ??(Policy Evaluation)
+ ?? ?? ??(Greedy Policy Improvement)

?? ??(Policy Evaluation)
?? ?? -> ?? ?? ???
? ? ? = ? ?[??+1 + ?? ?(??+1)|?? = ?]
? ? ? = ?
?��?
?(?|?)(??+1 + ? ?
?`��?
???`
?
? ?(?`))
- ?? ?? ???? ??
- ?? ??? ?? ?? ???
? ?+1 ? = ?
?��?
?(?|?)(??+1 + ?? ? ?` ) - k? k+1? ??? ?? ?? ???
(?? ?? ?? = 1)

?? ?? ??(Greedy Policy Improvement)
?? ?? ?? -> ???(argmax)
???? ??
?? ??? ??? ?? ???
(?? ?? ?? = 1)
- ?? ?? ???? ?? ??? ??
? ?(?, ?) = ? ?[??+1 + ?? ?(??+1)|?? = ?, ? ? = ?]
? ?(?, ?) = ? ?
? + ?? ?(?`)
?` ? = ?????? ?��? ? ?(?, ?)

?? ?????(Value Iteration)
?? ?????
= ?? ?? ???? ??
= ?? ????(=???, max)
??(?, ?) = ?[??+1 + ? max
?`
??(??+1, ?`) |?? = ?, ? ? = ?]
?? ? = max
?
?[??+1 + ???(??+1)|?? = ?, ? ? = ?] - ?? ?? ???? ??
- ???? ??? ?? ?? ???
? ?+1(?) = max
?��?
(? ?
? + ?? ? ?` ) k? k+1? ??? ?? ??? ?? ?? ???
(?? ?? ?? = 1)

�ݺ�ߣ

????? ??? Part 1

More Related Content

????? ??? Part 1