狠狠撸
Submit Search
Casual learning-machinelearningwithexcelno8
?
1 like
?
381 views
K
KazuhiroSato8
Follow
エクテックカジュアル勉強会 『Excelで機械学習入門(第8回)』 投影資料です。
Read less
Read more
1 of 140
Download now
Downloaded 17 times
More Related Content
Casual learning-machinelearningwithexcelno8
1.
カジュアル勉強会 @仙台 Excelで機械学習入門 第8回 株式会社
エクテック データサイエンティスト
2.
第10回までの流れ 1回~3回 4回~10回 AI周辺の 基本知識 最適化の基本 推論の基本 重回帰分析 機械学習 サポートベクタマシン ナイーブベイズ ニューラルネットワーク RNN/BPTT 強化学習/Q学習
3.
前段
4.
勉强会に参加する以上...
5.
『なにか』を 持って帰って欲しい
6.
『すべて』は難しいけれど 気になった、興味をもった キーワードでも良いので ?元に持って帰って いただけると幸いです
7.
环境について (Surroundings)
8.
Excel 2013, 2016 Google
Spreadsheets
9.
本日のアジェンダ 1. 强化学习と蚕学习 2. 蚕学习のアルゴリズム 3.
蚕学习を贰虫肠别濒で体験
10.
强化学习と蚕学习
11.
试?错误を繰り返す
12.
これはニューラルネットと同じ
13.
より?きな価値のある?动を 模索して最適な解を得ようとする
14.
『强化学习』
15.
『强化学习』 機械学習を?いるロボットは 主要な学習アルゴリズムとして 強化学習を採?している
16.
その代表例が Q学習(Q Learning)
17.
様々なパターンを挑戦させて より?きな価値のある?动を 探す?法を、機械が?ら学習する
18.
??の「?动」から「状態」を把握 ?標を達成できたら『报酬』を与える
19.
この?动と报酬を繰り返すことで 組み合わせることで 机械?らが学んでいく
20.
机械?らが学んでいく
21.
1つの例
22.
巣 餌
23.
巣 餌何度もたどることで 道が濃くなる
24.
AI(??知能) 強化学習 機械学習 深層学習 Q学習
25.
蚕学习のアルゴリズム
26.
アリの具体例から Q学習を理解する
27.
正?形の壁の中に仕切られた8個の部屋が あります。部屋と部屋とをつなぐ通路が あり、アリは?由に?き来でき、 报酬となる飴があります。 この飴にたどり着く最短経路の探索に Q学習を利?します。
28.
エージェント 环境 ?动 报酬
30.
环境
31.
エージェント
32.
报酬
33.
?动
34.
状態 1
35.
状態 2
36.
状態 3
37.
状態 4
38.
状態 5
39.
状態 7
40.
状態 8
41.
状態 9
42.
(1,1) (1,2) (1,3) (2,2)(2,1) (3,1)
(3,2) (3,3) (2,3)には ?れない
43.
(1,1) (1,2) (1,3) (2,2)(2,1) (3,1)
(3,2) (3,3) i?j列に ある部屋を 部屋(i,j) と表現 (2,3)
44.
(1,1) (1,2) (1,3) (2,2)(2,1) (3,1)
(3,2) (3,3) i?j列に ある部屋を 部屋(i,j) と表現 (2,3) i?j列にある部屋(i,j)と状態番号s s = 3(i-1)+j
45.
状態1から 状態9まで 左図のよう に進む
46.
状態1から 状態9まで 左図のよう に進む 部屋(1,1)から飴のある部屋までを 最短で探しにいきます
47.
状態1から 状態9まで 左図のよう に進む 部屋(1,1)の状態を最初の “ステップ”と呼ぶことにします
48.
部屋(1,1) 状態1
49.
部屋(1,2) 状態2
50.
部屋(2,2) 状態5
51.
部屋(3,2) 状態8
52.
部屋(3,3) 状態9
53.
部屋(3,3) 状態9 部屋(1,1)から部屋(3,3)までに 5ステップで到着できます
54.
部屋(3,3) 状態9 到着の可否は別として、学習が1区切り ついたときを “エピソード”といいます
55.
蚕値
56.
Q学習を語る上で、 必要不可?な”蚕値”
57.
蚕値 = Q(s,
a) s: state(状態) a: action(?动)
58.
アリの例で?えば、 アリは飴までの道のりで “フェロモン”を利?しています
59.
“フェロモン”(?り)の 強さに当たる “蚕値”
60.
蚕値は『?动の価値』 と表現されます
61.
『価値』は、ある状態から次の?动を おこしたときに期待される 『魅?度』『报酬』を指します
62.
蚕値=匂いの強さ この匂いの強弱を頼りに 道を選択、探索していきます
63.
状態s Q(s, 下) Q(s, 上) Q(s,
右)Q(s, 左) ある状態では最?で 四つの選択ができます
64.
状態s Q(s, 下) Q(s, 上) Q(s,
右)Q(s, 左) ある状態では最?で 四つの選択ができます 原則として匂いの強い?へ移動します (蚕値の?きい?へ移動する)
65.
Q(s, 下)=7 Q(s, 右)=4 Q(s,
左)=3 蚕値の?きい?を 選択します 部屋(1,2)
66.
蚕値の表とアリとの対応
67.
Q(s, a) 状態 s ?动a Q(s, a)は 離散的な値を とるので、 表(テーブル) で表現する
68.
Q(s, 下)=7 Q(s, 右)=4 Q(s,
左)=3 蚕値の?きい?を 選択します 部屋(1,2)
69.
状態 ?动 上 下 左
右 … … … … … … … … … … 2 Na 7 3 4
70.
即時报酬
71.
?的の部屋へと最短ルートを探索する とき、今いる部屋の隣に飴があるかも
72.
「隣の部屋に移動する」という 1?动で飴が?に?る
73.
「隣の部屋に移動する」という 1?动で飴が?に?る 即時报酬
74.
「隣の部屋に移動する」という 1?动で飴が?に?る 即時报酬 (負の即時报酬も可能)
75.
とはいえ、即時报酬のみに囚われている と?的のゴールにはたどり着けません
77.
即時报酬のみに囚われると 延々とループしてしまう
78.
数式と记号の整理
79.
t: ステップ番号を表す変数 st: ステップtにおける状態を表す変数 at:
ステップtで選択する?动を表す変数 rt: ステップtに、その場で受け取る ? 即時报酬
80.
状態1から 状態9まで 左図のよう に進む
81.
t=1 s1=1 r1=0 a1=右
82.
t=2 s2=2 r2=0 a2=下
83.
t=3 s3=5 r3=2.71 a3=下
84.
t=4 s4=8 r4=0 a4=右
85.
t=5 s5=9 r5=100 a5=Na
86.
蚕値の更新
87.
その部屋の出?から出るとき 蚕値の更新をする必要がある
88.
匂いの情報を更新して 再訪時に最短の道を 選択しやすくするため
89.
『魅?度(価値)』
90.
部屋X 部屋Y 部屋Yへ進んだとき 『魅?度』を記?
91.
部屋X 部屋Y b d ac r x 部屋Yに通じる部屋Xの出?に 記された匂いの強さ(蚕値)を
x
92.
部屋X 部屋Y b d ac r x これから進む部屋Yの4つの出?の 匂いの強さ(蚕値)を
a, b, c, d
93.
部屋X 部屋Y b d ac r x これから進む部屋Yの4つの出?の 匂いの強さ(蚕値)を
a, b, c, d xに設定する部屋Yの「魅?度」 = max(a,b,c,d)
94.
部屋X 部屋Y b d ac r x これから進む部屋Yの4つの出?の 匂いの強さ(蚕値)を
a, b, c, d この「魅?度」を鵜呑みにする と危険な場合も...
95.
部屋X 部屋Y b d ac r x これから進む部屋Yの4つの出?の 匂いの強さ(蚕値)を
a, b, c, d この「魅?度」は減衰することも 考慮に?れる必要がある
96.
部屋X 部屋Y b d ac r x これから進む部屋Yの4つの出?の 匂いの強さ(蚕値)を
a, b, c, d 減衰率, 割引率 γ(がんま)
97.
部屋X 部屋Y b d ac r x これから進む部屋Yの4つの出?の 匂いの強さ(蚕値)を
a, b, c, d xに設定する部屋Yの「魅?度」 = γ尘补虫(补,产,肠,诲) (0<γ<1)
98.
部屋X 部屋Y b d ac r x これから進む部屋Yの4つの出?の 匂いの強さ(蚕値)を
a, b, c, d xに設定する部屋Yの「魅?度」 = r + γ尘补虫(补,产,肠,诲) (0<γ<1)
99.
学习率
100.
『次の部屋』の匂いの強さ = r +
γ尘补虫(补,产,肠,诲)
101.
この『匂いの強さ』を『元の部屋』 の出?情報xの更新情報として そのまま採?はしない
102.
理由は簡単で、 元の部屋の情報量であって 部屋Yに正しい情報が記録されている ことの保証はされていないから
103.
もっというと、アリが学習を 完了したかどうかの保証がない ということになります
104.
このとき、 『学习率』を導?します ※仮に、α(あるふぁ)とします
105.
以前の情報 xと、新たに求めた 匂いの強さの情報 r+γ尘补虫(补,产,肠,诲) から計算される更新量
xは x ← (1-α)x + {r+γ尘补虫(补,产,肠,诲)}
106.
以前の情報 xと、新たに求めた 匂いの強さの情報 r+γ尘补虫(补,产,肠,诲) から計算される更新量
xは x ← (1-α)x + {r+γ尘补虫(补,产,肠,诲)} 新情報 旧情報
107.
部屋X 部屋Y b d ac r 旧情報
x 部屋X 部屋Y b d ac r 新情報 x
108.
状態1 状態2 7 43 4 x=5 部屋X
部屋Y 7 43 4 x=(1-α)*5+α(4+γ*7)
109.
蚕学习の记号で改めて表现すると
110.
x = Q(st,
a)
111.
Q(st, a)←Q(st, at)+ α(γt+1+γ
maxQ(st+1, at+1)-Q(st, at)) at+1 ∈ A(St+1)
112.
先ほどの式の左辺の値 → アリの再訪したときに観測できる値
113.
この値を、『遅延报酬』 といいます(Q学習の原理)
114.
部屋X 部屋Y 状態st 状態st+1 Q(st+1,4) Q(st+1,1) Q(st+1,2) Q(st+1,3) Q(st,1) 期待报酬=γt+1+γmaxQ(st+1,
at+1) γt+1 at+1 ∈ A(St+1)
115.
ε-驳谤别别诲测法
116.
匂いの強さのみで学習していると あるとき、迷路にハマり永遠と ループしてしまう可能性が 潜在的にある
117.
匂いの強さだけでなく 新しい道を探すという 『冒険?』もまた必要となる
118.
匂いの強さだけでなく 新しい道を探すという 『冒険?』もまた必要となる ε(いぷしろん)という確率的な 気まぐれさを導?する
119.
ε (アリの冒険?の割合) 匂いの強さで ?向を決める 気ままに 進む
120.
exploit explore 2 2 51 2 2 51 exploit: 蚕値をもとに選択 explore:
気ままに选択
121.
exploit explore 2 2 51 2 2 51 exploit: 蚕値をもとに選択 explore:
気ままに选択 勝?気ままに greedy(欲張りな)?动をする
122.
exploit explore 2 2 51 2 2 51 exploit: 蚕値をもとに選択 explore:
気ままに选択 最初はεを?きく 学習終盤はεを?さく
123.
exploit explore 2 2 51 2 2 51 exploit: 蚕値をもとに選択 explore:
気ままに选択 修正ε-驳谤别别诲测法
124.
学习の终了条件
125.
γt+1+γ maxQ(st+1, at+1)-Q(st,
at) → 0 at+1 ∈ A(St+1)
126.
γt+1+γ maxQ(st+1, at+1)-Q(st,
at) → 0 at+1 ∈ A(St+1) 0に収束すれば、学習完了。
127.
γt+1+γ maxQ(st+1, at+1)
→ Q(st, at) at+1 ∈ A(St+1)
128.
γt+1+γ maxQ(st+1, at+1)
→ Q(st, at) at+1 ∈ A(St+1) 期待报酬と蚕値が?緒になれば 飽和状態となっている
129.
γt+1+γ maxQ(st+1, at+1)
→ Q(st, at) at+1 ∈ A(St+1) εも?分?さいため、最終的に exploitな?动をすれば?的にたどり着く
130.
蚕学习を贰虫肠别濒で体験
131.
パラメータ設定 エピソード 結果
132.
蚕値は、最初のステップは ランダムに設定される 初期位置 部屋(1,1)
133.
コピペ コピペ
134.
エピソード1が完了 次にエピソード2へ コピペ 初期位置へ戻す
135.
乱数がεより ?さければ “explore”乱数設定 選択された?动 エージェントの 次の位置
136.
次のステップの 最?の蚕値を探す
137.
選択した?动に 対応する 蚕値を更新
138.
いかがでしたでしょうか。
139.
次回は Deep Q Learning DQNに?ります
140.
EoF
Download