狠狠撸

狠狠撸Share a Scribd company logo
強化学習 その5
部分観測モンテカルロ计画法
(部分観测マルコフ决定过程2)
2017-08-07 @ 機械学習勉強会
サイボウズ?ラボ 西尾泰和
過去の資料: https://github.com/nishio/reinforcement_learning
このスライドの目的
大規模なデータを占有してない企業にとって
強化学習の考え方が有用なので
基礎からきちんと理解したい。
そのために機械学習勉強会の何回かに分けて
強化学習の話を連載する。
2
参考文献
2016年10月に左の本が出た。
これを読んでいく。
右下の本が長らくバイブル
だったが2000年(原著1998年)
発行。
3
http://amzn.to/2josIJ1
http://amzn.to/2jCnYQg言及する時 [こ] と呼ぶことにする(著者多いので)
今後の予定
第4回(前回): 1章5節 部分観测マルコフ决定过程
第5回: 1章5節 部分観测マルコフ决定过程であま
り触れられていないモデルフリーのPOMCP
4
今後の予定
第6回
2.1 統計学習の観点から見たTD学習
2.1.1 強化学習と教師付き学習の学習則
2.1.2~3 関数近似を(する/しない)価値関数推定
(ここまで28ページ)
第7回
2.1.4 セミパラメトリック統計学習に基づく定式
化(10ページ)
2.2 理論性能解析とベイズ
(理論薄めでやる。13ページ)
5
今後の予定
第8回 2.3 逆強化学習
第9回 2.4 経験強化型学習
2.5 群強化学習(飛ばします)
第10回 2.6 リスク考慮型強化学習
2.7 複利型強化学習(飛ばします)
第11回
3 強化学習の工学応用
3.3 対話処理における強化学習
6
今後の予定
第12回 3.5 自然言語処理における逆強化学習と模
倣学習
第13回 3.7 深層学習を用いたQ関数の学習
第14回 4 知能のモデルとしての強化学習
7
前回のおさらい
部分観测マルコフ决定过程について学んだ。
2状態の小さい例について実験した。
8
前回のおさらい
部分観测マルコフ决定过程(POMDP)
普通のマルコフ過程と違って
状態の一部が観測不可能
そこで「きっとこうに違いない」という
「信念状態」を導入して新たなMDP
(belief MDP)を構築する
9
前回のおさらい
元のMDPがD次元ならbelief MDPの信念状態bは
? ∈ ? ?
になって大変
幸いbelief MDP上の価値関数Vは区分線形で下に
凸なので、D次元ベクトルの集合で効率的に表現
できる
しかし厳密に計算するとベクトルの数が指数的
オーダーで増える。そこで定数個のベクトルで近
似するのがPoint Based Value Iteration
この両者を実装して2状態3行動で実験した。
10
PBVIの問題点
1. 状態遷移確率を人間が記述して与える
2. (どこまでの状態数でできるか実験してないが)
大規模な問題を解くことが困難(かも)
11
POMCP
“Monte-Carlo Planning in Large POMDPs”*
状態遷移確率を人間が陽に与えるのではなく
ブラックボックスのシミュレータを与えて
繰り返し実験によって確率を計算していく
12
* David Silver and Joel Veness(2010)
POMCPの仕組み
? 信念状態の推定にパーティクルフィルタ
(またの名を逐次的モンテカルロ)を使う
? 価値関数の表現にモンテカルロ木探索を使う
13
具体例を先に出そう
今までの勉強会では数式を追ってから実験をする
流れだったが、今回の件に関しては先に具体例を
紹介して具体的に考えて行った方が良さそう。
14
ガイスター
15
? 2人対戦型ゲーム、盤面は6x6
? 各プレイヤーは赤のコマ4つ
青のコマ4つを持つ。上下左右に動く
? 対戦プレイヤーのコマの色は
そのコマを取るまでわからない
ガイスターの勝利条件
下記3つのいずれかの条件を満たす
? 相手の青コマをすべて取る
? 自分の赤コマをすべて取られる
? 自分の青コマがゴールから脱出する
16
初期配置
部分観測性
“対戦プレイヤーのコマの色は
そのコマを取るまでわからない”
なので、初期状態で相手の8つのコマのうち
どの4つが赤であるのか
8C4 = 70通りの可能性がある
17
注: 2^8 = 256通りと考えると、コマが取られて色が確定したことによる
他のコマの信念の更新が表現できなくなる
Tiny版
人間が問題を理解しやすくするために
4x4盤面に赤と青が1コマずつのバージョンを考
える
この場合、勝利条件は
? 相手の青コマを取る
? 自分の赤コマを取られる
? 自分の青コマがゴールから脱出する
となる
18
人間が考えてみる
Q1: 自分の手番であるコマを進めると、相手のコ
マに接触し、次の手番で相手にそのコマを取られ
る恐れがある。進めるか?
19
人間が考えてみる
A1: そのコマが青である場合、取られると敗北。
そのコマが赤である場合、取られると勝利。
取られずに継続した場合の盤面評価に大きな差が
ないなら、赤の場合は進むべき、青の場合は進ま
ないべき。
20
人間が考えてみる
Q2: (A1をふまえて)
相手のコマが進んで自分のコマに接触した。
取るべき?
21
人間が考えてみる
A2: A1をふまえると、取られる位置に進んできた
そのコマは赤であるので、取ると敗北。取っては
いけない。
22
人間が考えてみる
Q3: (A2をふまえて)
最初に青のコマと赤のコマ、
どちらを動かすべき?
23
人間が考えてみる
A3: A2をふまえると相手はコマを取らないので
取られることを恐れずに青でゴールまでの最短経
路を進むべき
24
人間が考えてみる
Q4: (A3をふまえて)
相手のコマが進んで自分のコマに接触した。
取るべき?
25
人間が考えてみる
A4: A3をふまえると相手は青コマを、取られると
思わずに進めてくるので、もちろん取るべき。
26
矛盾
Q2=Q4:
相手のコマが進んで自分のコマに接触した。
取るべき?
A2: A1をふまえると、取られる位置に進んできた
そのコマは赤であるので、取ると敗北。取っては
いけない。
A4: A3をふまえると相手は青コマを、取られると
思わずに進めてくるので、もちろん取るべき。
→矛盾!
27
何がいけなかったか?
質問に対してTrue or Falseの二値論理で答えよう
としている。
True100%もFalse100%も最適解ではなく、
確率的に混合されたものが最適。
28
おさらい:方策(policy)
方策 ? ?, ? = ? ? ?
方策はある状態で取る手の確率分布。
最適な方策を見つけるのが強化学習。
29
信念状態の更新
? 接触してきたから赤の可能性が高いだろう
? 最初に動いたコマだから青の可能性が高いだ
ろう
? など、観測を元に信念状態を更新する
30
パーティクルフィルタ
相手がコマを接触させてきた!これは赤か?青
か?
隠れ状態には70通りの可能性がある。まずこの
70通りの「パーティクル」の集合を考える
ここから1個サンプリングする。隠れ状態がその
状態だと仮定してシミュレータに次の一手を打た
せる。その次の一手が、実際に観測された相手の
手に一致するものを残す。
これを十分な回数繰り返す。
31
実験に必要なもの
? シミュレータ
? 外から「今の状態はこれだとせよ」と指定できる
ものでなければならない
? 行動を選択して返す
? つまり?(?|?)
? agentはsを直接観測できない=ガイスターのプレ
イヤーは相手の色を観測できない
? 見せていい情報だけ選んでagentに渡す
32
agentの実装
ようは方策をどうするか
手軽なベースラインは
「ランダムにプレイする」だが
今回のケースでそれをやると
「行動を見ても色の推定に役立たない」
という結果になってしまってイマイチ
33
モンテカルロ
各手ごとに10回ランダムに終局までプレイしそ
の勝率が最も高かった手を返す
実装したが、1対戦に4分掛かる(改善の余地あり)
34
素朴な実装
青コマで最短経路でゴールを目指すFastest
人間でもわかる「これ青だろうな」
35
.vvvv.
..vvv.
v.....
......
.xoox.
.xoo.x
1: 44.30%
2: 38.99%
3: 44.30%
4: 24.67%
8: 42.71%
9: 64.19%
10: 40.85%
12: 100.00%
しばらく進んで
進んできたコマを取った直後、相手の動きを見て
青のコマが全部わかったと判断(間違い)
36
.vvvv.
..v.v.
...v..
...o..
x.oox.
.xo..x
2: 100.00%
10: 100.00%
15: 100.00%
.vvvv.
..v.v.
...v..
...o..
x.oox.
.xo..x
これが正解
現状の実装では観測結果と信念が矛盾した時には信念を全部廃棄してやり直し
対戦勝率
FastestはRandomに対しては強い
{‘WIN’: 979, ‘LOSE’: 21}: 勝率98%
Randomにたまに取られることがあっても
無策なRandomよりはだいぶマシだから。
一方FastestとPOMCPだと
{‘LOSE’: 95, ‘WIN’: 5}: 勝率5%
Fastestは行動から色がバレバレだから。
37
後者の実験に24分掛かる
詳しい実験の前に
詳しい実験に進む前にPOMCPの中身を解説
38
POMCP要素解説
パーティクルフィルタ(逐次モンテカルロ)と
モンテカルロ木探索の組み合わせ、と説明したが
実装上は不可分に合体している。
モンテカルロ木探索は部分観測では実行できない
ので、まず信念から状態をサンプリング、その状
態を仮定して探索する。
39
モンテカルロ木探索
強化学習の言葉でいえば2つの方策の組み合わせ
で探索して、行動価値関数Q(s, a)を推定する手法
2つの方策:
?Tree Policy
?Rollout Policy
40
Rollout Policy
現在の状態がTreeに含まれていない時に使う方策
具体的には:着手可能手からランダムに手を選ぶ
41
Rollout Policyで手を決め、盤面を更新、新しいs’をシミュレータに渡して
対戦相手の手a’を得る、盤面を更新、新しいs’’に対してRPで手を決め…
注意点
? 今実装しているエージェント(A1)がRollout
Policyを使っていることと、シミュレータの中
のエージェント(A2)がどういうポリシーで動く
かとは無関係
42
そもそも、たまたまシミュレータ
も僕が実装しているからA1とA2を
混同しそうになるだけであって、
シミュレータはブラックボックス
で他からgivenでもよい。その場合
中に何が入っているかは知りえな
いし、POMCPはそれを知らなくて
もよいアルゴリズム。
モンテカルロ木探索の解説で「互
いにランダムに行動して終局まで
プレイ」と言われることがあるが、
これはたまたま両方のエージェン
トがランダムに手を選ぶ方策なだ
けで、必要条件ではない。
注意点
? モンテカルロ木探索はよく「ランダムに手を
選んで終局までプレイ、勝率で評価」と説明
されるが、これは強化学習の言葉でいえば
時間幅T→∞での報酬を収益とすること。
? これは必要条件ではない。
? POMCPの論文では収益の定義として
割引報酬和を使っている。
? また割り引いた結果が十分小さくなるところ
で打ち切るため、実質的に「木の深さに上限
を設けている」という形になる。
43
Tree Policy
現在の状態がTreeに含まれているときに使う方策
Treeの各ノードは
?各actionことの収益の平均 V(h, a)
?各actionの選択回数 N(h, a)
?信念 B(h)
を持っている。
原始的なgreedy方策:「Vが最大になるaを選ぶ」
よく使われるUCB1は選択回数が少ない選択肢を
高めに評価することで利用と探索のトレードオフ
44
注意点
「現在の状態が~」と説明してたけど、
ツリーのノードは状態ではなく
履歴(history)に対応づいている。
Q: stateに対応付けてはダメなのか?
A: 隠れ状態は観測できないのでエージェントが
どのノードを選んだらいいかがわからない
Q: じゃあ今の観測可能状態に対応付けたら?
A: 観測可能な盤面状況が同じでも過去に通った
経路によって信念が異なるからダメ
45
履歴
履歴は以下のような型
? 初期状態: empty
? もしくは以下の組み合わせ
? 直前までの履歴 h
? 自分が取った行動 a
? その結果得られた観測 o
a, o, a, o, …という不定長の列になる
46
ツリーはこんな形
47
ツリーはこんな形(圧縮)
hの時、hはツリーに含まれているので
Tree Policyがつかわれる。
手a0を選び行動した結果、o2を観測したとする
(h, a0, o2)はツリーにないのでノードを生成し、
Rollout Policyで続きを実行する。
48
49
実験結果
想定するエージェントA2がFastestのまま、
対戦相手エージェントA0を
0.1の確率でランダムに行動するFastestP(0.1)
→{'LOSE': 98, 'WIN': 2}
50
確率を変えて実験
Fastest→ {‘LOSE’: 95, ‘WIN’: 5}
FastestP(0.1)→ {'LOSE': 98, 'WIN': 2}
FastestP(0.3)→ {‘LOSE’: 95, ‘WIN’: 5}
FastestP(0.5)→ {'LOSE': 92, 'WIN': 8}
FastestP(0.7)→ {'LOSE': 95, 'WIN': 5}
FastestP(0.9)→ {'LOSE': 90, 'WIN': 10}
Random→ {'LOSE': 88, 'WIN': 12}
ランダム戦略とFastest戦略のどんな比率での混合
に対してもPOMCPは9割以上の勝率
51
速度が問題
A2がFastest系のままでは、人間がA0をする時に
「赤コマで青コマのようにゴールを目指す」とい
う自明な攻略法が存在して面白くない。
せめてA2をモンテカルロにしたいが速度が問題
52
遅い理由
以前、本来見てはいけない対戦相手の情報を見て
しまうバグを入れたことがあり、それを警戒する
あまり「Gameオブジェクトはsideを引数として
取ってViewオブジェクトを返し、エージェント
はViewオブジェクトだけを見る」という設計に
している。
この結果、毎回インスタンス作成コストがかかる
53
遅い理由2
Treeの実装が手抜きで、ハッシュに(h, a, o)を
キーとしてツッコんでいる。
Treeを真面目にツリーで実装しようと思ったら
a(具体的には動かすコマとその動く向き)や
o(具体的には盤面状況)を整数にマップする必要
があるが面倒だったので(h, a, o)のタプルにして
Pythonにハッシュ値を計算させている。
どう考えてもメモリの無駄遣い。
54
遅い理由3
昨日の夜に気付いたので実験する暇がなかったの
だが
「各手ごとに10回ランダムに終局までプレイ」
ってガイスターの問題設定だと終局までに手数が
かなり多くなるのではないか?
割引報酬和タイプにしたらよいのでは…。
傍証: POMCP対Fastestは100対戦24分だがPOMCP
対Randomは100対戦49分。
55
まとめ
? Point Based Value Iterationは状態遷移確率を与
える必要がある
? そこでブラックボックスシミュレータを使う
部分観測モンテカルロ计画法(POMCP)を実装
? ガイスターに適用して、ある確率で青コマで
のゴールを目指すような相手に対しては隠れ
状態を推定して9割近い勝率を出した
? もっと人間にとって自明でない思考ルーチン
で実験をしたい
56
参考文献
David Silver and Joel Veness
"Monte-Carlo planning in large POMDPs."
Advances in neural information processing
systems. 2010.
57

More Related Content

What's hot (20)

猫でも分かるVariational AutoEncoder
猫でも分かるVariational AutoEncoder猫でも分かるVariational AutoEncoder
猫でも分かるVariational AutoEncoder
Sho Tatsuno
?
强化学习の基础的な考え方と问题の分类
强化学习の基础的な考え方と问题の分类强化学习の基础的な考え方と问题の分类
强化学习の基础的な考え方と问题の分类
佑 甲野
?
パターン認識と機械学習 §6.2 カーネル関数の構成
パターン認識と機械学習 §6.2 カーネル関数の構成パターン認識と機械学習 §6.2 カーネル関数の構成
パターン認識と機械学習 §6.2 カーネル関数の構成
Prunus 1350
?
ガウス過程回帰の導出 ( GPR : Gaussian Process Regression )
ガウス過程回帰の導出 ( GPR : Gaussian Process Regression )ガウス過程回帰の導出 ( GPR : Gaussian Process Regression )
ガウス過程回帰の導出 ( GPR : Gaussian Process Regression )
Kenji Urai
?
ディープラーニングのフレームワークと特许戦争
ディープラーニングのフレームワークと特许戦争ディープラーニングのフレームワークと特许戦争
ディープラーニングのフレームワークと特许戦争
Yosuke Shinya
?
畳み込みニューラルネットワークの高精度化と高速化
畳み込みニューラルネットワークの高精度化と高速化畳み込みニューラルネットワークの高精度化と高速化
畳み込みニューラルネットワークの高精度化と高速化
Yusuke Uchida
?
[DL Hacks]Variational Approaches For Auto-Encoding Generative Adversarial Ne...
[DL Hacks]Variational Approaches For Auto-Encoding  Generative Adversarial Ne...[DL Hacks]Variational Approaches For Auto-Encoding  Generative Adversarial Ne...
[DL Hacks]Variational Approaches For Auto-Encoding Generative Adversarial Ne...
Deep Learning JP
?
ベイズ最适化
ベイズ最适化ベイズ最适化
ベイズ最适化
MatsuiRyo
?
笔搁惭尝轮読#5
笔搁惭尝轮読#5笔搁惭尝轮読#5
笔搁惭尝轮読#5
matsuolab
?
[DL輪読会]Wasserstein GAN/Towards Principled Methods for Training Generative Adv...
[DL輪読会]Wasserstein GAN/Towards Principled Methods for Training Generative Adv...[DL輪読会]Wasserstein GAN/Towards Principled Methods for Training Generative Adv...
[DL輪読会]Wasserstein GAN/Towards Principled Methods for Training Generative Adv...
Deep Learning JP
?
モテ?ルアーキテクチャ観点からの高速化2019
モテ?ルアーキテクチャ観点からの高速化2019モテ?ルアーキテクチャ観点からの高速化2019
モテ?ルアーキテクチャ観点からの高速化2019
Yusuke Uchida
?
[DL輪読会]近年のオフライン強化学習のまとめ —Offline Reinforcement Learning: Tutorial, Review, an...
[DL輪読会]近年のオフライン強化学習のまとめ —Offline Reinforcement Learning: Tutorial, Review, an...[DL輪読会]近年のオフライン強化学習のまとめ —Offline Reinforcement Learning: Tutorial, Review, an...
[DL輪読会]近年のオフライン強化学習のまとめ —Offline Reinforcement Learning: Tutorial, Review, an...
Deep Learning JP
?
Positive-Unlabeled Learning with Non-Negative Risk Estimator
Positive-Unlabeled Learning with Non-Negative Risk EstimatorPositive-Unlabeled Learning with Non-Negative Risk Estimator
Positive-Unlabeled Learning with Non-Negative Risk Estimator
Kiryo Ryuichi
?
强化学习その1
强化学习その1强化学习その1
强化学习その1
nishio
?
ゼロから始める深層強化学習(NLP2018講演資料)/ Introduction of Deep Reinforcement Learning
ゼロから始める深層強化学習(NLP2018講演資料)/ Introduction of Deep Reinforcement Learningゼロから始める深層強化学習(NLP2018講演資料)/ Introduction of Deep Reinforcement Learning
ゼロから始める深層強化学習(NLP2018講演資料)/ Introduction of Deep Reinforcement Learning
Preferred Networks
?
畳み込み尝蝉迟尘
畳み込み尝蝉迟尘畳み込み尝蝉迟尘
畳み込み尝蝉迟尘
tak9029
?
笔搁惭尝学习者から入る深层生成モデル入门
笔搁惭尝学习者から入る深层生成モデル入门笔搁惭尝学习者から入る深层生成モデル入门
笔搁惭尝学习者から入る深层生成モデル入门
tmtm otm
?
摆顿尝轮読会闭逆强化学习と骋础狈蝉
摆顿尝轮読会闭逆强化学习と骋础狈蝉摆顿尝轮読会闭逆强化学习と骋础狈蝉
摆顿尝轮読会闭逆强化学习と骋础狈蝉
Deep Learning JP
?
サポートベクターマシン(厂痴惭)の数学をみんなに説明したいだけの会
サポートベクターマシン(厂痴惭)の数学をみんなに説明したいだけの会サポートベクターマシン(厂痴惭)の数学をみんなに説明したいだけの会
サポートベクターマシン(厂痴惭)の数学をみんなに説明したいだけの会
Kenyu Uehara
?
翱辫迟颈尘颈锄别谤入门&最新动向
翱辫迟颈尘颈锄别谤入门&最新动向翱辫迟颈尘颈锄别谤入门&最新动向
翱辫迟颈尘颈锄别谤入门&最新动向
Motokawa Tetsuya
?
猫でも分かるVariational AutoEncoder
猫でも分かるVariational AutoEncoder猫でも分かるVariational AutoEncoder
猫でも分かるVariational AutoEncoder
Sho Tatsuno
?
强化学习の基础的な考え方と问题の分类
强化学习の基础的な考え方と问题の分类强化学习の基础的な考え方と问题の分类
强化学习の基础的な考え方と问题の分类
佑 甲野
?
パターン認識と機械学習 §6.2 カーネル関数の構成
パターン認識と機械学習 §6.2 カーネル関数の構成パターン認識と機械学習 §6.2 カーネル関数の構成
パターン認識と機械学習 §6.2 カーネル関数の構成
Prunus 1350
?
ガウス過程回帰の導出 ( GPR : Gaussian Process Regression )
ガウス過程回帰の導出 ( GPR : Gaussian Process Regression )ガウス過程回帰の導出 ( GPR : Gaussian Process Regression )
ガウス過程回帰の導出 ( GPR : Gaussian Process Regression )
Kenji Urai
?
ディープラーニングのフレームワークと特许戦争
ディープラーニングのフレームワークと特许戦争ディープラーニングのフレームワークと特许戦争
ディープラーニングのフレームワークと特许戦争
Yosuke Shinya
?
畳み込みニューラルネットワークの高精度化と高速化
畳み込みニューラルネットワークの高精度化と高速化畳み込みニューラルネットワークの高精度化と高速化
畳み込みニューラルネットワークの高精度化と高速化
Yusuke Uchida
?
[DL Hacks]Variational Approaches For Auto-Encoding Generative Adversarial Ne...
[DL Hacks]Variational Approaches For Auto-Encoding  Generative Adversarial Ne...[DL Hacks]Variational Approaches For Auto-Encoding  Generative Adversarial Ne...
[DL Hacks]Variational Approaches For Auto-Encoding Generative Adversarial Ne...
Deep Learning JP
?
ベイズ最适化
ベイズ最适化ベイズ最适化
ベイズ最适化
MatsuiRyo
?
笔搁惭尝轮読#5
笔搁惭尝轮読#5笔搁惭尝轮読#5
笔搁惭尝轮読#5
matsuolab
?
[DL輪読会]Wasserstein GAN/Towards Principled Methods for Training Generative Adv...
[DL輪読会]Wasserstein GAN/Towards Principled Methods for Training Generative Adv...[DL輪読会]Wasserstein GAN/Towards Principled Methods for Training Generative Adv...
[DL輪読会]Wasserstein GAN/Towards Principled Methods for Training Generative Adv...
Deep Learning JP
?
モテ?ルアーキテクチャ観点からの高速化2019
モテ?ルアーキテクチャ観点からの高速化2019モテ?ルアーキテクチャ観点からの高速化2019
モテ?ルアーキテクチャ観点からの高速化2019
Yusuke Uchida
?
[DL輪読会]近年のオフライン強化学習のまとめ —Offline Reinforcement Learning: Tutorial, Review, an...
[DL輪読会]近年のオフライン強化学習のまとめ —Offline Reinforcement Learning: Tutorial, Review, an...[DL輪読会]近年のオフライン強化学習のまとめ —Offline Reinforcement Learning: Tutorial, Review, an...
[DL輪読会]近年のオフライン強化学習のまとめ —Offline Reinforcement Learning: Tutorial, Review, an...
Deep Learning JP
?
Positive-Unlabeled Learning with Non-Negative Risk Estimator
Positive-Unlabeled Learning with Non-Negative Risk EstimatorPositive-Unlabeled Learning with Non-Negative Risk Estimator
Positive-Unlabeled Learning with Non-Negative Risk Estimator
Kiryo Ryuichi
?
强化学习その1
强化学习その1强化学习その1
强化学习その1
nishio
?
ゼロから始める深層強化学習(NLP2018講演資料)/ Introduction of Deep Reinforcement Learning
ゼロから始める深層強化学習(NLP2018講演資料)/ Introduction of Deep Reinforcement Learningゼロから始める深層強化学習(NLP2018講演資料)/ Introduction of Deep Reinforcement Learning
ゼロから始める深層強化学習(NLP2018講演資料)/ Introduction of Deep Reinforcement Learning
Preferred Networks
?
畳み込み尝蝉迟尘
畳み込み尝蝉迟尘畳み込み尝蝉迟尘
畳み込み尝蝉迟尘
tak9029
?
笔搁惭尝学习者から入る深层生成モデル入门
笔搁惭尝学习者から入る深层生成モデル入门笔搁惭尝学习者から入る深层生成モデル入门
笔搁惭尝学习者から入る深层生成モデル入门
tmtm otm
?
摆顿尝轮読会闭逆强化学习と骋础狈蝉
摆顿尝轮読会闭逆强化学习と骋础狈蝉摆顿尝轮読会闭逆强化学习と骋础狈蝉
摆顿尝轮読会闭逆强化学习と骋础狈蝉
Deep Learning JP
?
サポートベクターマシン(厂痴惭)の数学をみんなに説明したいだけの会
サポートベクターマシン(厂痴惭)の数学をみんなに説明したいだけの会サポートベクターマシン(厂痴惭)の数学をみんなに説明したいだけの会
サポートベクターマシン(厂痴惭)の数学をみんなに説明したいだけの会
Kenyu Uehara
?
翱辫迟颈尘颈锄别谤入门&最新动向
翱辫迟颈尘颈锄别谤入门&最新动向翱辫迟颈尘颈锄别谤入门&最新动向
翱辫迟颈尘颈锄别谤入门&最新动向
Motokawa Tetsuya
?

More from nishio (20)

量子アニーリングマシンのプログラミング
量子アニーリングマシンのプログラミング量子アニーリングマシンのプログラミング
量子アニーリングマシンのプログラミング
nishio
?
夏プロ报告
夏プロ报告夏プロ报告
夏プロ报告
nishio
?
滨罢と経営
滨罢と経営滨罢と経営
滨罢と経営
nishio
?
部分観測モンテカルロ计画法を用いたガイスターAI
部分観測モンテカルロ计画法を用いたガイスターAI部分観測モンテカルロ计画法を用いたガイスターAI
部分観測モンテカルロ计画法を用いたガイスターAI
nishio
?
交渉力について
交渉力について交渉力について
交渉力について
nishio
?
滨蹿文から机械学习への道
滨蹿文から机械学习への道滨蹿文から机械学习への道
滨蹿文から机械学习への道
nishio
?
组织横断型研究室构想
组织横断型研究室构想组织横断型研究室构想
组织横断型研究室构想
nishio
?
2017首都大学东京情报通信特别讲义
2017首都大学东京情报通信特别讲义2017首都大学东京情报通信特别讲义
2017首都大学东京情报通信特别讲义
nishio
?
良いアイデアを出すための方法
良いアイデアを出すための方法良いアイデアを出すための方法
良いアイデアを出すための方法
nishio
?
线形?非线形?
线形?非线形?线形?非线形?
线形?非线形?
nishio
?
机械学习キャンバス0.1
机械学习キャンバス0.1机械学习キャンバス0.1
机械学习キャンバス0.1
nishio
?
首都大学东京「情报通信特别讲义」2016年西尾担当分
首都大学东京「情报通信特别讲义」2016年西尾担当分首都大学东京「情报通信特别讲义」2016年西尾担当分
首都大学东京「情报通信特别讲义」2016年西尾担当分
nishio
?
勾配降下法の 最適化アルゴリズム
勾配降下法の最適化アルゴリズム勾配降下法の最適化アルゴリズム
勾配降下法の 最適化アルゴリズム
nishio
?
奥颈蹿颈で位置推定
奥颈蹿颈で位置推定奥颈蹿颈で位置推定
奥颈蹿颈で位置推定
nishio
?
贰厂笔8266贰齿で位置推定
贰厂笔8266贰齿で位置推定贰厂笔8266贰齿で位置推定
贰厂笔8266贰齿で位置推定
nishio
?
Raspberry Piで Wifiルータを作る
Raspberry PiでWifiルータを作るRaspberry PiでWifiルータを作る
Raspberry Piで Wifiルータを作る
nishio
?
Wifiにつながるデバイス(ESP8266EX, ESP-WROOM-02, ESPr Developerなど)
Wifiにつながるデバイス(ESP8266EX, ESP-WROOM-02, ESPr Developerなど)Wifiにつながるデバイス(ESP8266EX, ESP-WROOM-02, ESPr Developerなど)
Wifiにつながるデバイス(ESP8266EX, ESP-WROOM-02, ESPr Developerなど)
nishio
?
「ネットワークを作る」 ってどういうこと?
「ネットワークを作る」ってどういうこと?「ネットワークを作る」ってどういうこと?
「ネットワークを作る」 ってどういうこと?
nishio
?
「ネットワークを作ることで イノベーションを加速」 ってどういうこと?
「ネットワークを作ることでイノベーションを加速」ってどういうこと?「ネットワークを作ることでイノベーションを加速」ってどういうこと?
「ネットワークを作ることで イノベーションを加速」 ってどういうこと?
nishio
?
未踏社団での办颈苍迟辞苍别の活用
未踏社団での办颈苍迟辞苍别の活用未踏社団での办颈苍迟辞苍别の活用
未踏社団での办颈苍迟辞苍别の活用
nishio
?
量子アニーリングマシンのプログラミング
量子アニーリングマシンのプログラミング量子アニーリングマシンのプログラミング
量子アニーリングマシンのプログラミング
nishio
?
夏プロ报告
夏プロ报告夏プロ报告
夏プロ报告
nishio
?
滨罢と経営
滨罢と経営滨罢と経営
滨罢と経営
nishio
?
部分観測モンテカルロ计画法を用いたガイスターAI
部分観測モンテカルロ计画法を用いたガイスターAI部分観測モンテカルロ计画法を用いたガイスターAI
部分観測モンテカルロ计画法を用いたガイスターAI
nishio
?
交渉力について
交渉力について交渉力について
交渉力について
nishio
?
滨蹿文から机械学习への道
滨蹿文から机械学习への道滨蹿文から机械学习への道
滨蹿文から机械学习への道
nishio
?
组织横断型研究室构想
组织横断型研究室构想组织横断型研究室构想
组织横断型研究室构想
nishio
?
2017首都大学东京情报通信特别讲义
2017首都大学东京情报通信特别讲义2017首都大学东京情报通信特别讲义
2017首都大学东京情报通信特别讲义
nishio
?
良いアイデアを出すための方法
良いアイデアを出すための方法良いアイデアを出すための方法
良いアイデアを出すための方法
nishio
?
线形?非线形?
线形?非线形?线形?非线形?
线形?非线形?
nishio
?
机械学习キャンバス0.1
机械学习キャンバス0.1机械学习キャンバス0.1
机械学习キャンバス0.1
nishio
?
首都大学东京「情报通信特别讲义」2016年西尾担当分
首都大学东京「情报通信特别讲义」2016年西尾担当分首都大学东京「情报通信特别讲义」2016年西尾担当分
首都大学东京「情报通信特别讲义」2016年西尾担当分
nishio
?
勾配降下法の 最適化アルゴリズム
勾配降下法の最適化アルゴリズム勾配降下法の最適化アルゴリズム
勾配降下法の 最適化アルゴリズム
nishio
?
奥颈蹿颈で位置推定
奥颈蹿颈で位置推定奥颈蹿颈で位置推定
奥颈蹿颈で位置推定
nishio
?
贰厂笔8266贰齿で位置推定
贰厂笔8266贰齿で位置推定贰厂笔8266贰齿で位置推定
贰厂笔8266贰齿で位置推定
nishio
?
Raspberry Piで Wifiルータを作る
Raspberry PiでWifiルータを作るRaspberry PiでWifiルータを作る
Raspberry Piで Wifiルータを作る
nishio
?
Wifiにつながるデバイス(ESP8266EX, ESP-WROOM-02, ESPr Developerなど)
Wifiにつながるデバイス(ESP8266EX, ESP-WROOM-02, ESPr Developerなど)Wifiにつながるデバイス(ESP8266EX, ESP-WROOM-02, ESPr Developerなど)
Wifiにつながるデバイス(ESP8266EX, ESP-WROOM-02, ESPr Developerなど)
nishio
?
「ネットワークを作る」 ってどういうこと?
「ネットワークを作る」ってどういうこと?「ネットワークを作る」ってどういうこと?
「ネットワークを作る」 ってどういうこと?
nishio
?
「ネットワークを作ることで イノベーションを加速」 ってどういうこと?
「ネットワークを作ることでイノベーションを加速」ってどういうこと?「ネットワークを作ることでイノベーションを加速」ってどういうこと?
「ネットワークを作ることで イノベーションを加速」 ってどういうこと?
nishio
?
未踏社団での办颈苍迟辞苍别の活用
未踏社団での办颈苍迟辞苍别の活用未踏社団での办颈苍迟辞苍别の活用
未踏社団での办颈苍迟辞苍别の活用
nishio
?

Recently uploaded (6)

TAUHANNGNOLIMETANGEREKAYAYANBOISGL!!!.pptx
TAUHANNGNOLIMETANGEREKAYAYANBOISGL!!!.pptxTAUHANNGNOLIMETANGEREKAYAYANBOISGL!!!.pptx
TAUHANNGNOLIMETANGEREKAYAYANBOISGL!!!.pptx
SheanOrvinBalao
?
cardiom??????????????????????yopathy .pdf
cardiom??????????????????????yopathy .pdfcardiom??????????????????????yopathy .pdf
cardiom??????????????????????yopathy .pdf
ssuser16d694
?
それ、マルハラかも。 ~メッセージ上の句点による暗黙的ハラスメント の実在性についてのサーベイ実験
それ、マルハラかも。 ~メッセージ上の句点による暗黙的ハラスメント の実在性についてのサーベイ実験それ、マルハラかも。 ~メッセージ上の句点による暗黙的ハラスメント の実在性についてのサーベイ実験
それ、マルハラかも。 ~メッセージ上の句点による暗黙的ハラスメント の実在性についてのサーベイ実験
KeisukeHattori1
?
ALPHABET FLASHCARD FOR PRESCHOOL TO KINDERGARTEN LEARNERS.docx
ALPHABET FLASHCARD FOR PRESCHOOL TO KINDERGARTEN LEARNERS.docxALPHABET FLASHCARD FOR PRESCHOOL TO KINDERGARTEN LEARNERS.docx
ALPHABET FLASHCARD FOR PRESCHOOL TO KINDERGARTEN LEARNERS.docx
ruthbarnuevo1
?
タワーマンション効果 ?高所からの眺望が、人の心理状態に及ぼす影響を探るRCTs
タワーマンション効果 ?高所からの眺望が、人の心理状態に及ぼす影響を探るRCTsタワーマンション効果 ?高所からの眺望が、人の心理状態に及ぼす影響を探るRCTs
タワーマンション効果 ?高所からの眺望が、人の心理状態に及ぼす影響を探るRCTs
KeisukeHattori1
?
第57回計測自動制御学会北海道支部講演会 特別講演 システムインテグレーションとロボットミドルウェア
第57回計測自動制御学会北海道支部講演会 特別講演 システムインテグレーションとロボットミドルウェア第57回計測自動制御学会北海道支部講演会 特別講演 システムインテグレーションとロボットミドルウェア
第57回計測自動制御学会北海道支部講演会 特別講演 システムインテグレーションとロボットミドルウェア
OpenRTM1
?
TAUHANNGNOLIMETANGEREKAYAYANBOISGL!!!.pptx
TAUHANNGNOLIMETANGEREKAYAYANBOISGL!!!.pptxTAUHANNGNOLIMETANGEREKAYAYANBOISGL!!!.pptx
TAUHANNGNOLIMETANGEREKAYAYANBOISGL!!!.pptx
SheanOrvinBalao
?
cardiom??????????????????????yopathy .pdf
cardiom??????????????????????yopathy .pdfcardiom??????????????????????yopathy .pdf
cardiom??????????????????????yopathy .pdf
ssuser16d694
?
それ、マルハラかも。 ~メッセージ上の句点による暗黙的ハラスメント の実在性についてのサーベイ実験
それ、マルハラかも。 ~メッセージ上の句点による暗黙的ハラスメント の実在性についてのサーベイ実験それ、マルハラかも。 ~メッセージ上の句点による暗黙的ハラスメント の実在性についてのサーベイ実験
それ、マルハラかも。 ~メッセージ上の句点による暗黙的ハラスメント の実在性についてのサーベイ実験
KeisukeHattori1
?
ALPHABET FLASHCARD FOR PRESCHOOL TO KINDERGARTEN LEARNERS.docx
ALPHABET FLASHCARD FOR PRESCHOOL TO KINDERGARTEN LEARNERS.docxALPHABET FLASHCARD FOR PRESCHOOL TO KINDERGARTEN LEARNERS.docx
ALPHABET FLASHCARD FOR PRESCHOOL TO KINDERGARTEN LEARNERS.docx
ruthbarnuevo1
?
タワーマンション効果 ?高所からの眺望が、人の心理状態に及ぼす影響を探るRCTs
タワーマンション効果 ?高所からの眺望が、人の心理状態に及ぼす影響を探るRCTsタワーマンション効果 ?高所からの眺望が、人の心理状態に及ぼす影響を探るRCTs
タワーマンション効果 ?高所からの眺望が、人の心理状態に及ぼす影響を探るRCTs
KeisukeHattori1
?
第57回計測自動制御学会北海道支部講演会 特別講演 システムインテグレーションとロボットミドルウェア
第57回計測自動制御学会北海道支部講演会 特別講演 システムインテグレーションとロボットミドルウェア第57回計測自動制御学会北海道支部講演会 特別講演 システムインテグレーションとロボットミドルウェア
第57回計測自動制御学会北海道支部講演会 特別講演 システムインテグレーションとロボットミドルウェア
OpenRTM1
?

强化学习その5