狠狠撸

狠狠撸Share a Scribd company logo
General AI Challenge
Round1 中間報告
2017/4/24
メンバー:落合幸治(大阪大学)、野口裕貴(慶應大学)
Index
? 方針説明
? 今までにやったこと
? 今日质问したいこと
タスク確認
? 以下の環境での報酬(reward)最大化
? 環境
1. 文字を受け取り、文字を返す
2. 最初の問題は一文字ずつ、後半の問題は複数文字返す
? エンターで入力確定
3. 報酬は”+”(1)、” “(0)、”-”(-1)の3種類
4. 転移学習を達成すること(簡単な問題を解くための知識を複雑な問題に適用+以
前の問題も覚えておく)
特徴
? 行動空間が広い。
? ASCIIの印刷可能文字+空白:69文字
? 英字:26
? 数字:10
? 記号:32
? 制御文字(空白):1
? 後半の問題では68 x 文字数
? 破壊的忘却を防ぐ必要がある。
? 新しいタスクに変わっても前のタスクを可能な限り覚えておかなけれ
ばいけない
? 問題が切り替わったことに気づく必要がある。
方針
期待する能力 実現方法
問題の切り替わりに気づく 行動結果を予測するモデルを持たせ
る
破壊的忘却を防ぐ パラメータを”ネットワーク重み”と”
隠れ変数”に分割する
正解がわからない場合は探索行動を
とり、法則性が分かってくるにつれ
て報酬を取りに行く
期待する観測結果とのクロスエント
ロピーで報酬を定義する
Variational Forward Model
? ? ?:行動
? ? ?:観測
? ??:潜在変数
? encoder、decoderはニューラル
ネット
? VAEのdecoder側に行動の入力を入
れたもの
? おそらくオリジナルの手法
? 確率モデルに限定しない場合、似た
モデルは多数ある(主に時系列予測
と強化学習)
???1
? ??1 ???1
? ?
??
encoder decoder
Variational Forward Model
???1
? ??1 ???1
? ?
??
encoder decoder
?, ??
?
4, +
General AI Challenge
の場合?、?ともに文字
空間(各文字の出現頻
度を表した分布)
リカレント結合で過去
の入力を考慮(本当は
アテンションがあった
ほうがいい)
予測に必要な情報を
エンコード(蓄積)
入力は過去の行動と
その結果
ある行動を仮定
Variational Forward Model
? General AI Challengeの問題への適用はまだ
? というか、ほとんど手をつけれていないので、今日色々プログラムの
使い方について教えて欲しい。
? 人の視覚モデルに見立てて実験した時の結果で以下の能力を確
認
? 一度に環境の一部分しか観測できない状態でも、それらを統合してあ
る種の外界モデルを作れる。→今解いている問題の特定
? 外界に一定の秩序がある場合、まだ見ていない部分についても推測で
きる。→まだ試していない行動の結果についてもある程度予測できる
? 一度間違った推論をしても、追加の観測で修正される。
テスト課題
? 人の視野
? 人の視野の中で文字が見える程度の解像度があるのは
中心窩だけ
? 人は目を細かく動かして情報を収集している(サッ
ケード運動)
? しかし
? 世界は目の動きに関わらず、安定しているように感じる
? サッケードが不可能なほど短い間だけ画像が提示されても
何の画像かは認識できる
? Variational Forward Modelの適用
? ? ?:行動=注視点(画像左上からの絶対座標)
? ??:観測=視野内の画像)
? ??:潜在変数=今見ている画像全体(数字)
モデル詳細
実験の大半で設定した超パラメタ:
? 10回の観測(タイムステップ)
? xは14*14=196次元(全体画像の1/4)、zは10次元
? encoder: 196+2D入力→128D→128D→128D LSTM→10D mean,
var→10D z sample
? decoder: 10D z sample+2D→128D→128D→196D出力
学習の様子:ロス関数
普通にうまくいった
(左:全体ロス 右:VAEロスの二値交差エントロピー項のみ(画像の生成))
タイムステップは左から右→
上の行:観測
真ん中:次の観測
下:次の観測の予測
学習の様子:潜在変数
zからロジスティック回帰で文字のクラスを予測
(新たに層をzから追加し、勾配を阻止したのでVFNの学習に影響を与えない)
学習されてる潜在変数と文字のクラスの相関がわかる
xのクラス
予測
学習の様子:観測が増える→精度が上がる
??@t-??@t+1の平均で定量的評価
左:?? = ロジスティック回帰に使った交差エントロピー
右:?? = VAEロスの二値交差エントロピー
両方の値は正であるほど観測を増やすたびに精度上昇に効果がある
と示す
その他:観測画像の大きさ
やはり一度に観測可能な領域を小さくすると学習が難しい
緑、右上:14x14 紫、右下:7x7
8かな?文字の認識がやはり難しい
その他:隠れ素子数
全層の素子数は同じn次元
水色:n=128
紫:n=256
青:n=512
生成した例
(テストデータ)
生成した例
(テストデータ)
生成した例
(テストデータ)
画像完成
左上のパッチから残り3パッチを生成
独立に生成
(反して順に非独立に生成したら
PixelCNNのような自己回帰モデルみ
たいになりますね)
観測
本物
リンク
実装レポ
https://github.com/seann999/vfm
方針
期待する能力 実現方法
問題の切り替わりに気づく 行動結果を予測するモデル
を持たせる
破壊的忘却を防ぐ パラメータを”ネットワーク
重み”と”隠れ変数”に分割す
る
正解がわからない場合は探
索行動をとり、法則性が分
かってくるにつれて報酬を
取りに行く
期待する観測結果とのクロ
スエントロピーで報酬を定
義する
これまでで説明
方針
期待する能力 実現方法
問題の切り替わりに気づく 行動結果を予測するモデル
を持たせる
破壊的忘却を防ぐ パラメータを”ネットワーク
重み”と”隠れ変数”に分割す
る
正解がわからない場合は探
索行動をとり、法則性が分
かってくるにつれて報酬を
取りに行く
期待する観測結果とのクロ
スエントロピーで報酬を定
義する
これまでで説明
目的関数
???1
? ??1 ? ??1
? ?
??
encoder decoder
?, ??
?
4, +
? ?
H ? ??|??+1, ? ?+1 , ? ? ?
=E ? ? ?|? ?+1,? ?+1
? log ? ? ?
=H ? ??|??+1, ? ?+1 + DKL ? ??|??+1, ? ?+1 ||? ? ?
? 入力候補を一通り入れて見て以下の関数がを最大化する行動を出力
? 複数文字入力する場合は、別に文字列生成のネットワーク(?(? ?|???1)を用意
? ? ? :期待する結果
“ー” “ ” “+”
? ?(?)
予測の不確定さ 期待する報酬
今日、聞きたいこと
? 問題一覧はどのファイルを見ればわかる?
? 特定の問題からスタートさせるオプション
Appendix : VFMはなぜ今の構造か
???1 ? ?
??
観測は行動と外部の
状態から決定される
と仮定
独立
現在の状態は未来の
行動とは独立
=センサー値が変化
してもそれが行動で
説明できるときは変
化してほしくない
Appendix : VFMはなぜ今の構造か
???1 ? ?
?? 観測される2次元
画像
Ex)視覚
? 目を動かしても外界は変
化してほしくない
? 視野から外れても物体は
消滅しない
? 移動中ピクセル単位では
全ての物体が動いている
中で、静止してる物体と
動いている物体を区別し
たい
3次元の物体 目や体の動き
Appendix : VFMはなぜ今の構造か
???1 ? ?
?? 検査結果
Ex)病気診断
? 真の状態(病名)は直接
は観測できない
? 観測できるのは行なった
検査の結果のみ
? 一度の検査で得られる情
報は限られている
? 少ない検査で隠れている
状態(病名)を特定した
い
? 治療結果も状況の特定に
効果を発揮する
病名 検査
Appendix : VFMはなぜ今の構造か
???1 ? ?
?? リアクション
Ex)対話システム
? 内面(性格、気分、欲求)
は観測できない
? 内面が特定できれば提供す
べきアクションは決定でき
る
ex)毎日、特定時刻に映画を見る習
慣がある人物がその時刻にスク
リーンの前に座り、見かけの映画
が一つだけあるなら次の行動はか
なり性格に予測できる
? 必ずしも言語は必要ではな
い
? 音声認識も含めて内面推定
の問題にできる
? 今:センサー→アクション
? 理想:センサー→内面
内面→アクション
内面
(性格、気分、
欲求、etc)
発話、図示
ジェスチャー
Appendix : VFMはなぜ今の構造か
???1 ? ?
??
ここをどうやって決
定するか?
Appendix : VFMはなぜ今の構造か
???1 ? ?
?????1
行動と独立だから観
測値だけ入れればい
い?
Appendix : VFMはなぜ今の構造か
???1 ? ?
??
行動と独立だから観
測値だけ入れればい
い?
???1? ??1
行動は外界経由で観測
値に影響を与えている
→zもaの影響を受ける
Appendix : VFMはなぜ今の構造か
???1 ? ?
?????1? ??1
行動もzの決定に使
用する
(過去の行動は変更
不可能なのでほぼ観
測値として扱う)
デコーダーに次時刻
の行動を与えてなる
べく行動と独立なzに
なるよう誘導する
(どの行動をとっても
それなりに観測値が
予測できるようなzを
作らせる)

More Related Content

General ai challenge round1 中間報告