狠狠撸

Unsupervised Learning for
Physical Interaction through
Video Prediction
Chelsea Finn@UC Berkeley
Ian Goodfellow@OpenAI
Sergey Levine@Google Brain, UC Berkeley
担当：
落合幸治
理化学研究所
@第2回NIPS読み会?関西 2016/12/26
※発表後追記：動画は画像下のリンクで確認できます
https://www.sites.google.com/site/robotprediction/

目次
? 概要
? デモ
? アーキテクチャー
? 実験結果
? まとめ

概要
? 目的
? カメラの画像とロボットアームの制御データから未来の画像（ピクセル値）を
予測する
? 工夫
? ピクセルの移動を表現するベクトル(motion transformation ?)をニューラル
ネットワークから出力し直前の画像に適用する
? マスクを使い、変化していないピクセルは直前の状態をそのまま出力する
? 制御信号を畳み込みの途中でconcatenateする
? 結果
? 見たことのない物体に対しても移動の予測に成功
? 制御信号の変更で予測画像も変化

デモ
Ground truth expected
学習済みの物体

デモ
Ground truth expected
初めて見る物体

何が嬉しい？
? 教師なし（人によるラベル付け作業無し）で物理法則（画像内の不変
量）を学ばせることができる
? 行動ごとに異なる未来を予測
? ゴール指向の行動計画
? 起こりうる未来の問題の予測（自動運転などで）
? 予測の文脈における興味深い現象の検出
? （物体の領域検出）
応用

目次
? 概要
? デモ
? バリエーション
? 実験結果
? まとめ

アーキテクチャ
入力画像

出力画像

convolutionにrecurrent結合を
持たせたレイヤー

制御信号
（アクションと状態）

マスク

motion transformation ? ?

バリエーション
1. Dynamic Neural Advection(DNA)
2. Convolutional Dynamic Neural Advection(CDNA)
3. Spatial Transformer Predictors(STP)
motion transformation ? ?の計算方法は以下の３つが提案されている。
どれを選んでも、パフォーマンスはほぼ同じ。

Dynamic Neural Advection(DNA)
過去フレームの
ピクセル

予測フレームの
ピクセル

座標

重み

出力先座標の周りで足し合わせ

重み
ここをニューラルネットで推定

Convolutional Dynamic Neural Advection(CDNA)
ここを畳み込みに変更
(DNAは画像全体に適用）

Spatial Transformer Predictors(STP)
現在の座標

1フレーム前の座標

変換行列

画像生成の式

???1 = ?のとき1それ以外0

元画像

元画像 motion transformation
???

元画像 motion transformation
???
10個

元画像 motion transformation conv
???
???

mask
(sum=1)
???
???
???

mask
(sum=1)
???
???
???
10+1個

mask
(sum=1) result
???
???
???
???

mask
(sum=1) result
???
???
???
???
画素の補完

mask
(sum=1) result
???
???
???
???
+
+
=
画素の補完

目次
? 概要
? デモ
? 実験結果
? 定量評価
? アクションの変更
? マスク可視化
? まとめ

定量評価
学習済みの物体
better
提案手法画像を直接予測画像の差分を予測厂办颈辫なし

定量評価
提案手法画像を直接予測画像の差分を予測厂办颈辫なし
better

アクションの変更
最初のフレームのみ入力

最初のフレームのみ入力
変更

Action x 0 Action x 1 Action x 1.5

マスク可視化
ここを可視化
(10+1個ある）

マスク可視化
prediction Mask 0(background) Mask 2

まとめ
? 目的
? カメラの画像とロボットアームの制御データから未来の画像（ピクセル値）を
予測する
? 工夫
? ピクセルの移動を表現するベクトル(motion transformation ?)をニューラル
ネットワークから出力し直前の画像に適用する
? マスクを使い、変化していないピクセルは直前の状態をそのまま出力する
? 制御信号を畳み込みの途中でconcatenateする
? 結果
? 見たことのない物体に対しても移動の予測に成功
? 制御信号の変更で予測画像も変化

定量評価
???? = 10 log10
???2
???
????(?, ?) =
(2? ? ? ? + ?1)(2??? + ?2)
(? ?
2
+ ? ?
2
+ ?1)(??
2
+ ? ?
2
+ ?2)
??? =輝度のmax(通常255) ?1 = 0.01? 2
?2 = 0.03? 2
人の感覚に合わせた画像誤差の評価指標
-1～1の値を取り1で完全一致
画像評価指標
大きいほど誤差が少ない

狠狠撸

第2回nips読み会?関西資料『unsupervised learning for physical interaction through video prediction』

More Related Content

第2回nips読み会?関西資料『unsupervised learning for physical interaction through video prediction』