狠狠撸

狠狠撸Share a Scribd company logo
Unsupervised Learning for
Physical Interaction through
Video Prediction
Chelsea Finn@UC Berkeley
Ian Goodfellow@OpenAI
Sergey Levine@Google Brain, UC Berkeley
担当:
落合 幸治
理化学研究所
@第2回NIPS読み会?関西 2016/12/26
※発表後追記:動画は画像下のリンクで確認できます
https://www.sites.google.com/site/robotprediction/
目次
? 概要
? デモ
? アーキテクチャー
? 実験結果
? まとめ
目次
? 概要
? デモ
? アーキテクチャー
? 実験結果
? まとめ
概要
? 目的
? カメラの画像とロボットアームの制御データから未来の画像(ピクセル値)を
予測する
? 工夫
? ピクセルの移動を表現するベクトル(motion transformation ?)をニューラル
ネットワークから出力し直前の画像に適用する
? マスクを使い、変化していないピクセルは直前の状態をそのまま出力する
? 制御信号を畳み込みの途中でconcatenateする
? 結果
? 見たことのない物体に対しても移動の予測に成功
? 制御信号の変更で予測画像も変化
目次
? 概要
? デモ
? アーキテクチャー
? 実験結果
? まとめ
デモ
Ground truth expected
https://www.sites.google.com/site/robotprediction/
学習済みの物体
デモ
Ground truth expected
https://www.sites.google.com/site/robotprediction/
初めて見る物体
何が嬉しい?
? 教師なし(人によるラベル付け作業無し)で物理法則(画像内の不変
量)を学ばせることができる
? 行動ごとに異なる未来を予測
? ゴール指向の行動計画
? 起こりうる未来の問題の予測(自動運転などで)
? 予測の文脈における興味深い現象の検出
? (物体の領域検出)
応用
目次
? 概要
? デモ
? アーキテクチャー
? バリエーション
? 実験結果
? まとめ
アーキテクチャ
アーキテクチャ
入力画像
アーキテクチャ
出力画像
アーキテクチャ
convolutionにrecurrent結合を
持たせたレイヤー
アーキテクチャ
skip
アーキテクチャ
制御信号
(アクションと状態)
アーキテクチャ
マスク
アーキテクチャ
motion transformation ? ?
バリエーション
1. Dynamic Neural Advection(DNA)
2. Convolutional Dynamic Neural Advection(CDNA)
3. Spatial Transformer Predictors(STP)
motion transformation ? ?の計算方法は以下の3つが提案されている。
どれを選んでも、パフォーマンスはほぼ同じ。
Dynamic Neural Advection(DNA)
Dynamic Neural Advection(DNA)
過去フレームの
ピクセル
Dynamic Neural Advection(DNA)
予測フレームの
ピクセル
Dynamic Neural Advection(DNA)
座標
Dynamic Neural Advection(DNA)
重み
Dynamic Neural Advection(DNA)
出力先座標の周りで足し合わせ
Dynamic Neural Advection(DNA)
重み
ここをニューラルネットで推定
Convolutional Dynamic Neural Advection(CDNA)
ここを畳み込みに変更
(DNAは画像全体に適用)
Spatial Transformer Predictors(STP)
現在の座標
Spatial Transformer Predictors(STP)
1フレーム前の座標
Spatial Transformer Predictors(STP)
変換行列
Spatial Transformer Predictors(STP)
ここをニューラルネットで推定
Spatial Transformer Predictors(STP)
ここをニューラルネットで推定
画像生成の式
Spatial Transformer Predictors(STP)
ここをニューラルネットで推定
???1 = ?のとき1それ以外0
Spatial Transformer Predictors(STP)
ここをニューラルネットで推定
???1 = ?のとき1それ以外0
アーキテクチャ
元画像
アーキテクチャ
元画像 motion transformation
???
アーキテクチャ
元画像 motion transformation
???
10個
アーキテクチャ
元画像 motion transformation conv
???
???
アーキテクチャ
元画像 motion transformation conv
mask
(sum=1)
???
???
???
アーキテクチャ
元画像 motion transformation conv
mask
(sum=1)
???
???
???
10+1個
アーキテクチャ
元画像 motion transformation conv
mask
(sum=1) result
???
???
???
???
アーキテクチャ
元画像 motion transformation conv
mask
(sum=1) result
???
???
???
???
画素の補完
アーキテクチャ
元画像 motion transformation conv
mask
(sum=1) result
???
???
???
???
+
+
=
画素の補完
目次
? 概要
? デモ
? アーキテクチャー
? 実験結果
? 定量評価
? アクションの変更
? マスク可視化
? まとめ
定量評価
学習済みの物体
better
提案手法 画像を直接予測 画像の差分を予測 厂办颈辫なし
定量評価
初めて見る物体
提案手法 画像を直接予測 画像の差分を予測 厂办颈辫なし
better
アクションの変更
アクションの変更
最初のフレームのみ入力
アクションの変更
最初のフレームのみ入力
変更
アクションの変更
初めて見る物体
Action x 0 Action x 1 Action x 1.5
https://www.sites.google.com/site/robotprediction/
マスク可視化
ここを可視化
(10+1個ある)
マスク可視化
初めて見る物体
prediction Mask 0(background) Mask 2
https://www.sites.google.com/site/robotprediction/
目次
? 概要
? デモ
? アーキテクチャー
? 実験結果
? まとめ
まとめ
? 目的
? カメラの画像とロボットアームの制御データから未来の画像(ピクセル値)を
予測する
? 工夫
? ピクセルの移動を表現するベクトル(motion transformation ?)をニューラル
ネットワークから出力し直前の画像に適用する
? マスクを使い、変化していないピクセルは直前の状態をそのまま出力する
? 制御信号を畳み込みの途中でconcatenateする
? 結果
? 見たことのない物体に対しても移動の予測に成功
? 制御信号の変更で予測画像も変化
以降参考スライド
定量評価
???? = 10 log10
???2
???
????(?, ?) =
(2? ? ? ? + ?1)(2??? + ?2)
(? ?
2
+ ? ?
2
+ ?1)(??
2
+ ? ?
2
+ ?2)
??? =輝度のmax(通常255) ?1 = 0.01? 2
?2 = 0.03? 2
人の感覚に合わせた画像誤差の評価指標
-1~1の値を取り1で完全一致
画像評価指標
大きいほど誤差が少ない

More Related Content

第2回nips読み会?関西資料『unsupervised learning for physical interaction through video prediction』