狠狠撸
Submit Search
Cv勉強会cvpr2018読み会: Im2Flow: Motion Hallucination from Static Images for Action Recognition
?
3 likes
?
1,619 views
T
Toshiki Sakai
Follow
Im2Flow: Motion Hallucination from Static Images for Action Recognition
Read less
Read more
1 of 24
Download now
Downloaded 24 times
More Related Content
Cv勉強会cvpr2018読み会: Im2Flow: Motion Hallucination from Static Images for Action Recognition
1.
論文紹介 Im2Flow: Motion Hallucination
from Static Images for Action Recognition 2018/7/7@CV勉強会 酒井 俊樹
2.
自己紹介 名前:酒井 俊樹 所属:NTTドコモ 仕事:Deep Learningを使ったAPI/サービスの研究開発 ● 画像認識のAPI開発/法人様向けソリューション提供 ●
スポーツ動画解析機能開発 ● 最近は言語系や時系列データにも手を 本発表は個人で行うものであり、所属組織とは関係ありません。 2
3.
論文概要 Im2Flow: Motion Hallucination
from Static Images for Action Recognition ● 著者:Ruohan Gao et al.(UT Austin) 概要 ● 画像から動き(Optical Flow)を推定する ネットワークを提案 ● ネットワークをラベルなしの動画像 データから学習する ● 推定したFlowと元画像を用いることで、 画像からの動作(action)推定の精度が向上 3
4.
静止画→動き→動作認識 ● 画像データを整理する際など、画像単体から動作を推定する必要がある →動きの情報のない画像データから行動?動作を推定する必要性 ● 人は画像単体から次の動きをある程度予測できる ●
人の視覚野は動いている物体を切り取った静止画に 対しても動画と同じように反応する[Kourtzi+ 2000] ①静止画からの動き(Optical Flow)の推定がNeural Networkにもできるのでは? ②動きを推定することが、静止画からの動作の推定に役立つのでは? 4 背側経路 =where経路 →運動を処理 腹側経路 =what経路 →対象の認識等
5.
先行研究: 動作推定 ● 動画からの動作推定 ○
画像特徴量を利用した推定から、 徐々にDeep Learningを利用した手法に 変化してきた 5 ● 画像からの動作推定 ○ Body/Body Parts/姿勢を推定して 動きを推定する手法 ○ 物体を検出して動きを推定する手法 ○ 物体と人のinteractionから推定する手法 Simonyan+ NIPS 2014 Thurau+ CVPR 2008 Delaitre+ NIPS 2011
6.
先行研究: ● Image から動き(Optical
flow)を推定 ○ Walker+ ECCV 2016 ■ CNNを用いた分類で解く ■ ピクセルごとに、方向及び 強度の分類を行う 6 ● 画像→画像の変換 ○ 画像入力に対して、画像を出力する研究が GANの発明以降、盛ん ○ Encoder-Decoderの形式が良く使われる ○ 画像からのオプティカルフローの推定は、 RGB画像からOptical Flow画像の推定と とらえることが可能
7.
提案手法 1. 画像入力に対して、動き(Optical Flow)を推定するモデルを Encoder-Decoderの形で実現する 2.
上記の学習をUnlabeledな動画データをもとに学習する 3. 上記推定したOptical Flowを用いて、画像からの動作推定を行う 7
8.
下準備: Flowの表現方法 ● 通常Optical
Flowは2channelの画像データ であらわされる ○ 水平方向の符号つき強度 x 垂直方向の符号つき強度 ○ 2channelだと、一般的な画像認識向け 学習済みモデルを使うことができない 8 ● Optical Flowを角度と強度に分けたうえで 3channelで表現する手法を提案 ○ F1=sin(θ) ○ F2=cos(θ) ○ F3=Magnitude horizontal vertical
9.
提案手法: Optical Flow推定のネットワーク 9 連続する2フレームからの Optical
Flow推定(先行研究多数) Pixel Loss →L1 loss ResNet 18 UCF-101(Action Recognition)で学習済み Content Loss →Perceptual loss
10.
提案手法: Loss ● 数式で表現すると以下の通り ●
Magnitudeが小さい動きは、手振れ等のカメラの動きに起因するもの →学習する必要があまりない →lossをMagnitudeで重みづけして学習 10
11.
提案手法: Optical Flowを用いたAction
Recognition ● 動画からのアクション認識ではTwo Stream CNNが使われる ○ フレーム画像を処理する CNNとOptical Flowを処理する ○ 推定したOptical Flowから動画データと同じように学習?認識処理を行う 11
12.
実験1: 画像からのOptical Flowの推定 ●
データセット ○ UCF-101:101種類の人のアクションの分類データ ○ HMDB-51: 51種類の人のアクションの分類データ ○ Weizmann: 単純な人の動作の動画データと特徴量のデータセット 12 動画データから 切り出した フレームを 学習/テストに利用
13.
実験1: Optical Flowの推定 ●
比較対象:画像からOptical Flowを推定する手法 ○ Walker et al(2016) ■ CNNベースのclassificationの手法 ■ UCF-101で学習 ○ Pintea et al(2014) ■ Random forestベースの手法 ○ ベースライン ■ 最近傍探索ベースの手法 ■ AlexNetで画像からのアクション推定を学習 ■ pool5の特徴が一番似ているものを元に計算 13
14.
実験1: 評価指標 ● 指標 ○
End-Point-Error(EPE): 予測のベクトル終点と正解のベクトルの終点のユークリッド距離 ○ Direction Similarity(DS): 予測と正解のコサイン距離 ○ Orientation Similarity(OS): DSの絶対値 ● 計算方法 ○ a)全ピクセルで計算 ○ b)Canny edgeを計算し、その上だけで計算 ○ c)Foreground Region上だけで計算 14 予測 正解 EPE DS
15.
実験1: 定量評価 ● 先行研究に比べて、提案手法が精度が高い 15
16.
実験1: 定性評価 ● Pintea ○
単純動作には高精度 ○ 複雑な動作は困難 ● Walker ○ 全体的にうまく予測できて いる ○ 全体の動きのトレンドを予 測する傾向が強い ● 提案手法 ○ より精細な予測が可能 ○ 背景ノイズが多い場合など は失敗する 16
17.
実験1: Motion Potentical ●
画像入力に対するOptical Flowの大きさから、Motionの潜在能力を計算可能 17
18.
実験2: アクションの推定 ● データセット ○
UCF-101 ○ HMDB-51 ○ Penn Action: 動画からsportsアクションを推定するデータセット ○ Willow: 画像から7つのアクション分類 ○ Stanford10: Standord40のサブセット。画像からの 10のアクションへの分類 ○ PASCAL2012: 画像から11クラスのアクション分類のデータセット 18 どちらか、もしくは両方を Optical Flow推定の学習で利用
19.
実験2: Optical Flowからのアクション推定結果 ●
条件 ○ 1)Walkerで推定したOptical Flow ○ 3-4)提案手法で推定した Optical Flow(UCF-100で学習 or HMDBで学習 or 両方で学習) ○ 5) 動画の2フレームから計算したオプティカルフローを入力とした場合 (精度の上限) ● 先行研究手法よりも提案手法の方が高精度 ● Pennでは、動画からのOptical Flowの推定時と同程度の精度 19 1 2 3 4 5
20.
実験2: two streamでの動作推定 ●
条件 ○ 1)画像データのみからの推定 ○ 2)画像データ+先行研究の手法で推定した Optical Flow ○ 3-5)画像データ+提案手法で推定した Optical Flow ○ 6)画像データ+動画の2フレームから推定した Optical Flow(精度の上限) ● 提案手法が、画像単体からの推定よりももっとも精度向上(1-6%のgain) ● Flowの学習と違うドメインのデータセットでも精度向上 20 1 2 3 4 5 6
21.
実験2: 推定したOptical Flowによる認識精度向上 ●
画像的に似ている動作をOptical Flowの推定により区別できるようになった 21
22.
その他の実験結果 ● Dynamic scene
recognition ○ 自然現象の映像データの分類で 同じように精度向上が見られるか ○ im2flow自体も本データで再学習 22 ● Optical Flowを使わない、静止画からの アクション認識手法との比較 ○ 動作認識モデルをよりDeepにした方が 精度が上がることを確認 ○ 他の手法よりも良い精度
23.
なぜ画像から推定したFlowがAction認識に効くのか ● 画像からの動作推定には、動きのような複雑な高次元の信号に注意を向けること が必要だが、画像データ単体からは、動きを推定するための学習が困難 ○ 画像データ単体には上記を学習するための信号が不足している (似た画像で違う動きの画像がたくさんある
) ○ 以下のようなOptical Flow関連の知見とも一致 - 2枚の画像からOptical Flowを推定してから動作推定する方が、 2枚の単体の画像を 入力するより精度が上がる ● 大量の動画データから、正則化のための事前確率を学習できた ○ 画像からの動作推定のデータセットはデータ数が少ない →過学習しやすい 23
24.
まとめ ● 画像データから動きを推定する手法を提案 ● 推定した動きが動作推定における深情報となり、SOTAを上回る精度で動作推定が 可能になった 24
Download