狠狠撸

狠狠撸Share a Scribd company logo
Taking a Deeper Look at the Inverse
Compositional Algorithm
Zhaoyang Lv, Frank Dellaert, James M. Rehg, Andreas Geiger
@denkiwakame
2019/02/23 3D勉強会@関
東
1
発表者について
@denkiwakame
● ~’15 Web application Engineer (part-time)
● ?’15 京都大学 松山研究室(B4?M2)
● ?’17 企業研究所
● ‘17? Software Engineer (CV/GPU)
Interests
● 3D Computer Vision
○ Generalized Camera Calibration [M.Nishimura+,ICCV15] ← 修論
● Machine Learning
○ Graphical Models, MRF optimization
● Engineering
○ GPGPU (CUDA) / SIMD / Distributed Computing
2[M.Nishimura+, ICCV15] A Linear Generalized Camera Calibration from Three Intersecting Reference Planes
3
3D Computer Vision は奥が深い
4
修士まで
多視点幾何
Camera Calibration
辞めた会社
MRF Optimization
Graphical Models
いま
HPC (GPGPU)
Robotics / Deep Learning
depth
estimation
3D
reconstruction
multiview
veometry
SLAM
real-time acceleration
本題
5
3D勉強会@関東#3 (2018/09/29)
6
/MaiNishimura2/banet-dense-bundle-adjustment-network-3d
ICLR 2019 Accept (Oral) 2018/12
https://openreview.net/group?id=ICLR.cc/2019/Conference
7
ICLR 2019 Statistics
● An early overview of ICLR2019 (※ 今年5月 開催予定)
○ https://prlz77.github.io/iclr2019-stats/
● Review Ranking (BA-Net Review Score: 8,7,9)
○ https://chillee.github.io/OpenReviewExplorer/
8
476 posters
1418 submissions
22orals
3D幾何最適化 + Deep が注目されている
● 3D勉強会@関東#1
○ CodeSLAM: Learning a Compact, Optimisable Representation for
Dense Visual SLAM
● 3D勉強会@関東#3
○ BA-Net: Dense Bundle Adjustment Network
9
CVPR’18 Best Paper Honorable Mention
ICLR’19 Accept (Oral = 22/1418)
関連する論文を読みます(また)
Taking a Deeper Look at the Inverse
Compositional Algorithm
Zhaoyang Lv, Frank Dellaert, James M. Rehg, Andreas Geiger
@denkiwakame
2019/02/23 3D勉強会@関
東
10
著者情報
● Zhaoyang Lv https://www.cc.gatech.edu/~zlv30/
○ 3D Scene Flow, Optical Flow, Motion Tracking
○ SfM, SLAM
● MPI Autonomous Vision Group Intern の成果(?)
11
Dense Image Alignment problem
● 2枚の画像間を対応付けるタスク
12[J.Engel+,ECCV14] LSD-SLAM: Large-Scale Direct Monocular SLAM / MPI Sintel Dataset http://sintel.is.tue.mpg.de/
Optical Flow LSD-SLAM
2D motion や 3D のカメラ運動を推定
warp
Lucas-Kanade Algorithm Revisit
● 移動先の画素値が等しいと仮定
13[BD Lucas+,IJCAI81] An iterative image registration technique with an application to stereo vision
first-order Taylor expansion
誤差を1次近似
image I transformed
by warping parameter ξ
original
template
Gauss-Newton 法
Δξを求める
近似ヘッセ行列
Related Work
Lucas-Kanade Algorithm Revisit
● 移動先の画素値が等しいと仮定
14[BD Lucas+,IJCAI81] An iterative image registration technique with an application to stereo vision
first-order Taylor expansion
誤差を1次近似
image I transformed
by warping parameter ξ
original
template
Gauss-Newton 法
Δξを求める 微分画像(ξk
で変形)
近似ヘッセ行列 ξk
に依存
毎 iteration で計算
ξで微分
Related Work
IC (Inverse Compositional) Algorithm
● Additive vs Compositional
● Forward vs Inverse
15
[BD Lucas+,IJCAI81] An iterative image registration technique with an application to stereo vision
[S. Baker+, IJCV04] Lucas-kanade 20 years on: A unifying framework
additive compositional
Forward Inverse
T
I
Related Work
● Lucas-Kanade [BD Lucas+,IJCAI81] ● IC Algorithm [S.Baker+,IJCV04]
16
[BD Lucas+,IJCAI81] An iterative image registration technique with an application to stereo vision
[S. Baker+, IJCV04] Lucas-kanade 20 years on: A unifying framework
IC (Inverse Compositional) Algorithm
parameter update
objective function
first-order Taylor Expansion
ξk
に非依存
pre-compute できる!
Related Work
外れ値がある場合 - ロバスト推定手法
● Robust M-Estimatior
● Robust Version of IC-Algorithm
17
最小二乗法
誤差が正規分布に従うと仮定
Robust M-Estimator
誤差関数ρの選び方が重要
外れ値に小さな重みを与えるような偶関数
誤差関数ρ によって決まる対角行列
Related Work
Optimization
● Objective (Robust IC Algorithm)
● Levenberg-Marquardt Algorithm
○ λ?∞:最急降下法,λ?0: Gauss-Newton 法 と一致
18
damping factor
E(ξ+Δξ) - E(ξ) の値に応じて λの値を制御
例: 適当な初期値 λ: 0.001, E(x+Δx)>E(x) ならλ←λ*10, E(x+Δx)<E(x) なら λ← λ* 0.1
E(x) が確実に減少するまで λを大きくし続け,減少する際に λを小さくする
jacobian
approximate Hessian
Related Work
既存の枠組みの限界
● 入力画像にノイズが乗っているような場合収束し辛い
○ 高周波なテクスチャがある環境など
● M-Estimator において 適切な 誤差関数ρの選択が難しい
○ データとノイズの分布はふつう未知である
● LM 法の damping factor は heuristic に決められている
○ 全然上手く収束しない場合もある(被害者の声)
19
提案手法
● 入力画像にノイズが乗っているような場合収束し辛い
○ 高周波なテクスチャがある環境など
● M-Estimator において 適切な 誤差関数ρの選択が難しい
○ データとノイズの分布はふつう未知である
● LM 法の damping factor は heuristic に決められている
○ 全然上手く収束しない場合もある(被害者の声)
20
マッチングに適した特徴を学習
データに適した誤差関数を学習
最適なλを推論
Contributions of this paper
● Two-view Feature Encoder
○ マッチングに適した特徴を CNN で学習 (BA-Netと似ている)
● Convolutional M-Estimator
○ M-Estimator における 重み行列 W をネットワークで推定
● Trust Region Network
○ LM法 の damping factor を ネットワークで推定
21
Data-driven Robust IC Algorithm
trainable in end-to-end framework !
いい感じの誤差関数 ρを
学習で求められる!
Overview
22
Overview
23
(A) Two-view Feature Encoder
(B)+(C) Optimizer
“Deep” IC Algorithm
● Objective
● Levenberg-Marquardt Algorithm
24
モデルによって推定
learned feature
learned
damping factor
1. Two-view feature Encoder
● image I と template T から feature map を抽出
○ 結合した 2-view の画像を入力とする
○ I, T を直に用いる場合よりも空間的な相関を捉えることができる
25
concatenation
2. Convolutional M-Estimator
● ネットワークで Wθ
を推定
○ Wθ
を対角行列として parametrize
○ Iθ
, Tθ
を入力として 4層のNN で Wθ
の成分を直接推定
26
M-Estimator において
データに依存した誤差関数を求められる
3. Trust Region Network
● Trust Region = 信頼領域法
○ 信頼領域の中で目的関数をある程度下げる点を次の点とする
○ LM法は信頼領域法を Gauss-Newton 法に当てはめたもの
27
Experiments
● Warping Function
○ K: intrinsic parameter matrix / D(x) : depth
○ Tξ
: rigid body transform, ξ∈ SE(3)
● Training Objective
○ Tgt
: ground truth transform
28
3D Rigid Motion Estimation from RGB-D inputs
input 3D points
Datasets
● MovingObject3D
○ 3D Objects from ShapeNet [A.X.Chang+,arXiv]
○ Blender で レンダリング
● BundleFusion
○ BundleFusion Dataset [A.Dai+,ToG17]
○ https://youtu.be/keIirXrRb1k
● Dynamic BundleFusion
○ Dynamic BundleFusion Dataset [Z.Lv+,ECCV18]
○ 3:10 ~
[A.X.Chang+, arXiv] ShapeNet: An Information-Rich 3D Model Repository https://www.shapenet.org/
[A.Dai+,ToG17] BundleFusion: real-time globally consistent 3D reconstruction using on-the-fly surface re-integration
http://graphics.stanford.edu/projects/bundlefusion/
[Z. Lv+,ECCV18] Learning rigidity in dynamic scenes with a moving camera for 3d motion field estimation 29
Bundle Fusion
● https://youtu.be/keIirXrRb1k
30
Dynamic Bundle Fusion
● https://youtu.be/MnTHkOCY790?t=185
31
何と比較する?
● ICP (Classical Methods)
○ Point-to-Plane ICP / Point-to-Point ICP (implemented in Open3D)
○ /ttamaki/3pcl
● Direct Pose Regressison
○ Directly predict the mapping f: I, T → ξ
○ PoseCNN
○ IC-PoseCNN [Y.Li+,ECCV18] [C.H.Lin+,CVPR17]
○ Cascated-PoseCNN
● Learning-based Optimization
○ DeepLK-6DoF [C.Wang+,ICRA18]
○ IC-FC-LS-Net [R.Clark+,ECCV18]
32
[Y.Li+,ECCV18] Deepim: Deep iterative matching for 6d pose estimation
[C.H.Lin+,CVPR17] Inverse compositional spatial transformer networks
[C.Wang+,ICRA18] Deep-lk for efficient adaptive object tracking
[R.Clark+,ECCV18] Learning to solve nonlinear least squares for monocular stereo
Direct Pose Regression
● [C.Lin+,CVPR17] Inverse Compositional Spatial Transformer Networks
○ input から warping parameter への非線形なマッピングを直接学習
● Taking a Deeper Look at Inverse Compositional Algorithm
○ 最適化パイプラインを陽に定式化した方が少ないパラメータで学習できる(という主張)
○ 学習データも少なくできる(という主張)
33
Related Work
Inverse Compositional Spatial Transformer Network
Cascaded Model
Learning-based Optimization
● [M.Andrychowicz+,NIPS15] Learning to learn gradient descent by
gradient descent
○ https://github.com/deepmind/learning-to-learn
○ Optimizer を用いて(SGDなどの)Optimizer 自体を学習する
34
Related Work
データに応じて,最適な g を学習できる!()
いまいち伝わらない絵
Learning-based Optimization
● [R.Clark+,ECCV18] LS-Net: Learning to Solve Nonlinear Least Squares
for Monocular Stereo
○ [M.Blosch+,CVPR18] CodeSLAM と同じ著者グループ
○ gauss-newton の optimizer 自体を学習する(meta-learning)
● Taking a Deeper Look at the Inverse Compositional Algorithm
○ λのみ推論,LM法は明に定式化
○ Robust M-Estimator を採用し,NNに組み込み
○ 信頼領域法を NN に組み込み
35
Related Work
Jacobian,残差を入力とする optimizer 自体をRNN-LSTM で学習
ロバスト推定手法や
信頼領域法は取り入れていない
Quantitative Evaluation (MovingObjects3D)
● 以下の項目を評価
○ average 3D EPE (End-Point-Error)
○ success ratio (R,t) : Θ(euler)<5, t(cm)<5
○ Inference Speed : GeForce 1080Ti
36
motion magnitude
Small, Medium, Large
● 以下の項目を評価
○ average 3D EPE (End-Point-Error)
○ success ratio (R,t) : Θ(euler)<5, t(cm)<5
○ Inference Speed : GeForce 1080Ti
Quantitative Evaluation (BundleFusion / DynamicBundleFusion)
37
CPU実装...?
Direct Pose Regression より高速
= 薄いモデルで精度を出せてる
(B) Robust M-Estimator の
効果が高い
Qualitative Results (MovingObjects3D)
38[C.Wang+,ICRA18] Deep-lk for efficient adaptive object tracking. In IEEE Intl. Conf. on Robotics and Automation
Ablation Discussion
● 3つのモジュールの結合
○ (A)+(B)+(C) を全て使ったモデルが最も高い性能を示した
● Robust M-Estimator
○ Noisy なデータにおいて,Robust M-Estimator が特に有効だった
● Trust Region Network
○ Occlusion や motion ambiguities のあるデータでは Trust Region
Network を適用することで収束性の改善が見られた
● (B)+(C) での Weight Sharing
○ weight sharing をしない方が Dynamic BundleFusion では良い結果になっ
た
39
Conclution
● IC Algorithm + ロバスト推定手法を学習可能な形で記述
○ (A) Two-view Feature Encoder: two-view の CNN特徴を抽出
○ (B) Convolutional M-Estimator: M-Estimator の Weight matrix を推定
○ (C) Trust Region Network: 信頼領域法を NN でも実装
● 古典手法,DNNベースの手法の性能を上回った
○ ノイズ,照明環境の変化,遮蔽,動物体がある環境で有効
○ 実環境での応用で極めて重要な要素
● Future Work
○ 実環境の問題への適用
○ multi-view constraints, motion hypothesis の導入
40
所感
● BA-Net [C.Tang+,ICLR19] とかなり類似している
○ ロバスト推定手法や信頼領域法を取り入れ,より洗練されている
■ ↑※引用してない
■ ただあまりに似ていて途中で発表する論文変えようかと思った
○ 3D勉強会(約2ヶ月ごと)のスパンで新しい論文が出てくる
● 3Dの問題を扱えるデータセットが不足
○ CGデータ,合成データで作成
○ 実環境では十分評価が行えていない
● IC Algorithm 以外にも適用できる
○ M-Estimator の NN化が Main Contribution に見える
○ Toy Model で収束性の解析すると面白いのではないか
41
合わせて読みたい
● SSII2012 2D&3Dレジストレーション~画像と3次元点群の合わせ方~第1部
● [S.Baker+,IJCV04] Lukas-Kanade 20 years on: A unifying framework
42[S. Baker+, IJCV04] Lucas-kanade 20 years on: A unifying framework
Appendix
合わせて読みたい
● Meta-Learning, Learning-to-Learn
○ https://katefvision.github.io/katef狠狠撸s/oneshotlearning_katef.pdf
43
Appendix

More Related Content

Taking a Deeper Look at the Inverse Compositional Algorithm

  • 1. Taking a Deeper Look at the Inverse Compositional Algorithm Zhaoyang Lv, Frank Dellaert, James M. Rehg, Andreas Geiger @denkiwakame 2019/02/23 3D勉強会@関 東 1
  • 2. 発表者について @denkiwakame ● ~’15 Web application Engineer (part-time) ● ?’15 京都大学 松山研究室(B4?M2) ● ?’17 企業研究所 ● ‘17? Software Engineer (CV/GPU) Interests ● 3D Computer Vision ○ Generalized Camera Calibration [M.Nishimura+,ICCV15] ← 修論 ● Machine Learning ○ Graphical Models, MRF optimization ● Engineering ○ GPGPU (CUDA) / SIMD / Distributed Computing 2[M.Nishimura+, ICCV15] A Linear Generalized Camera Calibration from Three Intersecting Reference Planes
  • 3. 3
  • 4. 3D Computer Vision は奥が深い 4 修士まで 多視点幾何 Camera Calibration 辞めた会社 MRF Optimization Graphical Models いま HPC (GPGPU) Robotics / Deep Learning depth estimation 3D reconstruction multiview veometry SLAM real-time acceleration
  • 7. ICLR 2019 Accept (Oral) 2018/12 https://openreview.net/group?id=ICLR.cc/2019/Conference 7
  • 8. ICLR 2019 Statistics ● An early overview of ICLR2019 (※ 今年5月 開催予定) ○ https://prlz77.github.io/iclr2019-stats/ ● Review Ranking (BA-Net Review Score: 8,7,9) ○ https://chillee.github.io/OpenReviewExplorer/ 8 476 posters 1418 submissions 22orals
  • 9. 3D幾何最適化 + Deep が注目されている ● 3D勉強会@関東#1 ○ CodeSLAM: Learning a Compact, Optimisable Representation for Dense Visual SLAM ● 3D勉強会@関東#3 ○ BA-Net: Dense Bundle Adjustment Network 9 CVPR’18 Best Paper Honorable Mention ICLR’19 Accept (Oral = 22/1418) 関連する論文を読みます(また)
  • 10. Taking a Deeper Look at the Inverse Compositional Algorithm Zhaoyang Lv, Frank Dellaert, James M. Rehg, Andreas Geiger @denkiwakame 2019/02/23 3D勉強会@関 東 10
  • 11. 著者情報 ● Zhaoyang Lv https://www.cc.gatech.edu/~zlv30/ ○ 3D Scene Flow, Optical Flow, Motion Tracking ○ SfM, SLAM ● MPI Autonomous Vision Group Intern の成果(?) 11
  • 12. Dense Image Alignment problem ● 2枚の画像間を対応付けるタスク 12[J.Engel+,ECCV14] LSD-SLAM: Large-Scale Direct Monocular SLAM / MPI Sintel Dataset http://sintel.is.tue.mpg.de/ Optical Flow LSD-SLAM 2D motion や 3D のカメラ運動を推定 warp
  • 13. Lucas-Kanade Algorithm Revisit ● 移動先の画素値が等しいと仮定 13[BD Lucas+,IJCAI81] An iterative image registration technique with an application to stereo vision first-order Taylor expansion 誤差を1次近似 image I transformed by warping parameter ξ original template Gauss-Newton 法 Δξを求める 近似ヘッセ行列 Related Work
  • 14. Lucas-Kanade Algorithm Revisit ● 移動先の画素値が等しいと仮定 14[BD Lucas+,IJCAI81] An iterative image registration technique with an application to stereo vision first-order Taylor expansion 誤差を1次近似 image I transformed by warping parameter ξ original template Gauss-Newton 法 Δξを求める 微分画像(ξk で変形) 近似ヘッセ行列 ξk に依存 毎 iteration で計算 ξで微分 Related Work
  • 15. IC (Inverse Compositional) Algorithm ● Additive vs Compositional ● Forward vs Inverse 15 [BD Lucas+,IJCAI81] An iterative image registration technique with an application to stereo vision [S. Baker+, IJCV04] Lucas-kanade 20 years on: A unifying framework additive compositional Forward Inverse T I Related Work
  • 16. ● Lucas-Kanade [BD Lucas+,IJCAI81] ● IC Algorithm [S.Baker+,IJCV04] 16 [BD Lucas+,IJCAI81] An iterative image registration technique with an application to stereo vision [S. Baker+, IJCV04] Lucas-kanade 20 years on: A unifying framework IC (Inverse Compositional) Algorithm parameter update objective function first-order Taylor Expansion ξk に非依存 pre-compute できる! Related Work
  • 17. 外れ値がある場合 - ロバスト推定手法 ● Robust M-Estimatior ● Robust Version of IC-Algorithm 17 最小二乗法 誤差が正規分布に従うと仮定 Robust M-Estimator 誤差関数ρの選び方が重要 外れ値に小さな重みを与えるような偶関数 誤差関数ρ によって決まる対角行列 Related Work
  • 18. Optimization ● Objective (Robust IC Algorithm) ● Levenberg-Marquardt Algorithm ○ λ?∞:最急降下法,λ?0: Gauss-Newton 法 と一致 18 damping factor E(ξ+Δξ) - E(ξ) の値に応じて λの値を制御 例: 適当な初期値 λ: 0.001, E(x+Δx)>E(x) ならλ←λ*10, E(x+Δx)<E(x) なら λ← λ* 0.1 E(x) が確実に減少するまで λを大きくし続け,減少する際に λを小さくする jacobian approximate Hessian Related Work
  • 19. 既存の枠組みの限界 ● 入力画像にノイズが乗っているような場合収束し辛い ○ 高周波なテクスチャがある環境など ● M-Estimator において 適切な 誤差関数ρの選択が難しい ○ データとノイズの分布はふつう未知である ● LM 法の damping factor は heuristic に決められている ○ 全然上手く収束しない場合もある(被害者の声) 19
  • 20. 提案手法 ● 入力画像にノイズが乗っているような場合収束し辛い ○ 高周波なテクスチャがある環境など ● M-Estimator において 適切な 誤差関数ρの選択が難しい ○ データとノイズの分布はふつう未知である ● LM 法の damping factor は heuristic に決められている ○ 全然上手く収束しない場合もある(被害者の声) 20 マッチングに適した特徴を学習 データに適した誤差関数を学習 最適なλを推論
  • 21. Contributions of this paper ● Two-view Feature Encoder ○ マッチングに適した特徴を CNN で学習 (BA-Netと似ている) ● Convolutional M-Estimator ○ M-Estimator における 重み行列 W をネットワークで推定 ● Trust Region Network ○ LM法 の damping factor を ネットワークで推定 21 Data-driven Robust IC Algorithm trainable in end-to-end framework ! いい感じの誤差関数 ρを 学習で求められる!
  • 23. Overview 23 (A) Two-view Feature Encoder (B)+(C) Optimizer
  • 24. “Deep” IC Algorithm ● Objective ● Levenberg-Marquardt Algorithm 24 モデルによって推定 learned feature learned damping factor
  • 25. 1. Two-view feature Encoder ● image I と template T から feature map を抽出 ○ 結合した 2-view の画像を入力とする ○ I, T を直に用いる場合よりも空間的な相関を捉えることができる 25 concatenation
  • 26. 2. Convolutional M-Estimator ● ネットワークで Wθ を推定 ○ Wθ を対角行列として parametrize ○ Iθ , Tθ を入力として 4層のNN で Wθ の成分を直接推定 26 M-Estimator において データに依存した誤差関数を求められる
  • 27. 3. Trust Region Network ● Trust Region = 信頼領域法 ○ 信頼領域の中で目的関数をある程度下げる点を次の点とする ○ LM法は信頼領域法を Gauss-Newton 法に当てはめたもの 27
  • 28. Experiments ● Warping Function ○ K: intrinsic parameter matrix / D(x) : depth ○ Tξ : rigid body transform, ξ∈ SE(3) ● Training Objective ○ Tgt : ground truth transform 28 3D Rigid Motion Estimation from RGB-D inputs input 3D points
  • 29. Datasets ● MovingObject3D ○ 3D Objects from ShapeNet [A.X.Chang+,arXiv] ○ Blender で レンダリング ● BundleFusion ○ BundleFusion Dataset [A.Dai+,ToG17] ○ https://youtu.be/keIirXrRb1k ● Dynamic BundleFusion ○ Dynamic BundleFusion Dataset [Z.Lv+,ECCV18] ○ 3:10 ~ [A.X.Chang+, arXiv] ShapeNet: An Information-Rich 3D Model Repository https://www.shapenet.org/ [A.Dai+,ToG17] BundleFusion: real-time globally consistent 3D reconstruction using on-the-fly surface re-integration http://graphics.stanford.edu/projects/bundlefusion/ [Z. Lv+,ECCV18] Learning rigidity in dynamic scenes with a moving camera for 3d motion field estimation 29
  • 31. Dynamic Bundle Fusion ● https://youtu.be/MnTHkOCY790?t=185 31
  • 32. 何と比較する? ● ICP (Classical Methods) ○ Point-to-Plane ICP / Point-to-Point ICP (implemented in Open3D) ○ /ttamaki/3pcl ● Direct Pose Regressison ○ Directly predict the mapping f: I, T → ξ ○ PoseCNN ○ IC-PoseCNN [Y.Li+,ECCV18] [C.H.Lin+,CVPR17] ○ Cascated-PoseCNN ● Learning-based Optimization ○ DeepLK-6DoF [C.Wang+,ICRA18] ○ IC-FC-LS-Net [R.Clark+,ECCV18] 32 [Y.Li+,ECCV18] Deepim: Deep iterative matching for 6d pose estimation [C.H.Lin+,CVPR17] Inverse compositional spatial transformer networks [C.Wang+,ICRA18] Deep-lk for efficient adaptive object tracking [R.Clark+,ECCV18] Learning to solve nonlinear least squares for monocular stereo
  • 33. Direct Pose Regression ● [C.Lin+,CVPR17] Inverse Compositional Spatial Transformer Networks ○ input から warping parameter への非線形なマッピングを直接学習 ● Taking a Deeper Look at Inverse Compositional Algorithm ○ 最適化パイプラインを陽に定式化した方が少ないパラメータで学習できる(という主張) ○ 学習データも少なくできる(という主張) 33 Related Work Inverse Compositional Spatial Transformer Network Cascaded Model
  • 34. Learning-based Optimization ● [M.Andrychowicz+,NIPS15] Learning to learn gradient descent by gradient descent ○ https://github.com/deepmind/learning-to-learn ○ Optimizer を用いて(SGDなどの)Optimizer 自体を学習する 34 Related Work データに応じて,最適な g を学習できる!() いまいち伝わらない絵
  • 35. Learning-based Optimization ● [R.Clark+,ECCV18] LS-Net: Learning to Solve Nonlinear Least Squares for Monocular Stereo ○ [M.Blosch+,CVPR18] CodeSLAM と同じ著者グループ ○ gauss-newton の optimizer 自体を学習する(meta-learning) ● Taking a Deeper Look at the Inverse Compositional Algorithm ○ λのみ推論,LM法は明に定式化 ○ Robust M-Estimator を採用し,NNに組み込み ○ 信頼領域法を NN に組み込み 35 Related Work Jacobian,残差を入力とする optimizer 自体をRNN-LSTM で学習 ロバスト推定手法や 信頼領域法は取り入れていない
  • 36. Quantitative Evaluation (MovingObjects3D) ● 以下の項目を評価 ○ average 3D EPE (End-Point-Error) ○ success ratio (R,t) : Θ(euler)<5, t(cm)<5 ○ Inference Speed : GeForce 1080Ti 36 motion magnitude Small, Medium, Large
  • 37. ● 以下の項目を評価 ○ average 3D EPE (End-Point-Error) ○ success ratio (R,t) : Θ(euler)<5, t(cm)<5 ○ Inference Speed : GeForce 1080Ti Quantitative Evaluation (BundleFusion / DynamicBundleFusion) 37 CPU実装...? Direct Pose Regression より高速 = 薄いモデルで精度を出せてる (B) Robust M-Estimator の 効果が高い
  • 38. Qualitative Results (MovingObjects3D) 38[C.Wang+,ICRA18] Deep-lk for efficient adaptive object tracking. In IEEE Intl. Conf. on Robotics and Automation
  • 39. Ablation Discussion ● 3つのモジュールの結合 ○ (A)+(B)+(C) を全て使ったモデルが最も高い性能を示した ● Robust M-Estimator ○ Noisy なデータにおいて,Robust M-Estimator が特に有効だった ● Trust Region Network ○ Occlusion や motion ambiguities のあるデータでは Trust Region Network を適用することで収束性の改善が見られた ● (B)+(C) での Weight Sharing ○ weight sharing をしない方が Dynamic BundleFusion では良い結果になっ た 39
  • 40. Conclution ● IC Algorithm + ロバスト推定手法を学習可能な形で記述 ○ (A) Two-view Feature Encoder: two-view の CNN特徴を抽出 ○ (B) Convolutional M-Estimator: M-Estimator の Weight matrix を推定 ○ (C) Trust Region Network: 信頼領域法を NN でも実装 ● 古典手法,DNNベースの手法の性能を上回った ○ ノイズ,照明環境の変化,遮蔽,動物体がある環境で有効 ○ 実環境での応用で極めて重要な要素 ● Future Work ○ 実環境の問題への適用 ○ multi-view constraints, motion hypothesis の導入 40
  • 41. 所感 ● BA-Net [C.Tang+,ICLR19] とかなり類似している ○ ロバスト推定手法や信頼領域法を取り入れ,より洗練されている ■ ↑※引用してない ■ ただあまりに似ていて途中で発表する論文変えようかと思った ○ 3D勉強会(約2ヶ月ごと)のスパンで新しい論文が出てくる ● 3Dの問題を扱えるデータセットが不足 ○ CGデータ,合成データで作成 ○ 実環境では十分評価が行えていない ● IC Algorithm 以外にも適用できる ○ M-Estimator の NN化が Main Contribution に見える ○ Toy Model で収束性の解析すると面白いのではないか 41
  • 42. 合わせて読みたい ● SSII2012 2D&3Dレジストレーション~画像と3次元点群の合わせ方~第1部 ● [S.Baker+,IJCV04] Lukas-Kanade 20 years on: A unifying framework 42[S. Baker+, IJCV04] Lucas-kanade 20 years on: A unifying framework Appendix
  • 43. 合わせて読みたい ● Meta-Learning, Learning-to-Learn ○ https://katefvision.github.io/katef狠狠撸s/oneshotlearning_katef.pdf 43 Appendix