狠狠撸

狠狠撸Share a Scribd company logo
PVNet: Pixel-wise Voting Network for
6DoF Pose Estimation
2019/6/30 neka-nat
自己紹介
● 名前:neka-nat
● 職業:とある製造メーカのソフトウェアエンジニア
● 普段のお仕事
○ 画像処理やロボットのソフト開発
● 最近の興味:点群処理、CG
● https://twitter.com/neka_nat
この論文を選んだ理由
● Oralの論文から選択
● 昔からある問題設定だが、深層学習によってかなり精度が上がってきている
● LINEMODデータセットでSOTA
● 本日の内容
○ 問題設定について
○ 関連研究について
○ PVNetについて
論文の問題設定
● 物体の種類と位置姿勢推定を同時に行いたい
○ 物体の種類
○ 物体の位置(XYZの3次元)
○ 物体の姿勢(ロールピッチヨーの3次元)
● 1枚のRGB画像のみを入力とする
● 物体のCADモデルを使用できる
合わせて6次元
応用例
● ロボットビジョン
● AR
● デプスセンサなどが使用しにくい環境?状況
○ 小型化
○ 屋外での使用
○ コスト削減
AR demo
よく用いられるデータセット
● それぞれCADモデルとRGBD画像が用意されている
● LINEMOD, Occlusion LINEMOD
○ 15種類の一般物体、オクルージョンがある?無いデータが分かれている
● T-LESS
○ 30種類の産業物体、テクスチャが無く似た物体が多い
● YCB
○ 5つにカテゴリ分けされた77の一般物体
評価メトリクス
● 6D Pose (ADD)
○ 以下の式の値が物体の直径の10%以内、xは3Dモデル上の点
● Projection 2D
○ 2次元に投影したエラーに対してしきい値を設定
正解の並進と回転 推定した並進と回転
関連論文①End-to-Endでやってみた―その1
● PoseCNN(RSS2018)
● ラベル、3次元位置、3次元姿勢の3つの出力を持つネットワーク
3次元位置
ラベル
3次元姿勢
物体中心に向かうベク
トル場を推定し、
Votingによって物体中
心を求める
物体中心の推定結果
と合わせてクォータニ
オンを出力する
関連論文①End-to-Endでやってみた―その1
● 物体の3次元位置を指すベクトル場を学習することでオクルージョンに強い
● 位置はロバストに推定できたが、姿勢の推定が弱い
関連論文②End-to-Endでやってみた―その2
● SSD-6D(ICCV2017)
● SSDをベースに姿勢推定を5°刻みのクラスタリング問題にして解く
○ よりロバストに姿勢が求まるが精度が落ちる
● 出力をさらにRGB画像を用いたエッジベースのRe?nementにかける
関連論文③2次元の特徴点を抽出してからのPnPを解く
● Tekinらの手法(CVPR2018)
● YOLOをベースにして高速化、50fps(SSD-6Dの5倍高速化)
● 問題を2つに分ける
○ 物体の境界BOXを2次元投影した頂点(8点)+中心点を画像から推定
○ 2次元投影した境界BOXの対応点からPnP(Perspective-n-Points)によって位
置姿勢を求める
PnP
関連論文④Re?nementもディープにしてみた
● BB8(ICCV2017)
● 特徴点抽出(境界BOXの頂点)+PnP+Re?nementの構成
● Re?nementにCNNを用いた
物体周辺を切り
取った入力画像
CADモデルを初期姿
勢でレンダリング
CNN
境界BOXの頂点の移動量
関連論文⑤オクルージョンに強いモデルの構築
● Oberwegerらの手法(ECCV2018)
● オクルージョンへの対応を意識した手法
● 入力画像のパッチから特徴点のヒートマップを出力
● 各パッチの出力を累積して特徴点を推定する
DNN
PVNet
● 関連研究で分かったこと
○ PoseCNNのようなベクトル場からのVotingはオクルージョンに強い
○ 特徴点推定→PnPの2段階にするのが良さそうだが、境界BOXを使った物体の
外にある特徴点はイマイチ
○ Re?nementは有効だが、物体毎に計算が必要になり計算時間が増加する
PVNet
● 関連研究を踏まえての方針
○ 2次元の特徴点推定→PnPの2段階で解く
○ 計算量の観点からRe?nementは行わないで解きたい
○ 特徴点推定にベクトル場の推定とVotingを取り入れる(ロバスト性向上)
○ 推定された特徴点の不確実性を考慮してPnPを解く(精度向上)
特徴点へ向かうベクトル
ラベル
VotingPnP
特徴点推定
● Farthest-Point-Samplingを用いて事前にCADモデル上の8点の特徴点と中心点を
求める
● RGB画像から各特徴点+中心点の方向を示すベクトル場を推定する
● 各ピクセルの出力次元は「(特徴点+中心点)×ベクトルの次元+カテゴリ数」
Uncertainty-driven PnP
● RANSACベースのVotingによって特徴点の候補点hをいくつ求める
● 候補点を特徴点とした場合のベクトル場と推定されたベクトル場との一致度合いを候
補点のスコアとする
● 候補点とそのスコアから特徴点の平均値と分散を求める
候補点の重み
特徴点の推定値
推定値の分散
Uncertainty-driven PnP
● 推定された特徴点と分散の両方を考慮したPnP問題を解く
ネットワークアーキテクチャ
● Pretrained ResNet18をバックボーンにしている
● 中間画像のサイズがH/8×W/8になった時点でPoolingを行わない
● 中間画像のサイズを維持しつつ情報集約を行うためにDilated Convを使用
● スキップするところはStrideで調整
学習方法
● 正解のベクトル場と推定結果を用いてSmooth L1 lossを計算
● 過学習を防ぐため合成画像を20000枚追加
Ablation study
● Occlusion LINEMODで様々に構成要素を変えて比較
● 特徴点の数を4、8、12で変化させて比較
● Uncertainty-driven PnPと普通のPnP(EPnP)との比較
特徴点を境界
BOXにしてみた
特徴点の数をそ
れぞれ変更
Uncertainty-driven
PnPを使用
ベクトル場でなくオフ
セットを使用
実験結果
● LINEMODによるADDを用いた従来手法との比較
● Tekinらの方法から30%以上精度が向上している
● Re?nementを行ったSSD-6Dよりも精度が良い
Re?nement無し Re?nement有り
実験結果
● Occlusion LINEMODによるADDを用いた従来手法との比較
● 翱产别谤飞别驳别谤らの手法よりも10%以上精度が向上している
実験結果
● Truncation LINEMOD(著者らが作成した端が切れた画像)に対しも実験を行ってお
り、ADDで平均31.48%の精度を出している
その他の実験結果
● YCBデータセットでも他手法と比較した
● 計算速度は480×640の画像で25fps
● Intel i7 3.7 CPU, GTX1080Tiを使用
まとめ
● CVPR2019で発表された6次元姿勢推定手法PVNetを紹介した
● Re?nement無しで高精度に推定可能
● Occlusion, truncationにも対応できる
● 著者によるPytorchのソースコードが利用できる
○ https://github.com/zju3dv/pvnet
● トレーニング画像生成
○ https://github.com/zju3dv/pvnet-rendering
おわり

More Related Content

What's hot (20)

PPTX
[DL輪読会]Swin Transformer: Hierarchical Vision Transformer using Shifted Windows
Deep Learning JP
?
PDF
【DL輪読会】DINOv2: Learning Robust Visual Features without Supervision
Deep Learning JP
?
PDF
20190706cvpr2019_3d_shape_representation
Takuya Minagawa
?
PDF
【メタサーベイ】数式ドリブン教师あり学习
cvpaper. challenge
?
PDF
厂颈蹿迟特徴量について
la_flance
?
PDF
SSII2022 [TS1] Transformerの最前線? 畳込みニューラルネットワークの先へ ?
SSII
?
PDF
动画认识における代表的なモデル?データセット(メタサーベイ)
cvpaper. challenge
?
PDF
文献紹介:YOLO series:v1-v5, X, F, and YOWO
Toru Tamaki
?
PPTX
モデル高速化百选
Yusuke Uchida
?
PDF
叁次元表现まとめ(深层学习を中心に)
Tomohiro Motoda
?
PPTX
【DL輪読会】ViT + Self Supervised Learningまとめ
Deep Learning JP
?
PDF
SSII2022 [TS2] 自律移動ロボットのためのロボットビジョン? オープンソースの自動運転ソフトAutowareを解説 ?
SSII
?
PDF
モテ?ルアーキテクチャ観点からのDeep Neural Network高速化
Yusuke Uchida
?
PDF
ドメイン适応の原理と応用
Yoshitaka Ushiku
?
PDF
ICLR2019 読み会in京都 ICLRから読み取るFeature Disentangleの研究動向
Yamato OKAMOTO
?
PPTX
摆顿尝轮読会闭相互情报量最大化による表现学习
Deep Learning JP
?
PDF
動画認識サーベイv1(メタサーベイ )
cvpaper. challenge
?
PDF
【DL輪読会】Domain Generalization by Learning and Removing Domainspecific Features
Deep Learning JP
?
PPTX
【DL輪読会】Flamingo: a Visual Language Model for Few-Shot Learning 画像×言語の大規模基盤モ...
Deep Learning JP
?
PDF
[DL輪読会]SlowFast Networks for Video Recognition
Deep Learning JP
?
[DL輪読会]Swin Transformer: Hierarchical Vision Transformer using Shifted Windows
Deep Learning JP
?
【DL輪読会】DINOv2: Learning Robust Visual Features without Supervision
Deep Learning JP
?
20190706cvpr2019_3d_shape_representation
Takuya Minagawa
?
【メタサーベイ】数式ドリブン教师あり学习
cvpaper. challenge
?
厂颈蹿迟特徴量について
la_flance
?
SSII2022 [TS1] Transformerの最前線? 畳込みニューラルネットワークの先へ ?
SSII
?
动画认识における代表的なモデル?データセット(メタサーベイ)
cvpaper. challenge
?
文献紹介:YOLO series:v1-v5, X, F, and YOWO
Toru Tamaki
?
モデル高速化百选
Yusuke Uchida
?
叁次元表现まとめ(深层学习を中心に)
Tomohiro Motoda
?
【DL輪読会】ViT + Self Supervised Learningまとめ
Deep Learning JP
?
SSII2022 [TS2] 自律移動ロボットのためのロボットビジョン? オープンソースの自動運転ソフトAutowareを解説 ?
SSII
?
モテ?ルアーキテクチャ観点からのDeep Neural Network高速化
Yusuke Uchida
?
ドメイン适応の原理と応用
Yoshitaka Ushiku
?
ICLR2019 読み会in京都 ICLRから読み取るFeature Disentangleの研究動向
Yamato OKAMOTO
?
摆顿尝轮読会闭相互情报量最大化による表现学习
Deep Learning JP
?
動画認識サーベイv1(メタサーベイ )
cvpaper. challenge
?
【DL輪読会】Domain Generalization by Learning and Removing Domainspecific Features
Deep Learning JP
?
【DL輪読会】Flamingo: a Visual Language Model for Few-Shot Learning 画像×言語の大規模基盤モ...
Deep Learning JP
?
[DL輪読会]SlowFast Networks for Video Recognition
Deep Learning JP
?

Similar to Cvpr 2019 pvnet (20)

PDF
Eccv 2020 dsmnet
Kenta Tanaka
?
PDF
确率モデルを用いた3顿点群レジストレーション
Kenta Tanaka
?
PDF
碍补驳驳濒别のテクニック
Yasunori Ozaki
?
PPTX
Bridging between Vision and Language
Shion Honda
?
PPTX
Ocha 20191204
Atsushi Hashimoto
?
PPTX
[DL輪読会]Pixel2Mesh: Generating 3D Mesh Models from Single RGB Images
Deep Learning JP
?
PPTX
叠补锄别濒でビルドしたアプリを骋颁笔にデプロイしようとしてハマった话
Katsunori Kanda
?
PDF
リクルートにおける画像解析事例绍介
Recruit Technologies
?
PDF
論文紹介「PointNetLK: Robust & Efficient Point Cloud Registration Using PointNet」
Naoya Chiba
?
PPTX
Python による 「スクレイピング & 自然言語処理」入門
Tatsuya Tojima
?
PDF
PreadNet
Junya Kuwada
?
PDF
鲍苍颈迟测道场08「絵づくりの基础」ライティング虎の巻
小林 信行
?
PDF
Unity道場08 Unityとアセットツールで学ぶ 「絵づくり」の基礎 ライティング 虎の巻
小林 信行
?
PDF
【CVPR 2020 メタサーベイ】Neural Generative Models
cvpaper. challenge
?
PPTX
Soft Rasterizer: A Differentiable Renderer for Image-based 3D Reasoning
Kohei Nishimura
?
PDF
?初期フ?ロシ?ェクトを改造!
Nishida Kansuke
?
PPTX
Rustで3D graphics programming
KiyotomoHiroyasu
?
PPTX
搁辞蝉と驳补锄别产辞を使った3诲空间て?の3次元畳み込みニューラルネットによる物体认识
Hiroaki Kaneda
?
PDF
makoto shing (stability ai) - image model fine-tuning - wandb_event_230525.pdf
Akira Shibata
?
PDF
リクルートにおける画像解析事例绍介と周辺技術紹介
Recruit Technologies
?
Eccv 2020 dsmnet
Kenta Tanaka
?
确率モデルを用いた3顿点群レジストレーション
Kenta Tanaka
?
碍补驳驳濒别のテクニック
Yasunori Ozaki
?
Bridging between Vision and Language
Shion Honda
?
Ocha 20191204
Atsushi Hashimoto
?
[DL輪読会]Pixel2Mesh: Generating 3D Mesh Models from Single RGB Images
Deep Learning JP
?
叠补锄别濒でビルドしたアプリを骋颁笔にデプロイしようとしてハマった话
Katsunori Kanda
?
リクルートにおける画像解析事例绍介
Recruit Technologies
?
論文紹介「PointNetLK: Robust & Efficient Point Cloud Registration Using PointNet」
Naoya Chiba
?
Python による 「スクレイピング & 自然言語処理」入門
Tatsuya Tojima
?
PreadNet
Junya Kuwada
?
鲍苍颈迟测道场08「絵づくりの基础」ライティング虎の巻
小林 信行
?
Unity道場08 Unityとアセットツールで学ぶ 「絵づくり」の基礎 ライティング 虎の巻
小林 信行
?
【CVPR 2020 メタサーベイ】Neural Generative Models
cvpaper. challenge
?
Soft Rasterizer: A Differentiable Renderer for Image-based 3D Reasoning
Kohei Nishimura
?
?初期フ?ロシ?ェクトを改造!
Nishida Kansuke
?
Rustで3D graphics programming
KiyotomoHiroyasu
?
搁辞蝉と驳补锄别产辞を使った3诲空间て?の3次元畳み込みニューラルネットによる物体认识
Hiroaki Kaneda
?
makoto shing (stability ai) - image model fine-tuning - wandb_event_230525.pdf
Akira Shibata
?
リクルートにおける画像解析事例绍介と周辺技術紹介
Recruit Technologies
?

Recently uploaded (9)

PPTX
勉強会_ターミナルコマント?入力迅速化_20250620. pptx. .
iPride Co., Ltd.
?
PDF
安尾 萌, 藤代 裕之, 松下 光範. 協調的情報トリアージにおけるコミュニケーションの影響についての検討, 第11回データ工学と情報マネジメントに関する...
Matsushita Laboratory
?
PPTX
Vibe Codingを始めよう ?Cursorを例に、ノーコードでのプログラミング体験?
iPride Co., Ltd.
?
PDF
安尾 萌, 北村 茂生, 松下 光範. 災害発生時における被害状況把握を目的とした情報共有システムの基礎検討, 電子情報通信学会HCGシンポジウム2018...
Matsushita Laboratory
?
PDF
論文紹介:Unbiasing through Textual Descriptions: Mitigating Representation Bias i...
Toru Tamaki
?
PDF
Forguncy 10 製品概要資料 - ノーコードWebアプリ開発プラットフォーム
フォーガンシー
?
PDF
安尾 萌, 松下 光範. 環境馴致を計量可能にするための試み,人工知能学会第4回仕掛学研究会, 2018.
Matsushita Laboratory
?
PDF
論文紹介:AutoPrompt: Eliciting Knowledge from Language Models with Automatically ...
Toru Tamaki
?
PPTX
色について.pptx .
iPride Co., Ltd.
?
勉強会_ターミナルコマント?入力迅速化_20250620. pptx. .
iPride Co., Ltd.
?
安尾 萌, 藤代 裕之, 松下 光範. 協調的情報トリアージにおけるコミュニケーションの影響についての検討, 第11回データ工学と情報マネジメントに関する...
Matsushita Laboratory
?
Vibe Codingを始めよう ?Cursorを例に、ノーコードでのプログラミング体験?
iPride Co., Ltd.
?
安尾 萌, 北村 茂生, 松下 光範. 災害発生時における被害状況把握を目的とした情報共有システムの基礎検討, 電子情報通信学会HCGシンポジウム2018...
Matsushita Laboratory
?
論文紹介:Unbiasing through Textual Descriptions: Mitigating Representation Bias i...
Toru Tamaki
?
Forguncy 10 製品概要資料 - ノーコードWebアプリ開発プラットフォーム
フォーガンシー
?
安尾 萌, 松下 光範. 環境馴致を計量可能にするための試み,人工知能学会第4回仕掛学研究会, 2018.
Matsushita Laboratory
?
論文紹介:AutoPrompt: Eliciting Knowledge from Language Models with Automatically ...
Toru Tamaki
?
色について.pptx .
iPride Co., Ltd.
?

Cvpr 2019 pvnet