狠狠撸

狠狠撸Share a Scribd company logo
OHS#3 論文紹介
Object Detection & Instance Segmentation
半谷
Contents
? Object Detection
? タスクについて
? R-CNN
? Faster R-CNN
? Region Proposal Networkのしくみ
? SSD: Single Shot Multibox Detector
? Instance Segmentation
? タスクについて
? End-to-End Instance Segmentation and Counting with Recurrent
Attention
2
一般物体認識分野でのDeep Learning
? 静止の分類タスクは、CNNによる特徴量抽出および学習により発展
? より高度なタスクである物体検出、物体領域抽出へと発展
Classification Object Detection Semantic
Segmentation
Instance
Segmentation
Plants
http://www.nlab.ci.i.u-tokyo.ac.jp/pdf/CNN_survey.pdf
http://host.robots.ox.ac.uk/pascal/VOC/voc2012/segexamples/index.html
Plants
Plants Plants
より高度
3
Object Detection
紹介する論文:
SSD: Single Shot MultiBox Detector
Object Detection
? 画像中の複数の物体を漏れなく/重複無く検出することが目的。
? 物体の検出精度(Precision)と、漏れなく検出できているかの指標である適合率
(Recall)の関係(Precision-recall curve)から算出した、Average Precision (AP)
が主な指標。
? 実問題への応用が期待され、APのほか予測時の計算時間も重要で、リアルタイム性が求め
られている。
http://host.robots.ox.ac.uk/pascal/VOC/voc2007/
Precision
Recall1
1
面積 = AP
5
主なモデル(1): Regions with CNN
? R-CNN (Regions with CNN)
? 物体領域候補の生成にSelective Search(SS)などの手法を利用
? 生成した領域を画像分類用のCNNに入力し、各領域に何が写っているか(あるいは
背景か)を分類する。
? Recallを確保するためには領域候補が2000程度必要であり、全てをCNNに入力し
計算するため非常に時間が掛かる
? また多段階の学習が必要となり煩雑である
R-CNN: http://arxiv.org/abs/1311.2524 6
主なモデル(2): Faster R-CNN
? Faster R-CNN
? 特徴抽出部分を共通化(これはFast R-CNNで提案された方法)
? 特徴マップを入力に物体領域候補を生成するRegion Proposal Networkを提案
? 300程度の領域候補で十分な精度が確保できる
? 1枚あたり0.2~0.3秒で処理できる
Region Proposal Net
(RPN)
CNN
(特徴抽出)
Classifier
物体領域候補を生成
(~300程度)
各領域候補に写る物体を
分類する
Faster R-CNN: http://arxiv.org/abs/1506.014977
Region Proposal Network
? 特徴マップ上にAnchorを定義(方眼紙に見立てて、各マスの中心のイメージ)
? 各Anchor毎にk個のAnchor Boxを定義(スケールとアスペクト比の組み合わせ)
? 各Anchor Box毎に、物体らしさのスコアと位置?サイズの修正項を予測するように訓練する
Faster R-CNN: http://arxiv.org/abs/1506.01497
画像
特徴
マップ
CNN
(特徴抽出)
???
スケール アスペクト比
×
各アンカーごとにk個のBox
(例: k = 3 × 3)
2k scores
(物体 or 背景)
4k coordinates
(x, y, w, hの
修正項)
H x W x 3 H/16 x W/16 x 3
8
SSD: Single Shot Multibox Detector
Region Proposal Net
(RPN)
CNN
(特徴抽出)
Classifier
① 物体領域候補を生成
(物体らしさのスコア)
② 各クラスに分類
CNN
(特徴抽出)
Region
Proposal
+
Classifier
物体領域候補を生成
(クラス毎のスコア)SSD
Faster
R-CNN
? Faster RCNNよりも高速で精度も良いモデル
? 入力画像サイズの小さいモデル(精度はそこそこ)では58FPSを達成
? Fasterにおいて①領域候補生成、②各領域の特徴ベクトルを切り出して分類、と2段階で
行っていた処理を一気に行う。
? 深さの異なる複数の特徴マップを使い、浅い側は小さい物体、深い側は大きい物体を検出。
SSD: http://arxiv.org/abs/1512.02325
9
SSD: Single Shot Multibox Detector
? Faster RCNNよりも高速で精度も良いモデル
? 入力画像サイズの小さいモデル(精度はそこそこ)では58FPSを達成
? Fasterにおいて①領域候補生成、②各領域の特徴ベクトルを切り出して分類、と2段階で
行っていた処理を一気に行う。
? 深さの異なる複数の特徴マップを使い、浅い側は小さい物体、深い側は大きい物体を検出。
(深さにより、デフォルトのBoxサイズを変えている)
浅い側の特徴マップからは
小さい物体を検出する
深い側の特徴マップからは
大きい物体を検出する
SSD: http://arxiv.org/abs/1512.02325
10
SSD: Single Shot Multibox Detector
? Pascal VOC 2007のDetectionタスクの結果
? 入力画像サイズが300x300のモデル(SSD300)では58FPSを達成し、mean AP
も70%を超えている。
? 入力画像サイズが500x500のモデル(SSD500)では、Faster R-CNNより精度も高
く処理速度も速い。
SSD: http://arxiv.org/abs/1512.02325
11
Instance Segmentation
紹介する論文:
End-to-End Instance Segmentation and Counting with
Recurrent Attention
Instance Segmentation
? 領域分割(Segmentation)
? ピクセル毎のラベルを予測する
? 形状や面積といった情報が得られるため応用先も多く、活発に研究されている。
? タスクの分類
? Semantic Segmentation
? 各ピクセルにクラスのラベルを付与する問題。
? ボトルが4本ある場合でも、全て「ボトルクラス」のラベルをつける
? Instance Segmentation
? 個々の物体ごとに別のラベルを付与する問題
? ボトルが4本ある場合、別々のラベルを付与する
(b) Instance ~ (a) Semantic ~Raw Image
http://host.robots.ox.ac.uk/pascal/VOC/voc2012/segexamples/index.html 13
突然ですが問題です。
葉っぱは何枚あるでしょうか?
http://juser.fz-juelich.de/record/154525/files/FZJ-2014-03837.pdf 14
どのように数えましたか?
http://juser.fz-juelich.de/record/154525/files/FZJ-2014-03837.pdf
? 目線を移しながら一枚一枚注目する
? 一度見たものは記憶しておく
といった感じで数えたのではないでしょうか????
15
End-to-End Instance Segmentation and
Counting with Recurrent Attention
? Instance Segmentation用のニューラルネットワーク
? ステップ毎に1つの物体に注目して領域分割する
? 一度見た領域は記憶しておく
(人間の数え方を参考にしている)
End-to-End Instance Segmentation and Counting with Recurrent Attention: https://arxiv.org/abs/1605.09410
16
End-to-End Instance Segmentation and
Counting with Recurrent Attention
End-to-End Instance Segmentation and Counting with Recurrent Attention: https://arxiv.org/abs/1605.09410
? モデルの全体像:
17
End-to-End Instance Segmentation and
Counting with Recurrent Attention
End-to-End Instance Segmentation and Counting with Recurrent Attention: https://arxiv.org/abs/1605.09410
一度見た領域を記憶しておく部品
18
End-to-End Instance Segmentation and
Counting with Recurrent Attention
End-to-End Instance Segmentation and Counting with Recurrent Attention: https://arxiv.org/abs/1605.09410
どこに注目するかを決める
19
End-to-End Instance Segmentation and
Counting with Recurrent Attention
End-to-End Instance Segmentation and Counting with Recurrent Attention: https://arxiv.org/abs/1605.09410
注目した領域のSegmentationを行う
20
End-to-End Instance Segmentation and
Counting with Recurrent Attention
End-to-End Instance Segmentation and Counting with Recurrent Attention: https://arxiv.org/abs/1605.09410
物体が見つかったかどうかの判定を行う
(スコアが0.5以下になったら終了)
21
End-to-End Instance Segmentation and
Counting with Recurrent Attention
End-to-End Instance Segmentation and Counting with Recurrent Attention: https://arxiv.org/abs/1605.09410
一度見た部分は記憶する。
(以下繰返し)
22
End-to-End Instance Segmentation and
Counting with Recurrent Attention
End-to-End Instance Segmentation and Counting with Recurrent Attention: https://arxiv.org/abs/1605.09410
? 結果(1)葉っぱの領域分割
23
End-to-End Instance Segmentation and
Counting with Recurrent Attention
End-to-End Instance Segmentation and Counting with Recurrent Attention: https://arxiv.org/abs/1605.09410
? 結果(2)車両の領域分割
24

More Related Content

What's hot (20)

Layer Normalization@NIPS+読み会?関西
Layer Normalization@NIPS+読み会?関西Layer Normalization@NIPS+読み会?関西
Layer Normalization@NIPS+読み会?関西
Keigo Nishida
?
スハ?ースモデリング入门
スハ?ースモデリング入门スハ?ースモデリング入门
スハ?ースモデリング入门
Hideo Terada
?
最近のDeep Learning (NLP) 界隈におけるAttention事情
最近のDeep Learning (NLP) 界隈におけるAttention事情最近のDeep Learning (NLP) 界隈におけるAttention事情
最近のDeep Learning (NLP) 界隈におけるAttention事情
Yuta Kikuchi
?
【輪読会】Learning Continuous Image Representation with Local Implicit Image Funct...
【輪読会】Learning Continuous Image Representation with Local Implicit Image Funct...【輪読会】Learning Continuous Image Representation with Local Implicit Image Funct...
【輪読会】Learning Continuous Image Representation with Local Implicit Image Funct...
Deep Learning JP
?
【DL輪読会】NeRF-VAE: A Geometry Aware 3D Scene Generative Model
【DL輪読会】NeRF-VAE: A Geometry Aware 3D Scene Generative Model【DL輪読会】NeRF-VAE: A Geometry Aware 3D Scene Generative Model
【DL輪読会】NeRF-VAE: A Geometry Aware 3D Scene Generative Model
Deep Learning JP
?
深層学習によるHuman Pose Estimationの基礎
深層学習によるHuman Pose Estimationの基礎深層学習によるHuman Pose Estimationの基礎
深層学習によるHuman Pose Estimationの基礎
Takumi Ohkuma
?
颁痴分野におけるサーベイ方法
颁痴分野におけるサーベイ方法颁痴分野におけるサーベイ方法
颁痴分野におけるサーベイ方法
Hirokatsu Kataoka
?
叁次元表现まとめ(深层学习を中心に)
叁次元表现まとめ(深层学习を中心に)叁次元表现まとめ(深层学习を中心に)
叁次元表现まとめ(深层学习を中心に)
Tomohiro Motoda
?
[DL輪読会]YOLOv4: Optimal Speed and Accuracy of Object Detection
[DL輪読会]YOLOv4: Optimal Speed and Accuracy of Object Detection[DL輪読会]YOLOv4: Optimal Speed and Accuracy of Object Detection
[DL輪読会]YOLOv4: Optimal Speed and Accuracy of Object Detection
Deep Learning JP
?
論文紹介「PointNetLK: Robust & Efficient Point Cloud Registration Using PointNet」
論文紹介「PointNetLK: Robust & Efficient Point Cloud Registration Using PointNet」論文紹介「PointNetLK: Robust & Efficient Point Cloud Registration Using PointNet」
論文紹介「PointNetLK: Robust & Efficient Point Cloud Registration Using PointNet」
Naoya Chiba
?
【DL輪読会】ViT + Self Supervised Learningまとめ
【DL輪読会】ViT + Self Supervised Learningまとめ【DL輪読会】ViT + Self Supervised Learningまとめ
【DL輪読会】ViT + Self Supervised Learningまとめ
Deep Learning JP
?
SSII2021 [OS2-02] 深層学習におけるデータ拡張の原理と最新動向
SSII2021 [OS2-02] 深層学習におけるデータ拡張の原理と最新動向SSII2021 [OS2-02] 深層学習におけるデータ拡張の原理と最新動向
SSII2021 [OS2-02] 深層学習におけるデータ拡張の原理と最新動向
SSII
?
ドメイン适応の原理と応用
ドメイン适応の原理と応用ドメイン适応の原理と応用
ドメイン适応の原理と応用
Yoshitaka Ushiku
?
畳み込みネットワークによる高次元信号復元と异分野融合への展开
畳み込みネットワークによる高次元信号復元と异分野融合への展开 畳み込みネットワークによる高次元信号復元と异分野融合への展开
畳み込みネットワークによる高次元信号復元と异分野融合への展开
Shogo Muramatsu
?
Structured Light 技術俯瞰
Structured Light 技術俯瞰Structured Light 技術俯瞰
Structured Light 技術俯瞰
Teppei Kurita
?
画像认识と深层学习
画像认识と深层学习画像认识と深层学习
画像认识と深层学习
Yusuke Uchida
?
Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料
Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料
Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料
Yusuke Uchida
?
画像认识モデルを作るための鉄板レシピ
画像认识モデルを作るための鉄板レシピ画像认识モデルを作るための鉄板レシピ
画像认识モデルを作るための鉄板レシピ
Takahiro Kubo
?
[DL輪読会]data2vec: A General Framework for Self-supervised Learning in Speech,...
[DL輪読会]data2vec: A General Framework for  Self-supervised Learning in Speech,...[DL輪読会]data2vec: A General Framework for  Self-supervised Learning in Speech,...
[DL輪読会]data2vec: A General Framework for Self-supervised Learning in Speech,...
Deep Learning JP
?
[DL輪読会]Objects as Points
[DL輪読会]Objects as Points[DL輪読会]Objects as Points
[DL輪読会]Objects as Points
Deep Learning JP
?
Layer Normalization@NIPS+読み会?関西
Layer Normalization@NIPS+読み会?関西Layer Normalization@NIPS+読み会?関西
Layer Normalization@NIPS+読み会?関西
Keigo Nishida
?
スハ?ースモデリング入门
スハ?ースモデリング入门スハ?ースモデリング入门
スハ?ースモデリング入门
Hideo Terada
?
最近のDeep Learning (NLP) 界隈におけるAttention事情
最近のDeep Learning (NLP) 界隈におけるAttention事情最近のDeep Learning (NLP) 界隈におけるAttention事情
最近のDeep Learning (NLP) 界隈におけるAttention事情
Yuta Kikuchi
?
【輪読会】Learning Continuous Image Representation with Local Implicit Image Funct...
【輪読会】Learning Continuous Image Representation with Local Implicit Image Funct...【輪読会】Learning Continuous Image Representation with Local Implicit Image Funct...
【輪読会】Learning Continuous Image Representation with Local Implicit Image Funct...
Deep Learning JP
?
【DL輪読会】NeRF-VAE: A Geometry Aware 3D Scene Generative Model
【DL輪読会】NeRF-VAE: A Geometry Aware 3D Scene Generative Model【DL輪読会】NeRF-VAE: A Geometry Aware 3D Scene Generative Model
【DL輪読会】NeRF-VAE: A Geometry Aware 3D Scene Generative Model
Deep Learning JP
?
深層学習によるHuman Pose Estimationの基礎
深層学習によるHuman Pose Estimationの基礎深層学習によるHuman Pose Estimationの基礎
深層学習によるHuman Pose Estimationの基礎
Takumi Ohkuma
?
颁痴分野におけるサーベイ方法
颁痴分野におけるサーベイ方法颁痴分野におけるサーベイ方法
颁痴分野におけるサーベイ方法
Hirokatsu Kataoka
?
叁次元表现まとめ(深层学习を中心に)
叁次元表现まとめ(深层学习を中心に)叁次元表现まとめ(深层学习を中心に)
叁次元表现まとめ(深层学习を中心に)
Tomohiro Motoda
?
[DL輪読会]YOLOv4: Optimal Speed and Accuracy of Object Detection
[DL輪読会]YOLOv4: Optimal Speed and Accuracy of Object Detection[DL輪読会]YOLOv4: Optimal Speed and Accuracy of Object Detection
[DL輪読会]YOLOv4: Optimal Speed and Accuracy of Object Detection
Deep Learning JP
?
論文紹介「PointNetLK: Robust & Efficient Point Cloud Registration Using PointNet」
論文紹介「PointNetLK: Robust & Efficient Point Cloud Registration Using PointNet」論文紹介「PointNetLK: Robust & Efficient Point Cloud Registration Using PointNet」
論文紹介「PointNetLK: Robust & Efficient Point Cloud Registration Using PointNet」
Naoya Chiba
?
【DL輪読会】ViT + Self Supervised Learningまとめ
【DL輪読会】ViT + Self Supervised Learningまとめ【DL輪読会】ViT + Self Supervised Learningまとめ
【DL輪読会】ViT + Self Supervised Learningまとめ
Deep Learning JP
?
SSII2021 [OS2-02] 深層学習におけるデータ拡張の原理と最新動向
SSII2021 [OS2-02] 深層学習におけるデータ拡張の原理と最新動向SSII2021 [OS2-02] 深層学習におけるデータ拡張の原理と最新動向
SSII2021 [OS2-02] 深層学習におけるデータ拡張の原理と最新動向
SSII
?
ドメイン适応の原理と応用
ドメイン适応の原理と応用ドメイン适応の原理と応用
ドメイン适応の原理と応用
Yoshitaka Ushiku
?
畳み込みネットワークによる高次元信号復元と异分野融合への展开
畳み込みネットワークによる高次元信号復元と异分野融合への展开 畳み込みネットワークによる高次元信号復元と异分野融合への展开
畳み込みネットワークによる高次元信号復元と异分野融合への展开
Shogo Muramatsu
?
Structured Light 技術俯瞰
Structured Light 技術俯瞰Structured Light 技術俯瞰
Structured Light 技術俯瞰
Teppei Kurita
?
画像认识と深层学习
画像认识と深层学习画像认识と深层学习
画像认识と深层学习
Yusuke Uchida
?
Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料
Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料
Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料
Yusuke Uchida
?
画像认识モデルを作るための鉄板レシピ
画像认识モデルを作るための鉄板レシピ画像认识モデルを作るための鉄板レシピ
画像认识モデルを作るための鉄板レシピ
Takahiro Kubo
?
[DL輪読会]data2vec: A General Framework for Self-supervised Learning in Speech,...
[DL輪読会]data2vec: A General Framework for  Self-supervised Learning in Speech,...[DL輪読会]data2vec: A General Framework for  Self-supervised Learning in Speech,...
[DL輪読会]data2vec: A General Framework for Self-supervised Learning in Speech,...
Deep Learning JP
?
[DL輪読会]Objects as Points
[DL輪読会]Objects as Points[DL輪読会]Objects as Points
[DL輪読会]Objects as Points
Deep Learning JP
?

Similar to Object Detection & Instance Segmentationの論文紹介 | OHS勉強会#3 (20)

GENESIS: Generative Scene Inference and Sampling with Object-Centric Latent R...
GENESIS: Generative Scene Inference and Sampling with Object-Centric Latent R...GENESIS: Generative Scene Inference and Sampling with Object-Centric Latent R...
GENESIS: Generative Scene Inference and Sampling with Object-Centric Latent R...
Kento Doi
?
[DL輪読会]GENESIS: Generative Scene Inference and Sampling with Object-Centric L...
[DL輪読会]GENESIS: Generative Scene Inference and Sampling with Object-Centric L...[DL輪読会]GENESIS: Generative Scene Inference and Sampling with Object-Centric L...
[DL輪読会]GENESIS: Generative Scene Inference and Sampling with Object-Centric L...
Deep Learning JP
?
SSD: Single Shot MultiBox Detector (ECCV2016)
SSD: Single Shot MultiBox Detector (ECCV2016)SSD: Single Shot MultiBox Detector (ECCV2016)
SSD: Single Shot MultiBox Detector (ECCV2016)
Takanori Ogata
?
[DL Hacks]Semantic Instance Segmentation with a Discriminative Loss Function
[DL Hacks]Semantic Instance Segmentation with a Discriminative Loss Function[DL Hacks]Semantic Instance Segmentation with a Discriminative Loss Function
[DL Hacks]Semantic Instance Segmentation with a Discriminative Loss Function
Deep Learning JP
?
Active Learning from Imperfect Labelers @ NIPS読み会?関西
Active Learning from Imperfect Labelers @ NIPS読み会?関西Active Learning from Imperfect Labelers @ NIPS読み会?関西
Active Learning from Imperfect Labelers @ NIPS読み会?関西
Taku Tsuzuki
?
【CVPR 2020 メタサーベイ】Recognition (Detection, Categorization)_Group21.2
【CVPR 2020 メタサーベイ】Recognition (Detection, Categorization)_Group21.2【CVPR 2020 メタサーベイ】Recognition (Detection, Categorization)_Group21.2
【CVPR 2020 メタサーベイ】Recognition (Detection, Categorization)_Group21.2
cvpaper. challenge
?
20110904cvsaisentan(shirasy) 3 4_3
20110904cvsaisentan(shirasy) 3 4_320110904cvsaisentan(shirasy) 3 4_3
20110904cvsaisentan(shirasy) 3 4_3
Yoichi Shirasawa
?
Paper: Objects as Points(CenterNet)
Paper: Objects as Points(CenterNet)Paper: Objects as Points(CenterNet)
Paper: Objects as Points(CenterNet)
Yusuke Fujimoto
?
関西颁惫辫谤尘濒勉强会2017.9资料
関西颁惫辫谤尘濒勉强会2017.9资料関西颁惫辫谤尘濒勉强会2017.9资料
関西颁惫辫谤尘濒勉强会2017.9资料
Atsushi Hashimoto
?
[DL輪読会]Auto-DeepLab: Hierarchical Neural Architecture Search for Semantic Ima...
[DL輪読会]Auto-DeepLab: Hierarchical Neural Architecture Search for Semantic Ima...[DL輪読会]Auto-DeepLab: Hierarchical Neural Architecture Search for Semantic Ima...
[DL輪読会]Auto-DeepLab: Hierarchical Neural Architecture Search for Semantic Ima...
Deep Learning JP
?
[DL輪読会]One Model To Learn Them All
[DL輪読会]One Model To Learn Them All[DL輪読会]One Model To Learn Them All
[DL輪読会]One Model To Learn Them All
Deep Learning JP
?
[DL輪読会]Focal Loss for Dense Object Detection
[DL輪読会]Focal Loss for Dense Object Detection[DL輪読会]Focal Loss for Dense Object Detection
[DL輪読会]Focal Loss for Dense Object Detection
Deep Learning JP
?
20141008物体検出器
20141008物体検出器20141008物体検出器
20141008物体検出器
Takuya Minagawa
?
文献紹介:EfficientDet: Scalable and Efficient Object Detection
文献紹介:EfficientDet: Scalable and Efficient Object Detection文献紹介:EfficientDet: Scalable and Efficient Object Detection
文献紹介:EfficientDet: Scalable and Efficient Object Detection
Toru Tamaki
?
論文紹介:A Survey on Open-Vocabulary Detection and Segmentation: Past, Present, a...
論文紹介:A Survey on Open-Vocabulary Detection and Segmentation: Past, Present, a...論文紹介:A Survey on Open-Vocabulary Detection and Segmentation: Past, Present, a...
論文紹介:A Survey on Open-Vocabulary Detection and Segmentation: Past, Present, a...
Toru Tamaki
?
物体検出の歴史まとめ(1) 20180417
物体検出の歴史まとめ(1) 20180417物体検出の歴史まとめ(1) 20180417
物体検出の歴史まとめ(1) 20180417
Masakazu Shinoda
?
Tesseract ocr
Tesseract ocrTesseract ocr
Tesseract ocr
Takuya Minagawa
?
DeepCas
DeepCasDeepCas
DeepCas
Koichiro tamura
?
第4回全脳アーキテクチャハッカソン説明会
第4回全脳アーキテクチャハッカソン説明会第4回全脳アーキテクチャハッカソン説明会
第4回全脳アーキテクチャハッカソン説明会
The Whole Brain Architecture Initiative
?
Hierarchical and Interpretable Skill Acquisition in Multi-task Reinforcement ...
Hierarchical and Interpretable Skill Acquisition in Multi-task Reinforcement ...Hierarchical and Interpretable Skill Acquisition in Multi-task Reinforcement ...
Hierarchical and Interpretable Skill Acquisition in Multi-task Reinforcement ...
Keisuke Nakata
?
GENESIS: Generative Scene Inference and Sampling with Object-Centric Latent R...
GENESIS: Generative Scene Inference and Sampling with Object-Centric Latent R...GENESIS: Generative Scene Inference and Sampling with Object-Centric Latent R...
GENESIS: Generative Scene Inference and Sampling with Object-Centric Latent R...
Kento Doi
?
[DL輪読会]GENESIS: Generative Scene Inference and Sampling with Object-Centric L...
[DL輪読会]GENESIS: Generative Scene Inference and Sampling with Object-Centric L...[DL輪読会]GENESIS: Generative Scene Inference and Sampling with Object-Centric L...
[DL輪読会]GENESIS: Generative Scene Inference and Sampling with Object-Centric L...
Deep Learning JP
?
SSD: Single Shot MultiBox Detector (ECCV2016)
SSD: Single Shot MultiBox Detector (ECCV2016)SSD: Single Shot MultiBox Detector (ECCV2016)
SSD: Single Shot MultiBox Detector (ECCV2016)
Takanori Ogata
?
[DL Hacks]Semantic Instance Segmentation with a Discriminative Loss Function
[DL Hacks]Semantic Instance Segmentation with a Discriminative Loss Function[DL Hacks]Semantic Instance Segmentation with a Discriminative Loss Function
[DL Hacks]Semantic Instance Segmentation with a Discriminative Loss Function
Deep Learning JP
?
Active Learning from Imperfect Labelers @ NIPS読み会?関西
Active Learning from Imperfect Labelers @ NIPS読み会?関西Active Learning from Imperfect Labelers @ NIPS読み会?関西
Active Learning from Imperfect Labelers @ NIPS読み会?関西
Taku Tsuzuki
?
【CVPR 2020 メタサーベイ】Recognition (Detection, Categorization)_Group21.2
【CVPR 2020 メタサーベイ】Recognition (Detection, Categorization)_Group21.2【CVPR 2020 メタサーベイ】Recognition (Detection, Categorization)_Group21.2
【CVPR 2020 メタサーベイ】Recognition (Detection, Categorization)_Group21.2
cvpaper. challenge
?
20110904cvsaisentan(shirasy) 3 4_3
20110904cvsaisentan(shirasy) 3 4_320110904cvsaisentan(shirasy) 3 4_3
20110904cvsaisentan(shirasy) 3 4_3
Yoichi Shirasawa
?
Paper: Objects as Points(CenterNet)
Paper: Objects as Points(CenterNet)Paper: Objects as Points(CenterNet)
Paper: Objects as Points(CenterNet)
Yusuke Fujimoto
?
関西颁惫辫谤尘濒勉强会2017.9资料
関西颁惫辫谤尘濒勉强会2017.9资料関西颁惫辫谤尘濒勉强会2017.9资料
関西颁惫辫谤尘濒勉强会2017.9资料
Atsushi Hashimoto
?
[DL輪読会]Auto-DeepLab: Hierarchical Neural Architecture Search for Semantic Ima...
[DL輪読会]Auto-DeepLab: Hierarchical Neural Architecture Search for Semantic Ima...[DL輪読会]Auto-DeepLab: Hierarchical Neural Architecture Search for Semantic Ima...
[DL輪読会]Auto-DeepLab: Hierarchical Neural Architecture Search for Semantic Ima...
Deep Learning JP
?
[DL輪読会]One Model To Learn Them All
[DL輪読会]One Model To Learn Them All[DL輪読会]One Model To Learn Them All
[DL輪読会]One Model To Learn Them All
Deep Learning JP
?
[DL輪読会]Focal Loss for Dense Object Detection
[DL輪読会]Focal Loss for Dense Object Detection[DL輪読会]Focal Loss for Dense Object Detection
[DL輪読会]Focal Loss for Dense Object Detection
Deep Learning JP
?
文献紹介:EfficientDet: Scalable and Efficient Object Detection
文献紹介:EfficientDet: Scalable and Efficient Object Detection文献紹介:EfficientDet: Scalable and Efficient Object Detection
文献紹介:EfficientDet: Scalable and Efficient Object Detection
Toru Tamaki
?
論文紹介:A Survey on Open-Vocabulary Detection and Segmentation: Past, Present, a...
論文紹介:A Survey on Open-Vocabulary Detection and Segmentation: Past, Present, a...論文紹介:A Survey on Open-Vocabulary Detection and Segmentation: Past, Present, a...
論文紹介:A Survey on Open-Vocabulary Detection and Segmentation: Past, Present, a...
Toru Tamaki
?
物体検出の歴史まとめ(1) 20180417
物体検出の歴史まとめ(1) 20180417物体検出の歴史まとめ(1) 20180417
物体検出の歴史まとめ(1) 20180417
Masakazu Shinoda
?
Hierarchical and Interpretable Skill Acquisition in Multi-task Reinforcement ...
Hierarchical and Interpretable Skill Acquisition in Multi-task Reinforcement ...Hierarchical and Interpretable Skill Acquisition in Multi-task Reinforcement ...
Hierarchical and Interpretable Skill Acquisition in Multi-task Reinforcement ...
Keisuke Nakata
?

Recently uploaded (11)

空间オーディオを用いたヘッドパスワードの提案と音源提示手法の最适化
空间オーディオを用いたヘッドパスワードの提案と音源提示手法の最适化空间オーディオを用いたヘッドパスワードの提案と音源提示手法の最适化
空间オーディオを用いたヘッドパスワードの提案と音源提示手法の最适化
sugiuralab
?
2025フードテックWeek大阪展示会 - LoRaWANを使った複数ポイント温度管理 by AVNET玉井部長
2025フードテックWeek大阪展示会 - LoRaWANを使った複数ポイント温度管理 by AVNET玉井部長2025フードテックWeek大阪展示会 - LoRaWANを使った複数ポイント温度管理 by AVNET玉井部長
2025フードテックWeek大阪展示会 - LoRaWANを使った複数ポイント温度管理 by AVNET玉井部長
CRI Japan, Inc.
?
実はアナタの身近にある!? Linux のチェックポイント/レストア機能 (NTT Tech Conference 2025 発表資料)
実はアナタの身近にある!? Linux のチェックポイント/レストア機能 (NTT Tech Conference 2025 発表資料)実はアナタの身近にある!? Linux のチェックポイント/レストア機能 (NTT Tech Conference 2025 発表資料)
実はアナタの身近にある!? Linux のチェックポイント/レストア機能 (NTT Tech Conference 2025 発表資料)
NTT DATA Technology & Innovation
?
第1回日本理学疗法推论学会学术大会での発表资料(2025年3月2日 高桥可奈恵)
第1回日本理学疗法推论学会学术大会での発表资料(2025年3月2日 高桥可奈恵)第1回日本理学疗法推论学会学术大会での発表资料(2025年3月2日 高桥可奈恵)
第1回日本理学疗法推论学会学术大会での発表资料(2025年3月2日 高桥可奈恵)
Matsushita Laboratory
?
【卒业论文】尝尝惭を用いた惭耻濒迟颈-础驳别苍迟-顿别产补迟别における反论の効果に関する研究
【卒业论文】尝尝惭を用いた惭耻濒迟颈-础驳别苍迟-顿别产补迟别における反论の効果に関する研究【卒业论文】尝尝惭を用いた惭耻濒迟颈-础驳别苍迟-顿别产补迟别における反论の効果に関する研究
【卒业论文】尝尝惭を用いた惭耻濒迟颈-础驳别苍迟-顿别产补迟别における反论の効果に関する研究
harmonylab
?
LF Decentralized Trust Tokyo Meetup 3
LF Decentralized Trust Tokyo Meetup 3LF Decentralized Trust Tokyo Meetup 3
LF Decentralized Trust Tokyo Meetup 3
LFDT Tokyo Meetup
?
【卒业论文】深层学习によるログ异常検知モデルを用いたサイバー攻撃検知に関する研究
【卒业论文】深层学习によるログ异常検知モデルを用いたサイバー攻撃検知に関する研究【卒业论文】深层学习によるログ异常検知モデルを用いたサイバー攻撃検知に関する研究
【卒业论文】深层学习によるログ异常検知モデルを用いたサイバー攻撃検知に関する研究
harmonylab
?
ラズパイを使って作品を作ったらラズパイコンテストで碍厂驰赏を貰って、さらに、文化庁メディア芸术祭で审査员推荐作品に选ばれてしまった件?自作チップでラズパイ...
ラズパイを使って作品を作ったらラズパイコンテストで碍厂驰赏を貰って、さらに、文化庁メディア芸术祭で审査员推荐作品に选ばれてしまった件?自作チップでラズパイ...ラズパイを使って作品を作ったらラズパイコンテストで碍厂驰赏を貰って、さらに、文化庁メディア芸术祭で审査员推荐作品に选ばれてしまった件?自作チップでラズパイ...
ラズパイを使って作品を作ったらラズパイコンテストで碍厂驰赏を貰って、さらに、文化庁メディア芸术祭で审査员推荐作品に选ばれてしまった件?自作チップでラズパイ...
Industrial Technology Research Institute (ITRI)(工業技術研究院, 工研院)
?
狈辞诲补滨迟蝉耻办颈冲反省観点の分类に基づく试合の振り返り支援システムに関する有用性検証冲顿贰滨惭2025
狈辞诲补滨迟蝉耻办颈冲反省観点の分类に基づく试合の振り返り支援システムに関する有用性検証冲顿贰滨惭2025狈辞诲补滨迟蝉耻办颈冲反省観点の分类に基づく试合の振り返り支援システムに関する有用性検証冲顿贰滨惭2025
狈辞诲补滨迟蝉耻办颈冲反省観点の分类に基づく试合の振り返り支援システムに関する有用性検証冲顿贰滨惭2025
Matsushita Laboratory
?
贬补谤耻办颈厂丑颈苍办补飞补冲尝尝惭を利用した果树农家の経験知の対话的蓄积支援冲诲别颈尘2025
贬补谤耻办颈厂丑颈苍办补飞补冲尝尝惭を利用した果树农家の経験知の対话的蓄积支援冲诲别颈尘2025贬补谤耻办颈厂丑颈苍办补飞补冲尝尝惭を利用した果树农家の経験知の対话的蓄积支援冲诲别颈尘2025
贬补谤耻办颈厂丑颈苍办补飞补冲尝尝惭を利用した果树农家の経験知の対话的蓄积支援冲诲别颈尘2025
Matsushita Laboratory
?
测距センサと滨惭鲍センサを用いた指轮型デバイスにおける颜认証システムの提案
测距センサと滨惭鲍センサを用いた指轮型デバイスにおける颜认証システムの提案测距センサと滨惭鲍センサを用いた指轮型デバイスにおける颜认証システムの提案
测距センサと滨惭鲍センサを用いた指轮型デバイスにおける颜认証システムの提案
sugiuralab
?
空间オーディオを用いたヘッドパスワードの提案と音源提示手法の最适化
空间オーディオを用いたヘッドパスワードの提案と音源提示手法の最适化空间オーディオを用いたヘッドパスワードの提案と音源提示手法の最适化
空间オーディオを用いたヘッドパスワードの提案と音源提示手法の最适化
sugiuralab
?
2025フードテックWeek大阪展示会 - LoRaWANを使った複数ポイント温度管理 by AVNET玉井部長
2025フードテックWeek大阪展示会 - LoRaWANを使った複数ポイント温度管理 by AVNET玉井部長2025フードテックWeek大阪展示会 - LoRaWANを使った複数ポイント温度管理 by AVNET玉井部長
2025フードテックWeek大阪展示会 - LoRaWANを使った複数ポイント温度管理 by AVNET玉井部長
CRI Japan, Inc.
?
実はアナタの身近にある!? Linux のチェックポイント/レストア機能 (NTT Tech Conference 2025 発表資料)
実はアナタの身近にある!? Linux のチェックポイント/レストア機能 (NTT Tech Conference 2025 発表資料)実はアナタの身近にある!? Linux のチェックポイント/レストア機能 (NTT Tech Conference 2025 発表資料)
実はアナタの身近にある!? Linux のチェックポイント/レストア機能 (NTT Tech Conference 2025 発表資料)
NTT DATA Technology & Innovation
?
第1回日本理学疗法推论学会学术大会での発表资料(2025年3月2日 高桥可奈恵)
第1回日本理学疗法推论学会学术大会での発表资料(2025年3月2日 高桥可奈恵)第1回日本理学疗法推论学会学术大会での発表资料(2025年3月2日 高桥可奈恵)
第1回日本理学疗法推论学会学术大会での発表资料(2025年3月2日 高桥可奈恵)
Matsushita Laboratory
?
【卒业论文】尝尝惭を用いた惭耻濒迟颈-础驳别苍迟-顿别产补迟别における反论の効果に関する研究
【卒业论文】尝尝惭を用いた惭耻濒迟颈-础驳别苍迟-顿别产补迟别における反论の効果に関する研究【卒业论文】尝尝惭を用いた惭耻濒迟颈-础驳别苍迟-顿别产补迟别における反论の効果に関する研究
【卒业论文】尝尝惭を用いた惭耻濒迟颈-础驳别苍迟-顿别产补迟别における反论の効果に関する研究
harmonylab
?
LF Decentralized Trust Tokyo Meetup 3
LF Decentralized Trust Tokyo Meetup 3LF Decentralized Trust Tokyo Meetup 3
LF Decentralized Trust Tokyo Meetup 3
LFDT Tokyo Meetup
?
【卒业论文】深层学习によるログ异常検知モデルを用いたサイバー攻撃検知に関する研究
【卒业论文】深层学习によるログ异常検知モデルを用いたサイバー攻撃検知に関する研究【卒业论文】深层学习によるログ异常検知モデルを用いたサイバー攻撃検知に関する研究
【卒业论文】深层学习によるログ异常検知モデルを用いたサイバー攻撃検知に関する研究
harmonylab
?
ラズパイを使って作品を作ったらラズパイコンテストで碍厂驰赏を貰って、さらに、文化庁メディア芸术祭で审査员推荐作品に选ばれてしまった件?自作チップでラズパイ...
ラズパイを使って作品を作ったらラズパイコンテストで碍厂驰赏を貰って、さらに、文化庁メディア芸术祭で审査员推荐作品に选ばれてしまった件?自作チップでラズパイ...ラズパイを使って作品を作ったらラズパイコンテストで碍厂驰赏を貰って、さらに、文化庁メディア芸术祭で审査员推荐作品に选ばれてしまった件?自作チップでラズパイ...
ラズパイを使って作品を作ったらラズパイコンテストで碍厂驰赏を貰って、さらに、文化庁メディア芸术祭で审査员推荐作品に选ばれてしまった件?自作チップでラズパイ...
Industrial Technology Research Institute (ITRI)(工業技術研究院, 工研院)
?
狈辞诲补滨迟蝉耻办颈冲反省観点の分类に基づく试合の振り返り支援システムに関する有用性検証冲顿贰滨惭2025
狈辞诲补滨迟蝉耻办颈冲反省観点の分类に基づく试合の振り返り支援システムに関する有用性検証冲顿贰滨惭2025狈辞诲补滨迟蝉耻办颈冲反省観点の分类に基づく试合の振り返り支援システムに関する有用性検証冲顿贰滨惭2025
狈辞诲补滨迟蝉耻办颈冲反省観点の分类に基づく试合の振り返り支援システムに関する有用性検証冲顿贰滨惭2025
Matsushita Laboratory
?
贬补谤耻办颈厂丑颈苍办补飞补冲尝尝惭を利用した果树农家の経験知の対话的蓄积支援冲诲别颈尘2025
贬补谤耻办颈厂丑颈苍办补飞补冲尝尝惭を利用した果树农家の経験知の対话的蓄积支援冲诲别颈尘2025贬补谤耻办颈厂丑颈苍办补飞补冲尝尝惭を利用した果树农家の経験知の対话的蓄积支援冲诲别颈尘2025
贬补谤耻办颈厂丑颈苍办补飞补冲尝尝惭を利用した果树农家の経験知の対话的蓄积支援冲诲别颈尘2025
Matsushita Laboratory
?
测距センサと滨惭鲍センサを用いた指轮型デバイスにおける颜认証システムの提案
测距センサと滨惭鲍センサを用いた指轮型デバイスにおける颜认証システムの提案测距センサと滨惭鲍センサを用いた指轮型デバイスにおける颜认証システムの提案
测距センサと滨惭鲍センサを用いた指轮型デバイスにおける颜认証システムの提案
sugiuralab
?

Object Detection & Instance Segmentationの論文紹介 | OHS勉強会#3

  • 1. OHS#3 論文紹介 Object Detection & Instance Segmentation 半谷
  • 2. Contents ? Object Detection ? タスクについて ? R-CNN ? Faster R-CNN ? Region Proposal Networkのしくみ ? SSD: Single Shot Multibox Detector ? Instance Segmentation ? タスクについて ? End-to-End Instance Segmentation and Counting with Recurrent Attention 2
  • 3. 一般物体認識分野でのDeep Learning ? 静止の分類タスクは、CNNによる特徴量抽出および学習により発展 ? より高度なタスクである物体検出、物体領域抽出へと発展 Classification Object Detection Semantic Segmentation Instance Segmentation Plants http://www.nlab.ci.i.u-tokyo.ac.jp/pdf/CNN_survey.pdf http://host.robots.ox.ac.uk/pascal/VOC/voc2012/segexamples/index.html Plants Plants Plants より高度 3
  • 5. Object Detection ? 画像中の複数の物体を漏れなく/重複無く検出することが目的。 ? 物体の検出精度(Precision)と、漏れなく検出できているかの指標である適合率 (Recall)の関係(Precision-recall curve)から算出した、Average Precision (AP) が主な指標。 ? 実問題への応用が期待され、APのほか予測時の計算時間も重要で、リアルタイム性が求め られている。 http://host.robots.ox.ac.uk/pascal/VOC/voc2007/ Precision Recall1 1 面積 = AP 5
  • 6. 主なモデル(1): Regions with CNN ? R-CNN (Regions with CNN) ? 物体領域候補の生成にSelective Search(SS)などの手法を利用 ? 生成した領域を画像分類用のCNNに入力し、各領域に何が写っているか(あるいは 背景か)を分類する。 ? Recallを確保するためには領域候補が2000程度必要であり、全てをCNNに入力し 計算するため非常に時間が掛かる ? また多段階の学習が必要となり煩雑である R-CNN: http://arxiv.org/abs/1311.2524 6
  • 7. 主なモデル(2): Faster R-CNN ? Faster R-CNN ? 特徴抽出部分を共通化(これはFast R-CNNで提案された方法) ? 特徴マップを入力に物体領域候補を生成するRegion Proposal Networkを提案 ? 300程度の領域候補で十分な精度が確保できる ? 1枚あたり0.2~0.3秒で処理できる Region Proposal Net (RPN) CNN (特徴抽出) Classifier 物体領域候補を生成 (~300程度) 各領域候補に写る物体を 分類する Faster R-CNN: http://arxiv.org/abs/1506.014977
  • 8. Region Proposal Network ? 特徴マップ上にAnchorを定義(方眼紙に見立てて、各マスの中心のイメージ) ? 各Anchor毎にk個のAnchor Boxを定義(スケールとアスペクト比の組み合わせ) ? 各Anchor Box毎に、物体らしさのスコアと位置?サイズの修正項を予測するように訓練する Faster R-CNN: http://arxiv.org/abs/1506.01497 画像 特徴 マップ CNN (特徴抽出) ??? スケール アスペクト比 × 各アンカーごとにk個のBox (例: k = 3 × 3) 2k scores (物体 or 背景) 4k coordinates (x, y, w, hの 修正項) H x W x 3 H/16 x W/16 x 3 8
  • 9. SSD: Single Shot Multibox Detector Region Proposal Net (RPN) CNN (特徴抽出) Classifier ① 物体領域候補を生成 (物体らしさのスコア) ② 各クラスに分類 CNN (特徴抽出) Region Proposal + Classifier 物体領域候補を生成 (クラス毎のスコア)SSD Faster R-CNN ? Faster RCNNよりも高速で精度も良いモデル ? 入力画像サイズの小さいモデル(精度はそこそこ)では58FPSを達成 ? Fasterにおいて①領域候補生成、②各領域の特徴ベクトルを切り出して分類、と2段階で 行っていた処理を一気に行う。 ? 深さの異なる複数の特徴マップを使い、浅い側は小さい物体、深い側は大きい物体を検出。 SSD: http://arxiv.org/abs/1512.02325 9
  • 10. SSD: Single Shot Multibox Detector ? Faster RCNNよりも高速で精度も良いモデル ? 入力画像サイズの小さいモデル(精度はそこそこ)では58FPSを達成 ? Fasterにおいて①領域候補生成、②各領域の特徴ベクトルを切り出して分類、と2段階で 行っていた処理を一気に行う。 ? 深さの異なる複数の特徴マップを使い、浅い側は小さい物体、深い側は大きい物体を検出。 (深さにより、デフォルトのBoxサイズを変えている) 浅い側の特徴マップからは 小さい物体を検出する 深い側の特徴マップからは 大きい物体を検出する SSD: http://arxiv.org/abs/1512.02325 10
  • 11. SSD: Single Shot Multibox Detector ? Pascal VOC 2007のDetectionタスクの結果 ? 入力画像サイズが300x300のモデル(SSD300)では58FPSを達成し、mean AP も70%を超えている。 ? 入力画像サイズが500x500のモデル(SSD500)では、Faster R-CNNより精度も高 く処理速度も速い。 SSD: http://arxiv.org/abs/1512.02325 11
  • 12. Instance Segmentation 紹介する論文: End-to-End Instance Segmentation and Counting with Recurrent Attention
  • 13. Instance Segmentation ? 領域分割(Segmentation) ? ピクセル毎のラベルを予測する ? 形状や面積といった情報が得られるため応用先も多く、活発に研究されている。 ? タスクの分類 ? Semantic Segmentation ? 各ピクセルにクラスのラベルを付与する問題。 ? ボトルが4本ある場合でも、全て「ボトルクラス」のラベルをつける ? Instance Segmentation ? 個々の物体ごとに別のラベルを付与する問題 ? ボトルが4本ある場合、別々のラベルを付与する (b) Instance ~ (a) Semantic ~Raw Image http://host.robots.ox.ac.uk/pascal/VOC/voc2012/segexamples/index.html 13
  • 16. End-to-End Instance Segmentation and Counting with Recurrent Attention ? Instance Segmentation用のニューラルネットワーク ? ステップ毎に1つの物体に注目して領域分割する ? 一度見た領域は記憶しておく (人間の数え方を参考にしている) End-to-End Instance Segmentation and Counting with Recurrent Attention: https://arxiv.org/abs/1605.09410 16
  • 17. End-to-End Instance Segmentation and Counting with Recurrent Attention End-to-End Instance Segmentation and Counting with Recurrent Attention: https://arxiv.org/abs/1605.09410 ? モデルの全体像: 17
  • 18. End-to-End Instance Segmentation and Counting with Recurrent Attention End-to-End Instance Segmentation and Counting with Recurrent Attention: https://arxiv.org/abs/1605.09410 一度見た領域を記憶しておく部品 18
  • 19. End-to-End Instance Segmentation and Counting with Recurrent Attention End-to-End Instance Segmentation and Counting with Recurrent Attention: https://arxiv.org/abs/1605.09410 どこに注目するかを決める 19
  • 20. End-to-End Instance Segmentation and Counting with Recurrent Attention End-to-End Instance Segmentation and Counting with Recurrent Attention: https://arxiv.org/abs/1605.09410 注目した領域のSegmentationを行う 20
  • 21. End-to-End Instance Segmentation and Counting with Recurrent Attention End-to-End Instance Segmentation and Counting with Recurrent Attention: https://arxiv.org/abs/1605.09410 物体が見つかったかどうかの判定を行う (スコアが0.5以下になったら終了) 21
  • 22. End-to-End Instance Segmentation and Counting with Recurrent Attention End-to-End Instance Segmentation and Counting with Recurrent Attention: https://arxiv.org/abs/1605.09410 一度見た部分は記憶する。 (以下繰返し) 22
  • 23. End-to-End Instance Segmentation and Counting with Recurrent Attention End-to-End Instance Segmentation and Counting with Recurrent Attention: https://arxiv.org/abs/1605.09410 ? 結果(1)葉っぱの領域分割 23
  • 24. End-to-End Instance Segmentation and Counting with Recurrent Attention End-to-End Instance Segmentation and Counting with Recurrent Attention: https://arxiv.org/abs/1605.09410 ? 結果(2)車両の領域分割 24

Editor's Notes

  • #11: 動画; https://drive.google.com/file/d/0BzKzrI_SkD1_R09NcjM1eElLcWc/view?pref=2&pli=1 コード; https://github.com/weiliu89/caffe/tree/ssd