狠狠撸

狠狠撸Share a Scribd company logo
160112 DL勉強会
片岡 裕雄, Ph.D.
産業技術総合研究所
知能システム研究部門 コンピュータビジョン研究グループ
http://www.hirokatsukataoka.net/
Sergey	Zagoruyko,	Tsung-Yi	Lin,	Pedro	Pinheiro,	Adam	Lerer,	Sam	Gross,	
Soumith	Chintala,	Piotr	Dollár,	FAIR	(Facebook	AI	Research),	in	ILSVRC,	2015.	
【1】	
手法	
Links	
ポスター	hLp://image-net.org/challenges/talks/COCO-ICCV15-clean.pdf	
	
結果	
?FacebookはCOCO	Object	DetecSonにフォーカスしていた	
?DeepMask[Pinheiro+,	NIPS2015]による候補領域とFast	R-CNNに対して複数の改善	
?IteraSve	LocalizaSon	(+1.0AP)やTop-down	re?nement	(+0.7AP)などのテクニックも有効	
?パッチを分解して特徴評価?BBox回帰するFoveal	structure[Gidaris+,	ICCV2015]により+2.0AP	
?複数の重なり率による誤差MulS-threshold	lossにより+1.5AP	
?トレーニングは4Maxwell	GPUを用いて4日間,8x4	Kepler/ElasSc	Averaging	SGD[Zhang+,	NIPS2015]により2.5日	
?Base	Modelにより30.1AP,Horizontal	?ipにより31.1AP,ROI	Pooling	'2	crop'により32.1AP,7-model	ensembleにより33.5AP	
?SegmentaSonはDeepMask	(Proposal	BBoxes)	-	Fast	RCNN	(Scored	BBoxed)	-	DeepMask	(Scored	Segments)により実行	
?将来展望として背景との混同や微小領域の高精度化,コンテキストの活用,fast/proposal-freeな検出が挙げられる	
	
	
?MS	COCO	datasetの検出にて第2位	
?Fast	R-CNNが19.7%の検出率に対して33.5%(約66%の向上,	MSRAは37.3%)
CUImage	(Chinese	Univ.	of	Hong	Kong)	"CUImage-poster.pdf",	Cascaded	
Networks	for	Object	DetecSon	with	MulS-Context	Modeling	and	Hierarchical	
Fine-Tuning,	in	ILSVRC,	2015.	
【2】	
手法	
Links	
ポスター	hLp://image-net.org/challenges/posters/CUimage_poster.pdf	
[1]	X.	Zeng,	et	al.	Window-Object	RelaSonship	Guided	RepresentaSon	Learning	for	Generic	Object	DetecSons	,	axiv	preprint.	
[2]	W.	Ouyang,	et	al.	Factors	in	Finetuning	Deep	Model	for	object	detecSon,	axiv	preprint.	
[3]	J.	Yan,	et	al.	CRAFT	Objects	from	Images,	axiv	preprint.	
[4]	W.	Ouyang,	et	al.	Deepid-net:	Deformable	deep	convoluSonal	neural	networks	for	object	detecSon.	CVPR,	2015.	
[5]	J.	Yan,	et	al.	Object	detecSon	by	labeling	superpixels.	CVPR,	2015.	
	
結果	
?MulS-context[1]:	複数のパッチサイズ/複数のコンテキストを含む画像を評価,特徴を連結させてSVMによりスコアリング	
?Cascaded	hierarchical	feature	learning[2]:	クラスごとに異なる有効な特徴を評価するために階層的カスケード特徴学習を実行,
階層的クラスタリングが物体のグルーピングに適用されそれぞれのモデルを?ne-tuning	
?Cascade	Region-Proposal-Network	and	Fast	RCNN	(CRAFT)[3]:	RPNの候補領域を再評価(IoU>0.7をposi,	IoU<0.3をnega)して候補領域
をさらに絞り込み,Cascade識別器により識別	
	
	
?ImageNet	DetecSonにおいて52.7%,	ImageNet	DetecSonにて3位	(MSRAは62.1%)	
?CRAFTにより候補領域の精度が94+%
WM	(Univ.	of	Chinese	Academy	of	Sciences,	Peking	Univ.)	Li	Shen,	Zhouchen	
Lin,	in	ILSVRC,	2015.	
【3】	
手法	
Links	
ポスター	hLp://image-net.org/challenges/talks/WM_presentaSon.pdf	
[1]	K.	He,	X.	Zhang,	S.	Ren	and	J.	Sun.	SpaSal	pyramid	pooling	in	deep	
convoluSonal	networks	for	visual	recogniSon.	In	ECCV	2014.		
結果	
?VGG-likeアーキテクチャ	
?Model	Aは22層構成,最後のMaxプーリング層をSPP層[1]に置き換え	
?Model	BはmulS-scaleの統合,サンプルの非一様分布によるバランスサンプリング	
?Relay	Back-PropagaSon(右図)による勾配消失の防止	
	
	
	
	
?Place2にて優勝,	Classi?caSon	errorが16.87%
ION,	(Cornell	University,	Microsos	Research),	Sean	Bell,	Kavita	Bala,	Larry	
Zitnick,	Ross	Girshick,	“Inside-OutSide	Net:	DetecSng	Objects	in	Context	with	
Skip	Pooling	and	Recurrent	Neural	Networks”,	in	ILSVRC,	2015.	
【4】	
手法	
Links	
論文	hLp://arxiv.org/pdf/1512.04143.pdf	
ポスター		hLp://image-net.org/challenges/talks/ion-coco-talk-bell2015.pdf	
	
結果	
?Fast	R-CNNをベースにする	
?FRCNNのROI	poolingは必要部の局所領域のみしか識別に用いないが,提案ではconv3/conv4/conv5を統合,次元圧縮して全結合
層へ入力	
?さらにNormalizaSon,Rescaleの処理も加える	
?4方向に走査可能なRNNを2つ積み上げることですべての特徴マップに対して表現可能	
?ION	Detectorにより+5.1mAP	
?さらにデータの追加により+3.9mAP	
?Faster	R-CNNのRPNを用いてデータ数を増やす	
?RPNは9	anchorから22	anchorに変更,7	scales	x	3	aspect	raSos,	32x32	
?トレーニングにより+4.1mAP	
?No	dropout,	longer	with	larger	mini-batches,	セグメンテーションによる正規化	
?MR-CNN	(PASCALデータ追加,閾値の設定,左右反転画像など)	
?MS	COCO	detecSonにて第3位	(学生トップ)	
?31.0%	(test-compeSSon),	runSme	2.7s	
?33.1%	(post-compeSSon)
CUvideo	Team,	Kai	Kang	(Chinese	Univ.	of	Hong	Kong),	“Object	DetecSon	in	
Videos	with	Tubelets	and	MulS-context	Cues”,	in	ILSVRC,	2015.	
【5】	
手法	
Links	
ポスター	hLp://image-net.org/challenges/talks/Object%20DetecSon%20in%20Videos%20with%20Tubelets%20and%20MulS-context%20Cues%20-%20Final.pdf	
[1]	Wang,	Lijun	et	al.	Visual	Tracking	with	Fully	ConvoluSonal	Networks.	ICCV	2015.	
[2]	J.	Yan,	et	al.	CRAFT	Objects	from	Images,	axiv	preprint.	
[3]W.	Ouyang,	et	al.	Deepid-net:	Deformable	deep	convoluSonal	neural	networks	for	object	detecSon.	CVPR,	2015.	
	
結果	
?ビデオによる物体検出	
?初期値として静止画により検出	
?(1)	時系列の候補領域(Temporal	Tubelet	Re-scoring)のスコア値算出	
?静止画による検出はフレーム間で不安定なため,領域の時系列評価を行うのがTubelet	
?信頼度の高い領域の追跡[1],空間的なMax-pooling,時間軸でのスコア再計算	
?空間的なMax-poolingにより,最大値領域のみを残す	(Kalman	?lterによるbbox推定)	
?(2)	MulS-context	suppression	(MCS)	&	MoSon	Guided	PropagaSon	(MGP)	
?MCSはすべてのbboxのスコア値をソート,時系列でハイスコアのクラスが変化しないものは検出結果として残す	
?MGPは検出結果をより時間的に後のフレームに伝播させ,前に検出されたものを後のフレームでも探索,NMSしやすい	
?(1),	(2)のモデル統合	
?候補領域はCRAFT[2]	
?識別はDeepID-Net[3]	
?ILSVRC2015	VIDにて67.8%の検出率
Jiankang	Deng,	(Amax),	“Cascade	Region	Regression	for	Robust	Object	
DetecSon”,	in	ILSVRC,	2015.	
【6】	
手法	
Links	
論文	
hLp://image-net.org/challenges/talks/JiankangDeng_UTS&NUIST-R.pdf	
	
結果	
?ベースラインはVGG-16	(45.6)	
?アップデートとして,RPN	12	anchors	(+0.72),	Cascade	Region	Regression	(+2.93),	Learn	to	Combine	(+1.75),	Learn	to	Rank	(+1.94),	
AddiSonal	Data	(+2.64),	VGG-16	ensemble,	MulSmodels	ensemble	(+2.87%)	
?最終的な検出率は58.98まで上昇(@validaSon2セット)	
?各畳み込みの工程毎にbbox	regressionを行うCascade	Region	Regressionが効果的であり,2.93%も検出率が上昇した	
?Model	EnsembleはVGG-16,	GoogLeNetやその他アーキテクチャから取り出した特徴マップを統合	
?ILSVRC2015	VID	(External)にて73.1%の検出率
Jie	Shao,	Xiaoteng	Zhang,	Jianying	Zhou,	Zhengyan	Ding,	(Trimps),	in	ILSVRC,	
2015.	
【7】	
手法	
Links	
ポスター	hLp://image-net.org/challenges/talks/Trimps_ilsvrc2015.pdf	
結果	
?複数のモデルを統合,スコア値により統合(+1.07%),	ラベルによる統合(+1.17%)	
?7	x	BN-IncepSon	(GoogLeNet-like;	32layers)	
?2	x	MSRA-Net	(PReLU;	22layers)	
?データ拡張あり	
?LocalizaSonはFast-R-CNNをベースラインとした	
?候補領域はEdgeBoxes	
?ILSVRC2015	object	localizaSoin	12.29%で2位	(追加データOK-extra	dataでは1位)	
?ILSVRC2015	object	VID	46.1%で4位	(extra	dataでは3位)	
?Scene	classi?caSon	17.98%のエラー率で4位	
?ILSVRC2015	object	detecSonでは44.6%で7位
MIL-UT,	Masataka	Yamaguchi,	Qishen	Ha,	Katsunori	Ohnishi,	Masatoshi	Hidaka,	
Yusuke	Mukuta,	Tatsuya	Harada,	in	ILSVRC,	2015.	
【8】	
手法	
Links	
ポスター	hLp://image-net.org/challenges/posters/MILUT.pdf	
結果	
?Fast	R-CNN	+	VGG-16をベースラインとする	
?FC7(sosmaxの前の層)を特徴として使用	
?第4のmax-pooling層をRoI	pooling	layerに置き換える	
?RoI	poolingによる特徴と画像全体のCNN特徴を組み合わせる	
?Bbox	regressionも適用する	
?Bayesian	opSmizaSonによるモデルの統合	
?ILSVRC2015	DET	with	external	dataにて47.0%,	第3位

More Related Content

ILSVRC2015 手法のメモ