狠狠撸

いきなりですが、问题です

これは何でしょう？
①ネコ
②イヌ
③ゾウ

①カバ
②サイ
③ゾウ

①ネコ
②サイ
③ゾウ

CNNによる認識率は…
ImageNetを学習したResNet50では(c)を
うまく識別できていない

IMAGENET-TRAINED CNNS ARE BIASED
TOWARDS TEXTURE; INCREASING SHAPE
BIAS IMPROVES ACCURACY AND
ROBUSTNESS.
@mo_takusan9922
20181205
Under review at ICLR 2019 (review scores 8,8,7)

自己紹介
? 理工学部情報工学科3年
? KCS
? 気づいたら公式サイトに投稿
している記事がunityしかない

Significance
? ImageNetでCNNが学習しているのは主にテクスチャであり、
オブジェクトの形はほとんど学習していないことを示した
? ImageNetにスタイル変換を施した学習セット(SIN)を用いるこ
とで形に注目が行く

BackGround : ImageNet (IN)
? 1400万枚以上の画像が収録されているデータセット
? 2万枚以上のカテゴリに分かれている
? ベンチマークとしても良く利用される
https://cs.stanford.edu/people/karpathy/cnnembed/

BackGround : CNNの学習
? CNNは層を経るごとにエッジなどの低いレベルの特徴量を学習
し組み合わせることで複雑な形状を認識していると考えられて
いる
? 物体検出においては形状の傾向を獲得する方が重要[Ritter et
al. , 2017]

? ImageNetを学習したVGG16などは以下のようにモザイク状に
した画像に対しても高い認識率を誇る[Anonymous, 2018]

? エッジの認識が重要であるのにも関わらず、テクスチャの学習
しかしていない
→ この問題を解決することが
深層学習、CV及び神経科学分野において重要

Method : Psychophysical Experiments
? Geirhos et al. (2018) のパラダイムに従って、同じ画像におけ
るの人間と CNN の分類のパフォーマンスを正確に直接比較

Method : Data Set (Phychophysics)
? 以下の画像に対して物体認識タスクを行い、テクスチャ及び形
状のバイアスを評価する
? オリジナル : 元の画像
? グレースケール : 輝度情報のみ
? シルエット : 影のみ
? エッジ : 輪郭のみ
? テクスチャ : 質感のみ
? キューコンフリクト : 画風変換によってテクスチャを変化させたもの

Method : Stylized-ImageNet (SIN)
? 元画像のテクスチャ情報を除去しランダムに選ばれた画像のテ
クスチャ情報を付与したImageNetデータセットで学習
? テクチャ付与にはAdaIN style transfer[Huang & Belongie,
2017]による画風変換を利用

Results : Overcoming The Texture Bias
? CNNがテクスチャにバイアスをかけてしまった原因はデータ
セットにあると考えられる
? ImageNetはローカルな情報のみを利用して高い認識精度を達
成できることが知られている[Anonymous, 2018]
→ SINを利用することでこの仮説を検証

Results : Overcoming The Texture Bias

Results : Robustness and Accuracy
? 形状にバイアスをかけたResNet-50のロバスト性と精度を以下
の方法で向上させる
? INとSINを合わせたデータセットで学習させる
? INに対してfine-tuningした状態でINとSINを合わせたデータセットを
使って学習させる(=Shape-ResNet)
? これらを通常のResNet-50と次のようにして比較
1. IN の分類性能
2. Pascal VOC 2007 への転位学習
3. 画像の摂動に対する頑健性

? IN の分類性能
? Pascal VOC 2007 への転位学習

? 画像の摂動に対する頑健性

参考
? Robert Geirhos. IMAGENET-TRAINED CNNS ARE BIASED
TOWARDS TEXTURE; INCREASING SHAPE BIAS IMPROVES
ACCURACY AND ROBUSTNESS. Under review as a
conference paper at ICLR 2019. 2018
? @karpathy. t-SNE visualization of CNN. Results
codeshttps://cs.stanford.edu/people/karpathy/cnnembed/.
(参照日: 2018/12/02)
? Stanford Vision Lab, Stanford University, Princeton
University.ImageNet. http://www.image-net.org/ .2016

狠狠撸

Imagenet trained cnns-are_biased_towards

Recommended

More Related Content

More from KCS Keio Computer Society (20)

Recently uploaded (11)

Imagenet trained cnns-are_biased_towards

Editor's Notes