狠狠撸

狠狠撸Share a Scribd company logo
いきなりですが、问题です
これは何でしょう?
①ネコ
②イヌ
③ゾウ
これは何でしょう?
①ネコ
②イヌ
③ゾウ
これは何でしょう?
①カバ
②サイ
③ゾウ
これは何でしょう?
①カバ
②サイ
③ゾウ
これは何でしょう?
①ネコ
②サイ
③ゾウ
これは何でしょう?
①ネコ
②サイ
③ゾウ
CNNによる認識率は…
ImageNetを学習したResNet50では(c)を
うまく識別できていない
IMAGENET-TRAINED CNNS ARE BIASED
TOWARDS TEXTURE; INCREASING SHAPE
BIAS IMPROVES ACCURACY AND
ROBUSTNESS.
@mo_takusan9922
20181205
Under review at ICLR 2019 (review scores 8,8,7)
自己紹介
? 理工学部情報工学科3年
? KCS
? 気づいたら公式サイトに投稿
している記事がunityしかない
Significance
? ImageNetでCNNが学習しているのは主にテクスチャであり、
オブジェクトの形はほとんど学習していないことを示した
? ImageNetにスタイル変換を施した学習セット(SIN)を用いるこ
とで形に注目が行く
BackGround : ImageNet (IN)
? 1400万枚以上の画像が収録されているデータセット
? 2万枚以上のカテゴリに分かれている
? ベンチマークとしても良く利用される
https://cs.stanford.edu/people/karpathy/cnnembed/
BackGround : CNNの学習
? CNNは層を経るごとにエッジなどの低いレベルの特徴量を学習
し組み合わせることで複雑な形状を認識していると考えられて
いる
? 物体検出においては形状の傾向を獲得する方が重要[Ritter et
al. , 2017]
BackGround : CNNの学習
? ImageNetを学習したVGG16などは以下のようにモザイク状に
した画像に対しても高い認識率を誇る[Anonymous, 2018]
BackGround : CNNの学習
? エッジの認識が重要であるのにも関わらず、テクスチャの学習
しかしていない
→ この問題を解決することが
深層学習、CV及び神経科学分野において重要
Method : Psychophysical Experiments
? Geirhos et al. (2018) のパラダイムに従って、同じ画像におけ
るの人間と CNN の分類のパフォーマンスを正確に直接比較
Method : Data Set (Phychophysics)
? 以下の画像に対して物体認識タスクを行い、テクスチャ及び形
状のバイアスを評価する
? オリジナル : 元の画像
? グレースケール : 輝度情報のみ
? シルエット : 影のみ
? エッジ : 輪郭のみ
? テクスチャ : 質感のみ
? キューコンフリクト : 画風変換によってテクスチャを変化させたもの
Method : Stylized-ImageNet (SIN)
? 元画像のテクスチャ情報を除去しランダムに選ばれた画像のテ
クスチャ情報を付与したImageNetデータセットで学習
? テクチャ付与にはAdaIN style transfer[Huang & Belongie,
2017]による画風変換を利用
Results : Shape vs Texture
Results : Shape vs Texture
Results : Overcoming The Texture Bias
? CNNがテクスチャにバイアスをかけてしまった原因はデータ
セットにあると考えられる
? ImageNetはローカルな情報のみを利用して高い認識精度を達
成できることが知られている[Anonymous, 2018]
→ SINを利用することでこの仮説を検証
Results : Overcoming The Texture Bias
Results : Overcoming The Texture Bias
Results : Robustness and Accuracy
? 形状にバイアスをかけたResNet-50のロバスト性と精度を以下
の方法で向上させる
? INとSINを合わせたデータセットで学習させる
? INに対してfine-tuningした状態でINとSINを合わせたデータセットを
使って学習させる(=Shape-ResNet)
? これらを通常のResNet-50と次のようにして比較
1. IN の分類性能
2. Pascal VOC 2007 への転位学習
3. 画像の摂動に対する頑健性
Results : Robustness and Accuracy
? IN の分類性能
? Pascal VOC 2007 への転位学習
Results : Robustness and Accuracy
? 画像の摂動に対する頑健性
参考
? Robert Geirhos. IMAGENET-TRAINED CNNS ARE BIASED
TOWARDS TEXTURE; INCREASING SHAPE BIAS IMPROVES
ACCURACY AND ROBUSTNESS. Under review as a
conference paper at ICLR 2019. 2018
? @karpathy. t-SNE visualization of CNN. Results
codeshttps://cs.stanford.edu/people/karpathy/cnnembed/.
(参照日: 2018/12/02)
? Stanford Vision Lab, Stanford University, Princeton
University.ImageNet. http://www.image-net.org/ .2016

More Related Content

Imagenet trained cnns-are_biased_towards

Editor's Notes

  • #15: for VGG-16, BagNet-9/17/33 reach 0.70 / 0.79 / 0.88
  • #17: 颁狈狈による推论と同じくらいの时间で直観的に选ばせた
  • #18: この時、オリジナルとテクスチャの選び方は使用するモデル全てでうまく分類できたもの これに対してオリジナルにグレースケール、シルエット、、などの変化を付ける これによってテクスチャによって分類できたのか、それとも形状によって分類できたのかわかる
  • #19: 反復様式では非常に長い時間かかる 単体のフィードフォワードで任意の画風に変換できるという点で採用された
  • #20: ほぼすべてのオブジェクトとテクスチャ画像 (オリジナルとテクスチャデータセット) CNNs と人間の両方によって正しく認識された 形状とテクスチャ情報を両方含んでいるグレースケール画像でも同様にうまく認識された シルエット画像の場合、明らかに人間よりもImageNetで訓練されたCNNは認識制度が低い エッジの場合はさらに顕著 したがって人間はテクスチャ情報を持たない画像に対してもうまく認識できるのに対してImageNetで学習されたCNNはテクスチャ情報が存在しない場合は認識できない これはエッジの画像をネットワークが過去に見たことがないために 訓練時に存在しなかったスケッチ画像は自然な画像からの統計量が大きく異なるため 訓練時に学習しなかったドメインに対してはうまく適応することができないことを示す。 これ現実の画像で学習したCNNではアニメ画像をうまく識別することができないとかいうの前からなかったっけ?って思いました ものは言いようかな?と… シルエットを生成するためにオブジェクトの輪郭が黒い色で埋められた場合、CNN の認識精度は人間の精度よりもはるかに低かった。これは、さらにエッジ刺激のために顕著であった, 人間のオブザーバーは、テクスチャ情報をほとんど持っていない画像とはるかに良い対処することを示す.これらの実験の1つの混同は CNNs が (ネットワークが前に決して見たことがない) スケッチに (ネットワークが訓練された) 自然なイメージからのイメージの統計量の大きい変更すなわち領域の転位とうまく対処しない傾向があることである。
  • #21: 人間が赤丸 AlexNetがムラサキダイヤモンド VGG16が青い三角 GoogLeNetが水色丸 ResNet-50がグレー正方形 人間は正しく認識できたカテゴリでは95.9%で形状を元に決定を行っていることを示す。 CNNでは多くの場合、テクスチャを元に決定していることが分かる AlexNet: 42.9% 対 57.1%; VGG-16: 17.2% shape 82.8% GoogLeNet: 31.2% 対 68.8%; ResNet-50: 22.1% 対 77.9%
  • #22: 画像全体の形状を统合し分类するプロセスを経るのではなく、たくさんの部分的なテクスチャの様子を统合するだけで十分に认识できる
  • #23: (学習に利用したデータセット)→(テストに利用したデータセット) SINを利用した場合に認識精度が低下するのはSINがINに比べて難しいタスクであるため SIN→INでは認識率が改善していることからも分かる BagNetはResNet-50のアーキテクチャを持つが、認識するために利用する画像領域の最大サイズを33*33、17*17、9*9に制限したもの 「画像全体の形状を统合し分类するプロセスを経るのではなく、たくさんの部分的なテクスチャの様子を统合するだけで十分に认识できる」を証明できる
  • #24: 赤丸:人間 黄四角:SINのResNet-50 灰四角:INのResNet-50 SINによって学習することによって、INでは22%しか形状を見ていなかったResNet-50が81%も形状を見るように変化した
  • #25: 赤丸:人間 黄四角:SINのResNet-50 灰四角:INのResNet-50 SINによって学習することによって、INでは22%しか形状を見ていなかったResNet-50が81%も形状を見るように変化した
  • #26: トップ1と top5 ImageNet の検証精度に関して、バニラ ResNet を凌駕しています。これは、SIN が ImageNet での有用なデータ増大であり、アーキテクチャの変更なしにモデルのパフォーマンスを向上できることを示しています。 パスカル VOC の 2007.トレーニングデータに SIN を組み込むことで70.7だったmAP50の認識率が75.1へと向上。 テクスチャベース表現よりも経常ベース表現は有益であるという直感に沿っている。 MAPは物体認識タスクにおいて現れた正解ラベルの内どれだけ正しく認識できたかの平均を全てのオブジェクトに対して平均をとったもの mAP50 のオブジェクト検出性能が大幅に向上します。これは、オブジェクトの検出のために、形状ベースの表現は、テクスチャベースの表現よりも有益であるという直感に沿って、物体を包含する地上の真理の長方形は、グローバルオブジェクトの形状に合わせたデザインであるためです。
  • #27: ノイズ、コントラスト変化、ハイ?ローパスフィルタリング、Eidolonなどによって画像が歪んでいる場合のモデルの精度がどれほど劣化するかテストした結果 SINで学習したモデルの方が、ほとんど全ての歪みに対してINで学習したものよりも良い結果を示している。 Lowパスフィルタでは唯一悪い結果を示したが、ローパスフィルタによってエッジ情報が無くなるためだと考えられる。 しかし全体としては人間の歪みに対するロバスト性にかなり近くなっている。 歪みに対する頑健性または位相ノイズ、コントラスト変化、ハイ?ローパスフィルタリング、まぼろし摂動などによって画像が歪んでいる場合、モデルの精度がどのように劣化するかを体系的にテストしました。この比較の結果、ヒト参照用のデータは、図6の視覚化である。歪み画像の数パーセントの精度を欠いている間、罪の訓練を受けたネットワークは、ほとんどすべての画像操作で訓練を受けた CNN よりも優れています。(ローパスフィルタリング/ブラーは、sin によって訓練されたネットワークがより影響を受けやすい唯一のディストーションタイプであり、絵画を通した sin の高周波信号の過剰表現と鋭いエッジへの依存に起因する可能性があります。罪の訓練を受けた ResNet-50 は、訓練中に歪みのいずれかを見たことがないにもかかわらず、人間レベルの歪みの堅牢性に近づく。