狠狠撸

狠狠撸Share a Scribd company logo
On Feature Normalization
and
Data Augmentation
Boyi Li, Felix Wu, Ser-Nam Lim, Serge Belongie, Kilian Q. Weinberger
CVPR2021
杉本拓也(名工大玉木研)
2024/11/19
研究の概要?背景
n 従来の画像認識
? インスタンス間正規化
? 例)バッチ正規化
? ミニバッチのインスタンス間で
平均?分散算出
? 一般的にノイズとして除去
n 画像生成における正規化
? インスタンス内正規化
? 画像のスタイルや形状の情報をおおよそ捉える
? 生成プロセスで除去されずに重要な役割
? モーメント交換でスタイルや形状を制御
n モーメント交換を画像認識手法でのデータ拡張に応用
? モーメント:正規化プロセスで算出される平均?分散
モーメント交換:生成モデル
nインスタンス内正規化
? 画像ごとのスタイルや根本的な構造を潜在化
? 画像ごとのスタイル:色の明暗などの画像全体の雰囲気や質感
? 根本的な構造:画像中の物体の形状や輪郭
? モーメント交換
? 生成された画像のスタイルや形状を制御する一般的な方法
[Huang+, ICCV2017] PONO [Li+, NeurIPS2019]
従来の複数画像を用いたデータ拡張手法
nMixup [Zhang+, ICLR2018]
? 複数画像を線形にブレンド
? ラベル:線形補間によって重み付け
nCutMix [Yun+, ICCV2019]
? 複数画像を定められた割合で切り貼り
? ラベル:割合によって重み付け
モデルに入力される前の
段階で複数画像をMixして
情報を集約する
画像分類におけるモーメント交換
nStylized ImageNet [Geirhos+, ICLR2019]
? ImageNet [Deng+, CVPR2009] で学習したCNNモデル
? 認識の際にテクスチャに偏るバイアスを持つ傾向
nAdaINを用いてスタイル転送
? 正規化モーメントを利用した転送
? モデルに形状重視の学習をさせることが目標
Moment Exchange (MoEx)
n特徴量空間でモーメントを交換
? 2つの画像の情報を含む特徴量をモーメント交換で形成
? ラベル:損失関数で重み付け
n正規化手法の選択が重要
正規化手法の選択
nResNet110でCIFAR100を学習した時の性能で評価
? MoEx:すべての正規化アプローチで一般的に機能
? PONOが最も有効な正規化手法
? 最も効果的に特徴量の構造情報を捉える
nMoExでの正規化手法:PONO [Li+, NeurIPS2019]を使用
PONO
nインスタンス内の各位置に対してチャネル方向で正規化
? データ拡張によらず不変的
? 他の正規化手法と補完的
? 各位置で正規化するため
nPONOで算出された平均?標準偏差
? 入力画像の構造情報を捉える役割
? 空間的な配置やパターン
? エッジや輪郭
? 空間的なパターン?テクスチャ
MoEx層の選択
n正規化手法の捉える情報に依存
nResNet110 [He+, arXiv2015]の場合
? PONO?GN
? 第1層(第1ステージの手前)で適用
? 局所的な情報を捉えるため
? LN:第3ステージの直前
? IN:第2ステージの直前
大域的な特徴に対して正規化モーメントを計算
ハイパーパラメータ
n損失関数
? クラスラベル?!と?"を予測するように設計
? ? = ??? ?!
"
, ?! + 1 ? ? ?? ?!
"
, ?" . ?:補間重み
? 経験的に0.9でデータセット全体で効果的に機能
? モーメントは正規化された特徴量よりも情報が少ないため
n実行確率 p
? ほとんどのデータセット:p = 0.5
? ImageNet:p = 1
? より強力なデータ拡張が必要
n他のデータ拡張やインスタンス間正規化と組み合わせ可能
実験:CIFAR
n様々なモデルでMoExを評価
? 上:MoEx無し
? 下:MoEx有り
? 誤分類率で評価?比較
n第1層目の後の特徴量に対して
MoExを適用
n全てのベースライン性能を向上
実験:ImageNet
n実験設定
? バッチサイズ:1024
? 学習率:0.4
? スケジューラー:CosineAnnealingLR
? 最初の5エポック:Linear Warmup
nモデル
? ResNet50 [He+, arXiv2015]
? ResNeXt50 (32 4d) [Xie+, CVPR2017]
? DenseNet-265 [Huang+, CVPR2017]
n全体的に分類性能向上
下流タスクへの適用
n物体検出タスク
? データセット:Pascal VOC?COCO [Lin+, ECCV2014]
nモデル:Faster R-CNN [Ren+, NeurIPS2015]
? バックボーン:Detectron2に実装されたC4またはFPN [Lin+, CVPR2017]
n4つの条件でImageNetを学習して事前重みとして物体検出
? default:[He+, arXiv2015]で提供されている重み
まとめ
n正規化モーメントを使用したデータ拡張手法を提案
? インスタンス内正規化による正規化モーメントを有効活用
n多くのデータセットやモデルで性能向上
? 一貫して分類精度と頑健性を改善
n下流タスクへの応用
? 例:物体検出タスク
? MoExで事前学習した重みを使用
? 有効な結果を示す
モーメント交換とラベル補完の重要性
nMoExにおけるラベル補完に関するアブレーション
? ラベル補完が最も有益
nモーメント交換に関するアブレーション
? 交換によって平均誤分類率を改善

More Related Content

論文紹介:On Feature Normalization and Data Augmentation