狠狠撸

2020.08.20
洪嘉源
株式会社 Mobility Technologies
Long-Tailed Classification
の最新動向について

2
? 最近のconferenceでhotになりつつのlong-tailed classificationにつ
いて紹介したいと思います。
? 今回の資料は主に2019年以来のcomputer vision領域でのlong-
tailed分布のタスクについてです。早期の研究および自然言語領域の
内容は対象外となります
? supervised learningに関する研究をメインにします。
（unsupervised/self-supervisedはそんなにラベルに頼らないのでこ
の分野では研究がほとんどありません。）
? Titleはlong-tailed classificationですが、最後にlong-tailed分布の
detection/segmentation taskも少し言及します。
この資料について

3
Agenda
01｜Long-Tailed Classification概要
02｜主流手法紹介
03｜最新論文紹介

4
01 Long-Tailed Classification概要

5
? 理想的な分類タスク：
? 独立同一分布
? クラス間のデータ数は均衡
? 学習データとテストデータの分布が一致
? データの分布がずっと固定
? …
? 実際のタスクでは上記条件は必ず満足されるとは限らない
? long-tailed問題はデータ不均衡問題
Long-Tailed Classification概要

6
? targetとされるクラス数が増えることによって、人為的に均衡的なデ
ータを収集するコストが高くなる
→ 自然的に収集するデータはlong-tailed分布 (Zipf's Law)
cat
vulpes lagopus

7
? インスタンス数によって二つに分ける
? head classes: 少数のクラス、データ数が多い、学習しやすい
? tail classes: 多数のクラス、データ数が少ない、学習しずらい
（＊many/medium/few三段階に分けるのもある）
? 目的: tail classesを有効に利用し、均衡＆高性能のモデルを訓練する
head classes tail classes
cat
vulpes lagopus

9
? 二つのbasic approach：
? re-sampling: 学習データをdata balancedにサンプリングする
? re-weighting: ロスに重みをかけてdata balancedにする
? 両者とも既知の学習データセットの分布を利用し、データ分布を
hackingしてtail classesの学習を強化する
主流手法

10
? 早期の研究では主に
? head classesを少なめにサンプリングする（under-sampling）
? tail classesを少なめにサンプリングする（over-sampling）
? 本質はclass-balanced sampling
（通常分類タスクのinstance-balanced samplingと区別する）
? サンプリング戦略の数式：
? ?はクラス数、 ??はクラス?のサンプル数、??は?番目のクラスから画像をサンプリ
ングする確率
? re-samplingでは、? ∈ 0, 1 → tail classesのサンプリング確率をあげる
? ? = 0:class-balanced sampling, ? = 1:instance-balanced sampling(no re-sampling)
Re-Sampling
?? =
??
?
?=1
?
??
?

11
? データ分布を基づいて逆に重み付け
? re-weighted cross-entropy loss:
? ??はlogit出力、 ?はre-weightの重み（＊この重みは常数ではない）
? 一般的なフォーマット：? = ? ?=1
?
? ? ?
? ? ?
, ? ? , ?(?)は任意の単調増加関数
? 分類confidenceを基づいて重み付け（Hard Example Mining）
? focal loss[1]（二値分類の場合）:
? ?はラベルが?の確率、 ?はfocusing parameter、 ? ≥ 0
Re-Weighting
??? = ?? ?
exp(??)
?=1
?
exp(??)
?? = ?(1 ? ??) ?
log ?? , ?? =
?, ?? ? = 1
1 ? ?, ?????????

12
? 両者を比較して
? re-samplingはハイパーパラメータの調整が少ない
? re-weightingは複雑のタスクでもフレキシブルに応用できる
? 上記re-samplingとre-weightingはlong-tailed問題に対して非常にシ
ンプルかつ有効の解決手法。そのため、最新の研究は主にそれらをベース
とする
サマリ

14
項目
3.1｜Re-Sampling
3.2｜Re-Weighting
3.3｜Transfer Learning(*)
3.4｜Detection/Segmentation(*)

15
Decoupling Representation and Classifier for Long-
Tailed Recognition, ICLR 2020 [2]
? 現在long-tailed classificationでSOTA（state of art）の一つ
? 分類パーフォマンス = 表現クオリティー + 分類器クオリティー
? long-tailed分布のデータを通常の学習なら分類器クオリティーが低い
? 直接rebalancingの手法を全モデルに適用すると表現クオリティーが下がる
3.1.1

16
? 一般的には、CNNによる分類の形式は：
? 特徴抽出: ? ?; ? = ?
? 分類器: ?? ? = ??
?
? + ?
? 最終的の予測: ? = ?????? ?? ?
? 通常分類器のクオリティについて分析
? 分類器のweight norm ?? は当該
クラスのインスタンス数が相関（青）
? tail classesのweight scaleが小さい
→confidence scoreが小さい
→性能が悪い
3.1.1 long-tailed の分類性能の分析
通常の学習(青)

17
? Classifier Retraining (cRT)
? 特徴抽出部を固定し分類器だけをre-sampling(class-balanced) で再学習
? ?-Norm
? 直接にweightを修正する: ?? =
1
? ?
? ? ??
? ? ∈ (0, 1)はcross validationで決める
? Learnable Weight Scaling (LWS)
? 学習でweightのscaleを調整: ?? = ?? ? ??
? 特徴抽出部と分類器を固定して
??はre-sampling (class-balanced)で学習
? Nearest Class Mean classifier (NCM)
? 各クラスの平均特徴を計算し、最近傍探索で分類
3.1.1 分類器性能を向上する手法

18
? sampling割合の数式: ?? =
? ?
?
?=1
?
? ?
?
? instance-balanced: ? = 1
? class-balanced: ? = 0
? square-root: ? = 0.5
? progressively-balanced: ??
??
? = 1 ?
?
?
? ??
??
+
?
?
? ??
??
, ?は何epoch目
3.1.1 re-sampling戦略

19
? 特徴抽出部が各sampling手法で学習した場合の結果
? 分類器がre-balancingしない場合、progressively-balancedの性能が一番いい
? 特徴抽出部がre-samplingしない、分類器がre-balancingする場合、
Medium/Few クラスの性能が飛躍に上がって、全体的に最高の性能を得る
3.1.1 組合せと比較

20
3.1.1 Results
ImageNet-LT
iNaturalist 2018
Places-LT

21
Bilateral-Branch Network with Cumulative Learning
for Long-Tailed Visual Recognition，CVPR 2020 [3]
? 現在long-tailed classificationでもう一つのSOTA
? 別の角度でre-balancingを分析し、前の論文と似ている結論を導いた
? パーフォマンス一番いい組合せ：
元データとcross-entropy lossで学習の特徴抽出部＋re-samplingで学習の分類器
3.1.2

22
? one-stage two-branchのモデルを構築
? no re-balancingとre-balancingの学習を二つのブランチを分けて同時に学習する
? 両ブランチの前半部分の重みをshareする
? 両ブランチの出力featureを動的に重み付けて合併する
（学習に連れてno re-balancingからre-balancingへの重心転移）
3.1.2 Framework

24
Class-Balanced Loss Based on Effective Number of
Samples，CVPR 2019 [4]
? あるクラスに対して、データサンプル数の増加に連れ
て、新しいサンプルがモデルへの貢献が少なくなる
? 有効サンプル数の概念を提案した
? 過去のre-weighting手法では各クラスのサンプル数を
参照して重み付けに対して、有効サンプル数で重みを
デザインする
3.2.1

25
? 一つのsampleが点ではなく一定の大きさがあるregionとみなす
? 二つのサンプルがoverlappedとoverlappedしないパターンがある
? あるクラスのすべてのpossible samplesが構成したfeature space ?の
大きさを?とする
? 有効サンプル数は?個サンプルが構成したvolumeの大きさ
3.2.1 定義

26
? ?個サンプルの有効サンプル数: ? ? =
1?? ?
1??
, ????? ? =
??1
?
? ? = 1, ? ? = 1; ? → ∞, ? ? = ?
? ?はハイパーパラメータとして使う(0.9, 0.99, …)
? class-balanced loss:
?? ?, ? =
1
? ?
? ?, ? =
1??
1?? ? ? ? ?, ?
? 1??
1?? ? ?はclass-balanced term
? ? ? はsoftmax cross-entropy loss/sigmoid cross-entropy loss/
focal lossなど
3.2.1 有効サンプル数とLoss Functionの設計

28
Learning Imbalanced Datasets with Label-
Distribution-Aware Margin Loss，NIPS 2019 [5]
? head classesとtail classesのboundaryのtrade-offを考慮して、
サンプル数を参照したLDAM Lossを設計した
? 3.1.1, 3.1.2で紹介した論文と似て、モデルの表現クオリティー
を重視して、軽いre-weighting→重いre-weightingの学習
スケジュールを提案した
3.2.2

29
? label-distribution-aware margin loss:
? ???? ?, ? ; ? = ????
? ? ??? ?
? ? ??? ?+ ?≠? ?
? ?
,
????? ? ? =
?
??
1 4
??? ? ∈ {1, … , ?}
? ?は常数、 ??はクラス?のサンプル数
3.2.2 Loss Function

30
? 二段階の学習スケージュール：
? 初期はLDAM lossで学習
? 後期は伝統なre-weightingの重み? ?
?1
もつける
3.2.2 Training Scheduler

32
Rethinking Class-Balanced Methods for Long-Tailed
Visual Recognition from a Domain Adaptation
Perspective, CVPR 2020 [6]
? domain adaptionの観点から、データ充分のhead classesの
条件分布についての仮定?? ? ? = ? ? ? ? が合理的だが、
tail classesでは ?? ? ? ≠ ? ? ? ?
3.2.3

33
? loss functionに対して二種類の重みを付けて：
????? =
1
? ?=1
?
? ? ?
+ ?? ?(? ??; ? , ??)
? ? ? ?
は3.2.1の論文の有効サンプル数ベースの
class-balanced term
1??
1?? ? ?
? ??は条件重み、学習データからclass-balanced
subset Dを作ってmeta learningで学習
3.2.3 Loss Function

35
Remix: Rebalanced Mixup, Arxiv Preprint 2020 [7]
? 分類タスクで有効なmixup[8]手法をlong-tailed task用に改良する手法
3.2.4

36
? mixupの原始バージョン:
? ?? = ??? + 1 ? ? ??, ? = ??? + 1 ? ? ??
? remix:
? ?? = ??? + 1 ? ? ??, ? = ? ? ?? + 1 ? ? ? ??
? ? ? =
0, ?? ?? ≥ ? ??? ? < ?
1, ?? ?? ≤ 1 ? ??? 1 ? ? < ?
?, ?????????
? ? > 1, ? ∈ (0,1)はハイパーパラメータ
? 合成の両者のクラスiとjのサンプル数の差が大きい（ ? 倍）場合、出力を全部少数
クラスにする。少数クラスの割合を?で制限する。
3.2.4 Remix

38
? 近年、transfer learningでlong-tailed classificationを解く研究も流
行り始める
? head classesで学習した知識をtail classesに転移する
? 複雑なモジュールが必要
? 論文リスト:
? Large-Scale Long-Tailed Recognition in an Open World，CVPR 2019 [9]
? Deep Representation Learning on Long-tailed Data: A Learnable Embedding
Augmentation Perspective，CVPR 2020 [10]
? Learning From Multiple Experts: Self-paced Knowledge Distillation for Long-
tailed Classification，ECCV 2020 [11]
3.3 Transfer Learning

39
? 2019年Large Vocabulary Instance Segmentation (LVIS)[12] データ
セットの発表
? long-tailed detectionとsegmentationに関する研究が進展
3.4 Long-Tailed Detection/Segmentation

40
Equalization Loss for Long-Tailed Object Recognition,
CVPR 2020 [13]
? LVIS Challenge 2019の一位
? あるクラスのpositive sampleが他のクラスのnegative sampleで、
head classesがtail classesのgradientを抑制している。
? tail classesへの抑制を解除するための
EQL(Equalization) Lossを提案
? 本質はre-weighting
3.4.1

41
? EQL loss:
? ??? = ? ?=1
?
?? ??? ??
?? = 1 ? ? ? ?? ?? 1 ? ??
? ? ? はexclude function、proposal rが背景だと0を、前景だと1を出力する
? ??はjクラスの頻度で、
?? ?? はthreshold function、 ??<?の場合1を、その他は0を出力する
3.4.1 Loss Function

43
Overcoming Classifier Imbalance for Long-tail Object
Detection with Balanced Group Softmax, CVPR 2020
[14]
? 3.1.1と3.1.2と似た結論を導いた：
分類器の重みのnormは不均衡は性能が悪い
の原因の一つだとわかった
? balanced group softmaxを提案し、
segmentationのタスクでSOTA
3.4.2

44
? classを学習データのインスタンス数によってNグループに分割し（背
景classは単独グループに）、各グループの中にothers classを追加する。
? 各グループごとにsoftmax cross entropy lossを計算する
? 推論時、背景class以外のclassを元のclass IDに戻し、背景グループの
others classのprobabilityと乗算でrescaleして、背景classの
probabilityと合わせて最後の結果とする
3.4.2 Method

45
? 一般の検出器および他のlong-tailedデータセット対策の
resampling/re-weight手法と比べてSOTAの性能を示す
3.4.2 Results

46
Large-Scale Object Detection in the Wild from
Imbalanced Multi-Labels, CVPR 2020 [15]
? マルチラベルの問題に注目する。
? 3.4.1と似て、通常softmaxは他のクラスを抑制することがわかる。
tail classがhead classの子クラスもしくは関連する場合、その抑制を
減らすようにする
? クラス間の並行率(concurrent rate)を利用してconcurrent softmax
を提案する
3.4.3

47
? concurrent loss:
? ???
?
? = ?
?=1
?
?? ?????
?
,
???? ??
?
=
? ??
?=1
?
1 ? ?? 1 ? ??? ? ? ? + ? ??
? ???はクラスiとjのconcurrent rate:クラスiをクラスjにラベル付けの確率
iがjの子クラスの場合??? = 1
3.4.3 Loss Function

48
? LVISではなくOpen Imagesでテスト
3.4.3 Results

49
[1] Tsung-Yi Lin, Priya Goyal, Ross Girshick, Kaiming He, Piotr Dollár. Focal Loss for
Dense Object Detection. In ICCV, 2017.
[2] Bingyi Kang, Saining Xie, Marcus Rohrbach, Zhicheng Yan, Albert Gordo, Jiashi
Feng, Yannis Kalantidis. Decoupling Representation and Classifier for Long-Tailed
Recognition. In ICLR, 2020.
[3] Boyan Zhou, Quan Cui, Xiu-Shen Wei, Zhao-Min Chen. Bilateral-Branch Network
with Cumulative Learning for Long-Tailed Visual Recognition. In CVPR, 2020.
[4] Yin Cui, Menglin Jia, Tsung-Yi Lin, Yang Song, Serge Belongie. Class-Balanced Loss
Based on Effective Number of Samples. In CVPR, 2019.
[5] Kaidi Cao, Colin Wei, Adrien Gaidon, Nikos Arechiga, Tengyu Ma. Learning
Imbalanced Datasets with Label-Distribution-Aware Margin Loss. In NIPS, 2019.
[6] Muhammad Abdullah Jamal, Matthew Brown, Ming-Hsuan Yang, Liqiang Wang,
Boqing Gong. Rethinking Class-Balanced Methods for Long-Tailed Visual Recognition
from a Domain Adaptation Perspective. In CVPR, 2020.
Reference

50
[7] Hsin-Ping Chou, Shih-Chieh Chang, Jia-Yu Pan, Wei Wei, Da-Cheng Juan. Remix:
Rebalanced Mixup. In arxiv, 2020.
[8] Hongyi Zhang, Moustapha Cisse, Yann N. Dauphin, David Lopez-Paz. mixup:
Beyond empirical risk minimization. In ICLR, 2018.
[9] Ziwei Liu, Zhongqi Miao, Xiaohang Zhan, Jiayun Wang, Boqing Gong, Stella X. Yu.
Large-Scale Long-Tailed Recognition in an Open World. In CVPR, 2019.
[10] Jialun Liu, Yifan Sun, Chuchu Han, Zhaopeng Dou, Wenhui Li. Deep
Representation Learning on Long-tailed Data: A Learnable Embedding Augmentation
Perspective. In CVPR, 2020.
[11] Liuyu Xiang, Guiguang Ding, Jungong Han. Learning From Multiple Experts: Self-
paced Knowledge Distillation for Long-tailed Classification. In ECCV, 2020.
[12] Agrim Gupta, Piotr Dollár, Ross Girshick. LVIS: A Dataset for Large Vocabulary
Instance Segmentation. In ICCV, 2019
Reference

51
[13] Jingru Tan, Changbao Wang, Buyu Li, Quanquan Li, Wanli Ouyang, Changqing Yin,
Junjie Yan. Equalization Loss for Long-Tailed Object Recognition. In CVPR, 2020.
[14] Yu Li, Tao Wang, Bingyi Kang, Sheng Tang, Chunfeng Wang, Jintao Li, Jiashi Feng.
Overcoming Classifier Imbalance for Long-tail Object Detection with Balanced Group
Softmax. In CVPR, 2020.
[15] Junran Peng, Xingyuan Bu, Ming Sun, Zhaoxiang Zhang, Tieniu Tan, Junjie Yan.
Large-Scale Object Detection in the Wild from Imbalanced Multi-Labels. In CVPR,
2020.
Reference

狠狠撸

Long-Tailed Classificationの最新動向について

Recommended

More Related Content

What's hot (20)

Similar to Long-Tailed Classificationの最新動向について (20)

More from Plot Hong (6)

Recently uploaded (15)

Long-Tailed Classificationの最新動向について