狠狠撸

狠狠撸Share a Scribd company logo
NeurIPS2021 から見る
メタ学習の研究動向
2021/03/07
東京大学大学院 情報理工学系研究科
近藤 佑亮 (Yusuke KONDO)
??紹介
?名前: 近藤 佑亮 (Yusuke KONDO)
?所属
?東京?学?学院 情報理?学系研究科 電?情報学専攻 佐藤真?研究室 M1
?コンピュータビジョン、?規模マルチメディア検索の研究
?DeepEyeVision 株式会社
?眼科領域における画像診断?援ソフトウェアの研究開発
2
https://deepeyevision.com/news0208/
アジェンダ
?メタ学習とは?
?メタ学習の代表的な?法と課題
?NeurIPS2021 でのメタ学習の研究動向
3
アジェンダ
?メタ学習とは?
?メタ学習の代表的な?法と課題
?NeurIPS2021 でのメタ学習の研究動向
4
過去の経験が新たな学びを簡単にする
5
???
ゼロから学ぶには試?錯誤が必要…
過去の経験が新たな学びを簡単にする
6
?
???
ゼロから学ぶには試?錯誤が必要…
知識やコツの流?で効率よく学べる!
過去の経験が新たな学びを簡単にする
7
?
複数のタスクから学び?の学習をしている!
???
知識やコツの流?で効率よく学べる!
ゼロから学ぶには試?錯誤が必要…
メタ学習: 学び?の学習(Learning to learn)
?メタ学習とは、複数の学習経験から学習?法?体を改善すること
?主な効?:少数のデータのみで新規タスクを学ぶことができる
8
?
知識やコツの流?で効率よく学べる!
メタ学習のベースライン: Fine-tuning
???
?ベースタスクで学習したモデルパラメータ ?!
?ターゲットタスクの学習データ ?" = {(?#, ?#)}
?出?
?ターゲットタスクのモデルパラメータ ?′
?ターゲットタスクのみで学習するより?い性能を出すことを期待
9
メタ学習のベースライン: Fine-tuning
???
?ベースタスクで学習したモデルパラメータ ?!
?ターゲットタスクの学習データ ?" = {(?#, ?#)}
?出?
?ターゲットタスクのモデルパラメータ ?′
?ターゲットタスクのみで学習するより?い性能を出すことを期待
?Fine-tuning の流れ
?パラメータ初期化: ?$ = ?!
?ターゲットタスク ?" を??したときのモデル(パラメータ: ?′)の
損失 ?(?′|?") とその勾配 ??(?′|?") を計算
?勾配法によりパラメータを更新 ?$ ← ?$ ? ???(?′|?")
10
学習エポック数だけ
繰り返す
メタ学習のベースライン: Fine-tuning
??夫した Fine-tuning は少数データによる新規クラス学習に効果的
?例えば、ベースクラスで学習したモデルの最終層を外して、コサイン距離を
活?すると、少数の新規クラスを効率よく学習することができる (右下図)
11
Chen+ "A Closer Look at Few-shot Classification." ICLR. 2018.
Fine-tuning の限界
?ベースタスクの学習は、ターゲットタスクで学習結果を利?すること
を考慮していない
?ベースタスクで性能が向上したとしても、そのモデルパラメータを初期値と
したときにターゲットタスクでも学習性能が向上するとは限らない
?各クラスに1つずつしかサンプルが存在しないような場合(Few-
shot)に困る
?train / val 分割ができない
?ハイパーパラメータの調整(エポック数、学習率などの設定)
?結果として、過学習、未学習になる
12
https://www.kecl.ntt.co.jp/as/members/iwata/ibisml2021.pdf
メタ学習のアプローチ
?ベースタスク(クラス)からサポート集合?クエリ集合と呼ばれる少
数のサンプルを何度もリサンプリングする
?新規(ターゲット)タスクでの学習が簡単になることを?的にする
13
https://www.sicara.ai/blog/2019-07-30-image-classification-few-shot-meta-learning
メタ学習 と Few-shot 学習
? 「メタ学習と Few-shot 学習の違いってなんだ…?」
?Few-shot 学習を実現する?法の?つにメタ学習がある
?メタ学習的アプローチ
?ベースタスク(クラス)からサポートセット?クエリセットと呼ばれる少数のサンプルを
何度もリサンプリングして、学習の仕?を学習する
?Few-shot 学習以外を主眼においたメタ学習の研究も存在する
14
メタ学習 Few-shot 学習
メタ学習アプローチの
Few-shot 学習
メタ学習の分類学
?メタ学習実現のためのアプローチ(Optimizer, Representation, Objective)
??的(Application)
15
[Hospedales+] "Meta-Learning in Neural Networks: A Survey." IEEE TPAMI (2021).
メタ学習とは?のまとめ
?メタ学習とは?
?複数の学習経験から学習?法?体を改善すること
?Fine-tuning: メタ学習のベースライン
?ベースタスクでの性能向上 ≠ ターゲットタスクの初期値としての性能向上
?ターゲットタスクのサンプル数が少ない(Few-shot)状況下に対応できない
?メタ学習のアプローチ
?ベースタスク(クラス)からサポートセット?クエリセットと呼ばれる少数
のサンプルを何度もリサンプリングする
?新規(ターゲット)タスクでの学習が簡単になることを?的にする
16
アジェンダ
?メタ学習とは?
?メタ学習の代表的な?法と課題
?NeurIPS2021 でのメタ学習の研究動向
17
代表的なメタ学習の?法
?MAML [Finn+, ICML2017]
?勾配ベースの?法
?Fine-tuningした際にテスト性能が?くなるようなモデルパラメータを勾配法
?Neural process [Gordon+, ICLR2019]
?ブラックボックス適応の?法
?各タスクへのfine-tuningをNNでモデル化して勾配計算を避ける
?ProtoNet [Snell+, NeurIPS2017]
?モデルベースの?法
?タスク特化モデル(Fine-tuning)に勾配計算が容易なモデルを利?
18
MAML [Finn+, NeurIPS2017]
?引?5000+
?Fine-tuning後の性能が?くなるように事前学習?モデルのパラメータ
を更新
?+: メモリ
19
Fine-tuning
←タスク共通パラメータ初期化
← サンプリング
←タスク共通パラメータ更新
MAML [Finn+, NeurIPS2017]
?J
?任意の微分可能なモデルをメタ学習できる
?L
?メモリ計算量が Fine-tuning の
ステップ数に?例して線形に増加する
?Fine-tuning のステップ数を?きくするのは
難しい
?初期値から数ステップ以内の
勾配降下で?的タスクに適合しなければ
いけない
?勾配の計算がとにかく?変
20
Fine-tuning
←タスク共通パラメータ初期化
← サンプリング
←タスク共通パラメータ更新
Neural process [Gordon+, ICLR2019]
?各タスクへのfine-tuningをNNでモデル化して勾配計算を避ける
?ラベル付きサポート集合 ?" = { ?#, ?# } から ニュラールネット: ? を?いて
特徴量 r% = ?(?#, ?#)を計算
?サポート集合の平均 r = Σ
& ?!,)!
|?"|
?タスク表現 r と特徴量 ? から Fine-tuning されたニューラルネットに相当する?
を?いて予測 6
? = ?(?, ?) を得る
21
https://www.kecl.ntt.co.jp/as/members/iwata/ibisml2021.pdf
Neural process [Gordon+, ICLR2019]
?J
?勾配の勾配を計算しなくてよい
?DNN で Fine-tuning をモデル化している
?勾配ベースの?法と?べて、数ステップの勾配降下で?的タスクにたどり着かなければい
けない、という制限はない
?L
?そもそも Fine-tuning のモデル化は単純な教師あり学習より複雑
?学習がうまく進まないことがある
?例えサポート集合(train)に含まれるサンプルでも正しく予測できない場合あり
22
ProtoNet [Snell+, NeurIPS’2017]
?タスク特化モデルに勾配計算が容易なモデルを利?
23
タスク特化
モデル
タスク共通
モデル
Fine-tuning有
混合正規分布
Fine-tuning無
DNN
各クラスの平均値をサポート集合で計算
クエリ集合に対する損失を計算
ProtoNet [Snell+, NeurIPS2017]
?J
?Fine-tuning のために勾配計算を繰り返す必要なし
?微分の計算が軽い
?過学習しにくい
?L
?表現?に劣る
?タスク特化部分(?DNN)の
表現?に依存する
24
タスク特化
モデル
タスク共通
モデル
Fine-tuning有
混合正規分布
Fine-tuning無
DNN
メタ学習の代表的な?法と課題 のまとめ
?MAML [Finn+, ICML2017]
?勾配ベースの?法
?Fine-tuningした際にテスト性能が?くなるようなモデルパラメータを勾配法
?Neural process [Gordon+, ICLR2019]
?ブラックボックス適応の?法
?各タスクへのfine-tuningをNNでモデル化して勾配計算を避ける
?ProtoNet [Snell+, NeurIPS2017]
?モデルベースの?法
?タスク特化モデル(Fine-tuning)に勾配計算が容易なモデルを利?
25
アジェンダ
?メタ学習とは?
?メタ学習の代表的な?法と課題
?NeurIPS2021 でのメタ学習の研究動向
26
NeurIPS2021 でもメタ学習は熱いトピック
?タイトルかアブストラクトに “meta-learning” を含むもの: 61本
?Oral: 0本
?Spotlight: 7本
?Poster: 54本
?ワークショップも開催
27
メタ学習がメイントピックの Slotlight
?理論
?Generalization Bound for Meta-learning: An Information-Theoretic Analysis [Chen+]
?Bayesian decision-making under mis-specified priors with applications to meta-
learning [Simchowitz+]
?応?
?Light Field Networks: Neural Scene Representations with Single-Evaluation Rendering
[Sitzmann+]
?Property-Aware Relation Networks for Few-Shot Molecular Property Prediction [Lee+]
?NAS
?Hardware-adaptive Efficient Latency Prediction for NAS via Meta-Learning [Lee+]
?Task-Adaptive Neural Network Search with Meta-Contrastive Learning [Jeong+]
理論だけでなく、実世界アプリケーションを?据えた研究が増加
28
個?的注?論?
?Task-Adaptive Neural Network Search with Meta-Contrastive Learning
?アーキテクチャに加えて最適なモデルパラメータも探索する
?Hardware-adaptive Efficient Latency Prediction for NAS via Meta-Learning
[Lee+]
?ハードウェア最適なニューラルアーキテクチャ探索をメタ学習として解く
?Two Sides of Meta-Learning Evaluation: In vs. Out of Distribution
?既存のメタ学習ベンチマークの偏りを指摘
29
Task-Adaptive Neural Network Search with
Meta-Contrastive Learning [Jeong+, NeurIPS’21]
?既存のNAS?法の問題点
?計算コストが膨?
?ネットワークアーキテクチャは最適化するが、パラメータは決定しない
?NASでアーキテクチャを最適化した後、パラメータは別途学習により最適化する必要あり
??的
?最適なネットワークアーキテクチャだけでなく、
メタ学習的に最適な初期重みも得られないだろうか?
30
Task-Adaptive Neural Network Search with
Meta-Contrastive Learning [Jeong+, NeurIPS’21]
??的
?最適なネットワークアーキテクチャだけでなく、
メタ学習的に最適な初期重みも得られないだろうか?
31
Task-Adaptive Neural Network Search with
Meta-Contrastive Learning [Jeong+, NeurIPS’21]
?提案?法
?関係ないデータセットで学習したネットワークとの類似度を最?化しつつ、
?的ネットワークとデータセットの類似度を最?化するようメタ学習する
?Model Zoo の構築と Retrieval の?段階
32
Task-Adaptive Neural Network Search with
Meta-Contrastive Learning [Jeong+, NeurIPS’21]
?パラメータ効率、FLOPS効率が改善する
33
Hardware-adaptive Efficient Latency Prediction for
NAS via Meta-Learning [Lee+]
?NASはハードウェアを拘束条件に含めるべき
?メモリ量、遅延、電?消費など
?現実世界には数え切れないほどのデバイスがある
?それぞれにNASで最適化するのは計算量的に?変
?メタ学習の問題として、未知のデバイスにアーキテクチャを最適化!
35
Hardware-adaptive Efficient Latency Prediction for
NAS via Meta-Learning [Lee+]
?提案?法: Hardware-adaptive Efficient Latency Predictor (HELP)
?少ないサンプル数からハードウェア固有の遅延を予測する問題に帰着
36
Hardware-adaptive Efficient Latency Prediction for
NAS via Meta-Learning [Lee+]
?少サンプルでも適切に遅延時間を予測することができる
37
Two Sides of Meta-Learning Evaluation:
In vs. Out of Distribution [Setlur+]
?メタ学習?法の評価?法は2つに?分される
?In-distribution (ID): ターゲットタスクが同じタスク分布にある
?Out-of-distribution (OOD): ターゲットタスクが異なるタスク分布にある
?既存のメタ学習?法、メタ学習評価?法の問題点
??半のメタ学習評価?法は OOD
?ほとんどのメタ学習?法は OOD で性能向上する??、ID だとむしろ下がる
38
Two Sides of Meta-Learning Evaluation:
In vs. Out of Distribution [Setlur+]
?ベンチマーク改善のための提案
?評価時により多くの新規クラスを利?すること
?より多くのベースクラスで学習すること
39
NeurIPS2021 メタ学習のまとめ
?理論的な研究はもちろん、実??応?を重視した研究が注?
?近い研究分野(NASなど)と絡めた研究が多数 spotlight に採択
?メタ学習のベンチマーク、問題設定に問題提起をする論?も
?議論がかなり深まりつつある分野となっている
?Task-Adaptive Neural Network Search with Meta-Contrastive Learning
?アーキテクチャに加えて最適なモデルパラメータも探索する
?Hardware-adaptive Efficient Latency Prediction for NAS via Meta-Learning [Lee+]
?ハードウェア最適なニューラルアーキテクチャ探索をメタ学習として解く
?Two Sides of Meta-Learning Evaluation: In vs. Out of Distribution
?既存のメタ学習ベンチマークの偏りを指摘
40
付録
41
参考?献(Tutorials)
?AAAI 2021 Meta-learning Tutorial
?https://sites.google.com/mit.edu/aaai2021metalearningtutorial/home
?ICML 2019 Meta-learning Tutorial
?https://sites.google.com/view/icml19metalearning
42
参考?献(その他)
?Learning to learn: Berkeley のブログポスト
?https://bair.berkeley.edu/blog/2017/07/18/learning-to-learn/
?メタ学習(meta-learning)の紹介 GMO次世代システム研究室
?https://recruit.gmo.jp/engineer/jisedai/blog/meta-learning/
??経:メタ学習:学習の仕?を学習する、MAMLやNeural Process
?https://xtech.nikkei.com/atcl/nxt/mag/rob/18/00007/00009/#:~:text=%E8%A4%87%
E6%95%B0%E3%81%AE%E3%82%BF%E3%82%B9%E3%82%AF%E3%81%AE%E5%AD%
A6%E7%BF%92,%E6%89%8B%E6%B3%95%E3%82%92%E3%83%A1%E3%82%BF%E5%
AD%A6%E7%BF%92%E3%81%A8%E3%81%84%E3%81%86%E3%80%82
43
メタ学習に関連する研究領域
?Few-shot 学習(Few-shot learning)
?マルチタスク学習(Multi-task learning)
?転移学習(Transfer learning)
?継続学習(Continuous learning)
?構造?動探索(Neural Architecture Search: NAS)
44
Efficiently Identifying Task Groupings for
Multi-Task Learning [Fifty+, NeurIPS21]
?Multi-task learning において、単?のモデルで考えうる全てのタスクを
学習すると性能が下がってしまう。故に、?緒に学習するのに適した
タスクを発?する必要がある。
?本論?の?法では、 Computer Visionの taskonomyのようなデータセッ
トに対して、どのタスクとどのタスクを共に学習するとよいか?度の
学習のみで選ぶ?法を提案する。実験により、性能が上がると?され
た。
45
MAML [Finn+, NeurIPS2017]
?MAML を改良した勾配ベースの?法が数多く提案されている
?モデルパラメータ更新の?法を変えている
46
https://sites.google.com/mit.edu/aaai2021metalearningtutorial/home

More Related Content

NeurIPS2021から見るメタ学習の研究動向 - 第83回人工知能セミナー (2022.3.7)「AIトレンド?トップカンファレンス報告会(NeurIPS2021):世界最先端のAI研究開発動向が1日でわかる!」