狠狠撸

狠狠撸Share a Scribd company logo
http://deeplearning.jp/
Revisiting Deep Learning Models for Tabular Data (NeurIPS 2021)
表形式データに対するディープラーニングモデルの再整理
山本 貴之 (ヤフー株式会社)
DEEP LEARNING JP
[DL Papers]
1
書誌情報
Revisiting Deep Learning Models for Tabular Data
表形式データに対するディープラーニングモデルの再整理
https://arxiv.org/abs/2106.11959
タイトル:
著者: Yury Gorishniy*?? , Ivan Rubachevy??, Valentin Khrulkov? , Artem Babenko ?
? Yandex (ロシア)
? モスクワ物理工学大学(ロシア)
? 国立研究大学高等経済学院(ロシア)
表形式データについて、ディープラーニング(以下DL)と GBDT(決定木系)で精度比較
提案手法FT-Transformerを中心に、11のデータセットで比較し優位性を考察した
概要:
2
選定理由: ビジネスでは表形式データを扱う機会が多い
文章?画像?音声を含む表形式データをend to endで学習し精度を出すにはDL活用が重要
(NeurIPS 2021)
公式実装: https://github.com/yandex-research/rtdl
※出典記載の無い図表は本論文からの引用
アジェンダ
1. 導入
2. 先行研究
3. 手法
4. 実験
5. まとめ
3
アジェンダ
1. 導入
2. 先行研究
3. 手法
4. 実験
5. まとめ
4
1. 導入
5
? 文章、画像、音声などの領域におけるDLの成功により、表形式データの問題への拡張が注目されている
? 表形式データはGBDTという強力なライバルがいるが、DLでより高い性能が得られる可能性がある
? 表形式データに加え、画像や音声が含まれる場合、DLはマルチモーダルなパイプラインを構築出来るのが魅力的
背景
? 表形式データに対するDLソリューションが多数提案されている
最近
? 確立されたベンチマークがない為、各論文が異なるデータセットを用い、互いに適切に比較されていない
? DLとGBDTの比較においても上記同様
? 多様なタスクで安定した性能を発揮する、シンプルで信頼性の高いソリューションが不足している
課題
アジェンダ
1. 導入
2. 先行研究
3. 手法
4. 実験
5. まとめ
6
2. 先行研究 本論文で用いる表形式データに対するソリューション 一覧
7
DL or GBDT 分類 論文 仕組み
DL
決定木 NODE (Popov et al., 2020) 微分可能な決定木
アテンション
TabNet (Arik and Pfister, 2020)
逐次処理。表形式データのプレト
レーニングという概念を実現
AutoInt (Song et al., 2019)
本論文のFT-Transformer
の概念に最も類似
MLP
GrowNet (Badirli et al., 2020)
浅いニューラルネットワークを用いた
勾配ブースティング
SNN (Klambauer et al., 2017)
深いMLP。勾配消失や発散を防ぐ
SELU活性化関数などを提案
DCN V2 (Wang et al., 2020a).
クロスネットワーク構造を含むMLP。
Googleが大規模データで活用。
GBDT 決定木
XGBoost (Chen and Guestrin, 2016) -
CatBoost (Prokhorenkova et al., 2018) -
2. 先行研究 TabNet (Arik and Pfister, 2020)
8
? TabNetの推論処理の全体像
? 特徴を疎に選択(=Attention)し、逐次処理する構造
? どの特徴量が推論に効いているか解釈可能
職業専門性の特徴量が選択されている
投資の特徴量が選択されている
逐次処理で連結
推論出力
入力データ
2. 先行研究 TabNet (Arik and Pfister, 2020)
9
特徴量選択
特徴量入力
? 推論出力
? 表現出力
逐次処理
? エンコーダー構造
特徴量
解釈
特徴量
Transformer
2. 先行研究 TabNet (Arik and Pfister, 2020)
10
? デコーダー構造
各Stepの
特徴量Transformer
再構築された
特徴量
エンコーダー出力の
表現ベクトル
2. 先行研究 TabNet (Arik and Pfister, 2020)
11
? 表形式データをマスクドランゲージモデルのように一部マスク
? 穴埋め問題を解かせて、プレトレーニングを実現
? プレトレーニング済モデル活用で、
精度が向上し、少量データで短期収束可能
アジェンダ
1. 導入
2. 先行研究
3. 手法
4. 実験
5. まとめ
12
3. 手法 MLP (本論文での提案構造①)
? 全結合MLP→ReLU→Dropoutを何層か重ねたもの
13
全結合
全結合
入力
出力
3. 手法 ResNet (本論文での提案構造②)
? ResNet構造のシンプルなバリエーションを提案
? より深い表現が必要なタスクで有用(仮説)
14
全結合 入力
出力
バイパス
3. 手法 FT-Transformer 全体構造(本論文での提案構造③ 本命)
? 表形式データの各要素をTokenizerでベクトル化し、Transformerに投入後[CLS]トークン部を用いる
15
[CLS]トークン部を用いる
FT-Transformerの全体アーキテクチャ
各特徴量
当図では5つの値
エンベディング
されたベクトル
先頭に[CLS]
トークン付加
連続値、カテゴリカル
2種類それぞれの手法で
Tokenizeする
※次ページで説明 192次元
入力
表形式データ
各セル(縦方向)が
1カラムのデータ
横方向がベクトルの次元数
のイメージ
※後のページで説明
3. 手法 FT-Transformer トークナイザー詳細
? 連続値、カテゴリカル、それぞれ次の構造、数式によりトークナイズされ、192次元ベクトルとなる
16
連続値
3つの値
カテゴリカル
2つの値
192次元
データカラム数
特徴量数
ウエイト
行列
バイアス 連続値
バイアス
FT-Transformerのトークナイザー部
FT-Transformer全体
連続値の式
カテゴリカルの式
ウエイト
行列
カテゴリカルの
one hot ベクトル
カテゴリ分の
サイズの行列
3. 手法 FT-Transformer Transformer内部構造
FT-TransformerのTransformer層
17
出典
[1] Attention Is All You Need.
[2] Learning Deep Transformer Models for Machine Translation.
オリジナル論文[1]のTransformer層
? 当論文で用いるTransformer層はPreNorm変形型[2] をベースに、最初の正規化を除外した構造
※実験の結果この構造が良好なパフォーマンスを得られた為
3. 手法 FT-Transformer ハイパーパラメータ
? 3層Transformer、192次元、オプティマイザーはAdamW
18
アジェンダ
1. 導入
2. 先行研究
3. 手法
4. 実験
5. まとめ
19
モデル構造
20
4. 実験
表形式データセット
分類 手法
DL
先行研究
NODE (Popov et al., 2020)
TabNet (Arik and Pfister, 2020)
AutoInt (Song et al., 2019)
GrowNet (Badirli et al., 2020)
SNN (Klambauer et al., 2017)
DCN V2 (Wang et al., 2020a)
本論文
提案手法
MLP
ResNet
FT-Transformer ★提案手法本命
GBDT
決定木系
XGBoost (Chenand Guestrin,2016)
CatBoost (Prokhorenkovaet al., 2018)
略
称
データセット名 概要 年
CA California Housing 不動産価格 1997
AD Adult 所得推定 1996
HE Helena 視覚的内容属性 2019
JA Jannis 視覚的内容属性 2019
HI Higgs 物理粒子シュミレート 2014
AL ALOI 画像 2005
EP Epsilon 模擬物理実験 -
YE Year 音声の特徴 2011
CO Covtype 森林の特徴 2000
YA Yahoo 検索クエリ 2011
MI Microsoft 検索クエリ 2013
21
4. 実験 データセット 学習情報
数値
カラム数
カテゴリカル
カラム数
実施 DL GBDT 内容 詳細
実施
〇 〇 回帰問題は目標値を標準化
〇 -
数値特徴量に明確な値が少ない特徴量の
回避策としてノイズを加える
〇 〇
Optunaを使った
ハイパーパラメータ自動チューニング
-
〇 〇 アンサンブル学習 3グループ×各5モデル→各グループの平均値
未実施 〇 〇 プレトレーニング、追加の損失関数、データの増強、蒸留、学習率の減衰など、
4. 実験 前処理等
22
DLモデルの結果一覧
23
4. 実験 結果(DLモデル)
凡例
↑:分類問題:Accuracy
↓:回帰問題:RMSE
rank:全データセットの順位の平均ランク
FT-T:提案手法 FT-Transformer
Bold(赤アンダーライン):ベストスコア(統計的に優位差でない複数の結果を含む)
? FT-Transformerがほとんどのタスクで最高のパフォーマンス
1. MLPは基本的な動作として十分な水準
2. ResNetは効果的なベースライン
3. FT-Transformerはほとんどのタスクで最
高のパフォーマンス
4. チューニングはMLPやResNetのような単
純なモデルを強力なモデルにする。可能な
限りベースラインのチューニングがお勧め
24
4. 実験 結果(DLモデル vs GBDT)
1. GBDTはアンサンブル込なので、DLもアン
サンブル処理後で比較
2. ハイパラチューニングすると一部のデータ
セットでGBDTが優位に
3. DLとGBDTにはまだ普遍的な解決策は
ない
凡例
↑:分類問題:Accuracy
↓:回帰問題:RMSE
FT-T:提案手法 FT-Transformer
Bold(赤アンダーライン):ベストスコア
デフォルトパラメータ
パラメータチューニング後
? DLとGBDTにはまだ普遍的な解決策はない
25
4. 実験 FT-TransformerがResNetより優れているタスク特性
各手法別のテストRMSEのαによる変化
1. GBDTに適したタスクの場合、ResNetは精度が悪化する
2. しかし、FT-Transformerは、CatBoost同様精度が向上する
3. FT-Transmormerは、DLもしくはGBDTいずれに適したタスク
の場合でも、両方で比較的良い精度である
GBDTに適したタスク
DLに適したタスク
Good
26
4. 実験 アブレーションスタディ
類似手法AutoIntとの比較と、特徴バイアスの有無による精度の違い
1. Transformerの内部構造がAutoIntより優れている
2. 特徴バイアスが精度に寄与しており必要性がある
結果
1. 【類似】特徴をエンベッティング変換し、その後セルフアテンションしている構造が類似
2. 【相違】Transformer内部構造と、[CLS]トークンを使わない点、バイアスの有無が相違
AutoIntとの
類似点と相違点
27
4. 実験 学習時間
学習時間(秒)
※15回実行し平均をとったもの
3.5時間
アジェンダ
1. 導入
2. 先行研究
3. 手法
4. 実験
5. まとめ
28
5. まとめ
結論
? 表形式DLのベースラインを改善
? FT-Transformerを提案。タスク全般的にGBDTと遜色ない
? いくつかのタスクではGBDTが依然優位
? オープンソースにしている為、表形式DLのさらなる開発の基礎となる事を期待
29
感想
? 事業で利用する場合は、データには欠損値があり、欠損値に対するロバスト性の研究は、本論文にはない
? 先行研究のTabNetはマスクし学習しているので、マスクで欠損値処理できそう
? 本研究もTransformerベースなので、マスクし学習する事で、欠損値処理と表形式プレトレーニングができそう
? DLが得意な文章や画像などのデータを繋いだマルチモーダル学習で、GBDTに対する優位性を明らかにしたい

More Related Content

What's hot (20)

【DL輪読会】時系列予測 Transfomers の精度向上手法
【DL輪読会】時系列予測 Transfomers の精度向上手法【DL輪読会】時系列予測 Transfomers の精度向上手法
【DL輪読会】時系列予測 Transfomers の精度向上手法
Deep Learning JP
?
Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料
Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料
Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料
Yusuke Uchida
?
SSII2022 [SS2] 少ないデータやラベルを効率的に活用する機械学習技術 ? 足りない情報をどのように補うか??
SSII2022 [SS2] 少ないデータやラベルを効率的に活用する機械学習技術 ? 足りない情報をどのように補うか??SSII2022 [SS2] 少ないデータやラベルを効率的に活用する機械学習技術 ? 足りない情報をどのように補うか??
SSII2022 [SS2] 少ないデータやラベルを効率的に活用する機械学習技術 ? 足りない情報をどのように補うか??
SSII
?
Curriculum Learning (関東CV勉強会)
Curriculum Learning (関東CV勉強会)Curriculum Learning (関東CV勉強会)
Curriculum Learning (関東CV勉強会)
Yoshitaka Ushiku
?
12. Diffusion Model の数学的基礎.pdf
12. Diffusion Model の数学的基礎.pdf12. Diffusion Model の数学的基礎.pdf
12. Diffusion Model の数学的基礎.pdf
幸太朗 岩澤
?
罢谤补苍蝉蹿辞谤尘别谤を多层にする际の勾配消失问题と解决法について
罢谤补苍蝉蹿辞谤尘别谤を多层にする际の勾配消失问题と解决法について罢谤补苍蝉蹿辞谤尘别谤を多层にする际の勾配消失问题と解决法について
罢谤补苍蝉蹿辞谤尘别谤を多层にする际の勾配消失问题と解决法について
Sho Takase
?
[DL輪読会]Flow-based Deep Generative Models
[DL輪読会]Flow-based Deep Generative Models[DL輪読会]Flow-based Deep Generative Models
[DL輪読会]Flow-based Deep Generative Models
Deep Learning JP
?
画像生成?生成モデル メタサーベイ
画像生成?生成モデル メタサーベイ画像生成?生成モデル メタサーベイ
画像生成?生成モデル メタサーベイ
cvpaper. challenge
?
骋础狈(と强化学习との関係)
骋础狈(と强化学习との関係)骋础狈(と强化学习との関係)
骋础狈(と强化学习との関係)
Masahiro Suzuki
?
グラフィカルモデル入门
グラフィカルモデル入门グラフィカルモデル入门
グラフィカルモデル入门
Kawamoto_Kazuhiko
?
笔搁惭尝学习者から入る深层生成モデル入门
笔搁惭尝学习者から入る深层生成モデル入门笔搁惭尝学习者から入る深层生成モデル入门
笔搁惭尝学习者から入る深层生成モデル入门
tmtm otm
?
SSII2021 [OS2-01] 転移学習の基礎:異なるタスクの知識を利用するための機械学習の方法
SSII2021 [OS2-01] 転移学習の基礎:異なるタスクの知識を利用するための機械学習の方法SSII2021 [OS2-01] 転移学習の基礎:異なるタスクの知識を利用するための機械学習の方法
SSII2021 [OS2-01] 転移学習の基礎:異なるタスクの知識を利用するための機械学習の方法
SSII
?
【DL輪読会】論文解説:Offline Reinforcement Learning as One Big Sequence Modeling Problem
【DL輪読会】論文解説:Offline Reinforcement Learning as One Big Sequence Modeling Problem【DL輪読会】論文解説:Offline Reinforcement Learning as One Big Sequence Modeling Problem
【DL輪読会】論文解説:Offline Reinforcement Learning as One Big Sequence Modeling Problem
Deep Learning JP
?
【メタサーベイ】基盤モデル / Foundation Models
【メタサーベイ】基盤モデル / Foundation Models【メタサーベイ】基盤モデル / Foundation Models
【メタサーベイ】基盤モデル / Foundation Models
cvpaper. challenge
?
【DL輪読会】ViT + Self Supervised Learningまとめ
【DL輪読会】ViT + Self Supervised Learningまとめ【DL輪読会】ViT + Self Supervised Learningまとめ
【DL輪読会】ViT + Self Supervised Learningまとめ
Deep Learning JP
?
叁次元表现まとめ(深层学习を中心に)
叁次元表现まとめ(深层学习を中心に)叁次元表现まとめ(深层学习を中心に)
叁次元表现まとめ(深层学习を中心に)
Tomohiro Motoda
?
【DL輪読会】Perceiver io a general architecture for structured inputs & outputs
【DL輪読会】Perceiver io  a general architecture for structured inputs & outputs 【DL輪読会】Perceiver io  a general architecture for structured inputs & outputs
【DL輪読会】Perceiver io a general architecture for structured inputs & outputs
Deep Learning JP
?
生成モデルの Deep Learning
生成モデルの Deep Learning生成モデルの Deep Learning
生成モデルの Deep Learning
Seiya Tokui
?
【DL輪読会】Flamingo: a Visual Language Model for Few-Shot Learning 画像×言語の大規模基盤モ...
【DL輪読会】Flamingo: a Visual Language Model for Few-Shot Learning   画像×言語の大規模基盤モ...【DL輪読会】Flamingo: a Visual Language Model for Few-Shot Learning   画像×言語の大規模基盤モ...
【DL輪読会】Flamingo: a Visual Language Model for Few-Shot Learning 画像×言語の大規模基盤モ...
Deep Learning JP
?
Sparse Codingをなるべく数式を使わず理解する(PCAやICAとの関係)
Sparse Codingをなるべく数式を使わず理解する(PCAやICAとの関係)Sparse Codingをなるべく数式を使わず理解する(PCAやICAとの関係)
Sparse Codingをなるべく数式を使わず理解する(PCAやICAとの関係)
Teppei Kurita
?
【DL輪読会】時系列予測 Transfomers の精度向上手法
【DL輪読会】時系列予測 Transfomers の精度向上手法【DL輪読会】時系列予測 Transfomers の精度向上手法
【DL輪読会】時系列予測 Transfomers の精度向上手法
Deep Learning JP
?
Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料
Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料
Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料
Yusuke Uchida
?
SSII2022 [SS2] 少ないデータやラベルを効率的に活用する機械学習技術 ? 足りない情報をどのように補うか??
SSII2022 [SS2] 少ないデータやラベルを効率的に活用する機械学習技術 ? 足りない情報をどのように補うか??SSII2022 [SS2] 少ないデータやラベルを効率的に活用する機械学習技術 ? 足りない情報をどのように補うか??
SSII2022 [SS2] 少ないデータやラベルを効率的に活用する機械学習技術 ? 足りない情報をどのように補うか??
SSII
?
Curriculum Learning (関東CV勉強会)
Curriculum Learning (関東CV勉強会)Curriculum Learning (関東CV勉強会)
Curriculum Learning (関東CV勉強会)
Yoshitaka Ushiku
?
12. Diffusion Model の数学的基礎.pdf
12. Diffusion Model の数学的基礎.pdf12. Diffusion Model の数学的基礎.pdf
12. Diffusion Model の数学的基礎.pdf
幸太朗 岩澤
?
罢谤补苍蝉蹿辞谤尘别谤を多层にする际の勾配消失问题と解决法について
罢谤补苍蝉蹿辞谤尘别谤を多层にする际の勾配消失问题と解决法について罢谤补苍蝉蹿辞谤尘别谤を多层にする际の勾配消失问题と解决法について
罢谤补苍蝉蹿辞谤尘别谤を多层にする际の勾配消失问题と解决法について
Sho Takase
?
[DL輪読会]Flow-based Deep Generative Models
[DL輪読会]Flow-based Deep Generative Models[DL輪読会]Flow-based Deep Generative Models
[DL輪読会]Flow-based Deep Generative Models
Deep Learning JP
?
画像生成?生成モデル メタサーベイ
画像生成?生成モデル メタサーベイ画像生成?生成モデル メタサーベイ
画像生成?生成モデル メタサーベイ
cvpaper. challenge
?
骋础狈(と强化学习との関係)
骋础狈(と强化学习との関係)骋础狈(と强化学习との関係)
骋础狈(と强化学习との関係)
Masahiro Suzuki
?
グラフィカルモデル入门
グラフィカルモデル入门グラフィカルモデル入门
グラフィカルモデル入门
Kawamoto_Kazuhiko
?
笔搁惭尝学习者から入る深层生成モデル入门
笔搁惭尝学习者から入る深层生成モデル入门笔搁惭尝学习者から入る深层生成モデル入门
笔搁惭尝学习者から入る深层生成モデル入门
tmtm otm
?
SSII2021 [OS2-01] 転移学習の基礎:異なるタスクの知識を利用するための機械学習の方法
SSII2021 [OS2-01] 転移学習の基礎:異なるタスクの知識を利用するための機械学習の方法SSII2021 [OS2-01] 転移学習の基礎:異なるタスクの知識を利用するための機械学習の方法
SSII2021 [OS2-01] 転移学習の基礎:異なるタスクの知識を利用するための機械学習の方法
SSII
?
【DL輪読会】論文解説:Offline Reinforcement Learning as One Big Sequence Modeling Problem
【DL輪読会】論文解説:Offline Reinforcement Learning as One Big Sequence Modeling Problem【DL輪読会】論文解説:Offline Reinforcement Learning as One Big Sequence Modeling Problem
【DL輪読会】論文解説:Offline Reinforcement Learning as One Big Sequence Modeling Problem
Deep Learning JP
?
【メタサーベイ】基盤モデル / Foundation Models
【メタサーベイ】基盤モデル / Foundation Models【メタサーベイ】基盤モデル / Foundation Models
【メタサーベイ】基盤モデル / Foundation Models
cvpaper. challenge
?
【DL輪読会】ViT + Self Supervised Learningまとめ
【DL輪読会】ViT + Self Supervised Learningまとめ【DL輪読会】ViT + Self Supervised Learningまとめ
【DL輪読会】ViT + Self Supervised Learningまとめ
Deep Learning JP
?
叁次元表现まとめ(深层学习を中心に)
叁次元表现まとめ(深层学习を中心に)叁次元表现まとめ(深层学习を中心に)
叁次元表现まとめ(深层学习を中心に)
Tomohiro Motoda
?
【DL輪読会】Perceiver io a general architecture for structured inputs & outputs
【DL輪読会】Perceiver io  a general architecture for structured inputs & outputs 【DL輪読会】Perceiver io  a general architecture for structured inputs & outputs
【DL輪読会】Perceiver io a general architecture for structured inputs & outputs
Deep Learning JP
?
生成モデルの Deep Learning
生成モデルの Deep Learning生成モデルの Deep Learning
生成モデルの Deep Learning
Seiya Tokui
?
【DL輪読会】Flamingo: a Visual Language Model for Few-Shot Learning 画像×言語の大規模基盤モ...
【DL輪読会】Flamingo: a Visual Language Model for Few-Shot Learning   画像×言語の大規模基盤モ...【DL輪読会】Flamingo: a Visual Language Model for Few-Shot Learning   画像×言語の大規模基盤モ...
【DL輪読会】Flamingo: a Visual Language Model for Few-Shot Learning 画像×言語の大規模基盤モ...
Deep Learning JP
?
Sparse Codingをなるべく数式を使わず理解する(PCAやICAとの関係)
Sparse Codingをなるべく数式を使わず理解する(PCAやICAとの関係)Sparse Codingをなるべく数式を使わず理解する(PCAやICAとの関係)
Sparse Codingをなるべく数式を使わず理解する(PCAやICAとの関係)
Teppei Kurita
?

More from Deep Learning JP (20)

【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners
【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners
【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners
Deep Learning JP
?
【顿尝轮読会】事前学习用データセットについて
【顿尝轮読会】事前学习用データセットについて【顿尝轮読会】事前学习用データセットについて
【顿尝轮読会】事前学习用データセットについて
Deep Learning JP
?
【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...
【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...
【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...
Deep Learning JP
?
【DL輪読会】Zero-Shot Dual-Lens Super-Resolution
【DL輪読会】Zero-Shot Dual-Lens Super-Resolution【DL輪読会】Zero-Shot Dual-Lens Super-Resolution
【DL輪読会】Zero-Shot Dual-Lens Super-Resolution
Deep Learning JP
?
【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv
【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv
【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv
Deep Learning JP
?
【DL輪読会】マルチモーダル LLM
【DL輪読会】マルチモーダル LLM【DL輪読会】マルチモーダル LLM
【DL輪読会】マルチモーダル LLM
Deep Learning JP
?
【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo...
 【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo... 【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo...
【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo...
Deep Learning JP
?
【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition
【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition
【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition
Deep Learning JP
?
【DL輪読会】Can Neural Network Memorization Be Localized?
【DL輪読会】Can Neural Network Memorization Be Localized?【DL輪読会】Can Neural Network Memorization Be Localized?
【DL輪読会】Can Neural Network Memorization Be Localized?
Deep Learning JP
?
【DL輪読会】Hopfield network 関連研究について
【DL輪読会】Hopfield network 関連研究について【DL輪読会】Hopfield network 関連研究について
【DL輪読会】Hopfield network 関連研究について
Deep Learning JP
?
【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )
【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )
【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )
Deep Learning JP
?
【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...
【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...
【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...
Deep Learning JP
?
【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"
【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"
【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"
Deep Learning JP
?
【DL輪読会】"Language Instructed Reinforcement Learning for Human-AI Coordination "
【DL輪読会】"Language Instructed Reinforcement Learning  for Human-AI Coordination "【DL輪読会】"Language Instructed Reinforcement Learning  for Human-AI Coordination "
【DL輪読会】"Language Instructed Reinforcement Learning for Human-AI Coordination "
Deep Learning JP
?
【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models
【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models
【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models
Deep Learning JP
?
【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"
【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"
【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"
Deep Learning JP
?
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...
Deep Learning JP
?
【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...
【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...
【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...
Deep Learning JP
?
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...
Deep Learning JP
?
【DL輪読会】VIP: Towards Universal Visual Reward and Representation via Value-Impl...
【DL輪読会】VIP: Towards Universal Visual Reward and Representation via Value-Impl...【DL輪読会】VIP: Towards Universal Visual Reward and Representation via Value-Impl...
【DL輪読会】VIP: Towards Universal Visual Reward and Representation via Value-Impl...
Deep Learning JP
?
【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners
【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners
【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners
Deep Learning JP
?
【顿尝轮読会】事前学习用データセットについて
【顿尝轮読会】事前学习用データセットについて【顿尝轮読会】事前学习用データセットについて
【顿尝轮読会】事前学习用データセットについて
Deep Learning JP
?
【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...
【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...
【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...
Deep Learning JP
?
【DL輪読会】Zero-Shot Dual-Lens Super-Resolution
【DL輪読会】Zero-Shot Dual-Lens Super-Resolution【DL輪読会】Zero-Shot Dual-Lens Super-Resolution
【DL輪読会】Zero-Shot Dual-Lens Super-Resolution
Deep Learning JP
?
【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv
【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv
【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv
Deep Learning JP
?
【DL輪読会】マルチモーダル LLM
【DL輪読会】マルチモーダル LLM【DL輪読会】マルチモーダル LLM
【DL輪読会】マルチモーダル LLM
Deep Learning JP
?
【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo...
 【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo... 【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo...
【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo...
Deep Learning JP
?
【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition
【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition
【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition
Deep Learning JP
?
【DL輪読会】Can Neural Network Memorization Be Localized?
【DL輪読会】Can Neural Network Memorization Be Localized?【DL輪読会】Can Neural Network Memorization Be Localized?
【DL輪読会】Can Neural Network Memorization Be Localized?
Deep Learning JP
?
【DL輪読会】Hopfield network 関連研究について
【DL輪読会】Hopfield network 関連研究について【DL輪読会】Hopfield network 関連研究について
【DL輪読会】Hopfield network 関連研究について
Deep Learning JP
?
【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )
【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )
【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )
Deep Learning JP
?
【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...
【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...
【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...
Deep Learning JP
?
【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"
【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"
【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"
Deep Learning JP
?
【DL輪読会】"Language Instructed Reinforcement Learning for Human-AI Coordination "
【DL輪読会】"Language Instructed Reinforcement Learning  for Human-AI Coordination "【DL輪読会】"Language Instructed Reinforcement Learning  for Human-AI Coordination "
【DL輪読会】"Language Instructed Reinforcement Learning for Human-AI Coordination "
Deep Learning JP
?
【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models
【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models
【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models
Deep Learning JP
?
【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"
【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"
【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"
Deep Learning JP
?
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...
Deep Learning JP
?
【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...
【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...
【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...
Deep Learning JP
?
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...
Deep Learning JP
?
【DL輪読会】VIP: Towards Universal Visual Reward and Representation via Value-Impl...
【DL輪読会】VIP: Towards Universal Visual Reward and Representation via Value-Impl...【DL輪読会】VIP: Towards Universal Visual Reward and Representation via Value-Impl...
【DL輪読会】VIP: Towards Universal Visual Reward and Representation via Value-Impl...
Deep Learning JP
?

[DL輪読会]Revisiting Deep Learning Models for Tabular Data (NeurIPS 2021) 表形式データに対するディープラーニングモデルの再整理

  • 1. http://deeplearning.jp/ Revisiting Deep Learning Models for Tabular Data (NeurIPS 2021) 表形式データに対するディープラーニングモデルの再整理 山本 貴之 (ヤフー株式会社) DEEP LEARNING JP [DL Papers] 1
  • 2. 書誌情報 Revisiting Deep Learning Models for Tabular Data 表形式データに対するディープラーニングモデルの再整理 https://arxiv.org/abs/2106.11959 タイトル: 著者: Yury Gorishniy*?? , Ivan Rubachevy??, Valentin Khrulkov? , Artem Babenko ? ? Yandex (ロシア) ? モスクワ物理工学大学(ロシア) ? 国立研究大学高等経済学院(ロシア) 表形式データについて、ディープラーニング(以下DL)と GBDT(決定木系)で精度比較 提案手法FT-Transformerを中心に、11のデータセットで比較し優位性を考察した 概要: 2 選定理由: ビジネスでは表形式データを扱う機会が多い 文章?画像?音声を含む表形式データをend to endで学習し精度を出すにはDL活用が重要 (NeurIPS 2021) 公式実装: https://github.com/yandex-research/rtdl ※出典記載の無い図表は本論文からの引用
  • 3. アジェンダ 1. 導入 2. 先行研究 3. 手法 4. 実験 5. まとめ 3
  • 4. アジェンダ 1. 導入 2. 先行研究 3. 手法 4. 実験 5. まとめ 4
  • 5. 1. 導入 5 ? 文章、画像、音声などの領域におけるDLの成功により、表形式データの問題への拡張が注目されている ? 表形式データはGBDTという強力なライバルがいるが、DLでより高い性能が得られる可能性がある ? 表形式データに加え、画像や音声が含まれる場合、DLはマルチモーダルなパイプラインを構築出来るのが魅力的 背景 ? 表形式データに対するDLソリューションが多数提案されている 最近 ? 確立されたベンチマークがない為、各論文が異なるデータセットを用い、互いに適切に比較されていない ? DLとGBDTの比較においても上記同様 ? 多様なタスクで安定した性能を発揮する、シンプルで信頼性の高いソリューションが不足している 課題
  • 6. アジェンダ 1. 導入 2. 先行研究 3. 手法 4. 実験 5. まとめ 6
  • 7. 2. 先行研究 本論文で用いる表形式データに対するソリューション 一覧 7 DL or GBDT 分類 論文 仕組み DL 決定木 NODE (Popov et al., 2020) 微分可能な決定木 アテンション TabNet (Arik and Pfister, 2020) 逐次処理。表形式データのプレト レーニングという概念を実現 AutoInt (Song et al., 2019) 本論文のFT-Transformer の概念に最も類似 MLP GrowNet (Badirli et al., 2020) 浅いニューラルネットワークを用いた 勾配ブースティング SNN (Klambauer et al., 2017) 深いMLP。勾配消失や発散を防ぐ SELU活性化関数などを提案 DCN V2 (Wang et al., 2020a). クロスネットワーク構造を含むMLP。 Googleが大規模データで活用。 GBDT 決定木 XGBoost (Chen and Guestrin, 2016) - CatBoost (Prokhorenkova et al., 2018) -
  • 8. 2. 先行研究 TabNet (Arik and Pfister, 2020) 8 ? TabNetの推論処理の全体像 ? 特徴を疎に選択(=Attention)し、逐次処理する構造 ? どの特徴量が推論に効いているか解釈可能 職業専門性の特徴量が選択されている 投資の特徴量が選択されている 逐次処理で連結 推論出力 入力データ
  • 9. 2. 先行研究 TabNet (Arik and Pfister, 2020) 9 特徴量選択 特徴量入力 ? 推論出力 ? 表現出力 逐次処理 ? エンコーダー構造 特徴量 解釈 特徴量 Transformer
  • 10. 2. 先行研究 TabNet (Arik and Pfister, 2020) 10 ? デコーダー構造 各Stepの 特徴量Transformer 再構築された 特徴量 エンコーダー出力の 表現ベクトル
  • 11. 2. 先行研究 TabNet (Arik and Pfister, 2020) 11 ? 表形式データをマスクドランゲージモデルのように一部マスク ? 穴埋め問題を解かせて、プレトレーニングを実現 ? プレトレーニング済モデル活用で、 精度が向上し、少量データで短期収束可能
  • 12. アジェンダ 1. 導入 2. 先行研究 3. 手法 4. 実験 5. まとめ 12
  • 13. 3. 手法 MLP (本論文での提案構造①) ? 全結合MLP→ReLU→Dropoutを何層か重ねたもの 13 全結合 全結合 入力 出力
  • 14. 3. 手法 ResNet (本論文での提案構造②) ? ResNet構造のシンプルなバリエーションを提案 ? より深い表現が必要なタスクで有用(仮説) 14 全結合 入力 出力 バイパス
  • 15. 3. 手法 FT-Transformer 全体構造(本論文での提案構造③ 本命) ? 表形式データの各要素をTokenizerでベクトル化し、Transformerに投入後[CLS]トークン部を用いる 15 [CLS]トークン部を用いる FT-Transformerの全体アーキテクチャ 各特徴量 当図では5つの値 エンベディング されたベクトル 先頭に[CLS] トークン付加 連続値、カテゴリカル 2種類それぞれの手法で Tokenizeする ※次ページで説明 192次元 入力 表形式データ 各セル(縦方向)が 1カラムのデータ 横方向がベクトルの次元数 のイメージ ※後のページで説明
  • 16. 3. 手法 FT-Transformer トークナイザー詳細 ? 連続値、カテゴリカル、それぞれ次の構造、数式によりトークナイズされ、192次元ベクトルとなる 16 連続値 3つの値 カテゴリカル 2つの値 192次元 データカラム数 特徴量数 ウエイト 行列 バイアス 連続値 バイアス FT-Transformerのトークナイザー部 FT-Transformer全体 連続値の式 カテゴリカルの式 ウエイト 行列 カテゴリカルの one hot ベクトル カテゴリ分の サイズの行列
  • 17. 3. 手法 FT-Transformer Transformer内部構造 FT-TransformerのTransformer層 17 出典 [1] Attention Is All You Need. [2] Learning Deep Transformer Models for Machine Translation. オリジナル論文[1]のTransformer層 ? 当論文で用いるTransformer層はPreNorm変形型[2] をベースに、最初の正規化を除外した構造 ※実験の結果この構造が良好なパフォーマンスを得られた為
  • 18. 3. 手法 FT-Transformer ハイパーパラメータ ? 3層Transformer、192次元、オプティマイザーはAdamW 18
  • 19. アジェンダ 1. 導入 2. 先行研究 3. 手法 4. 実験 5. まとめ 19
  • 20. モデル構造 20 4. 実験 表形式データセット 分類 手法 DL 先行研究 NODE (Popov et al., 2020) TabNet (Arik and Pfister, 2020) AutoInt (Song et al., 2019) GrowNet (Badirli et al., 2020) SNN (Klambauer et al., 2017) DCN V2 (Wang et al., 2020a) 本論文 提案手法 MLP ResNet FT-Transformer ★提案手法本命 GBDT 決定木系 XGBoost (Chenand Guestrin,2016) CatBoost (Prokhorenkovaet al., 2018) 略 称 データセット名 概要 年 CA California Housing 不動産価格 1997 AD Adult 所得推定 1996 HE Helena 視覚的内容属性 2019 JA Jannis 視覚的内容属性 2019 HI Higgs 物理粒子シュミレート 2014 AL ALOI 画像 2005 EP Epsilon 模擬物理実験 - YE Year 音声の特徴 2011 CO Covtype 森林の特徴 2000 YA Yahoo 検索クエリ 2011 MI Microsoft 検索クエリ 2013
  • 21. 21 4. 実験 データセット 学習情報 数値 カラム数 カテゴリカル カラム数
  • 22. 実施 DL GBDT 内容 詳細 実施 〇 〇 回帰問題は目標値を標準化 〇 - 数値特徴量に明確な値が少ない特徴量の 回避策としてノイズを加える 〇 〇 Optunaを使った ハイパーパラメータ自動チューニング - 〇 〇 アンサンブル学習 3グループ×各5モデル→各グループの平均値 未実施 〇 〇 プレトレーニング、追加の損失関数、データの増強、蒸留、学習率の減衰など、 4. 実験 前処理等 22
  • 23. DLモデルの結果一覧 23 4. 実験 結果(DLモデル) 凡例 ↑:分類問題:Accuracy ↓:回帰問題:RMSE rank:全データセットの順位の平均ランク FT-T:提案手法 FT-Transformer Bold(赤アンダーライン):ベストスコア(統計的に優位差でない複数の結果を含む) ? FT-Transformerがほとんどのタスクで最高のパフォーマンス 1. MLPは基本的な動作として十分な水準 2. ResNetは効果的なベースライン 3. FT-Transformerはほとんどのタスクで最 高のパフォーマンス 4. チューニングはMLPやResNetのような単 純なモデルを強力なモデルにする。可能な 限りベースラインのチューニングがお勧め
  • 24. 24 4. 実験 結果(DLモデル vs GBDT) 1. GBDTはアンサンブル込なので、DLもアン サンブル処理後で比較 2. ハイパラチューニングすると一部のデータ セットでGBDTが優位に 3. DLとGBDTにはまだ普遍的な解決策は ない 凡例 ↑:分類問題:Accuracy ↓:回帰問題:RMSE FT-T:提案手法 FT-Transformer Bold(赤アンダーライン):ベストスコア デフォルトパラメータ パラメータチューニング後 ? DLとGBDTにはまだ普遍的な解決策はない
  • 25. 25 4. 実験 FT-TransformerがResNetより優れているタスク特性 各手法別のテストRMSEのαによる変化 1. GBDTに適したタスクの場合、ResNetは精度が悪化する 2. しかし、FT-Transformerは、CatBoost同様精度が向上する 3. FT-Transmormerは、DLもしくはGBDTいずれに適したタスク の場合でも、両方で比較的良い精度である GBDTに適したタスク DLに適したタスク Good
  • 26. 26 4. 実験 アブレーションスタディ 類似手法AutoIntとの比較と、特徴バイアスの有無による精度の違い 1. Transformerの内部構造がAutoIntより優れている 2. 特徴バイアスが精度に寄与しており必要性がある 結果 1. 【類似】特徴をエンベッティング変換し、その後セルフアテンションしている構造が類似 2. 【相違】Transformer内部構造と、[CLS]トークンを使わない点、バイアスの有無が相違 AutoIntとの 類似点と相違点
  • 28. アジェンダ 1. 導入 2. 先行研究 3. 手法 4. 実験 5. まとめ 28
  • 29. 5. まとめ 結論 ? 表形式DLのベースラインを改善 ? FT-Transformerを提案。タスク全般的にGBDTと遜色ない ? いくつかのタスクではGBDTが依然優位 ? オープンソースにしている為、表形式DLのさらなる開発の基礎となる事を期待 29 感想 ? 事業で利用する場合は、データには欠損値があり、欠損値に対するロバスト性の研究は、本論文にはない ? 先行研究のTabNetはマスクし学習しているので、マスクで欠損値処理できそう ? 本研究もTransformerベースなので、マスクし学習する事で、欠損値処理と表形式プレトレーニングができそう ? DLが得意な文章や画像などのデータを繋いだマルチモーダル学習で、GBDTに対する優位性を明らかにしたい