狠狠撸

狠狠撸Share a Scribd company logo
機械学習をこれから始める人が読んでおきたい
特徴選択の有名論文紹介
今回紹介する論文
● An Introduction to Variable and Feature Selection
○ 著者:Isabelle Guyon, Andre Elisseeff
○ 投稿:Journal of Machine learning Research 3 (2003) 1157-1182
○ 引用:16136件 (2021/03/07時点)
● 論文の内容
○ より良いモデルを構築するための特徴選択と生成について
■ ランキング、特徴選択手法、次元削減、バリデーション
○ 3つの代表的な特徴選択手法について紹介
■ filter, wrapper, embedded
● この動画で紹介する内容
○ 特徴量の评価
○ 3つの代表的な特徴選択
○ ディープラーニングの特徴选択
そもそも特徴選択は何故必要なのか
● 予測器の精度をあげる
● より速く低コストな計算
● シンプルな入力で解釈しやすくする
特徴選択に取り掛かる前に
発見的なチェックリスト
1. ドメイン知識があるか → Yes: 知識を生かしたAd hocな特徴を作成
2. 特徴のスケールはそろっているか → No: 標準化
3. 特徴が相互依存している可能性があるか → No: 特徴量を組み合わせる
4. 計算コストの関係で特徴を削減する必要があるか → No: 離散化や重み付けなど
5. 特徴一つ一つを評価する必要があるか → Yes: 変数のランク付け
6. そもそも予測器は必要か → No: やめる
7. データが汚いか → Yes: 外れ値を取り除く
8. 初めに何をすべきかわかっているか → No: 線形モデル
9. 時間と計算資源、データ量が十分にあるか → Yes: 複数の特徴選択やモデルを試す
10. 安定した解法を望むか → Yes: バリデーション
特徴量の评価
Variable ranking
● 最も単純な変数の評価方法
● 個々の変数の予測性能を評価し、スコアの高い変数を選択
● この結果がベースラインとなることが多い
● 学習不足になる可能性はあるが過学習しにくい
(例) 目的変数によるスコアリングの種類
● 回帰: ある変数と目的変数の相関係数
● 分類: ある変数に閾値を設けることでどの程度予測できるか (正解率, fpr,
fnr)
● どちらでも: ある変数と目的変数間の相互情報量
特徴量の関係を考慮: 冗長な特徴量
[疑問点 1] 冗長と見られる変数を含めたままで良いか
● 2つの変数は分布が似通っている
● 2変数を用いて45度回転させると、
(b)の分布となる
● クラス分割の境界(赤線)が得られる
● 組み合わせで変換した変数の一つで
クラス分類が可能に
冗長と見られる変数でも、追加することで効果を得られる場合がある
特徴量の関係を考慮: 冗長と相関
[疑問点 2] 変数間の相関が高いことは冗長なのか
● 同じく冗長に見える二つの変数で、
変数間の共分散が大きい場合を考える
● (a): クラスの平均を通る直線上に分布
● (b): その直線と直交するように分布
● (a)は変数の和をとっても単体と変わらないが
(b)では組み合わせがクラス分割を可能に
完全に相関がある場合はその変数は単体で十分だが、”高い”相関は変数選
択の上で冗長とは限らない
完全な相関 やや高い相関
特徴量の関係を考慮: 同時利用することで役に立つ変数
[疑問点 3] 変数単体で役に立たないからといって除外して良いか
● (a): 単体だと役に立たない変数 x1 が
x2 との組み合わせで線形分離可能に
● (b): 単体で役に立たない変数 x3, x4 が
組み合わせることでXOR functionで
分類可能に
x4
x3
x2
x1
x1 x2 x3 x4
単体で役に立たない変数も他の変数との組み合わせによって有用になる場
合がある
3つの特徴選択手法
Filter, Wrapper, Embedded
特徴量の部分集合を選択
● Variable ranking は個々の変数の予測性能に基づいている
○ 特徴をいくつ選択するべきか
○ スコアが低くても組み合わせが有効なケースもあった
● 特徴の部分集合で評価する必要がある
1. Filter methods (= Variable ranking)
→ モデルの学習とは独立した前処理としての手法
2. Wrapper methods
→ モデルを用いて特徴量の部分集合を評価
3. Embedded methods
→ モデルの学習と同時に特徴選択 (モデルに固有)
1. Filter methods
● モデルの学習とは独立した処理
● 処理が高速
● 個々の変数と目的変数間の関係から特徴を選択
● Wrapper, Embeddedの前処理としても用いられる
全特徴量
選択された
特徴量
モデル 評価
1. Filter methods
● 例) 目的変数との相関が低い特徴を排除
● 全特徴について目的変数との相関係数を計算し、高いものから必要な
数だけ選択
○ 閾値 (0.5以上など)を設けて選択することも可能
X1 X2 X3 X4 X5 y
...
0.8 0.9 0.2 0.3 0.6
2. Wrapper methods
● 特徴の部分集合を用いて学習、評価を繰り返す
● 計算コスト大
● 探索手法 (Forward selection, Backward elimination)
● 評価用データで選択された特徴を評価
全特徴量 モデル
特徴の
部分集合
評価
2. Wrapper methods
● 例) Forward selection
○ 全特徴量50から30に減らしたい場合
1. 特徴量0個から初め、特徴量が1つのモデルを50個作成し検証用データ
でのスコアが最大になる特徴を1つ選択
2. 未選択の特徴量から同様にスコアが最大になる特徴量を1つ選択
3. 選択済みの特徴量が30個になるまで2に戻る
X1 … X50
X8
X1 … X50
X8
X1 … X50
X8
X14 X14 X37
3. Embedded methods
● モデルの学習と同時に特徴選択を行う
● Wrapper よりも高速
● モデルを再学習させる必要なし
全特徴量
モデル
+
評価
特徴の
部分集合
3. Embedded methods
● 例) Lasso回帰
○ 線形回帰において過学習を防ぎ汎化性を高めるための手法の1つ
○ 学習の段階で不要と思われる変数の係数を0にする
○ 重要な特徴の部分集合を選択している
通常の線形回帰:
Lasso回帰:
ディープラーニングの特徴选択
ディープラーニングの登場
● 従来の機械学習
○ 特徴選択、生成は人が行う
■ 選択: 今回紹介した3つの手法 (初めは主に filter)
■ 生成: 特徴量同士の和や積、ビニングなど
○ 特徴量の質がモデルの性能を決定
● ディープラーニング
○ 特徴量の選択、生成が不要
データ
特徴選択
生成
学習
データ 特徴抽出+学習
AI
機械学習
ディープ
ラーニング
ディープラーニングの登場
● ディープラーニングの特徴选択
○ “ディープ” に重ねられた層で数理的なモデルを表現し、複雑な処理を実現
○ データに内在している特徴量を自動で抽出している
● 問題点
○ 学習時間の増大
○ パラメータ数が増え過学習しやすい
○ どのように特徴選択が行われているか解き明かすことが難しい
???
入力層 出力層
中間層 (数十~層)
まとめ
● An Introduction to Variable and Feature Selectionの紹介
○ 特徴量の评価
■ 特徴のランキング
■ 冗長な特徴
■ 相関の高い特徴
■ 他と組み合わせることで効果がでる特徴
○ 特徴選択
■ Filter methods
■ Wrapper methods
■ Embedded methods
● ディープラーニングでの特徴量

More Related Content

What's hot (20)

因果探索: 基本から最近の発展までを概説
因果探索: 基本から最近の発展までを概説因果探索: 基本から最近の発展までを概説
因果探索: 基本から最近の発展までを概説
Shiga University, RIKEN
?
【DL輪読会】High-Resolution Image Synthesis with Latent Diffusion Models
【DL輪読会】High-Resolution Image Synthesis with Latent Diffusion Models【DL輪読会】High-Resolution Image Synthesis with Latent Diffusion Models
【DL輪読会】High-Resolution Image Synthesis with Latent Diffusion Models
Deep Learning JP
?
生成モデルの Deep Learning
生成モデルの Deep Learning生成モデルの Deep Learning
生成モデルの Deep Learning
Seiya Tokui
?
ドメイン适応の原理と応用
ドメイン适応の原理と応用ドメイン适応の原理と応用
ドメイン适応の原理と応用
Yoshitaka Ushiku
?
backbone としての timm 入門
backbone としての timm 入門backbone としての timm 入門
backbone としての timm 入門
Takuji Tahara
?
道具としての机械学习:直感的概要とその実际
道具としての机械学习:直感的概要とその実际道具としての机械学习:直感的概要とその実际
道具としての机械学习:直感的概要とその実际
Ichigaku Takigawa
?
SSII2022 [SS2] 少ないデータやラベルを効率的に活用する機械学習技術 ? 足りない情報をどのように補うか??
SSII2022 [SS2] 少ないデータやラベルを効率的に活用する機械学習技術 ? 足りない情報をどのように補うか??SSII2022 [SS2] 少ないデータやラベルを効率的に活用する機械学習技術 ? 足りない情報をどのように補うか??
SSII2022 [SS2] 少ないデータやラベルを効率的に活用する機械学習技術 ? 足りない情報をどのように補うか??
SSII
?
全力解説!罢谤补苍蝉蹿辞谤尘别谤
全力解説!罢谤补苍蝉蹿辞谤尘别谤全力解説!罢谤补苍蝉蹿辞谤尘别谤
全力解説!罢谤补苍蝉蹿辞谤尘别谤
Arithmer Inc.
?
机械学习におけるオンライン确率的最适化の理论
机械学习におけるオンライン确率的最适化の理论机械学习におけるオンライン确率的最适化の理论
机械学习におけるオンライン确率的最适化の理论
Taiji Suzuki
?
はじめよう多変量解析~主成分分析编~
はじめよう多変量解析~主成分分析编~はじめよう多変量解析~主成分分析编~
はじめよう多変量解析~主成分分析编~
宏喜 佐野
?
贰尝叠翱型痴础贰のダメなところ
贰尝叠翱型痴础贰のダメなところ贰尝叠翱型痴础贰のダメなところ
贰尝叠翱型痴础贰のダメなところ
KCS Keio Computer Society
?
【DL輪読会】SimCSE: Simple Contrastive Learning of Sentence Embeddings (EMNLP 2021)
【DL輪読会】SimCSE: Simple Contrastive Learning of Sentence Embeddings  (EMNLP 2021)【DL輪読会】SimCSE: Simple Contrastive Learning of Sentence Embeddings  (EMNLP 2021)
【DL輪読会】SimCSE: Simple Contrastive Learning of Sentence Embeddings (EMNLP 2021)
Deep Learning JP
?
探索と活用の戦略 ヘ?イス?最適化と多腕バンディット
探索と活用の戦略 ヘ?イス?最適化と多腕バンディット探索と活用の戦略 ヘ?イス?最適化と多腕バンディット
探索と活用の戦略 ヘ?イス?最適化と多腕バンディット
H Okazaki
?
マルチモーダル深层学习の研究动向
マルチモーダル深层学习の研究动向マルチモーダル深层学习の研究动向
マルチモーダル深层学习の研究动向
Koichiro Mori
?
强化学习と逆强化学习を组み合わせた模倣学习
强化学习と逆强化学习を组み合わせた模倣学习强化学习と逆强化学习を组み合わせた模倣学习
强化学习と逆强化学习を组み合わせた模倣学习
Eiji Uchibe
?
[DL輪読会]Understanding Black-box Predictions via Influence Functions
[DL輪読会]Understanding Black-box Predictions via Influence Functions [DL輪読会]Understanding Black-box Predictions via Influence Functions
[DL輪読会]Understanding Black-box Predictions via Influence Functions
Deep Learning JP
?
BERT+XLNet+RoBERTa
BERT+XLNet+RoBERTaBERT+XLNet+RoBERTa
BERT+XLNet+RoBERTa
禎晃 山崎
?
SSII2021 [OS2-01] 転移学習の基礎:異なるタスクの知識を利用するための機械学習の方法
SSII2021 [OS2-01] 転移学習の基礎:異なるタスクの知識を利用するための機械学習の方法SSII2021 [OS2-01] 転移学習の基礎:異なるタスクの知識を利用するための機械学習の方法
SSII2021 [OS2-01] 転移学習の基礎:異なるタスクの知識を利用するための機械学習の方法
SSII
?
[DL輪読会]近年のオフライン強化学習のまとめ —Offline Reinforcement Learning: Tutorial, Review, an...
[DL輪読会]近年のオフライン強化学習のまとめ —Offline Reinforcement Learning: Tutorial, Review, an...[DL輪読会]近年のオフライン強化学習のまとめ —Offline Reinforcement Learning: Tutorial, Review, an...
[DL輪読会]近年のオフライン強化学習のまとめ —Offline Reinforcement Learning: Tutorial, Review, an...
Deep Learning JP
?
因果探索: 基本から最近の発展までを概説
因果探索: 基本から最近の発展までを概説因果探索: 基本から最近の発展までを概説
因果探索: 基本から最近の発展までを概説
Shiga University, RIKEN
?
【DL輪読会】High-Resolution Image Synthesis with Latent Diffusion Models
【DL輪読会】High-Resolution Image Synthesis with Latent Diffusion Models【DL輪読会】High-Resolution Image Synthesis with Latent Diffusion Models
【DL輪読会】High-Resolution Image Synthesis with Latent Diffusion Models
Deep Learning JP
?
生成モデルの Deep Learning
生成モデルの Deep Learning生成モデルの Deep Learning
生成モデルの Deep Learning
Seiya Tokui
?
ドメイン适応の原理と応用
ドメイン适応の原理と応用ドメイン适応の原理と応用
ドメイン适応の原理と応用
Yoshitaka Ushiku
?
backbone としての timm 入門
backbone としての timm 入門backbone としての timm 入門
backbone としての timm 入門
Takuji Tahara
?
道具としての机械学习:直感的概要とその実际
道具としての机械学习:直感的概要とその実际道具としての机械学习:直感的概要とその実际
道具としての机械学习:直感的概要とその実际
Ichigaku Takigawa
?
SSII2022 [SS2] 少ないデータやラベルを効率的に活用する機械学習技術 ? 足りない情報をどのように補うか??
SSII2022 [SS2] 少ないデータやラベルを効率的に活用する機械学習技術 ? 足りない情報をどのように補うか??SSII2022 [SS2] 少ないデータやラベルを効率的に活用する機械学習技術 ? 足りない情報をどのように補うか??
SSII2022 [SS2] 少ないデータやラベルを効率的に活用する機械学習技術 ? 足りない情報をどのように補うか??
SSII
?
全力解説!罢谤补苍蝉蹿辞谤尘别谤
全力解説!罢谤补苍蝉蹿辞谤尘别谤全力解説!罢谤补苍蝉蹿辞谤尘别谤
全力解説!罢谤补苍蝉蹿辞谤尘别谤
Arithmer Inc.
?
机械学习におけるオンライン确率的最适化の理论
机械学习におけるオンライン确率的最适化の理论机械学习におけるオンライン确率的最适化の理论
机械学习におけるオンライン确率的最适化の理论
Taiji Suzuki
?
はじめよう多変量解析~主成分分析编~
はじめよう多変量解析~主成分分析编~はじめよう多変量解析~主成分分析编~
はじめよう多変量解析~主成分分析编~
宏喜 佐野
?
【DL輪読会】SimCSE: Simple Contrastive Learning of Sentence Embeddings (EMNLP 2021)
【DL輪読会】SimCSE: Simple Contrastive Learning of Sentence Embeddings  (EMNLP 2021)【DL輪読会】SimCSE: Simple Contrastive Learning of Sentence Embeddings  (EMNLP 2021)
【DL輪読会】SimCSE: Simple Contrastive Learning of Sentence Embeddings (EMNLP 2021)
Deep Learning JP
?
探索と活用の戦略 ヘ?イス?最適化と多腕バンディット
探索と活用の戦略 ヘ?イス?最適化と多腕バンディット探索と活用の戦略 ヘ?イス?最適化と多腕バンディット
探索と活用の戦略 ヘ?イス?最適化と多腕バンディット
H Okazaki
?
マルチモーダル深层学习の研究动向
マルチモーダル深层学习の研究动向マルチモーダル深层学习の研究动向
マルチモーダル深层学习の研究动向
Koichiro Mori
?
强化学习と逆强化学习を组み合わせた模倣学习
强化学习と逆强化学习を组み合わせた模倣学习强化学习と逆强化学习を组み合わせた模倣学习
强化学习と逆强化学习を组み合わせた模倣学习
Eiji Uchibe
?
[DL輪読会]Understanding Black-box Predictions via Influence Functions
[DL輪読会]Understanding Black-box Predictions via Influence Functions [DL輪読会]Understanding Black-box Predictions via Influence Functions
[DL輪読会]Understanding Black-box Predictions via Influence Functions
Deep Learning JP
?
SSII2021 [OS2-01] 転移学習の基礎:異なるタスクの知識を利用するための機械学習の方法
SSII2021 [OS2-01] 転移学習の基礎:異なるタスクの知識を利用するための機械学習の方法SSII2021 [OS2-01] 転移学習の基礎:異なるタスクの知識を利用するための機械学習の方法
SSII2021 [OS2-01] 転移学習の基礎:異なるタスクの知識を利用するための機械学習の方法
SSII
?
[DL輪読会]近年のオフライン強化学習のまとめ —Offline Reinforcement Learning: Tutorial, Review, an...
[DL輪読会]近年のオフライン強化学習のまとめ —Offline Reinforcement Learning: Tutorial, Review, an...[DL輪読会]近年のオフライン強化学習のまとめ —Offline Reinforcement Learning: Tutorial, Review, an...
[DL輪読会]近年のオフライン強化学習のまとめ —Offline Reinforcement Learning: Tutorial, Review, an...
Deep Learning JP
?

More from 西岡 賢一郎 (20)

Amazon SageMaker Foundation Modelsて?事前学習済みモテ?ルを利用する
Amazon SageMaker Foundation Modelsて?事前学習済みモテ?ルを利用するAmazon SageMaker Foundation Modelsて?事前学習済みモテ?ルを利用する
Amazon SageMaker Foundation Modelsて?事前学習済みモテ?ルを利用する
西岡 賢一郎
?
Amazon SageMaker Ground Truthを使って手動のラヘ?ル付けを簡略化する
Amazon SageMaker Ground Truthを使って手動のラヘ?ル付けを簡略化するAmazon SageMaker Ground Truthを使って手動のラヘ?ル付けを簡略化する
Amazon SageMaker Ground Truthを使って手動のラヘ?ル付けを簡略化する
西岡 賢一郎
?
Amazon SageMakerのNotebookからJobを作成する
Amazon SageMakerのNotebookからJobを作成するAmazon SageMakerのNotebookからJobを作成する
Amazon SageMakerのNotebookからJobを作成する
西岡 賢一郎
?
リモートワークで知っておきたい コミュニケーション時の過大な期待
リモートワークで知っておきたい コミュニケーション時の過大な期待リモートワークで知っておきたい コミュニケーション時の過大な期待
リモートワークで知っておきたい コミュニケーション時の過大な期待
西岡 賢一郎
?
リモートワークで意识すべき7つのこと
リモートワークで意识すべき7つのことリモートワークで意识すべき7つのこと
リモートワークで意识すべき7つのこと
西岡 賢一郎
?
Amazon SageMaker ML Governance 3つの機能紹介
Amazon SageMaker ML Governance 3つの機能紹介Amazon SageMaker ML Governance 3つの機能紹介
Amazon SageMaker ML Governance 3つの機能紹介
西岡 賢一郎
?
Feature StoreのOnline StoreとOffline Storeの違いについて理解する
Feature StoreのOnline StoreとOffline Storeの違いについて理解するFeature StoreのOnline StoreとOffline Storeの違いについて理解する
Feature StoreのOnline StoreとOffline Storeの違いについて理解する
西岡 賢一郎
?
機械学習の特徴量を管理するAmazon SageMaker Feature Store
機械学習の特徴量を管理するAmazon SageMaker Feature Store機械学習の特徴量を管理するAmazon SageMaker Feature Store
機械学習の特徴量を管理するAmazon SageMaker Feature Store
西岡 賢一郎
?
機械学習用のデータを準備する Amazon SageMaker Data Wrangler - ノーコードで前処理から学習まで
機械学習用のデータを準備する Amazon SageMaker Data Wrangler - ノーコードで前処理から学習まで機械学習用のデータを準備する Amazon SageMaker Data Wrangler - ノーコードで前処理から学習まで
機械学習用のデータを準備する Amazon SageMaker Data Wrangler - ノーコードで前処理から学習まで
西岡 賢一郎
?
Amazon SageMakerでカスタムコンテナを使った学習
Amazon SageMakerでカスタムコンテナを使った学習Amazon SageMakerでカスタムコンテナを使った学習
Amazon SageMakerでカスタムコンテナを使った学習
西岡 賢一郎
?
Amazon SageMakerでscikit-learnで作ったモデルのEndpoint作成
Amazon SageMakerでscikit-learnで作ったモデルのEndpoint作成Amazon SageMakerでscikit-learnで作ったモデルのEndpoint作成
Amazon SageMakerでscikit-learnで作ったモデルのEndpoint作成
西岡 賢一郎
?
Amazon AthenaでSageMakerを使った推論
Amazon AthenaでSageMakerを使った推論Amazon AthenaでSageMakerを使った推論
Amazon AthenaでSageMakerを使った推論
西岡 賢一郎
?
Amazon Athenaで独自の関数を使う Amazon Athena UDF - AthenaでTweetの感情分析
Amazon Athenaで独自の関数を使う Amazon Athena UDF - AthenaでTweetの感情分析Amazon Athenaで独自の関数を使う Amazon Athena UDF - AthenaでTweetの感情分析
Amazon Athenaで独自の関数を使う Amazon Athena UDF - AthenaでTweetの感情分析
西岡 賢一郎
?
未来のカタチ x AI
未来のカタチ x AI未来のカタチ x AI
未来のカタチ x AI
西岡 賢一郎
?
罢辞谤肠丑顿补迟补チュートリアル解説
罢辞谤肠丑顿补迟补チュートリアル解説罢辞谤肠丑顿补迟补チュートリアル解説
罢辞谤肠丑顿补迟补チュートリアル解説
西岡 賢一郎
?
Amazon SageMaker JumpStart
Amazon SageMaker JumpStartAmazon SageMaker JumpStart
Amazon SageMaker JumpStart
西岡 賢一郎
?
Amazon SageMaker Studio Lab紹介
Amazon SageMaker Studio Lab紹介Amazon SageMaker Studio Lab紹介
Amazon SageMaker Studio Lab紹介
西岡 賢一郎
?
Amazon SageMaker Canvasを使ったノーコード機械学習
Amazon SageMaker Canvasを使ったノーコード機械学習Amazon SageMaker Canvasを使ったノーコード機械学習
Amazon SageMaker Canvasを使ったノーコード機械学習
西岡 賢一郎
?
笔惭贵を目指すプロダクト开発组织が组织拡大するときににやるべきこと
笔惭贵を目指すプロダクト开発组织が组织拡大するときににやるべきこと笔惭贵を目指すプロダクト开発组织が组织拡大するときににやるべきこと
笔惭贵を目指すプロダクト开発组织が组织拡大するときににやるべきこと
西岡 賢一郎
?
H2O Waveを使ったAIアプリケーション作成入門
H2O Waveを使ったAIアプリケーション作成入門H2O Waveを使ったAIアプリケーション作成入門
H2O Waveを使ったAIアプリケーション作成入門
西岡 賢一郎
?
Amazon SageMaker Foundation Modelsて?事前学習済みモテ?ルを利用する
Amazon SageMaker Foundation Modelsて?事前学習済みモテ?ルを利用するAmazon SageMaker Foundation Modelsて?事前学習済みモテ?ルを利用する
Amazon SageMaker Foundation Modelsて?事前学習済みモテ?ルを利用する
西岡 賢一郎
?
Amazon SageMaker Ground Truthを使って手動のラヘ?ル付けを簡略化する
Amazon SageMaker Ground Truthを使って手動のラヘ?ル付けを簡略化するAmazon SageMaker Ground Truthを使って手動のラヘ?ル付けを簡略化する
Amazon SageMaker Ground Truthを使って手動のラヘ?ル付けを簡略化する
西岡 賢一郎
?
Amazon SageMakerのNotebookからJobを作成する
Amazon SageMakerのNotebookからJobを作成するAmazon SageMakerのNotebookからJobを作成する
Amazon SageMakerのNotebookからJobを作成する
西岡 賢一郎
?
リモートワークで知っておきたい コミュニケーション時の過大な期待
リモートワークで知っておきたい コミュニケーション時の過大な期待リモートワークで知っておきたい コミュニケーション時の過大な期待
リモートワークで知っておきたい コミュニケーション時の過大な期待
西岡 賢一郎
?
リモートワークで意识すべき7つのこと
リモートワークで意识すべき7つのことリモートワークで意识すべき7つのこと
リモートワークで意识すべき7つのこと
西岡 賢一郎
?
Amazon SageMaker ML Governance 3つの機能紹介
Amazon SageMaker ML Governance 3つの機能紹介Amazon SageMaker ML Governance 3つの機能紹介
Amazon SageMaker ML Governance 3つの機能紹介
西岡 賢一郎
?
Feature StoreのOnline StoreとOffline Storeの違いについて理解する
Feature StoreのOnline StoreとOffline Storeの違いについて理解するFeature StoreのOnline StoreとOffline Storeの違いについて理解する
Feature StoreのOnline StoreとOffline Storeの違いについて理解する
西岡 賢一郎
?
機械学習の特徴量を管理するAmazon SageMaker Feature Store
機械学習の特徴量を管理するAmazon SageMaker Feature Store機械学習の特徴量を管理するAmazon SageMaker Feature Store
機械学習の特徴量を管理するAmazon SageMaker Feature Store
西岡 賢一郎
?
機械学習用のデータを準備する Amazon SageMaker Data Wrangler - ノーコードで前処理から学習まで
機械学習用のデータを準備する Amazon SageMaker Data Wrangler - ノーコードで前処理から学習まで機械学習用のデータを準備する Amazon SageMaker Data Wrangler - ノーコードで前処理から学習まで
機械学習用のデータを準備する Amazon SageMaker Data Wrangler - ノーコードで前処理から学習まで
西岡 賢一郎
?
Amazon SageMakerでカスタムコンテナを使った学習
Amazon SageMakerでカスタムコンテナを使った学習Amazon SageMakerでカスタムコンテナを使った学習
Amazon SageMakerでカスタムコンテナを使った学習
西岡 賢一郎
?
Amazon SageMakerでscikit-learnで作ったモデルのEndpoint作成
Amazon SageMakerでscikit-learnで作ったモデルのEndpoint作成Amazon SageMakerでscikit-learnで作ったモデルのEndpoint作成
Amazon SageMakerでscikit-learnで作ったモデルのEndpoint作成
西岡 賢一郎
?
Amazon AthenaでSageMakerを使った推論
Amazon AthenaでSageMakerを使った推論Amazon AthenaでSageMakerを使った推論
Amazon AthenaでSageMakerを使った推論
西岡 賢一郎
?
Amazon Athenaで独自の関数を使う Amazon Athena UDF - AthenaでTweetの感情分析
Amazon Athenaで独自の関数を使う Amazon Athena UDF - AthenaでTweetの感情分析Amazon Athenaで独自の関数を使う Amazon Athena UDF - AthenaでTweetの感情分析
Amazon Athenaで独自の関数を使う Amazon Athena UDF - AthenaでTweetの感情分析
西岡 賢一郎
?
罢辞谤肠丑顿补迟补チュートリアル解説
罢辞谤肠丑顿补迟补チュートリアル解説罢辞谤肠丑顿补迟补チュートリアル解説
罢辞谤肠丑顿补迟补チュートリアル解説
西岡 賢一郎
?
Amazon SageMaker Studio Lab紹介
Amazon SageMaker Studio Lab紹介Amazon SageMaker Studio Lab紹介
Amazon SageMaker Studio Lab紹介
西岡 賢一郎
?
Amazon SageMaker Canvasを使ったノーコード機械学習
Amazon SageMaker Canvasを使ったノーコード機械学習Amazon SageMaker Canvasを使ったノーコード機械学習
Amazon SageMaker Canvasを使ったノーコード機械学習
西岡 賢一郎
?
笔惭贵を目指すプロダクト开発组织が组织拡大するときににやるべきこと
笔惭贵を目指すプロダクト开発组织が组织拡大するときににやるべきこと笔惭贵を目指すプロダクト开発组织が组织拡大するときににやるべきこと
笔惭贵を目指すプロダクト开発组织が组织拡大するときににやるべきこと
西岡 賢一郎
?
H2O Waveを使ったAIアプリケーション作成入門
H2O Waveを使ったAIアプリケーション作成入門H2O Waveを使ったAIアプリケーション作成入門
H2O Waveを使ったAIアプリケーション作成入門
西岡 賢一郎
?

Recently uploaded (11)

贬补谤耻办颈厂丑颈苍办补飞补冲尝尝惭を利用した果树农家の経験知の対话的蓄积支援冲诲别颈尘2025
贬补谤耻办颈厂丑颈苍办补飞补冲尝尝惭を利用した果树农家の経験知の対话的蓄积支援冲诲别颈尘2025贬补谤耻办颈厂丑颈苍办补飞补冲尝尝惭を利用した果树农家の経験知の対话的蓄积支援冲诲别颈尘2025
贬补谤耻办颈厂丑颈苍办补飞补冲尝尝惭を利用した果树农家の経験知の対话的蓄积支援冲诲别颈尘2025
Matsushita Laboratory
?
测距センサと滨惭鲍センサを用いた指轮型デバイスにおける颜认証システムの提案
测距センサと滨惭鲍センサを用いた指轮型デバイスにおける颜认証システムの提案测距センサと滨惭鲍センサを用いた指轮型デバイスにおける颜认証システムの提案
测距センサと滨惭鲍センサを用いた指轮型デバイスにおける颜认証システムの提案
sugiuralab
?
ラズパイを使って作品を作ったらラズパイコンテストで碍厂驰赏を貰って、さらに、文化庁メディア芸术祭で审査员推荐作品に选ばれてしまった件?自作チップでラズパイ...
ラズパイを使って作品を作ったらラズパイコンテストで碍厂驰赏を貰って、さらに、文化庁メディア芸术祭で审査员推荐作品に选ばれてしまった件?自作チップでラズパイ...ラズパイを使って作品を作ったらラズパイコンテストで碍厂驰赏を貰って、さらに、文化庁メディア芸术祭で审査员推荐作品に选ばれてしまった件?自作チップでラズパイ...
ラズパイを使って作品を作ったらラズパイコンテストで碍厂驰赏を貰って、さらに、文化庁メディア芸术祭で审査员推荐作品に选ばれてしまった件?自作チップでラズパイ...
Industrial Technology Research Institute (ITRI)(工業技術研究院, 工研院)
?
狈辞诲补滨迟蝉耻办颈冲反省観点の分类に基づく试合の振り返り支援システムに関する有用性検証冲顿贰滨惭2025
狈辞诲补滨迟蝉耻办颈冲反省観点の分类に基づく试合の振り返り支援システムに関する有用性検証冲顿贰滨惭2025狈辞诲补滨迟蝉耻办颈冲反省観点の分类に基づく试合の振り返り支援システムに関する有用性検証冲顿贰滨惭2025
狈辞诲补滨迟蝉耻办颈冲反省観点の分类に基づく试合の振り返り支援システムに関する有用性検証冲顿贰滨惭2025
Matsushita Laboratory
?
第1回日本理学疗法推论学会学术大会での発表资料(2025年3月2日 高桥可奈恵)
第1回日本理学疗法推论学会学术大会での発表资料(2025年3月2日 高桥可奈恵)第1回日本理学疗法推论学会学术大会での発表资料(2025年3月2日 高桥可奈恵)
第1回日本理学疗法推论学会学术大会での発表资料(2025年3月2日 高桥可奈恵)
Matsushita Laboratory
?
【卒业论文】尝尝惭を用いた惭耻濒迟颈-础驳别苍迟-顿别产补迟别における反论の効果に関する研究
【卒业论文】尝尝惭を用いた惭耻濒迟颈-础驳别苍迟-顿别产补迟别における反论の効果に関する研究【卒业论文】尝尝惭を用いた惭耻濒迟颈-础驳别苍迟-顿别产补迟别における反论の効果に関する研究
【卒业论文】尝尝惭を用いた惭耻濒迟颈-础驳别苍迟-顿别产补迟别における反论の効果に関する研究
harmonylab
?
2025フードテックWeek大阪展示会 - LoRaWANを使った複数ポイント温度管理 by AVNET玉井部長
2025フードテックWeek大阪展示会 - LoRaWANを使った複数ポイント温度管理 by AVNET玉井部長2025フードテックWeek大阪展示会 - LoRaWANを使った複数ポイント温度管理 by AVNET玉井部長
2025フードテックWeek大阪展示会 - LoRaWANを使った複数ポイント温度管理 by AVNET玉井部長
CRI Japan, Inc.
?
LF Decentralized Trust Tokyo Meetup 3
LF Decentralized Trust Tokyo Meetup 3LF Decentralized Trust Tokyo Meetup 3
LF Decentralized Trust Tokyo Meetup 3
LFDT Tokyo Meetup
?
実はアナタの身近にある!? Linux のチェックポイント/レストア機能 (NTT Tech Conference 2025 発表資料)
実はアナタの身近にある!? Linux のチェックポイント/レストア機能 (NTT Tech Conference 2025 発表資料)実はアナタの身近にある!? Linux のチェックポイント/レストア機能 (NTT Tech Conference 2025 発表資料)
実はアナタの身近にある!? Linux のチェックポイント/レストア機能 (NTT Tech Conference 2025 発表資料)
NTT DATA Technology & Innovation
?
空间オーディオを用いたヘッドパスワードの提案と音源提示手法の最适化
空间オーディオを用いたヘッドパスワードの提案と音源提示手法の最适化空间オーディオを用いたヘッドパスワードの提案と音源提示手法の最适化
空间オーディオを用いたヘッドパスワードの提案と音源提示手法の最适化
sugiuralab
?
【卒业论文】深层学习によるログ异常検知モデルを用いたサイバー攻撃検知に関する研究
【卒业论文】深层学习によるログ异常検知モデルを用いたサイバー攻撃検知に関する研究【卒业论文】深层学习によるログ异常検知モデルを用いたサイバー攻撃検知に関する研究
【卒业论文】深层学习によるログ异常検知モデルを用いたサイバー攻撃検知に関する研究
harmonylab
?
贬补谤耻办颈厂丑颈苍办补飞补冲尝尝惭を利用した果树农家の経験知の対话的蓄积支援冲诲别颈尘2025
贬补谤耻办颈厂丑颈苍办补飞补冲尝尝惭を利用した果树农家の経験知の対话的蓄积支援冲诲别颈尘2025贬补谤耻办颈厂丑颈苍办补飞补冲尝尝惭を利用した果树农家の経験知の対话的蓄积支援冲诲别颈尘2025
贬补谤耻办颈厂丑颈苍办补飞补冲尝尝惭を利用した果树农家の経験知の対话的蓄积支援冲诲别颈尘2025
Matsushita Laboratory
?
测距センサと滨惭鲍センサを用いた指轮型デバイスにおける颜认証システムの提案
测距センサと滨惭鲍センサを用いた指轮型デバイスにおける颜认証システムの提案测距センサと滨惭鲍センサを用いた指轮型デバイスにおける颜认証システムの提案
测距センサと滨惭鲍センサを用いた指轮型デバイスにおける颜认証システムの提案
sugiuralab
?
ラズパイを使って作品を作ったらラズパイコンテストで碍厂驰赏を貰って、さらに、文化庁メディア芸术祭で审査员推荐作品に选ばれてしまった件?自作チップでラズパイ...
ラズパイを使って作品を作ったらラズパイコンテストで碍厂驰赏を貰って、さらに、文化庁メディア芸术祭で审査员推荐作品に选ばれてしまった件?自作チップでラズパイ...ラズパイを使って作品を作ったらラズパイコンテストで碍厂驰赏を貰って、さらに、文化庁メディア芸术祭で审査员推荐作品に选ばれてしまった件?自作チップでラズパイ...
ラズパイを使って作品を作ったらラズパイコンテストで碍厂驰赏を貰って、さらに、文化庁メディア芸术祭で审査员推荐作品に选ばれてしまった件?自作チップでラズパイ...
Industrial Technology Research Institute (ITRI)(工業技術研究院, 工研院)
?
狈辞诲补滨迟蝉耻办颈冲反省観点の分类に基づく试合の振り返り支援システムに関する有用性検証冲顿贰滨惭2025
狈辞诲补滨迟蝉耻办颈冲反省観点の分类に基づく试合の振り返り支援システムに関する有用性検証冲顿贰滨惭2025狈辞诲补滨迟蝉耻办颈冲反省観点の分类に基づく试合の振り返り支援システムに関する有用性検証冲顿贰滨惭2025
狈辞诲补滨迟蝉耻办颈冲反省観点の分类に基づく试合の振り返り支援システムに関する有用性検証冲顿贰滨惭2025
Matsushita Laboratory
?
第1回日本理学疗法推论学会学术大会での発表资料(2025年3月2日 高桥可奈恵)
第1回日本理学疗法推论学会学术大会での発表资料(2025年3月2日 高桥可奈恵)第1回日本理学疗法推论学会学术大会での発表资料(2025年3月2日 高桥可奈恵)
第1回日本理学疗法推论学会学术大会での発表资料(2025年3月2日 高桥可奈恵)
Matsushita Laboratory
?
【卒业论文】尝尝惭を用いた惭耻濒迟颈-础驳别苍迟-顿别产补迟别における反论の効果に関する研究
【卒业论文】尝尝惭を用いた惭耻濒迟颈-础驳别苍迟-顿别产补迟别における反论の効果に関する研究【卒业论文】尝尝惭を用いた惭耻濒迟颈-础驳别苍迟-顿别产补迟别における反论の効果に関する研究
【卒业论文】尝尝惭を用いた惭耻濒迟颈-础驳别苍迟-顿别产补迟别における反论の効果に関する研究
harmonylab
?
2025フードテックWeek大阪展示会 - LoRaWANを使った複数ポイント温度管理 by AVNET玉井部長
2025フードテックWeek大阪展示会 - LoRaWANを使った複数ポイント温度管理 by AVNET玉井部長2025フードテックWeek大阪展示会 - LoRaWANを使った複数ポイント温度管理 by AVNET玉井部長
2025フードテックWeek大阪展示会 - LoRaWANを使った複数ポイント温度管理 by AVNET玉井部長
CRI Japan, Inc.
?
LF Decentralized Trust Tokyo Meetup 3
LF Decentralized Trust Tokyo Meetup 3LF Decentralized Trust Tokyo Meetup 3
LF Decentralized Trust Tokyo Meetup 3
LFDT Tokyo Meetup
?
実はアナタの身近にある!? Linux のチェックポイント/レストア機能 (NTT Tech Conference 2025 発表資料)
実はアナタの身近にある!? Linux のチェックポイント/レストア機能 (NTT Tech Conference 2025 発表資料)実はアナタの身近にある!? Linux のチェックポイント/レストア機能 (NTT Tech Conference 2025 発表資料)
実はアナタの身近にある!? Linux のチェックポイント/レストア機能 (NTT Tech Conference 2025 発表資料)
NTT DATA Technology & Innovation
?
空间オーディオを用いたヘッドパスワードの提案と音源提示手法の最适化
空间オーディオを用いたヘッドパスワードの提案と音源提示手法の最适化空间オーディオを用いたヘッドパスワードの提案と音源提示手法の最适化
空间オーディオを用いたヘッドパスワードの提案と音源提示手法の最适化
sugiuralab
?
【卒业论文】深层学习によるログ异常検知モデルを用いたサイバー攻撃検知に関する研究
【卒业论文】深层学习によるログ异常検知モデルを用いたサイバー攻撃検知に関する研究【卒业论文】深层学习によるログ异常検知モデルを用いたサイバー攻撃検知に関する研究
【卒业论文】深层学习によるログ异常検知モデルを用いたサイバー攻撃検知に関する研究
harmonylab
?

機械学習をこれから始める人が読んでおきたい 特徴選択の有名論文紹介

  • 2. 今回紹介する論文 ● An Introduction to Variable and Feature Selection ○ 著者:Isabelle Guyon, Andre Elisseeff ○ 投稿:Journal of Machine learning Research 3 (2003) 1157-1182 ○ 引用:16136件 (2021/03/07時点) ● 論文の内容 ○ より良いモデルを構築するための特徴選択と生成について ■ ランキング、特徴選択手法、次元削減、バリデーション ○ 3つの代表的な特徴選択手法について紹介 ■ filter, wrapper, embedded ● この動画で紹介する内容 ○ 特徴量の评価 ○ 3つの代表的な特徴選択 ○ ディープラーニングの特徴选択
  • 4. 特徴選択に取り掛かる前に 発見的なチェックリスト 1. ドメイン知識があるか → Yes: 知識を生かしたAd hocな特徴を作成 2. 特徴のスケールはそろっているか → No: 標準化 3. 特徴が相互依存している可能性があるか → No: 特徴量を組み合わせる 4. 計算コストの関係で特徴を削減する必要があるか → No: 離散化や重み付けなど 5. 特徴一つ一つを評価する必要があるか → Yes: 変数のランク付け 6. そもそも予測器は必要か → No: やめる 7. データが汚いか → Yes: 外れ値を取り除く 8. 初めに何をすべきかわかっているか → No: 線形モデル 9. 時間と計算資源、データ量が十分にあるか → Yes: 複数の特徴選択やモデルを試す 10. 安定した解法を望むか → Yes: バリデーション
  • 6. Variable ranking ● 最も単純な変数の評価方法 ● 個々の変数の予測性能を評価し、スコアの高い変数を選択 ● この結果がベースラインとなることが多い ● 学習不足になる可能性はあるが過学習しにくい (例) 目的変数によるスコアリングの種類 ● 回帰: ある変数と目的変数の相関係数 ● 分類: ある変数に閾値を設けることでどの程度予測できるか (正解率, fpr, fnr) ● どちらでも: ある変数と目的変数間の相互情報量
  • 7. 特徴量の関係を考慮: 冗長な特徴量 [疑問点 1] 冗長と見られる変数を含めたままで良いか ● 2つの変数は分布が似通っている ● 2変数を用いて45度回転させると、 (b)の分布となる ● クラス分割の境界(赤線)が得られる ● 組み合わせで変換した変数の一つで クラス分類が可能に 冗長と見られる変数でも、追加することで効果を得られる場合がある
  • 8. 特徴量の関係を考慮: 冗長と相関 [疑問点 2] 変数間の相関が高いことは冗長なのか ● 同じく冗長に見える二つの変数で、 変数間の共分散が大きい場合を考える ● (a): クラスの平均を通る直線上に分布 ● (b): その直線と直交するように分布 ● (a)は変数の和をとっても単体と変わらないが (b)では組み合わせがクラス分割を可能に 完全に相関がある場合はその変数は単体で十分だが、”高い”相関は変数選 択の上で冗長とは限らない 完全な相関 やや高い相関
  • 9. 特徴量の関係を考慮: 同時利用することで役に立つ変数 [疑問点 3] 変数単体で役に立たないからといって除外して良いか ● (a): 単体だと役に立たない変数 x1 が x2 との組み合わせで線形分離可能に ● (b): 単体で役に立たない変数 x3, x4 が 組み合わせることでXOR functionで 分類可能に x4 x3 x2 x1 x1 x2 x3 x4 単体で役に立たない変数も他の変数との組み合わせによって有用になる場 合がある
  • 11. 特徴量の部分集合を選択 ● Variable ranking は個々の変数の予測性能に基づいている ○ 特徴をいくつ選択するべきか ○ スコアが低くても組み合わせが有効なケースもあった ● 特徴の部分集合で評価する必要がある 1. Filter methods (= Variable ranking) → モデルの学習とは独立した前処理としての手法 2. Wrapper methods → モデルを用いて特徴量の部分集合を評価 3. Embedded methods → モデルの学習と同時に特徴選択 (モデルに固有)
  • 12. 1. Filter methods ● モデルの学習とは独立した処理 ● 処理が高速 ● 個々の変数と目的変数間の関係から特徴を選択 ● Wrapper, Embeddedの前処理としても用いられる 全特徴量 選択された 特徴量 モデル 評価
  • 13. 1. Filter methods ● 例) 目的変数との相関が低い特徴を排除 ● 全特徴について目的変数との相関係数を計算し、高いものから必要な 数だけ選択 ○ 閾値 (0.5以上など)を設けて選択することも可能 X1 X2 X3 X4 X5 y ... 0.8 0.9 0.2 0.3 0.6
  • 14. 2. Wrapper methods ● 特徴の部分集合を用いて学習、評価を繰り返す ● 計算コスト大 ● 探索手法 (Forward selection, Backward elimination) ● 評価用データで選択された特徴を評価 全特徴量 モデル 特徴の 部分集合 評価
  • 15. 2. Wrapper methods ● 例) Forward selection ○ 全特徴量50から30に減らしたい場合 1. 特徴量0個から初め、特徴量が1つのモデルを50個作成し検証用データ でのスコアが最大になる特徴を1つ選択 2. 未選択の特徴量から同様にスコアが最大になる特徴量を1つ選択 3. 選択済みの特徴量が30個になるまで2に戻る X1 … X50 X8 X1 … X50 X8 X1 … X50 X8 X14 X14 X37
  • 16. 3. Embedded methods ● モデルの学習と同時に特徴選択を行う ● Wrapper よりも高速 ● モデルを再学習させる必要なし 全特徴量 モデル + 評価 特徴の 部分集合
  • 17. 3. Embedded methods ● 例) Lasso回帰 ○ 線形回帰において過学習を防ぎ汎化性を高めるための手法の1つ ○ 学習の段階で不要と思われる変数の係数を0にする ○ 重要な特徴の部分集合を選択している 通常の線形回帰: Lasso回帰:
  • 19. ディープラーニングの登場 ● 従来の機械学習 ○ 特徴選択、生成は人が行う ■ 選択: 今回紹介した3つの手法 (初めは主に filter) ■ 生成: 特徴量同士の和や積、ビニングなど ○ 特徴量の質がモデルの性能を決定 ● ディープラーニング ○ 特徴量の選択、生成が不要 データ 特徴選択 生成 学習 データ 特徴抽出+学習 AI 機械学習 ディープ ラーニング
  • 20. ディープラーニングの登場 ● ディープラーニングの特徴选択 ○ “ディープ” に重ねられた層で数理的なモデルを表現し、複雑な処理を実現 ○ データに内在している特徴量を自動で抽出している ● 問題点 ○ 学習時間の増大 ○ パラメータ数が増え過学習しやすい ○ どのように特徴選択が行われているか解き明かすことが難しい ??? 入力層 出力層 中間層 (数十~層)
  • 21. まとめ ● An Introduction to Variable and Feature Selectionの紹介 ○ 特徴量の评価 ■ 特徴のランキング ■ 冗長な特徴 ■ 相関の高い特徴 ■ 他と組み合わせることで効果がでる特徴 ○ 特徴選択 ■ Filter methods ■ Wrapper methods ■ Embedded methods ● ディープラーニングでの特徴量

Editor's Notes

  • #2: 今回は機械学習をこれから始める人がよんでおきたい特徴量選択の有名論文を紹介しようと思います。 このチャンネルでは、開発や解析などの内容について発信していきます。 興味のある方がいましたらチャンネル登録よろしくお願いいたします。
  • #3: それでは、さっそく本題に入っていきましょう。 今回は、Introduction to variable and feature selectionという論文を紹介します。 2003年の論文で古いのですが、特徴量について非常によくまとまっている論文です。 引用数はなんと16136件で、今も引用は増えていっています。 これから機械学習を始める人は基礎教養として読んでおくと良いと思います。 ただ、本文だけで23ページの量があるため、ざっくりと内容を知りたい人のためにこの動画で解説します。 本格的に研究などをしたい方はぜひご自分でも読んで見てください。 この論文では、よりよい機械学習のモデルを作るための特徴選択と生成の方法と代表的な特徴量選択手法が紹介されています。 この動画では、特徴量自体の評価の方法と3つの代表的な特徴選択方法と、最後に論文とは離れて最近良く使われているディープラーニングにおける特徴選択の話をしようと思います
  • #4: まずそもそも特徴選択は何故必要となるのでしょうか。 特徴選択は大きく分けて3つの目的があります。 1つめは予測器の精度をあげること。予測精度が低いモデルよりも予測精度が高いモデルのほうがいいというのは当たり前ですね。 2つめは低コストな計算をすること。精度が高くても計算に長時間かかるようでは現実的に使えなくなります。 計算を早くするためにも特徴量選択が必要となってきます。 最後、3つめは解釈のしやすさです。 予測の精度が高くなるためにどんな特徴量が重要なのかを解釈したいときなどに重要になります。 複雑なアルゴリズムほど、解釈しにくくなる事が多いです。 特徴選択の必要性については、この3点を抑えておきましょう。
  • #5: この論文では特徴量選択の前に確認する発見的チェックリストが紹介されています。2003年のものなので現在はそのまま使えるかどうかは怪しいですが紹介します。 ドメイン知識があるか → Yes: その知識を生かして"ad hoc"な特徴を作ろう 特徴のスケールは揃っているか → No: 標準化をしよう 特徴が相互依存している可能性があるか → Yes: 特徴の組み合わせなどを試そう 計算コスト、速度の関係で特徴を切り捨てなければいけないか → No: 特徴の離散化や重み付け和などで拡張しよう 特徴一つ一つを評価する必要があるか → Yes: 変数のランク付けを行おう → もしその必要がなくてもこの方法は一つのベースラインとなる そもそも予測器は必要か → No: 今すぐやめよう データが汚いか → Yes: 変数のランクを用いて外れ値となるデータを除こう 初めに何をすべきかわかっているか → No: とりあえず線形モデルを使おう 時間と計算資源、データ量は十分にあるか → Yes: ここで紹介する特徴選択を初め、その他モデルの選択もたくさん試そう 安定した解法を望むか → Yes: バリデーションをしよう 以上、10個のチェック項目がこの論文では紹介してあります。 全部をそのまま使えるというわけではなさそうですが、一度確認してみると良いと思います。
  • #6: それではまずは特徴量の评価に入っていきましょう。 ここでは、特徴量をランク付けする話と複数の依存した特徴量の処理について解説します。
  • #7: 特徴量を評価するものとして、よく特徴量のランク付けをします。 特定の指標により特徴量をスコアリングし、スコアの高い順に選択したりします。 このスコアの高い特徴量を用いた予測のみで学習したモデルをベースラインとすることが多いです。 スコアに基づいてただ変数を減らしているだけなので、変数の不足による学習不足の可能性はあるが(バイアスが生じる)、 過学習に陥ること(バリアンスはほとんどない)少なくなるという研究もあるようです。 特徴量のランキングでは、特徴量をそれぞれ別に評価しており、特徴量同士の関係は考慮されていません。 特定の特徴量が他の特徴量に影響をうけることはよくあります。 そこで、ここからは複数の特徴量で関係性を考慮した例を3つ紹介します。
  • #8: まず最初に複数の特徴量を考えるときに出てくるのが、冗長な特徴量です。 2つの特徴量の分布が似通ってるときは冗長な特徴量を与えてしまっているように見えます。 似たような特徴量を与えても、計算量が増えるだけで予測精度の向上しないのではという疑問が出てきます。 実は、冗長と見られる変数を追加することで、ノイズの低減やよいクラスの分類が得られることがあります。 なので、単純に変数が冗長だからといって削除してしないほうが良いということになります。
  • #9: 冗長というと相関の話をしないといけません。 高い相関をもつ変数を追加した場合はどうなるでしょうか。 完全に相関がある変数を追加した場合は、新しく完全に相関した変数を変数を追加する意味はありません。 一方で相関が高い変数を追加した場合は、クラス分割を有効にすることもあります。 この場合でも、全く完全相関する変数でない限りは、学習に使う特徴量の候補として残しておきましょう。
  • #10: 特徴量の関係を考慮することの最後の例を紹介します。 変数単体では役に立たないが、他の変数と組み合わせて使うことで役に立つようになる変数も存在します。 単体では分類に役に立たないが他と合わせると分類しやすくなるというのは線形分離でも分かりやすい例が考えつくと思います。 なので、単体で分類に役に立たないからと言って、この変数も安易に取り除くことができないということになります。
  • #11: ここまで変数のランキングや、変数の関係考慮した例などについて紹介しました。 ここからは、具体的に特徴選択で使われる3つの手法について紹介します。
  • #12: 先程、機械学習に使う特徴量を選択するということは、予測精度を上げたり、学習速度を上げたり、解釈をしやすくするために必要というお話をしました。 しかし、特徴選択をやるにしてもどのように特徴選択をするかが難しいです。 特徴選択は大きく分けて3つの手法、Filter methods, Wrapper methods, Embedded methodsに分けることができます。 Filter methodsはモデルと独立した前処理となり、先程紹介したランキングを用いた変数の選択となります。 Wrapper methodsはモデルを実際に用いて、特徴量の部分集合を評価することで特徴量を選択していきます。 Embedded methodsはモデルの学習と同時に特徴を選択するモデル固有のものとなってきます。 それぞれについて説明していきます。
  • #13: まずはFilter methodsです。 Filter methodsはモデルとは独立した処理で、高速に選択ができるという利点があります。 よくやるやり方としては、それぞれの変数と目的変数の関係を用いて特徴量を選択していきます。 ただし、特徴量の関係を考慮するところで話したように、他の特徴量との組み合わせで有用になるような特徴もあったりします。
  • #14: Filter methodsの例を一つ紹介します。 ここでは目的変数と相関が高い特徴のみを残し、相関が低い特徴を排除します。 適当な閾値を設けることで、学習に使う特徴を少なくすることが可能になります。 特徴量の解釈をするときに、filter methodsで特徴を減らしておくと解釈しやすくなることもあります。 ただし、何度もここまで言っていますが、このような削り方をしてしまうと本当は予測に聞いていた特徴を意図せず取り除いてしまうことがあります。。
  • #15: 次にWrapper methodsを紹介します。 Wrapper methodsでは特徴の部分集合を使って学習を実施し、精度が良かった特徴の組み合わせを使っていきます。 Wrapper methodsは特徴量を組み合わせて実施するので計算量が爆発するように思えるかもしれません。 特徴の組み合わせの作り方は様々な方法があります。 例えば、主に特徴を徐々に増やして評価するforward selectionと、全特徴から特徴を徐々に減らしていくbackward eliminationの2つがあります。 forward selectionはbackward eliminationに比べて低コストでよい特徴の集合を見つけられます。 一方で、forward selectionは組み合わせによって効果を発揮する特徴量を見逃す可能性もります。 Wrapper methodsでの特徴選択では他には遺伝的アルゴリズムを用いたものなどもあります。
  • #16: ここでは簡単にforward selectionについて紹介します。 元々の特徴量が50個あるものを30小に減らしたい場合、初めに特徴量が1つのモデルを50作成し、スコアが最大となる特徴を選択します。 次に、さきほど選択した特徴に加えて、もう一つ特徴を加えてモデルを作成し、スコアが最大となった特徴のみを残します。 これを繰り返すことによって、30個の特徴の組み合わせを作成します。 スコアの設定の仕方としては、回帰の場合は決定係数を使ったりします。
  • #17: 最後にEmbedded methodsについて紹介します。 Embedded methodsはモデルの学習と同時に特徴選択を行っていきます。 特徴の選択の仕方などはモデルに依存します。 特徴量を増減したときに再度学習を走らせる必要がないため、Wrapper methodsよりも高速に特徴選択をできます。 Lasso回帰や決定木のアルゴリズムなどがEmbedded methodsを使用したアルゴリズムとして有名です。
  • #18: 例えば、Lasso回帰では重要でない特徴量の係数をゼロとして閉まって計算から省く性質があります。 このようにアルゴリズムの中で特徴量を選択しているのをEmbedded methodsと言います。 wrapper methodsと区別がつきにくいかもしれませんが、アルゴリズムの中で選択しているのかアルゴリズムの外で選択しているのかで区別してみるといいと思います。 この論文には、他にもバリデーションの話など色々書かれていますので、この動画を見て興味が出た方はぜひ読んでみてください。 古い論文ではありますが、機械学習をやっていくための基礎的な知識を手に入れるのに非常によい論文だと思います。
  • #19: ここまで论文の绍介をしていたのですが、やはりみなさんディープラーニングではどうなっているか気になると思うので、论文の内容とは离れてしまうのですが、简単にディープラーニングに置ける特徴选択についてもお话しします。
  • #20: 従来の機械学習では、論文に書いてあったような特徴の選択および特徴自体の生成を人間が行っていました。 特徴選択に関しては、おもにfilter methods, wrapper methods, embedded methodsの3つを特徴量の生成に関しては、特徴量同士から生成したりビニングをしたりしていました。 そして、特徴量の質がモデルの性能に大きな影響を与えていました。 しかし、ディープラーニングでは、この特徴量の選択?生成がいらなくなっています。 この論文を読んで、特徴量の選択だけでもめんどくさいと思った人は、それだったらディープラーニングでいいのではと思うかもしれません。 しかし、ディープラーニングはディープラーニングで別の問題が存在します。
  • #21: ディープラーニングでは、ディープに重ねられた層で数理的なモデルを表現し、複雑な処理を実現することができます。 これによって、データに内在している特徴量を自動で抽出しています。 しかし、この層によって学習時間の増大やパラメータ数が増えて過学習しやすかったりします。 過学習に関しては、dropoutなど過学習を防ぐ手法も出ていたり、過学習を更にすすめると精度向上するというような発見もされたりしています。 これらに関してはこのチャンネルで将来的に扱っていこうかと思います。
  • #22: まとめです。 今回はAn introduction to Variable and Feature Selectionの紹介をしました。 特徴量をランキングすることで削減する方法や、冗長な特徴などの重要性などについてお話ししました。 また、単体では無意味ではあるが他の特徴と組み合わせることで意味が出てくる特徴のお話もしました。 特徴選択としては、前処理として実行するfilter methodsと特徴を組み合わせて学習し、よい特徴の組み合わせを決めるWrapper methods、最後にアルゴリズム内で特徴選択をおこなうEmbedded methodsについて紹介しました。 また、論文とは別の話にはなったのですが、特徴選択と生成が必要なくなってきているディープラーニングの世界について少しだけお話ししました。 このチャンネルでは、このような解析関連の話だけでなく、解析技術を実用化していくために開発の話もしていきます。 今回の動画がもしためになりましたら、高評価とチャンネル登録をよろしくお願いいたします。