狠狠撸

狠狠撸Share a Scribd company logo
要因に基づく機械学習分析ツールPADOC
2020/07/03 mabo
1
? 2000年1月 機械学習のコンサル会社に入社
? 20年間機械学習ビジネスに関わる
? 産業技術大学院大学(AIIT) 研究員
? 産業技術総合研究所(AIST) 研究員
自己紹介
2
?機械学習の定義 ? 将来データで予測を当てること
?ビジネスでの機械学習の要件 ? 説明性と頑健性
本スライドでは上記を満たすため以下を示す
1.分析対象によって手法が異なる
2.ビジネスでの機械学習では以下が求められる
1.要因に基づく機械学習
2.共変量シフト(要因の分布変化)に対処
3.業務知識の獲得と膨大な前処理
4.Python以外の処理言語
3.ビジネス用の機械学習???Padoc/Statの提供
目的
3
1. 機械学習の定義
2. データ種類と機械学習
1. データ種類と将来データの変動
2. データ種類と要因分析
3. データ種類と前処理
4. データ種類と処理言語
3. ビジネス機械学習の要求されること
1. 指標
2. パターン認識モデルの併用
4. PADOCの統合環境
1. PADOCの前処理
2. PADOCの文字と数値の混合分析
3. 多様な分析モデル
5. PADOCのHands-On
目次
4
機械学習の定義:将来データで予測を当てること
?機械学習 wikipediaの定義:訓練データから学んだ「既知」の特徴に基づく予測
?Google (GCP)での定義 :将来の予測を当てることである
残念ながら将来データは学習時点では未知
しかし将来データの変動はデータ種類によって異なる
1.機械学習の定義
5
例
データの種類
自然から観測 記録データ ビジネス?データ
画像 音声 言語 販売 ログ 故障記録 在庫 入出金 顧客管理
将来データ 殆ど変化しない
雑音
長いトレンドで変化
景気で敏感に変化
データの種類と将来データの変動
2.1 データ種類とデータの変動
6
データ種類毎に異なる手法が必要
例
データの種類
自然から観測 記録データ ビジネス?データ
画像 音声 言語 販売 ログ 故障記録 在庫 入出金 顧客管理
将来データ 殆ど変化しない
雑音が多く
長いトレンドで変化
景気や施策に変動
学習データに依存 学習データに依存 変動要因を分析
パターン認識 パターン認識
要因に基づく
機械学習
2.2 データ種類と手(1)
7
手法
データの種類
自然から観測 記録データ ビジネス?データ
画像 音声 言語 販売 ログ 故障記録 在庫 入出金 顧客管理
将来データ 殆ど変化しない
雑音が多く
長いトレンドで変化
景気や施策で変化
パターン
認識
深層学習?AI 協調???? 異常検出 劣化が著しい
要因に基づく
機械学習
要因は不要 要因は不明
特徴量の線形和
共変量シフトで対処
将来データの変動と手法(まとめ)
2.2 データ種類と手法(2)
8
2.2 データ種類と手法(3)
将来データの変動で共変量シフトの観測
(要因の分布が学習時と相違)
? 共変量シフト無し 対処不要
? 共変量シフト有り
? 要因と予測が連動(上図)
対処不要
殆どは連動が観測される(頑健)
? 要因と予測が非連動(下図)
1.再学習
2.共変量シフトの補正
9
手法と指標
データの種類
自然から観測 記録データ ビジネス?データ
画像 音声 言
語
販売 ログ 故障記録 在庫 入出金 顧客管理
手法 パターン認識 パターン認識 要因に基づく機械学習
要求される指標 高精度 高精度 説明性と頑健性
ビジネスの要件:安心して投資
説明性と頑健性
機械学習のガイドライン(総務省)
2.3 データ種類と要求される指標
10
手段
データの種類
自然から観測 記録データ ビジネス?データ
画像 音声 言語 販売 ログ 故障記録 在庫 入出金 顧客管理
要求される指標 高精度 高精度 説明性と精度の維持
データ解釈 解釈不能 要因データが少ない 業務知識
データ型 数値 数値 文字と数値
欠損 OK OK NG
要因分析 不要 不可能 可能
データの種類と要因分析
2.4 データ種類と要因分析
11
手段
データの種類
自然から観測 記録データ ビジネス?データ
画像 音声 言語 販売数 ログ 故障記録 在庫 入出金 顧客管理
データ
入手先
観測 モニタリング 記録 モニタリング 大規模DB
データ解釈 解釈不能 要因データが少ない 業務知識
前処理 コード化
データ空間が莫大
次元圧縮が必要
莫大な
前処理作業
データ種類と前処理
2.5 データ種類と前処理
12
手段
データの種類
自然から観測 記録データ ビジネス?データ
画像 音声 言語 販売数 ログ 故障記録 在庫 入出金 顧客管理
前処理 コード化 次元圧縮 莫大な前処理作業
データ値 数値 数値 文字と数値
手法 パターン認識 パターン認識 要因による機械学習
処理言語 python python pythonでは困難
データ種類によって適切な処理言語が異なる
PADOCの提供
2.6 データ種類と処理言語
13
安心して投資できるモデルであること
1.結果の説明性(総務省の機械学習のガイドライン)
?○ 要因による機械学習は説明が容易
?× パターン認識は結果の説明が困難
2.将来データでの精度(頑健性)
?〇 要因による機械学習は共変動シフトがあっても頑健
?× パターン認識は将来データの変動を考えていない
3. 業務知識による前処理
? × 要因による機械学習は膨大な前処理が必要
? ○ パター認識は業務知識を必要としない
3.ビジネス機械学習に要求されること
14
? 要因に基づく機械学習の限界
? 人間が認識できないパターンの補足はできない
? パター認識モデルの併用による補強
? クラスターの発見?原因の把握?モデル改善
低確率←要因に基づくモデルの結果→高確率
低確率
↑
パター
ン認識
↓
高確率
クラスター
クラスター
複合モデルの分布状態
要因モデル 低
?????認識 高
人間が認識
できない?????
3 ビジネス機械学習に要求されること(2)
15
説明責任
説明可能性
16
1.データ編集と分析を繰返し
精度を向上させる環境
1.データ編集
2.分析
3.結果表示
2.簡単なコマンドでの編集②
3.実行結果の表示③
4.編集結果の表示④
5.分析結果の表示⑤
①
②
③
④ ⑤
実行アイコ
ン
データの前処理を容易にする統合環境を提供
4. PADOC 統合環境
17
実行アイコン
4.1 PADOC 統合環境(拡大図)
18
(例)
ローン破綻と関係が高い項目
のランキングと分布表示
ローン破綻と関係が強い上位3項目
1. home(持ち家状態)
2. amount(ローン金額)
3. mon(貸出し期間)
持ち家状態(home)の分布では
賃貸や借家などの流動性が高い先
の破綻率が高い
(全体の関係を俯瞰)
AIC表は分析対象と他の項目との
関係の強さをランキング表示
4.2 PADOC 文字と数値の混在分析
19
判別木は文字と数値混在で分析(全体の要因関係の俯瞰)
世帯プロファイル別のマンション購入希望価格(百万円)
4.2 PADOC 文字と数値の混在分析
20
Cox Hazard3Dの重回帰結果
SVM
ガウス過程回帰カーネル回帰
最短経路問題
ベイジアンネット
共分散構造分析(SEM)ガウス構造(GGM)
4.3 PADOC 多様な分析モデル
21
警告が出るが
実行する
5.PadocのHands On (Download)
22
ローン情報
顧客コード(複数)
個人コード
サマリー
顧客コード
個人コード
summary
個人データ
個人コード
家族コード
家族データ
家族コード
統合情報
顧客コード
個人コード
家族コード
ローン破綻情報
顧客コード
分析データ
金額 返済
年齢 年収
破綻
変数加工
merge merge
感応度
分析
変数選択
5.1 PADOCのHands On(判別木)
23
Kaggleデータの
読込み
価格の平均
より上のフラグ
住宅価格の
分布
感応度
分析
変数選択
予測
モデル
5.2 PADOCのHands On(回帰木)
24

More Related Content

Factor analysis for ml by padoc 6 r