狠狠撸

狠狠撸Share a Scribd company logo
1 KYOTO UNIVERSITY
KYOTO UNIVERSITY
DEPARTMENT OF INTELLIGENCE SCIENCE
AND TECHNOLOGY
機械学習と予測モデルコンペティション
京都大学 情報学研究科 知能情報学専攻
鹿島 久嗣
2 KYOTO UNIVERSITY
? “人工知能” の成功:
– クイズ王に勝利した質問応答システム
– プロ棋士に勝利したコンピュータ将棋?囲碁
? 今回の“人工知能”ブームは機械学習に支えられている
– とりわけ深層学習がブームを牽引
機械学習の躍進:
“人工知能”の成功を支えるコア技術
3 KYOTO UNIVERSITY
? 機械学習とは、もともと
「人間のもつ?学習能力?を機械(計算機)にも持たせる」
ことを目指す人工知能の一研究分野
? 近年では、「統計的」機械学習が主流
– 遺伝子情報処理、自然言語処理他、ビジネス分野での成功
– データ解析技術一般を指すほかの領域との境は曖昧
? 深層学習の大ブレーク
– 機械学習≒深層学習≒人工知能??
機械学習とは何か:
機械学習はデータ解析の一分野
4 KYOTO UNIVERSITY
? データ解析手法の大別:予測と発見
– 予測:「これから何が起こるのか?」 ≒ 教師つき学習
? 過去~現在のデータをもとに、将来のデータについての予測
をおこなう
– 発見:「いま何が起きているのか?」 ≒ 教師なし学習
? 過去~現在のデータをもとに、何らかの知見を得る
機械学習には何ができるか:
予測と発見
5 KYOTO UNIVERSITY
? マーケティング
– 商品推薦
– Web上の評判分析
– Web広告の最適化
? 金融
– 信用リスク評価
– 不正検出
? サイエンス
– 遺伝子予測(バイオ)
– 新規材料開発(材料)
機械学習の様々な応用:
オンラインショッピングからシステム監視まで
? Web
– 検索
– スパム判定
– SNS
? ヘルスケア
– 医療診断
? マルチメディア
– 音声?画像認識
? システム監視
– 故障?異常検知
6 KYOTO UNIVERSITY
? 進む機械学習の社会実装
– 不確定で膨大なデータに対応する方法論が進展
– ブラックボックス?ツールが整備
? IT分野に限らず、様々な分野への応用が検討されている
– ヘルスケア、航空、自動車、バイオ、製薬、材料科学、…
非IT系分野への広がり:
機械学習は社会実装フェーズ
7 KYOTO UNIVERSITY
? 機械学習等によるデータの自動解析は、しばしばデータ解析の中
心として捉えられる
? データ解析全体のプロセスは、その大部分が人間に依存する
データ解析の労働集約性:
データ解析プロセスの大部分が人間に依存
データ収集 データ統合
クレンジング
注釈 視覚化
モデル化
評価/解釈
電子化
データ解析のプロセス
大部分が
属人的?労働集約的
データ化(データフィケーション) データ分析(アナリティクス)
8 KYOTO UNIVERSITY
? 「2015年までに、ビッグデータ需要により創出される雇用機会は
世界で440万人に達するが、実際に採用につながるのは3分の1
のみにとどまる」(ガートナー)
? 「データサイエンティストは、21世紀でもっとも?セクシー?な職業」
(ハーバード?ビジネス?レビュー)
? これらの?煽り?はデータ解析の労働集約性の高さを示している
データサイエンティストの不足:
データ解析の属人性の象徴
9 KYOTO UNIVERSITY
? クラウドソーシングとは:
「(インターネットを通じて)不特定多数の人に仕事を
依頼すること、もしくはその仕組み」
? クラウドソーシングのメリット:群衆の叡智にアクセス
(「三人寄れば文殊の知恵」)
? Foldit:タンパク質の立体構造予測
– オンラインゲームの形で実現
クラウドソーシングの登場:
みんなの力を合わせて目標を達成
※ クラウドソーシング ≠ クラウドコンピューティング
10 KYOTO UNIVERSITY
クラウドソーシングによるデータ解析:
知識とスキルを集結してデータ解析を実現
データ収集 データ統合
クレンジング
注釈 視覚化
モデル化
評価/解釈
電子化
データ解析のプロセス
データ化(データフィケーション) データ分析(アナリティクス)
クラウドソーシングによる
プロセス実行
11 KYOTO UNIVERSITY
? 自動化の進むモデリング部分も実は労働集約的
–“No free lunch”定理: どんな場合でもうまくいく方法はない
–しばしば、結果を大きく左右するのは、既存の手法の選択+
データ固有のヒューリスティクス(特徴量、サンプル選択など)
? データに合ったモデルを(人手で)広範囲に探索する必要がある
? データ解析コンペティション:モデリングのクラウドソーシング
–データを公開し、結果(予測精度)を競う
クラウドソーシングによる予測モデリング:
予測コンペティションによる網羅的なモデル探索
12 KYOTO UNIVERSITY
? Wikipediaのリンク予測を題材にしたコンペティションを開催
? 短期間で?プロ? を遥かに超える予測精度を達成
–初期分析結果を4日目で抜き、最終的に20%以上の精度向上
予測コンペティションの威力:
短期間で?プロ?を超える精度を実現
初期分析の
予測精度
4日で
抜き去られる
20%以上の
精度向上
予測精度
Baba et al. Crowdsourced Data Analytics. In DSAA 2014.
13 KYOTO UNIVERSITY
? :教育用途コンペプラットフォーム
–データ解析の実践を通じた、データ解析教育を目的に開発
–大学講義?演習、企業内研修での利用も
? 現在約400名が参加登録
? 10を超えるコンペティションを開催
ビッグデータ大学:
実践を通じたデータ解析教育のためのプラットフォーム
14 KYOTO UNIVERSITY
? コンペティションの流れ:
1. 訓練データ(正解付き)とテストデータの公開
2. テストデータに対する予測の提出
3. 期間終了後、テストデータに対する予測精度で順位決定
? リーダーボード:
中間評価用データ(テストデータの一部)に対する順位を公開
コンペティションの仕組み:
テストデータに対する予測精度で勝者を決定
データ公開
予測提出 y=f(x)
最終結果
データ提供者
参加者
数週間~
数か月
15 KYOTO UNIVERSITY
予測精度の評価(イメージ):
正解を隠したテストデータで予測の良さを評価
入力
(配列)
正解
GATTAT ○
ATGCTC ×
CGTGAT ×
CACTTA ○
モデル作成 モデル適用
入力
(配列)
予測
正解
(非公開)
AAAAA ○ ○
TATATA × ×
GTACTA × ×
クロマチン特徴領域が
含まれるか否か
訓練データ テストデータ
予測と正解の一致率で評価
入力
(配列)
予測
正解
(非公開)
AAAAA ○ ○
TATATA × ×
GTACTA × ×
入力
(配列)
予測
正解
(非公開)
AAAAA ○
TATATA ×
GTACTA ×
入力
(配列)
予測
正解
(非公開)
AAAAA
TATATA
GTACTA
16 KYOTO UNIVERSITY
より具体的な予測精度の評価:
予測の自信度を提出?正解との相関(AUC)で評価
入力
(配列)
正解
GATTAT ○
ATGCTC ×
CGTGAT ×
CACTTA ○
モデル作成 モデル適用
入力
(配列)
予測
正解
(非公開)
AAAAA ○ ○
TATATA × ×
GTACTA × ×
訓練データ テストデータ
予測と正解の相関(AUC)
で評価
入力
(配列)
予測
正解
(非公開)
AAAAA 0.9 ○
TATATA 0.3 ×
GTACTA 0.2 ×
クロマチン特徴領域が
含まれる自信度
17 KYOTO UNIVERSITY
さらに今回のチャレンジは複数ラベルの予測:
複数のラベルそれぞれに自信度を提出
入力
(配列)
正解
条件1 … 条件8
GATTAT ○ … ×
ATGCTC × … ○
CGTGAT × … ×
CACTTA ○ … ×
訓練データ テストデータ
入力
(配列)
正解
条件1 … 条件8
AAAAA 0.9 … 0.1
TATATA 0.3 … 0.8
GTACTA 0.2 … 0.4
8条件それぞれに対する
正解
8条件それぞれに対する
予測(自信度)
18 KYOTO UNIVERSITY
アカウント作成http://universityofbigdata.net
19 KYOTO UNIVERSITY
今回のチャレンジ
20 KYOTO UNIVERSITY
データをダウンロード
いくつかの規約
に同意
データファイルの
説明
21 KYOTO UNIVERSITY
テストデータへの予測
ファイルを提出
(1日3回まで)
現在の順位
(テストデータの一部で算出)
22 KYOTO UNIVERSITY
最終順位
(テストデータ全部で算出)
チャレンジ終了時
23 KYOTO UNIVERSITY
? 広がる機械学習の応用
? コンペティション形式で実際の解析を通じた学習
「DNA配列からのクロマチン特徴予測」
? みんなの力で「専門家」を超える
? コンペティション参加者は
–遺伝研のスーパーコンピュータ
–MATLAB
が利用可能
まとめ:
機械学習と予測モデリングコンペティション

More Related Content

[DDBJ Challenge 2016] 機械学習と予測モデルコンペティション

  • 1. 1 KYOTO UNIVERSITY KYOTO UNIVERSITY DEPARTMENT OF INTELLIGENCE SCIENCE AND TECHNOLOGY 機械学習と予測モデルコンペティション 京都大学 情報学研究科 知能情報学専攻 鹿島 久嗣
  • 2. 2 KYOTO UNIVERSITY ? “人工知能” の成功: – クイズ王に勝利した質問応答システム – プロ棋士に勝利したコンピュータ将棋?囲碁 ? 今回の“人工知能”ブームは機械学習に支えられている – とりわけ深層学習がブームを牽引 機械学習の躍進: “人工知能”の成功を支えるコア技術
  • 3. 3 KYOTO UNIVERSITY ? 機械学習とは、もともと 「人間のもつ?学習能力?を機械(計算機)にも持たせる」 ことを目指す人工知能の一研究分野 ? 近年では、「統計的」機械学習が主流 – 遺伝子情報処理、自然言語処理他、ビジネス分野での成功 – データ解析技術一般を指すほかの領域との境は曖昧 ? 深層学習の大ブレーク – 機械学習≒深層学習≒人工知能?? 機械学習とは何か: 機械学習はデータ解析の一分野
  • 4. 4 KYOTO UNIVERSITY ? データ解析手法の大別:予測と発見 – 予測:「これから何が起こるのか?」 ≒ 教師つき学習 ? 過去~現在のデータをもとに、将来のデータについての予測 をおこなう – 発見:「いま何が起きているのか?」 ≒ 教師なし学習 ? 過去~現在のデータをもとに、何らかの知見を得る 機械学習には何ができるか: 予測と発見
  • 5. 5 KYOTO UNIVERSITY ? マーケティング – 商品推薦 – Web上の評判分析 – Web広告の最適化 ? 金融 – 信用リスク評価 – 不正検出 ? サイエンス – 遺伝子予測(バイオ) – 新規材料開発(材料) 機械学習の様々な応用: オンラインショッピングからシステム監視まで ? Web – 検索 – スパム判定 – SNS ? ヘルスケア – 医療診断 ? マルチメディア – 音声?画像認識 ? システム監視 – 故障?異常検知
  • 6. 6 KYOTO UNIVERSITY ? 進む機械学習の社会実装 – 不確定で膨大なデータに対応する方法論が進展 – ブラックボックス?ツールが整備 ? IT分野に限らず、様々な分野への応用が検討されている – ヘルスケア、航空、自動車、バイオ、製薬、材料科学、… 非IT系分野への広がり: 機械学習は社会実装フェーズ
  • 7. 7 KYOTO UNIVERSITY ? 機械学習等によるデータの自動解析は、しばしばデータ解析の中 心として捉えられる ? データ解析全体のプロセスは、その大部分が人間に依存する データ解析の労働集約性: データ解析プロセスの大部分が人間に依存 データ収集 データ統合 クレンジング 注釈 視覚化 モデル化 評価/解釈 電子化 データ解析のプロセス 大部分が 属人的?労働集約的 データ化(データフィケーション) データ分析(アナリティクス)
  • 8. 8 KYOTO UNIVERSITY ? 「2015年までに、ビッグデータ需要により創出される雇用機会は 世界で440万人に達するが、実際に採用につながるのは3分の1 のみにとどまる」(ガートナー) ? 「データサイエンティストは、21世紀でもっとも?セクシー?な職業」 (ハーバード?ビジネス?レビュー) ? これらの?煽り?はデータ解析の労働集約性の高さを示している データサイエンティストの不足: データ解析の属人性の象徴
  • 9. 9 KYOTO UNIVERSITY ? クラウドソーシングとは: 「(インターネットを通じて)不特定多数の人に仕事を 依頼すること、もしくはその仕組み」 ? クラウドソーシングのメリット:群衆の叡智にアクセス (「三人寄れば文殊の知恵」) ? Foldit:タンパク質の立体構造予測 – オンラインゲームの形で実現 クラウドソーシングの登場: みんなの力を合わせて目標を達成 ※ クラウドソーシング ≠ クラウドコンピューティング
  • 10. 10 KYOTO UNIVERSITY クラウドソーシングによるデータ解析: 知識とスキルを集結してデータ解析を実現 データ収集 データ統合 クレンジング 注釈 視覚化 モデル化 評価/解釈 電子化 データ解析のプロセス データ化(データフィケーション) データ分析(アナリティクス) クラウドソーシングによる プロセス実行
  • 11. 11 KYOTO UNIVERSITY ? 自動化の進むモデリング部分も実は労働集約的 –“No free lunch”定理: どんな場合でもうまくいく方法はない –しばしば、結果を大きく左右するのは、既存の手法の選択+ データ固有のヒューリスティクス(特徴量、サンプル選択など) ? データに合ったモデルを(人手で)広範囲に探索する必要がある ? データ解析コンペティション:モデリングのクラウドソーシング –データを公開し、結果(予測精度)を競う クラウドソーシングによる予測モデリング: 予測コンペティションによる網羅的なモデル探索
  • 12. 12 KYOTO UNIVERSITY ? Wikipediaのリンク予測を題材にしたコンペティションを開催 ? 短期間で?プロ? を遥かに超える予測精度を達成 –初期分析結果を4日目で抜き、最終的に20%以上の精度向上 予測コンペティションの威力: 短期間で?プロ?を超える精度を実現 初期分析の 予測精度 4日で 抜き去られる 20%以上の 精度向上 予測精度 Baba et al. Crowdsourced Data Analytics. In DSAA 2014.
  • 13. 13 KYOTO UNIVERSITY ? :教育用途コンペプラットフォーム –データ解析の実践を通じた、データ解析教育を目的に開発 –大学講義?演習、企業内研修での利用も ? 現在約400名が参加登録 ? 10を超えるコンペティションを開催 ビッグデータ大学: 実践を通じたデータ解析教育のためのプラットフォーム
  • 14. 14 KYOTO UNIVERSITY ? コンペティションの流れ: 1. 訓練データ(正解付き)とテストデータの公開 2. テストデータに対する予測の提出 3. 期間終了後、テストデータに対する予測精度で順位決定 ? リーダーボード: 中間評価用データ(テストデータの一部)に対する順位を公開 コンペティションの仕組み: テストデータに対する予測精度で勝者を決定 データ公開 予測提出 y=f(x) 最終結果 データ提供者 参加者 数週間~ 数か月
  • 15. 15 KYOTO UNIVERSITY 予測精度の評価(イメージ): 正解を隠したテストデータで予測の良さを評価 入力 (配列) 正解 GATTAT ○ ATGCTC × CGTGAT × CACTTA ○ モデル作成 モデル適用 入力 (配列) 予測 正解 (非公開) AAAAA ○ ○ TATATA × × GTACTA × × クロマチン特徴領域が 含まれるか否か 訓練データ テストデータ 予測と正解の一致率で評価 入力 (配列) 予測 正解 (非公開) AAAAA ○ ○ TATATA × × GTACTA × × 入力 (配列) 予測 正解 (非公開) AAAAA ○ TATATA × GTACTA × 入力 (配列) 予測 正解 (非公開) AAAAA TATATA GTACTA
  • 16. 16 KYOTO UNIVERSITY より具体的な予測精度の評価: 予測の自信度を提出?正解との相関(AUC)で評価 入力 (配列) 正解 GATTAT ○ ATGCTC × CGTGAT × CACTTA ○ モデル作成 モデル適用 入力 (配列) 予測 正解 (非公開) AAAAA ○ ○ TATATA × × GTACTA × × 訓練データ テストデータ 予測と正解の相関(AUC) で評価 入力 (配列) 予測 正解 (非公開) AAAAA 0.9 ○ TATATA 0.3 × GTACTA 0.2 × クロマチン特徴領域が 含まれる自信度
  • 17. 17 KYOTO UNIVERSITY さらに今回のチャレンジは複数ラベルの予測: 複数のラベルそれぞれに自信度を提出 入力 (配列) 正解 条件1 … 条件8 GATTAT ○ … × ATGCTC × … ○ CGTGAT × … × CACTTA ○ … × 訓練データ テストデータ 入力 (配列) 正解 条件1 … 条件8 AAAAA 0.9 … 0.1 TATATA 0.3 … 0.8 GTACTA 0.2 … 0.4 8条件それぞれに対する 正解 8条件それぞれに対する 予測(自信度)
  • 23. 23 KYOTO UNIVERSITY ? 広がる機械学習の応用 ? コンペティション形式で実際の解析を通じた学習 「DNA配列からのクロマチン特徴予測」 ? みんなの力で「専門家」を超える ? コンペティション参加者は –遺伝研のスーパーコンピュータ –MATLAB が利用可能 まとめ: 機械学習と予測モデリングコンペティション