狠狠撸

COPYRIGHT 2019 INFORMATION SERVICES INTERNATIONAL - DENTSU, LTD. ALL RIGHTS RESERVED.
0
BERTによる文書系AIの取り組みと、
Azureを用いたテーブルデータの説明性実現！
（株）電通国際情報サービス（通称、ISID）
クロスイノベーション本部 AIテクノロジー部小川雄太郎
DLLAB Engineer Days Day2: Conference
19年10月07日 14:30-15:00@東京コンファレンスセンター?品川

1
本発表の内容
01 簡単に会社と自己紹介
02 表形式データでのAzure Automated MLとExplainer
03 ISIDにおけるテキストデータ説明性技術の開発を紹介
04 おわりに

簡単に会社と自己紹介
Section
01
2

株式会社電通
3
1975年に創業
電通グループのIT集団（SIer）
General Electric
Company（GE）
電通国際情報サービス（ISID）

4
自己紹介の前に、皆様に質問
1. クラウドサービスを使用したことがある方？
2. Azureを使用したことがある方？
3. Azure MLサービスを使用したことがある方？
4. Azure Automated MLを使用したことがある方？

5
所属：電通国際情報サービス
クロスイノベーション本部?AIテクノロジー部
兼職：早稲田大学非常勤講師、日本ディープラーニング協会委員
経歴：明石高専、東京大学工学部、東京大学新領域創成科学研究科
博士課程を卒業。脳科学の分野にて博士号（科学）を取得
出版：深層強化学習やPyTorchによる発展ディープラーニング本など
詳細：https://github.com/YutaroOgawa/about_me
小川雄太郎（おがわゆうたろう）

表形式データでの
Azure Automated MLとExplainer
Section
02
6

7
表形式データ、時系列データ※に対して自動で機械学習モデルを構築
Azure Automated ML
https://docs.microsoft.com/ja-jp/azure/machine-learning/service/concept-automated-ml

8
表形式データ※に対するモデルと推論結果に解釈性と説明性を与える機能
（アルゴリズムはSHAP[1]）
Azure Explainer
https://docs.microsoft.com/ja-jp/azure/machine-learning/service/machine-learning-interpretability-explainability
※後ほど
動画デモで詳細解説

9
Azure Explainer
解釈性（Interpretability）と説明性（Explainability）の定義
「AIプロダクト品質保証ガイドラインAI4Q」[2]を参考に
●解釈性：アルゴリズムが予測に至るために用いるプロセスを人間が
どれだけ簡単に理解しやすいかを示す（例：決定木は解釈性が高い）
●説明性：とある推論結果において、入力したデータの各説明変数が
予測結果にどの程度影響を与えたのかなどを示す
表形式データ※に対するモデルと推論結果に解釈性と説明性を与える機能

10
表形式データ：Azure Automated MLとExplainer
Azure AutoMLで自動で良いモデルを作らせ、Explainerで機械学
習モデルのブラックボックス性を緩和できたら、良い感じでは？
↓
よし、タイタニック?データでやってみよう
↓
問題に直面（次ページへ）

11
タイタニック?データは例えば以下のような変数を持つ
- 目的変数：生存（1）
- 性別：女性
- 年齢：58才
- 兄弟、配偶者の同乗者数：０
- 両親、子供の同乗者数：０
- 部屋の階級：1
- 乗船した港：Cherbourg
- 乗船料金：146.52
「カテゴリカルデータ」

12
カテゴリカルデータに対する、通常の機械学習の前処理
乗船港
2
3
乗船港
B港
C港
乗船港
A
乗船港
B
乗船港
C
乗船港
Null
0 1 0 0
0 0 1 0
欠損値
処理
One-Hot Encoding
One-Hot Encodingした後のデータを使うと、One-Hotの制限が無視
されるため、説明性が変になる???
One-Hot 前の変数で説明性が欲しい

13
解決手法（のひとつ）を紹介
① 多重共線性処理と欠損値処理を事前に行う
② 変数の型を修正
③ One-Hot Encodingを実施
④ Automated MLに、③までを実施したデータを投入
⑤ Explainerに、②までの訓練?テストデータと、④で得た学習済み
モデルを投入。 Explainerの引数transformationsに③One-Hot
Encoding処理をscikitlearnのColumnTransformer形式で与える

14
さらなる詳細は、「タイタニックデータでのAzure Automated MLと
Azure Explainerの実装コード」として、
https://github.com/YutaroOgawa/my_azure
で公開しています。
（次ページ：動画デモ）

15
タイタニックデータでのAzure Automated MLとExplainerの動画デモ
（2倍速再生、6分30秒） ※動画は公開されておりません

ISIDにおけるテキストデータ説明性
技術の開発を紹介
Section
03
16

17
BERTによる文書系AIの取り組み
実現したいこと
テキストデータの教師あり学習において、テストデータを推論した際に、
なぜそのクラスと推論されたのか、説明性を与えたい。
そこでテストデータと最もよく似ている訓練データを示し、説明する。
「このテストデータは訓練データのこちらとよく似ているのでクラス●
と推論されたのです」作戦

18
手法の概要
BERT[3]を使用したテキスト分類モデルをファインチューニングで学習。
influence[4]を使用して、推論するテストデータとよく似た訓練データ
を探す。

19
BERTとは：自然言語処理のディープラーニングモデルです
詳細は拙著をご覧ください、実装しながら解説しています
PyTorchによる発展ディープラーニング
第1章：画像分類と転移学習(VGG)
第2章：物体検出(SSD)
第3章：セマンティックセグメンテーション(PSPNet)
第4章：姿勢推定(OpenPose)
第5章：GANによる画像生成(DCGAN、Self-Attention GAN)
第6章：GANによる異常検知(AnoGAN、Efficient GAN)
第7章：自然言語処理による感情分析(Transformer)
第8章：自然言語処理による感情分析(BERT)
第9章：動画分類(3DCNN、ECO)

20
influenceとは：
「とある訓練データ1つを抜いてモデルを学習させて、説明したいテス
トデータを推論した際、その結果が最も変化する訓練データ」を求める。
実際に訓練データを1つずつ抜いた全パターンの学習モデルを用意して
推論するのは非現実的なので、近似計算をする。
テスト画像類似性が高いと判明した訓練画像類似性が低いとされた訓練画像

21
開発手法の概要
- ディープラーニングモデル：BERT
- モデルの初期値：京大黒橋?川原研 BERT日本語Pretrainedモデル[5]
- 分かち書き： Juman++v2[6]
- データセット： livedoor ニュースコーパス（9クラス）[7]
（9クラス：スポーツ、IT、家電、映画など）
- ファインチューニング対象：BERTの最終Transformerと分類層
- 実装：PyTorch

22
結果：対象テストデータ
（スポーツカテゴリ、テレビ番組、女子ゴルフ、苦労の話）
ギャルとゴルファーからなる造語＝ギャルファーを名乗る21歳、女子プロゴル
ファー?金田久美子。3日深夜放送、TBS「S1」番組内「Turning Point」のコー
ナーでは、美女アスリートの一人として19歳で大手スポンサーと契約を果たし、鳴
り物入りでプロ入りするも、その一年目は30試合で14回の予選落ちという苦しい
日々が続いた彼女にスポットを当てた。「このままダメなんじゃないかとか、この
まま一生勝てないんじゃないかとか。ゴルフ場に着くと涙が出てくるんですよ

23
結果： BERT+influenceで計算した、最も似ている訓練データ
（スポーツカテゴリ、テレビ番組、女子柔道、プレッシャーの話）
11日放送、テレビ朝日「あさナビ」には、ロンドン五輪?柔道女子57kg級金メダリ
スト?松本薫が出演した。五輪の重圧について、「プレッシャーはあったんですけ
ど、48kg級と52kg級の選手が試合の後、すぐに声をかけてくれて、プレッシャーは
全部吹き飛びました」と切り出した松本は、「福見選手は頑張れと。で、中村選手
は“最初の金メダルは松本さんだね”と声をかけて頂きました」と明かす。また、彼
女の代名詞となった

24
結果： BERT+influenceで計算した最も似ていない訓練データ（※Sports）
（スポーツ新聞、男子サッカー、長友いじられエピソード）
イタリアのスポーツ紙「ガゼッタ?デロ?スポルト」が16日、インテルのDF長友佑
都に関する記事を掲載。ロッカールームでの「いじられ役」として長友が人気者と
なっており、食事の際にナプキンに大量のパルメザンチーズが仕込まれており、開
いた途端にチーズまみれになったエピソードを紹介している。しかしこの「いじ
り」の内容に、ネットユーザーからは「いじり、ではなくいじめではないのか？」
と話題に。「いじめられてんじゃ

おわりに
Section
04
25

26
これからのアナウンス
私たちと一緒に働いていただけるコンサルタント、エンジニアも募集中
以下サイトをご覧ください
●AIビジネスプロジェクトマネージャ
https://www.isidgroup.com/u/job.phtml?job_code=532
●データサイエンス?ビジネス開発エンジニア
https://www.isidgroup.com/u/job.phtml?job_code=430
https://www.isidgroup.com/u/job.phtml?job_category_code=5&company_code=1

27
引用文献とその他、おすすめ資料
[1] SHAP。 Lundberg, S. M., & Lee, S. I. (2017). A unified approach to interpreting model predictions. In Advances in
Neural Information Processing Systems (pp. 4765-4774).
[2] QA4AIコンソーシアムのAIプロダクト品質保証ガイドライン（19年5月）
http://www.qa4ai.jp/download/
[3] BERT。Devlin, J., Chang, M. W., Lee, K., & Toutanova, K. (2018). Bert: Pre-training of deep bidirectional
transformers for language understanding. arXiv preprint arXiv:1810.04805.
[4] influence。 Koh, P. W., & Liang, P. (2017, August). Understanding black-box predictions via influence functions.
In Proceedings of the 34th International Conference on Machine Learning-Volume 70 (pp. 1885-1894). JMLR. org.
[5]京都大学黒橋?川原研BERT日本語Pretrainedモデル。http://nlp.ist.i.kyoto-
u.ac.jp/index.php?BERT%E6%97%A5%E6%9C%AC%E8%AA%9EPretrained%E3%83%A2%E3%83%87%E3%83%AB
[6] Juman++v2
http://nlp.ist.i.kyoto-u.ac.jp/index.php?JUMAN++
[7] livedoor ニュースコーパス
https://www.rondhuit.com/download.html

28
[8] 機械学習モデルの判断根拠の説明、原、第20回ステアラボ人工知能セミナー、2018.12。
/SatoshiHara3/ss-126157179
[9]機械学習と解釈可能性、吉永、ソフトウェアジャパン2019。
https://speakerdeck.com/line_developers/machine-learning-and-interpretability

29
[10]深層学習の判断根拠を理解するための研究とその意義、久保、PRMU 2017熊本。
/takahirokubo7792/prmu-2017
[11] 2019年度人工知能学会全国大会（第33回）企画セッション「機械学習における説明可能性?公平性?安全性への
工学的取り組み」
https://www.jst.go.jp/crds/sympo/201906_JSAI/index.html

30
[12] Explainable AI in Industry (KDD 2019 Tutorial)
/KrishnaramKenthapadi/explainable-ai-in-industry-kdd-2019-
tutorial?utm_campaign=piqcy&utm_medium=email&utm_source=Revue%20newsletter

CONFIDENTIAL
本文書（添付資料を含む）は、株式会社電通国際情報サービスが著作権その他の権利を有する営業秘密（含サプライヤー等第三者が権利を有するもの）です。
当社の許可なく複製し利用すること、また漏洩することは「著作権法」「不正競争防止法」によって禁じられております。本資料内の社名?製品名は各社の登録商標です。

狠狠撸

叠贰搁罢による文书系础滨の取り组みと、础锄耻谤别を用いたテーブルデータの説明性冲顿尝尝础叠冲20191007

More Related Content

叠贰搁罢による文书系础滨の取り组みと、础锄耻谤别を用いたテーブルデータの説明性冲顿尝尝础叠冲20191007