1. COPYRIGHT 2019 INFORMATION SERVICES INTERNATIONAL - DENTSU, LTD. ALL RIGHTS RESERVED.
0
BERTによる文書系AIの取り組みと、
Azureを用いたテーブルデータの説明性実現!
(株)電通国際情報サービス(通称、ISID)
クロスイノベーション本部 AIテクノロジー部 小川 雄太郎
DLLAB Engineer Days Day2: Conference
19年10月07日 14:30-15:00@東京コンファレンスセンター?品川
2. COPYRIGHT 2019 INFORMATION SERVICES INTERNATIONAL - DENTSU, LTD. ALL RIGHTS RESERVED.
1
本発表の内容
01 簡単に会社と自己紹介
02 表形式データでのAzure Automated MLとExplainer
03 ISIDにおけるテキストデータ説明性技術の開発を紹介
04 おわりに
3. COPYRIGHT 2019 INFORMATION SERVICES INTERNATIONAL - DENTSU, LTD. ALL RIGHTS RESERVED.
簡単に会社と自己紹介
Section
01
2
4. COPYRIGHT 2019 INFORMATION SERVICES INTERNATIONAL - DENTSU, LTD. ALL RIGHTS RESERVED.
株式会社電通
3
1975年に創業
電通グループのIT集団(SIer)
General Electric
Company(GE)
電通国際情報サービス(ISID)
5. COPYRIGHT 2019 INFORMATION SERVICES INTERNATIONAL - DENTSU, LTD. ALL RIGHTS RESERVED.
4
自己紹介の前に、皆様に質問
1. クラウドサービスを使用したことがある方?
2. Azureを使用したことがある方?
3. Azure MLサービスを使用したことがある方?
4. Azure Automated MLを使用したことがある方?
6. COPYRIGHT 2019 INFORMATION SERVICES INTERNATIONAL - DENTSU, LTD. ALL RIGHTS RESERVED.
5
所属:電通国際情報サービス
クロスイノベーション本部?AIテクノロジー部
兼職:早稲田大学 非常勤講師、日本ディープラーニング協会 委員
経歴:明石高専、東京大学工学部、東京大学新領域創成科学研究科
博士課程を卒業。脳科学の分野にて博士号(科学)を取得
出版:深層強化学習やPyTorchによる発展ディープラーニング本など
詳細:https://github.com/YutaroOgawa/about_me
小川 雄太郎(おがわ ゆうたろう)
7. COPYRIGHT 2019 INFORMATION SERVICES INTERNATIONAL - DENTSU, LTD. ALL RIGHTS RESERVED.
表形式データでの
Azure Automated MLとExplainer
Section
02
6
8. COPYRIGHT 2019 INFORMATION SERVICES INTERNATIONAL - DENTSU, LTD. ALL RIGHTS RESERVED.
7
表形式データ、時系列データ※に対して自動で機械学習モデルを構築
Azure Automated ML
https://docs.microsoft.com/ja-jp/azure/machine-learning/service/concept-automated-ml
9. COPYRIGHT 2019 INFORMATION SERVICES INTERNATIONAL - DENTSU, LTD. ALL RIGHTS RESERVED.
8
表形式データ※に対するモデルと推論結果に解釈性と説明性を与える機能
(アルゴリズムはSHAP[1])
Azure Explainer
https://docs.microsoft.com/ja-jp/azure/machine-learning/service/machine-learning-interpretability-explainability
※後ほど
動画デモで詳細解説
10. COPYRIGHT 2019 INFORMATION SERVICES INTERNATIONAL - DENTSU, LTD. ALL RIGHTS RESERVED.
9
Azure Explainer
解釈性(Interpretability)と 説明性(Explainability)の定義
「AIプロダクト品質保証ガイドラインAI4Q」[2]を参考に
●解釈性:アルゴリズムが予測に至るために用いるプロセスを人間が
どれだけ簡単に理解しやすいかを示す(例:決定木は解釈性が高い)
●説明性:とある推論結果において、入力したデータの各説明変数が
予測結果にどの程度影響を与えたのかなどを示す
表形式データ※に対するモデルと推論結果に解釈性と説明性を与える機能
11. COPYRIGHT 2019 INFORMATION SERVICES INTERNATIONAL - DENTSU, LTD. ALL RIGHTS RESERVED.
10
表形式データ:Azure Automated MLとExplainer
Azure AutoMLで自動で良いモデルを作らせ、Explainerで機械学
習モデルのブラックボックス性を緩和できたら、良い感じでは?
↓
よし、タイタニック?データでやってみよう
↓
問題に直面(次ページへ)
12. COPYRIGHT 2019 INFORMATION SERVICES INTERNATIONAL - DENTSU, LTD. ALL RIGHTS RESERVED.
11
表形式データ:Azure Automated MLとExplainer
タイタニック?データは例えば以下のような変数を持つ
- 目的変数:生存(1)
- 性別:女性
- 年齢:58才
- 兄弟、配偶者の同乗者数:0
- 両親、子供の同乗者数:0
- 部屋の階級:1
- 乗船した港:Cherbourg
- 乗船料金:146.52
「カテゴリカルデータ」
13. COPYRIGHT 2019 INFORMATION SERVICES INTERNATIONAL - DENTSU, LTD. ALL RIGHTS RESERVED.
12
表形式データ:Azure Automated MLとExplainer
カテゴリカルデータに対する、通常の機械学習の前処理
乗船港
2
3
乗船港
B港
C港
乗船港
A
乗船港
B
乗船港
C
乗船港
Null
0 1 0 0
0 0 1 0
欠損値
処理
One-Hot Encoding
One-Hot Encodingした後のデータを使うと、One-Hotの制限が無視
されるため、説明性が変になる???
One-Hot 前の変数で説明性が欲しい
14. COPYRIGHT 2019 INFORMATION SERVICES INTERNATIONAL - DENTSU, LTD. ALL RIGHTS RESERVED.
13
表形式データ:Azure Automated MLとExplainer
解決手法(のひとつ)を紹介
① 多重共線性処理と欠損値処理を事前に行う
② 変数の型を修正
③ One-Hot Encodingを実施
④ Automated MLに、③までを実施したデータを投入
⑤ Explainerに、②までの訓練?テストデータと、④で得た学習済み
モデルを投入。 Explainerの引数transformationsに③One-Hot
Encoding処理をscikitlearnのColumnTransformer形式で与える
15. COPYRIGHT 2019 INFORMATION SERVICES INTERNATIONAL - DENTSU, LTD. ALL RIGHTS RESERVED.
14
表形式データ:Azure Automated MLとExplainer
さらなる詳細は、「タイタニックデータでのAzure Automated MLと
Azure Explainerの実装コード」として、
https://github.com/YutaroOgawa/my_azure
で公開しています。
(次ページ:動画デモ)
16. COPYRIGHT 2019 INFORMATION SERVICES INTERNATIONAL - DENTSU, LTD. ALL RIGHTS RESERVED.
15
表形式データ:Azure Automated MLとExplainer
タイタニックデータでのAzure Automated MLとExplainerの動画デモ
(2倍速再生、6分30秒) ※動画は公開されておりません
17. COPYRIGHT 2019 INFORMATION SERVICES INTERNATIONAL - DENTSU, LTD. ALL RIGHTS RESERVED.
ISIDにおけるテキストデータ説明性
技術の開発を紹介
Section
03
16
18. COPYRIGHT 2019 INFORMATION SERVICES INTERNATIONAL - DENTSU, LTD. ALL RIGHTS RESERVED.
17
BERTによる文書系AIの取り組み
実現したいこと
テキストデータの教師あり学習において、テストデータを推論した際に、
なぜそのクラスと推論されたのか、説明性を与えたい。
そこでテストデータと最もよく似ている訓練データを示し、説明する。
「このテストデータは訓練データのこちらとよく似ているのでクラス●
と推論されたのです」作戦
19. COPYRIGHT 2019 INFORMATION SERVICES INTERNATIONAL - DENTSU, LTD. ALL RIGHTS RESERVED.
18
BERTによる文書系AIの取り組み
手法の概要
BERT[3]を使用したテキスト分類モデルをファインチューニングで学習。
influence[4]を使用して、推論するテストデータとよく似た訓練データ
を探す。
20. COPYRIGHT 2019 INFORMATION SERVICES INTERNATIONAL - DENTSU, LTD. ALL RIGHTS RESERVED.
19
BERTによる文書系AIの取り組み
BERTとは:自然言語処理のディープラーニングモデルです
詳細は拙著をご覧ください、実装しながら解説しています
PyTorchによる発展ディープラーニング
第1章:画像分類と転移学習(VGG)
第2章:物体検出(SSD)
第3章:セマンティックセグメンテーション(PSPNet)
第4章:姿勢推定(OpenPose)
第5章:GANによる画像生成(DCGAN、Self-Attention GAN)
第6章:GANによる異常検知(AnoGAN、Efficient GAN)
第7章:自然言語処理による感情分析(Transformer)
第8章:自然言語処理による感情分析(BERT)
第9章:動画分類(3DCNN、ECO)
21. COPYRIGHT 2019 INFORMATION SERVICES INTERNATIONAL - DENTSU, LTD. ALL RIGHTS RESERVED.
20
BERTによる文書系AIの取り組み
influenceとは:
「とある訓練データ1つを抜いてモデルを学習させて、説明したいテス
トデータを推論した際、その結果が最も変化する訓練データ」を求める。
実際に訓練データを1つずつ抜いた全パターンの学習モデルを用意して
推論するのは非現実的なので、近似計算をする。
テスト画像 類似性が高いと判明した訓練画像 類似性が低いとされた訓練画像
22. COPYRIGHT 2019 INFORMATION SERVICES INTERNATIONAL - DENTSU, LTD. ALL RIGHTS RESERVED.
21
BERTによる文書系AIの取り組み
開発手法の概要
- ディープラーニングモデル:BERT
- モデルの初期値:京大黒橋?川原研 BERT日本語Pretrainedモデル[5]
- 分かち書き: Juman++v2[6]
- データセット: livedoor ニュースコーパス(9クラス)[7]
(9クラス:スポーツ、IT、家電、映画など)
- ファインチューニング対象:BERTの最終Transformerと分類層
- 実装:PyTorch
23. COPYRIGHT 2019 INFORMATION SERVICES INTERNATIONAL - DENTSU, LTD. ALL RIGHTS RESERVED.
22
BERTによる文書系AIの取り組み
結果:対象テストデータ
(スポーツカテゴリ、テレビ番組、女子ゴルフ、苦労の話)
ギャルとゴルファーからなる造語=ギャルファーを名乗る21歳、女子プロゴル
ファー?金田久美子。3日深夜放送、TBS「S1」番組内「Turning Point」のコー
ナーでは、美女アスリートの一人として19歳で大手スポンサーと契約を果たし、鳴
り物入りでプロ入りするも、その一年目は30試合で14回の予選落ちという苦しい
日々が続いた彼女にスポットを当てた。「このままダメなんじゃないかとか、この
まま一生勝てないんじゃないかとか。ゴルフ場に着くと涙が出てくるんですよ
24. COPYRIGHT 2019 INFORMATION SERVICES INTERNATIONAL - DENTSU, LTD. ALL RIGHTS RESERVED.
23
BERTによる文書系AIの取り組み
結果: BERT+influenceで計算した、最も似ている訓練データ
(スポーツカテゴリ、テレビ番組、女子柔道、プレッシャーの話)
11日放送、テレビ朝日「あさナビ」には、ロンドン五輪?柔道女子57kg級金メダリ
スト?松本薫が出演した。五輪の重圧について、「プレッシャーはあったんですけ
ど、48kg級と52kg級の選手が試合の後、すぐに声をかけてくれて、プレッシャーは
全部吹き飛びました」と切り出した松本は、「福見選手は頑張れと。で、中村選手
は“最初の金メダルは松本さんだね”と声をかけて頂きました」と明かす。また、彼
女の代名詞となった
25. COPYRIGHT 2019 INFORMATION SERVICES INTERNATIONAL - DENTSU, LTD. ALL RIGHTS RESERVED.
24
BERTによる文書系AIの取り組み
結果: BERT+influenceで計算した最も似ていない訓練データ(※Sports)
(スポーツ新聞、男子サッカー、長友いじられエピソード)
イタリアのスポーツ紙「ガゼッタ?デロ?スポルト」が16日、インテルのDF長友佑
都に関する記事を掲載。ロッカールームでの「いじられ役」として長友が人気者と
なっており、食事の際にナプキンに大量のパルメザンチーズが仕込まれており、開
いた途端にチーズまみれになったエピソードを紹介している。しかしこの「いじ
り」の内容に、ネットユーザーからは「いじり、ではなくいじめではないのか?」
と話題に。「いじめられてんじゃ
26. COPYRIGHT 2019 INFORMATION SERVICES INTERNATIONAL - DENTSU, LTD. ALL RIGHTS RESERVED.
おわりに
Section
04
25
27. COPYRIGHT 2019 INFORMATION SERVICES INTERNATIONAL - DENTSU, LTD. ALL RIGHTS RESERVED.
26
これからのアナウンス
私たちと一緒に働いていただけるコンサルタント、エンジニアも募集中
以下サイトをご覧ください
●AIビジネスプロジェクトマネージャ
https://www.isidgroup.com/u/job.phtml?job_code=532
●データサイエンス?ビジネス開発エンジニア
https://www.isidgroup.com/u/job.phtml?job_code=430
https://www.isidgroup.com/u/job.phtml?job_category_code=5&company_code=1
28. COPYRIGHT 2019 INFORMATION SERVICES INTERNATIONAL - DENTSU, LTD. ALL RIGHTS RESERVED.
27
引用文献とその他、おすすめ資料
[1] SHAP。 Lundberg, S. M., & Lee, S. I. (2017). A unified approach to interpreting model predictions. In Advances in
Neural Information Processing Systems (pp. 4765-4774).
[2] QA4AIコンソーシアムのAIプロダクト品質保証ガイドライン(19年5月)
http://www.qa4ai.jp/download/
[3] BERT。Devlin, J., Chang, M. W., Lee, K., & Toutanova, K. (2018). Bert: Pre-training of deep bidirectional
transformers for language understanding. arXiv preprint arXiv:1810.04805.
[4] influence。 Koh, P. W., & Liang, P. (2017, August). Understanding black-box predictions via influence functions.
In Proceedings of the 34th International Conference on Machine Learning-Volume 70 (pp. 1885-1894). JMLR. org.
[5]京都大学黒橋?川原研BERT日本語Pretrainedモデル 。http://nlp.ist.i.kyoto-
u.ac.jp/index.php?BERT%E6%97%A5%E6%9C%AC%E8%AA%9EPretrained%E3%83%A2%E3%83%87%E3%83%AB
[6] Juman++v2
http://nlp.ist.i.kyoto-u.ac.jp/index.php?JUMAN++
[7] livedoor ニュースコーパス
https://www.rondhuit.com/download.html
29. COPYRIGHT 2019 INFORMATION SERVICES INTERNATIONAL - DENTSU, LTD. ALL RIGHTS RESERVED.
28
[8] 機械学習モデルの判断根拠の説明、原、第20回ステアラボ人工知能セミナー 、2018.12。
/SatoshiHara3/ss-126157179
[9]機械学習と解釈可能性、吉永、ソフトウェアジャパン2019。
https://speakerdeck.com/line_developers/machine-learning-and-interpretability
30. COPYRIGHT 2019 INFORMATION SERVICES INTERNATIONAL - DENTSU, LTD. ALL RIGHTS RESERVED.
29
[10]深層学習の判断根拠を理解するための研究とその意義、久保、PRMU 2017熊本。
/takahirokubo7792/prmu-2017
[11] 2019年度 人工知能学会全国大会(第33回) 企画セッション「機械学習における説明可能性?公平性?安全性への
工学的取り組み」
https://www.jst.go.jp/crds/sympo/201906_JSAI/index.html
31. COPYRIGHT 2019 INFORMATION SERVICES INTERNATIONAL - DENTSU, LTD. ALL RIGHTS RESERVED.
30
[12] Explainable AI in Industry (KDD 2019 Tutorial)
/KrishnaramKenthapadi/explainable-ai-in-industry-kdd-2019-
tutorial?utm_campaign=piqcy&utm_medium=email&utm_source=Revue%20newsletter
32. COPYRIGHT 2019 INFORMATION SERVICES INTERNATIONAL - DENTSU, LTD. ALL RIGHTS RESERVED.
CONFIDENTIAL
本文書(添付資料を含む)は、株式会社電通国際情報サービスが著作権その他の権利を有する営業秘密(含サプライヤー等第三者が権利を有するもの)です。
当社の許可なく複製し利用すること、また漏洩することは「著作権法」「不正競争防止法」によって禁じられております。 本資料内の社名?製品名は各社の登録商標です。