狠狠撸

狠狠撸Share a Scribd company logo
COPYRIGHT 2019 INFORMATION SERVICES INTERNATIONAL - DENTSU, LTD. ALL RIGHTS RESERVED.
0
BERTによる文書系AIの取り組みと、
Azureを用いたテーブルデータの説明性実現!
(株)電通国際情報サービス(通称、ISID)
クロスイノベーション本部 AIテクノロジー部 小川 雄太郎
DLLAB Engineer Days Day2: Conference
19年10月07日 14:30-15:00@東京コンファレンスセンター?品川
COPYRIGHT 2019 INFORMATION SERVICES INTERNATIONAL - DENTSU, LTD. ALL RIGHTS RESERVED.
1
本発表の内容
01 簡単に会社と自己紹介
02 表形式データでのAzure Automated MLとExplainer
03 ISIDにおけるテキストデータ説明性技術の開発を紹介
04 おわりに
COPYRIGHT 2019 INFORMATION SERVICES INTERNATIONAL - DENTSU, LTD. ALL RIGHTS RESERVED.
簡単に会社と自己紹介
Section
01
2
COPYRIGHT 2019 INFORMATION SERVICES INTERNATIONAL - DENTSU, LTD. ALL RIGHTS RESERVED.
株式会社電通
3
1975年に創業
電通グループのIT集団(SIer)
General Electric
Company(GE)
電通国際情報サービス(ISID)
COPYRIGHT 2019 INFORMATION SERVICES INTERNATIONAL - DENTSU, LTD. ALL RIGHTS RESERVED.
4
自己紹介の前に、皆様に質問
1. クラウドサービスを使用したことがある方?
2. Azureを使用したことがある方?
3. Azure MLサービスを使用したことがある方?
4. Azure Automated MLを使用したことがある方?
COPYRIGHT 2019 INFORMATION SERVICES INTERNATIONAL - DENTSU, LTD. ALL RIGHTS RESERVED.
5
所属:電通国際情報サービス
クロスイノベーション本部?AIテクノロジー部
兼職:早稲田大学 非常勤講師、日本ディープラーニング協会 委員
経歴:明石高専、東京大学工学部、東京大学新領域創成科学研究科
博士課程を卒業。脳科学の分野にて博士号(科学)を取得
出版:深層強化学習やPyTorchによる発展ディープラーニング本など
詳細:https://github.com/YutaroOgawa/about_me
小川 雄太郎(おがわ ゆうたろう)
COPYRIGHT 2019 INFORMATION SERVICES INTERNATIONAL - DENTSU, LTD. ALL RIGHTS RESERVED.
表形式データでの
Azure Automated MLとExplainer
Section
02
6
COPYRIGHT 2019 INFORMATION SERVICES INTERNATIONAL - DENTSU, LTD. ALL RIGHTS RESERVED.
7
表形式データ、時系列データ※に対して自動で機械学習モデルを構築
Azure Automated ML
https://docs.microsoft.com/ja-jp/azure/machine-learning/service/concept-automated-ml
COPYRIGHT 2019 INFORMATION SERVICES INTERNATIONAL - DENTSU, LTD. ALL RIGHTS RESERVED.
8
表形式データ※に対するモデルと推論結果に解釈性と説明性を与える機能
(アルゴリズムはSHAP[1])
Azure Explainer
https://docs.microsoft.com/ja-jp/azure/machine-learning/service/machine-learning-interpretability-explainability
※後ほど
動画デモで詳細解説
COPYRIGHT 2019 INFORMATION SERVICES INTERNATIONAL - DENTSU, LTD. ALL RIGHTS RESERVED.
9
Azure Explainer
解釈性(Interpretability)と 説明性(Explainability)の定義
「AIプロダクト品質保証ガイドラインAI4Q」[2]を参考に
●解釈性:アルゴリズムが予測に至るために用いるプロセスを人間が
どれだけ簡単に理解しやすいかを示す(例:決定木は解釈性が高い)
●説明性:とある推論結果において、入力したデータの各説明変数が
予測結果にどの程度影響を与えたのかなどを示す
表形式データ※に対するモデルと推論結果に解釈性と説明性を与える機能
COPYRIGHT 2019 INFORMATION SERVICES INTERNATIONAL - DENTSU, LTD. ALL RIGHTS RESERVED.
10
表形式データ:Azure Automated MLとExplainer
Azure AutoMLで自動で良いモデルを作らせ、Explainerで機械学
習モデルのブラックボックス性を緩和できたら、良い感じでは?
↓
よし、タイタニック?データでやってみよう
↓
問題に直面(次ページへ)
COPYRIGHT 2019 INFORMATION SERVICES INTERNATIONAL - DENTSU, LTD. ALL RIGHTS RESERVED.
11
表形式データ:Azure Automated MLとExplainer
タイタニック?データは例えば以下のような変数を持つ
- 目的変数:生存(1)
- 性別:女性
- 年齢:58才
- 兄弟、配偶者の同乗者数:0
- 両親、子供の同乗者数:0
- 部屋の階級:1
- 乗船した港:Cherbourg
- 乗船料金:146.52
「カテゴリカルデータ」
COPYRIGHT 2019 INFORMATION SERVICES INTERNATIONAL - DENTSU, LTD. ALL RIGHTS RESERVED.
12
表形式データ:Azure Automated MLとExplainer
カテゴリカルデータに対する、通常の機械学習の前処理
乗船港
2
3
乗船港
B港
C港
乗船港
A
乗船港
B
乗船港
C
乗船港
Null
0 1 0 0
0 0 1 0
欠損値
処理
One-Hot Encoding
One-Hot Encodingした後のデータを使うと、One-Hotの制限が無視
されるため、説明性が変になる???
One-Hot 前の変数で説明性が欲しい
COPYRIGHT 2019 INFORMATION SERVICES INTERNATIONAL - DENTSU, LTD. ALL RIGHTS RESERVED.
13
表形式データ:Azure Automated MLとExplainer
解決手法(のひとつ)を紹介
① 多重共線性処理と欠損値処理を事前に行う
② 変数の型を修正
③ One-Hot Encodingを実施
④ Automated MLに、③までを実施したデータを投入
⑤ Explainerに、②までの訓練?テストデータと、④で得た学習済み
モデルを投入。 Explainerの引数transformationsに③One-Hot
Encoding処理をscikitlearnのColumnTransformer形式で与える
COPYRIGHT 2019 INFORMATION SERVICES INTERNATIONAL - DENTSU, LTD. ALL RIGHTS RESERVED.
14
表形式データ:Azure Automated MLとExplainer
さらなる詳細は、「タイタニックデータでのAzure Automated MLと
Azure Explainerの実装コード」として、
https://github.com/YutaroOgawa/my_azure
で公開しています。
(次ページ:動画デモ)
COPYRIGHT 2019 INFORMATION SERVICES INTERNATIONAL - DENTSU, LTD. ALL RIGHTS RESERVED.
15
表形式データ:Azure Automated MLとExplainer
タイタニックデータでのAzure Automated MLとExplainerの動画デモ
(2倍速再生、6分30秒) ※動画は公開されておりません
COPYRIGHT 2019 INFORMATION SERVICES INTERNATIONAL - DENTSU, LTD. ALL RIGHTS RESERVED.
ISIDにおけるテキストデータ説明性
技術の開発を紹介
Section
03
16
COPYRIGHT 2019 INFORMATION SERVICES INTERNATIONAL - DENTSU, LTD. ALL RIGHTS RESERVED.
17
BERTによる文書系AIの取り組み
実現したいこと
テキストデータの教師あり学習において、テストデータを推論した際に、
なぜそのクラスと推論されたのか、説明性を与えたい。
そこでテストデータと最もよく似ている訓練データを示し、説明する。
「このテストデータは訓練データのこちらとよく似ているのでクラス●
と推論されたのです」作戦
COPYRIGHT 2019 INFORMATION SERVICES INTERNATIONAL - DENTSU, LTD. ALL RIGHTS RESERVED.
18
BERTによる文書系AIの取り組み
手法の概要
BERT[3]を使用したテキスト分類モデルをファインチューニングで学習。
influence[4]を使用して、推論するテストデータとよく似た訓練データ
を探す。
COPYRIGHT 2019 INFORMATION SERVICES INTERNATIONAL - DENTSU, LTD. ALL RIGHTS RESERVED.
19
BERTによる文書系AIの取り組み
BERTとは:自然言語処理のディープラーニングモデルです
詳細は拙著をご覧ください、実装しながら解説しています
PyTorchによる発展ディープラーニング
第1章:画像分類と転移学習(VGG)
第2章:物体検出(SSD)
第3章:セマンティックセグメンテーション(PSPNet)
第4章:姿勢推定(OpenPose)
第5章:GANによる画像生成(DCGAN、Self-Attention GAN)
第6章:GANによる異常検知(AnoGAN、Efficient GAN)
第7章:自然言語処理による感情分析(Transformer)
第8章:自然言語処理による感情分析(BERT)
第9章:動画分類(3DCNN、ECO)
COPYRIGHT 2019 INFORMATION SERVICES INTERNATIONAL - DENTSU, LTD. ALL RIGHTS RESERVED.
20
BERTによる文書系AIの取り組み
influenceとは:
「とある訓練データ1つを抜いてモデルを学習させて、説明したいテス
トデータを推論した際、その結果が最も変化する訓練データ」を求める。
実際に訓練データを1つずつ抜いた全パターンの学習モデルを用意して
推論するのは非現実的なので、近似計算をする。
テスト画像 類似性が高いと判明した訓練画像 類似性が低いとされた訓練画像
COPYRIGHT 2019 INFORMATION SERVICES INTERNATIONAL - DENTSU, LTD. ALL RIGHTS RESERVED.
21
BERTによる文書系AIの取り組み
開発手法の概要
- ディープラーニングモデル:BERT
- モデルの初期値:京大黒橋?川原研 BERT日本語Pretrainedモデル[5]
- 分かち書き: Juman++v2[6]
- データセット: livedoor ニュースコーパス(9クラス)[7]
(9クラス:スポーツ、IT、家電、映画など)
- ファインチューニング対象:BERTの最終Transformerと分類層
- 実装:PyTorch
COPYRIGHT 2019 INFORMATION SERVICES INTERNATIONAL - DENTSU, LTD. ALL RIGHTS RESERVED.
22
BERTによる文書系AIの取り組み
結果:対象テストデータ
(スポーツカテゴリ、テレビ番組、女子ゴルフ、苦労の話)
ギャルとゴルファーからなる造語=ギャルファーを名乗る21歳、女子プロゴル
ファー?金田久美子。3日深夜放送、TBS「S1」番組内「Turning Point」のコー
ナーでは、美女アスリートの一人として19歳で大手スポンサーと契約を果たし、鳴
り物入りでプロ入りするも、その一年目は30試合で14回の予選落ちという苦しい
日々が続いた彼女にスポットを当てた。「このままダメなんじゃないかとか、この
まま一生勝てないんじゃないかとか。ゴルフ場に着くと涙が出てくるんですよ
COPYRIGHT 2019 INFORMATION SERVICES INTERNATIONAL - DENTSU, LTD. ALL RIGHTS RESERVED.
23
BERTによる文書系AIの取り組み
結果: BERT+influenceで計算した、最も似ている訓練データ
(スポーツカテゴリ、テレビ番組、女子柔道、プレッシャーの話)
11日放送、テレビ朝日「あさナビ」には、ロンドン五輪?柔道女子57kg級金メダリ
スト?松本薫が出演した。五輪の重圧について、「プレッシャーはあったんですけ
ど、48kg級と52kg級の選手が試合の後、すぐに声をかけてくれて、プレッシャーは
全部吹き飛びました」と切り出した松本は、「福見選手は頑張れと。で、中村選手
は“最初の金メダルは松本さんだね”と声をかけて頂きました」と明かす。また、彼
女の代名詞となった
COPYRIGHT 2019 INFORMATION SERVICES INTERNATIONAL - DENTSU, LTD. ALL RIGHTS RESERVED.
24
BERTによる文書系AIの取り組み
結果: BERT+influenceで計算した最も似ていない訓練データ(※Sports)
(スポーツ新聞、男子サッカー、長友いじられエピソード)
イタリアのスポーツ紙「ガゼッタ?デロ?スポルト」が16日、インテルのDF長友佑
都に関する記事を掲載。ロッカールームでの「いじられ役」として長友が人気者と
なっており、食事の際にナプキンに大量のパルメザンチーズが仕込まれており、開
いた途端にチーズまみれになったエピソードを紹介している。しかしこの「いじ
り」の内容に、ネットユーザーからは「いじり、ではなくいじめではないのか?」
と話題に。「いじめられてんじゃ
COPYRIGHT 2019 INFORMATION SERVICES INTERNATIONAL - DENTSU, LTD. ALL RIGHTS RESERVED.
おわりに
Section
04
25
COPYRIGHT 2019 INFORMATION SERVICES INTERNATIONAL - DENTSU, LTD. ALL RIGHTS RESERVED.
26
これからのアナウンス
私たちと一緒に働いていただけるコンサルタント、エンジニアも募集中
以下サイトをご覧ください
●AIビジネスプロジェクトマネージャ
https://www.isidgroup.com/u/job.phtml?job_code=532
●データサイエンス?ビジネス開発エンジニア
https://www.isidgroup.com/u/job.phtml?job_code=430
https://www.isidgroup.com/u/job.phtml?job_category_code=5&company_code=1
COPYRIGHT 2019 INFORMATION SERVICES INTERNATIONAL - DENTSU, LTD. ALL RIGHTS RESERVED.
27
引用文献とその他、おすすめ資料
[1] SHAP。 Lundberg, S. M., & Lee, S. I. (2017). A unified approach to interpreting model predictions. In Advances in
Neural Information Processing Systems (pp. 4765-4774).
[2] QA4AIコンソーシアムのAIプロダクト品質保証ガイドライン(19年5月)
http://www.qa4ai.jp/download/
[3] BERT。Devlin, J., Chang, M. W., Lee, K., & Toutanova, K. (2018). Bert: Pre-training of deep bidirectional
transformers for language understanding. arXiv preprint arXiv:1810.04805.
[4] influence。 Koh, P. W., & Liang, P. (2017, August). Understanding black-box predictions via influence functions.
In Proceedings of the 34th International Conference on Machine Learning-Volume 70 (pp. 1885-1894). JMLR. org.
[5]京都大学黒橋?川原研BERT日本語Pretrainedモデル 。http://nlp.ist.i.kyoto-
u.ac.jp/index.php?BERT%E6%97%A5%E6%9C%AC%E8%AA%9EPretrained%E3%83%A2%E3%83%87%E3%83%AB
[6] Juman++v2
http://nlp.ist.i.kyoto-u.ac.jp/index.php?JUMAN++
[7] livedoor ニュースコーパス
https://www.rondhuit.com/download.html
COPYRIGHT 2019 INFORMATION SERVICES INTERNATIONAL - DENTSU, LTD. ALL RIGHTS RESERVED.
28
[8] 機械学習モデルの判断根拠の説明、原、第20回ステアラボ人工知能セミナー 、2018.12。
/SatoshiHara3/ss-126157179
[9]機械学習と解釈可能性、吉永、ソフトウェアジャパン2019。
https://speakerdeck.com/line_developers/machine-learning-and-interpretability
COPYRIGHT 2019 INFORMATION SERVICES INTERNATIONAL - DENTSU, LTD. ALL RIGHTS RESERVED.
29
[10]深層学習の判断根拠を理解するための研究とその意義、久保、PRMU 2017熊本。
/takahirokubo7792/prmu-2017
[11] 2019年度 人工知能学会全国大会(第33回) 企画セッション「機械学習における説明可能性?公平性?安全性への
工学的取り組み」
https://www.jst.go.jp/crds/sympo/201906_JSAI/index.html
COPYRIGHT 2019 INFORMATION SERVICES INTERNATIONAL - DENTSU, LTD. ALL RIGHTS RESERVED.
30
[12] Explainable AI in Industry (KDD 2019 Tutorial)
/KrishnaramKenthapadi/explainable-ai-in-industry-kdd-2019-
tutorial?utm_campaign=piqcy&utm_medium=email&utm_source=Revue%20newsletter
COPYRIGHT 2019 INFORMATION SERVICES INTERNATIONAL - DENTSU, LTD. ALL RIGHTS RESERVED.
CONFIDENTIAL
本文書(添付資料を含む)は、株式会社電通国際情報サービスが著作権その他の権利を有する営業秘密(含サプライヤー等第三者が権利を有するもの)です。
当社の許可なく複製し利用すること、また漏洩することは「著作権法」「不正競争防止法」によって禁じられております。 本資料内の社名?製品名は各社の登録商標です。

More Related Content

叠贰搁罢による文书系础滨の取り组みと、础锄耻谤别を用いたテーブルデータの説明性冲顿尝尝础叠冲20191007

  • 1. COPYRIGHT 2019 INFORMATION SERVICES INTERNATIONAL - DENTSU, LTD. ALL RIGHTS RESERVED. 0 BERTによる文書系AIの取り組みと、 Azureを用いたテーブルデータの説明性実現! (株)電通国際情報サービス(通称、ISID) クロスイノベーション本部 AIテクノロジー部 小川 雄太郎 DLLAB Engineer Days Day2: Conference 19年10月07日 14:30-15:00@東京コンファレンスセンター?品川
  • 2. COPYRIGHT 2019 INFORMATION SERVICES INTERNATIONAL - DENTSU, LTD. ALL RIGHTS RESERVED. 1 本発表の内容 01 簡単に会社と自己紹介 02 表形式データでのAzure Automated MLとExplainer 03 ISIDにおけるテキストデータ説明性技術の開発を紹介 04 おわりに
  • 3. COPYRIGHT 2019 INFORMATION SERVICES INTERNATIONAL - DENTSU, LTD. ALL RIGHTS RESERVED. 簡単に会社と自己紹介 Section 01 2
  • 4. COPYRIGHT 2019 INFORMATION SERVICES INTERNATIONAL - DENTSU, LTD. ALL RIGHTS RESERVED. 株式会社電通 3 1975年に創業 電通グループのIT集団(SIer) General Electric Company(GE) 電通国際情報サービス(ISID)
  • 5. COPYRIGHT 2019 INFORMATION SERVICES INTERNATIONAL - DENTSU, LTD. ALL RIGHTS RESERVED. 4 自己紹介の前に、皆様に質問 1. クラウドサービスを使用したことがある方? 2. Azureを使用したことがある方? 3. Azure MLサービスを使用したことがある方? 4. Azure Automated MLを使用したことがある方?
  • 6. COPYRIGHT 2019 INFORMATION SERVICES INTERNATIONAL - DENTSU, LTD. ALL RIGHTS RESERVED. 5 所属:電通国際情報サービス クロスイノベーション本部?AIテクノロジー部 兼職:早稲田大学 非常勤講師、日本ディープラーニング協会 委員 経歴:明石高専、東京大学工学部、東京大学新領域創成科学研究科 博士課程を卒業。脳科学の分野にて博士号(科学)を取得 出版:深層強化学習やPyTorchによる発展ディープラーニング本など 詳細:https://github.com/YutaroOgawa/about_me 小川 雄太郎(おがわ ゆうたろう)
  • 7. COPYRIGHT 2019 INFORMATION SERVICES INTERNATIONAL - DENTSU, LTD. ALL RIGHTS RESERVED. 表形式データでの Azure Automated MLとExplainer Section 02 6
  • 8. COPYRIGHT 2019 INFORMATION SERVICES INTERNATIONAL - DENTSU, LTD. ALL RIGHTS RESERVED. 7 表形式データ、時系列データ※に対して自動で機械学習モデルを構築 Azure Automated ML https://docs.microsoft.com/ja-jp/azure/machine-learning/service/concept-automated-ml
  • 9. COPYRIGHT 2019 INFORMATION SERVICES INTERNATIONAL - DENTSU, LTD. ALL RIGHTS RESERVED. 8 表形式データ※に対するモデルと推論結果に解釈性と説明性を与える機能 (アルゴリズムはSHAP[1]) Azure Explainer https://docs.microsoft.com/ja-jp/azure/machine-learning/service/machine-learning-interpretability-explainability ※後ほど 動画デモで詳細解説
  • 10. COPYRIGHT 2019 INFORMATION SERVICES INTERNATIONAL - DENTSU, LTD. ALL RIGHTS RESERVED. 9 Azure Explainer 解釈性(Interpretability)と 説明性(Explainability)の定義 「AIプロダクト品質保証ガイドラインAI4Q」[2]を参考に ●解釈性:アルゴリズムが予測に至るために用いるプロセスを人間が どれだけ簡単に理解しやすいかを示す(例:決定木は解釈性が高い) ●説明性:とある推論結果において、入力したデータの各説明変数が 予測結果にどの程度影響を与えたのかなどを示す 表形式データ※に対するモデルと推論結果に解釈性と説明性を与える機能
  • 11. COPYRIGHT 2019 INFORMATION SERVICES INTERNATIONAL - DENTSU, LTD. ALL RIGHTS RESERVED. 10 表形式データ:Azure Automated MLとExplainer Azure AutoMLで自動で良いモデルを作らせ、Explainerで機械学 習モデルのブラックボックス性を緩和できたら、良い感じでは? ↓ よし、タイタニック?データでやってみよう ↓ 問題に直面(次ページへ)
  • 12. COPYRIGHT 2019 INFORMATION SERVICES INTERNATIONAL - DENTSU, LTD. ALL RIGHTS RESERVED. 11 表形式データ:Azure Automated MLとExplainer タイタニック?データは例えば以下のような変数を持つ - 目的変数:生存(1) - 性別:女性 - 年齢:58才 - 兄弟、配偶者の同乗者数:0 - 両親、子供の同乗者数:0 - 部屋の階級:1 - 乗船した港:Cherbourg - 乗船料金:146.52 「カテゴリカルデータ」
  • 13. COPYRIGHT 2019 INFORMATION SERVICES INTERNATIONAL - DENTSU, LTD. ALL RIGHTS RESERVED. 12 表形式データ:Azure Automated MLとExplainer カテゴリカルデータに対する、通常の機械学習の前処理 乗船港 2 3 乗船港 B港 C港 乗船港 A 乗船港 B 乗船港 C 乗船港 Null 0 1 0 0 0 0 1 0 欠損値 処理 One-Hot Encoding One-Hot Encodingした後のデータを使うと、One-Hotの制限が無視 されるため、説明性が変になる??? One-Hot 前の変数で説明性が欲しい
  • 14. COPYRIGHT 2019 INFORMATION SERVICES INTERNATIONAL - DENTSU, LTD. ALL RIGHTS RESERVED. 13 表形式データ:Azure Automated MLとExplainer 解決手法(のひとつ)を紹介 ① 多重共線性処理と欠損値処理を事前に行う ② 変数の型を修正 ③ One-Hot Encodingを実施 ④ Automated MLに、③までを実施したデータを投入 ⑤ Explainerに、②までの訓練?テストデータと、④で得た学習済み モデルを投入。 Explainerの引数transformationsに③One-Hot Encoding処理をscikitlearnのColumnTransformer形式で与える
  • 15. COPYRIGHT 2019 INFORMATION SERVICES INTERNATIONAL - DENTSU, LTD. ALL RIGHTS RESERVED. 14 表形式データ:Azure Automated MLとExplainer さらなる詳細は、「タイタニックデータでのAzure Automated MLと Azure Explainerの実装コード」として、 https://github.com/YutaroOgawa/my_azure で公開しています。 (次ページ:動画デモ)
  • 16. COPYRIGHT 2019 INFORMATION SERVICES INTERNATIONAL - DENTSU, LTD. ALL RIGHTS RESERVED. 15 表形式データ:Azure Automated MLとExplainer タイタニックデータでのAzure Automated MLとExplainerの動画デモ (2倍速再生、6分30秒) ※動画は公開されておりません
  • 17. COPYRIGHT 2019 INFORMATION SERVICES INTERNATIONAL - DENTSU, LTD. ALL RIGHTS RESERVED. ISIDにおけるテキストデータ説明性 技術の開発を紹介 Section 03 16
  • 18. COPYRIGHT 2019 INFORMATION SERVICES INTERNATIONAL - DENTSU, LTD. ALL RIGHTS RESERVED. 17 BERTによる文書系AIの取り組み 実現したいこと テキストデータの教師あり学習において、テストデータを推論した際に、 なぜそのクラスと推論されたのか、説明性を与えたい。 そこでテストデータと最もよく似ている訓練データを示し、説明する。 「このテストデータは訓練データのこちらとよく似ているのでクラス● と推論されたのです」作戦
  • 19. COPYRIGHT 2019 INFORMATION SERVICES INTERNATIONAL - DENTSU, LTD. ALL RIGHTS RESERVED. 18 BERTによる文書系AIの取り組み 手法の概要 BERT[3]を使用したテキスト分類モデルをファインチューニングで学習。 influence[4]を使用して、推論するテストデータとよく似た訓練データ を探す。
  • 20. COPYRIGHT 2019 INFORMATION SERVICES INTERNATIONAL - DENTSU, LTD. ALL RIGHTS RESERVED. 19 BERTによる文書系AIの取り組み BERTとは:自然言語処理のディープラーニングモデルです 詳細は拙著をご覧ください、実装しながら解説しています PyTorchによる発展ディープラーニング 第1章:画像分類と転移学習(VGG) 第2章:物体検出(SSD) 第3章:セマンティックセグメンテーション(PSPNet) 第4章:姿勢推定(OpenPose) 第5章:GANによる画像生成(DCGAN、Self-Attention GAN) 第6章:GANによる異常検知(AnoGAN、Efficient GAN) 第7章:自然言語処理による感情分析(Transformer) 第8章:自然言語処理による感情分析(BERT) 第9章:動画分類(3DCNN、ECO)
  • 21. COPYRIGHT 2019 INFORMATION SERVICES INTERNATIONAL - DENTSU, LTD. ALL RIGHTS RESERVED. 20 BERTによる文書系AIの取り組み influenceとは: 「とある訓練データ1つを抜いてモデルを学習させて、説明したいテス トデータを推論した際、その結果が最も変化する訓練データ」を求める。 実際に訓練データを1つずつ抜いた全パターンの学習モデルを用意して 推論するのは非現実的なので、近似計算をする。 テスト画像 類似性が高いと判明した訓練画像 類似性が低いとされた訓練画像
  • 22. COPYRIGHT 2019 INFORMATION SERVICES INTERNATIONAL - DENTSU, LTD. ALL RIGHTS RESERVED. 21 BERTによる文書系AIの取り組み 開発手法の概要 - ディープラーニングモデル:BERT - モデルの初期値:京大黒橋?川原研 BERT日本語Pretrainedモデル[5] - 分かち書き: Juman++v2[6] - データセット: livedoor ニュースコーパス(9クラス)[7] (9クラス:スポーツ、IT、家電、映画など) - ファインチューニング対象:BERTの最終Transformerと分類層 - 実装:PyTorch
  • 23. COPYRIGHT 2019 INFORMATION SERVICES INTERNATIONAL - DENTSU, LTD. ALL RIGHTS RESERVED. 22 BERTによる文書系AIの取り組み 結果:対象テストデータ (スポーツカテゴリ、テレビ番組、女子ゴルフ、苦労の話) ギャルとゴルファーからなる造語=ギャルファーを名乗る21歳、女子プロゴル ファー?金田久美子。3日深夜放送、TBS「S1」番組内「Turning Point」のコー ナーでは、美女アスリートの一人として19歳で大手スポンサーと契約を果たし、鳴 り物入りでプロ入りするも、その一年目は30試合で14回の予選落ちという苦しい 日々が続いた彼女にスポットを当てた。「このままダメなんじゃないかとか、この まま一生勝てないんじゃないかとか。ゴルフ場に着くと涙が出てくるんですよ
  • 24. COPYRIGHT 2019 INFORMATION SERVICES INTERNATIONAL - DENTSU, LTD. ALL RIGHTS RESERVED. 23 BERTによる文書系AIの取り組み 結果: BERT+influenceで計算した、最も似ている訓練データ (スポーツカテゴリ、テレビ番組、女子柔道、プレッシャーの話) 11日放送、テレビ朝日「あさナビ」には、ロンドン五輪?柔道女子57kg級金メダリ スト?松本薫が出演した。五輪の重圧について、「プレッシャーはあったんですけ ど、48kg級と52kg級の選手が試合の後、すぐに声をかけてくれて、プレッシャーは 全部吹き飛びました」と切り出した松本は、「福見選手は頑張れと。で、中村選手 は“最初の金メダルは松本さんだね”と声をかけて頂きました」と明かす。また、彼 女の代名詞となった
  • 25. COPYRIGHT 2019 INFORMATION SERVICES INTERNATIONAL - DENTSU, LTD. ALL RIGHTS RESERVED. 24 BERTによる文書系AIの取り組み 結果: BERT+influenceで計算した最も似ていない訓練データ(※Sports) (スポーツ新聞、男子サッカー、長友いじられエピソード) イタリアのスポーツ紙「ガゼッタ?デロ?スポルト」が16日、インテルのDF長友佑 都に関する記事を掲載。ロッカールームでの「いじられ役」として長友が人気者と なっており、食事の際にナプキンに大量のパルメザンチーズが仕込まれており、開 いた途端にチーズまみれになったエピソードを紹介している。しかしこの「いじ り」の内容に、ネットユーザーからは「いじり、ではなくいじめではないのか?」 と話題に。「いじめられてんじゃ
  • 26. COPYRIGHT 2019 INFORMATION SERVICES INTERNATIONAL - DENTSU, LTD. ALL RIGHTS RESERVED. おわりに Section 04 25
  • 27. COPYRIGHT 2019 INFORMATION SERVICES INTERNATIONAL - DENTSU, LTD. ALL RIGHTS RESERVED. 26 これからのアナウンス 私たちと一緒に働いていただけるコンサルタント、エンジニアも募集中 以下サイトをご覧ください ●AIビジネスプロジェクトマネージャ https://www.isidgroup.com/u/job.phtml?job_code=532 ●データサイエンス?ビジネス開発エンジニア https://www.isidgroup.com/u/job.phtml?job_code=430 https://www.isidgroup.com/u/job.phtml?job_category_code=5&company_code=1
  • 28. COPYRIGHT 2019 INFORMATION SERVICES INTERNATIONAL - DENTSU, LTD. ALL RIGHTS RESERVED. 27 引用文献とその他、おすすめ資料 [1] SHAP。 Lundberg, S. M., & Lee, S. I. (2017). A unified approach to interpreting model predictions. In Advances in Neural Information Processing Systems (pp. 4765-4774). [2] QA4AIコンソーシアムのAIプロダクト品質保証ガイドライン(19年5月) http://www.qa4ai.jp/download/ [3] BERT。Devlin, J., Chang, M. W., Lee, K., & Toutanova, K. (2018). Bert: Pre-training of deep bidirectional transformers for language understanding. arXiv preprint arXiv:1810.04805. [4] influence。 Koh, P. W., & Liang, P. (2017, August). Understanding black-box predictions via influence functions. In Proceedings of the 34th International Conference on Machine Learning-Volume 70 (pp. 1885-1894). JMLR. org. [5]京都大学黒橋?川原研BERT日本語Pretrainedモデル 。http://nlp.ist.i.kyoto- u.ac.jp/index.php?BERT%E6%97%A5%E6%9C%AC%E8%AA%9EPretrained%E3%83%A2%E3%83%87%E3%83%AB [6] Juman++v2 http://nlp.ist.i.kyoto-u.ac.jp/index.php?JUMAN++ [7] livedoor ニュースコーパス https://www.rondhuit.com/download.html
  • 29. COPYRIGHT 2019 INFORMATION SERVICES INTERNATIONAL - DENTSU, LTD. ALL RIGHTS RESERVED. 28 [8] 機械学習モデルの判断根拠の説明、原、第20回ステアラボ人工知能セミナー 、2018.12。 /SatoshiHara3/ss-126157179 [9]機械学習と解釈可能性、吉永、ソフトウェアジャパン2019。 https://speakerdeck.com/line_developers/machine-learning-and-interpretability
  • 30. COPYRIGHT 2019 INFORMATION SERVICES INTERNATIONAL - DENTSU, LTD. ALL RIGHTS RESERVED. 29 [10]深層学習の判断根拠を理解するための研究とその意義、久保、PRMU 2017熊本。 /takahirokubo7792/prmu-2017 [11] 2019年度 人工知能学会全国大会(第33回) 企画セッション「機械学習における説明可能性?公平性?安全性への 工学的取り組み」 https://www.jst.go.jp/crds/sympo/201906_JSAI/index.html
  • 31. COPYRIGHT 2019 INFORMATION SERVICES INTERNATIONAL - DENTSU, LTD. ALL RIGHTS RESERVED. 30 [12] Explainable AI in Industry (KDD 2019 Tutorial) /KrishnaramKenthapadi/explainable-ai-in-industry-kdd-2019- tutorial?utm_campaign=piqcy&utm_medium=email&utm_source=Revue%20newsletter
  • 32. COPYRIGHT 2019 INFORMATION SERVICES INTERNATIONAL - DENTSU, LTD. ALL RIGHTS RESERVED. CONFIDENTIAL 本文書(添付資料を含む)は、株式会社電通国際情報サービスが著作権その他の権利を有する営業秘密(含サプライヤー等第三者が権利を有するもの)です。 当社の許可なく複製し利用すること、また漏洩することは「著作権法」「不正競争防止法」によって禁じられております。 本資料内の社名?製品名は各社の登録商標です。