狠狠撸

DLLAB 強化学習 Day 2021
Azure ML 強化学習を用いた最新アルゴリズムの活用手法
株式会社電通国際情報サービス X(クロス)イノベーション本部
AIトランスフォーメーションセンター大串、小川
2021/01/22

[1] 弊社と発表者の紹介
[2] 強化学習の課題と Azure ML 強化学習
[3] Azure ML 強化学習デモンストレーション
本日の内容

会社紹介（省略）
株式会社電通
1975年に創業
電通グループのIT集団（SIer）
General Electric
Company（GE）
電通国際情報サービス（ISID）

会社紹介（省略）
クロスイノベーション本部
?オープンイノベーションラボ ?AIトランスフォーメーションセンター
?エンタープライズxRセンター ?UXデザインセンターなど

会社紹介
電通国際情報サービス ISID AIトランスフォーメーションセンター
https://isid-ai.jp/

小川雄太郎（おがわゆうたろう）
現職：クロスイノベーション本部AIトランスフォーメーションセンター
製品開発グループ?リーダ
業務：AI案件のコンサル、リード、自社AI製品の開発
兼職：日本ディープラーニング協会委員、早稲田大学非常勤講師、執筆業
Twitter：https://twitter.com/ISID_AI_team
自己紹介詳細：https://github.com/YutaroOgawa/about_me
書籍：発展ディープラーニング、深層強化学習、機械学習入門、因果分析

大串和正（おおぐしかずまさ）
現職：クロスイノベーション本部 AIトランスフォーメーションセンター
AIコンサルティンググループ
経歴：
?大学院
信号処理の研究室で Deep Learning が台頭前の物体認識や超解像技術の研究を行う
?ソニー株式会社、ソニーモバイルコミュニケーションズ株式会社
ノートパソコン VAIO のタッチパッドとカメラを担当
スマホカメラの画質設計担当。画質調整全般を行ったり、リーダー業務を行う
?電通国際情報サービス
独習していた機械学習を活かすため転職
AI製品開発、画像や強化学習が絡むAI案件のコンサルティングや開発を行う
昨年後半から「Deep Learning with PyTorch」の翻訳を行い、
今月末に「PyTorch実践入門」が発売されます。
翻訳しました
1月30日発売です

強化学習の課題と
Azure ML 強化学習

深層強化学習適用事例
実ビジネスにおける深層強化学習適用事例が増えている
[1] Google, Deep Mind
データセンタの冷却制御 [2] 大林組, Laboro.AI
ビルの制振 (PoC)
[3] Google
半導体チップの設計
https://xtech.nikkei.com/it/atcl/news/16/072102162/
https://www.technologyreview.jp/s/3679/the-ai-that-cut-googles-energy-bill-could-soon-help-you/ https://www.itmedia.co.jp/business/articles/1910/18/news081.html
https://webbigdata.jp/ai/post-5632
https://ai.googleblog.com/2020/04/chip-design-with-deep-reinforcement.html

1. シミュレータ
? バグはないか?
? 報酬設計は適切か?
? 現実とのギャップ
2. アルゴリズム
? 適用手法は適切か?
? ハイパーパラメータは適切か?
3. 評価
? 試行錯誤の結果を整理できているか?
? 結果が出るまでに時間がかかる
11
強化学習適用の難しいポイント
各要素が正しく動作?設定されないと期待した成果は得られない

1. シミュレータ
? 報酬設計は適切か?
? 現実とのギャップ
2. アルゴリズム
? 適用手法は適切か?
? ハイパーパラメータは適切か?
3. 評価
? 試行錯誤の結果を整理できているか?
? 結果が出るまでに時間がかかる
12
強化学習適用の難しいポイント
各要素が正しく動作?設定されないと期待した成果は得られない

? 機械学習プロセスをエンドツーエンドでサポートするマネージドサービス
? 必要なシステムモジュールをあらかじめビルトインしている
? 自動機械学習やパラメータチューニング機能による効率的なモデル開発
? 継続的なモデルのデプロイ & 運用管理をサポート
? スケーラブルな計算環境による並列分散処理 etc
Azure Machine Learning (Azure ML)
モデル学習
パッケージ化
& モデル検証
アセット管理モニタリング
デプロイ
CI/CD & モデル再学習
Azure DevOps & GitHub 統合

14
Azure Machine Learning ＋

? Ray : 分散並列処理のフレームワーク
? RLlib
? Ray 上に実装された、 Reinforcement Learning 用の Library
? スケールアウト
? 抽象化レイヤーでのコンポーネント提供:
Policy Model, Policy Evaluator, Policy Optimizer
? 共通の RLコンポーネントを構成する階層的かつ論理的に集中した制御
15
Ray / RLlib
Source: RLlib: Scalable Reinforcement Learning

16
Reinforcement Learning Estimator
? Azure ML Python SDK 1.5 ~ (Preview)
? Estimator で Ray/RLlib が利用可能に！
? ReinforcmentLearningEstimator
? Ray/RLlib をネイティブでサポート
? インフラの抽象化により、実行環境を即座に提供
? Compute Cluster
? Ray の基盤を構築
? スケーラブルな計算環境を提供
マネージドな強化学習サービスで大規模なスケーラブルな分散シミュレーション?学習を実現

デモンストレーション

Azure ML 強化学習を使って…
1. 強化学習の Hello world である CartPole を SAC で解いてみよう
2. アルゴリズムの比較をしてみよう (SAC vs. PPO)
3. CartPole を改造したオリジナル環境を SAC で解いてみよう
本日のデモ一覧
※ デモで使ったノートブックは以下の GitHub で公開しています
https://github.com/kohgushi/Seminar_DLLAB_RL_Day_20210122

19
デモで登場するアルゴリズム (SAC と PPO)

? 従来の強化学習では期待収益の最大化が目的であったが、
これに方策エントロピーの最大化が追加された
? これにより探索 (Exploration)と利用 (Exploitation) のバランスを取っている
? エントロピーの最大化により、ロバストな方策となる
? 方策オフ型 (off policy) のアルゴリズムであるため、
サンプル効率が良い (少ないステップ数で学習ができる)
? 調整すべきハイパーパラメータが少なく、使いやすい
20
SAC の特徴
方策の
エントロピー
パラメータ

1. Azure Portal から Machine Learning サービスを作成する
2. Machine Learning サービスへ移動し、「スタジオの起動」をクリックする
3. 「コンピューティング」からコンピューティングインスタンスを作成する
4. 作成されたコンピューティングの「JupyterLab」を選択する
21
Azure ML Workspace の準備 (省略)

まとめ
Azure ML強化学習（Azure ML-RL）の利点
- 様々な強化学習アルゴリズムを、簡単に切り替えて使用可能
- 複数台のノードで Simulation を簡単に並列実行でき、高速な訓練が可能
- 実験の結果がクラウド上に自動で保存されるので、実験トレーサビリティが良い
- 性能指標が自動でグラフ化され、モデルの性能変異を確認しやすい
性能指標の可視化
実験結果一覧

CONFIDENTIAL
【お問い合わせ先】
■ 株式会社電通国際情報サービス AIトランスフォーメーションセンター
https://isid-ai.jp/
■ X（クロス）イノベーション本部 AIトランスフォーメーションセンター
email: g-isid-ai@group.isid.co.jp

狠狠撸

Azure ML 強化学習を用いた最新アルゴリズムの活用手法

More Related Content

Azure ML 強化学習を用いた最新アルゴリズムの活用手法