狠狠撸

狠狠撸Share a Scribd company logo
? 2017 IBM Corporation
顿厂齿でデータ?サイエンス
~データサイエンスを行う環境が簡単に手に入ります~
2017年12月3日
日本アイ?ビー?エム株式会社
クラウド事業本部 アナリティクス?テクニカル?セールス
河田 大
hkwd@jp.ibm.com
Data Science ExperienceはIBM CloudのPaaS(旧Bluemix)の一つ
2
Liteプランは無料です
3
5GBのObject Storage
2 spark executor
なら無料です
データサイエンスでやること
? データの理解
? データの項目の確認
? サマリー
? グラフ
? 機械学習
? アルゴリズムによるルール作成
4
機械学習による予測:マーケティング
過去の
購買データ
新規顧客
②スコアリング①モデリング
購入か非購入か
モデルを元に現在のデータ
から予測(スコアリング)
DWH
モデル
過去購入のデータから未来の購入を予測
過去のデータを分析学習し、
未来を予測するモデル(式)
を生成
顧客ID 購入状況 飲食店 ETC 百貨店 宿泊施設
10001 非購入 F T F F
10002 購入 F F T T
目的変数(対象) 説明変数(入力)
説明変数(入力) 予測結果
顧客ID 飲食店 ETC 百貨店 宿泊施設 購入予測 確度
20001 F F F T 非購入 0.6
20002 F F T T 購入 0.8
過去の
製品データ
②スコアリング①モデリング
モデルを元に現在のデータから予
測(スコアリング)
モデル
過去の製造データから未来の不良を予測
過去のデータを分析学習し、
未来を予測するモデル(ルール)
を生成
ロットID 初期不良 バルブ開秒 圧力 電力 再検査
001 NO 30 高 低 あり
002 YES 45 低 高 なし
目的変数(対象) 説明変数(入力)
説明変数(入力) 予測結果
ロットID バルブ開秒 圧力 電力 再検査 初期不良確率
101 30 高 低 あり 0.2
102 45 低 高 なし 0.8
機械学習による予測:製造業
42
例:過去の製品データから未来の不良を予測
完成品
良品か初期不良か
Data Science Experienceとは?
7
オープンソース
Python / Scala/ R
Model作成ウィザード(BETA)
SPSS Modeler flow(BETA)
Object Storage
Notebook
IBM独自ツール
①分析ツール
Decision Optimization (CPLEX)
Libraries
Libraries
Visualizations
Deep Learning
③実行環境
Machine Learning
並列処理環境
Stream Designer(BETA)
④ストレージ?データ接続
REST API アプリ連携
Connector
②共同作業機能
Project管理 CommunityGithub連携
ブラウザさえあれば、
いつでも、どこでも
分析を進めること
ができます。
※IBM Cloudのサービス
複数ユーザが共同でデータサイエンスを行うための統合分析プラットフォーム
①分析ツール(オープンソース):Jupyterノートブック
? pySparkを利用して高速に大量データも処理できます。
説明コメント
ロジック
(Python/pandas)
可視化(結果表示)
Python/R/Scalaを利用して、データの理解、機械学習が可能
9
①分析ツール(IBM独自): Model作成ウィザード
DSXのData Assetから
分析対象データを選択
予測対象フィールドの選択
予測モデル
下記3つより選択(アルゴリズムは自動選択)
①2値分類
②多値分類
③クラスタリング
学習データ、テスト
データ割合設定
機械学習評価結果
AUC等の評価指標
DSXのProjectのModelsよりブラウザ上のGUIでModel作成を行うことができる。
②共同作業環境:DSXユーザとCollaborationイメージ
10
Project1
(所有者 Aさん )
Project2
(所有者 Aさん )
Project3
(所有者 Cさん)
Collaboration
Object Storage
Bさん
Cさん
Cさんの所有
プロジェクト
Bさんが
参照可能
Aさんの
アクセス範囲
Notebooks R
Data file
Data Connections
Notebooks python
Notebooks
Data file
Notebooks
Data Connections
Data assets
Models
DSXからログイン
IBM Cloudからログイン
ユーザ毎に所有する分析と
データの定義を共有する
データファイル
データ
サービス
に接続
②共同作業環境: Community
11
? 分析関連記事、オープンデータ、サンプルノートブック、チュートリアルを公開
? 随時アップデートされている。
コードのサンプルやチュートリアルが充実
③実行環境:並列処理環境
12
? インメモリの分散並列処理エンジンのSparkのクラスタを構築せずにすぐに使えます
? spark executorが標準で用意されます
? Liteプラン(無償):2executor
? Enterpriseプラン(有償):15 executor
Sparkによる並列処理を簡単に利用
Jupyter Python/R/Scala
③実行環境:Machine Learning
13
? DSXでつくった予測モデルをREST APIで呼び出せるようにします
? IBM Cloudのサービスの一つです(DSXの外部サービス)
予測モデルをアプリケーションから呼び出し可能にします
Scoring Server
Web
モバイル
コール?
センター
IOT
IBM Cloud
Machine Learning
REST API
性別:女性
年代:20
購入確率:60%
Machine LearningもIBM CloudのPaaS(旧Bluemix)の一つ
14
無料で試すことができます
④ストレージ?データ接続
15
IBM Cloudのデータサービス
?Db2 Warehouse on Cloud
?Cloudantなど
? ストレージを別途用意せずともデータの格納場所があります。
? もちろん外部のデータソースにもつながります。
データが格納でき、外部のデータベースにもつながります。
Object Storage
Liteプラン:5GB利用可能
それ以外のデータソース
IBM Cloud
IBM Cloud環境での購入予測イメージ
16
Cloud Foundry
アプリケーション
Db2 Cloud
RDB
DSX
データ分析
モデリング
Machine Learning
スコアリング
商品購入
おすすめ商品
購入情報の保管
購入情報の分析
購入予測
Node.js
IBM Cloud
IBM Cloud環境でのリアルタイム故障予知イメージ
17
IOT Platform
デバイス接続機器
センサー
Cloud Foundry
アプリケーション
Cloudant
NoSQLDB
Db2 Warehouse
RDB
DSX
データ分析
モデリング
Machine Learning
スコアリング
モニター
CognosAnalytics
ダッシュボード
故障予測
センサー情報の保管
センサー情報の分析
故障予知
ダッシュボード表示
デモ
18
故障予知デモ
1. データの確認 jupyter notebook
? Pythonを使った過去の故障データの理解
2. 故障予知モデル作成 Model作成ウィザード
? Model作成のウィザードを使った過去の実績データから故障予知モデル作成
3. 故障予知アプリ実装 Node-Red+Machine Learning
? 故障予知モデルを使ってセンサーからあがってくるデータから故障を予測
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
デモで利用したDSXコンポーネント
45
オープンソース
Python / Scala/ R
Model作成ウィザード(BETA)
SPSS Modeler flow(BETA)
Object Storage
Notebook
IBM独自ツール
①分析ツール
Decision Optimization (CPLEX)
Libraries
Libraries
Visualizations
Deep Learning
③実行環境
Machine Learning
並列処理環境
Stream Designer(BETA)
④ストレージ?データ接続
REST API アプリ連携
Connector
②共同作業機能
Project管理 CommunityGithub連携
ブラウザさえあれば、
いつでも、どこでも
分析を進めること
ができます。
※IBM Cloudのサービス
①データの確認
②機械学習
③アプリ連携
Data Science Experience
? PythonやRとSparkをつかったデータサイエンスがPaaSですぐに使える
? ScikitLearnやSpark ML、Tensor Flowなどの機械学習ライブラリが導入済み
? 並列処理にもマシンの準備やセットアップが不要
? IBM Cloudのサービスと連携して、業務展開ができる
? Node-RedなどIBM CloudのPaaSでつくったアプリとも簡単に連携できる
? Object StorageやDb2 Warehouseなど接続はコードを自動生成してくれる
? 他のユーザーと共同作業が可能
? コードとデータをまとめて他のユーザーとシェア可能
? GitHubとの連携も可能
Point
①
Point
②
IBM CloudでpythonやRでデータサイエンスがすぐにはじめられる
Point
③
Node.js Web
モバイル
コール?
センター
IOT
IBM Cloud
無償版あります
(参考)プログラミングと英語が苦手な方にはSPSS Modeler(オンプレ)
47
?ノンプログラミングで機械学習を行えます (予測、分類、パターン発見など)
?機械学習に必要なデータ加工も同時に行うことができます
?現場担当者やIT部門ともノウハウを共有できます
SPSSはノン?プログラミングのデータサイエンス?ツールです
IBM SPSS 評価版 - IBM アナリティクス – Japan
https://www.ibm.com/analytics/jp/ja/technology/spss/spss-trials.html
体験版あります

More Related Content

顿厂齿でデータ?サイエンス