狠狠撸

狠狠撸Share a Scribd company logo
これからのデータ分析者とデータエンジニアに必要な
Data Science Experienceというツール
~あらゆるデータを活用するために~
日本アイ?ビー?エム株式会社
アナリティクス事業本部
アナリティクス?クライアント?アーキテクト
テクニカルリード
土屋 敦
Open Cloud Innovation 2016
本日の内容 ~45分~
? はじめに
? ラムダ?アーキテクチャー
? ストリーム処理
? データ?サイエンス?エクスペリエンスとは?
? まとめ
$whoami
> 土屋 敦 eatsushi@jp.ibm.com
> 日本アイ?ビー?エム株式会社 アナリティクス事業本部
> アナリティクス?クライアント?アーキテクト
> ストリーム?コンピューティング、分散並列処理 テクニカル?スペシャリスト
> 法政大学大学院 情報科学研究科 兼任教員
|
2015年~、Open for Dataを中心としたアーキテクト、先端テクノロジーのエバンジェリスト活動
2009年~、ストリーム処理(InfoSphere Streams) / 2010年~、Hadoop / 2014年~、Spark
2011年~、エンタープライズシステムにおける先端データベース技術
自动车元年だったでしょうか?
Cabriolet(カブリオレ) Wagon(ワゴン) Coupe(クーペ)
自動車はすぐ壊れるし、ガソリンがなくなったら走らない???
Flint Buick, 1904
Open Cloud Innovation2016 day1(これからのデータ分析者とエンジニアに必要なdatascienceexperienceツールと考え方)講演資料
Open Cloud Innovation2016 day1(これからのデータ分析者とエンジニアに必要なdatascienceexperienceツールと考え方)講演資料
Open Cloud Innovation2016 day1(これからのデータ分析者とエンジニアに必要なdatascienceexperienceツールと考え方)講演資料
Open Cloud Innovation2016 day1(これからのデータ分析者とエンジニアに必要なdatascienceexperienceツールと考え方)講演資料
Open Cloud Innovation2016 day1(これからのデータ分析者とエンジニアに必要なdatascienceexperienceツールと考え方)講演資料
Open Cloud Innovation2016 day1(これからのデータ分析者とエンジニアに必要なdatascienceexperienceツールと考え方)講演資料
Open Cloud Innovation2016 day1(これからのデータ分析者とエンジニアに必要なdatascienceexperienceツールと考え方)講演資料
Open Cloud Innovation2016 day1(これからのデータ分析者とエンジニアに必要なdatascienceexperienceツールと考え方)講演資料
Open Cloud Innovation2016 day1(これからのデータ分析者とエンジニアに必要なdatascienceexperienceツールと考え方)講演資料
Open Cloud Innovation2016 day1(これからのデータ分析者とエンジニアに必要なdatascienceexperienceツールと考え方)講演資料
アーキテクチャの変革
出典(IBM Institute for Business Value):Device democracy- Saving the future of the Internet of Things
http://www-01.ibm.com/common/ssi/cgi-
bin/ssialias?subtype=XB&infotype=PM&appname=GBSE_GB_TI_USEN&htmlfid=GBE03620USEN&attachment=GBE03620USEN.PDF#loaded
モノとモノ
モノとヒト
モノとサービス
? 安全に、効率よく、スケーラブルなシステム実現するには、
従来アーキテクチャーから徐々な変革を求められます。
データを活用することが目的
? データを収集することが目的ではなく、
データ処理?分析を行い、サービスへ有効活用することが目的。
収集は手段
目的はアクション
モノとモノ
モノとヒト
モノとサービス
例えば、データ分析から価値を得るには
? 世界中のモノとモノ、モノとヒト、モノとサービスの様々な情報の交換が始
まり、ノイズ除去、不足情報の付与、そしてデータ活用のための
分析を実施して、誰よりも早くアクションをすることが重要になります。
収集 処理?分析 アクション
Collect the
Data
Analyze
the Data
Act on the
Data
【サイクリック(循環)することが重要】
モノとモノ
モノとヒト
モノとサービス
本日の内容
? はじめに
? ラムダ?アーキテクチャー
? ストリーム処理
? データ?サイエンス?エクスペリエンスとは?
? まとめ
ラムダ?アーキテクチャ
? ラムダ?アーキテクチャは、過去のデータとリアルタイムなデータを区別する
ことなく、集計?分析することができる。
? 処理性能
? 処理タイミング
? 処理コスト
(CPU、メモリ、HDDコスト)
? 処理性能の拡張性
? システムの複雑性の最適化
バッチ層 提供層
スピード層
参考文献/情報:
http://lambda-architecture.net/
http://www.intellilink.co.jp/article/column/bigdata-kk03.html
3つのレイヤー(層)で考える
バッチ層
提供層
スピード層
? バッチ処理、ミニ(マイクロ)バッチ処理、そしてストリーム処理の関係
~境界線は曖昧~ 単にスピード重視なら、ストリーム処理の選択も。
ラムダ?アーキテクチャから見たテクノロジー俯瞰
バッチ処理
Batch
Processing
ストリーム処理
Stream
Processing
マイクロ?バッチMicro
Batch
Data inData at
? 1つのDB/DWH(One-Fits-All)ではなく,組み合わせによって、様々な
データ処理要求に対応し、より柔軟な基盤の提供を可能とする。
分析?処理要求に柔軟に対応できる構成にする
バッチ処理
Batch
Processing
ストリーム処理
Stream
Processing
マイクロ?バッチMicro
Batch
Data inData at
データ処理特性の考え方
? それぞれの層で異なる要求に応えるべく、各レイヤーに分けて実装すると
いう考え方→将来の新たな要求にも応えやすくなる。
バッチ(低) マイクロバッチ ストリーム(高)
処理モデル MapReduce マイクロバッチ ストリーム
実行時間 分~時間 秒~分 μ秒??秒~秒
実行単位 蓄積データ 蓄積データ
区切りデータ
流れるデータ
区切りデータ
実行契機 定期的、
指定時実行
アドホック、
定期的実行
継続的実行
ストリーム
レイヤー
インタラクティブ
レイヤー
バッチ
レイヤー
リアルタイムにデータ分析をする
? Sparkとストリーム処理の組み合わせ
DB DB
DB
マスタDB 履歴
DB
Apache Spark
MLlib
HDFS
ヒストリカル?データ
Model2 :
どのアクションを
実行すべきか?
Model1 :
これは同じ方
向に進んでい
るのか?
リアルタイム
インプットデータ
リアルタイム
予測分析&
コンテキスト解析
リアルタイム?ダッシュボー
ド
①データを蓄積
②モデル作成
③スコアリング
バッチ層
提供層スピード層
TWC :The Weather Company
TWCでの処理量の例
300億回APIコール/日
1.2億のアクティブ?モバイル?ユーザ
米国第三位のアプリ
360ペタバイトのトラヒック量/日
TWCは、ラムダアーキテクチャによる大規模データ処理を活用
ETL バッチ層
提供層
スピード層
パーソナル?ウェザー?ステーション(観測機器)におけるアーキテクチャ
パーソナル?ウェザー
ステーション
IBM Streams
1億5千万人を
超えるユーザ
1)データ受信(Ingestion)
2)データ?クレンジング(Cleansing)
3)5分間隔の集約(Aggregation)
4)1日間隔の集約(Aggregation)
5)1週間の集約(Aggregation)
6)データレイクへの並列書込み!
バッチ層
提供層
スピード層
本日の内容
? はじめに
? ラムダ?アーキテクチャー
? ストリーム処理
? データ?サイエンス?エクスペリエンスとは?
? まとめ
情報ソース
(取込み)
アクションまでに所要する時間
WAREHOUSE
レポート
アドホック?クエリ
データマート
ビジネスプロセッシング &
イベント管理
オペレーショナル
レポート
ダッシュボード 計画 スコアリング?カード
分析モデル & 情報
データ?インテグレーション
オペレーショナル?データ?ストア(ODS)
意思決定
アクション
今までの情報処理における時間軸の考え方
- アクションまでの実行時間短縮
-より速く予測する
-より早くルール実行する
など
アクションまでの時間
情報ソース(取込み)
WAREHOUSE
レポート
動的なクエリ
データ?インテグレーション
オペレーショナル?データ?ストア(ODS)
データマート
ビジネスプロセッ
シング & イベン
ト管理
オペレーショナル
レポート
ダッシュボード 計画 スコアリング
分析モデル & 情報
分析モデル
& リアルタイムな情報
様々な
データ
(構造化/非構造化)
意思決定
アクション
ストリーム処理の時間軸
ストリーム?コンピューティング
~Current Fact Finding~
【今の出来事の把握】
Nowcast
一般的なデータストア
~Historical Fact Finding~
【過去の出来事の発見】
■目的
静的な過去のデータをバッチ的に分析し、
過去の事実を発見する
■目的
流入するデータをリアルタイム分析し、
直近の事実を発見する
(クエリ駆動型)
(データ駆動型)
(データ?イベント駆動型)
ストリーム?コンピューティングとは
? 全データに対する一括処理を目的とせず、断続的に流れるデータをインメモリで
加工処理しデータ出力をする一連の流れを、
最も簡単にモデル化したデータ処理モデルを「ストリーム?コンピューティング」と呼ぶ。
従来のデータ処理との違い ~データを”永久”に保持しない~
記録データ
定期的?一括処理
〔結果〕
記録データ
〔要求〕 〔結果〕
処理
バッチ処理 クエリ処理 ストリーム?コンピューティング
更新?トランザクション
従来の
データ処理
※任意の時間?区間データを
インメモリ上に保持する
※全てのデータはHDDに
永続化されていることが前提。
PULL型 PUSH型
インメモリ
データ
処理
長い 応答時間 短い
〔データ〕 〔データ〕
〔結果〕
+
? 流れるデータを、キャプチャし、処理し、アクションへつなげる
ロジック
STREAM(経路)
※データの通り道
TUPLE(タプル)
※流れるデータ
SOURCE
(キャプチャ)
SINK
(アクション&シンク)Operator
(ロジック実行)
検知?アラート
ルール実行
リアルタイム
分析?可視化
アクション?制御
解析実行
R/SPSS
Operator(ロジック)
※処理ロジック
ストリーム?コンピューティングの概念
Honda R&D Co. Ltd.
エンジン故障のリスクをリアルタイムに分析し、新たなレース分析基盤の構築を支援
お客様の課題、要望
ハイブリッド?エンジンによるパワー?ユニット設
計の向上とエンジン故障を回避するためのリ
アルタイム?モニタリングの実現
サービス概要
F1に搭載した数百以上におよぶ複数のセン
サーからを、リアルタイムにモニタリング(可視
化)し、エンジン異常をモニタリング。収集し
たデータは、エンジン設計などへ反映するため
にディープな分析に活用
各種センサー?データ(燃費、エンジンからの
データ)の集約、集計、分析、提供
活用例、期待効果
F1ハイブリッド?エンジンの故障予測
開発時間の99%削減短縮と、10倍のR&D
におけるエンジン設計と戦略の効率化
分析に関連するコスト削減(USD 1M)
ハイブリッド?エンジンのデータを分析
→エンジン設計(燃費効率化)へ反映、
レース中の故障監視
IBM
Streams
リアルタム
解析
https://www-03.ibm.com/press/jp/ja/pressrelease/49190.wss#resource
IBM
Cognos
参考画像
IoT for Automotive
センサーデータをリアルタイムに取得
~リアルタイムデータの観察~
生命を脅かす状況や、急変の兆候を看護スタッフや専
門医が判断する最大24時間早く検知する。
? 平均20名以上の異なるソースから、毎秒約1,000
以上におよぶ測定値を監視
? 実証開始時は、2名からスタート、臨床実験での最
大監視数は120名、120万測定値/秒、これは約
10億レコード/日
? 現在は、クラウドでの展開も実施
専門医が経験則を生かし、データからパターンを見つける
ストアに蓄積した膨大な量のデータに対して解析を行い
、分析モデルを抽出。そのパターン分析モデルをストリー
ムに環流させることによって、リアルタイム分析、および、
長期的なデータ蓄積からの分析モデルの抽出のPDCA
サイクルを実装
オンタリオ工科大学
アラート
警告
様々な領域でリアルタイム処理が活用されています
メッセージ?ハブ IoT IoT
リアルタイム
データ加工
リアルタイム
トラッキング
リアルタイム
データ集計
IoT Analytics
リアルタイム
データ解析
本日の内容
? はじめに
? ラムダ?アーキテクチャー
? ストリーム処理
? データ?サイエンス?エクスペリエンスとは?
? まとめ
データサイエンスにおける2つの課題:
①スキル ②ツール
データサイエンティスト育成へのコミット
? 全世界でユーザが43万人を超えるコミュニティー(sponsored by IBM)
? データ?データサイエンスに関するコース
? @yourpace, @yourplace
? 完了証明書(完了バッジ取得)
? 60+ コース
? 5-5-5 rule
各コースに
? レッスンが5つ
? ビデオレクチャーが5つ
? 各レクチャーが5分間
? ハンズオン
BigDataUniversity.com
データサイエンティスト育成へのコミット - MOOC
データサイエンティスト育成へのコミット - Meetup
meetup.com/BDU-Tokyo
データサイエンスにおける2つの課題:
①スキル ②ツール
データサイエンティスト育成へのコミット
Data Scientist Workbench
46
Jupyterノートブック
Apache Zeppllin IDE Rstudio/Shiny
DSWBはSparkも利用可能
? コマンドライン
? インターフェイス
? Jupyter
? Apache Zeppelin
Standalone
Cluster
Zeppelin
Two Problems in Data Science:
スキル ツール
データサイエンティスト育成へのコミット
商用?組織横断的に使うには???
? 2016 IBM Corporation49
IBM DATA SCIENCE EXPERIENCE
A L L Y O U R T O O L S I N O N E P L A C E
Data Science Experience (DSX)は、データサイエンティスト?データエンジニアが
必要とするデータ分析環境を1つにして提供をします。
5
0 http://bit.ly/IntroDSXjpn
? 2016 IBM Corporation51
ビルドインされた、
簡単なコースから、
アドバンスなチュー
トリアルまで
学ぶ
オープンソールや
付加価値機能を
統合したデータ分
析ツール
作る
コラボレーションのた
めのコミュニティーと
ソーシャル機能
共創
IBM DATA SCIENCE EXPERIENCE
A L L Y O U R T O O L S I N O N E P L A C E
ビジネスアナリスト
アプリ開発者
データサイエンティスト
データエンジニアUnderstand
problem
and domain
Ingest
data
Transform:
clean
Transform:
shape
Create and
build model
Evaluate
Deliver and
deploy model
Architects how data is organized
and ensures operability
Gets deep into the data to draw
hidden insights for the business
Works with data to apply
insights to the business
strategy
Plugs into data and models and
writes code to build applications
FOSTERING COLLABORATION TO
DRIVE BETTER DECISIONS
アウトプット
分析
インプット
Communicate
results
Explore and
understand
data
データエンジニア
ビジネスアナリスト
データサイエンティスト
Composable
Services
Advanced
Analytics
Data
Recognition
Data Store
Awareness
Community
Experiences
Fluid Data
Layer
Social
IoT
DBaaS DB/DW
Public
An IBM Business
DELIVERING ONANEXT GENERATION
TECHNOLOGY FOR DATAANDANALYTICS
アプリ開発者
Analytics
Hybrid
? Watson Analytics
? Cognos Analytics
? SPSS Modeler
? Data Science Experience
? SPSS
? DataWorks
? DataWorks
? dashDB / DB2
? Spark / IDE
? Cloudant
? Compose
? Graph
in the cloud
on premises
Data Lake
収集 カタログ/ガバナンス ビルド デプロイ 提供
データサイエンティストビジネスアナリスト データエンジニア アプリ開発者
データソース
THE IT DATA STACK GIVES WAY TO A
FLUID DATA LAYER
Data Science EXperience
Notebooks
Data
RStudio
Projects
Shaping
Community
Scheduling
CORE CAPABILITIES OF THE
IBM DATA SCIENCE EXPERIENCE
データサイエンティストビジネスアナリスト
データエンジニア アプリ開発者
? 2016 IBM Corporation56
Shaping(シェーピング?データ加工):
?Sparkling.Data APIs: Jupyterノートブック
(Python/Scala)
?チュートリアル(Python and Scala)
RStudio (Shiny):
?Rstudio(オープンソースサーバ):16GB RAM/5GB領域
?Shiny: 分析WEBアプリの作成
?SparkR: Sparkサービスとの連携(Spark as a Service)
プロジェクト:
?共創(コラボ): プロジェクトへのユーザ追加
?ノートブックの共有/コネクション/ファイル管理
スケジューリング:
?CRON
?スケジューリングUI: スケジュールされたノートブック一覧、 前回/
次回実行予定、ステータス(初期版は機能制限あり)
コミュニティー:
? Analytics Exchange: コミュニティーによるオープ
ン?データとノートブック共有
? ソーシャルメディアによる共有機能
? ノートブックとデータのプリビュー機能
? ブログ(DSXブログ含む)
? チュートリアル (e.g., Big Data University)
ノートブック:
Jupyterノートブック
言語: Scala/Python/R
ライブラリ: Open Source and IBM
(Brunel/Prescriptive)
Import from File (*.ipynb)/URL/Templates
URLによる共有
IBM DATA SCIENCE EXPERIENCE
A L L Y O U R T O O L S I N O N E P L A C E
? 2016 IBM Corporation57
コミュニティー オープンソース 付加価値機能
- チュートリアル、データセットの探索
- データサイエンティストとの共創
- 質問をする – Ask Question
- 情報を収集する(記事、論文、技術情報)
- プロジェクトのフォークと共有
- Scala/Python/R/SQL
- Jupyter / Zeppelin* Notebooks
- RStudio IDE / Shinyアプリケーション
- Apache Spark
- その他のライブラリ
- データシェーピング/パイプラインUI *
- 自動データ準備(Auto-data prep)*
- 自動モデリング(Auto-modeling)*
- 高度なビジュアライゼーション*
- Model管理とデプロイメント*
- Well documented Model APIs*
IBM DATA SCIENCE EXPERIENCE
A L L Y O U R T O O L S I N O N E P L A C E
? 2016 IBM Corporation58
datascience.ibm.com
オープンβのリストを受け付けています
ご清聴ありがとうございました。
次回は、Meetupでお会いしましょう!
meetup.com/BDU-Tokyo
2016/10/18開催予定
TOKYO Big Data University Meetup
データサイエンティスト実践セミナー
DSWB – Data Scientist Workbench
? R, Python, Scala, Sparkを無償で利用できる開発?分析環境
datascientistworkbench.com
DSX – Data Science Experience
? DSWBがトライアル?勉強目的に対して、DSXは商用環境での利用を想定
datascience.ibm.com
ワークショップ、セッション、および資料は、IBMまたはセッション発表者によって準備され、それぞれ独自の見解を反映したものです。それらは情報提供の目的のみで提供されており、いかなる参加者に対しても法律的またはそ
の他の指導や助言を意図したものではなく、またそのような結果を生むものでもありません。本講演資料に含まれている情報については、完全性と正確性を期するよう努力しましたが、「現状のまま」提供され、明示または暗
示にかかわらずいかなる保証も伴わないものとします。本講演資料またはその他の資料の使用によって、あるいはその他の関連によって、いかなる損害が生じた場合も、IBMは責任を負わないものとします。 本講演資料に含
まれている内容は、IBMまたはそのサプライヤーやライセンス交付者からいかなる保証または表明を引きだすことを意図したものでも、IBMソフトウェアの使用を規定する適用ライセンス契約の条項を変更することを意図したも
のでもなく、またそのような結果を生むものでもありません。
本講演資料でIBM製品、プログラム、またはサービスに言及していても、IBMが営業活動を行っているすべての国でそれらが使用可能であることを暗示するものではありません。本講演資料で言及している製品リリース日付
や製品機能は、市場機会またはその他の要因に基づいてIBM独自の決定権をもっていつでも変更できるものとし、いかなる方法においても将来の製品または機能が使用可能になると確約することを意図したものではありま
せん。本講演資料に含まれている内容は、参加者が開始する活動によって特定の販売、売上高の向上、またはその他の結果が生じると述べる、または暗示することを意図したものでも、またそのような結果を生むものでもあ
りません。 パフォーマンスは、管理された環境において標準的なIBMベンチマークを使用した測定と予測に基づいています。ユーザーが経験する実際のスループットやパフォーマンスは、ユーザーのジョブ?ストリームにおけるマルチ
プログラミングの量、入出力構成、ストレージ構成、および処理されるワークロードなどの考慮事項を含む、数多くの要因に応じて変化します。したがって、個々のユーザーがここで述べられているものと同様の結果を得られると
確約するものではありません。
記述されているすべてのお客様事例は、それらのお客様がどのようにIBM製品を使用したか、またそれらのお客様が達成した結果の実例として示されたものです。実際の環境コストおよびパフォーマンス特性は、お客様ごとに
異なる場合があります。
IBM、IBM ロゴ、ibm.comは、 世界の多くの国で登録されたInternational Business Machines Corporationの商標です。他の製品名およびサービス名等は、それぞれIBMまたは各社の商標である場合がありま
す。現時点での IBM の商標リストについては、www.ibm.com/legal/copytrade.shtmlをご覧ください。
Adobe, Adobeロゴ, PostScript, PostScriptロゴは、Adobe Systems Incorporatedの米国およびその他の国における登録商標または商標です。
IT Infrastructure LibraryはAXELOS Limitedの登録商標です。
インテル, Intel, Intelロゴ, Intel Inside, Intel Insideロゴ, Centrino, Intel Centrinoロゴ, Celeron, Xeon, Intel SpeedStep, Itanium, およびPentium は Intel Corporationまたは子会社の米国およ
びその他の国における商標または登録商標です。
Linuxは、Linus Torvaldsの米国およびその他の国における登録商標です。
PowerLinux is a trademark of International Business Machines Corp. The registered trademark Linux is used pursuant to a sublicense from LMI, the exclusive licensee of Linus
Torvalds, owner of the mark on a world-wide basis.
Microsoft, Windows, Windows NT および Windowsロゴは Microsoft Corporationの米国およびその他の国における商標です。
ITILはAXELOS Limitedの登録商標です。
UNIXはThe Open Groupの米国およびその他の国における登録商標です。
Cell Broadband Engineは、Sony Computer Entertainment, Inc.の米国およびその他の国における商標であり、同社の許諾を受けて使用しています。
JavaおよびすべてのJava関連の商標およびロゴは Oracleやその関連会社の米国およびその他の国における商標または登録商標です。
Linear Tape-Open, LTO, LTOロゴ, UltriumおよびUltriumロゴは、HP, IBM Corp.およびQuantumの米国およびその他の国における商標です。

More Related Content

Open Cloud Innovation2016 day1(これからのデータ分析者とエンジニアに必要なdatascienceexperienceツールと考え方)講演資料