狠狠撸

狠狠撸Share a Scribd company logo
Presented by Yuki Asano
on June 25, 2014
ヒ?ック?テ?ータエコシステムとテ?ータサイエンスのススメ
“I keep saying that the sexy job
in the next 10 years will be
statisticians.
And I’m not kidding.”
Chief Economist Hal Varian(Google)
Harvard Business Review Magazine
Data Scientist:
The Sexiest Job of the 21st Century
?
by Thomas H. Davenport and D.J. Patil.
ヒ?ック?テ?ータエコシステムとテ?ータサイエンスのススメ
SEXY
で
最強
Data Science
ヒ?ック?テ?ータエコシステムとテ?ータサイエンスのススメ
ヒ?ック?テ?ータエコシステムとテ?ータサイエンスのススメ
まずはここから
ヒ?ック?テ?ータエコシステムとテ?ータサイエンスのススメ
? Data Mining
? Analyze
? Optimize
Data Science
で、ビジネスにコミット!
? Data Mining
? Analytics
? Marketing
Data Science
With
Big Data
Big Data!!
? Data is King!!
? many OSS technologies
? Decision Making Support
? Peak of In?ated Expectation
at Hype Cycle
ヒ?ック?テ?ータエコシステムとテ?ータサイエンスのススメ
ヒ?ック?テ?ータエコシステムとテ?ータサイエンスのススメ
State of Big Data
? 市場に技術者がまだまだ不足
? 旧弊的な考え、文化的な問題
? データ指向ソフトウェア管理の定着
の難しさ
DIKW Pyramid
KNOWLEDGE
INFORMATION
DATA
WISDOM
知識からある法則を見出したもの
情報が分析され体系化されたもの
データが整理されたもの
個々に独立した要素
DIKW Pyramid
KNOWLEDGE
INFORMATION
DATA
WISDOM
知識からある法則を見出したもの
情報が分析され体系化されたもの
データが整理されたもの
個々に独立した要素
Data-Driven
Decision Making!!
Big Data??
? 母集団が多く多種特性のデータに対して効
果が認められている
? 有用な情報を見つけ出せる技術だが、見つ
からないかもしれない
? 何ができるか明確でない、ビジネスにコミッ
トする量を計ることが難しい
? 社内にあるデータがビッグじゃない
Big Data…
まずは堅実に、
?できることから始める
Integrated
Data
Management
ヒ?ック?テ?ータエコシステムとテ?ータサイエンスのススメ
Objectives
? Real-time Activity Monitor
? Improve Application Quality
? Analytic Data Supply
Objectives
Real-time Monitor
Improve Application Analytic Data Supply
?異常検知
?即時対応
?業務精度向上
?アドバンストログ
?顧客動向統計データ
?ステータス傾向認知
?ユーザーアクション傾
向認知
Big Data
を支える技術
ヒ?ック?テ?ータエコシステムとテ?ータサイエンスのススメ
ヒ?ック?テ?ータエコシステムとテ?ータサイエンスのススメ
ヒ?ック?テ?ータエコシステムとテ?ータサイエンスのススメ
ヒ?ック?テ?ータエコシステムとテ?ータサイエンスのススメ
Hadoop Ecosystem
Framework Data Storage
Query /
Data ?ow
Realtime
? MapRed v1
? YARN
? Apache Spark
? HDFS
? HBase
? Cassandra
? Amazon S3
? mongoDB
? Hive
? Pig
? Impala
? Drill
? Presto
? Stinger
? Apache Storm
? Apache Spark
? Esper
? Norikra
Hadoop Ecosystem
HDFS
YARN
HBase
PigHive
Monitoring / BI Tools / Data Analytics
Spark
Storm
Map Reduce
Script
DataQuality
Objectives
Hadoop
Hadoop is …
? OSS (Apache License 2.0)
? Map Reduce (v1/v2 on YARN)
? Hadoop Distributed File System
(HDFS)
Hadoop Cluster
Master
Namenode
Slave
Slave
Slave
Slave
JobTracker
Datanode TaskTracker
? Random mapping
? Slave control
HDFS MapReducePhysical
? Storage manage
? I/O stream
? Task schedule manage
? Task monitor
? Execute task
? Map and Reduce
Database
ヒ?ック?テ?ータエコシステムとテ?ータサイエンスのススメ
Database
Analytic
Big Tables
(Columnar)
Key-Value Document NewSQL RDBMS
Non-Rel
Relational
Non-Rel Relational
Hadoop HBase Redis mongoDB Amazon RDB MySQL
DB2 HyperTable Couchbase
MySQL
Cluster
Oracle
Sybase Cassandra Lotus Notes SQL Azure PostgreSQL
One size does not ?t all
Database
Analytic
Big Tables
(Columnar)
Key-Value Document NewSQL RDBMS
Non-Rel
Relational
Non-Rel Relational
Hadoop HBase Redis mongoDB Amazon RDB MySQL
DB2 HyperTable Couchbase
MySQL
Cluster
Oracle
Sybase Cassandra Lotus Notes SQL Azure PostgreSQL
One size does not ?t all
Data Stream
Management System
DBMS vs DSMS
DBMS DSMS
Query Ad Hoc Query Continuous Query
Target Stored Data Stream Data
App
? Web Application
? Batch Processing
? Operation & Maintenance
? Anomaly Event Detection
? Click Stream
? Sensor Data
Software
ISO SQL Lucene Esper S4
PL/SQL HiveQL Storm Oracle CQL
Impala Pig Spark StreamBase
Continuous Query
Ad Hoc Query
SELECT avg_age FROM user
WHERE SUBDATE(
NOW(), INTERVAL 5 MINUTE
) >= datetime
Continuous Query
SELECT avg_age
FROM user:time_batch(5 mins)
Stored
Data
Result
5min window
Complex Event Processing User
Stream Data
Result
Data Collect
? データを産む
? 収集する
? 最適化?保存する
? 可視化する
Data Collect
? データを産む
? 収集する
? 最適化?保存する
? 可視化する
Data Collect
統合ログ管理にお任せ!!
アプリのログ設計を強く推奨。
使えるものは何でもログに吐く!
?uentd
? 多様なデータインプット方法
? 本体は設定のみ超シンプル設計
? 有用なプラグイン多数
? プラグイン開発可能
View
Batch Layer
Speed Layer
Serving Layer
Merge
Collect Data
?All raw data store
?Pre-Compute
?Transformed Data
?Batch Transform
?Ad-hoc search
?Realtime Transform
?Continuous Query
?Real-time Increment Compute
?DSMS, CEP
?Query
?Visualize?Data From Apps
Lambda Architecture
View
Batch Layer
Speed Layer
Lambda Architecture
Serving Layer
Collect Data
Merge
Architecture
Client
FMS
?uentd
WEB
?uentd
Other
?uentd
HDFS
ElasticSearch
mongoDB
?uentd
R
HiveQL
Kibana
Nginx
Norikra
(Esper)
Aggregate Save ViewForwardCreate
Demo
Question
Thank you

More Related Content

ヒ?ック?テ?ータエコシステムとテ?ータサイエンスのススメ