�ݺ�ߣ

DataWorks Summit 2017
SAN JOSE, USA JUNE 13-15
팅크웨어 선행기술개발팀
박대성

KEYPOINT
2
주요 화두
Streaming
Processing
Machine
Learning
• Apache NiFi & MiNiFi
• Tensorflow On Spark
• Café On Spark
• Anomaly Detection
• Fraud Prevention
• Financial Crime Detection
• Traffic Prediction
• Apache SPARK
• Deep Learning
• Apache Kafka
Interactive
Processing
& Analysis
• Apache Zeppelin
• IBM (Data Science Expericence)
• CASK
• Infoworks
…

CONTENTS TECHNICAL SESSION
Druid
TensorflowOnSpark
Apache Kudu
Hadoop Query Performance Smackdown
Apache Calcite
Apache Beam
The Future Of Apache Ambari
INTERACTIVE PROCESSING & ANALYSIS
3

4
DRUID
• 시계열(Time Series) 데이터 처리에 특화된 Data Store Engine.
• Apache Open Source License이지, 아직 Apache 프로젝트는 아님.
• 쉼없이 쏟아지는 실시간 시계열 데이터를 어떻게 실시간적으로 빠르
게 조회 할 수 있을까 라는 고민으로 탄생.

5
DRUID
• 계속 누적되는 데이터들에 자주 사용하는 Query들을 살펴보니 다음과
같은 사례가 많이 발생함.
• 그래서 시간을 기준으로 파티션을 나눔.
SELECT year, month, city, SUM(sales)
FROM table
WHERE month IN (12, 11, 10) AND year=2017 AND state='CA'
timestamp publisher advertiser click price
2017-01-01T00:00:35Z thinkware.com google.com 0 0.65
2017-01-01T01:02:00Z facebook.com google.com 0 0.82
• 일반적으로 세그먼트 당 5백만 행으로 나눔
• 드루이드의 각 세그먼트는 컬럼 단위 기반으로 저장

6
DRUID
• 컬럼의 데이터엔 id를 부여하여 데이터를 압축함 (String Type만 지원)
• thinkware.com -> 0, facebook.com -> 1
• google.com -> 0
• 저장된 형태
{publisher} -> [0, 0, 0, 1, 1, 1]
{advertiser} -> [0, 0, 0, 0, 0, 0]

7
DRUID
• 데이터를 조회하기위한 INDEX 알고리즘은 BITMAP INDEX를 사용
• 등장하는 위치를 기록
thinkware.com -> [111000]
facebook.com -> [000111]

8
DRUID
• BITMAP INDEX의 OR 연산 예
thinkware.com -> [111000]
facebook.com -> [000111]
SELECT * FROM table
WHERE publisher= 'thinkware.com' OR publisher='facebook.com'
thinkware.com
OR
facebook.com
[111000]
OR
[000111]
[111111]
"1~6행과 매칭"

9
DRUID
"Druid is NOT time series DB"
Druid는 원본 데이터를 저장하지 않고 기존 데이터에서 indexing 정보만 저장.
BROKER
REALTIME
HISTORICAL HDFS
CLIENT
DATA STREAM
HAND OFF
INDEXING
INDEXING

10
DRUID
• BENCHMARK
• Dataset : TPC-H 100G lineitem (600M Rows)
• AWS EMR 5.0.0, r3.4xlarge (2.5GHz * 16, 122G, 320G SSD) * 6 workers
AGGREGATION QUERY
(SUM, COUNT, LIKE, GROUP BY)
TOP-N QUERY
(ORDER BY)
http://www.popit.kr/druid-spark-performance

11
DRUID
• BENCHMARK
• Druid VS Apache SPARK

12
DRUID
• BENCHMARK
• Druid VS Apache SPARK
GROUP BY
timestamp를 기준으로 rollup을 하는 특성 때문
=> 데이터 적재 시, timestamp segment 기준으로 aggregation 값들을 미리 산출

13
DRUID
curl -X POST '<queryable_host>:<port>/druid/v2/?pretty' -H 'Content-
Type:application/json' -d @<query_json_file>
• DRUID QUERY
• HTTP REST API
• JSON Format 으로 데이터를 조회.
← Aggregation Queries
(데이터를 특정 값으로 필터링 하고
시간대별로 users평균을 집계하는 쿼리의 일부)
(예) Query로 표현하면 이정도
SELECT timestamp, AVG(users) FROM tbl
WHERE country='US' AND gender='M' GROUP BY hour

14
DRUID
"Druid is NOT time series DB"
Druid는 원본 데이터를 저장하지 않고 기존 데이터에서 indexing 정보만 저장.
Table JOIN Syntax

15
DRUID
• 여기까지가 과거 DRUID 이야기
Druid는 과거와는 다름
Dataworks2017에서 발표했던

16
DRUID
• Druid 0.10.0 의 이야기
Built-in SQL (Powered by Apache Calcite)
- REST API 뿐만 아니라 이젠 JDBC Driver도 제공.
- HIVE의 StorageHandler를 활용하여 Druid Input format을 구현
- Druid 기반의 Hive Table 을 만들 수 있음
Druid Input Format for Hive

17
DRUID
• Druid Query Recognition (Powered by Apache Calcite)
SELECT user, SUM(sales) AS s
FROM druid_table
WHERE month IN (12, 11, 10)
AND year=2017 AND state='CA'
GROUP BY user ORDER BY s DESC
LIMIT 10;
Apache Hive Query

18
DRUID
• Druid Query Recognition (Powered by Apache Calcite)
{ "queryType": "topN", "dataSource":
"sample_data", "dimension": "sample_dim",
"threshold": 5, "metric": "count",
"granularity": "all", "filter": { "type":
"and", "fields": [ { "type": "selector",
"dimension": "dim1", "value": "some_value" }, {
"type": "selector", "dimension": "dim2",
"value": "some_other_val" } ] },
"aggregations": [ { "type": "longSum", "name":
"count", "fieldName": "count" }, { "type":
"doubleSum", "name": "some_metric",
"fieldName": "some_metric" } ],
"postAggregations": [ { "type": "arithmetic",
"name": "sample_divide", "fn": "/", "fields": [
{ "type": "fieldAccess", "name": "some_metric",
"fieldName": "some_metric" }, { "type":
"fieldAccess", "name": "count", "fieldName":
"count" } ] } ], "intervals": [ "2013-08-
31T00:00:00.000/2013-09-03T00:00:00.000" ] }
Druid JSON Query
Table Scan
File Sink
Druid Input Format

19
DRUID
• Registering Druid Data Sources
• Point hive to the broker
- SET hive.druid.broker.address.default=druid.broker.hostname:8082;
• Create external table Statement
CREATE EXTERNAL TABLE druid_table
STORED BY 'org.apache.hadoop.hive.druid.DruidStorageHandler'
TBLPROPERTIES ("druid.datasource"='druid_source')

20
DRUID
• Push Data to Druid without Hive
• Push Data to Druid with Hive
CREATE TABLE druid_table
STORED BY 'org.apache.hadoop.hive.druid.DruidStorageHandler'
TBLPROPERTIES ("druid.datasource"="druid_source",
"druid.segment.granularity"="HOUR")
AS SELECT time, page, user, c_added FROM src;

21
DRUID
• Benefits both to Druid and Apache Hive
Druid
SQL Query를 사용 가능함
Hive를 통해 Join과 같은 복잡한 연산이 가능해짐
Hive
실시간 데이터에 대한 처리가 가능해짐

22
DRUID
• 결론
• time dimension 데이터에 대한 성능은 탁월.
• apache calcite & hive와의 연동으로 쓸모 있어진 것은 사실.
• 하지만
Order by 등이 들어가는 top-n Query 나
time dimension 이 없는 쿼리나 데이터에는 이점이 없음
• 한국에도 사용자모임이 생기는 등, 관심이 높아지고 있으나
아직까지 나온 버전은 0.10.0 버전

TensorFlowOnSpark
- 2016년 04월 분산, 병렬처리 기능이 추가.
- Hadoop Eco-System 환경에서의 사용 필요성이 대두됨.
- Apache Spark를 기반으로 Tensorflow 를 활용할 수 있는 프레임워크가 개발됨.
(Yahoo 에서 참여)
23

TensorFlowOnSpark
주요 특징
• Pyspark 기반
• Tensorboard 를 사용 가능.
• Python 2.7 - 3.x, Spark 1.6-2.x, TensorFlow 0.12-1.x, Hadoop 2.x 지원
24

25
APACHE KUDU
CRUD를 지원하는 Column 기반의 스토리지 엔진. (≒ NoSQL DB)
Kudu?
남동부 아프리카에 서식 중인 영양의 일종.

Apache Kudu
26
※ 이미지 출처 :
• Traditional Hadoop Storage Leaves a Gap

Apache Kudu
27
• Hive와 HBase의 단점은 줄이고 장점을 모을 수는 없을까?
• RDB형태의 Table 데이터 구조
• High-latency
• CRUD 불가
• Low-latency Random Access
• CRUD 지원
• row-key 설계가 어려움
(Monotonically Increasing keys 문제)

Apache Kudu
• Cloudera에서 개발. 주도적으로 참여.
• Key-Value 기반이나, RDB의 Table 형태의 데이터모델을 가짐
(HBase의 Row-key 설계문제를 고민하지 않아도 되고, JSON으로 가득찬 데이터를 들여다보지 않아도 됨)
• API를 통해 직접 접근이 가능하나,
SQL을 이용하여 RDB처럼 쓰기위해 Impala를 얹어서 쓰는 것이 일반적. (Spark도 지원작)
실제로 Impala와의 탁월한 호환.
(이렇다보니 Impala를 팔아먹기 위해 Kudu를 만든거 아닐까 생각도..)
28

Kudu? Druid?
29
DB Engine
Not DB!!

HADOOP QUERY PERFORMANCE
SMACKDOWN
30

HADOOP QUERY PERFORMANCE SMACKDOWN
에서 진행
컴캐스트는 세계에서 가장 큰 케이블 텔레비전과 방송 회사이며 미국에서 가장 큰 인터넷 서비스 제공업체
<위키백과>
엔진 별 데이터 저장 압축 기술에 대한 퍼포먼스들을 비교
31
MapReduce
LLAP
Presto
Tez
• ORC
• None
• Zlib
• Snappy
• Parquet
• None
• Snappy
• Gzip
• Sequence
• None
• Snappy
• Gzip
• Bzip
• Text
• None
• Snappy
• Gzip
• Bzip

테스트를 위한 QuerySet은 66개를 준비
테스트 결과, 각 환경에서 다음 쿼리들이 실패
- MapReduce : 8 Queries (80 Min)
- LLAP : 1 Query (10 Min)
- Spark : 2 Queries (20 Min)
- Presto : 5 Queries (50 Min)
- Tez : 2 Queries (20 Min)
32

33
MapReduce CUMULATIVE QUERY TIMES 1TB TPC_DS
(66개의 쿼리를 수행하는데 36시간이나 필요해서 포기)

34
평균 처리 속도 비교 (초) 가장 빠르게 동작한 엔진별 쿼리 수 비교 (건)
LLAP가 압승!

35
APACHE CALCITE
Query Planning Framework
Calcite?
방해석. 복굴절률이 높은 광물

APACHE CALCITE
- Cost-based Query Optimization
- 2013년 아파치 프로젝트에 등록
- 2015년 10월 아파치 탑레벨 프로젝트로 승격.
36
Julian Hyde가 프로젝트 주도
(현 Hortonworks 소속,
컨퍼런스 당일 발표자로 참석)

APACHE CALCITE
Planning Queries
37
SELECT p.productName, COUNT(*) as cnt
FROM splunk.splunk AS s
JOIN mysql.products AS p
ON s.productID = p.productID
WHERE s.action = 'purchase'
GROUP BY p.productName
ORDER BY cnt DESC
SCAN SCAN
JOIN
FILTER
GROUP
BY
ORDER
BY
splunk mysql
KEY : productID
action="purchase"

APACHE CALCITE
Optimized Queries
38
SELECT p.productName, COUNT(*) as cnt
FROM splunk.splunk AS s
JOIN mysql.products AS p
ON s.productID = p.productID
WHERE s.action = 'purchase'
GROUP BY p.productName
ORDER BY cnt DESC
SCAN SCAN
JOIN
GROUP
BY
ORDER
BY
splunk mysql
KEY : productID
action="purchase"
FILTER

APACHE CALCITE
Using AdaptiveMonteCarlo Algorithm
39
• Harinarayan, Rajaraman, Ullman(1996), "Implementing data cubes efficiently"
• org.pentaho.aggdes.algorithm.impl.AdaptiveMonteCarloAlgorithm

40
THE FUTURE OF APACHE AMBARI

기존 AMBARI의 한계
One-One Relationships
41
Ambari Ambari
Ambari
Cluster Cluster Cluster
Cluster
Ambari
Multi-Cluster 불가
HDP 2.6
Druid 0.92
Falcon 0.10.0
Spark2 2.1.1
….
HDP 2.6
Druid 0.92
Falcon 0.10.0
Spark2 2.1.1
….
Spark2 2.2.0
각각의 Stack 버전들도 hdp에 1:1 종속적
이 이외에도 서비스도 하나 밖에 운영 못하던 문제가 있음.
(ex : Hive 서비스를 하나밖에 운영 못함) 기존 레거시 시스템은 Hive1.2을
쓰는데 난 2.0을 같이 쓰고 싶은데..

Ambari를 Modular 화 시킴
- Multiple Clusters
- Multiple Stack
- Multiple Service
- Multiple Service Versions
- Multiple Host Components
- Multiple Hosting Platforms
42
Packlets
Mpacks
개별적이고 독립적인 서비스들의 패키지
ex) HDFS-3.0.0-packlet, SPARK-2.0.0-packlet
Packlets를 모아둔 배포용 패키지
ex) HDP-3.0.0-mpack, HDF-3.1.0-mpack
= Modular Upgrades 가능

Visualization
이번 Dataworks2017에 참여한 기업들은
시각화 도구들을 많이 공개함.
43
어떻게 데이터를 더 빠르게 처리할 것인가
어떻게 데이터를 보여주고 분석할 것인가
시스템 비 전문가가 데이터 분석을 하려면?

44
Web-Based Application
거의 모든 기업들이 내놓은 제품들이
Web-Application 형태.
Interactive User-Interface
대부분의 솔루션들이 아래의 UI와 유사하게 따라함
- Jupyter Notebook
- Apache NiFi
- Apache Zeppelin
- Tablue

IBM Data Science Experience ( https://dataplatform.ibm.com/ )
Jupyter Notebook 기반, Spark와 RStudio 를 내장.
그래서 Machine Learning (scikit-learn, Spark MLlib) , Deep Learning(Tensorflow, Caffe..) 가 된다고 홍보.
Cloud, Local, Desktop의 3가지 형태의 플랜 제공.
45

Cask Data Application Platform (CDAP) http://cask.co/products/cdap/
OpenSource, Apache 2.0 License.
Apache Nifi 와 유사하나 Nifi는 데이터 흐름에 치중했다면, CDAP는 데이터 전처리와 분석에 중점
46
(59초부터 재생)

Infoworks Cloud Data Warehouse http://www.infoworks.io/cloud
다양한 클라우드 서비스에 적재된 여러 데이터들을 통합, 가공해 주는 솔루션
47

Pentaho http://www.pentaho.com/product
히타치 그룹 Pentaho 사에서 설립/개발. Spark와의 호환을 자랑.
Nifi의 인터페이스 처럼 스탭 별 데이터 전처리 과정 등을 손쉽게 수행하고,
Tableu의 시각화 인터페이스도 포함하여 스탭별 출력되는 결과 데이터들을 시각화를 할수 있음.
48

TERADATA ASTER http://www.teradata.com/products-and-services/analytics-from-aster-overview
TERADATA의 데이터 관리 분석 도구.
스탠포드대학 출신 개발자 3명이 만든 aster data 가 전신. Teradata가 2011년에 인수함.
49

IMPETUS STREAM ANALYTIX https://streamanalytix.com
실시간 처리 및 분석이 가능한 플랫폼
50

�ݺ�ߣ

DataWorks Summit 2017

Recommended

More Related Content

Similar to DataWorks Summit 2017 (20)

More from Daesung Park (9)

DataWorks Summit 2017