狠狠撸

狠狠撸Share a Scribd company logo
1 
トレジャーデータ株式会社 
2014/09 
Takahiro Inoue (Chief Data Scientist) 
taka@treasure-data.com 
トレジャーデータのバッチクエリと 
アドホッククエリを理理解する
21 
Agenda 
1. バッチクエリ(Hive) v.s. アドホッククエリ(Presto) 
2. バッチクエリ型のアーキテクチャ 
2-1. バッチクエリ × Metric Insights 
2-2. バッチクエリ × Tableau Server 
2-3. バッチクエリ × Redshift × Tableau Desktop/Server 
2-4 (a). バッチクエリ × DMP 
2-4 (b). バッチクエリ × DMP × DSP 
3. アドホッククエリ型のアーキテクチャ 
3-1. アドホッククエリ × Chartio 
3-2. アドホッククエリ × Tableau Desktop 
3-3. アドホッククエリ × DMP
3 
1. バッチクエリ × アドホッククエリ
4 
Treasure Data Service 概要図 
クエリ結果 
?自動書込 
Result Output 
データ収集 
データ保管データ分析 
ストレージ 
Flexible, Scalable, 
Columnar Storage 
Webログ 
Appログ 
センサー 
RDBMS 
CRM 
ERP 
ストリーミング 
ログコレクター 
Treasure Agent 
並列列バルク 
アップローダー 
TD Toolbelt 
バッチ 
型分析 
アドホック 
型分析 
データ集計 
データ可視化?共有 
KPI 
Metric Insights, etc. 
分析ツール連携 
Tableau, 
Motion Board(予定) etc. 
他製品連携 
SQL, Pig 
RDBMS, Google Docs, 
AWS S3, FTP Server, 
etc. 
POS 
分析エンジン 
Hadoop, Treasure Query Accelerator 
データ抽出 
REST API 
ODBC/JDBC 
(SQL, Pig)
5 
Treasure Data Service 概要図 
クエリ結果 
?自動書込 
Result Output 
データ収集 
データ保管データ分析 
ストレージ 
Flexible, Scalable, 
Columnar Storage 
Webログ 
Appログ 
センサー 
RDBMS 
CRM 
ERP 
ストリーミング 
ログコレクター 
Treasure Agent 
並列列バルク 
アップローダー 
TD Toolbelt 
バッチ 
型分析 
アドホック 
型分析 
データ集計 
データ可視化?共有 
KPI 
Metric Insights, etc. 
分析ツール連携 
Tableau, 
Motion Board(予定) etc. 
他製品連携 
SQL, Pig 
RDBMS, Google Docs, 
AWS S3, FTP Server, 
etc. 
POS 
分析エンジン 
Hadoop, Treasure Query Accelerator 
データ抽出 
REST API 
ODBC/JDBC 
(SQL, Pig)
6 
バッチ型 × アドホック型 
バッチ型クエリ(Hive) アドホック型クエリ(Presto) 
言語 ? HiveQL (SQL Like) ? Prestgres (SQL Like) 
ケース ? 大規模な中間処理データを受渡が生 
じる並列処理に対して 
? 大規模なインプットでも,中間処理?結果 
データが小さくて済む並列処理に対して 
計算モデル ? Map Reduce ? MPP (Massively Parallel Processor) 
業務領域 ? KPIダッシュボード 
? 定型レポーティング 
? インタラクティブなデータ処理 
? 特定のユーザーの履歴抽出などのサポー 
ティング業務 
相性の良い 
 可視化ツール 
? Metric Insights 
? Tableau Server 
? Chartio 
? Tableau Desktop 
トレジャー 
 料金プラン ? Basic Plan ? Premium Plan
7 
計算モデルで?見見るクエリエンジンの違い
8 
分析スキームで?見見るクエリエンジンの違い 
(分析のPDCAに必要な2つの分析エンジンを両?方とも提供) 
Plan 
(施策設計) 
Check 
(効果測定) 
Do 
(施策実?行行) 
Act 
(原因探索索) 
バッチ型分析 
+ 
KPIダッシュボード 
?チューニング済Hadoop 
??大量量データが得意 
KPI 
?定義済指標の最新データ表?示 
?メンバー全員で共有 
アドホック型分析 
+ 
BIツール / 統計ツール 
?Treasure Query Accelerator 
??非常に?高速 
?任意の軸でアドホックに分析 
?原因の可視化
9 
管理理コンソールからのクエリ実?行行イメージ
10 
(a). バッチクエリ(Hive)の実?行行
11 
ノードの起動/ノード間のデータの受け渡し 
がどんな?小さい集計でも発?生する
12 
(b). アドホッククエリ(Presto)の実?行行
13 
アドホック型→MPPによる?高速レスポンスが可能
14 
トレジャーで可能な分析アーキテクチャ 
Webログ 
Appログ 
センサー 
スマフォ 
Appログ 
RDBMS 
CRM 
ERP 
POS 
小さい 
CSV/TSV 
Inside DB 
Direct 
Data mart 
CSV / TSV 
Raw SQL 
KPI 
BIツール等 
BIツール等 
統計ツール等 
ブラウザ 
SQ 
L 
データマート 
CSV / TSV 
Metric Insights  
etc 
Tableau, 
MotionBoard 
SAS, SPSS,  
R etc… 
全件データ 
データマート 
バッチ 
バッチ 
アドホック 
アドホック 
JDBC/ 
ODBC 
REST API 
JDBC/ 
ODBC 
REST API 
バッチ 
バッチ 
Treasure 
Agent 
iOS /Android 
SDK 
TD Toolbelt 
Web 
Browser 
Streaming 
Mobile 
Legacy 
Trial 
Power BI, 
Excel, 
QlikView 
データ収集 データ保管 データ分析
15 
2. バッチ型のアーキテクチャ
Webログ 
Appログ 
センサー 
スマフォ 
Appログ 
RDBMS 
CRM 
ERP 
POS 
小さい 
CSV/TSV 
KPI Inside DB 
Metric Insights  
etc 
全件データ 
バッチ JDBC/ 
ODBC 
REST API 
Treasure 
Agent 
iOS /Android 
SDK 
TD Toolbelt 
Web 
Browser 
Streaming 
Mobile 
Legacy 
Trial 
データ収集 データ保管 データ分析 
16 
2-‐??1. バッチクエリ × Metric Insights
17 
2-‐??1. バッチクエリ × Metric Insights
18 
2-‐??2. バッチクエリ × Tableau Server 
Webログ 
Appログ 
センサー 
スマフォ 
Appログ 
RDBMS 
CRM 
ERP 
POS 
小さい 
CSV/TSV 
c 
Direct 
Tableau 
Server 
全件データ 
バッチ 
Result Push 
Treasure 
Agent 
iOS /Android 
SDK 
TD Toolbelt 
Web 
Browser 
Streaming 
Mobile 
Legacy 
Trial 
データ収集 データ保管 データ分析 
Tableau Server 上の 
ソースデータを更更新
19 
2-‐??3. バッチクエリ × Redshift 
× Tableau Server/Desktop 
Webログ 
Appログ 
センサー 
スマフォ 
Appログ 
RDBMS 
CRM 
ERP 
POS 
小さい 
CSV/TSV 
Treasure 
Agent 
iOS /Android 
SDK 
TD Toolbelt 
Web 
Browser 
Streaming 
Mobile 
Legacy 
Trial 
データ収集 データ保管 データ分析 
データマート BIツール等 Data mart 全件データ 
バッチ 
Redshift
20 
2-‐??4(a). バッチクエリ × DMP 
データ収集 データ保管 データ分析 
全件データ 
バッチ 
Segment 
DB 
ユーザーの行動履歴ログ 
でセグメントDBを更更新 
ログインログ 
課?金金ログ 
招待ログ 
ユーザー 
Data Mart 
?行行動 
ユーザーの 
セグメント情報
21 
2-‐??4(b). バッチクエリ × DMP × DSP 
データ収集 データ保管 データ分析 
全件データ 
バッチ 
Segment 
DB 
ユーザーの行動履歴ログ 
でセグメントDBを更更新 
ログインログ 
課?金金ログ 
招待ログ 
DSP 
ユーザー 
KV Store 
広告配信 
?行行動 
ユーザーの 
セグメント情報
22 
3. アドホック型のアーキテクチャ
23 
3. アドホッククエリ × データマート 
(データマートをどこに置くかの違い) 
Webログ 
Appログ 
センサー 
スマフォ 
Appログ 
RDBMS 
CRM 
ERP 
POS 
小さい 
CSV/TSV 
Treasure 
Agent 
iOS /Android 
SDK 
TD Toolbelt 
Web 
Browser 
Streaming 
Mobile 
Legacy 
Trial 
データ収集 データ保管 データ分析 
Direct 
Data mart 
BIツール等 
データマート BIツール等 
Tableau, 
Chartio 
全件データ 
バッチ データマート アドホック 
JDBC/ 
ODBC 
REST API 
バッチ 
Redshift 
× Tableau 
アドホック
24 
3-‐??1. アドホッククエリ × Chartio 
Webログ 
Appログ 
センサー 
スマフォ 
Appログ 
RDBMS 
CRM 
ERP 
POS 
小さい 
CSV/TSV 
Treasure 
Agent 
iOS /Android 
SDK 
TD Toolbelt 
Web 
Browser 
Streaming 
Mobile 
Legacy 
Trial 
データ収集 データ保管 データ分析 
BIツール等 Direct 
Chartio 
全件データ 
バッチ データマート アドホック 
JDBC/ 
ODBC 
REST API 
アドホック
25 
3-‐??1. アドホッククエリ × Chartio
26 
3-‐??2. アドホッククエリ × Tableau Desktop 
Webログ 
Appログ 
センサー 
スマフォ 
Appログ 
RDBMS 
CRM 
ERP 
POS 
小さい 
CSV/TSV 
Treasure 
Agent 
iOS /Android 
SDK 
TD Toolbelt 
Web 
Browser 
Streaming 
Mobile 
Legacy 
Trial 
データ収集 データ保管 データ分析 
BIツール等 Direct 
Tableau 
全件データ 
バッチ データマート アドホック 
JDBC/ 
ODBC 
REST API 
アドホック
27 
3-‐??2. アドホッククエリ × Tableau Desktop
28 
3-‐??3. アドホッククエリ × DMP 
データ収集 データ保管 データ分析 
ユーザーの行動履歴ログで 
セグメントテーブルを更更新 
バッチ 
全件データ 
ログインログ 
課?金金ログ 
招待ログ 
ユーザー 
?行行動 
Segment Table 
アドホック

More Related Content

What's hot (20)

PDF
全力解説!罢谤补苍蝉蹿辞谤尘别谤
Arithmer Inc.
?
PDF
AlmaLinux と Rocky Linux の誕生経緯&比較
beyond Co., Ltd.
?
PDF
[Cloud OnAir] Bigtable に迫る!基本機能も含めユースケースまで丸ごと紹介 2018年8月30日 放送
Google Cloud Platform - Japan
?
PDF
AWS Black Belt Online Seminar AWS Direct Connect
Amazon Web Services Japan
?
PDF
ナレッジグラフ入门
KnowledgeGraph
?
PDF
MLOps Yearning ~ 実運用システムを構築する前にデータサイエンティストが考えておきたいこと
Rakuten Group, Inc.
?
PPTX
チャットコミュニケーションの問題と心理的安全性の課題 #EOF2019
Tokoroten Nakayama
?
PPTX
产补肠办濒辞驳蝉でも颁滨/颁顿する梦を见る
Takeru Maehara
?
PDF
インタフェース完全に理解した
torisoup
?
PDF
ユーサ?ーストーリー駆动开発て?行こう。
toshihiro ichitani
?
PDF
FastAPIを使って 機械学習モテ?ルをapi化してみた
Sho Tanaka
?
PDF
叠础厂贰冲プレゼン用サービス説明资料
Find Job Startup
?
PPTX
マイクロサービスにおける 結果整合性との戦い
ota42y
?
PDF
爆速クエリエンシ?ン”笔谤别蝉迟辞”を使いたくなる话
Kentaro Yoshida
?
PDF
推荐アルゴリズムの今までとこれから
cyberagent
?
PDF
AWS Black Belt Online Seminar 2017 AWS Storage Gateway
Amazon Web Services Japan
?
PDF
ぐるなびが活用するElastic Cloud
Elasticsearch
?
PPTX
実践!Django + GraphQL 実装
ssuseraf19bf
?
PDF
イミュータブルデータモデル(入门编)
Yoshitaka Kawashima
?
PDF
骋补苍驳濒颈补はじめました
yuzorock
?
全力解説!罢谤补苍蝉蹿辞谤尘别谤
Arithmer Inc.
?
AlmaLinux と Rocky Linux の誕生経緯&比較
beyond Co., Ltd.
?
[Cloud OnAir] Bigtable に迫る!基本機能も含めユースケースまで丸ごと紹介 2018年8月30日 放送
Google Cloud Platform - Japan
?
AWS Black Belt Online Seminar AWS Direct Connect
Amazon Web Services Japan
?
ナレッジグラフ入门
KnowledgeGraph
?
MLOps Yearning ~ 実運用システムを構築する前にデータサイエンティストが考えておきたいこと
Rakuten Group, Inc.
?
チャットコミュニケーションの問題と心理的安全性の課題 #EOF2019
Tokoroten Nakayama
?
产补肠办濒辞驳蝉でも颁滨/颁顿する梦を见る
Takeru Maehara
?
インタフェース完全に理解した
torisoup
?
ユーサ?ーストーリー駆动开発て?行こう。
toshihiro ichitani
?
FastAPIを使って 機械学習モテ?ルをapi化してみた
Sho Tanaka
?
叠础厂贰冲プレゼン用サービス説明资料
Find Job Startup
?
マイクロサービスにおける 結果整合性との戦い
ota42y
?
爆速クエリエンシ?ン”笔谤别蝉迟辞”を使いたくなる话
Kentaro Yoshida
?
推荐アルゴリズムの今までとこれから
cyberagent
?
AWS Black Belt Online Seminar 2017 AWS Storage Gateway
Amazon Web Services Japan
?
ぐるなびが活用するElastic Cloud
Elasticsearch
?
実践!Django + GraphQL 実装
ssuseraf19bf
?
イミュータブルデータモデル(入门编)
Yoshitaka Kawashima
?
骋补苍驳濒颈补はじめました
yuzorock
?

Similar to トレシ?ャーテ?ータのハ?ッチクエリとアト?ホッククエリを理解する (20)

PDF
トレシ?ャーテ?ータと迟补产濒别补耻実现する自动レホ?ーティンク?
Takahiro Inoue
?
PDF
[db tech showcase Tokyo 2014] D33: Prestoで実現するインタラクティブクエリ by トレジャーデータ株式会社 斉藤太郎
Insight Technology, Inc.
?
PDF
Prestoで実現するインタラクティブクエリ - dbtech showcase 2014 Tokyo
Treasure Data, Inc.
?
PPTX
ビッグデータ活用支援フォーラム
Recruit Technologies
?
PDF
この Visualization がすごい2014 ?データ世界を彩るツール6選?
Takahiro Inoue
?
PDF
【讲演资料】ビッグデータ时代の経営を支えるビジネスアナリティクスソリューション
Dell TechCenter Japan
?
PPTX
ビッグデータ&データマネジメント展
Recruit Technologies
?
PPT
Big data解析ビジネス
Mie Mori
?
PDF
[DI07] あらゆるデータに価値がある! アンチ断捨離ストのための Azure Data Lake
de:code 2017
?
PDF
Developers.IO 2019 Effective Datalake
Satoru Ishikawa
?
PDF
Big Data Visual Analytics Realized By Hadoop and Tableau
DataWorks Summit
?
PPTX
WebDB Forum 2012 基調講演資料
Recruit Technologies
?
PDF
Apache Drill で JSON 形式の オープンデータを分析してみる - db tech showcase Tokyo 2015 2015/06/11
MapR Technologies Japan
?
PPTX
贬补诲辞辞辫カンファレンス2013
Recruit Technologies
?
PDF
ビッグデータ処理データベースの全体像と使い分け
Recruit Technologies
?
PDF
Apache Drill Overview - Tokyo Apache Drill Meetup 2015/09/15
MapR Technologies Japan
?
PDF
[db tech showcase Tokyo 2014] B33: 超高速データベースエンジンでのビッグデータ分析活用事例 by 株式会社日立製作所 ...
Insight Technology, Inc.
?
PDF
リクルートのビッグデータ活用基盘とデータ活用に向けた取组み
Recruit Technologies
?
PDF
Treasure Data Intro for Data Enthusiast!!
Takahiro Inoue
?
PDF
【de:code 2020】 Power Platform で広がるデータ インテグレーションの世界 (1/2)
日本マイクロソフト株式会社
?
トレシ?ャーテ?ータと迟补产濒别补耻実现する自动レホ?ーティンク?
Takahiro Inoue
?
[db tech showcase Tokyo 2014] D33: Prestoで実現するインタラクティブクエリ by トレジャーデータ株式会社 斉藤太郎
Insight Technology, Inc.
?
Prestoで実現するインタラクティブクエリ - dbtech showcase 2014 Tokyo
Treasure Data, Inc.
?
ビッグデータ活用支援フォーラム
Recruit Technologies
?
この Visualization がすごい2014 ?データ世界を彩るツール6選?
Takahiro Inoue
?
【讲演资料】ビッグデータ时代の経営を支えるビジネスアナリティクスソリューション
Dell TechCenter Japan
?
ビッグデータ&データマネジメント展
Recruit Technologies
?
Big data解析ビジネス
Mie Mori
?
[DI07] あらゆるデータに価値がある! アンチ断捨離ストのための Azure Data Lake
de:code 2017
?
Developers.IO 2019 Effective Datalake
Satoru Ishikawa
?
Big Data Visual Analytics Realized By Hadoop and Tableau
DataWorks Summit
?
WebDB Forum 2012 基調講演資料
Recruit Technologies
?
Apache Drill で JSON 形式の オープンデータを分析してみる - db tech showcase Tokyo 2015 2015/06/11
MapR Technologies Japan
?
贬补诲辞辞辫カンファレンス2013
Recruit Technologies
?
ビッグデータ処理データベースの全体像と使い分け
Recruit Technologies
?
Apache Drill Overview - Tokyo Apache Drill Meetup 2015/09/15
MapR Technologies Japan
?
[db tech showcase Tokyo 2014] B33: 超高速データベースエンジンでのビッグデータ分析活用事例 by 株式会社日立製作所 ...
Insight Technology, Inc.
?
リクルートのビッグデータ活用基盘とデータ活用に向けた取组み
Recruit Technologies
?
Treasure Data Intro for Data Enthusiast!!
Takahiro Inoue
?
【de:code 2020】 Power Platform で広がるデータ インテグレーションの世界 (1/2)
日本マイクロソフト株式会社
?
Ad

More from Takahiro Inoue (20)

PDF
Treasure Data × Wave Analytics EC Demo
Takahiro Inoue
?
PDF
Tableauか?魅せる Data Visualization の世界
Takahiro Inoue
?
PDF
20140708 オンラインケ?ームソリューション
Takahiro Inoue
?
PDF
トレジャーデータ流,データ分析の始め方
Takahiro Inoue
?
PDF
オンラインゲームソリューション蔼トレジャーデータ
Takahiro Inoue
?
PDF
事例で学ぶトレジャーデータ 20140612
Takahiro Inoue
?
PDF
トレジャーデータ株式会社について(for all Data_Enthusiast!!)
Takahiro Inoue
?
PDF
Hadoop and the Data Scientist
Takahiro Inoue
?
PDF
MongoDB: Intro & Application for Big Data
Takahiro Inoue
?
PDF
An Introduction to Fluent & MongoDB Plugins
Takahiro Inoue
?
PDF
An Introduction to Tinkerpop
Takahiro Inoue
?
PDF
An Introduction to Neo4j
Takahiro Inoue
?
PDF
The Definition of GraphDB
Takahiro Inoue
?
PDF
Large-Scale Graph Processing?Introduction?(完全版)
Takahiro Inoue
?
PDF
Large-Scale Graph Processing?Introduction?(LT版)
Takahiro Inoue
?
PDF
Advanced MongoDB #1
Takahiro Inoue
?
PDF
はじめての骋濒耻蝉迟别谤贵厂
Takahiro Inoue
?
PDF
はじめての惭辞苍驳辞顿叠
Takahiro Inoue
?
PDF
MongoDB & Hadoop: Flexible Hourly Batch Processing Model
Takahiro Inoue
?
PDF
MongoDB: Replication,Sharding,MapReduce
Takahiro Inoue
?
Treasure Data × Wave Analytics EC Demo
Takahiro Inoue
?
Tableauか?魅せる Data Visualization の世界
Takahiro Inoue
?
20140708 オンラインケ?ームソリューション
Takahiro Inoue
?
トレジャーデータ流,データ分析の始め方
Takahiro Inoue
?
オンラインゲームソリューション蔼トレジャーデータ
Takahiro Inoue
?
事例で学ぶトレジャーデータ 20140612
Takahiro Inoue
?
トレジャーデータ株式会社について(for all Data_Enthusiast!!)
Takahiro Inoue
?
Hadoop and the Data Scientist
Takahiro Inoue
?
MongoDB: Intro & Application for Big Data
Takahiro Inoue
?
An Introduction to Fluent & MongoDB Plugins
Takahiro Inoue
?
An Introduction to Tinkerpop
Takahiro Inoue
?
An Introduction to Neo4j
Takahiro Inoue
?
The Definition of GraphDB
Takahiro Inoue
?
Large-Scale Graph Processing?Introduction?(完全版)
Takahiro Inoue
?
Large-Scale Graph Processing?Introduction?(LT版)
Takahiro Inoue
?
Advanced MongoDB #1
Takahiro Inoue
?
はじめての骋濒耻蝉迟别谤贵厂
Takahiro Inoue
?
はじめての惭辞苍驳辞顿叠
Takahiro Inoue
?
MongoDB & Hadoop: Flexible Hourly Batch Processing Model
Takahiro Inoue
?
MongoDB: Replication,Sharding,MapReduce
Takahiro Inoue
?
Ad

Recently uploaded (9)

PDF
安尾 萌, 北村 茂生, 松下 光範. 災害発生時における被害状況把握を目的とした情報共有システムの基礎検討, 電子情報通信学会HCGシンポジウム2018...
Matsushita Laboratory
?
PDF
Forguncy 10 製品概要資料 - ノーコードWebアプリ開発プラットフォーム
フォーガンシー
?
PPTX
勉強会_ターミナルコマント?入力迅速化_20250620. pptx. .
iPride Co., Ltd.
?
PPTX
色について.pptx .
iPride Co., Ltd.
?
PDF
論文紹介:Unbiasing through Textual Descriptions: Mitigating Representation Bias i...
Toru Tamaki
?
PDF
論文紹介:AutoPrompt: Eliciting Knowledge from Language Models with Automatically ...
Toru Tamaki
?
PDF
安尾 萌, 松下 光範. 環境馴致を計量可能にするための試み,人工知能学会第4回仕掛学研究会, 2018.
Matsushita Laboratory
?
PDF
安尾 萌, 藤代 裕之, 松下 光範. 協調的情報トリアージにおけるコミュニケーションの影響についての検討, 第11回データ工学と情報マネジメントに関する...
Matsushita Laboratory
?
PPTX
Vibe Codingを始めよう ?Cursorを例に、ノーコードでのプログラミング体験?
iPride Co., Ltd.
?
安尾 萌, 北村 茂生, 松下 光範. 災害発生時における被害状況把握を目的とした情報共有システムの基礎検討, 電子情報通信学会HCGシンポジウム2018...
Matsushita Laboratory
?
Forguncy 10 製品概要資料 - ノーコードWebアプリ開発プラットフォーム
フォーガンシー
?
勉強会_ターミナルコマント?入力迅速化_20250620. pptx. .
iPride Co., Ltd.
?
色について.pptx .
iPride Co., Ltd.
?
論文紹介:Unbiasing through Textual Descriptions: Mitigating Representation Bias i...
Toru Tamaki
?
論文紹介:AutoPrompt: Eliciting Knowledge from Language Models with Automatically ...
Toru Tamaki
?
安尾 萌, 松下 光範. 環境馴致を計量可能にするための試み,人工知能学会第4回仕掛学研究会, 2018.
Matsushita Laboratory
?
安尾 萌, 藤代 裕之, 松下 光範. 協調的情報トリアージにおけるコミュニケーションの影響についての検討, 第11回データ工学と情報マネジメントに関する...
Matsushita Laboratory
?
Vibe Codingを始めよう ?Cursorを例に、ノーコードでのプログラミング体験?
iPride Co., Ltd.
?

トレシ?ャーテ?ータのハ?ッチクエリとアト?ホッククエリを理解する

  • 1. 1 トレジャーデータ株式会社 2014/09 Takahiro Inoue (Chief Data Scientist) taka@treasure-data.com トレジャーデータのバッチクエリと アドホッククエリを理理解する
  • 2. 21 Agenda 1. バッチクエリ(Hive) v.s. アドホッククエリ(Presto) 2. バッチクエリ型のアーキテクチャ 2-1. バッチクエリ × Metric Insights 2-2. バッチクエリ × Tableau Server 2-3. バッチクエリ × Redshift × Tableau Desktop/Server 2-4 (a). バッチクエリ × DMP 2-4 (b). バッチクエリ × DMP × DSP 3. アドホッククエリ型のアーキテクチャ 3-1. アドホッククエリ × Chartio 3-2. アドホッククエリ × Tableau Desktop 3-3. アドホッククエリ × DMP
  • 3. 3 1. バッチクエリ × アドホッククエリ
  • 4. 4 Treasure Data Service 概要図 クエリ結果 ?自動書込 Result Output データ収集 データ保管データ分析 ストレージ Flexible, Scalable, Columnar Storage Webログ Appログ センサー RDBMS CRM ERP ストリーミング ログコレクター Treasure Agent 並列列バルク アップローダー TD Toolbelt バッチ 型分析 アドホック 型分析 データ集計 データ可視化?共有 KPI Metric Insights, etc. 分析ツール連携 Tableau, Motion Board(予定) etc. 他製品連携 SQL, Pig RDBMS, Google Docs, AWS S3, FTP Server, etc. POS 分析エンジン Hadoop, Treasure Query Accelerator データ抽出 REST API ODBC/JDBC (SQL, Pig)
  • 5. 5 Treasure Data Service 概要図 クエリ結果 ?自動書込 Result Output データ収集 データ保管データ分析 ストレージ Flexible, Scalable, Columnar Storage Webログ Appログ センサー RDBMS CRM ERP ストリーミング ログコレクター Treasure Agent 並列列バルク アップローダー TD Toolbelt バッチ 型分析 アドホック 型分析 データ集計 データ可視化?共有 KPI Metric Insights, etc. 分析ツール連携 Tableau, Motion Board(予定) etc. 他製品連携 SQL, Pig RDBMS, Google Docs, AWS S3, FTP Server, etc. POS 分析エンジン Hadoop, Treasure Query Accelerator データ抽出 REST API ODBC/JDBC (SQL, Pig)
  • 6. 6 バッチ型 × アドホック型 バッチ型クエリ(Hive) アドホック型クエリ(Presto) 言語 ? HiveQL (SQL Like) ? Prestgres (SQL Like) ケース ? 大規模な中間処理データを受渡が生 じる並列処理に対して ? 大規模なインプットでも,中間処理?結果 データが小さくて済む並列処理に対して 計算モデル ? Map Reduce ? MPP (Massively Parallel Processor) 業務領域 ? KPIダッシュボード ? 定型レポーティング ? インタラクティブなデータ処理 ? 特定のユーザーの履歴抽出などのサポー ティング業務 相性の良い  可視化ツール ? Metric Insights ? Tableau Server ? Chartio ? Tableau Desktop トレジャー  料金プラン ? Basic Plan ? Premium Plan
  • 8. 8 分析スキームで?見見るクエリエンジンの違い (分析のPDCAに必要な2つの分析エンジンを両?方とも提供) Plan (施策設計) Check (効果測定) Do (施策実?行行) Act (原因探索索) バッチ型分析 + KPIダッシュボード ?チューニング済Hadoop ??大量量データが得意 KPI ?定義済指標の最新データ表?示 ?メンバー全員で共有 アドホック型分析 + BIツール / 統計ツール ?Treasure Query Accelerator ??非常に?高速 ?任意の軸でアドホックに分析 ?原因の可視化
  • 14. 14 トレジャーで可能な分析アーキテクチャ Webログ Appログ センサー スマフォ Appログ RDBMS CRM ERP POS 小さい CSV/TSV Inside DB Direct Data mart CSV / TSV Raw SQL KPI BIツール等 BIツール等 統計ツール等 ブラウザ SQ L データマート CSV / TSV Metric Insights etc Tableau, MotionBoard SAS, SPSS, R etc… 全件データ データマート バッチ バッチ アドホック アドホック JDBC/ ODBC REST API JDBC/ ODBC REST API バッチ バッチ Treasure Agent iOS /Android SDK TD Toolbelt Web Browser Streaming Mobile Legacy Trial Power BI, Excel, QlikView データ収集 データ保管 データ分析
  • 16. Webログ Appログ センサー スマフォ Appログ RDBMS CRM ERP POS 小さい CSV/TSV KPI Inside DB Metric Insights etc 全件データ バッチ JDBC/ ODBC REST API Treasure Agent iOS /Android SDK TD Toolbelt Web Browser Streaming Mobile Legacy Trial データ収集 データ保管 データ分析 16 2-‐??1. バッチクエリ × Metric Insights
  • 17. 17 2-‐??1. バッチクエリ × Metric Insights
  • 18. 18 2-‐??2. バッチクエリ × Tableau Server Webログ Appログ センサー スマフォ Appログ RDBMS CRM ERP POS 小さい CSV/TSV c Direct Tableau Server 全件データ バッチ Result Push Treasure Agent iOS /Android SDK TD Toolbelt Web Browser Streaming Mobile Legacy Trial データ収集 データ保管 データ分析 Tableau Server 上の ソースデータを更更新
  • 19. 19 2-‐??3. バッチクエリ × Redshift × Tableau Server/Desktop Webログ Appログ センサー スマフォ Appログ RDBMS CRM ERP POS 小さい CSV/TSV Treasure Agent iOS /Android SDK TD Toolbelt Web Browser Streaming Mobile Legacy Trial データ収集 データ保管 データ分析 データマート BIツール等 Data mart 全件データ バッチ Redshift
  • 20. 20 2-‐??4(a). バッチクエリ × DMP データ収集 データ保管 データ分析 全件データ バッチ Segment DB ユーザーの行動履歴ログ でセグメントDBを更更新 ログインログ 課?金金ログ 招待ログ ユーザー Data Mart ?行行動 ユーザーの セグメント情報
  • 21. 21 2-‐??4(b). バッチクエリ × DMP × DSP データ収集 データ保管 データ分析 全件データ バッチ Segment DB ユーザーの行動履歴ログ でセグメントDBを更更新 ログインログ 課?金金ログ 招待ログ DSP ユーザー KV Store 広告配信 ?行行動 ユーザーの セグメント情報
  • 23. 23 3. アドホッククエリ × データマート (データマートをどこに置くかの違い) Webログ Appログ センサー スマフォ Appログ RDBMS CRM ERP POS 小さい CSV/TSV Treasure Agent iOS /Android SDK TD Toolbelt Web Browser Streaming Mobile Legacy Trial データ収集 データ保管 データ分析 Direct Data mart BIツール等 データマート BIツール等 Tableau, Chartio 全件データ バッチ データマート アドホック JDBC/ ODBC REST API バッチ Redshift × Tableau アドホック
  • 24. 24 3-‐??1. アドホッククエリ × Chartio Webログ Appログ センサー スマフォ Appログ RDBMS CRM ERP POS 小さい CSV/TSV Treasure Agent iOS /Android SDK TD Toolbelt Web Browser Streaming Mobile Legacy Trial データ収集 データ保管 データ分析 BIツール等 Direct Chartio 全件データ バッチ データマート アドホック JDBC/ ODBC REST API アドホック
  • 26. 26 3-‐??2. アドホッククエリ × Tableau Desktop Webログ Appログ センサー スマフォ Appログ RDBMS CRM ERP POS 小さい CSV/TSV Treasure Agent iOS /Android SDK TD Toolbelt Web Browser Streaming Mobile Legacy Trial データ収集 データ保管 データ分析 BIツール等 Direct Tableau 全件データ バッチ データマート アドホック JDBC/ ODBC REST API アドホック
  • 28. 28 3-‐??3. アドホッククエリ × DMP データ収集 データ保管 データ分析 ユーザーの行動履歴ログで セグメントテーブルを更更新 バッチ 全件データ ログインログ 課?金金ログ 招待ログ ユーザー ?行行動 Segment Table アドホック