狠狠撸
Submit Search
[社内勉強会]サクっと業務て?つくったロク?/テ?ータ調査環境(re:dash ? AWS Athena ? embulk)
?
5 likes
?
2,384 views
Takahiro Moteki
Follow
颁测产别谤窜社内勉强会资料蔼201711
Read less
Read more
1 of 30
Download now
Downloaded 13 times
More Related Content
[社内勉強会]サクっと業務て?つくったロク?/テ?ータ調査環境(re:dash ? AWS Athena ? embulk)
1.
サクっと業務でつくった ログ/データ調査環境 (re:dash ? AWS
Athena ? embulk)
2.
自己紹介 2 茂木 高宏(もてき たかひろ) 株式会社
CyberZ F.O.X事業 SRE engineer twitter: @tkmoteki facebook: takahiro.moteki.31 最近の業務 ● ログ/データ調査環境 ● AWS内の移行
3.
はじめに: 対象のログ/データ 3 ● サービスログ ○
例:) 広告系(クリック,コンバージョン), KPIログ... ● システムログ ○ 例:) アクセスログ, パフォーマンスログ, セキュリティログ... ● サービスデータ ○ 例:) マスタデータ, 中間データ, アカウントデータ... ● システムデータ ○ 例:) サービスディスカバリデータ, 監視/モニタリングデータ...
4.
はじめに: 話すところ データ収集 ETL/集計/保存
分析/調査/可視化 今回対象 (赤字) 今回対象外 (既存環境)
5.
Agenda 背景/課題1 方針2 選定/設計(システム/運用)3 構想(今後)5 re:dash紹介4
6.
背景: チーム/ユーザの用途 6 チーム A チーム B チーム C チーム SRE チーム SDK CS PO CSE セールス 開発チーム(ベーシックユーザ): 開 発/運用/調査用途 CSチーム(ライトユーザ): 調査用途,
顧客依頼の特殊対応 分析用途 エンジニア 非エンジニア
7.
背景: チーム/ユーザの調査利用 7 チーム A チーム B チーム C チーム SRE チーム SDK CS PO CSE セールス データベース エンジニア CS ETL/集計/保存 ビッグデータ クエリ クエリ エンジニア/CSで 同じユーザイン ターフェース エンジニア/CSで 同じ計算機リソー ス エンジニア
非エンジニア
8.
課題: 8 集計環境に影響し クエリ ゲロ遅い ● 1週間に2回
影響受けるETL/集計環境 ● Hive利用のため データ活用性低下 画面開発工数問題 ● ○○データの一覧取得&一括ダウンロード等で 画面開発工数かかる ● 大量データストアの調査クエリ発行の煩瑣 ● 全データ/結果を組み合わせにくい
9.
ログ/データ調査環境をサクっとつくる (分析環境ではない)
10.
Agenda 背景/課題1 方針2 設計(システム/運用)3 構想(今後)5 re:dash紹介4
11.
方針: 解決方針 11 集計環境に影響, クエリ ゲロ遅い
実行エンジンの見直し ~課題~ データ活用性低下 画面開発工数問題 ~解決方針~ ユーザインタフェース見直 し データの一元アクセス , 結果の結合が可能
12.
方針: システム要件 12 集計環境に影響, クエリ ゲロ遅い
実行エンジンの見直し ~課題~ データ活用性低下 画面開発工数問題 ~解決方針~ ユーザインタフェース見直 し データの一元アクセス , 結果の結合が可能 ~システム要件~ Scalability Simply Maintenability
13.
サクッとつくる極意 13 ● プログラムレス(なるべくコーディングしない) ● 構築レス(なるべくサーバつくらない) ●
设定レス(なるべくチューニングしない)
14.
Agenda 背景/課題1 方針2 設計(システム/運用)3 構想(今後)5 re:dash紹介4
15.
設計: 導入 15 集計環境に影響, クエリ ゲロ遅い
実行エンジンの見直し ~課題~ データ活用性低下 画面開発工数問題 ~解決方針~ ユーザインタフェース見直 し データの一元アクセス , 結果の結合が可能 ~システム要件~~導入~ Scalability Simply Maintenability AWS Athena re:dash embulk
16.
設計: 全体システムアーキ S3 S3 エンジニア CS フロントエンド Athena S3 バックエンド ログ/データ調査環境既存環境 他データストア/ストレージ
17.
設計: カンタンに説明 17 ● AWS
Athena ○ クラスタ不要/サーバ不要 インタラクティブなクエリサービス(マネージドpresto環境) ○ S3上データにpresto queryでアクセス ○ Big Queryとは異なる(DWH的に使えない) ● embulk ○ データロード, ETLを補完するツール(スキーマ推定型) ○ データストア、ストレージ/ファイルシステムへ対応 ○ プラグインアーキテクチャ(世の中の既存実装を取り込める) ● re:dash ○ 後ほど紹介
18.
規模 18 まだやり始めたばかりなので小規模 ● AWS Athena ○
12 データベース ○ 106 テーブル ○ 課金 約40$/月(※ これホントです! partition設計、ストレージフォーマット、スモールファイル撤廃等もろもろやってる) ● AWS S3 (Athenaスキャン対象 既存データ) ○ 総データ量 375TB ● embulk ○ データロード数(バッチ数) 32 ● re:dash ○ 約50~100 クエリ/日 ○ 登録query数 62 ○ dash boards数 8 工数: 約2~3週間でサクっとつくった
19.
Agenda 背景/課題1 方針2 設計(システム/運用)3 構想(今後)5 re:dash紹介4
20.
re:dash? オープンソースの軽量BI/可視化、 コラボレーションツール (エンジニア向けツール)
21.
何が出来るのか? 画面(ここからdemo)
22.
UI/機能 超シンプル 基本3つ(dashborad, query,
aleart) re:dash メリット
23.
対応データストアが多い (パブリッククラウドと親和性が高い) メリット
24.
低コスト (金額面、システム面、運用面) メリット
25.
便利機能 他 ● SQLスイスアーミーナイフ ●
スケジュールクエリ ● アラート ● クエリ/BIリンク ● クエリフォーク ● 異なるデータストア間での結合(join) ● REST API
26.
どう使ってるか?(例) 頻出クエリを登録&任意パラメータ実行 @AWS Athenaデータストア
27.
簡単な可視化 どう使ってるか?(例)
28.
どう使ってるか? :他 ● 大量データストアの調査クエリ等 ●
データ仕様書確認 @スプレッドシートデータソース ● 利用統計 @postgresql データソース ● 複数クエリの結合 @pythonデータソース
29.
Agenda 背景/課題1 方針2 設計(システム/運用)3 構想(今後)5 re:dash紹介4
30.
構想(今後) ● 分析環境(既存Tableau) ?
バックエンド連携 30 Liquid Athena S3 バックエンド
Download