狠狠撸

狠狠撸Share a Scribd company logo
分析環境をAWS Athenaに移行
その後1年間の運用課題を振り返る
自己紹介
株式会社CyberZ F.O.X エンジニア
茂木 高宏(もてき たかひろ)
twitter: @tkmoteki
facebook: takahiro.moteki.31
● インフラエンジニア
● SRE / ビッグデータエンジニア
● バックエンド全般 開発エンジニア
内容について
● 前提知識
○ AWSの基礎知識
● 対象
○ 開発/設計エンジニア, 運用エンジニア
アジェンダ
2. 移行前
1. プロダクト 概要
Amazon
Athena
3. 移行後 課題と解決
4. まとめ
アジェンダ
2. 移行前
1. プロダクト 概要
Amazon
Athena
3. 移行後 課題と解決
4. まとめ
Force Operation X(F.O.X)概要
レポーティング1
アプリ解析機能2
マーケット分析3
リターゲティング機能4
スマートフォン広告におけるマーケティング統合プラットフォーム
(広告効果計測ツール)
F.O.X位置づけ
メディア連携数
1,300
計測端末数
1.2億台
導入アプリ数
6,500
F.O.X
サーバ
メディア
App Store スマホ
2. リダイレクト
1. 広告click
3. Install
4. 初回起動
5. 広告成果を連絡
F.O.X連携メディア
Facebook Mobile
Measurement Partner
Twitter O?cial
Partner
App Attribution
Partner
F.O.Xビッグデータ環境利用形態
9
データ収集 処理(集計) 分析/可視化
F.O.Xビッグデータ環境利用形態
10
計測サーバ
KPI分析 売上分析
弊社 分析アプリ
データ収集 処理(集計) 分析/可視化
分析/
コンサル
Amazon
S3
ストレージ
(オンプレ)
オンプレ
サーバ
F.O.Xビッグデータ環境利用形態
11
計測サーバ
KPI分析 売上分析
弊社 分析アプリ
データ収集 処理(集計) 分析/可視化
分析/
コンサル
計測ログ
定常集計
固定 集計軸指標
レポートティング
任意 集計軸指標
データ
Amazon
S3
ストレージ
(オンプレ)
オンプレ
サーバ
F.O.Xビッグデータ環境利用形態
12
計測サーバ
KPI分析 売上分析
弊社 分析アプリ
データ収集 処理(集計) 分析/可視化
分析/
コンサル
計測ログ
定常集計
固定 集計軸指標
レポートティング
任意 集計軸指標
データ
Amazon
S3
ストレージ
(オンプレ)
オンプレ
サーバ
アジェンダ
2. 移行前
1. プロダクト 概要
Amazon
Athena
3. 移行後 課題と解決
4. まとめ
分析環境 移行前ワークロード
14
分析/
コンサル
① クエリを書く
任意 集計軸指標
(レポーティング)
② クエリ実行し結果取得
③’ ②提供(自動送付)
③ ②提供(手動)
オンプレ
サーバ
弊社顧客
分析環境 移行の選択肢
15
Amazon
Athena
Big Query
Amazon
EMR
分析環境 移行の選択肢
16
S3上のデータをそ
のまま使えるか?
クラスタ管理
不要か?
使い慣れたPresto
クエリ使えるか?
分析環境 移行の選択肢
17
Amazon
Athena
Amazon
EMR
Amazon
Athena
Big Query
Amazon
Athena
Amazon
EMR
S3上のデータをそ
のまま使えるか?
クラスタ管理
不要か?
使い慣れたPresto
クエリ使えるか?
Amazon Athena
18
Amazon
Athena
● インタラクティブなクエリベースの分析
サービス
○ クラスタレス / サーバレス
○ スキャンしたデータの従量課金制
○ JDBC / ODBC / API あり
Amazon Athena
19
クエリエディタ(クエリを書く)
実行
クエリ結果
$ aws athena start-query-execution 
> --query-string "SELECT 1;" 
> --result-configuration
OutputLocation=s3://****/****
GUI
CLI
アジェンダ
2. 移行前
1. プロダクト 概要
Amazon
Athena
3. 移行後 課題と解決
4. まとめ
分析環境 移行後ワークロード(1)
21
分析/
コンサル
① クエリを書く
② クエリ実行し結果取得
③’ ②提供(自動送付)
③ ②提供(手動)
Amazon
Athena
SELECTクエリ
任意 集計軸指標
(レポーティング)
弊社顧客
分析環境 移行後ワークロード(2)
Amazon
Athena
ビッグデータ分配 低頻度ETL
Amazon
S3
Amazon
S3
顧客AWS Account A
Tokyo region
Amazon
S3
顧客AWS Account B
Oregon region
CTASクエリ
CTASクエリ
CSVデータ
JSON
データ
Parquet
データ
弊社AWS Account
Tokyo region
スモールファイル
マージ
Other...
データクラスタリング
(bucketing)
1年間の運用振り返り
23
利用規模(現在)
● 1000 ~ 3000クエリ / day
● 500 ~ 700TB スキャン / month
● データ量 1.5 ~ 2 PB
○ ログ行 80億~ / day,
○ 総UU 17億~,
Amazon
Athena
1年間の運用振り返り
24
good
● 金額安い
● クエリ速い
● 運用ラク
Bad
● 金額安い
● クエリ速い
● 運用ラク
Amazon
Athena
Amazon
EMR
good: 金額安い
25
Amazon
EMR
Amazon
Athena
● コアr4.8xlarge × 30台
● 他メタストア用RDS...
Amazon Athenaの方が
課金額/月が体感10倍安い
good: クエリ速い(1)
26
Amazon
EMR
Amazon
Athena
● コアr4.8xlarge × 30台
● チューニングあり
Amazon Athenaの方が
SELECTクエリが約2~3倍速い
(同じスキャンデータ量×同じクエリ条件)
good: クエリ速い(2)
27
Amazon Athenaの方が
CTASクエリが約10倍早い
(同じスキャンデータ量×同じクエリ条件のParquet変換,
partitioning, bucketing)
Amazon
EMR
Amazon
Athena
● コアr4.8xlarge × 30台
● チューニングあり
good: 運用ラク
28
Amazon
EMR
Amazon
Athena
● チューニング
● インスタンスプランニング
● エコシステム
● チューニング
● インスタンスプランニング
● エコシステム
bad: キャパシティエラー
29
問題
Athena一時的な内部リソースエラー
ワークロード: 送付が出来ない
Your query has the following error(s):
Query exhausted resources at this scale factor
This query ran against the "default" database,
unless qualified by the query. Please post the
error message on our forum or contact customer
support with Query Id: xxxx
Your query has the following error(s):
Amazon Athena experienced a transient error
while executing this query. Waiting a couple of
minutes and retrying the query may solve the
problem. If you continue to see the issue,
please contact customer support for further
assistance. We apologize for the inconvenience.
You will not be charged for this query.
解決
再実行 or 自動リトライ
bad: APIスロットリング問題
30
問題
Athena API利用時にクエリ結果取得不可(GetQueryExecution APIスロットリ
ング)
(同時実行数でなく結果取得時のケース)
ワークロード: Athena利用箇所でクエリ結果取得不可
クエリ実行 -> StartQueryExecution API
クエリ状態, 結果取得 -> GetQueryExecution API
解決
上限緩和
bad: Athenaの制約(特殊編)
31
問題
SELECTクエリ発行時、Parquetデータ × timestamp型カラムの時刻がUTCに
なる(TEXT / ORCデータは問題なし)
解決
サーバ側の操作が出来ないためSELECTクエリ発行時にAT TIMEZONE指定
まとめ
32
分析環境が、安い、速い、運用ラクなった
オンプレ分析環境をAthenaに移行
Athena1年運用し、運用課題を解決した
摆础奥厂セミナーマイク?レーション事例祭20190409闭分析环境を础奥厂冲础迟丑别苍补に移行冲その后1年间の运用课题を振り返る

More Related Content

摆础奥厂セミナーマイク?レーション事例祭20190409闭分析环境を础奥厂冲础迟丑别苍补に移行冲その后1年间の运用课题を振り返る