狠狠撸

狠狠撸Share a Scribd company logo
1年半もかけてしまった
ビッグデータ环境のリプレイス
自己紹介
CyberZ on Cloud Migration Journey to
Simplify Big Data
https://goo.gl/wZcmgV
EMRとCloudera on AWS
を両方本番運用し3つの観点
から比較してみる
https://goo.gl/gcvaXc
CyberZ F.O.X エンジニア
茂木 高宏(もてき たかひろ)
twitter: @tkmoteki /
facebook: takahiro.moteki.31
データエンジニア(僕)の恥ずかしいミスを公開し、
データ分析者へ逆ギレする内容
です
今回は、
ビッグデータ环境のリプレイス
Befor
計測サーバ
データ収集
HDFS
ETL/ 集計
HDFS
分析アプリ(管
理画面)
エンドユーザ
社内ユーザ
分析/ 可視化
ユーザ行動ログ
After
計測サーバ
データ収集 ETL/ 集計
分析アプリ(管
理画面)
エンドユーザ
社内ユーザ
分析/ 可視化
ユーザ行動ログ
Amazon
S3
Amazon
EMR
Amazon
EMR
Amazon
Lambda
Cloudera
Director
Amazon
Athena
Amazon
RDS(Aurora)
工数
半年 -> 1年半
Why?
データ前処理の見えない工数
データ前処理 -> データエンジニア
データ前ショリスト
データ前処理なくして分析はなし
伝えたいこと
データ前処理(ETL / ELT) ?
全体工数の7~8割
データは準備しないと
使えない
データ前処理 カテゴリ
構造化データ/
内容を対象と
した処理
ストレージ/
データストア
データ
ロード
例)
必要な分析データ
ソースへ
例)
中間テーブル/(非正規化)
生成
例)
フォーマット
データ前処理 特徴
○ わかりにくい <--- データ分析者
○ 工数/制約が見えにくい <---データ前ショリスト
○ ミス(失敗)が後のボディブロー
データ前処理の”特に”見えない工
数
with リプレイス案件の失敗事例 3つ
失敗(1)
データがバグっていて、分析に使え
ない
ストレージ/
データストア
2016年1月16日 9時のデータにクエリ投
げたらクラッシュした
データ分析者
原因?
制御文字入り,カラムズレたデータ
解決?
データクレンジング
ここまで
超過工数
+1ヶ月
失敗(2)
中間テーブル生成バッチが
性能悪くて1時間で終わらない
構造化データ/
内容を対象と
した処理
今日のデータにクエリ投げたら0件じゃ
ん!
データ分析者
原因?
S3 使用時の(Hive)性能問題
write heavyなクエリ
大量partitionを扱うクエリ
解決?
性能改善
(デフォ値でも性能でるように )
OSSへコントリービュート
https://issues.apache.org/jira/browse/HIVE-14270
partition数の削減
ここまで
超過工数
+7ヶ月
失敗(3)
データソースにデータがなく、(見え
なく)やらかす
データ
ロード
リプレイスで分析早くなる聞いて、我慢
して待ったのにクエリエラー!!
どうなってんの?
データ分析者
背景?
Amazon
S3
データない
オンプレ -> クラウドへのデータ移行時
Amazon
Athena
解決?
Amazon
S3
過去分
1PB
distcp
ここまで
超過工数
+13ヶ月
Amazon
S3
過去分
1PB
distcp
半年かけて
移行
Amazon
S3
事業の全過去データが
アクセス出来ない...
大問題?
Amazon
Athena
事業の全過去データがアクセス
出来ない...だと
僕クビかな...
Amazon
S3
送信時のS3メタデータのミス
原因?
過去分
1PB
(複数AWSアカウントがあり、異なるAWSアカウントの認証方法でデータを送信 ->
結果オブジェクトACLのミス)
数兆ファイル
解決?
Hadoop(100台)で分散処理
書いてS3メタデータ補正
2日で解決
超過工数
+13ヶ月
リプレイス完了
(他 細かい事等あり、全て合わせて1年半 工数超過)
データ前処理の難しさ
必要知識は多い
学問のような体系スキルはない
小さなミスが大きなダメージ
2016年1月16日 9時のデータにクエリ投
げたらクラッシュした
今日のデータにクエリ投げたら0件じゃ
ん!
リプレイスで分析早くなる聞いて、我慢し
て待ったのにクエリエラー!!
どうなってんの?
データ分析者
データ頂戴!!!
は
お金頂戴!!!
社(内外)のデータ分析者へ
ウラで苦労してる
データ前ショリストがきっといる
データ前処理なくして分析はなし
おわり
いろいろ喋りましたが僕のミスでした

More Related Content

摆2018产肠耻30闭1年半もかけてしまったビッグデータ环境のリプレイス