狠狠撸
Submit Search
Hadoop conference 2013winter_for_slideshare
?
0 likes
?
701 views
Y
Yu Ishikawa
Follow
Hadoop Conference Japan 2013 Winter Lightning Talk
Read less
Read more
1 of 11
More Related Content
Hadoop conference 2013winter_for_slideshare
1.
mixi で Hive
を活用する上 でやっている3つのこと Hadoop Conference Japan 2013 Winter 2013-01-21 株式会社ミクシィ 石川有
2.
自己紹介 株式会社ミクシィに 2010 年
10 月から勤務 担当業務 解析基盤の構築 内製ワークフローフレームワークの開発 データ解析とそのコンサルテーション
3.
200人ぐらいエンジニアがいる中で Hive を利用する上でやっている
仕组み的なことルール的なこと
4.
Hive 導入時に意識したこと 「たんぽぽな仕事」を いかに減らすか
仕組みを提供する サービス開発者はサービス開発に専念したい,してもらいたい 全員が自由に 使ったらカオスになる! ルールを作る できるだけ自由に使いたいし,使ってもらいたい
5.
対処するスコープを决める
データが利用される範囲 個人 部署 全体?横断的 1回限り 処 理 ルールで解決 の 一定期間 反 復 仕組みを提供 定常 性
6.
1.Hive の JSON
パーサを活用 ログの変更を解析基盤側も自動で変更 ログを新しく流した?変更したことをHive 側も自動で対応 ログを JSON オブジェクトで統一的に扱う 1つのログに対して1つのテーブル定義 問題:新規のログのときにテーブルを作る必要 ログの項目ごとにカラム定義 問題:Hive のテーブルも変更する必要 Hive VIEW Hive Log json_tuple UDTF Table
7.
2.内製フレームワークの開発 目的:定常処理の開発コストの低減 定型的な処理はテンプレートとして提供 Hive
へのデータロードや Hive クエリを実行して CSV に保 存などの決まった処理を毎回書くのは無駄 必要な処理を YAML で簡単に記述可能 テンプレートに対応する処理がないとき テンプレートにする価値があるなら自由に追加 独自の処理であれば Perl で記述
8.
3.Hiveレビューの実施 レビューの対象 定期実行に関わる Hive
の操作は基本すべて 技術的な観点 Hive の使い方を教育を担保 どういう処理が実行されるのかを知れ管理に役立つ データ解析的な観点 解析の目的がそもそも妥当なのか確認 目的に対して集計方法が正しいのか確認
9.
まとめ JSON パーサの活用
「たんぽぽな仕事」 を減らす フレームワークの提供 Hive レビューの実施 教育?管理の補助
10.
技術的なことに関する踏み込んだ内容は 「mixi
engineers blog」で検索
11.
ご清聴ありがとうございました