狠狠撸

狠狠撸Share a Scribd company logo
mixi で Hive を活用する上
でやっている3つのこと
   Hadoop Conference Japan 2013 Winter
               2013-01-21
        株式会社ミクシィ 石川有
自己紹介

株式会社ミクシィに 2010 年 10 月から勤務

担当業務
 解析基盤の構築
 内製ワークフローフレームワークの開発
 データ解析とそのコンサルテーション
200人ぐらいエンジニアがいる中で
 Hive を利用する上でやっている
  仕组み的なことルール的なこと
Hive 導入時に意識したこと


「たんぽぽな仕事」を
 いかに減らすか       仕組みを提供する

サービス開発者はサービス開発に専念したい,してもらいたい

  全員が自由に
使ったらカオスになる!      ルールを作る

  できるだけ自由に使いたいし,使ってもらいたい
対処するスコープを决める

            データが利用される範囲

           個人     部署     全体?横断的

    1回限り
処
理               ルールで解決
の   一定期間
反
復                 仕組みを提供
    定常
性
1.Hive の JSON パーサを活用

    ログの変更を解析基盤側も自動で変更
      ログを新しく流した?変更したことをHive 側も自動で対応

    ログを JSON オブジェクトで統一的に扱う
      1つのログに対して1つのテーブル定義
         問題:新規のログのときにテーブルを作る必要
      ログの項目ごとにカラム定義
         問題:Hive のテーブルも変更する必要



Hive VIEW              Hive      Log
json_tuple UDTF        Table
2.内製フレームワークの開発

目的:定常処理の開発コストの低減
 定型的な処理はテンプレートとして提供
 Hive へのデータロードや Hive クエリを実行して CSV に保
 存などの決まった処理を毎回書くのは無駄

必要な処理を YAML で簡単に記述可能

テンプレートに対応する処理がないとき
 テンプレートにする価値があるなら自由に追加
 独自の処理であれば Perl で記述
3.Hiveレビューの実施

レビューの対象
 定期実行に関わる Hive の操作は基本すべて
技術的な観点
 Hive の使い方を教育を担保
 どういう処理が実行されるのかを知れ管理に役立つ

データ解析的な観点
 解析の目的がそもそも妥当なのか確認
 目的に対して集計方法が正しいのか確認
まとめ


JSON パーサの活用
                     「たんぽぽな仕事」
                        を減らす
フレームワークの提供




Hive レビューの実施         教育?管理の補助
技術的なことに関する踏み込んだ内容は
  「mixi engineers blog」で検索
ご清聴ありがとうございました

More Related Content

Hadoop conference 2013winter_for_slideshare