狠狠撸

狠狠撸Share a Scribd company logo
2012/03/03 @JAWS SUMMIT 2012
                                  発表資料


エキスパートセッション
Elastic MapReduce

                        ヴェルク株式会社
                  津久井浩太郎(@quarterkota)




                        http://www.velc.co.jp
                                          1
自己绍介
                  津久井浩太郎   @quarterkota

■所属
 ? ヴェルク株式会社 取締役/アーキテクト
 ? JAWS-UG東京?部 コアメンバー
 ? ?般社団法?クラウド利?促進機構 技術アドバイザー

■好きなAWSサービス
 EMR:何よりも?軽さがスゴイ
 RDS:イケてるバックアップに命を救われたことがある

■経歴
 ITコンサル(フューチャーアーキテクト)
   → インターネット広告系ITベンチャー(サイテック)
   → 独?して現在2期目

                                      2
はじめる前に质问があります。




                 3
Question

Hadoopをオンプレミス環境で
セットアップして使った
経験のある方、
挙手をお願いします。



                     4
Question

EMRを触ったことのある方、
挙手をお願いします。




                    5
Question


EMRを触ったことは無いが
興味はあるという方、
挙手をお願いします。



                   6
本日のAgenda

1.贰惭搁とは?
2.EMRのメリット
 3.贰惭搁を触ってみる
  4.贰惭搁使用上のご注意
    5.最后に
                     7
1.贰惭搁とは?




           8
EC2とS3のIaaSレイヤを基盤として
Hadoopエンジンを取り入れて
拡張させたPaaSレイヤの分散処理基盤

  Streaming / Hive / Pig /
  Custom JAR / Cascading

      Apache Hadoop
                                    PaaS
  Amazon         Amazon
    S3            EC2        IaaS


                                           9
言い換えると???
好きな時に好きなだけ使える
        クラウド型Hadoop基盤



          +



                    10
本日のAgenda
2.EMRのメリット




        11
Hadoop自体はOSSで
自由に使える優れた分散処理技術




                  12
しかし、贬补诲辞辞辫が有効に稼働する
        オンプレ環境を作るには???


少なくとも数十台規模のサーバが必要

イニシャルコスト?メンテナンスコスト大

バッチ用途が中心になるため、
「リソースの空き時間」が発生しがち
                      13
実際に導入できるのは
リソースが潤沢な一部の企業のみ




                  14
しかし、AWSのIaaSである
EC2?S3を処理基盤にする事で
手軽にHadoopが利用可能に!

                   15
例えば???

 m1.largeを20ノードで3時間の処理

 $0.46 x 20 x 3 = $27.6
  ≒ 2346円(85円/$)
3.贰惭搁を触ってみる




         17
EMRはユーザからの指示に基づいて
ジョブフローを生成

         Hadoopクラスタ
       (EC2インスタンス群)

         ジョブフロー

               処理内容
               Hadoopクラスタのサイズ
               など




                                18
今回はSQLライクに
分散処理を制御できる
Hiveベースのジョブフローを
ご紹介します。




                  19
それでは実際に
ジョブフローを作成してみます。




                  20
ジョブフローの作り方は
                    2パターン

1.骋鲍滨(マネジメントコンソール)からの作成

2.颁尝滨からの作成


                       21
1.骋鲍滨(マネジメントコンソール)からの作成




                     22
2.颁尝滨からの作成




        23
それでは実際に
Hiveでジョブフローを
操作してみましょう




               24
マスタノード上で
             直接SELECTを実行し
            結果を標準出力させます
Amazon S3               HDFS


入力データ
              Hadoop
              クラスタ
                       中間データ
             出力データ


                               25
贬颈惫别でのデータのやり取りは
           S3を入出力の口として
             行うのが一般的です
Amazon S3             HDFS


入力データ
            Hadoop
            クラスタ
                     中間データ
出力データ


                             26
EMR+Hiveの組み合わせにより
Hadoopの敷居がグッと下がる
4.贰惭搁使用上のご注意
EMRには向き不向きがある!
低レイテンシを求められる
システムに単独で用いるのは厳しい
厂笔翱贵を考虑すべし!
   万が一マスタノードに
   障害が発生した場合
全ての処理結果が失われる
データ設計に細心の注意を!
例えばHiveの場合
JOINを連発すると
パフォーマンスが急激にダウン
遊びの時間を極力減らす!
ジョブフローが
「Wait」状態は
課金だけ発生するので
もったいない
5.最后に
EMRは大量分散処理を
一気に身近なものにする
画期的なサービスです


      とにかくガンガン使って
      情報共有を進めましょう
EMRを1から始めるには
この本がオススメです
JAWS-UGの分科会として
EMR勉強会もやっています
enjoy life and creation




   http://www.velc.co.jp
                    37

More Related Content

20120303 _JAWS-UG_SUMMIT2012_エキスパートセッションEMR編