狠狠撸

狠狠撸Share a Scribd company logo
2010/09/16
津久井浩太郎
ITコンサルティング会社(4年半) → ITベンチャー(2年)
ガチガチ系システムの世界からの転向
もともとインフラ系が専門
今はPM、インフラ、営業、社内情シス等の何でも屋状態
Hadoopは書籍やWebで情報収集する程度

スキー命
泳いだり潜ったりするのも大好き
MySQL? オンプレミス型Hadoop? それとも????

EMRを色々叩いてみた

EMR向きのシステムとは?

最後に
贰惭搁选定までの道のり
月間数千万~1億PVクラスの複数サイトの
月間数千万~1 PVクラスの複数サイトの
アクセスを様々な切り口で集計/
アクセスを様々な切り口で集計/抽出できる
システムを提案してほしい




                       お客様
○ 世の中に溢れるほど情報がある!
○ 弊社でも構築事例多数 → 工数見積はブレにくい
○ 世の中に溢れるほど情報がある!
○ 弊社でも構築事例多数 → 工数見積はブレにくい

× 粘着質なパーティショニングをしたとしても
  億単位のレコードは到底無理
× パフォーマンスも期待できない???
× Oracleに買収されてからの動きが怪しい
○ 大量データ処理に強い
○ 国内事例も増えてきている
○ 大量データ処理に強い
○ 国内事例も増えてきている

× 社内で実装に関連したノウハウが不足
× スモールスタートには向かない?
Elastic MapReduce removes hard work
from Big Data processing !!!




                         AWS ソリューションアーキテクト
                              Paul Horvath氏
○ 大量データ処理に強い
○ 環境構築の工数を大幅削減(数クリックで起動)
○ スモールスタートに向いている
○ 大量データ処理に強い
○ 環境構築の工数を大幅削減(数クリックで起動)
○ スモールスタートに向いている
○ 大量データ処理に強い
○ 環境構築の工数を大幅削減(数クリックで起動)
○ スモールスタートに向いている

× 国内構築事例がまだほとんどない
  (受託型のシステム構築案件としてはリスク大)
× どれだけパフォーマンスが出るか未知数

→複雑な抽出中心のシステムなので
 HiveでEMRを検証してみることに
億単位のテストデータを使った
パフォーマンス検証
EMRインスタンス数 - HiveQL処理時間
                        EMRインスタンス数 HiveQL処理処理時間
                          (HDFS?データは1 2000万件固定)
                          (HDFS?データは1億2000万件固定)
                               ?データは      万件固定
    12,000


    10,000


     8,000


                                                                                          2インスタンス(HDFS)
秒




     6,000
                                                                                          4インスタンス(HDFS)
     4,000
                                                                                          8インスタンス(HDFS)

     2,000


        0
             LOAD   SELECT1   SELECT2   SELECT3   SELECT4   SELECT5   SELECT6   SELECT7

                                         発行Hive-QL番号
                                         発行Hive-QL番号
                                           Hive
HiveQL処理時間 HDFS? インスタンス固定)
                           処理時間(
            レコード件数 - HiveQL処理時間(HDFS?8インスタンス固定)

    7,000


    6,000


    5,000


    4,000
秒




                                                                                  1億2000万件(HDFS)
    3,000
                                                                                  7億5000万件(HDFS)
    2,000


    1,000


       0
            SELECT1   SELECT2   SELECT3   SELECT4   SELECT5   SELECT6   SELECT7

                                     発行Hive-QL番号
                                     発行Hive-QL番号
                                       Hive
採用を决める时の重要ポイント
管理性の高さを実感
→Hadoop自体の深い知識はそれほど要求されない

EMRの情報は少ないので
日本のAWSユーザコミュニティを活用すべし
→今ならAmazonの「忍者」の方々からも回答が!

EC2の通常のインスタンスとは使い勝手が少し違う
→EMRはIaaSではなくPaaS
在庫 = 使われていないサーバリソース




 自社で持つにはコストがかかる???
础尘补锄辞苍さんに持ってもらおう


          US-EAST:smallインスタンス

              1時間0.1ドル
              1  0.1
常時起動型のHadoopインスタンスでは
未使用時にもコストが発生しメリット半減!

Hadoopの自動起動/自動終了を駆使した設計を!
个人的な感想などなど
Hadoop構築に手間をかけたくなかったり、
スモールスタートのシステムには特にオススメ!
ただしメリットを活かすためには独特の設計が必要

Googleなど潤沢な資金、インフラを所有している一
部の企業のみが許された環境が今や1人で数分で起
動して使える時代に!

EMRを使っている方、使ってみたい方、どんどん情報
共有しましょう!
20100916冲贰惭搁を使ったシステム构筑案件
Ad

Recommended

Amazon Redshiftの開発者がこれだけは知っておきたい10のTIPS / 第18回 AWS User Group - Japan
Amazon Redshiftの開発者がこれだけは知っておきたい10のTIPS / 第18回 AWS User Group - Japan
Koichi Fujikawa
?
Pydata Amazon Kinesisのご紹介
Pydata Amazon Kinesisのご紹介
Toshiaki Enami
?
Cassandraのしくみ データの読み書き編
Cassandraのしくみ データの読み書き編
Yuki Morishita
?
Windows Azure HDInsight サービスの紹介
Windows Azure HDInsight サービスの紹介
Kuninobu SaSaki
?
Apache Drill でたしなむ セルフサービスデータ探索 - 2014/11/06 Cloudera World Tokyo 2014 LTセッション
Apache Drill でたしなむ セルフサービスデータ探索 - 2014/11/06 Cloudera World Tokyo 2014 LTセッション
MapR Technologies Japan
?
时系列の世界の时系列データ
时系列の世界の时系列データ
MapR Technologies Japan
?
Spark Streaming の基本とスケールする時系列データ処理 - Spark Meetup December 2015/12/09
Spark Streaming の基本とスケールする時系列データ処理 - Spark Meetup December 2015/12/09
MapR Technologies Japan
?
贬补诲辞辞辫概要説明
贬补诲辞辞辫概要説明
Satoshi Noto
?
FukuokaCloud_Azure
FukuokaCloud_Azure
Shinichiro Isago
?
オライリーセミナー Hive入門 #oreilly0724
オライリーセミナー Hive入門 #oreilly0724
Cloudera Japan
?
[db tech showcase Tokyo 2016] D27: Next Generation Apache Cassandra by ヤフー株式会...
[db tech showcase Tokyo 2016] D27: Next Generation Apache Cassandra by ヤフー株式会...
Insight Technology, Inc.
?
HDFS Router-based federation
HDFS Router-based federation
NTT DATA OSS Professional Services
?
Db tech showcase 2016
Db tech showcase 2016
datastaxjp
?
Tuning maniax 2014 Hadoop編
Tuning maniax 2014 Hadoop編
ThinkIT_impress
?
Apache Hadoop HDFSの最新機能の紹介(2018)#dbts2018
Apache Hadoop HDFSの最新機能の紹介(2018)#dbts2018
驰补丑辞辞!デベロッパーネットワーク
?
HBase と Drill - 緩い型付けの SQL がいかに NoSQL に適しているか
HBase と Drill - 緩い型付けの SQL がいかに NoSQL に適しているか
MapR Technologies Japan
?
Apache Hive 紹介
Apache Hive 紹介
あしたのオープンソース研究所  
?
Apache Hadoopの未来 3系になって何が変わるのか?
Apache Hadoopの未来 3系になって何が変わるのか?
NTT DATA OSS Professional Services
?
AWS Casual 02: ふつうのRedshiftパフォーマンスチューニング
AWS Casual 02: ふつうのRedshiftパフォーマンスチューニング
Minero Aoki
?
顿谤颈濒濒超简単チューニンク?
顿谤颈濒濒超简単チューニンク?
MapR Technologies Japan
?
Distributed data stores in Hadoop ecosystem
Distributed data stores in Hadoop ecosystem
NTT DATA OSS Professional Services
?
OSC2014 Tokyo/Spring Hadoop
OSC2014 Tokyo/Spring Hadoop
Shinichi YAMASHITA
?
笔辞蝉迟驳谤别厂蚕尝10を导入!大规模データ分析事例からみる顿奥贬としての笔辞蝉迟驳谤别厂蚕尝活用のポイント
笔辞蝉迟驳谤别厂蚕尝10を导入!大规模データ分析事例からみる顿奥贬としての笔辞蝉迟驳谤别厂蚕尝活用のポイント
NTT DATA OSS Professional Services
?
Apache Hadoop の現在と将来(Hadoop / Spark Conference Japan 2016 キーノート講演資料)
Apache Hadoop の現在と将来(Hadoop / Spark Conference Japan 2016 キーノート講演資料)
Hadoop / Spark Conference Japan
?
Pivotal Greenplumで実現する次世代データ分析基盤のご紹介
Pivotal Greenplumで実現する次世代データ分析基盤のご紹介
Masayuki Matsushita
?
HDFS新機能総まとめin 2015 (日本Hadoopユーザー会 ライトニングトーク@Cloudera World Tokyo 2015 講演資料)
HDFS新機能総まとめin 2015 (日本Hadoopユーザー会 ライトニングトーク@Cloudera World Tokyo 2015 講演資料)
NTT DATA OSS Professional Services
?
厂辫补谤办のクエリ処理系と周辺の话题
厂辫补谤办のクエリ処理系と周辺の话题
Takeshi Yamamuro
?
HDFS basics from API perspective
HDFS basics from API perspective
NTT DATA OSS Professional Services
?
20111130 10 aws-meister-emr_long-public
20111130 10 aws-meister-emr_long-public
Amazon Web Services Japan
?
Amazon Elastic MapReduce@Hadoop Conference Japan 2011 Fall
Amazon Elastic MapReduce@Hadoop Conference Japan 2011 Fall
Shinpei Ohtani
?

More Related Content

What's hot (20)

FukuokaCloud_Azure
FukuokaCloud_Azure
Shinichiro Isago
?
オライリーセミナー Hive入門 #oreilly0724
オライリーセミナー Hive入門 #oreilly0724
Cloudera Japan
?
[db tech showcase Tokyo 2016] D27: Next Generation Apache Cassandra by ヤフー株式会...
[db tech showcase Tokyo 2016] D27: Next Generation Apache Cassandra by ヤフー株式会...
Insight Technology, Inc.
?
HDFS Router-based federation
HDFS Router-based federation
NTT DATA OSS Professional Services
?
Db tech showcase 2016
Db tech showcase 2016
datastaxjp
?
Tuning maniax 2014 Hadoop編
Tuning maniax 2014 Hadoop編
ThinkIT_impress
?
Apache Hadoop HDFSの最新機能の紹介(2018)#dbts2018
Apache Hadoop HDFSの最新機能の紹介(2018)#dbts2018
驰补丑辞辞!デベロッパーネットワーク
?
HBase と Drill - 緩い型付けの SQL がいかに NoSQL に適しているか
HBase と Drill - 緩い型付けの SQL がいかに NoSQL に適しているか
MapR Technologies Japan
?
Apache Hive 紹介
Apache Hive 紹介
あしたのオープンソース研究所  
?
Apache Hadoopの未来 3系になって何が変わるのか?
Apache Hadoopの未来 3系になって何が変わるのか?
NTT DATA OSS Professional Services
?
AWS Casual 02: ふつうのRedshiftパフォーマンスチューニング
AWS Casual 02: ふつうのRedshiftパフォーマンスチューニング
Minero Aoki
?
顿谤颈濒濒超简単チューニンク?
顿谤颈濒濒超简単チューニンク?
MapR Technologies Japan
?
Distributed data stores in Hadoop ecosystem
Distributed data stores in Hadoop ecosystem
NTT DATA OSS Professional Services
?
OSC2014 Tokyo/Spring Hadoop
OSC2014 Tokyo/Spring Hadoop
Shinichi YAMASHITA
?
笔辞蝉迟驳谤别厂蚕尝10を导入!大规模データ分析事例からみる顿奥贬としての笔辞蝉迟驳谤别厂蚕尝活用のポイント
笔辞蝉迟驳谤别厂蚕尝10を导入!大规模データ分析事例からみる顿奥贬としての笔辞蝉迟驳谤别厂蚕尝活用のポイント
NTT DATA OSS Professional Services
?
Apache Hadoop の現在と将来(Hadoop / Spark Conference Japan 2016 キーノート講演資料)
Apache Hadoop の現在と将来(Hadoop / Spark Conference Japan 2016 キーノート講演資料)
Hadoop / Spark Conference Japan
?
Pivotal Greenplumで実現する次世代データ分析基盤のご紹介
Pivotal Greenplumで実現する次世代データ分析基盤のご紹介
Masayuki Matsushita
?
HDFS新機能総まとめin 2015 (日本Hadoopユーザー会 ライトニングトーク@Cloudera World Tokyo 2015 講演資料)
HDFS新機能総まとめin 2015 (日本Hadoopユーザー会 ライトニングトーク@Cloudera World Tokyo 2015 講演資料)
NTT DATA OSS Professional Services
?
厂辫补谤办のクエリ処理系と周辺の话题
厂辫补谤办のクエリ処理系と周辺の话题
Takeshi Yamamuro
?
HDFS basics from API perspective
HDFS basics from API perspective
NTT DATA OSS Professional Services
?
オライリーセミナー Hive入門 #oreilly0724
オライリーセミナー Hive入門 #oreilly0724
Cloudera Japan
?
[db tech showcase Tokyo 2016] D27: Next Generation Apache Cassandra by ヤフー株式会...
[db tech showcase Tokyo 2016] D27: Next Generation Apache Cassandra by ヤフー株式会...
Insight Technology, Inc.
?
Db tech showcase 2016
Db tech showcase 2016
datastaxjp
?
Tuning maniax 2014 Hadoop編
Tuning maniax 2014 Hadoop編
ThinkIT_impress
?
HBase と Drill - 緩い型付けの SQL がいかに NoSQL に適しているか
HBase と Drill - 緩い型付けの SQL がいかに NoSQL に適しているか
MapR Technologies Japan
?
AWS Casual 02: ふつうのRedshiftパフォーマンスチューニング
AWS Casual 02: ふつうのRedshiftパフォーマンスチューニング
Minero Aoki
?
顿谤颈濒濒超简単チューニンク?
顿谤颈濒濒超简単チューニンク?
MapR Technologies Japan
?
笔辞蝉迟驳谤别厂蚕尝10を导入!大规模データ分析事例からみる顿奥贬としての笔辞蝉迟驳谤别厂蚕尝活用のポイント
笔辞蝉迟驳谤别厂蚕尝10を导入!大规模データ分析事例からみる顿奥贬としての笔辞蝉迟驳谤别厂蚕尝活用のポイント
NTT DATA OSS Professional Services
?
Apache Hadoop の現在と将来(Hadoop / Spark Conference Japan 2016 キーノート講演資料)
Apache Hadoop の現在と将来(Hadoop / Spark Conference Japan 2016 キーノート講演資料)
Hadoop / Spark Conference Japan
?
Pivotal Greenplumで実現する次世代データ分析基盤のご紹介
Pivotal Greenplumで実現する次世代データ分析基盤のご紹介
Masayuki Matsushita
?
HDFS新機能総まとめin 2015 (日本Hadoopユーザー会 ライトニングトーク@Cloudera World Tokyo 2015 講演資料)
HDFS新機能総まとめin 2015 (日本Hadoopユーザー会 ライトニングトーク@Cloudera World Tokyo 2015 講演資料)
NTT DATA OSS Professional Services
?
厂辫补谤办のクエリ処理系と周辺の话题
厂辫补谤办のクエリ処理系と周辺の话题
Takeshi Yamamuro
?

Similar to 20100916冲贰惭搁を使ったシステム构筑案件 (20)

20111130 10 aws-meister-emr_long-public
20111130 10 aws-meister-emr_long-public
Amazon Web Services Japan
?
Amazon Elastic MapReduce@Hadoop Conference Japan 2011 Fall
Amazon Elastic MapReduce@Hadoop Conference Japan 2011 Fall
Shinpei Ohtani
?
B34 Extremely Tuned Hadoop Cluster by Daisuke Hirama
B34 Extremely Tuned Hadoop Cluster by Daisuke Hirama
Insight Technology, Inc.
?
TokyoWebminig カジュアルなHadoop
TokyoWebminig カジュアルなHadoop
Teruo Kawasaki
?
Osc2012 spring HBase Report
Osc2012 spring HBase Report
Seiichiro Ishida
?
Cloudera大阪セミナー 20130219
Cloudera大阪セミナー 20130219
Cloudera Japan
?
Hadoop, NoSQL, GlusterFSの概要
Hadoop, NoSQL, GlusterFSの概要
日本ヒューレット?パッカード株式会社
?
贬补诲辞辞辫カンファレンス20140707
贬补诲辞辞辫カンファレンス20140707
Recruit Technologies
?
20111215冲第1回贰惭搁勉强会発表资料
20111215冲第1回贰惭搁勉强会発表资料
Kotaro Tsukui
?
ビッグデータ&データマネジメント展
ビッグデータ&データマネジメント展
Recruit Technologies
?
20120303 _JAWS-UG_SUMMIT2012_エキスパートセッションEMR編
20120303 _JAWS-UG_SUMMIT2012_エキスパートセッションEMR編
Kotaro Tsukui
?
AWS Elastic MapReduce詳細 -ほぼ週刊AWSマイスターシリーズ第10回-
AWS Elastic MapReduce詳細 -ほぼ週刊AWSマイスターシリーズ第10回-
SORACOM, INC
?
贬补诲辞辞辫ソースコードリーディング8/惭补辫搁を使ってみた
贬补诲辞辞辫ソースコードリーディング8/惭补辫搁を使ってみた
Recruit Technologies
?
マーケティングテクノロジー勉强会
マーケティングテクノロジー勉强会
伊藤 孝
?
03 kueripahuomansuchiyuninguno shou_fa_
03 kueripahuomansuchiyuninguno shou_fa_
Kaito Tonooka
?
株式会社インタースペース 守安様 登壇資料
株式会社インタースペース 守安様 登壇資料
leverages_event
?
Cloudera Impalaをサービスに組み込むときに苦労した話
Cloudera Impalaをサービスに組み込むときに苦労した話
Yukinori Suda
?
贬补诲辞辞辫のシステム设计?运用のポイント
贬补诲辞辞辫のシステム设计?运用のポイント
Cloudera Japan
?
Hadoop上の多種多様な処理でPigの活きる道 (Hadoop Conferecne Japan 2013 Winter)
Hadoop上の多種多様な処理でPigの活きる道 (Hadoop Conferecne Japan 2013 Winter)
NTT DATA OSS Professional Services
?
Amazon EC2 HPCインスタンス - AWSマイスターシリーズ
Amazon EC2 HPCインスタンス - AWSマイスターシリーズ
Amazon Web Services Japan
?
Amazon Elastic MapReduce@Hadoop Conference Japan 2011 Fall
Amazon Elastic MapReduce@Hadoop Conference Japan 2011 Fall
Shinpei Ohtani
?
B34 Extremely Tuned Hadoop Cluster by Daisuke Hirama
B34 Extremely Tuned Hadoop Cluster by Daisuke Hirama
Insight Technology, Inc.
?
TokyoWebminig カジュアルなHadoop
TokyoWebminig カジュアルなHadoop
Teruo Kawasaki
?
Cloudera大阪セミナー 20130219
Cloudera大阪セミナー 20130219
Cloudera Japan
?
贬补诲辞辞辫カンファレンス20140707
贬补诲辞辞辫カンファレンス20140707
Recruit Technologies
?
20111215冲第1回贰惭搁勉强会発表资料
20111215冲第1回贰惭搁勉强会発表资料
Kotaro Tsukui
?
ビッグデータ&データマネジメント展
ビッグデータ&データマネジメント展
Recruit Technologies
?
20120303 _JAWS-UG_SUMMIT2012_エキスパートセッションEMR編
20120303 _JAWS-UG_SUMMIT2012_エキスパートセッションEMR編
Kotaro Tsukui
?
AWS Elastic MapReduce詳細 -ほぼ週刊AWSマイスターシリーズ第10回-
AWS Elastic MapReduce詳細 -ほぼ週刊AWSマイスターシリーズ第10回-
SORACOM, INC
?
贬补诲辞辞辫ソースコードリーディング8/惭补辫搁を使ってみた
贬补诲辞辞辫ソースコードリーディング8/惭补辫搁を使ってみた
Recruit Technologies
?
マーケティングテクノロジー勉强会
マーケティングテクノロジー勉强会
伊藤 孝
?
03 kueripahuomansuchiyuninguno shou_fa_
03 kueripahuomansuchiyuninguno shou_fa_
Kaito Tonooka
?
株式会社インタースペース 守安様 登壇資料
株式会社インタースペース 守安様 登壇資料
leverages_event
?
Cloudera Impalaをサービスに組み込むときに苦労した話
Cloudera Impalaをサービスに組み込むときに苦労した話
Yukinori Suda
?
贬补诲辞辞辫のシステム设计?运用のポイント
贬补诲辞辞辫のシステム设计?运用のポイント
Cloudera Japan
?
Hadoop上の多種多様な処理でPigの活きる道 (Hadoop Conferecne Japan 2013 Winter)
Hadoop上の多種多様な処理でPigの活きる道 (Hadoop Conferecne Japan 2013 Winter)
NTT DATA OSS Professional Services
?
Amazon EC2 HPCインスタンス - AWSマイスターシリーズ
Amazon EC2 HPCインスタンス - AWSマイスターシリーズ
Amazon Web Services Japan
?
Ad

20100916冲贰惭搁を使ったシステム构筑案件