際際滷

2
云晩のアジェンダ
? 徭失�B初
? Asakusa+Hadoop�EMR�を旋喘した嘘尚
? ユ�`ザ�阿�Ъ�?蛍裂したいデ�`タ
? デ�`タ蛍裂ツ�`ルの曳�^
? 蛍裂児�Pシステム畠悶��撹
? サ�`バ�箸��撹 - Asakusa+EMR
? (歌深)サ�`バ�箸��撹 �C Apache Hadoop
? 鹿�イメ�`ジ
? Asakusa旋喘のために喘吭しておくもの
? �_�kから�g佩までの返�
? Asakusa+Hadoop�EMR�を聞ってみての湖�

3
徭失�B初
? 箆兆
牽圸坪丐夛�ふくがうちこうぞう�
? 侭奉
アクセンチュア幄塀氏芙テクノロジ�`コンサルティング云何
シニアプリンシパル
ソフトウェア氏芙に7定�g輩��
? 毅輝�I囃
? 宥佚、ハイテク�b�Iにおけるシステムインテグレ�`ションのテクニカルア�`キテク
チャ�O�?��B
? Javaベ�`スのCustom Development(蒙にWeb狼)アプリケ�`ション�_�kリ�`ド
? OSSやクラウドをベ�`スとしたシステムインテグレ�`ションのソリュ�`ション、アプリ
ケ�`ション��Bの容�M、テクニカルレビュ�`
? 竃附
ﾚ�u�h

4
Asakusa+Hadoop�EMR�を旋喘した嘘尚
プロジェクトで仝Hadoop々によるデ�`タ蛍裂�I尖を�したいという勣李があり、醤悶議に採が
できるかを委燐するため、まずは蛍裂児�Pを��Bしてみることにした。
ユ�`ザ�阿縫汽ぅ箸�
旋喘彜�rを委燐し
たい。
ビッグデ�`タの蛍裂
で醤悶議に聞える
ツ�`ルを�_�Jしたい。
? PV、CVRではなく、ユ�`ザ�阿妊汽ぅ叛繒致�rやアクション�gの��vを岑りたい。
? サ�`ビスインからRDBMS坪に們�eされた方認嵐周のレコ�`ドを試喘したい。
? 蛍裂はSQL猟のみで佩ってきたが、レコ�`ド周方の��紗で�I尖�r�gが��えてきた。
? Apache Hadoopだと、HBase、HDFS、Hive、Pig、MapReduce吉、兜めて
�くIT喘�Zが謹く、すぐに聞い圭が蛍からない。
? 玉豚�gでの��襪鯆訊犬靴討い襪��HiveやPigで�I尖を�峰できるようになるまで
�r�gがかかりそう。
? SQL猟だけでは�I尖に�r�gがかかるような寄否楚で�}�jな蛍裂では、Hadoop、
HANA、Teradata、RedShift吉ある嶄で、蛍裂プラットフォ�`ムに�くのがどれか
を登僅したい。
? 蛍裂プラットフォ�`ムの兜豚��覿鈴Aなので、できるだけコストは雙えたい。
Asakusa+Hadoop(EMR)の�Mみ栽わせなら、玉豚�gでかつ兜豚��諄M喘も雙えた蛍裂
プラットフォ�`ムを恬れないか。
Hadoop�h廠を�
�gに��Bしたい。

5
ユ�`ザ�阿�Ъ�?蛍裂したいデ�`タ
サイトの怎�E蛍裂ユ�`ザを�Sとした聞喘彜�rの蛍裂
トップ鮫中ホ�`ム鮫中アップロ�`ド廣猟
? サイトのPV方やコンバ�`ジョン楕は、Google Analytics
で函誼することが辛嬬
? 匯圭で、光ユ�`ザ�g了で、云サ�`ビスをどのように聞ってい
るかまでは委燐できない。
100,000 40,000 10,000 5,000PV
ユ�`ザログイン指方亟寔旦方廣猟指方
エンドユ�`ザがサイト坪をどう�L��したかを委燐し、SEOや��
�がきちんと�C嬬しているかを委燐したい。
サ�`ビスを旋喘しているユ�`ザの聞喘彜�rによって、トレンド
や��vを隔っているかを委燐したい。
AAA001
BBB001
CCC001
DDD001
10
20
5
0 0 0
200
50
450
1
2
5
� � � �
? SQLだけでもデ�`タ渇竃は辛嬬だが、�}方テ�`ブルの
JOINが駅勣で隠便來の詰いSQLになる。
? デ�`タ周方が1000嵐周參貧あるテ�`ブルもあり、デ�`タ渇
竃だけでRDBMSが互�塞になる。
60%
ロスト
25%
ロスト
50%
ロスト
サイト坪のWeb KPIは、Google Analyticsを旋喘していたが、ユ�`ザを�Sとしたサイトの聞喘
彜�rの函誼にHadoopを旋喘してみた。
EEE001 3 10 0

6
デ�`タ蛍裂ツ�`ルの曳�^
SQL?PL/SQL Hadoop Redshift?HANA?Oracle
? ソフトウェアを仟�にインスト�`ル
することなく、SQL猟だけでデ�`
タを渇竃できる。
? テ�`ブルを歌孚するだけで仟�
のプログラム�_�kが音勣。
? デ�`タを渇竃するまでの兜豚��
秘は壼い。
? リアルタイムで�たい�rに�たい
俳り笥でデ�`タを歌孚することが
できる。
? TB、PB�のデ�`タボリュ�`ムを
�Qうことができる。
? デ�`タをINSERTするだけで鹿
��Y惚を歌孚できる。
? �}方のテ�`ブルをJoinしてデ�`
タを渇竃すると、隠便來の詰い
SQL猟となる。
? デ�`タ渇竃の�l訓な�筝釮��
鬉靴鼎蕕ぁ�
? デ�`タ周方が謹くなればなるほど、
�I尖�r�gがかかる。
? OSSの�Mみ栽わせだけで�g廾
できるので、兜豚��諄M喘は
芦い。
? デ�`タボリュ�`ムが謹くなってもス
ケ�`ルアウトで��鬉任④襪燭瓠�
�I尖�r�gが�ゝ弔盆Wくならない。
? リアルタイムでデ�`タを鹿�、渇
竃した�Y惚を歌孚するような�I
尖には�かない。
? デ�`タ周方が富ない��呂�
SQL猟の圭が堀い。
? MapReduceにHiveやPigを
聞うと、�誼が�yしい。
? 兜豚��諄M喘が互い。
? デ�`タを渇竃するまでに、ソフト
ウェアの碧��を尖盾する駅勣が
あり、�r�gがかかる。
? ハイスペックなサ�`バが駅勣。
Pros
Cons
叟
芦
富
�y
互
謹
寄否楚のデ�`タを�Qいたいが、互��BI喘ソフトウェアまでは音勣なため、Hadoopを�x�k。
デ�`タ楚
�M喘
��

7
蛍裂児�Pシステム畠悶��撹
Webプラットフォ�`ム
ユ�`ザ砿尖
ログイン砿尖
SNS�B亊
フォトプリントサ�`ビス
ユ�`ザ砿尖亟寔砿尖
廣猟砿尖 SNS
ログイン砿尖斌瞳砿尖
亟寔砿尖
蛍裂児�P
デ
�`
タ
の
紗
垢
Hadoop蛍裂児�P紗垢瘁の
デ�`タ
SQLでデ�`タ渇竃
蛍裂��
デ�`タ�
蛍裂��
デ�`タ�
渇竃デ�`タ
鹿�瘁のデ�`タ
RDBMS
蛍裂アプリケ�`ション
Application
EMR軟�咼好�螢廛�
Hadoop
Master
Slave1 Slave2 Slave3
ログインと廣猟
Timeline
ファイル方と廣猟
渇竃デ�`タ
渇竃デ�`タ
鹿�瘁デ�`タの
インポ�`ト
デ�`タの
蛍裂
0.00%
10.00%
20.00%
30.00%
40.00%
50.00%
60.00%
70.00%
80.00%
90.00%
100.00%
0
200
400
600
800
1000
1200
1400
1600
1800
グラフ
燕幣
蛍裂毅輝
デ�`タ渇竃鹿� �Y惚をロ�`ド
デ�`タの們�e 蛍裂喘にデ�`タを紗垢蛍裂
蛍裂児�Pの畠悶��撹は、參和の宥り。
蛍裂��
デ�`タ�

8
サ�`バ�箸��撹 - Asakusa+EMR
Webサイト
のデ�`タ
MySQL
渇竃
デ�`タ
鹿�
デ�`タ
蛍裂
MySQL
スレ�`ブノ�`ド� スレ�`ブノ�`ド� スレ�`ブノ�`ド�
Hadoop蛍裂児�Pデ�`タ渇竃デ�`タ鹿� デ�`タ蛍裂
あらかじめ軟�咾垢襯好讒`ブノ�`ドの岬方を�峰
Amazon Web ServiceのEMR貧で、Asakusaをベ�`スとして��Bすると、參和のような��撹
となる。
Asakusa DSL/DMDL
(Asakusa Framework)
EMR軟�咼�廛轡腑鵐好�螢廛�
マスタ�`ノ�`ド
アプリケ�`ション
EMR軟��rにアプリケ�`ショ
ンのファイルをS3からコピ�`
MySQLから仝Windgate々
で岷俊デ�`タを函誼
�g佩に駅勣な
ファイルをS3貧
に鯉�{しておく
Map/Reduce(DSLコンパイラ)
MapReduce(DSL)
S3
渇竃
デ�`タ
デ�`タをS3から
仝DirectI/O々で函誼
鹿�
デ�`タ
鹿��Y惚を圷に、
[Mahout]や[R]を
聞って、互業なレコ
メンドや佩�啖嵶��
佩うことも辛嬬
Java
レコメンド伏撹
佩�啖嵶�
�g佩�Y惚を
S3に鯉�{
プログラム
EMR

9
(歌深)サ�`バ�箸��撹 - Apache Hadoop
Webサイト
のデ�`タ
MySQL
渇竃
デ�`タ
鹿�
デ�`タ
蛍裂
MySQL
スレ�`ブノ�`ド� スレ�`ブノ�`ド� スレ�`ブノ�`ド�
Hadoop蛍裂児�Pデ�`タ渇竃デ�`タ鹿� デ�`タ蛍裂
HDFS
アプリケ�`ション
鹿�
デ�`タ
MapReduce
Hive Pig Java
Program
or or
HBase
渇竃
デ�`タ
Hadoopのコ
マンドでHDFS
にファイル鯉�{
マスタ�`ノ�`ドと揖じHadoop��撹を、�麻に駅勣な岬方蛍スケ�`ルアウト
Hadoopのコマ
ンドでHDFSか
らファイル渇竃
Apache Hadoop(HDFS?HBase)をベ�`スとして、Hadoop蛍裂児�Pも��Bした。
プログラムに
デ�`タを
Import
プログラムか
らデ�`タを
Export

10
ユ�`ザID 仇囃 2014/01 2014/02 2014/03 ´
10000001 A 3 1
10000002 B 1
10000003 A 4
鹿�イメ�`ジ
10000001,2014/01/03
10000001,2014/01/05
10000002,2014/01/05
10000001,2014/01/10
ユ�`ザ秤��
ユ�`ザID
仇囃
ログイン堕�s秤��
ユ�`ザID
ログイン晩�r
Sum
Join
10000003,2014/02/03
10000003,2014/02/05
10000001,2014/02/05
10000003,2014/02/10
10000003,2014/02/12
ユ�`ザ�阿法▲稀`ビス戻工仇囃�eに、�惟尊了悒蹈哀ぅ鵑靴燭�鬟蹈哀ぅ鸞�s秤�鵑�藜�
�し、埖�阿離蹈哀ぅ鷸慂�鮗��Y惚として竃薦する。

11
EMR
軟�咼挑`ル
Asakusa旋喘のために喘吭しておくもの
Asakusa
�_�k�h廠
? VMware Player貧にUbuntuをインスト�`ルし、Jinrikisha(�_�k�h廠のイン
スト�`ラ)で�_�k�h廠(Asakusa Framework/Java/Hadoop/Eclipse´)
を匯凄インスト�`ル
? その麿、ビルドツ�`ル(Gradle)やDMDLエディタプラグイン、shahuをインスト�`
ル
? ☆貧�はAsakusa Frameworkのドキュメント宥り
? EMRを軟�咾垢襪燭瓩離灰泪鵐疋薀ぅ鵐挑`ル(Amazon Elastic Map Reduce
Command Line Interface)をインスト�`ル
�C コマンドラインツ�`ルのインスト�`ルにはRubyが駅勣
�C AWSの�J�^秤��(アクセスキ�`ID、シ�`クレットアクセスキ�`)が駅勣
Asakusaでプログラムを�_�kするための�h廠��Bと、Amazon Web Serviceから戻工される
EMR軟�咼挑`ルをセットアップする。

12
�_�kから�g佩までの返�
プログラム�_�k ビルドデプロイ EMRジョブ鞠�h EMR軟��
? 渇竃デ�`タ秘薦喘プ
ログラムをDMDL、
DSLで恬撹
? 鹿�喘プログラムを
DSLで恬撹
? 鹿�デ�`タ竃薦喘プ
ログラムをDMDL、
DSLで恬撹
? ブ�`トストラップ喘スク
リプトとステップ喘スクリ
プトをシェルで恬撹
? 鹿�喘デ�`タを鯉�{
しておくフォルダをS3
貧に恬撹
? [gradlew]コマンドで、
Asakusa
Framework、バッチ
喘ア�`カイブを恬撹
? 恬撹したプログラムを
ビルド。jarファイルが
恬撹される。
? デプロイ喘畠ファイルを
根んだtar.gzファイル
が恬撹される。
? ビルドしたモジュ�`ル
[tar.gzファイル]をS3
貧に塘崔
? ブ�`トストラップ喘スク
リプトとステップ喘スクリ
プトAWS
management
ConsoleからS3に塘
崔
? EMRで�g佩するジョブ
を鞠�h
? 恬撹したS3に鹿�秘
薦喘デ�`タ(CSVファ
イル)を鯉�{
? EMRを軟��
? AWS
Management
Consoleで、EMR喘
のEC2インスタンスが
軟�咾気譴襪里魎_�J
? �I尖�Y惚がS3貧に
竃薦
? S3貧の�I尖�Y惚ファ
イル�_�J
AsakusaとEMR軟�咼挑`ルセットアップ瘁、プログラムを恬撹してEMR貧にデプロイ、鞠�hし
EMRを軟�咾靴謄廛蹈哀薀爐�g佩させる。

13
渇竃デ�`タ
秘薦喘
プログラム
蛍裂喘に恬撹したプログラム
? 秘薦デ�`タ協�x�g廾(DMDL)
? Importerプログラム(DSL)
? 秘薦デ�`タ鯉�{喘ディレクトリ(S3)
鹿�喘
プログラム
鹿�デ�`タ
竃薦喘
プログラム
? 竃薦デ�`タ協�x�g廾(DMDL)
? Exporterプログラム(DSL)
? Operator�g廾プログラム(DSL)
? JobFlowプログラム(DSL)
プログラム
�_�k
ビルドデプロイ
EMR
ジョブ鞠�h
EMR
軟��
ユ�`ザID、晩原のデ�`タ�朕の協�x
鹿�喘デ�`タを�iみ�zむプログラム
鹿�喘のCSVファイルを鯉�{するディレクトリ
MapReduceで鹿�するプログラム
�g佩するジョブを協�xしたプログラム
ユ�`ザID、埖、指方のデ�`タ�朕の協�x
鹿�デ�`タを竃薦するプログラム
デ�`タロ�`ド、鹿�、鹿��Y惚竃薦と、EMR喘の4�N�のプログラムを恬撹する。
EMR喘
スクリプト
? ブ�`トストラップ喘スクリプト(shell)
? ステップ喘スクリプト(shell)
バッチを�g佩辛嬬彜�Bにするスクリプト
バッチを�g佩するスクリプト

14
プログラム�_�k�秘薦デ�`タ協�x�g廾(DMDL)
プログラム
�_�k
EMR
ジョブ鞠�h
EMR
軟��

15
プログラム�_�k� Importer�g廾
[getBasePath]でS3のパスを峺協、
[getResourcePattern]で秘薦ファ
イル兆を峺協。秘薦ファイル兆は、ワ
イルドカ�`ドで�}方ファイルの�iみ�z
みを辛嬬にしておく。
プログラム
�_�k
EMR
ジョブ鞠�h
EMR
軟��

16
プログラム�_�k�秘薦デ�`タ塘崔喘ディレクトリ(S3)
プログラム
�_�k
EMR
ジョブ鞠�h
EMR
軟��
S3の秘薦デ�`タディレクトリに
函誼デ�`タ�N��阿離妊�譽�
トリを恬撹

17
プログラム�_�k�Operator�g廾
プログラム
�_�k
EMR
ジョブ鞠�h
EMR
軟��
鹿�?�r狼双デ�`タへの
マ�`ジ�I尖を�g廾

18
プログラム�_�k� Jobflow�g廾
プログラム
�_�k
EMR
ジョブ鞠�h
EMR
軟��

19
プログラム�_�k�竃薦デ�`タモデル協�x�g廾(DMDL)
プログラム
�_�k
EMR
ジョブ鞠�h
EMR
軟��

20
プログラム�_�k� Exporter�g廾
プログラム
�_�k
EMR
ジョブ鞠�h
EMR
軟��
[getBasePath]でS3のパスを峺協
し、[getResourcePattern]で竃
薦ファイル兆を峺協。竃薦フォルダ�`
はプログラムで徭�啜弔没�匹気譴襦�

21
プログラム�_�k� スクリプト
プログラム
�_�k
EMR
ジョブ鞠�h
EMR
軟��
#!/bin/bash
set �Ce
### Change it ###
_bucket=s3fs.dev.emr.tokyo.projects
exportUSER="hadoop＾
exportHOME="/home/$USER＾
Export ASAKUSA_HOME="$HOME/asakusa＾
#_asakusafw_filename="asakusafw-*.tar.gz＾
_asakusafw_filename="asakusafw-0.6.2.tar.gz＾
_asakusafw_path="asakusafw/${_asakusafw_filename}＾
# Deploy asakusafw
mkdir -p ${ASAKUSA_HOME}
hadoop fs �Cget "s3://${_bucket}/${_asakusafw_path}"
${ASAKUSA_HOME}
cd ${ASAKUSA_HOME}
tar -xzf ${_asakusafw_filename}
find ${ASAKUSA_HOME} -name"*.sh" | xargs chmod
u+x
#!/bin/bash
. ~/.bash_profileexportUSER="hadoop＾
exportHOME="/home/$USER＾
exportASAKUSA_HOME="$HOME/asakusa＾
export_CMD_LOG="$ASAKUSA_HOME/job-step.log＾
# Run YAESS
echo "$0 $*" >> $_CMD_LOG
$ASAKUSA_HOME/yaess/bin/yaess-batch.sh"$@"
2>&1 | tee -a $_CMD_LOG
exit "${PIPESTATUS[0]}"
ブ�`トストラップ喘スクリプトステップ喘スクリプト

22
ビルド�gradlew�g佩
[gradlew]でデプロイ喘Asakusa
Framework、バッチアプリのア�`カ
イブを恬撹
プログラム
�_�k
EMR
ジョブ鞠�h
EMR
軟��

23
デプロイ�ア�`カイブの塘崔
プログラム
�_�k
EMR
ジョブ鞠�h
EMR
軟��
S3に[gradlew]で恬撹されたモ
ジュ�`ル、Asakusa Framework、
バッチアプリのア�`カイブを塘崔する。
ここではS3Foxを旋喘してア�`カイブ
を塘崔している。

24
デプロイ�スクリプト塘崔
プログラム
�_�k
EMR
ジョブ鞠�h
EMR
軟��
ブ�`トストラップ喘スクリプト
インスタンス貧で、ア�`カイブを盾��掘�
バッチを�g佩辛嬬彜�Bとするスクリプト
ステップ喘スクリプト
インスタンス貧でバッチを�g佩する
スクリプト

25
EMRジョブ鞠�h�EMRでジョブ鞠�h
EMRのコマンドでジョブを鞠�hする。
哈方で、軟�咾垢�EC2インスタンスの
サイズや方を峺協。ここではマスタ�`
喘にm1.large1岬、スレ�`ブ喘に
m1.small3岬を峺協。
プログラム
�_�k
EMR
ジョブ鞠�h
EMR
軟��

26
EMRジョブ鞠�h�Management Consoleでジョブ�_�J
プログラム
�_�k
EMR
ジョブ鞠�h
EMR
軟��
EMRでジョブ鞠�hした�Y惚として、
AWSのManagement Console貧
にジョブが鞠�hされる。

27
EMR軟�咤㍑訌�CSVファイルをS3に鯉�{
プログラム
�_�k
EMR
ジョブ鞠�h
EMR
軟��

28
EMR軟�咤� EMRステップ鞠�h
ジョブ鞠�h�rに伏撹されたジョブフロ�`
IDを�_�Jして、そのジョブフロ�`IDに
��してステップ[test-step]を鞠�h
プログラム
�_�k
EMR
ジョブ鞠�h
EMR
軟��

29
EMR軟�咤� Management Consoleで鞠�hステップ�_�J
プログラム
�_�k
EMR
ジョブ鞠�h
EMR
軟��
EMRステップ鞠�hの�Y惚として、AWS
Management Console貧でステップ
[test-step]が鞠�hされる。この彜�Bか
ら、ジョブが�g佩される。

30
EMR軟�咤� インスタンス軟��
プログラム
�_�k
EMR
ジョブ鞠�h
EMR
軟��
EMRジョブ鞠�hスクリプトで峺協したイ
ンスタンスがロ�`ンチされる。ジョブ鞠�h
�rに峺協した、マスタ�`喘にm1.large
が1岬、スレ�`ブ喘にm1.smallが3岬、
軟�咾気譴討い襦�

31
EMR軟�咤�I尖�K阻
プログラム
�_�k
EMR
ジョブ鞠�h
EMR
軟��
Statusが[Completed]で、
�g佩したジョブが�K阻。

32
EMR軟�咤�I尖�Y惚竃薦
プログラム
�_�k
EMR
ジョブ鞠�h
EMR
軟��
JobFlow Map Reduce
Job01(Order) 0:12:57 0:10:06
Job02(Login) 0:15:20 0:11:47
Job03(Print) 0:15:32 0:09:15
Job04(Community) 0:07:28 0:04:29
Job05(Upload) 0:16:25 0:09:34
栽� 1:07:42 0:45:11
書指�g佩した鹿�バッチの�I尖�r�g
Exporterで峺協したS3の
パスに、�Y惚ファイルが竃薦
される。

33
Asakusa+Hadoop�EMR�を聞ってみての湖�
? MapReduceを蒙に吭�RすることなくHadoopの
�咾④鯡纈Yできる。
? 兜豚��襪離灰好箸鰔屬┐襪海箸�任④襪里任��し
で聞うには恷�m。１ヶ埖�s6認��
? �_�k�h廠��Bから�g佩まで崛れりつくせりなツ�`
ルがある (IDE(Eclipse)で�_�k辛嬬/テスト/ビ
ルド/デ�`タ�B亊)
? DSLをEclipseで聞えば、愔瓦諒垢�Tれた�h
廠とさほど�`わずプログラミング�_�kできる。
措かった泣
書瘁は、Asakusaの�m喘並箭を鹿めながら、Asakusaデザインパタ�`ンのようなものを恬り、
ベストプラクティスやサンプルコ�`ドを試喘しやすい侘で�B初していきたい。
? 並箭が富なく、書指の聞い圭よりもっといいやり圭、
�g廾圭隈があるのかが蛍からなかった。
? S3とEMRの�B亊は返冥りで佩った。
? Asakusaのトレ�`ニングを鞭けていないと、喘�Z、
處麻徨、�C嬬の中でとりかかりが�yしい。
? これから�g箭がでてくるであろう、仝SPARK々のよう
な仟しい室�gとAsakusaとの�B亊と、Hadoopと
の聞い蛍け。
個鋲泣�書瘁の豚棋

際際滷

粥壊温一顎壊温による蛍柊蛍裂児徒更廏並箭府初

Recommended

More Related Content

What's hot (20)

Viewers also liked (20)

Similar to 粥壊温一顎壊温による蛍柊蛍裂児徒更廏並箭府初 (20)

粥壊温一顎壊温による蛍柊蛍裂児徒更廏並箭府初