際際滷

AspectJを喘いた
寄�庁蛍柊システムHadoopの
�O�とプロファイリング
賠邦圍疏 �兢�� 表功崘
署�g寄僥徭隼親僥冩梢親

1

��

? 除定、廣朕されている寄�庁蛍柊システム
- クラウドコンピュ�`ティング

- ビッグデ�`タ

?Google, Yahoo!, Amazon, Twitter, Facebook, etc..
? 寄�庁蛍柊�I尖フレ�`ムワ�`クであるApache
Hadoopを喘いることで曳�^議否叟に寄�庁な蛍柊シ
ステムが��Bできる

2

Hadoop

ビッグデ�`タを�Qう�蕕侶嵒�K双�I尖フレ�`ムワ�`ク

- Googleの蛍柊�I尖システムのオ�`プンソ�`スクロ�`ン
Yahoo!のDoug Cutting箆によって�_�k
互いスケ�`ルアウト來嬬
コモディティハ�`ドウェアで��B辛嬬
�I尖タスク、ファイルのレプリケ�`ションによるフ
ォ�`ルトトレラントと互辛喘來
邑�^來

3

寄�庁蛍柊システム�_�kにおける�n�}

寄�庁蛍柊システムのためのデバッグ返隈
? ログは光ノ�`ドに蛍柊して恬撹される

- 愔瓦離愁侫肇ΕД△��するテキストベ�`スのログを�_�k宀が�_�J?盾裂す
る返隈は、クラスタを��撹しているノ�`ド方が寄�庁な��蓮↑F�g議では
ない。嶷勣なログ秤�鵑鰔�鯛とす辛嬬來。

? 屡贋の戻工されている光�Nメトリクスは�\喘宀�け。腺業が間く、�_
�k宀には音噴蛍

リアルタイムでの�O�と盾裂(�嘛�睥��郎�返�)
? 並念のテストや�編^によって畠ての嬾墾を函り茅くことは是�y

4

戻宛返隈
1. �g佩凋綜のランタイムモニタ
2. �g佩凋綜双を喘いたアダプティブなプロファ
イリング

? システムの�嘛�rの�g佩凋綜を鞭�啜弔鉾ゝ叩▲蹈�鵐�
? ロギングされた�g佩凋綜を�Ъ�掘⊇y�議盾裂を佩う
?�_�k宀がシステムの坪何�嘛�鮴軆�?委燐することを
屶址する

?�_�k宀がパフォ�`マンス個鋲を佩うための�森皂弔頁�
�鵑鯡畊�垢�
5

朕肝

1. ��
2. 児�P室�g
- Hadoop
- Hadoopのデバッグ?�O�返隈
3. 戻宛返隈
4. �g廾と�g�Y
5. 深賀?まとめ

6

Hadoop のア�`キテクチャ
Master
Slaves
Name Job Map
Map
Node Tracker
Data Reduce Data Reduce
Blocks Blocks

RPC
Data Task Data Task
Node Tracker Node Tracker
RPC

? マスタスレ�`ブ侏

? Hadoop蛍柊ファイルシステム = NameNode + DataNode

? Hadoop MapReduce�I尖児�P = JobTracker + TaskTracker

? ノ�`ド�gの宥佚はRPC宥佚によって佩われる
7

匯違議なHadoop�嘛�僚睥�峽�(1)

テキストベ�`スのログを�_�J

?ログは光ノ�`ドに蛍柊して恬撹
される
- クラスタを��撹するノ�`ド方は方10
方1000

- 光ノ�`ドでは�}方のデ�`モンが�嘛�

?嶷勣なログの�鯛とし
?嬾墾��鬉悗累Wれ

匯違議な堰温糸看看沿強恬の盾裂返隈(2)
Hadoop job_201211301554_0002 on sirius
User: hadoop
Job Name: TeraSort
Job File: hdfs://sirius.csl.ec.t.kanazawa-
u.ac.jp:54310/hadoop/mapred/staging/hadoop/.staging/job_201211301554_0002/job.xml

光�Nメトリクスを�_�J(ファイルに
Submit Host: sirius.csl.ec.t.kanazawa-u.ac.jp
Submit Host Address: 192.168.1.10
Job-ACLs: All users are allowed
Job Setup: Successful
Status: Succeeded

竃薦、Web インタ�`フェ�`ス�U
Started at: Fri Nov 30 16:19:39 JST 2012
Finished at: Fri Nov 30 16:33:20 JST 2012
Finished in: 13mins, 40sec
Job Cleanup: Successful

喇、Ganglia�U喇)
Failed/Killed
Kind % Complete Num Tasks Pending Running Complete Killed
Task Attempts

map 100.00% 102 0 0 102 0 0/9

-
reduce 100.00% 10 0 0 10 0 0/0

MapReduce�I尖の�M佩彜�rや
Counter Map Reduce Total
File Input Format
Bytes Read 10,002,745,698 0 10,002,745,698
Counters

光タスクの�I尖にかかった�r
SLOTS_MILLIS_MAPS 0 0 8,594,755

Launched reduce tasks 0 0 10

Total time spent by all
reduces waiting after 0 0 0

�g、HDFS坪のデ�`タサイズ吉の
reserving slots (ms)

Rack-local map tasks 0 0 81
Job Counters
Total time spent by all maps
waiting after reserving slots 0 0 0

秤�鵑�ゝ耽苗�
(ms)
Launched map tasks 0 0 111

Data-local map tasks 0 0 30

?�\喘宀�け
SLOTS_MILLIS_REDUCES 0 0 7,463,804

File Output Format
Bytes Written 0 10,000,000,000 10,000,000,000
Counters

FILE_BYTES_READ 10,317,741,238 10,200,000,300 20,517,741,538

?蛍柊システムの�_�kには音噴蛍
HDFS_BYTES_READ 10,002,757,938 0 10,002,757,938
FileSystemCounters
FILE_BYTES_WRITTEN 20,402,514,180 10,200,241,332 30,602,755,512

HDFS_BYTES_WRITTEN 0 10,000,000,000 10,000,000,000

Map output materialized
bytes 10,200,006,120 0 10,200,006,120

Map input records 100,000,000 0 100,000,000

Reduce shuffle bytes 0 10,119,092,736 10,119,092,736

9

朕肝

1. ��
2. 児�P室�g
3. 戻宛返隈
- �g佩凋綜のランタイムモニタ
- 函誼した�g佩凋綜双を喘いたアダプテ
ィブな�y�議盾裂

5. 深賀?まとめ

10

戻宛返隈の��撹勣殆

Hadoop Monitor Profiler

?MapReduce
Fluentd
?HDFS AspectJ
Zabbix
?RPC

?�O� ?リアルタイムで
?�g佩凋綜のロギングのログの盾裂?
?�Ъ� 辛�晒

11

�g佩凋綜のランタイムモニタ

? システム尅る玲いを�O�
? �g佩された凋綜を鞭�啜弔縫蹈�鵐阿垢�
- ロギングされた�g佩凋綜の双をトレ�`スと柵ぶ

12

�g佩凋綜のランタイムモニタ

? システム尅る玲いを�O�
? �g佩された凋綜を鞭�啜弔縫蹈�鵐阿垢�
- ロギングされた�g佩凋綜の双をトレ�`スと柵ぶ

勣周�
富ない�塞
モニタ�C嬬の彭用の否叟來

13

モニタ�C嬬の室�g - AspectJ -

? アスペクト峺�プログラミングのJava�g廾
- アスペクト峺�プログラミング
-- オブジェクト峺�プログラミングではモジュ�`ル晒を佩いにく
い罪僅議�v伉並をアスペクトとしてモジュ�`ル晒する室�g --
-- G. Kiczales, ECOOP 2001

?HadoopはJavaで�峰されている
?Hadoopのオリジナルコ�`ドを�筝釮垢襪海箸覆�▲蹈�
ングの�C嬬などを�g廾することが辛嬬

14

モニタを塘崔した�編^��システム
Master

Name Job Slaves
Node Tracker

Map Map

Blocks Blocks
Monitor

Data Task Data Task
RPC

RPC
Monitor Monitor

? Hadoopクラスタの光ノ�`ドにモニタを塘崔
15

Master

Name Job Slaves
Node Tracker

Map Map

Blocks Blocks
Monitor

Data Task Data Task
RPC

RPC
Monitor Monitor

? システム�嘛�r、モニタは光�Nデ�`モン?プロセスの
�g佩凋綜を�O�し、�g佩凋綜をロギングする 16

Master

Name Job Slaves
Node Tracker

Map Map

Blocks Blocks
Monitor

Data Task Data Task
RPC

RPC
Monitor Monitor

Master Trace Slave Traces
?NameNode Trace ?DataNode Trace
?JobTracker Trace ?TaskTracker Trace
?RPC Trace ?RPC Trace 17

アダプティブなプロファイリング返隈の戻宛

? Hadoopのような寄�庁な蛍柊システムでは蛍護�y嵶の
アルゴリズムを�駻�
★ 麼勣な�C嬬のための凋綜が�Rり卦し�g佩される
★ システム�嘛��g佩凋綜の�k伏指方�gの�v�S來

?�g佩凋綜の竃�F指方を喘いたシステム�嘛�僚睥�
? 腺業ごとにカウント
★ ノ�`ドレベル、プロセスレベル、メソッドレベル

18

アダプティブなプロファイリング
Master
Slaves
Name Job Map
Map
Node Tracker
Blocks Blocks

RPC
Data Task Data Task
RPC

? 腺業ごとに�g佩凋綜をカウント
19

ノ�`ドレベルでのプロファイリング
Master
Slaves
Name Job Map
Map
Node Tracker
Blocks Blocks

RPC
Data Task Data Task
RPC

? ノ�`ドごとに�g佩凋綜をカウント
20

デ�`モン?プロセスレベルでのプロファイリング
Hadoop MapReduce
Master
Slaves
Name Job Map
Map
Node Tracker
Blocks Blocks

RPC
Data Task Data Task
RPC

HDFS

? デ�`モン?プロセスごとに�g佩凋綜をカウント
21

トレ�`ス盾裂桟廠の室宝

Fluentd
-
&
�y栽ログ砿尖児�P

- 光ノ�`ドで?uentdデ�`モンがログを�Ъ�

- ログはJSON侘塀で�Qわれる

?光ノ�`ドで伏撹されたトレ�`スを盾裂喘サ�`バに�僕
Zabbix
- �y栽�O�ソフトウェア

- サ�`バ、ネットワ�`クに俊�Aされたデバイスを�O�

- �Ъ�靴織禰`タのグラフ晒、トリガ�`によるアラ�`ト�C嬬

? �Ъ�靴織肇讒`ス盾裂�Y惚の辛�晒 22

朕肝

1. ��
2. 児�P室�g
3. 戻宛返隈
- モニタの�g廾
- ベンチマ�`クテスト
- プロファイリング�Y惚
5. 深賀?まとめ

23

�g�Y�h廠
CPU Intel Core i5-3470 CPU
クロック方 3.20 GHz
コア方 4
RAM 8 GB
ディスク 1TB SATA HDD (7200 指�)

OS Linux 2.6.3-279.el6.x86_64 SMP
Hadoop 1.0.3
AspectJ 1.7.1
Java 1.7.0

☆ 貧�の�麻�Cを6岬喘いる
24

モニタ�g廾 RPC宥佚のためのパッケ�`ジ
を�O��に峺協
privileged aspect RPCMonitor {
public pointcut MethodExecute()
: execution(public * *.*(..))
&& within(org.apache.hadoop.ipc.*)
&& !execution(* *.run*())
&& !execution(* org.apache.hadoop.metrics2.**.*(..))
&& !execution(* org.apache.hadoop.security.**.*(..))
&& !withincode(* java.lang.**.*(..))

? 光ノ�`ドの、借�Pするデ�`モン、プロセスごとにモ
ニタを塘崔

? メトリクスや、セキュリティ�v�Bの�g佩凋綜はロギ
ングの�m喘��譴�薐��
25

トレ�`ス秤��
システム�r震ホスト兆デ�`モン?
プロセス兆

1352777292269-sirius-namenodetrace={
DatanodeCommand[]
org.apache.hadoop.hdfs.server.namenode.NameNode.send
Heartbeat(DatanodeRegistration, long, long, long,
int, int),
[DatanodeRegistration(192.168.1.15:50010,
storageID=DS-2031755896-192.168.1.15-50010-135217219
3708, infoPort=50075, ipcPort=50020),
922985177088,30648860672,845179580416,0,1]
}

�g佩凋綜哈方

26

パフォ�`マンスベンチマ�`ク
スル�`プット[MB/sec] = 秘薦デ�`タサイズ / �U�^�r�g
秘薦デ�`タサイスル�`プットトレ�`スデ�`タ
モニタの嗤�o �U�^�r�g [sec]
ズ[GB] [MB/sec] サイズ[MB]

1 ? 2m 25s (145sec) 6.9 2.4
84.1%
1 ～ 2m 2s (122s) 8.2 0

10 ? 8m 45s (525sec) 19.0 3.6
88.3%
10 ～ 7m 45s (465sec) 21.5 0

1h 21m 54s
100 ? 20.4 31.6
96.2%
(4,914sec)
1h 18m 37s
100 ～ 21.2 0
(4,717sec)

? 聞喘したMapReduceサンプルプログラム - ＾terasort￣

? トレ�`スサイズの��紗楕 6.43KB/sec
27

プロファイリングテスト

? 聞喘するMapReduceプログラム - terasort
? 秘薦デ�`タサイズ - 10GB(サンプルプログラム
teragenで恬撹)

? カウントを佩う�g了�r�g - 10sec
ノ�`ド、プロセス、メソッドレベルの光
腺業についてプロファイリングを佩う

28

Filter

プロファイリング�Y惚 - ノ�`ドレベル -
03.12.2012 01:24 - 03.12.2012 02:24 (now!)

01h 00m (fixed)

カウント方
2 3
1K

�r�g
＊192.168.1.10 Master
＊＊＊＊＊192.168.1.11 15 Slaves
1. 光ノ�`ドで�g佩された�g佩凋綜の指方を、�g了�r�gを10昼としてカウント
アップ

2. ジョブ軟��rには、マスタ�`において10昼�gに�s1K指ものメソッドが�g佩
されている

3. Reduceフェ�`ズにおいて畠ノ�`ドで謹くのメソッドが�g佩されている
29

Filter

プロファイリング�Y惚 - ノ�`ドレベル -
03.12.2012 01:24 - 03.12.2012 02:24 (now!)

01h 00m (fixed)

カウント方
1 2
1K

�r�g
＊192.168.1.10 Master

CPU聞喘
＊＊＊＊＊192.168.1.11 15 Slaves
おいて、
ト�､鯤� す�r�gに
1. 光ノ�`ドで�g佩された�g佩凋綜の指方を、�g了�r�gを10昼としてカウント
寄きなカウン �､淋㎞� となる�g
アップ
、寄きなカウント
楕も謹いならばとは嗤�� と冱える
を�るこ
2. ジョブ軟��rには、マスタ�`において10昼�gに�s1K指ものメソッドが�g佩
されているついて�紳併�
佩凋綜に
3. Reduceフェ�`ズにおいて畠ノ�`ドで謹くのメソッドが�g佩されている
30

h 2h 3h 6h 12h 1d 1w 2w 1m 3m 6m 1y All 03.12.2012 01:25 - 03.12.2012 02:25

プロファイリング�Y惚 -プロセスレベル-
1m 1w 1d 12h 1h | 1h 12h 1d 1w 1m 6m 1y ?? 01h 00m (fixed)

Master Slave1 Slave2

Slave3 Slave4 Slave5

＊RPC
＊HDFS(NameNode, DataNode)
＊Hadoop MapReduce(JobTracker, TaskTracker)

? マスタのNameNodeは、ジョブの誘秘�rに�g了�r�gあたり0.75Kのメソ
ッドを�g佩する

? スレ�`ブ蛤のRPC、TaskTrackerについてはほぼ揖��のグラフが誼られ
たが、DataNodeについてはノ�`ド�gで餓が�られる

? DataNodeのレプリケ�`ションポリシ�`のランダム來による�塞の陶り

プロファイリング�Y惚 -メソッドレベル 1-
SCREENS

hadoop cluster monitor - SLAVE1
Slave3
Filter
SCREENS

hadoop cluster monitor - SLAVE5
Slave5
Filter

Zoom: 1h 2h 3h 6h 12h 1d 1w 2w 1m 3m 6m 1y All 03.12.2012 01:25 - 03.12.2012 02:25 (now!) Zoom: 1h 2h 3h 6h 12h 1d 1w 2w 1m 3m 6m 1y All 03.12.2012 01:26 - 03.12.2012 02:26 (now!)

?? 1y 6m 1m 1w 1d 12h 1h | 1h 12h 1d 1w 1m 6m 1y ?? 01h 00m (fixed) ?? 1y 6m 1m 1w 1d 12h 1h | 1h 12h 1d 1w 1m 6m 1y ?? 01h 00m (fixed)

RPC DN TT RPC DN TT
光メソッドについてログ�Ъ�晉g坪に�g佩された指方が
プロセスごとの�k伏指方畠悶に媼める護栽

32

プロファイリング�Y惚 -メソッドレベル 1-
Slave3 Slave5
SCREENS SCREENS

hadoop cluster monitor - SLAVE1 hadoop cluster monitor - SLAVE5
Filter Filter

Zoom: 1h 2h 3h 6h 12h 1d 1w 2w 1m 3m 6m 1y All 03.12.2012 01:25 - 03.12.2012 02:25 (now!) Zoom: 1h 2h 3h 6h 12h 1d 1w 2w 1m 3m 6m 1y All 03.12.2012 01:26 - 03.12.2012 02:26 (now!)

?? 1y 6m 1m 1w 1d 12h 1h | 1h 12h 1d 1w 1m 6m 1y ?? 01h 00m (fixed) ?? 1y 6m 1m 1w 1d 12h 1h | 1h 12h 1d 1w 1m 6m 1y ?? 01h 00m (fixed)

?Slave3とSlave5のDNについてのプロファイリング�Y惚の行�xの圻咀と
して、org.apache.hadoop.hdfs.server.datanode.FSDataset.
getChannelPositionメソッドがあげられる

? FSDatasetはデ�`タブロックの鹿栽を�Qうクラス、光ブロックは
ユニ�`クな兆念とディスク貧の了崔秤�鵑魍屬帖�FSDirはUnixでのデ
ィレクトリで、徨にFSDirまたは、ブロックをもつ。 33

org.apache.hadoop.hdfs.server.datanode-
GRAPHS

SLAVE3 DN - method level
Filter

! -FSDataset. getChannelPosition
Zoom: 1h 2h 3h All 03.12.2012 01:25 - 03.12.2012 02:25

?? 1h | 1h ?? 01h 00m (fixed)

Filter
カウント方

03.1

�r�g

? FSDatasetはデ�`タブロックの鹿栽を�Q
うクラス、光ブロックはユニ�`クな兆念と
ディスク貧の了崔秤�鵑魍屬�

? getChannelPositionは、肝のデ�`タを��
き�zむブロック坪のオフセットを函誼する
メソッド

34

org.apache.hadoop.hdfs.server.datanode-
GRAPHS

SLAVE3 DN - method level
Filter

! -FSDataset. getChannelPosition
Zoom: 1h 2h 3h All 03.12.2012 01:25 - 03.12.2012 02:25

?? 1h | 1h ?? 01h 00m (fixed)

Filter
カウント方

03.1

�r�g

? FSDatasetはデ�`タブロックの鹿栽を�Q
HDFSのランダム��zみがボトルネックの辛嬬來
うクラス、光ブロックはユニ�`クな兆念と
★ バッファとしてSDDにデ�`タを隠贋、ブロックの
ディスク貧の了崔秤�鵑魍屬�
オフセット�､妊秋`ティング、辛嬬な何蛍をシ�`ケン
?FSDirはUnixでのディレクトリで、徨に
シャルライトで互堀晒が�蹐譴訖苗榻�
FSDirまたは、ブロックをもつ

? getChannelPositionは、肝のデ�`タを��
き�zむブロック坪のオフセットを函誼する
メソッド

35

�v銭冩梢
[M. K. Aguilera 2003]
? 宥佚メッセ�`ジをモニタリング、鹿�sアルゴリズムの戻宛
? 朕議� 咀惚パスの�奮�
? 秘竃薦メッセ�`ジ行�xがもっとも寄きいものをボトルネックとする
[Chen, 2003:PinPoint]
? 嬾墾の圻咀の辛嬬來が互い蛍柊システム坪のコンポ�`ネントを�奮�
? 匯指の深賀の�g了��g匯マシンのひとつのリクエスト
[Hellerstein,1999 :ETE]

? メソッドレベルのログを鞭�啜弔鉾ゝ�

? ノ�`ド�g宥佚のみではなくメソッドレベルで坪何�嘛�鮟睥�苗�

? 寄�庁な蛍柊システム�けのメソッドの�k伏指方によるシステム
�嘛�僚睥�

? ��畜な�r震は�Qわない 36

まとめ
戻宛返隈
1. AspectJを喘いたメソッドレベルのモニタ
- �編^��システムのオリジナルコ�`ドへの�筝釮榔慴�覆�
- システムのパフォ�`マンスへの�塞は富ない
2. トレ�`スを喘いたアダプティブなプロファイリング返隈
- �_�k宀がシステム�嘛�鮴軆�?盾裂することを屶址
- パフォ�`マンスの個鋲に嗤�燭頁�鵑鯡畊�垢�

撹惚
? Hadoopの�嘛�僚睥�睦��
- 醤悶議にボトルネックの圻咀を峺姜

書瘁の婢李
? ユ�`ザプログラム、プラグインに��しても戻宛するプロファイリングを�m喘

? FIと�Mみ栽わせる ?OpenFlowが聞えそう

? プロファイリング�Y惚を喘いたセキュリティチェック
37

際際滷

粥壊沿艶界岳干を喘いた寄号庁蛍柊システム堰温糸看看沿の酌篇とプロファイリング

More Related Content

粥壊沿艶界岳干を喘いた寄号庁蛍柊システム堰温糸看看沿の酌篇とプロファイリング