際際滷

Analysis of Big Data via
Hadoop

2011/04/10
#TokyoWebmining
s_iida

Agenda

? About me
? What¨s Hadoop
? Data 侘塀
? Data �Ъ�
? Data 鹿�
? 恷瘁に

2

About me

? DataMining何@DeNA
�C アフィリエイトﾚ御
�C デ�`タ盾裂 / ログ盾裂のための児�P恬りなど
? �^肇�方僥で Ph.D.
�C �}殆裏蛍ﾗ採僥、Topology
�C ポスドク匯定 (PD: 僥�g尅�d氏冩梢�T)
? 箸龍�方僥?ヨット?繍薙
? @s_iida

3

はじめに

いかにして湯寄な秤�鵤┘▲�札好蹈娃��
嗤�浸醵辰垢襪��

4

Solution

? 寄�庁デ�`タ蛍裂児�P
�C Hadoop, etc..
? 寄�庁デ�`タマイニング
�C R, Mahout, etc..

書晩は念宀についてのお�

5

What¨s Hadoop ?

? 寄�庁デ�`タを蛍柊�I尖?砿尖するためのソフトウェア児�P
? GFS や MapReduce などのJavaによる�g廾

6

Case: 箭えば´

Casebook という尺腎SNSがあったとします´

亟寔誘後?晩�誘後?コメント?
麼勣�C嬬
嗔�_賦�?仝まじで�々ボタン, etc..

兆念?來�e?定�h?徭失�B初猟
�_幣秤��
嗔�_方?禅繁嗤�o, etc..

8

いわゆる佩�咼蹈�

ユ�`ザが採か仝action々する�阿僕造�譴襯蹈�
uid time Action Type hoge

100001 2011-03-01 20:30:11 comment ****

100031 2011-03-01 20:30:14 Post diary ****

100091 2011-03-01 20:30:16 Offer friend ****

100202 2011-03-01 20:30:17 Majide button ****

? どのユ�`ザが採�r、採をしたか、を��h.

9

ユ�`ザ (status) 秤��

uid がunique になっているテ�`ブル
Registratio Friend
uid Birthday Sex type hasLover *
n num

1990-02-
111111 2010-02-01
01
F 89 0

1982-09-
222222 2011-01-02
30
M 0 1

1973-04-
333333 2009-12-24
03
M 25000 0

1988-11-
444444 2010-05-22
13
F 203 1

? 寄丘の鹿�はユ�`ザ秤�鵑釆�咼蹈阿鮟Mみ栽わせる。
? 宥械はDBに恷仟秤�鵑魃３屬靴討い襦�

10

箭�鹿��S�

? 槻溺�eコメント方
? 定�hセグメント�e亟寔誘後方

★佩�咼蹈阿八F壓のステ�`タス秤�鵑�uidでjoinして鹿�

? 書埖?枠埖の嗔�_100繁參貧の繁のコメント誘後方
? 仝禅繁がいない★いる々�篁�rの亟寔誘後方�篁�

★�^肇のステ�`タス秤�鵑�耀�靴辛呂納��する駅勣がある。

How ? 11

�その1�＾�篁�蹈亜阿鰺造�

uid time Action Type hoge

*** * Add Friend ★
1★2

1★2 2★1 1★0 0★1

time=*

? ある�r泣でのSnapshotを痌�垢襪砲蓮△修�r泣までの
ログをすべてなめる駅勣がある。
? �篁�稜衣瓩納��したい��呂�釼m
12

�その2� 掲屎�晒

uid time Action Type Sex type age

1000222 * comment F 23

1022939 * comment M 35

? joinしたい佩�咼蹈阿砲△蕕�犬疱啓咾靴討��
? あらゆるステ�`タス秤�鵑鰈啓咾垢襪里蓮�o尖￣があるの
で、駅勣なものを哇龍して弖紗。

13

�その3� 協豚議snapshot

箭えばdaily で �輝 table 来ごとdumpしてHDFSに隠贋.

DB HDFS

? ログに曳�^すれば、否楚は富ない�はず�
? �篁��い靴ぅ好透`タスには�かない.

14

ログをいかにして�Ъ�垢襪��

採絞ログ�Ъ��

? Webサ�`バは�}方。ログも蛍柊している。
�C 匯�w侭に鹿めないと鹿�竃栖ない�竃栖る��呂發△襭�
? 鹿めるなんて scp するだけじゃん�
�C ログが湯寄だと、ネットワ�`クへの�塞などに�櫃鯤垢Α�

いかにしてログを匯�w侭に芦畠に
いかにしてログを匯�w侭に仝芦畠に々鹿めるか?
ログめるか
16

HDFS (Hadoop Distributed File System)

? 弌さなFileを寄楚に恬撹することは閲けたい.
? Append(弖�) の指方も竃栖るだけ�pらしたい. 17

芦叟な圭隈�その1�
logrotate + rsync (daily)
Web servers
Hadoop Cluster
Server A

node A
Server B
node B
Server C node C
´´

´
´´
Server D ´´ hogelog.20110311.gz

Server E
ログが�Ъ�気譴襪泙�r�gがかかるので、岷
除のログ鹿�が竃栖ない。
´

18

芦叟な圭隈�その2�
１アクセス�1 ログ�ごとに僕佚
Web servers
Hadoop Cluster
Server A
2011-03-11
node A
Server B
node B
Server C node C

´
Server D
2011-03-11

Server E
弌さなfile が寄楚に竃栖てしまて、�訊らく�寄
´

�笋覆海箸砲覆襦� 19

そこで´
嶄�@サ�`バを�O崔。匯稀fileをマ�`ジ。
Web servers

Server A Hadoop Cluster
嶄�@ servers
node A
Server B
node B
Server C node C

´

´
Server D

それでも1アクセスごとにログを誘げると、アク
Server E セス�阿法献灰優�轡腑鶸_羨コスト々が´
20
´

さらに´
webサ�`バでqueue�I尖. ある殻業まとめてbulkで誘げる
Web servers Hadoop Cluster
嶄�@ servers
Server A
node A

Server B node B
node C

´
Server C

´
Server D 2011-03-11
2011-03-11
2011-03-11
Server E
´´
21

まとめ�ログ�Ъ��

? HDFSは弌さなFileが＾逗返￣なので、ログを�Ъ��
る�^殻で採業かに蛍けてマ�`ジする.
? 光webサ�`バで、嶄�@サ�`バで、HDFS貧で´

22

いかにしてログを鹿�するか�
いかにしてログを鹿�するか�
ログするか

ログ鹿�

? ログが弌さければ鹿�なんてナントでもなる。
�C awk, perl, shell script, Excel´お挫きなように。
? いかにして湯寄な楚のログを鹿�するか�

MapReduce
Pig, Hive´
24

Apache Pig

? MapReduceを佩うためのDSL.
? 返�Aき侏冱�Z.
? JavaでMapReduceを�g廾するのに曳�^すれば劭
かに�紳糞�.
? ��議荷恬も辛嬬 (Pig Latin).
? UDF (user-defined function) を徭喇に恬撹辛嬬.

25

Pig script の箭
2011-04-01の槻溺/定�h�eUU/PV

Reducerの方を
の
峺協竃栖る
峺協竃栖る

26

‐あるあるその1／

HDFS貧にある寄楚のログのフォ�`マット��Q
ほぼ揖�rに寄楚の仝��Q瘁ログ々が��⑲�気譴襪��

? HDFSにおける ��⑲�靴榔愴撒弔縫優奪肇鍠`クの�塞を育う
�replication 方が1より寄きい��錬�
? 弌蛍けにして��Qするなど��呂砲茲辰討蝋し鬚�慴��
27

‐あるあるその2／
匯ヶ埖蛍のログの晩原蛍護.
寄楚の size 0のファイルが伏撹されてしまう(採絞でしょう ? )

? MultipleOutputFormat を聞ったほうが措い。
? IF (SIZE(A)) STORE A; みたいな��Ⅲ修��瓦譴仭爾い�
´。 28

恷瘁に

? 鹿�するところまでが、ある吭龍スタ�`ト仇泣。
? 鹿��Y惚から採を�iみ函るか、どう旋喘するか
�data mining) が嶷勣。
? どのような蛍裂をしたいか、そのためにどのような鹿
�が駅勣か、そのためにどのようなログが駅勣か、
と剃麻することが寄並。
? 仝とりあえず�m輝なフォ�`マットでログを預く々は峭め
ましょう。

29

際際滷

堰温糸看看沿を喘いた寄号庁ログ盾裂

More Related Content

What's hot (20)

Similar to 堰温糸看看沿を喘いた寄号庁ログ盾裂 (20)

Recently uploaded (9)

堰温糸看看沿を喘いた寄号庁ログ盾裂