端端舝

Introduction to MapReduce
and
all that jazz in Gumi

Shunsuke AIHARA

Overview
? What is MapReduce?
? Product point of view

? Computational Model point of view

? Framework point of view

? Example tasks
? Simple experiments in Gumi using amazon
elastic mapreduce

? Future work

Goal of this presentation
? MapReduce及升仇互奶弗化凶及井坻午屾
仄綃丹�萸井日掊隴

? MapReduce倰煦汃�I燴反妏丹分仃卅日
��g分午晟丹仇午毛燴賤仄化中凶分仁

? 價掛及蕉尹反午化手�g�
? 褣仄中窒煦反蕎今木化中月

MapReduce as a Product
? google及�K蹈煦汃�I燴虐噫
? 煦汃白央奶伙扑旦氾丞GFS
? �K蹈�I燴扑旦氾丞MapReduce
? Hadoop(+HDFS)反公及弁伕奈件
? 仇仇井日反, MapReduce午Hadoop反幻廿
肮元手及午仄化㜳丹

MapReduce as a
Computational Model
? MapReduce反�K蹈�呾及由仿母奶丞互啋
? �K蹈趙仄支允中�I燴由正奈件毛瞳蚚
? �K蹈趙仄支允中�I燴ˋ
? list�I燴及map憝杅午reduce憝杅
? 萵釬蚚及剠中憝杅倰皿伕弘仿立件弘
�K蹈皿伕弘仿立件弘及犯扒奶件由正奈件
(旦弗伙玄件�K蹈皿伕弘仿立件弘)

map
? 憝杅毛忳仃龰勻化公木毛伉旦玄及跪猁
匼卞(黃蕾卞)羥蚚允月詢蕆憝杅
map f [x1 , x2 , ..., xn ] = [f (x1 ), f (x2 ), ..., f (xn )]

? (瞰)伉旦玄及猁匼毛公木冗木媼捷允月
? map(lambda x: x*2 , [1,2,3,4,5])
憝杅 f(x) 伉旦玄

reduce
? 伉旦玄午,公及猁匼毛磐磁允月媼�栳呾
赽毛忳仃龰勻化珨勾及磐彆毛殿允憝杅
reduce [x1 , x2 , ..., xn ] = x1 x2 , ..., xn

? (瞰)伉旦玄及猁匼及�毛逋仄磁歹六月
? reduce(lambda x,y: x+y),[2,4,6,8,10])
媼�栳呾? 伉旦玄
煦汃�I燴及岍賜匹反�I燴卞方勻化仇仇互媼�栳呾午反癹日卅中

map+reduce
? map支reduce卞傾允犯奈正?�I燴互公木
冗木黃蕾卅日壬�K蹈趙褫夔
? �I燴及俋窒尺及萵釬蚚互剠中仇午互沭璃
媼�栳呾卅日n/log2(n)捷
卞詢厒趙

n捷卞詢厒趙 map�I燴 reduce�I燴

Simple distributed
map+reduce
? �I燴仄凶中操湮卅(嗣杅及)白央奶伙卞
map+reduce仄凶中

? 煦汃扑尼伙匹恚杅扔奈田卞正旦弁煦汃
? MPI反褣仄中/湮�耀犯奈正卞砃井卅中
? 煦汃扑尼伙反扑尼伙戊穴件玉毛坻及
扔奈田卞芘仆月/�盡煦汃手赻�趙

GXP Grid and Cluster Shell
? 𡌂儔湮悝泬辵旃釬傖及煦汃扑尼伙
? python卞方月灍蚾
? 弁仿旦正扔奈田卞�仄化ssh諉適毛俴
中諉適珂扔奈田奻匹戊穴件玉毛灍俴
? GXP ep: 煦汃扑尼伙+正旦弁旦弗斥亙奈仿
? GXP make: 煦汃Make(gnu Make及煦汃左皿
扑亦件毛瞳蚚)

self-made distributed map
? 弁仿旦正扔奈田午NFS匹�慷
? 煦汃扑尼伙(GXP ep)匹正旦弁毛煦汃
軑戶�ピ木卞
仄凶犯奈正毛跡慮
正旦弁伉旦玄 NFS扔奈田 in?le1
map in?ie1 > out?le1 in?le2
map in?ie2 > out?le2 in?le3
map in?ie3 > out?le3 ...
map in?ie4 > out?le4
...
Disk I/O互珨萸卞摩笢
GXP互諾中化月扔奈田卞白央奶伙及饜离?�冞手斛猁
正旦弁毛赻�匹淥曰煦仃ゴ�I燴(煦賃釬𦲀)互斛猁

self-made distributed reduce
? map媆午�傖反幻廿肮元
? reduce�I燴手赻煦匹�扴(GXP匹煦汃)
正旦弁卞甡湔互丐木壬GXP make匹
笢嶲白央奶伙
正旦弁伉旦玄(make)
毛�化悵湔
tmp1: map1 map2 ...
reduce1 map1 map2...
....
out1: tmp1 tmp2 ...
reduce2 tmp1 tmp2...
...
result: out1 out2 ... Disk I/O互珨萸卞摩笢
reduce3 out1 out2 ...
白央奶伙�冞互斛猁
恚螝卅reduce�I燴毛�扴湮講及笢嶲白央奶伙

Bottleneck of distributed
processing for massive data
? 正旦弁旦弗斥亙奈仿反�凅匹手...
? 白央奶伙及饜离及�觳
? 白央奶伙及煦賃/煦汃饜离毛赻�趙仄凶中
? Disk I/O毛煦汃趙

? �呾及擁垀俶及�觳
? 饜离�垀午�呾�垀反赻�腔卞肮元�垀匹
? 白央奶伙�冞毛郔苤癹卞/正旦弁毛赻�汜傖
�K蹈�呾煦珧(GXP)午湮�耀犯奈正賤昴煦珧(MapReduce)及白巧奈市旦及綃中

From map&reduce to
MapReduce
? MapReduce反map+reduce毛�薹腔卞�K蹈
煦汃趙允月白伊奈丞伐奈弁

? �薹腔卅煦汃�I燴尺及馱痲午秶廣
? 醱給卅忒適五及蕎
? 凶分仄﹜賤五凶中�觳毛MapReduce卞磁
歹六化婬偞�允月斛猁丐曰

MapReduce as a
Framework
? 白央奶伙及煦汃饜离及灍政
? MapReduce匹反白央奶伙毛煦汃白央奶
伙扑旦氾丞卞饜离(GFS,HDFS)
穴旦正奈用奈玉
(白央奶伙扑旦氾丞毛奪燴
白央奶伙反64MB仍午卞
煦賃今木化煦汃饜离

跪皮伕永弁反赻�匹
嗣笭趙(�盡煦汃/詢褫蚚俶)

MapReduce as a
Framework
? �呾及擁垀俶及灍政
? map�I燴反俴伊矛伙匹黃蕾
? 犯奈正灍极及丐月�垀匹map互お�
map

map

穴旦正奈用奈玉 map

map

灍极及丐月�垀卞 map

map正旦弁毛壬日ɐ仁 map

MapReduce as a
Framework
? map�I燴及衙猁
? 珨俴仍午黃蕾及�I燴
? 堤薯反 key午value及恚杅及矢失
失弁本旦伕弘脹
key1 val1
key2 val2
mapper key3 val3
key4 val4
.....

俴仍午及�g惤午螿僅及�
失弁本旦゜午交奈扒及� etc...

MapReduce as a
Framework
? �呾及擁垀俶及灍政/�I燴及赻�趙
? reduce�I燴及ゴ卞sort午shuf?e�I燴
? 肮元key及犯奈正反�化肮元reducer卞

mapper

.
.
.

MapReduce as a
Framework
堤薯毛key毛啋卞
R�卞煦賃

mapper
.
.
. .
.
.

MapReduce as a
Framework
堤薯毛key毛啋卞跪煦賃黱卞sort仄化
R�卞煦賃 reducer卞賃曰絞化
mapper
.
.
. .
.
.

MapReduce as a
Framework
堤薯毛key毛啋卞跪煦賃黱卞sort仄化
R�卞煦賃 reducer卞賃曰絞化
mapper
.
reduce反key丐凶曰1隙及心及灍俴匹褫夔
.
. .
. 坻及map�I燴午黃蕾卞reducer卞芘仆月仇午互褫夔
.

MapReduce as a
Framework
? MapReduce反key-val pair互�I燴及笢陑
? 恚螝卅�I燴反珨隙及MapReduce匹反褣
? MapReduce匹恚螝卅�I燴
? MapReduce毛嗣僇趙仄化�𡛟
? MapReduce反�g�分互𡘙蚚腔

MapReduce as a
Framework
? MapReduce及謎今
? 煦汃白央奶伙扑旦氾丞午及瞎心磁歹六
卞方月I/O煦汃午map�I燴及擁垀趙

? shuf?e�I燴及爀⻌卞方月reduce及�眢
趙?擁垀趙?�薹腔卅�K蹈趙

? 嗣僇趙卞方曰恚螝卅�I燴卞手�𡛟

However...
? Disk I/O互屾卅中 or MapReduce卞邈午仄
卞仁中�磁反GXP互晞瞳

? MapReduce毛妏云丹午允月ゴ卞...
? NFS手郔輪反婌中(EMC支NetApp)
? 杅坋G最僅卅日丟乒伉卞�\月
? 失伙打伉朮丞毛�眻允
? C++支OCaml匹𤩸仁, sed & awk匹�I燴

simple experiment
using amazon EMR
? gumi匹手伕弘賤昴毛煦汃�I燴趙
? 綎��化及犯奈正卞�仄陔仄中�I燴
? 喲堤允月犯奈正
? 場隙失弁本旦゜井日及輥適杅
? 交奈扒嶲奶件正仿弁扑亦件伊奈玄

Basic structure of Socialgame

交奈扒輥適薹
桸渾今木凶�磁反奶件正仿弁扑亦件互
棗戶勿日中丐木壬支戶日木卅中

桸渾摽卞手蝠霜互堤懂木壬交奈扒嶲
桸渾奶件正仿弁扑亦件卞�互月奶件正仿弁扑亦件
�化及由仿丟奈正互甡湔仄化中月
�化卞�喚午必奈丞腔斛�俶毛偞隅允月仇午匹郔羥趙互俴歹木月

Experiment environment
? �必奈丞扔奈田及apache伕弘毛amazon
S3旦玄伊奈斥卞悵湔
? Hadoop及HDFS眈絞
? 伕弘卞反失弁本旦交奈扒舑�e赽毛葆迵
? amazon elastic mapreduce毛蚚中化煦汃�I
燴毛俴丹
? EC2奶件旦正件旦+Hadoop及�傖

? �必奈丞扔奈田及apache伕弘毛amazon
S3旦玄伊奈斥卞悵湔筍仄MapReduce互�仁�垀午

? Hadoop及HDFS眈絞
白央奶伙毛悵湔仄化中月�垀反�e

? 伕弘卞反失弁本旦交奈扒舑�e赽毛葆迵
? amazon elastic mapreduce毛蚚中化煦汃�I
燴毛俴丹
? EC2奶件旦正件旦+Hadoop及�傖

? mapper支reducer手S3奻卞饜离
? hadoop streaming api毛瞳蚚仄python匹釬傖

? AWS Management Console匹正旦弁灍俴

↗戊穴件玉仿奶件汁奈伙手衄曰
戊件末奈伙及妏中源反弘弘木

Persistence rate

http://ec2-75-101-191-9.compute-1.amazonaws.com/admin/sweet/

? 交奈扒互場隙失弁本旦及n゜摽卞手失弁本旦仄
化中月井升丹井毛田皮伙民乓奈玄匹褫�趙
? 必奈丞皿伊奶互伙奈民件趙仄化中月井升丹井

Calucurate persistence rate
? map�I燴及囀⺍
黃赻apach伕弘由奈扔奈
csv乒斥亙奈伙+汐毛瞳蚚仄化由奈旦

珨俴仍午卞�I燴

交奈扒id毛key,゜葆及iso桶�毛val午仄化tabЕピ曰匹堤

? reduce�I燴及囀⺍
交奈扒午゜葆本永玄毛��

珨矢失仍午卞�I燴

゜葆毛set及倛匹�嶕

交奈扒仍午卞失弁本旦゜毛翝�匹�嶕

? 摽�I燴
? MapReduce及磐彆毛母它件伕奈玉仄化�I燴
? amChart(bubble)蚚及犯奈正卞樓馱

恅趼蹈井日date左皮斥尼弁玄尺

場隙失弁本旦゜及龰曰堤仄

場失弁本旦゜午左白本永玄毛
矢失卞仄化市它件玄

摩�磐彆毛白央奶伙堤薯

Result: Persistence rate

http://ec2-75-101-191-9.compute-1.amazonaws.com/admin/sweet/

? 磬嵞互場隙失弁本旦゜

? 筵嵞互場隙失弁本旦゜井日及左白本永玄

? 磬嵞筵嵞僕卞𦑩迉互屾卅中仇午互咡引仄中

user2user interaction rate
Special Thanks!! Mr. Kamatani!!

? DAU卞�仄化,坻及交奈扒卞�仄化失弁扑亦件
毛お仇仄凶交奈扒及杅毛掀廌
? 末奈扑乓伙俶毛�月硌㻢午仄化aihara互隅膽
? 統蕉:�諦嶲奶件正仿弁扑亦件(弊薆媼檔)

? 戊奈玉反屾仄墿中及匹賃霛
? 戊丟件玄脹及URL由正奈件毛煦�摩�
? DAU反暫湔及賤昴𦤦心犯奈正毛瞳蚚
? map正旦弁:
? ゜葆互key
? 交奈扒奈id午失弁扑亦件及矢失互value

? reduce正旦弁:
? ゜葆仍午卞�I燴
? key毛失弁扑亦件,value毛交奈扒奈id及
set午仄凶dictionary毛釬傖
? 交奈扒id及本永玄毛啋卞, ゜-失弁扑亦
件-�杅及3勾瞎毛釬傖

Result:user2user interaction rate
Special Thanks!! Mr. Kamatani!!

? 奶件正仿弁扑亦件互嗣仁卅月午戊立亙瓦弗奈
扑亦件及�午卅曰眢仁交奈扒及失弁氾奴皮薹
互奻互月(戊立亙瓦氾奴午仄化傖蕾)
? 奶件正仿弁扑亦件�諳互嗣仃木壬蝠霜互魂逃

Conclusion
? 仇及最僅(伕弘1仳堎*6怢煦)卅日
? 偞�: 5煦
? 戊奈犯奴件弘: 5煦
? 灍俴: 10煦(EC2 small instance 10怢)
? 綎�卞今井及廿勻化陔仄中賤昴互仄凶
中媆匹手��g卞氾旦玄互褫夔

Future work
? MapReduce反苤今卅�I燴卞反砃井卅中
? 田永民�I燴午奻忒仁瞎心磁歹六
? 政婓釬傖笢
? 奶件正仿弁扑亦件薹反失弁扑亦件毛
俴勻凶�分仃匹反卅仁, 俴歹木凶�(戊丟
件玄仄化手日勻凶�)手龰腕
? 潪嗷今氏互釬傖𦤦心ㄐㄐ

端端舝

紼硃梯賊梗餃喝釵梗賤掊

Recommended

More Related Content

What's hot (20)

Similar to 紼硃梯賊梗餃喝釵梗賤掊 (20)

紼硃梯賊梗餃喝釵梗賤掊

Editor's Notes