端端舝

Apache Spark及仍畿賡 ‵Spark及平石件
NTT犯奈正價屜扑旦氾丞岈𦲀掛窒
OSS皿伕白尼永扑亦瓜伙扔奈申旦
芩点荻
2014爛5堎29゜
菴16隙 Hadoop末奈旦戊奈玉伉奈犯奴件弘逃桶揃蹋

2Copyright ? 2013 NTT DATA Corporation
? 庌靡ㄩ芩点荻
? 謹窃ㄩ
? 引分岍卞Hadoop弁仿旦正互屾卅井勻凶仇欠井日﹜杅坋怢‵杅カ怢及Hadoop弁仿旦正及凶戶
卞掉軗﹝磐擁Hadoop眕俋及OSS午手跡燀允月゜〝﹝ActiveDirectory﹜LDAP﹜Ganglia﹜
Nagios﹜Zabbix﹜Puppet﹜???﹝OSS元扎卅及手髦介勻化引允互﹜OSS挌今氏﹝
? 郔輪反Hadoop仄卅互日﹜Storm支勻凶曰﹜Spark支勻凶曰﹜HBase揖木凶曰﹜Cassandra毛�
中凶曰﹝☆必氾乒用★卞少勾井勻化陑訣仃月陑蚖月及互帊岈﹝
? 升氏卅�ˋㄩ
? 價掛反奶件白仿巨件斥瓦失﹝狟忒及筵疑五匹戊奈玉𤩸仁及手疑五﹝
? 戊件扔伙ㄗ仍眈�ㄘ井日嶱逃﹜綅蚚手支曰引允﹝
? 灍反�ゴ反賴忒﹝仇勻公曰汜五化中引允﹝
? 坻卞反ˋㄩ
? 煦汃扑旦氾丞支勻化中月憝�S匹�傖奪燴卞反昺井日�引今木化五引仄凶﹝杅爛Puppet妏勻
化中引允互﹜仇仇1爛仁日中反Ansible妏勻化引允﹝��腔卅𨈘偩反 Vagrant + VirtualBox +
Ansible
? 迡淩湧勻凶曰堤𨩆仃凶曰允月及互疑五﹝
赻撩畿賡

? ゜�Hadoop卞揖木月汜魂匹�堤仄凶Spark及掖劓
?珨醱腔卅掊隴匹允互﹜卅月屯仁煦井曰支允仁𤩸中凶勾手曰???
? Spark Summit 2013及淥曰殿曰
? Spark及平石件
?Spark及潬 => RDD勻化卅卞ˋ
?旦弗斥亙奈仿俋紝井日公及�五
? Spark及�井卅�
?五勻午@taroleo今氏互�仄化仁木月
失斥尼件母

Copyright ? 2013 NTT DATA Corporation 4
Spark及��g卅仍掊隴

?仇及揃蹋匹畿賡允月囀⺍反﹜價掛腔卞儂奻捼𦷰ㄚ
末奈旦戊奈玉捼𦷰毛手午卞仄化中引允
?�釬復庲仄卅互日???及囀⺍反仇仇卞反漪引木化中引
六氏﹝
?丐午﹜Scala反戊伐弁瓜奶
引內場戶卞云�尹允月湮ピ卅仇午

? 湮�耀犯奈正及煦汃�I燴毛左件丟乒伉匹灍政允月
?犯奈正�I燴仄化HDD卞飲僅𤩸五堤允源宒方曰手詢厒
?Java支Scala及戊伊弁扑亦件紱釬及方丹卅妏中源匹
煦汃�I燴毛灍政匹五月
? 湮�耀犯奈正及煦汃�I燴匹反Hadoop互衄靡分互﹜
Hadoop午反�卅月失奶犯失?源楊匹犯奈正�I燴毛灍政允月
?UCBerkeley及Resilient distributed datasetsㄗRDDㄘ及
�恅互云云手午
Spark午反左件丟乒伉犯奈正�I燴及煦汃�I燴價屜
Hadoop午方仁掀廌今木月互﹜
失奈平氾弁民乓互�仁�卅月
郔陔田奈斥亦件☆Spark 0.9.1★
(2014/4/9 伉伉奈旦)
丟乒伉奻卞煦汃仄凶
劐𡥼�I燴卞羥仄凶犯奈正本永玄

Hadoop反湮講犯奈正�I燴毛政灍腔卅手及卞仄化仁木凶
? 𣶹懂撮胍反﹜斛猁喃煦卅俶夔毛手勻凶摽逃及伕奈巨件玉撮胍卞
錘鞨今木化斗仁霜木卞�\勻化﹜斛猁坋煦毛袚А允月␏␓␓
? 豫木凶撮胍毛假�卞妏中仇卅允
? 恚杅及OSS毛羥第羥垀﹜瞎心
磁歹六化妏中仇卅允
? ⅲ斮毛戊件玄伕奈伙仄化妏中仇卅允
? 𣶹懂撮胍匹反嬪褣匹丐勻凶
薆郖卞民乓伊件斥允月␏␓␓
? 陔凶卅薆郖杻衄及掝觳毛賤𢜪允月
? 伉旦弁毛戊件玄伕奈伙仄化妏中仇卅允
? ␏␓␓反..
戊乒犯奴氾奴庨ⅲ毛妏中ピ月
珂筳腔卅撮胍ㄗ湮⺍講犯奈正�I燴ㄘ毛
旯輪卅手及卞允月
俶
夔
1970 1980 1990 2000
Moore's Law
The number of transistors on the
chip doubles every 18 months.
Gilder＊s Law
The bandwidth of network doubles
every 6 months.
Metcalfe's Law
The value of a network is
proportional to the square
of the number of users.
2010
Spark及ゴ卞反Hadoop互嶱中凶耋互丐月

Hadoop反犯奴旦弁IO毛�K蹈趙仄化旦伙奈皿永玄詢戶月
? 摩笢奪燴倰及煦汃扑旦氾丞
每煦汃�I燴斥亦皮支犯奈正及奪燴反
穴旦正扔奈田匹灍囥
每旦伊奈皮扔奈田反﹜煦汃�I燴及
灍俴支犯奈正及灍极毛悵湔
? 旦伊奈皮扔奈田毛�支允仇午匹﹜
�极及�I燴俶夔毛砃奻今六月
旦弗奈伙失它玄失奈平氾弁民乓
Hadoop穴旦正扔奈田
Hadoop弁仿奶失件玄
L2/L3旦奶永民
NameNode JobTracker
L2旦奶永民
Hadoop旦伊奈皮扔奈田�
DataNode
TaskTracker
DataNode
TaskTracker
DataNode
TaskTracker
DataNode
TaskTracker
DataNode
TaskTracker
犯奴旦弁犯奴旦弁犯奴旦弁犯奴旦弁犯奴旦弁
犯奴旦弁IO及�K蹈趙
伊皿伉弗奈扑亦件卞方月蚗適趙

靜曰殿仄�I燴匹反IO戊旦玄及掝觳卞��I互斛猁
Generated
Data
煦汃
白央奶伙
扑旦氾丞
HDFS
田永民�I燴
MapReduce
ㄗMRㄘ
MR
Enterprise
Data Warehouse
Generated
Data
�I燴�砓
犯奈正毛
喲堤 Output
Output
Data
犯奈正
穴奈玄
煦汃白央奶伙扑旦氾丞
HDFS
田永民�I燴
MapReduce
煦汃
白央奶伙
扑旦氾丞
HDFS
HDFS卞黱僅犯奈正毛
悵湔允月戊旦玄互剠�匹五卅中
犯奈正毛�冞允月
戊旦玄互剠�匹五卅中
Output
Output
Data
瞰ㄠ
瞰ㄡ
𦲀��I燴?犯奈正煦昴及笢卞反靜曰殿仄�I燴互政木月

?Hadoop反由伐白伙分仃升＃
?手丹屾仄靜曰殿仄�呾毛�薹方仁匹五卅中井ˋ
- 芴笢磐彆毛睡隙手婬瞳蚚仄卅互日�呾仄化中月
- 𦲀��I燴互畆螝匹斥亦皮互200僇仁日中卞卅勻化中月
?奶件正仿弁氾奴皮卅玉伉伙母它件煦昴卞勾井尹卅中井ˋ
- 暫湔Hive支Pig匹手睡午井卅日卅中匹手卅中互﹜手丹屾仄
厒今午妏中�忒及謎中REPL互郗仄中
- ㄗ丐午SQL眕俋及腢亼眱互郗仄中﹝俴硌砃元扎卅中仇午
手仄凶中ㄘ
Hadoop反由伐白伙分仃升＃午中丹佷中

Spark反靜曰殿仄�I燴毛詢厒卞灍政
Generated
Data
Output
Output
Data
煦汃白央奶伙扑旦氾丞 HDFS
田永民�I燴
MapReduce
奶件丟乒伉煦汃�I燴
Spark
伉末奈旦秶郘ㄩYARN
靜曰殿仄�I燴卞Hadoop午Spark毛瞎心磁歹六月奶丟奈斥
湮五卅犯奈正毛MapReduce匹樓馱
犯奈正互丟乒伉奻卞离井木月凶戶
伊旦禾件旦卞�木月
Spark囀及�I燴奶丟奈斥
犯奈正
肮元犯奈正毛
靜曰殿仄�I燴
犯奈正犯奈正犯奈正
劐𡥼�I燴毛窣適匹羥蚚
HDFS奻及
犯奈正毛瞳蚚
苤�I燴毛勾卅仆化
湮�I燴毛灍政
丟乒伉丟乒伉

? Java支Scala及戊伊弁扑亦件紱釬及方丹卅丟末永玉支白伊奈丞伐奈弁毛瞳蚚匹五月凶戶﹜
Java支Scala卞騻木凶撮胍氪卞午勻化﹜恚螝卅�I燴毛灍蚾仄支允中
? Hadoop毛离五𡥼尹月手及匹反卅仁﹜Spark反Hadoop及帊瞎心手瞳蚚允月
? 瞳蚚瞰
? 伕弘煦昴ㄩ POS犯奈正賤昴﹜玄仿甲永弁賤昴﹜M2M﹜俴�薩窃﹜仿奶白伕弘墿ヽ悵湔卅升
? 伊戊丟件玉: 弁伉永弁?旦玄伉奈丞煦昴﹜憝�S弘仿白賤昴﹜𣷣豢煦昴卅升
? 𨈘坰: 準�婖犯奈正及𨈘坰﹜犯奈正喲堤
? 犯奈正穴奶瓦件弘: 龰竘ロ�及煦昴?屠𦷰﹜祥淕犯奈正及喲堤卅升
? 辻迮悝�: 湮講犯奈正及由正奈件煦昴﹜煦�卅升
Spark反湮講犯奈正毛棒〝卞劐𡥼允月�I燴互腕砩
腕砩賴忒
? Hadoop匹樓馱仄凶摽及玉伉伙母它件煦昴
? TB�引匹及犯奈正毛㜳丹扑旦氾丞
? 扔件皿伉件弘互衄�匹卅中伕件弘氾奈伙及
犯奈正煦昴
? 杅鏃‵杅煦�及Hadoop方曰手傻中
伊旦禾件旦互斛猁卅�I燴
? 弁仿旦正�极及丟乒伉卞�\曰ピ日卅中
操湮卅犯奈正�I燴ㄗTB�眕奻ㄘ
? 湮五卅犯奈正本永玄毛屾仄內勾載陔允月�I燴
? 鏃眕狟及杻卞傻中伊旦禾件旦互斛猁卅�I燴

Hadoop卅升毛漪戈巨戊扑旦氾丞匹傖曰蕾勾
? Spark : 奶氾伊奈扑亦件支嗣僇MapReduce毛�薹腔卞灍俴允月奶件丟乒伉煦汃�I燴價屜
田永民�I燴匹反嶲卞磁歹卅中方丹卅
厒��毛斛猁午允月弗奈旦匹﹜井勾1
怢及扔奈田匹反�I燴匹五卅中講及
犯奈正卞�𡛟允月斛猁互丐月弗奈旦
匹Storm毛妸蚚允月
Storm
旦玄伉奈丞�K蹈�I燴價屜
Hadoop
田永民�K蹈�I燴價屜
Spark
奶件丟乒伉�K蹈�I燴價屜
奶氾伊奈扑亦件毛隙仄凶曰
疋示永玄�I燴毛俴丹方丹卅奶件丟乒伉匹
及�I燴毛斛猁午允月�磁﹜𣶹懂反
RDBMS匹㜳尹月犯奈正扔奶朮卞引匹
𦑩日仄化井日�I燴仄化中凶
PostgreSQL
RDBMS
Oracle Coherence 支 SAP HANA 及
方丹卅詢�卅妀蚚庨ⅲ匹仄井灍政匹五
卅井勻凶奶件丟乒伉匹及�K蹈煦汃�I燴
互IA扔奈田ㄚOSS匹灍政褫夔卞卅月
1怢及扔奈田卞方月
屾講及伊戊奈玉卞�允月�I
燴?奪燴 (e.g. 奶件犯永弁旦
旦平乓件﹜伊戊奈玉�g弇及載
陔)
恚杅怢扔奈田卞方月
湮講及犯奈正卞�允月
匎搪?�I燴互腕砩
犯奴旦弁奻匹及
犯奈正�I燴
丟乒伉奻匹及
犯奈正�I燴
犯奈正毛匎搪仄凶奻
匹田永民�I燴
⻌薯今木月跪伊戊奈玉
卞�允月紨棒�I燴
1怢及扔奈田囀
匹及�I燴
恚杅怢扔奈
田匹及�I燴
丟乒伉奻匹
犯奈正毛悵厥仄
化�I燴
犯奈正毛悵厥?匎
搪六內卞�I燴
�K蹈煦汃�I燴

誑中及腕砩煦珧互屾仄內勾�卅月
田永民�I燴匹反嶲卞磁歹卅中方丹卅
厒��毛斛猁午允月弗奈旦匹﹜井勾1
怢及扔奈田匹反�I燴匹五卅中講及
犯奈正卞�𡛟允月斛猁互丐月弗奈旦
匹Storm毛妸蚚允月
Storm
旦玄伉奈丞�K蹈�I燴價屜
Hadoop
田永民�K蹈�I燴價屜
Spark
奶件丟乒伉�K蹈�I燴價屜
PostgreSQL
RDBMS
1怢及扔奈田卞方月
屾講及伊戊奈玉卞�允月�I
燴?奪燴 (e.g. 奶件犯永弁旦
旦平乓件﹜伊戊奈玉�g弇及載
陔)
恚杅怢扔奈田卞方月
湮講及犯奈正卞�允月
匎搪?�I燴互腕砩
犯奴旦弁奻匹及
犯奈正�I燴
丟乒伉奻匹及
犯奈正�I燴
犯奈正毛匎搪仄凶奻
匹田永民�I燴
⻌薯今木月跪伊戊奈玉
卞�允月紨棒�I燴
1怢及扔奈田囀
匹及�I燴
恚杅怢扔奈
田匹及�I燴
丟乒伉奻匹
犯奈正毛悵厥仄
化�I燴
犯奈正毛悵厥?匎
搪六內卞�I燴
�K蹈煦汃�I燴
交奈扒失市它件玄ロ�及奪燴
ㄗ1扔奈田匹㜳尹化﹜�躇俶毛猁
А今木月ロ�毛奪燴允月ㄘ交奈扒俴�及撈媆�I燴
�都俴�及𨈘眭
交奈扒及矢奈斥腛痄支俴�薩窃及煦昴
奶件正仿弁氾奴皮卅犯奈正�I燴
瞰尹壬☆交奈扒ロ�★午中丹�匹蕉尹月午＃
犯奈正弁伊件斥件弘
匎搪犯奈正及�璃�I燴
ㄗ駙丟乒伉卞�\曰ピ日卅中�I燴ㄘ

ㄗ統蕉ㄘSpark及嶱逃掖劓支极秶
Apache Spark
石奈丞矢奈斥午
Spark Summit
及旦禾件扔奈
仇仇1爛及 Spark及
contributor互
1爛ゴ卞17�分勻凶及
互踏爛9堎卞67�卞
2009爛:
- UC Berkley AMPLab 卞化
旃噶皿伕斥尼弁玄互旦正奈玄
2012爛:
- AMP Camp 1
2013爛:
- 摹厒卞�五互魂逃趙
- 6/19 Apache Incubation Project
- 8堎 AMP Camp 2
- 10/27 AMPLab 井日 Databrics 扦偞蕾
- 12/2 Spark Summit 嶱殼
嶱逃掖劓

Spark Summit 2013及�赽午石永玄玄疋永弁

? ゜媆ㄩ2013爛12堎2゜‵3゜
? �垀ㄩThe Hotel Nikko @ San Francisco
? 統樓氪: 450靡眕奻 (圉杅反民亙奈玄伉失伙卞統樓)
? 1゜醴敁ゴ : keynote
1゜醴敁摽 : 2玄仿永弁匹磁�24本永扑亦件
? 2゜醴 : 民亙奈玄伉失伙
奶矛件玄衙猁
旦禾件扔奈

? Keynote : Databricks 扦 CEO 井日及丟永本奈斥
? ☆中欠中欠耋撿蕾化互祛木化中月互﹜Spark 及奻匹�窒支木月方丹卞卅月仇
午毛醴硌仄化中引允★
? ☆Hadoop 午反僕湔仄引允★
? Cloudera 午及枑觓毛ゴ醱卞挹仄堤仄化中凶
? 失市犯立永弁ㄚ巨件正奈皿仿奶朮及�I源及��𠸎毛手勾頗�
頗�反㦤�T郘獰﹜民亙奈玄伉失伙手�𠸎
Keynote及�赽
民亙奈玄伉失伙及�赽
ㄗ仇切日手㦤�Tㄘ

? Hadoop戊立亙瓦氾奴午及窣觓互�引曰﹜Spark戊立亙瓦氾奴手摹厒卞傖墿笢
? Yahoo!及岈瞰互醴蕾勻凶
? 郔手珂俴仄化爀⻌仄化中月�赽互侜歹木凶
? 凶分仄﹜Spark反手午手午UCBerkeley互芢仄筳戶化中凶及匹﹜Hadoop YARN窣觓眕俋及
�井卅暫湔岈瞰互坻卞手丐月�赽
? Spark及杻釾支瞳蚚奶丟奈斥卞憝允月逃桶互嗣井勻凶
? 失皿伉及�凶醴反﹜Java8 Stream卅升卞侔化中月＃ˋ
? SharkㄗSQL on Sparkㄘ﹜Spark Streaming﹜MLbase卅升及巨戊扑旦氾丞手倛傖今木化中月
? 摽逃分仃丐勻化﹜燮隴ヽ及Hadoop方曰手玉平亙丟件玄支UI互喃灍仄化中月荂砓
Yahoo岈瞰午Spark及杻釾畿賡互嗣井勻凶
本永扑亦件�极及禾奶件玄

扔立永玄及呏暿少曰毛夎葆仃月戊立亙瓦氾奴及傖墿
堤萎: The State of Spark(Matei Zaharia)
郔輪�觳卞奻月仇午互嗣中
Storm卅升午掀廌仄化手Spark手
�仃化中卅中
嶱逃譫极匹丐月左奈皿件末奈旦戊立亙瓦氾奴互傖墿仄化仁月午﹜
辻夔�喃支祥撿磁尺及�𡛟互喃灍仄化仁月�A砃互丐月

ㄗ統蕉ㄘSpark反戊奈玉及戊立永玄講互嗣中ㄗ公及ㄠㄘ
150
20
2/17 8/25 2/9
2/17 8/25 2/9
summit
0.9.0
筥丐凶曰及戊立永玄杅掀廌
Spark
Storm
�樓�A砃ˋ

ㄗ統蕉ㄘSpark反戊奈玉及戊立永玄講互嗣中ㄗ公及ㄡㄘ
150
40
2/17 8/25 2/9
2/17 8/25 2/9
summit
0.9.0
筥丐凶曰及戊立永玄杅掀廌
Spark
Drill
�樓�A砃ˋ

覂灍卞嶱逃譫极互湮五仁卅勻化中月仇午互煦井月
Spark 0.9.0
142 contributors
2014/2
Github及☆contributors★及杅及芢痄

灍反2012爛井日市件白央伊件旦尺及繞堤互丐勻凶
Databricks及譫极午卅勻凶
AMPLAB互翋

Hadoop午及窣觓毛�戶化瞳晞俶詢仁卅勻化五凶
堤萎: Big Data Research in the AMPLab:BDAS and Beyond(Michael Franklin )
☆UC Berkeley及暫湔皿伕母弁玄★午☆Hadoop及暫湔巨戊扑旦氾丞★及窣觓毛�戶月
�五互�日木﹜珂俴允月Hadoop及辻夔毛瞳蚚仄支允仁卅勻化中月
Spark及⻌堤薯支
犯奈正及蚗適趙卞瞳蚚
詢僅卅伉末奈旦穴生奈
斥丟件玄卞瞳蚚
Hive匹鑠歹木凶
SQL卞方月煦汃�I燴毛瞳蚚

Yahoo怢俜匹由奈末瓜仿奶朮卞瞳蚚今木化中月
珨窒及�I燴毛Hadoop井日
Spark卞离五𡥼尹化中月
堤萎: Hadoop and Saprk Join Forces at Yahoo(Andy Feng)
怢俜及扑亦永疋件弘扔奶玄匹
瞳蚚今木化中月
き𦲀交奈旦手屾仄內勾�尹化中月�赽匹丐月
ㄗ杅�最僅 x 杅井堎匹痄俴仄凶午及仇午ㄘ

腴伊旦禾件旦互А戶日木月靜曰殿仄�I燴毛Spark卞
堤萎: Analytics on Spark & Shark @Yahoo (Tim Tully)
陔仄中旦正永弁𣶹懂及旦正永弁
𦲀��I燴摽圉及煦昴𦲀�支
靜曰殿仄�I燴及伊旦禾件旦卞掝觳
旦伙奈皿永玄笭�:Hadoop
伊旦禾件旦笭�:Spark
Yahoo!及�I燴價屜及蔚懂腔卅奶丟奈斥
Pig/Hive/MR
BI/OLAP
Spark/Shark

戊件氾件汁饜陓匹及交奈扒巨弁旦矢伉巨件旦砃奻毛憾丹
CONVIVA扦匹及瞳蚚奶丟奈斥
堤萎: Using Spark @ CONVIVA
Adaptive Bit Rate及捼淕
CDN旦奶永民及郔羥趙
五戶�井卅玄仿甲永弁扑尼奈疋件
弘午穴伙民CDN及灍政毛醴硌允
⺼睡卞匼婌仁
白奴奈玉田永弁匹五月井ˋ
Spark煦昴價屜
申犯左饜陓及�薹毛郔羥趙仄﹜巨件必奈斥薹及砃奻毛憾丹
ㄗ手午手午反Hadoop支旦玄伉奈丞�I燴價屜毛瞳蚚仄化中凶岈瞰ㄘ

Conviva扦☆犯丟伉永玄毛娗勻化豻曰丐月丟伉永玄★
?煦昴及詢厒趙﹜申永玄伊奈玄砃奻卞復井卞�瓬
?皿伕弘仿立件弘乒犯伙互羥仄化中凶ㄕ戊立亙瓦氾奴互魂逃
?Conviva扦匹反�〝卅辻迮悝�毛皿伕玄正奶皿
?田永民�I燴午旦玄伉奈丞�I燴匹肮元白伊奈丞伐奈弁毛瞳蚚匹五凶
?旦弗奈伙今六支允井勻凶
謎井勻凶萸
賴�仄凶萸
?嘟梤��I午綅蚚
?Spark及價屜卞憝允月黃赻及眭舑ㄗ杻卞犯奈正乒犯伙ㄘ互斛猁
?犯田永弘卞蕣仄化眭舑互斛猁
?民亙奈瓦件弘卞蕣仄化眭舑互斛猁
杅井堎嶲及皿伕母弁扑亦件虐噫灍�井日腕日木凶覜砑

奶件正仿弁氾奴皮�I燴﹜靜曰殿仄�I燴毛瞳蚚仄支允仁
笢嶲磐彆毛HDFS卞悵厥仄卅互日�I燴
𣶹懂及�ピ木及�I燴
Spark匹反
暫湔晟惤井日瞳蚚仄支允中
HDFS毛芵綎腔卞瞳蚚匹五月
Spark互枑鼎仄化仁木月辻夔及奶丟奈斥

羥蚚��及𣷣互月Spark巨戊扑旦氾丞

Shark: SQL匹�扴匹五月煦汃�I燴白伊奈丞伐奈弁
田永弁巨件玉匹Spark互�釬允月
珂俴允月HiveㄗHadoopㄘ午誑𡥼俶毛悵切卅互日逃桯笢
Shark午Hive及旦正永弁掀廌
堤萎: Shark(Michael Armbrust @ Databricks)
弁巨伉支UDF反Hive誑𡥼
郔陔伉伉奈旦: 0.8.1 ㄗ2014/1/15ㄘ
郔陔皿伊伉伉奈旦: 0.9.0
2014/2政婓﹜�𡛟Hadoop反2.0炵

Spark Streaming: 旦玄伉奈丞�I燴白伊奈丞伐奈弁
堤萎: Apache Spark (http://spark.incubator.apache.org/docs/latest/streaming-programming-guide.html)
⻌薯犯奈正毛
苤今仁Еピ勻化RDD毛
汜傖
苤今卅RDDㄗ犯奈正本永玄ㄘ互
窣卅勻凶手及
⻌薯犯奈正毛
Еピ勻凶�g惤及RDD毛汜傖
苤今卅田永民�I燴毛靜曰殿仄化Spark奻卞旦玄伉奈立件弘�I燴毛灍政
媆嶲
媆嶲
媆嶲
ㄗSpark Streaming及田奈斥亦件反Spark午肮珨ㄘ

? 靜曰殿仄�I燴毛腕砩午允月 Spark 及杻釾毛汜井仄﹜1怢及扔奈田匹�I燴匹五卅中講及
犯奈正本永玄卞�仄化煦汃�I燴匹辻迮悝�毛灍政允月
? Spark及0.8炵ㄗ2013爛9堎ㄘ井日掛极尺爀⻌
? Spark 0.9.0 肮鎆及 MLlib 及戊奈玉講反廣4KStep
? 瞳蚚褫夔卅�I燴
? 媼�煦� : �倛扔禾奈玄矛弁正穴扑件﹜伕斥旦氾奴永弁隙䔝
? �倛隙䔝ㄩLasso隙䔝﹜Redge隙䔝
? 弁仿旦正伉件弘ㄩk-means ㄗScalable K-means++ㄘ
? �f捼白奴伙正伉件弘ㄩAlternating Least Squares (ALS)
? 僑饜蔥狟楊 (Gradient Descent)
? Scala﹜Java﹜Python 井日
瞳蚚褫夔
MLlib: Spark匹妏尹月辻迮悝�仿奶皮仿伉
煦汃白央奶伙扑旦氾丞 HDFS
田永民
Map
Reduce
SQL
Hive
伉末奈旦奪燴辻� YARN
奶件丟乒伉煦汃�I燴
Apache Spark
SQL
Shark
辻迮悝�
MLLib
弘仿白
GraphX
旦玄伉奈丞
Spark
Streaming

ㄗ統蕉ㄘSpark及撮胍玄疋永弁

Python﹜Scala﹜Java卞�𡛟
堤萎: Using Apache Spark(Pat McDonough@Databricks)
☆憝杅★毛𤩸五支允中Scala井Python互云允允戶

Spark扑尼伙及灍俴瞰
Scala及REPL毛��仄凶Spark扑尼伙毛瞳蚚仄﹜奶件正仿弁氾奴皮及�I燴匹五月
?皿伕本旦囀�g极匹お�匹五月
?Spark弁仿旦正卞諉適ㄕ灍俴匹五月
Spark弁仿旦正卞諉適仄化扑尼伙毛お�

HDFS井日⻌薯犯奈正毛龰腕允月瞰
Spark扑尼伙囀匹﹜Scala匹灍蚾允月
testdata.txt毛奶件皿永玄午仄化瞳蚚
HDFS奻及犯奈正毛⻌薯午仄凶陔凶卅RDD互隅膽今木凶
?Hadoop及HDFS API互�𡛟仄化中月白央奶伙扑旦氾丞毛瞳蚚匹五月
ㄗ伕奈市伙白央奶伙扑旦氾丞毛漪戈ㄘ
?公及幻井及皿伕玄戊伙卞手�𡛟仄化中月

犯奈正毛�g惤卞煦賃仄化市它件玄仄﹜堤薯允月瞰
⻌薯犯奈正毛�g惤卞煦賃仄化
�g惤仍午卞駙杅毛呾堤允月
ㄗ中歹斗月伐奈玉市它件玄ㄘ
HDFS奻卞堤薯
堤薯磐彆及瞰
丐凶井手Java支Scala及
戊伊弁扑亦件紱釬毛允月方丹卞�尹化﹜
夎匹反煦汃�I燴毛灍俴仄化中月

UI反燮隴ヽ及Hadoop方曰手喃灍仄化中月�赽
灍俴袨暿奪燴及巨件玄伉禾奶件玄匹丐月它尼皮UI
穴旦正UI
伐奈市UI

WordCount及灍蚾瞰
val file = spark.textFile("hdfs://...")
val counts = file.flatMap(line => line.split(" "))
.map(word => (word, 1))
.reduceByKey(_ + _)
counts.saveAsTextFile("hdfs://...")
ㄠㄘ HDFS井日犯奈正毛⻌薯允月隅膽
ㄡㄘ犯奈正毛�g惤卞煦賃允月隅膽
ㄢㄘ �g惤仍午卞正皿伙毛釬月隅膽
ㄣㄘ正皿伙毛摩廣允月隅膽
ㄤㄘ HDFS卞堤薯允月隅膽
扔件皿伙戊奈玉
霜木及衙猁

端端舝

Apache Spark 及畿賡ㄗゴ圉ㄩSpark及平石件ㄘ

Recommended

More Related Content

What's hot (20)

Similar to Apache Spark 及畿賡ㄗゴ圉ㄩSpark及平石件ㄘ (20)

More from NTT DATA OSS Professional Services (20)

Apache Spark 及畿賡ㄗゴ圉ㄩSpark及平石件ㄘ