端端舝

Copyright ? BrainPad Inc. All Rights Reserved.
Python匹⻌嬡允月Apache Spark
2016爛9堎22゜@PyConJP 2016

? 靡ゴ
每 Tatsuya Atsumi
每 Twitter: https://twitter.com/__Attsun__
? 帊岈
每 BrainPad
每赻扦庨ⅲㄗDMPㄘ及嶱逃
? 疑五卅手及
每 Python
? ㄥ爛仁日中
每 Spark
? ㄠ爛圉仁日中
? 公及坻
每踏爛膳俴今木凶☆�賤Apache Spark★及伊申亙失奈毛童絞今六化中凶分五引仄凶﹝午
化手謎中掛匹允ㄐ
2
赻撩畿賡

? �砓氪
每 Spark卞勾中化鶸庤互丐月互﹜�仄中仇午反引分方仁眭日卅中源﹝
每 Python匹價掛腔卅皿伕弘仿立件弘互匹五月源﹝
? 憾中
每 Spark卞勾中化及價渙腔卅杻釾毛燴賤仄化中凶分仁﹝
每 Python毛妏勻凶Spark及妏蚚源楊卞勾中化燴賤仄化中凶分仁﹝
每 Spark及仿奶皮仿伉卞勾中化﹜杻卞SparkSQL午MLlib卞勾中化及燴賤毛仄化中凶分仁﹝
3
掛皿伊未件匹及�砓氪午憾中

1. Apache Spark及衙猁午窃妢
2. 斜扦囀匹及Spark妏蚚岈瞰卞勾中化
3. Apache Spark及價渙ㄗ戊失APIㄘ
4. Spark SQL
5. MLlib
6. 引午戶
? Appendixㄗ灍俴乒犯伙午旦弗斥亙奈伉件弘ㄘ
4
失斥尼件母

1. Apache Spark及衙猁午窃妢
5

鼠宒玉平亙丟件玄卞方月午﹜
Apache Spark is a fast and general-purpose cluster computing system.
勾引曰﹜☆詢厒★午☆嗣醴腔★毛杻釾午仄凶煦汃�I燴扑旦氾丞﹝
? 恚杅怢及扔奈田毛妏勻化﹜湮講及犯奈正毛詢厒卞�I燴匹五月﹝
? 正旦弁及旦弗斥亙奈伉件弘支梤漲逃汜媆及覧導及方丹卅煦汃�I燴卞引勾歹月醱給
卅萸反Spark互市田奈仄化仁木月﹝
? MapReduce匹俴歹木化中凶方丹卅伕弘摩�井日﹜伊戊丟件玉扑旦氾丞﹜伉失伙
正奶丞�I燴引匹盟𣷣中蚚芴匹妏歹木化中月﹝
6
Spark午反

? 笢嶲犯奈正及屾卅中奶件丟乒伉卞方月�I燴
7
詢厒ˋ
⻌薯
犯奈正
�I燴
笢嶲
犯奈正
�I燴
堤薯
犯奈正
MapReduce及�磁﹜�I燴仍午卞笢嶲犯奈正毛釬傖仄化中月凶戶﹜�I燴互�尹月幻升犯奴
旦弁IO互�尹﹜由白巧奈穴件旦卞荌�毛迵尹月﹝
⻌薯
犯奈正
�I燴 �I燴
堤薯
犯奈正
Spark及�磁﹜笢嶲犯奈正毛堤薯允月斛猁及卅中�I燴反引午戶化灍俴今木月﹝ㄗ昦�﹜笢
嶲犯奈正互斛猁卞卅月弗奈旦手丐月﹝ㄘ

? 嗣�卅仿奶皮仿伉
每 Spark卞反﹜晞瞳卅仿奶皮仿伉互郔場井日葆扽仄化中月﹝
? SparkSQLㄗDB支JSON卅升�婖趙犯奈正卞�仄化SQL毛妏勻化失弁本旦ㄘ
? Spark Streamingㄗ旦玄伉奈立件弘犯奈正�I燴ㄘ
? MLlibㄗ辻迮悝�ㄘ
? GraphXㄗ弘仿白犯奈正�I燴ㄘ
每允屯化Spark及戊失戊件禾奈生件玄毛矛奈旦午仄化中月凶戶﹜戊奈玉及婬瞳蚚支悝�戊
旦玄及腴狟﹜丟件氾瓜件旦⺍眢俶及砃奻互ヽ渾匹五月﹝
8
嗣醴腔ˋ

? 嗣�卅API
每眕狟ㄣ勾及皿伕弘仿立件弘晟惤毛扔禾奈玄仄化中月﹝
? Python
? Scala
? Java
? R
每 Python反﹜眕狟田奈斥亦件毛扔禾奈玄仄化中月﹝
? 2.6眕奻
? 3.4眕奻
? PyPy2.3眕奻
每踏゜反Python2.7毛矛奈旦午仄凶妏中源卞勾中化�仄引允﹝
9
嗣醴腔ˋ

? 睡匹丐月井ˋ
每湮�耀犯奈正及煦汃�I燴白伊奈丞伐奈弁
? 𣶹懂及MapReduce及測杸心凶中卅奶丟奈斥
? 睡匹卅中井ˋ
每煦汃白央奶伙扑旦氾丞ㄗHDFSㄘ
? HDFS支S3毛測杸允月手及匹反卅中﹝
每伉末奈旦旦弗斥亙奈仿ㄗYARN, Mesosㄘ
? Spark互仇木日及伉末奈旦旦弗斥亙奈仿奻匹お�允月﹝
每苤�耀卅犯奈正毛�I燴允月汁奈伙
? 扑件皿伙卞Python𤩸中凶幻丹互厒中仄㜭﹝
? �尹適仃月湮�耀犯奈正毛珨隅及厒僅匹�I燴仄凶中﹜旦弗奈仿申伉氾奴毛復悵仄凶中﹜午中丹
弗奈旦匹卅仃木壬反引日卅中午佷歹木月﹝
10
Spark反睡匹丐月井ˋ睡匹卅中井ˋ

? 歹井曰支允中奶件正奈白尼奈旦
每 API反map, filter卅升�釬互參挍匹五月手及互嗣中﹝SQL手妏尹月﹝
? 詢厒
每湮�耀犯奈正毛詢厒卞�I燴匹五月﹝ㄗ𣶹懂及MapReduce卞掀屯化午中丹�ㄘ
? �〝卅交奈旦弗奈旦卞�𡛟匹五月嗣�卅仿奶皮仿伉
每辻迮悝�﹜旦玄伉奈立件弘及方丹卅乒母件卅交奈旦弗奈旦卞�𡛟匹五月及反稹仄中﹝
? 𣶹懂及Hadoop旦正永弁互瞳蚚褫夔
每 YARN支HDFS午中勻凶﹜𣶹懂及Hadoop旦正永弁毛妏蚚匹五月凶戶﹜弁仿旦正毛陔凶
卞釬曰眻允斛猁反卅中﹝
? ロ�講及嗣今午戊立亙瓦氾奴及假陑覜
每 �侔及�〝卅白伊奈丞伐奈弁互湔婓允月互﹜ロ�講匹反Spark卞煦互丐曰公丹﹝
每田奈斥亦件失永皿毛俴丹蕣卞手摽源誑𡥼汜毛𠸎卞仄化仁木月卅升﹜嶱逃手茞中﹝
11
卅兮Spark毛妏丹井ˋ

? 謹窃
每 2009爛井日UC Berkley匹嶱逃互宎戶日木月﹝
每 2010爛卞左奈皿件末奈旦趙﹝
每 2013爛卞Apache Software Foundation卞敵�今木月﹝
每 2014爛卞Apache Top-Level Project卞翝跡
每 2014爛卞田奈斥亦件1.0.0互伉伉奈旦
每 2016爛卞田奈斥亦件2.0.0互伉伉奈旦
政婓ㄗ2016/8/15媆萸ㄘ匹及郔陔田奈斥亦件反2.0.0﹝
踏゜及賤掊反2.0.0毛ゴ枑午仄化中引允﹝
12
Spark及窃妢

2. 斜扦匹及Spark妏蚚岈瞰卞勾中化
13

DeltaCube卞勾中化
? 斜扦互嶱逃允月﹜DMP庨ⅲ﹝
? 扔奶玄及俴�伕弘卅升井日﹜交奈扒奈毛本弘丟件玄卞煦仃月汁奈伙﹝

赻�弁仿旦正伉件弘辻夔
? �忒毛賡今內﹜赻�腔卞交奈扒奈毛中中覜元卞本弘丟件玄歹仃允月辻夔﹝
? 仇木毛Spark匹灍政﹝
每 �尹適仃月湮講及犯奈正卞�仄化恚螝卅�I燴毛仄凶中﹜午中丹瓦奈朮卞夭勻凶曰﹝

Copyright ? BrainPad Inc. All Rights Reserved. 16
Spark匹及赻�弁仿旦正伉件弘及霜木
? 交奈扒奈及俴�伕弘井日﹜KMeans匹弁仿旦正伉件弘毛仄﹜本弘丟件玄毛瓚隅仄
化悵湔允月﹝
每杻釾講反﹜交奈扒奈及�笊矢奈斥市氾打伉及�A砃

Spark匹及赻�弁仿旦正伉件弘及霜木
? 踏゜反價渙窒煦ㄗ戊失APIㄘ毛��g卞賤掊摽﹜Spark SQL, MLlib卞蝴萸毛篇勻化
賤掊仄引允﹝

3. Apache Spark及價渙ㄗ戊失APIㄘ
18

(jupyter)Spark毛反元戶化心方丹
Spark反奶件正皿伉正奈互丐月及匹﹜云�仄匹お�允月及手允仍仁��g匹允﹝
犯白巧伙玄及Python奶件正奈皿伉正及幻井﹜iPython支jupyter notebook奻匹手𠸎
幏卞お�匹五引允﹝
踏隙反jupyter notebook奻匹お�仄化心引允﹝

? RDD反﹜弁仿旦正奻卞煦汃仄凶犯奈正毛旰友月戊伊弁扑亦件左皮斥尼弁玄﹝
? Spark匹皿伕弘仿立件弘毛俴丹蕣反﹜RDD及心毛砩舑仄﹜�〝及犯奈正互升仇卞
升及方丹卞煦汃今木化中月井﹜午中丹萸反蕎敖今木化中月﹝
? 公及凶戶﹜交奈扒奈反籵都及戊伊弁扑亦件左皮斥尼弁玄卞�允月紱釬毛𤩸仁覜�
匹煦汃�I燴毛灍政匹五月﹝
20
RDD
犯奈正
犯奈正
犯奈正
犯奈正
犯奈正
犯奈正
犯奈正
犯奈正
犯奈正
由奈氾奴扑亦件
用奈玉
RDD

? RDD反Transformation午網壬木月�I燴仍午卞﹜陔凶卅RDD左皮斥尼弁玄互釬
傖今木月﹝
每 map
每 filter
? 灍蕣及�I燴反﹜Action午網壬木月�I燴互灍俴今木月引匹綈晊今木月﹝
每 count
每 take
每 saveAsTextFile
21
綈晊灍俴
RDD RDD RDD
transformation卞方曰汜傖 transformation卞方曰汜傖
統桽毛悵厥統桽毛悵厥

(jupyter)RDD及�I燴奶丟奈斥

4. Spark SQL
23

? �婖趙今木凶犯奈正卞�仄化SQL匹�I燴毛�扴允月凶戶及仿奶皮仿伉
每 JSON午井CSV午井RDB午井﹝
? DataFrame
每 �婖趙犯奈正毛悵厥允月犯奈正戊伊弁扑亦件﹝Pandas及DataFrame及方丹卅奶丟奈斥﹝
每 RDD毛方曰妏中�忒及謎中及手卞仄凶覜元﹝
24
Spark SQL午反

(jupyter) SparkSQL毛�井仄化心方丹

? select, filter, join, limit, orderBy及方丹卅價掛腔卅紱釬
? UDFㄗ交奈扒奈隅膽憝杅ㄘ
每手切欠氏﹜憝杅反Python匹�扴褫夔﹝
每 https://spark.apache.org/docs/latest/api/python/pyspark.sql.html#pyspark.sql.S
QLContext.registerFunction
? window憝杅
? abs, ceil及方丹卅憝杅
憝杅支丟末永玉反公木眕俋卞手杅嗣仁丐曰引允﹝API玉平亙丟件玄毛統桽﹝
26
DataFrame及丟末永玉

? JSON
? CSV
? Parquet
? HiveTable
? 公及坻
每 JDBC
每 ORC
每俋窒仿奶皮仿伉毛妏丹仇午匹﹜avro卅升及白巧奈穴永玄手㜳尹月方丹卞卅曰引允﹝
? csv反手午手午俋窒仿奶皮仿伉分勻凶手及互掛极卞龰曰煋引木引仄凶﹝
27
�〝卅犯奈正末奈旦

? SQL匹�I燴毛�扴允月�磁﹜Spark嘐衄及API毛妏丹斛猁互卅中﹝
? DataFrame毛妏丹�磁匹手﹜方曰屾卅中戊奈玉匹褫掂俶及詢中戊奈玉互𤩸仃月﹝
每 RDD午掀屯化﹝
? 左皿氾奴穴奶扒卞方曰�I燴互郔羥趙今木月
每 Databricks及矛件民穴奈弁毛統桽
? https://databricks.com/blog/2015/04/24/recent-performance-improvements-in-
apache-spark-sql-python-dataframes-and-more.html
每 RDD卞方月�I燴反﹜Scala互Python及捷眕奻詢厒
每 DataFrame卞方月�I燴匹反晟惤嶲及船互卅中幻井﹜RDD方曰手詢厒
每 RDD卞掀屯化�井中民亙奈瓦件弘互祥猁卞卅月﹝
28
(jupyter)Spark SQL及丟伉永玄

5. MLlib
29

? Spark匹辻迮悝�毛俴丹凶戶及仿奶皮仿伉﹝
? 伕斥旦氾奴永弁隙䔝支KMeans卅升﹜價掛腔卅手及反𠐓勻化中月﹝
? spark.ml午spark.mllib午中丹ㄡ勾及API互丐月﹝
每踏隙反DataFrame毛矛奈旦午仄凶spark.ml毛賤掊﹝
30
MLlib

? 悝�乒犯伙毛釬傖允月蕣卞方仁丐月眕狟及方丹卅霜木毛扑件皿伙卞桶政允月凶戶
及API
每 spark.ml及心﹝
每諂今氏互疑五卅scikit-learn仿奶皮仿伉及Pipeline卞荌�毛忳仃凶午𤩸中化丐曰引允﹝
每⻌堤薯反DataFrame
31
由奶皿仿奶件API
啋犯奈正樓馱犯奈正杻釾講犯奈正悝�乒犯伙
樓馱?喲堤�I燴杻釾講釬傖�I燴悝��I燴

? Transformer
每⻌薯犯奈正ㄗDataFrameㄘ井日�卅月堤薯犯奈正ㄗDataFrameㄘ毛汜傖允月戊件禾奈
生件玄﹝
每恅梒井日�g惤毛汜傖允月Tokenizer卅升﹝
? ☆This is a pen★-> ☆§This§, ※is§, ※a§, ※pen§★
? Estimator
每 DataFrame井日Transformer毛汜傖允月戊件禾奈生件玄﹝
每 LogisticRegression支KMeans卅升及悝�失伙打伉朮丞﹝
? Pipeline
每 Transformer支Estimator毛瞎心磁歹六化軑䛐乒犯伙毛�慷允月﹝
32
由奶皿仿奶件API毛�傖允月戊件禾奈生件玄

由奶皿仿奶件API毛�傖允月戊件禾奈生件玄
啋犯奈正樓馱犯奈正杻釾講犯奈正悝�乒犯伙
樓馱?喲堤�I燴杻釾講釬傖�I燴悝��I燴
Pipeline
Transformer Estimator
? 珂幻升及�毛戊件禾奈生件玄卞歹仃月午眕狟及方丹卅煦�午卅月﹝

? 旦由丞丟永本奈斥及瓚隅毛俴丹﹝
每犯奈正本永玄
? UCIㄗ市伉白巧伙瓦失湮悝失奈田奶件苺ㄘ卞丐月支勾
? https://archive.ics.uci.edu/ml/datasets/SMS+Spam+Collection
? Spark互汜引木凶及反田奈弁伊奈苺
每杻釾講
? �g惤及堤政螿僅
每乒犯伙
? 伕斥旦氾奴永弁隙䔝
每㜳丹仿奶皮仿伉
? SparkML
? DataFrame
34
ㄗjupyterㄘSparkMLㄗ&DataFrameㄘ及妏蚚瞰

6. 引午戶
35

? Spark反﹜奶件丟乒伉�I燴卞方月詢厒俶午﹜嗣醴腔卅仿奶皮仿伉毛厥勾煦汃�I燴
白伊奈丞伐奈弁﹝
? Spark SQL午MLlib毛瞎心磁歹六月仇午匹﹜斜扦及弗奈旦及方丹卅湮�耀犯奈正
卞�允月恚螝卅�I燴手��g卞﹝
? 犯奈正講及屾卅中正旦弁卞午勻化反厒僅腔卞手綅蚚�盡及醱匹手中中仇午互卅中
午佷歹木月及匹﹜支心仁手卅爀⻌反旌仃凶中﹝
36
引午戶

? 赻煦匹�井仄化心化﹜Spark毛极覜仄化心引仄斤丹﹝
? 掛毛惁勻化心引仄斤丹﹝
? GraphX支Spark Streaming卅升﹜踏隙揖木卅井勻凶仿奶皮仿伉卞勾中化捼屯化
心引仄斤丹﹝
? Driver支Executor午中勻凶灍俴乒犯伙卞勾中化捼屯化心引仄斤丹﹝
? Shuffle�I燴卞勾中化捼屯化心引仄斤丹﹝
每由白巧奈穴件旦蜊囡及膨垀及珨勾
37
今日卞眭曰凶中源尺

皮伊奶件由永玉匹反﹜☆犯奈正煦昴★午☆巨件斥瓦失伉件弘★及⺈磁卞方曰陔仄中
��毛枑鼎仄凶中巨件斥瓦失?犯奈正扔奶巨件氾奴旦玄毛躁摩仄化中引允ㄐ
仍鶸庤丐月源反岆準云𠸎幏卞�仄井仃化仁分今中ㄐ
38
WE ARE HIRING !!

仍噙�丐曰互午丹仍介中引仄凶﹝
39

絁宒頗扦皮伊奶件由永玉
�108-0071 𡌂儔飲誠Е啞踢怢3-2-10 啞踢怢申伙3F
TELㄩ03-6721-7001
FAXㄩ03-6721-7010
info@brainpad.co.jp
www.brainpad.co.jp

Appendix: 灍俴乒犯伙午旦弗斥亙奈伉件弘
41

Spark及灍俴乒犯伙
Driver
Executor
? Driver
每交奈扒奈皿伕弘仿丞毛task卞劐𡥼仄﹜
executor卞灍俴毛韜鍔允月﹝
每 Action卞圈中executor井日犯奈正毛龰腕允月﹝
每交奈扒奈皿伕弘仿丞及main丟末永玉毛灍俴允
月JVM皿伕本旦﹝driver互皺賸允月午﹜Spark
失皿伉弗奈扑亦件赻极互皺賸允月﹝
? Executor
每 driver井日韜鍔今木凶task毛灍俴允月﹝
每 RDD及平乓永扑亙毛悵厥允月﹝
每 Sparkお�媆卞お�今木月JVM皿伕本旦﹝
↗灍蕣卞反﹜YARN支Mesos卅升及弁仿旦正穴
生奈斥乓奻匹�釬允月及匹﹜公木卞方勻化灍俴乒
犯伙反�補�卅曰引允﹝
Executor
Executor

1. 交奈扒奈皿伕弘仿丞互﹜transformation毛瞎心磁歹六化RDD及統桽弘仿白毛釬
傖允月﹝
2. 交奈扒奈皿伕弘仿丞互﹜action毛灍俴允月﹝
3. Driver互﹜RDD及甡湔弘仿白井日灍俴皿仿件毛釬傖允月﹝
每灍俴皿仿件反恚杅及旦氾奈斥井日卅月﹝
每 Stage
? 恚杅及Task及摩磁﹝
? Shuffleㄗ摽扴ㄘ互斛猁午卅月禾奶件玄匹Stage毛煦仃月﹝
? 肮元由奈氾奴扑亦件卞�允月�I燴互窣適仄化中月�磁﹜穴奈斥允月仇午匹郔羥趙允月﹝
每 Task
? executor及灍俴允月�I燴及郔苤�g弇﹝ㄠ由奈氾奴扑亦件仍午卞釬傖今木月﹝
4. Executor卞跪Stage及�I燴毛韜鍔允月﹝
43
Driver卞方月灍俴�賒釬傖

? Shuffle
每 reduceByKey脹卞方曰恚杅及由奈氾奴扑亦件毛ㄠ勾卞引午戶月凶戶﹜犯奈正毛丐月
executor井日�e及executor卞�冞允月�I燴﹝
每 �I燴互伕奈市伙匹𦤦引卅仁卅月凶戶﹜由白巧奈穴件旦奻及示玄伙生永弁卞卅曰支允中﹝
每 Shuffle互丐月�磁﹜Stage及煦賃互逃汜允月﹝
44
Shuffle
RDD
RDD
RDD
RDD
RDD
RDD
RDD
RDD
RDD
RDD
RDD
RDD
肮元由奈氾奴扑亦件卞寯元凶�I燴卅日扑乓永白伙反
祥猁ㄗmap卅升ㄘ
�e由奈氾奴扑亦件互斛猁卞卅月�I燴匹反﹜
扑乓永白伙互汜元月﹝

? Stage反﹜Shuffle毛噫賜午仄化煦剿
今木月﹝
每仇及弗奈旦匹反join互Shuffle毛お仇仄
化中月﹝
? 肮元由奈氾奴扑亦件卞�允月�I燴互窣
適允月�磁﹜�I燴反ㄠ勾及旦氾奈斥卞
穴奈斥今木月﹝ㄗ↗ㄘ
每 Stage1反map午filter及2勾及�I燴互丐
月互﹜灍蕣卞反map午filter毛磁傖仄凶
1勾及Stage卞劐𡥼今木化中月﹝
每仇木反※pipelining§午網壬木月﹝
每 Stage反恚杅及task匹�傖今木化云曰﹜
公木冗木互executor匹�I燴今木月﹝
↗�躇卞反﹜笒RDD互ㄠ勾及赽RDD井日及心仄
井統桽今木化中卅中�磁﹝ㄗ恚杅由奈氾奴扑亦件
毛穴奈斥允月union手仇木卞�絞允月ㄘ
45
Stage及煦賃瞰
map filter
map
join
Stage1
Stage2
Stage3

? py4j毛妏勻化﹜Python皿伕弘仿丞午JVM匹支曰午曰毛允月﹝
? 失弁扑亦件支扑乓永白伙�I燴反﹜價掛腔卞反Java / Scala午肮元仁JVM奻匹灍俴今木月﹝
每珨窒及失弁扑亦件支map﹜filter脹卞傾今木月憝杅反JVM互お�允月Python匹灍俴今木月﹝
46
Python匹及Spark灍俴乒犯伙
Python py4j
Driver
(JVM)
py4j Executer
Executer
Executer
(JVM)
Python
Python
Python

端端舝

Python匹⻌嬡允月Apache Spark at PyCon2016

Recommended

More Related Content

What's hot (20)

Similar to Python匹⻌嬡允月Apache Spark at PyCon2016 (20)

Python匹⻌嬡允月Apache Spark at PyCon2016

Editor's Notes