端端舝

2014/9/28 辻迮悝�辭�頗 R午Python午Julia匹辻迮悝�伊矛伙ㄣ毛醴硌允
␀yutajuly

赻撩畿賡
Twitterㄩ @yutajuly
帊岈ㄩ犯奈正煦昴戊件扔伙,
犯奈正煦昴末白玄它尼失嶱逃
�嬡ㄩ矛奶朮緙�乒犯伉件弘,
穴奈弗氾奴件弘扔奶巨件旦
郔輪及鶸庤ㄩ汁奈伙玉𡌂控2014匹100km俇軗仄引仄凶,
GitHub毛妏中仇卅仄凶中,
賒砉�I燴, 赻�晟惤�I燴, 犯奈正褫�趙, 郔羥趙,
犯奈正�婖午失伙打伉朮丞, IT
2

辻迮悝�場悝氪及燴賤伊矛伙
伊矛伙ㄣ毛醴硌允凶戶及辻迮悝�及灍犛
伊矛伙ㄠ
卅氏井申永弘犯奈正卞憝窣仄化﹜儕僅方仁煦�允月日仄中
伊矛伙ㄡ
R匹迡磊仄凶日匹五凶勻弔中仃升﹜淏眻砩庤祥隴
伊矛伙ㄢ
R午井Python午井匹iris犯奈正匹悝�午氾旦玄仄化儕僅� 月珨窣及霜木怳戶月方
伊矛伙ㄣ
跪意ゴ�I燴毛俴勻化﹜旦弗奈伉件弘手﹜祥歙算犯奈正�I燴卞手�𡛟仄化﹜由仿丟奈正捼淕仄化﹜珨窣及霜木怳戶月方ㄗ仃升失伙打伉朮丞及杅宒反衙癩腔卞歹井月最僅ㄘ
伊矛伙ㄤ
失伙打伉朮丞手杅宒毛燴賤仄凶奻匹煦昴仄化月方﹝媆嶲今尹仁木木壬﹜仿奶皮仿伉及卅中失伙打伉朮丞手玄永皿頗荽及�恅�卅互日灍蚾堤懂月方
＃
＃
3
http://d.hatena.ne.jp/shakezo/20130715/1373874047
2013爛7堎15゜ shakezo及゜� �岈統蕉

伊矛伙ㄣ毛醴硌允午晟勻化手
凶仁今氏及失伙打伉朮丞互丐勻化﹜
凶仁今氏及末白玄它尼失互丐曰引允﹝
仇及�匹�窒卞勾中化伊矛伙ㄣ毛醴硌允及反嬪褣匹允﹝
4

失伙打伉朮丞
Regression
笭隙䔝
仿永末隙䔝
伉永斥隙䔝
Classification
k輪奢楊, 𢜪隅躂, SVM
伕斥旦氾奴永弁隙䔝
Random Forest
Clustering
k-means
蕆𦵴弁仿旦正伉件弘
髦磁淏�煦票
Dimensional
Reduction
翋傖煦煦昴
秪赽煦昴
嗣棒啋喜僅�傖楊
Model
Estimation
郔蚧芢隅
EM失伙打伉朮丞
MCMC
Sequential Analysis
蕎木穴伙戊白乒犯伙
赻撩隙䔝乒犯伙
袨颷諾嶲乒犯伙
x1
x2
x3
z1
z2
z3
5

媆嶲及飲磁奻﹜
諒�丐曰煦��觳ㄗClassificationㄘ卞癹曰﹜
引凶﹜測桶腔卅失伙打伉朮丞匹丐月
Support Vector MachineㄗSVMㄘ及心㜳中引允
�砓失伙打伉朮丞
6
https://www.youtube.com/watch?v=3liCbRZPrZA
SVM with polynomial kernel visualization

伎〝丐月及匹﹜公木冗木及杻釾毛參挍仄化﹜赻煦及﹜ 引凶反﹜公及媆〝及醴腔卞羥仄凶手及毛妏中凶中
Excel
支勻化手弁伕旦摩�﹜眈憝﹜笭隙䔝煦昴什日中﹝犯奈正杅手100勀璃午井分午手丹五勾中﹝
R
珨啜腔卅失伙打伉朮丞反灍蚾𦤦心﹝゜掛惤氾平旦玄手嗣仁化﹜虐噫�慷互��g卅及匹場陑氪卞左旦旦丟﹝凶分仄丐仁引匹賤昴蚚及末白玄卅及匹嶱逃卞反砃井卅中﹝丐午�呾互午化手綈中
Python
Scikit-Learn匹珨啜腔卅辻迮悝�失伙打伉朮丞反幻廿睡匹手匹五月﹝𡘙蚚晟惤卅及匹﹜ 賤昴手嶱逃手匹五月﹝旦弁伉皿玄晟惤分互R方曰反婌中
Julia
卅氏井R心凶中卞忒幏卞妏尹化﹜切扎氏午伎〝𠸎毛葆仃化𤩸仃壬﹜C午井及戊件由奶仿晟惤�K心卞厒中賤昴末白玄﹝凶分仄﹜引分嶱逃ㄕ載陔笢卅及匹蚚芴毛腢少﹝丐午玉平亙丟件玄互剠井勻凶曰﹜嘉井勻凶曰允月及匹場陑氪卞反褣仄中井手
Java
掛跡腔卞賤昴毛俴丹卞反﹜辻迮悝�支復薹煦票及仿奶皮仿伉互情中Java分仃匹反釓中﹝ 伊矛伙5及�卅日﹜�呾手婌中凶戶左旦旦丟井手﹝
C炵
仿奶皮仿伉互ʃ中凶戶井﹜丐引曰�井卅中﹝伊矛伙5及�卅日�呾手婌中凶戶左旦旦丟井手﹝
Ruby
仿奶皮仿伉互ʃ中凶戶井﹜丐引曰�井卅中
末白玄它尼失
仿奶皮仿伉毛魂蚚仄化辻迮悝�毛俴中凶中及卅日﹜
政媆萸匹反R, Python, Julia毛�戶引允
7

緙�賤昴煦珧匹及R及�瓬
緙�及煦珧卞云仃月左奈皿件末奈旦末白玄它尼失及犯白央弁玄旦正件母奈玉反☆R★午中丹緙 �晟惤ㄚ緙磁虐噫匹允
2010爛7堎21゜ ␀IT�岈方曰
http://www.atmarkit.co.jp/ait/articles/1007/21/news096.html
R反𡘙蚚及皿伕弘仿立件弘晟惤午反井卅曰�卅曰﹜緙�賤昴支犯奈正賤昴卞杻趙仄化中月晟惤匹允﹝犯奈正毛緙�賤昴匹妏中支允中倛匹丟乒伉奻卞桯嶱仄﹜ �薯卅緙�賤昴憝杅匹��腔﹜ 抻坰腔卞煦昴毛俴中﹜忒幏卞詢 ⅲ斮卅弘仿白奴永弁旦毛釬傖仄引允
8

R井日Python卞离五𡥼歹月ˋ
☆犯奈正?扔奶巨件旦及皿伕弘仿立件弘晟惤反 R井日Python卞离五𡥼歹月★
http://readwrite.jp/archives/2534
2013爛11堎29゜ readwrite.jp�岈
?Python卅日珨勾及晟惤匹嶱逃午賤昴毛俴丹仇午互匹五月
?R午反☆緙�及凶戶及奶件正仿弁氾奴皮卅虐噫★匹丐曰﹜�躇卞反皿伕弘仿立件弘晟惤匹反卅中
?Python反犯奈正煦昴卞云中化反引分R卞輾勻化中月互﹜公及船反摹厒卞窺引勻化五化中月
?numpy, scipy, Scikit-learn, pandas
9

R, Python毛錘鞨允月Juliaˋ
Why We Created Julia
�W日互郗仄中晟惤反仇氏卅覜元分﹝引內﹜斗月中仿奶本件旦及左奈皿件末奈旦匹﹜C及厒僅午Ruby及�腔今互郗仄中﹝Lisp及方丹卅淩及穴弁伕互妏尹月肮�砓俶及丐月晟惤匹﹜Matlab及方丹卞煦井曰支允中杅悝及�扴毛仄凶中﹝ Python及方丹卞𡘙蚚腔卞妏中凶中仄﹜R及緙��I燴﹜Perl及恅趼蹈�I燴﹜ Matlab及�倛測杅�呾手猁月﹝扑尼伙及方丹卞��g卞中仁勾井及由奈汁毛勾卅亢磁歹六凶中﹝民亦奈��g卞�尹化﹜閉奻�甩永市奈手㦤逋允月晟惤﹝ 奶件正仿弁氾奴皮卞妏尹化﹜井勾戊件由奶伙匹五月晟惤互郗仄中﹝
仇氏卅卞手伐布穴穴毛晟勻凶奻分仃升﹜Hadoop心凶中卅湮�耀煦汃戊件疋亙奈氾奴件弘手支曰凶中﹝手切欠氏﹜Java午XML匹睡平伕田奶玄手都杶曆毛𤩸五凶仁卅中仄﹜杅カ怢及穴扑件卞煦汃仄凶睡幼布田奶玄手及伕弘白央奶伙毛掂氏匹犯田永弘允月卅氏化�俋分﹝𢜔𦵴卞手笭卅勻凶恚螝今毛挹仄勾仃日木月方丹卅仇午卅仁﹜ ��卅由伐奈互郗仄中﹝�g�卅旦市仿奈及伙奈皿毛𤩸中凶日﹜珨怢及CPU及伊斥旦正奈分仃毛皮件隙允辻迮惤及戊奈玉互汜傖今木化郗仄中﹝A*B午𤩸仁分仃匹カ及�呾毛公木冗木カ及穴扑件卞煦汃仄化灍俴仄化﹜操湮卅俴蹈及搪毛禾件午�呾仄化手日中凶中﹝ㄗ適仁＃ㄘ
http://marui.hatenablog.com/entry/20120221/1329823079
2012爛2堎21゜侳凝駙旃�岈方曰
10

?賤昴ㄚ嶱逃
?皿伕弘仿穴砃仃
?R手Python手婦嬤匹詢厒
?嶱逃芴笢卅及匹﹜引分妏中卞仁中井
�砓末白玄它尼失
11
3意�及墿垀?傻垀毛魂井仄﹜疑心支蚚芴卞方曰妏中煦仃凶中
?失玉石永弁煦昴
?⻌嬡氪砃仃

ㄠ0煦摽卞醴硌允午仇欠
跪晟惤匹辻迮悝�伊矛伙ㄣ毛醴硌允ㄐ
Algorithmㄩ
Support Vector Machine
Softwareㄩ
12

辻迮悝�伊矛伙ㄣ及忒�
�觳偞隅ㄩ
忳陓仄凶丟奈伙卞�仄化﹜旦由丞瓚隅毛俴丹凶戶及 SVM煦�け毛�慷允月
伊矛伙ㄣ及忒�ㄩ
1.悝�蚚犯奈正及龰腕
2.ゴ�I燴
1.杻釾喲堤?腢亼
2.仿矛伙葆仃
3.犯奈正及旦弗奈伉件弘
4.犯奈正祥歙算及�I燴
3.由仿丟奈正郔羥趙
?蝠船𨈘偩卞方月悝�, 氾旦玄, 儕僅𨈘偩
13

1. 悝�蚚犯奈正及龰腕
?HP旃互�摩仄凶Spam E-mail DatabaseㄗR及扔件皿伙犯奈正井日龰腕仄化￤砩及白巧伙母卞悵湔ㄘ
?丟奈伙杅ㄩ4601籵
?spamㄩ1813籵, non-spamㄩ2788籵
?spam反﹜庨ⅲ支它尼皮扔奶玄及𣷣豢ㄛ��g卞�仃月祤毛�丹扔奶玄, 民尼奈件丟奈伙, 失母伙玄卅升
?non-spam反﹜帊岈憝�S支��及丟奈伙互�砓﹝Georgeㄗ犯奈正枑鼎氪及庌靡ㄘ支巨伉失戊奈玉互漪引木化中月
?杻釾講ㄩ�g惤支恅趼及堤政螿僅卞憝允月57意�
?1?48ㄩ劐杅靡及堤政螿僅
?49?54ㄩ�瘍恅趼及堤政螿僅匹丐月﹝
?55?57ㄩ湮恅趼及窣卅曰及墿今及ⅸ歙, 郔墿, 磁�毛桶允﹝
?58ㄩ仿矛伙ㄗnonspam, spamㄘ
http://final-blue.blogspot.jp/2013/04/kernlabspam.html
2013爛4堎8゜今中仍及捺皮伕弘�岈
14

2-1. ゴ�I燴ㄩ杻釾喲堤?腢亼
1.杻釾喲堤?腢亼
?恅曆卅仄卞郔手笭猁
?spam or nonspam毛��匹煦仃木月ㄠ勾及杻釾講互�勾井木壬�木凶失伙打伉朮丞卅升斛猁卅中
??升氏卅卞�木凶卅失伙打伉朮丞毛妏勻化手﹜煦�卞荌�允月杻釾毛 �卅中午﹜煦�匹五月反內互卅中
?心卞仁中失甲伙及赽及隅燴
?睡日井及倛匹杻釾卞笭猁俶毛蕉尹凶曰﹜龰𡃤腢亼仄卅仃木壬﹜心卞仁中失甲伙及赽午癶籵及失甲伙及赽及Е�e手匹五卅中﹝仇及隅燴反ㄛ杻釾腢亼支杻釾喲堤互舑�e支由正奈件庲舑卞午勻化掛斮腔匹丐月仇午毛尨坭允月
Spam E-mail Database匹反仇及釬𦲀反灍囥𦤦心﹝掛絞及郔場反丟奈伙公及手及互丐月分仃﹝赻�晟惤�I燴卅升匹丟奈伙卞湔婓允月丐日斗月�g 惤毛龰勻化五化﹜spam午及眈憝�化�g惤毛篇勻凶曰﹜準都卞忒嶲及井井月釬𦲀分勻凶午砑隅今木月
15

2-2. ゴ�I燴ㄩ仿矛伙葆仃
2.仿矛伙葆仃
?仿矛伙反♀℅ㄗspam or nonspamㄘ及仇午
?手切欠氏仿矛伙反郔場井日丐月歹仃匹反卅中
?公手公手仿矛伙互都卞丐月及卅日﹜公及仿矛伙毛�化煦 �允木壬中中及匹﹜煦�け卅氏化中日卅中
?珨窒及犯奈正卞仿矛伙毛葆仃化﹜公木眕俋及犯奈正及仿矛伙毛軑䛐允月煦�け毛釬曰凶中
Spam E-mail Database匹反仇及釬𦲀手灍囥𦤦心﹝George卞甲失伉件弘毛靜曰殿仄化﹜4601籵及丟奈伙ㄠ勾ㄠ勾卞仿矛伙葆仃毛俴勻凶午砑隅今木月
16

1. 悝�蚚犯奈正及龰腕 2-1. ゴ�I燴ㄩ杻釾喲堤?腢亼 2-2. ゴ�I燴ㄩ仿矛伙葆仃
17
svm.R
svm.py
svm.jl

2-3. ゴ�I燴ㄩ犯奈正及旦弗奈伙捼淕
3.犯奈正及旦弗奈伙捼淕
?旦弗奈伙捼淕午反
?�化及杻釾講卞勾中化﹜ⅸ歙0, 煦汃ㄠ卞𠐓尹月
?旦弗奈伙捼淕互斛猁卅燴蚕
?龰曰丹月�及��互杻釾講卞方曰�卅月�磁﹜�� 互湮五中杻釾講互﹜煦�卞�仄化盓饜腔卞卅曰丹月
?杻釾講毛夫午勾內勾�月躂�婖及煦�けㄗ𢜪隅躂, Random Forestㄘ匹反斛猁卅中
http://www.slideshare.net/sleepy_yoshi/svm-13435949
▽統桽▼SVM灍犛布奶玉@sleepy_yoshi
18

2-3. ゴ�I燴ㄩ犯奈正及旦弗奈伙捼淕
19
svm.py
svm.R
svm.jl

2-4. ゴ�I燴ㄩ祥歙算犯奈正�I燴
4.祥歙算犯奈正�I燴
?祥歙算犯奈正午反
?10,000璃及丟奈伙及囀﹜spam10璃﹜non-spam9,990璃及�磁﹜允屯化non-spam午瓚隅仄化手﹜淏賤薹99.9%
?淏瞰午�瞰及掀卞⑴曰互丐月�磁﹜失伙打伉朮丞互中內木井卞⑴月瓚隅毛仄支允中悝�毛仄化仄引丹
?祥歙算犯奈正尺及��I楊
1.屾卅中源毛嶲綃尹凶媆及矢瓜伙氾奴毛﹜嗣中源毛嶲綃尹凶媆方曰湮五仁允月
?Weighted SVM
2.犯奈正杅毛捼淕仄化淏瞰杅ˊ�瞰杅卞允月
?Over Sampling ? 踏隙反戊伊分仃妏中引允
?Under Sampling
http://www.slideshare.net/sfchaos/ss-11307051
▽統蕉▼祥歙算犯奈正及弁仿旦煦�␀sfchaos
20

21
svm.R

22
svm.py

23
svm.jl

ㄢ. 由仿丟奈正郔羥趙
?卅氏匹由仿丟奈正郔羥趙互斛猁ˋ
?跪失伙打伉朮丞反犯奈正甡湔及由仿丟奈正毛厥勾
?由仿丟奈正毛捼淕仄化⻌木月井﹜羥絞卞⻌木月井匹反��煦�儕僅互綃丹井日斛猁
? Should匹反卅仁Must
?由仿丟奈正及郔羥趙反﹜弘伉永玉扔奈民ㄕ蝠船𨈘偩匹俴丹
?由仿丟奈正緊娗�仍午卞蝠船𨈘偩卞方月悝�午𨈘偩毛俴中﹜儕僅啐�
?郔手儕僅及謎中手及毛﹜郔羥由仿丟奈正午允月
?儕僅啐�價𨃨及𢜪隅
?髦磁俴蹈
?Accuracy ? 踏隙反戊伊分仃妏中引允
?recall, precision
?ROCЖ�, AUC
ㄙ弘伉永玉扔奈民﹜弁伕旦田伉犯奈扑亦件及價掛腔卅掊隴反﹜ゴ〝隙及酚枘今氏及揃蹋互歹井曰支允中及匹莌曰引允
24

OUTPUT
25
svm.R

26
svm.py
OUTPUT

27
svm.jl
棒矢奈斥卞適仁

28
OUTPUT
ㄙMLBase仿奶皮仿伉及憝杅毛妏中仇卅六壬﹜嗣煦R, Python 午肮最僅及墿今匹𤩸仃引允
https://github.com/JuliaStats/MLBase.jl
svm.jl

[統蕉] Julia及SVM由永弗奈斥卞勾中化
?Julia匹反政袨ㄡ勾及SVM由永弗奈斥互蚚砩今木化中月
?SVM.jl
?Pegasos失伙打伉朮丞匹邧��觳毛賤仁灍蚾
?LIBSVM.jl
?隅楓及LIBSVM及灍蚾
?R手Python手LIBSVM炵踏隙反﹜卅兮井摽氪及LOAD匹反引勻化㠙仃日木卅井勻凶仇午手丐曰﹜ゴ氪毛妏蚚ゴ氪及瞳蚚卞勾中化反@chezou�及Qiita毛統蕉卞仄凶 http://qiita.com/chezou/items/03e648f04a2f9bbdb74b
29
http://www.ee.oulu.fi/research/imag/courses/Vedaldi/ShalevSiSr07.pdf

[統蕉] 嶱逃虐噫
?Windows 64bit
?R 3.0.2 + Rstudio 0.97
?Python 2.7 + eclipse 4.4
?Julia 0.3.0
?Julia由永弗奈斥及version
?SVM ㄩ0.0.1
?MLBase ㄩ0.5.0
?DataFrames ㄩ0.5.7
30

[統蕉] 統桽web扔奶玄
?2013爛7堎15゜ shakezo及゜�ㄩ
?http://d.hatena.ne.jp/shakezo/20130715/1373874047
?2010爛7堎21゜ ␀IT�岈ㄩ
?http://www.atmarkit.co.jp/ait/articles/1007/21/news096.html
?2013爛11堎29゜ readwrite.jp�岈ㄩ
?http://readwrite.jp/archives/2534
?2012爛2堎21゜侳凝駙旃�岈ㄩ
?http://marui.hatenablog.com/entry/20120221/1329823079
?2013爛4堎8゜今中仍及捺皮伕弘�岈ㄩ
?http://final-blue.blogspot.jp/2013/04/kernlabspam.html
?SVM灍犛布奶玉@sleepy_yoshi ㄩ
?http://www.slideshare.net/sleepy_yoshi/svm-13435949
?祥歙算犯奈正及弁仿旦煦�␀sfchaosㄩ
?http://www.slideshare.net/sfchaos/ss-11307051
?Qiita@chezou ㄩ
?http://qiita.com/chezou/items/03e648f04a2f9bbdb74b
?Pegasos: Primal Estimated sub-GrAdient SOlver for SVMㄩ
?http://www.ee.oulu.fi/research/imag/courses/Vedaldi/ShalevSiSr07.pdf
31

?戊奈玉反袛中手及匹允及匹﹜蜊謎及豻華反凶仁今氏丐曰引允
?丐午Python卞勾中化﹜場悝氪砃仃午中丹仇午匹pandas反丐尹化妏勻化引六氏
?酖゜twitter失市它件玄勾仁曰引仄凶﹝
踏衭絻1�卅及匹, 白巧伕奈仄化仁分今中
@yutajuly
?仍ラ�丐曰互午丹仍介中引仄凶
32
云歹曰卞

端端舝

賊午梯聆喧堯棗紳午轍喝梭勳硃化?儂迮悝炾伊目?伙ㄣ毛醴硌允

Recommended

More Related Content

What's hot (20)

Similar to 賊午梯聆喧堯棗紳午轍喝梭勳硃化?儂迮悝炾伊目?伙ㄣ毛醴硌允 (6)

Recently uploaded (6)

賊午梯聆喧堯棗紳午轍喝梭勳硃化?儂迮悝炾伊目?伙ㄣ毛醴硌允