端端舝

scikit-learn毛蚚中凶!
辻迮悝�民亙奈玄伉失伙
踢嗷嗟祩!
2014-03-13
"1

赻撩畿賡
踢嗷嗟祩 (Twitter: @todogzm)!
絁宒頗扦仿弁旦?
控譙庈�砃仃Web扔奈申旦?
Rignite及嶱逃卞𣶹岈
"2

赻撩畿賡
Python窃反1爛圉!
氾平旦玄煦�卞Python毛妏蚚!
recurly-client-python及Python 2/3�𡛟!
Check.iO Level 10!
http://www.checkio.org/user/todogzm/
"3

醴棒
scikit-learn卞勾中化!
辻迮悝�民亙奈玄伉失伙!
scikit-learn毛蚚中凶氾平旦玄煦�
"4

辻迮悝�仿奶皮仿伉scikit-learn
http://scikit-learn.org/!
Python匹釬日木凶辻迮悝�仿奶皮仿伉!
頄蜓卅煦�け午(幻廿)緙珨趙今木凶API!
𨈘偩釬𦲀毛盓尹月辻夔!
Numpy, Scipy毛妏蚚仄凶詢厒卅栳呾
"6

奶件旦玄奈伙猁璃
Python 2.6眕奻 (3.3匹手妏尹月)!
斛猁卅仿奶皮仿伉!
NumPy (>=1.3)!
SciPy (>=0.7)!
matplotlib (褫�趙仄凶中�磁)!
See http://scikit-learn.org/stable/install.html!
灍蕣及妏中源反丐午匹ㄐ
"7

辻迮悝�民亙奈玄伉失伙
"8

辻迮悝�午反
隅膽!
Wikipedia及辻迮悝�方曰?
§隴尨腔卞皿伕弘仿丞仄卅仁化手悝�允月?
夔薯毛戊件疋亙奈正奈卞迵尹月旃噶煦珧§!
犯奈正井日眭舑?伙奈伙毛赻�復悵
"9

旯及隙曰卞丐月辻迮悝�及岈瞰
旦由丞瓚隅ㄩ丟奈伙互旦由丞井瘁井毛瓚隅!
伉戊丟件玉ㄩ☆仇及妀ⅲ毛惁勻凶�反仇氏卅
妀ⅲ手惁勻化中引允★!
賒砉庲舑ㄩ Picasa及�庲舑辻夔卅升
"10

辻迮悝�互腕砩午允月�觳
湮講及犯奈正毛妏勻化﹜帤眭及犯奈正毛煦�!
!
↗屾講犯奈正卅日�嶲互薉�勻凶源互婌中!
☆嬝沭弘伙奈皿測桶?嬝沭�赽★井日及10�|�盓堔互?
佌及譎鼻丟奈伙及笢匹�觳卞ㄐ!
嬝沭�赽午中丹�g惤互丐木壬旦由丞﹜午中丹由正奈件毛釬傖!
匹手由正奈件互�尹化五凶日＃ˋ
"11

辻迮悝�及煦�
諒�葆五!
淏賤犯奈正互迵尹日木化中月!
帤眭及犯奈正卞�允月軑䛐毛俴丹!
諒�卅仄!
淏賤犯奈正互迵尹日木化中卅中!
帤眭及犯奈正井日��t俶毛逃�允月
"12
踏゜及�觳反
仇勻切

辻迮悝�毛灍蕣卞妏丹卞反
悝��觳毛杅燴腔卞袙尹月!
⻌薯及杅燴腔卅桶政及𢜪隅!
堤薯及桶政源楊及𢜪隅!
諒�葆五悝�井諒�卅仄悝�井ˋ!
悝�源楊卞磁歹六凶煦�け及腢隅
"13

⻌薯及杅燴腔卅桶政
⻌薯囀⺍井日杻釾午卅月猁匼毛
龰曰堤仄杻釾矛弁玄伙毛釬月!
杻釾午反ˋ ↙賤五凶中�觳棒菴!
瞰ㄩ8x8及杅�賒砉!
64棒啋及矛弁玄伙午仄化桶政!
𧃸互0﹜啞毛15午仄凶16僇蕆
"14
[0, 0, 5, 13, 9, 1, 0, 0,
0, 0, 13, 15, 10, 15, 5, 0,
0, 3, 15, 2, 0, 11, 8, 0,
0, 4, 12, 0, 0, 8, 8, 0,
0, 5, 8, 0, 0, 9, 8, 0,
0, 4, 11, 0, 1, 12, 7, 0,
0, 2, 14, 5, 10, 12, 0, 0,
0, 0, 6, 13, 10, 0, 0, 0]

⻌薯及杅燴腔卅桶政
諒�葆五悝�及�磁!
⻌薯午﹜公木卞�允月堤薯(淏賤)及矢失毛凶
仁今氏蚚砩允月!
凶仁今氏ㄩ嗣仃木壬嗣中幻丹互咡引仄中互
1000眕奻反郗仄中
"15

堤薯及桶政
ヽ渾允月磐彆毛炴中堤仄﹜杅�趙允月!
杅�反砩庤互丐月�磁午�g卅月仿矛伉件弘及�
磁互丐月!
杅�賒砉及瞰匹丐木壬﹜0‵9!
仿矛伙及瞰?
心井氏 ↙ 1, 曰氏仍 ↙ 2, 田瓜瓜 ↙ 3, ＃
"16

煦�け及腢隅
軑䛐仄凶中 (諒�葆五悝�)!
扔禾奈玄矛弁正奈穴扑件 (田永民悝�)!
由奈本皿玄伕件 (紨棒悝�)!
逃�仄凶中 (諒�卅仄悝�)!
k郔輪奢楊
"17

scikit-learn及煦�け腢隅民奈玄扑奈玄
"18

扔禾奈玄矛弁正奈穴扑件
SVM支扔禾奈玄矛弁玄伙穴
扑件午手網壬木月!
價掛腔卞反2�及煦�け!
2勾及由正奈件毛煦仃月蕣
卞﹜跪犯奈正萸午及擒褩互
郔湮午卅月舑�e醱毛�呾
(穴奈斥件郔湮趙)
"19

扔禾奈玄矛弁正奈穴扑件
帤眭及犯奈正卞勾中化反﹜
舑�e醱及升切日�卞丐月井
匹煦�允月!
!
衵及�反�倛煦�匹五月瞰!
匹五卅中�磁卞反﹜沭璃毛
�戶月
"20
𧃸侳
啞侳

scikit-learn毛蚚中凶?
氾平旦玄煦�
"21

瞰觳ㄩ覜ロ賤昴
丐月砩�互禾斥氾奴皮井生布氾奴皮井毛軑䛐!
荎惤及犯奈正本永玄互中仁勾井丐月!
踏隙反仇及笢井日polarity dataset v2.0 毛妏蚚
(Positive, Negative公木冗木1000璃)!
https://www.cs.cornell.edu/people/pabo/
movie-review-data/
"22

堤薯午煦�け反謎中互⻌薯反＃
⻌薯及杅燴腔卅桶政及𢜪隅?
↙ 赻�恅毛升丹㜳丹井ˋ!
堤薯及桶政源楊及𢜪隅?
↙ Pos 毛+1, Neg毛-1!
諒�葆五悝�井諒�卅仄悝�井ˋ?
↙ 諒�葆五悝�及煦�け毛中仁勾井�允
"23

⻌薯及桶政
�g惤毛堤政隙杅匹杅尹
奻仆月﹝�唗反剠�
(Bag of Words乒犯伙)!
(Pos) I＊m really
loving this ?lm.!
(Neg) I hate this ?lm
because the ?lm
really ＃
"24
恅梒 #1! #2
I 1
I'm 1
because 1
?lm 1 2
hate 1
loving 1
really 1 1
the 1
this 1 1

諒�葆五悝�及�磁
悝�蚚及犯奈正卞勾
中化﹜迵尹月⻌薯卞
�允月堤薯手磁歹六
化諒尹月!
辻迮悝�反﹜跪仿矛
伙卞政木月�g惤及堤
政復薹毛蕉𩬅仄化悝
�允月
"25
恅梒 Pos #1 Neg #2
I 1
I'm 1
because 1
?lm 1 2
hate 1
loving 1
really 1 1
the 1
this 1 1

公及坻蕉𩬅允屯五萸
1�g惤井恚杅�g惤井!
旦玄永皿伐奈玉毛漪戶月井漪戶卅中井!
玄伉立件弘允月井仄卅中井(゜掛惤反ˋ)!
Bag of Words匹掛絞卞中中及ˋ!
�g惤及笭心葆仃反堤政隙杅井tf*idf乒犯伙井!
仿矛伙卞珨僅手漪引木化中卅中�g惤及㜳中!
etc＃
"26
杻隅及恅𤩸摩磁卞方
仁政木月�g惤毛笭猁
�允月乒犯伙

⻌薯窒及灍蚾
text_list卞反悝�蚚氾平旦玄及伉旦玄互⻌月!
T?dfVectorizer卞方曰﹜氾平旦玄毛tf*idf乒犯伙趙!
1�g惤引凶反2�g惤毛蚚中化矛弁玄伙趙!
荎惤毛旦玄永皿伐奈玉卞袚樓
"27
from sklearn.feature_extraction.text import TfidfVectorizer
!
text_list = [(氾平旦玄及伉旦玄)]
!
vectorizer = TfidfVectorizer(
ngram_range=(1, 2), stop_words='english')
X = vectorizer.fit_transform(text_list)

SVM卞方月悝�
⻌薯及伉旦玄午ヽ渾今木月磐彆及伉旦玄毛傾仄﹜fit()丟
末永玉匹悝�允月!
煦�け卞反�倛SVM毛妏蚚!
坻及煦�け卞允月卞反LinearSVC毛坻卞劐尹月
"28
from sklearn import svm
!
answer_list = [(text_list及跪犯奈正卞�允月仿矛伙)]
!
svc = svm.LinearSVC() # �倛SVM
svc.fit(X, answer_list) # 悝�

帤眭及犯奈正尺及軑䛐
帤眭及犯奈正毛悝�媆午肮元方丹卞乒犯伙趙允月!
悝�𦤦心及煦�け卞帤眭及犯奈正毛傾允!
磐彆反ヽ渾允月堤薯毛杅�趙仄凶�?
踏隙及瞰匹反﹜Pos ↙ +1, Neg ↙ -1
"29
text_list = vectorizer.transform([(氾平旦玄)])
!
result_list = svc.predict(text_list)

儕僅互歹井日卅中
蝠船𨈘隅!
悝�蚚犯奈正毛中仁勾井卞煦仃化﹜珨窒毛悝�蚚﹜紹曰毛俶夔
啐�蚚卞妏蚚!
cross_val_score卞煦�け﹜悝�蚚乒犯伙午ヽ渾允月磐彆毛傾六
壬3隙啐�仄凶磐彆毛殿允!
恚杅由仿丟奈正毛瞎心磁歹六化𨈘偩允月弘伉永玉扔奈民手晞瞳
"30
from numpy import array
!
svc = svm.LinearSVC()
scores = cross_validation.cross_val_score(svc, X, array(y))

煦�け及啐�互綈中
�呾媆嶲支儕僅卞荌�毛摯廿允 ☆棒啋及�中★!
1�g惤及心 ↙ �g惤杅4勀!
1�g惤午2�g惤 ↙ 53勀ㄐ (10捷眕奻)!
サ婓腔砩庤賤昴卞方月棒啋㇌窺!
肮元方丹卅砩庤及�g惤毛肮元手及午仄化㜳丹
"31
from sklearn.decomposition import TruncatedSVD
!
X = vectorizer.fit_transform(text_list)
lsa = TruncatedSVD(1000) # 1000棒啋引匹祅𦑩
X_lsa = lsa.fit_transform(X)

坻及煦�け手妏中凶中
踏隙及瞰反氾平旦玄煦�!
煦�け腢隅民奈玄扑奈玄匹左旦旦丟今木凶
Naive Bayes手蝠船𨈘隅仄凶中
"32
from sklearn.naive_bayes import GaussianNB
!
gnb = GaussianNB()
scores = cross_validation.cross_val_score(
gnb, X.toarray(), array(y))
# X公及引引反母丟午卅＃

SVM午Naive Bayes及儕僅掀廌
"33
源宒 SVM SVM
Naive
Bayes
�g惤杅 1~2�g惤 1�g惤 1~2�g惤
棒啋祅𦑩卅仄(53勀) 1000棒啋卅仄
笭心葆仃 tf*idf tf*idf tf*idf
淏賤薹 82% 80% 72%
煦�け腢隅民奈玄扑奈玄卞𣶹中Naive Bayes手啐�仄凶磐彆＃

辻迮悝�及引午戶
犯奈正井日眭舑?伙奈伙毛復悵允月凶戶及�呾源楊!
諒�葆五悝�(軑䛐)午諒�卅仄悝�(逃�)!
⻌薯午А戶凶中堤薯井日﹜諒�葆五/卅仄互𢜪引曰﹜磁歹
六化煦�け手𢜪引月!
諒�葆五悝�及煦�け卞反扔禾奈玄矛弁正奈穴扑件毛宎戶
午仄化伎〝丐月!
scikit-learn卞反辻迮悝�卞龰曰𨩆井曰支允中虐噫互丐月
"35

踏隙㜳勻化中卅中囀⺍
煦�け及��卅掊隴!
諒�卅仄悝�及瞰!
灍蕣卞辻迮悝�毛俴丹奻匹眻醱允月�觳!
諒�蚚犯奈正及摩戶源!
�呾辻伉末奈旦及�觳(CPU支丟乒伉妏蚚講)!
etc＃
"36

統蕉恅瓬?Web揃蹋
𤩸戮!
反元戶化及由正奈件庲舑 (ⅸ凝衄ʊ翍)!
Web揃蹋!
辻迮悝�民亙奈玄伉失伙␀Jubatas Casual Talks!
�互月辻迮悝�及𡛟蚚 (𡌂儔湮悝繒憷壅佸)!
python及辻迮悝�仿奶皮仿伉scikit-learn及畿賡
"37

端端舝

莽釵勳域勳喧-梭梗硃娶紳毛蚚中凶儂迮悝炾民亙奈玄伉失伙

Recommended

More Related Content

What's hot (20)

Viewers also liked (20)

Similar to 莽釵勳域勳喧-梭梗硃娶紳毛蚚中凶儂迮悝炾民亙奈玄伉失伙 (20)

Recently uploaded (11)

莽釵勳域勳喧-梭梗硃娶紳毛蚚中凶儂迮悝炾民亙奈玄伉失伙