端端舝

Toxic Comment Classification
統樓�嶕
NSK
1

♂ 赻撩畿賡
♂ Kaggle午反
♂ 統樓仄凶戊件矢及衙猁
♂ 失皿伕奈民
♂ 奻弇�及Solution及畿賡
♂ ��腔卞砢卞蕾勻凶(丟正卅)氾弁瓦永弁
♂ Kaggle卞統樓允月砩膽
醴棒
2

♂ 政�
♀ Algorithms Engineer & Software Engineer
♂ ゴ�
♀ Machine Learning Engineer
♀ 帊岈囀⺍
← 左件仿奶件𣷣豢及CVR軑䛐?𣷣豢堤詨扑旦氾丞及�慷
← 𨈘坰巨件斥件及儕僅砃奻
← 民乓永玄示永玄及皿永扑亙饜陓及郔羥趙
赻撩畿賡
3

♂ 犯奈正賤昴戊件矢氾奴扑亦件毛嶱殼允月皿仿永玄白巧奈丞
♂ き𦲀互犯奈正?正旦弁毛枑鼎仄﹜�撮氪互正旦弁毛賤仁
Kaggle午反
4

♂ 統樓氪反赻煦互釬傖仄凶乒犯伙及軑䛐�毛csv卞仄化submit允月
♂ submit今木凶csv井日旦戊失互呾堤今木﹜旦戊失�卞伉奈母奈示奈玉卞靡ゴ互𡧳徭今木
月
Kaggle及杻釾: 伉奈母奈示奈玉
5

♂ 旦弁伉皿玄/notebook毛Kaggle奻匹灍俴/鼠嶱允月仇午互堤懂月
♂ 鼠嶱今木化中月Kernel毛掂戈分仃匹手準都卞辭�卞卅月
Kaggle及杻釾: Kernel
6

♂ 戊件矢卞憝允月玄疋永弁卞勾中化Kaggle奻匹荽�互堤懂月
♀ Kernel/Discussion眕俋匹及民奈丞俋及ロ�僕衄 (private sharing)反輦砦今木化中月
♂ Kernel午肮�卞戊件矢卞憝允月衄祔卅ロ�互僕衄今木化云曰﹜戊件矢奻弇毛醴硌允卅
日珨籵曰醴毛籵仄化云仁午謎中
Kaggle及杻釾: Discussion
7

♂ 正旦弁
♀ 氾平旦玄犯奈正卞�允月仿矛伉件弘
♂ 犯奈正本永玄
♀ Wikipedia及�岈卞�允月戊丟件玄及犯奈正
♀ 仿矛伙反眕狟及6意�匹﹜ゴ扴及戊丟件玄卞�仄化�嶲及失用氾奈正奈互仿矛伙毛葆迵
← toxic, severe_toxic, obscene, threat, insult, identity_hate
♀ 穴伙民仿矛伙卅及匹恚杅及仿矛伙互�g珨及戊丟件玄卞葆迵今木月仇午手丐月
♂ 啐�硌㻢
♀ 跪仿矛伙卞�允月軑䛐�及 AUC及ⅸ歙
統樓仄凶戊件矢及�觳偞隅
8

♂ 氾旦玄犯奈正互左奈皿件末奈旦午仄化母它件伕奈玉堤懂月仇午互戊件矢及郔笢卞瓚隴
仄﹜氾旦玄犯奈正及⻌木杸尹互俴歹木凶
♀ 啋〝及氾旦玄犯奈正反��犯奈正卞袚樓今木凶
♀ 肮媆卞戊件矢及ヽ癹互 1仳堎晊墿今木凶
♂ 肮元正奶立件弘匹啐�硌㻢互logloss ↙ AUC卞劐載
♀ 眕狟及方丹卅掖劓卞價勿中化中月手及午佷歹木月﹝
← logloss反仿矛伙及煦票卞鏗覜卅硌㻢匹丐曰﹜ㄗ劐載ゴ反ㄘ��犯奈正午氾旦玄犯奈正匹隴日井卞
仿矛伙及煦票卞隴日井卞綃中互丐勻凶
← 仇及方丹卅袨暿狟分午 LB(伉奈母奈示奈玉)及旦戊失井日氾旦玄犯奈正及仿矛伙及煦票毛抻月斛猁
互丐曰﹜旦戊失毛奻仆月凶戶卞掛斮腔匹卅中釬𦲀互斛猁卞卅月鮋蠶瓚毛今木化中凶
豻�: 戊件矢及芴笢匹犯奈正本永玄 & 啐�硌㻢互劐載今木凶
9

郔皺�弇
Score:
0.9867
Rank:
187 / 4551
(top 4.1%)
切卅心卞﹜
1弇: 0.9885
2弇: 0.9882
3弇: 0.9880
50弇: 0.9871
10

戊件矢正旦弁及珨窣及霜木
犯奈正��
ゴ�I燴
杻釾喲堤
乒犯伉件弘
失件扔件皮伙
��犯奈正毛�支允
杻釾毛喲堤仄支允中方丹卞恅梒?�g惤卞�I燴毛井仃月
乒犯伙互賤�仄支允中方丹卞恅梒井日杻釾講毛喲堤允月
諒�犯奈正毛⻌薯允月乒犯伙毛偞�?悝�允月
悝�仄凶乒犯伙毛緙磁仄化軑䛐�毛呾堤允月
11

戊件矢正旦弁及珨窣及霜木: 踏隙�仄凶氾弁瓦永弁?忒楊
Google楹偈↙婬楹偈卞方月犯奈正��
旦氾立件弘, 淏�桶政
tf-idf, handmade feature
GRU, CNN, GBDT, NB-SVM, LSTM, Naive Bayes, MLP
model averaging, stacking
犯奈正��
ゴ�I燴
杻釾釬傖
乒犯伉件弘
失件扔件皮伙
左伊件斥伎反郔皺腔卞submit仄凶白央奶伙匹魂蚚仄凶手及 12

♂ 場ヽ卞Kernel卞芘詨今木﹜Baseline腔卅㜳中午卅勻凶乒犯伙
♂ Christopher Manning及�恅互啋生正
♀ Baselines and Bigrams: Simple, Good Sentiment and Topic Classification
♂ 跪�g惤互跪仿矛伙卞升木分仃敵迵允月井毛蕉𩬅
♂ SVM午桶今木勾勾Kernel匹反伕斥旦氾奴永弁隙䔝互妏歹木化中凶
乒犯伉件弘: NB-SVM(Naive Bayes SVM)
13

♂ 啋生正反2014爛及EMNLP及�恅
♀ Convolutional Neural Networks
for Sentence Classification
♂ pre-trained卅word embedding毛妏勻化
恅梒毛2棒啋俴蹈午仄化桶政
♂ Conv2D -> MaxPool -> Concat毛午月
♀ �心煋心反市奈生伙及扔奶朮毛恚杅蚚砩
♀ 公木冗木及市奈生伙卞�仄化恚杅及
白奴伙正毛羥蚚
乒犯伉件弘: CNN
↗賒砉反2弁仿旦煦�及瞰 14

♂ ゴ扴及CNN午掀廌允月午
♀ 市奈生伙及扔奶朮卞甡日內玉平亙丟件玄
笢及�化及�g惤互蕉𩬅匹五月
♀ 惤�互蕉𩬅堤懂月
♂ 扑件弘伙乒犯伙匹反踏隙及
戊件矢笢郔手俶夔互詢井勻凶
(Public LB匹0.9856)
乒犯伉件弘: BiGRU
15

♂ Blend(Model Averaging)
♀ 恚杅及乒犯伙及堤薯�毛笭心毛勾仃化逋仄磁歹六﹜郔皺腔卅堤薯�午允月忒楊
♀ �g�匹灍蚾手��g卞堤懂月互�薯匹﹜踏隙及戊件矢匹準都卞霜俴勻凶
♀ Blend卞手伎氏卅霜巖互丐月日仄中
♂ 珨源匹Blend卞�允月失件民氾奈未手
失件扔件皮伙: Model Averaging
16

♂ Kernel及旦戊失奻弇互Blend匹鎚引月
♂ Blend仄凶Kernel及軑䛐�毛枑堤允月
分仃匹賃午謎中�弇毛龰木化仄引丹
♂ 旦戊失互謎中及匹Vote手摩引月
豻�: 目奶玄互砃仃日木月Blend
Blend卞�允月目奶玄互剠癹卞闊引月
17

公及坻: 伙奈伙矛奈旦及摽�I燴
18
♂ 荎惤眕俋及晟惤及label毛0卞离𡥼
♀ train/test data卞準荎惤及戊丟件玄及犯奈正互髦元勻化中凶
♀ 失用氾奈正奈反荎惤�及�嶲卅及匹﹜荎惤眕俋及戊丟件玄卞�仄化失用氾奈扑亦件堤懂卅中
← ��犯奈正笢匹﹜準荎惤及戊丟件玄匹囀⺍互 toxic卅手及匹丐勻化手label卞1反蕾勻化中卅井勻凶
日仄中

♂ 10-fold匹跪意乒犯伙毛悝�
♂ OOF prediction毛妏勻化仿矛伙黱卞跪乒犯伙及堤薯毛blend允月掀薹毛𢜪隅
♀ AUC毛郔湮趙允月掀薹卞𢜪隅
♂ 準荎惤及伊戊奈玉及摽�I燴
187th place solution overview
GRU
(twitter, crawl)
LGBM
CNN
(crawl)
NBSVM
Blend
19

�仄凶互郔皺腔卞祥妸蚚午卅勻凶失皿伕奈民
20
♂ 仿矛伙黱卞生永玄伐奈弁毛��e卞蚚砩仄化悝�允月
♀ 仿矛伙黱卞郔羥卅生永玄伐奈弁及�婖反�卅月及匹﹜仿矛伙黱卞生永玄伐奈弁毛悝�仄凶日奻互月及匹
反ˋ午佷勻化支勻化心凶
♀ ��e卞悝�仄凶源互旦戊失互詢仁卅月乒犯伙手丐勻凶互﹜郔手旦戊失互詢井勻凶乒犯伙匹反 6仿矛伙肮
媆卞悝�仄凶源互謎井勻凶
♂ 焆〝及ゴ�I燴
♀ 旦氾立件弘支淏�桶政卞方月�g惤及淏�趙脹﹜伎〝�仄凶互郔皺腔卞反ゴ�I燴毛樓尹卅中源互源互
源互旦戊失互詢井勻凶
♂ Stacking
♀ 跪意乒犯伙及10-fold及軑䛐� + handmade feature脹�仄凶互﹜blend及源互旦戊失互詢井勻凶
♀ 支曰源毛嶲綃尹化凶井手ˋ (fold及ピ曰源互綃丹乒犯伙互丐勻凶 )

♂ Diverse pre-trained embeddings (baseline public LB of 0.9877)
♂ Translations as train/test-time augmentation (TTA) (boosted LB from 0.9877 to
0.9880)
♂ Rough-bore pseudo-labelling (PL) (boosted LB from 0.9880 to 0.9885)
♂ Robust CV + stacking framework (boosted LB from 0.9885 to 0.9890)
奻弇�及賤楊: 1st place solution
21

♂ 荎惤 -> 坻晟惤 -> 荎惤匹楹偈允月午啋恅梒午婬楹偈摽匹桶政卞船煦互汜引木月
♀ 方曰嗣�卅桶政及��犯奈正毛腕日木月
♂ 凶分仄﹜羥絞卞validation set毛釬月午Leakage互逃汜允月
♀ train - validation毛煦賃允月蕣卞肮元啋恅梒井日汜傖今木凶伊戊奈玉反﹜肮元犯奈正本永玄 (train or
validation)卞⻌木月斛猁互丐月
♀ ��仄凶犯奈正本永玄及瞳蚚反赻煦手�仄化中凶互﹜焆卞仇木卞甩穴勻化仄引勻凶
1st place solution: Google楹偈卞方月Data Augmentation
22

♂ 乒犯伙及堤薯�毛ㄗ丟正ㄘ乒犯伙及杻釾講午仄化悝�毛俴丹忒楊
1st place solution: Stacking
Model 1
Model 2
Model N
Meta
Model
Prediction
Prediction
Prediction
Prediction
train data
23

♂ ��犯奈正毛K-fold卞煦賃仄﹜(K-1)-fold及犯奈正匹悝�
♂ ��仄凶乒犯伙匹紹曰及1-fold及犯奈正卞�允月軑䛐�毛呾堤
♂ 呾堤仄凶軑䛐�匹丟正乒犯伙毛悝�
1st place solution: OOF(Out of Fold) prediction卞方月Stacking
fold 1
fold 2
fold 3
Meta
Model
Model
fold 3
Prediction
train
data
24

♂ 旦矢伙�淏
♀ ⻌薯恅卞漪引木月�g惤及旦矢伙互嶲綃勻化中凶�磁卞旦矢伙毛赻�匹�淏允月撮胍
♂ CPMP＊s kernel spell correction
♀ Google互鼠嶱仄化中月word2vec 乒犯伙毛魂蚚
← 凶分仄﹜煦汃桶政毛瞳蚚仄化中月歹仃匹反卅仁�g惤及堤政螿僅及龰腕卞瞳蚚仄化中月分仃
♀ 失伙打伉朮丞
← �g惤互word2vec乒犯伙卞漪引木化中木壬�淏六內﹜
← �g惤互漪引木化中卅仃木壬﹜
♂ 啋及�g惤午�摩擒褩互 1及�g惤及笢匹郔手堤政螿僅互詢中�g惤卞离𡥼
♂ �摩擒褩互1及�g惤手漪引木化中卅仃木壬�摩擒褩互 2及�g惤及笢匹郔手堤政螿僅互詢
中�g惤卞离𡥼
♀ �g惤毛湖切嶲綃尹月復薹反籵都��g卞反А引日卅中及匹﹜�摩擒褩午堤政螿僅匹測蚚允月甲亙奈伉
旦氾奴弁旦
奻弇�及賤楊: 旦矢伙�淏
25

♂ BPE(Byte Pair Encoding)卞方月扔皮伐奈玉及蕉𩬅(15th place)
♂ �g惤矛奈旦及杻釾講卞樓尹化﹜handmade feature毛GRU卞⻌木月(3rd place)
公及坻奻弇�及賤楊
26

��腔卞砢卞蕾勻凶氾弁瓦永弁: 由奶皿仿奶件及�慷
♂ ゴ�I燴?悝�引匹及珨窣及�I燴及笢匹﹜黱隙灍俴允月斛猁互卅中�I燴互丐月
♀ 氾平旦玄及ゴ�I燴 -> 玄奈弁瓜奶扒奈及�慷 -> Embedding matrix及�慷 -> 悝�
♀ ゴ�I燴摯太由仿丟奈正互𢜪引勻化中木壬玄奈弁瓜奶扒奈支 Embedding matrix反肮元手及互婬瞳蚚堤懂
月
♂ ゴ�I燴支Tokenizer脹及由仿丟奈正毛竘杅午仄化傾仄﹜卅月屯仁肮元�I燴反靜曰殿今卅
中方丹卞由奶皿仿奶件毛�慷仄凶
♀ 悝�及ゴ僇蕆引匹匹華庤卞 2,30煦輪仁井井月及匹﹜吽謹允月仇午匹扔奶弁伙互隙仄支允仁卅勻凶
♀ 切扎氏午仄凶由奶皿仿奶件毛釬月卅日 Luigi脹毛妏勻凶幻丹互謎中
← 踏隙反醱給分勻凶及匹 if恅匹�𡛟
27

��腔卞砢卞蕾勻凶氾弁瓦永弁: Colaboratory及魂蚚
♂ 弁仿它玉匹Jupyter Notebook互妏尹月汁奈伙
♀ Google互枑鼎
♂ 秶廣反丐月手及及﹜GPU互剠蹋匹瞳蚚褫夔
♀ 郔湮窣適歐�P媆嶲互 12媆嶲卅及匹笭戶及�I燴毛允月午五反馱痲互斛猁
♀ 伕奈市伙犯奈正毛掂心煋戈蕣反 Google Drive卞犯奈正毛离井卅仃木壬卅日內﹜引凶陔仄仁 Notebook毛軗
日六月蕣卞黱隙庲偩互斛猁卅升﹜�補弁本互丐月
♂ 赻晙匹手(頗扦匹手)肮元虐噫匹皿伕弘仿丞及灍俴互褫夔
♀ 頗扦匹悝�毛隙仄凶 Notebook匹﹜赻晙井日�I燴及袚樓卅升互褫夔
28

公及坻��腔卞砢卞蕾勻凶氾弁瓦永弁
♂ Git毛妏勻化田奈斥亦件奪燴允月
♂ 伕幼件弘毛切扎氏午允月
♀ 升氏卅由仿丟奈正匹﹜升氏卅乒犯伙匹﹜升木分仃及儕僅互堤凶井
♂ fire及瞳蚚
♀ CLI及赻�汜傖仿奶皮仿伉
♀ 由仿丟奈正毛竘杅午仄化傾允及卞瞳蚚
29

Kaggle卞統樓允月燴蚕
♂ 𦲀�卞魂五月
♂ 平乓伉失卞�互月
♀ 諦紝腔卅赻煦及灍薯互煦井月?灍薯及偩隴卞卅月
♀ Kaggle尺及統樓磊歠毛𠾴療允月А�手郔輪反切日幻日�井仃月
♂ 㜭仄中
♀ 灍�卞輪中伊奶乩奈及忒楊?氾弁瓦永弁毛�薹方仁悝屯化㜭仄中
♀ Leader Board匹�弇互奻互勻化中仁及互㜭仄中
← 凶少氏伉奈母奈示奈玉互卅仃木壬仇仇引匹甩穴日卅井勻凶
← LB及�弇毛奻仆月鮋卞辭�毛允月乒民矛奈扑亦件互堤月
30

端端舝

Toxic comment classification

More Related Content

Toxic comment classification