際際滷

際際滷Share a Scribd company logo
2020.10.10
竃DeNAデ`タサイエンスv
弥笥 岷置
kaggle tweet コンペの三
2
弥笥 岷置 (@ihcgT_Ykchi)
# DeNA 18 仟怱
# DeNA ★ MoT 竃鰆
# DRIVE CHART
# kaggle master (?*2 ?*5)
徭失B初
3
書晩のは...
4
¢ デ`タが嚥えられ、Leader Board 貧での嚠yスコアをうゲ`ム
$ train data, test data が贋壓
* train data:
屎盾ラベルがあり、児云議にはこのデ`タを聞って
僥?編^を佩う。
* test data:
屎盾ラベルがなく、train data 吉を聞って僥したモデルで
屎盾ラベルを嚠y。了uにつかわれる。
このk燕を尖盾する貧で駅勣な kaggle のル`ル
train test
屎盾ラベルあり
屎盾ラベルなし僥?編^
このデ`タの
嚠y娼業をう
5
¢ デ`タが嚥えられ、Leader Board 貧での嚠yスコアをうゲ`ム
$ public / private leader board が贋壓
* public leader board:
コンペ豚g嶄もることのできる了燕。public test set のみで
了uされており、恷K了にはvSないが歌深、箸靴
ることができる。
* private leader board:
コンペK阻岷瘁に_幣される了燕。private test set のみで
了uされ、ここの了が恷K了となる。
歌紗宀は戻竃したファイルから、2つだけ private leader board におい
て了郡啌されるものをxべる。
このk燕を尖盾する貧で駅勣な kaggle のル`ル
6
書晩おするコンペ https://www.kaggle.com/c/tweet-sentiment-extraction/overview
7
書晩おするコンペ
tweet のネガポジの功となるフレ`ズの渇竃をしたい
https://www.kaggle.com/c/tweet-sentiment-extraction/overview
8
¢ 醤悶箭
¢ どう叨羨つ
$ ネガポジ蛍裂をよりにできる
$ kaggle 麼岸コンペなので...
tweet のネガポジの功となるフレ`ズの渇竃
sentiment : positive
label : it was yummy
tweet : just finished dinner - it was yummy
PREDICT
GIVEN
9
¢ デ`タのh苧
$ textID: ID。
$ text: 嚠yをかける tweet。
$ sentiment: tweet の湖秤にvする秤鵝
$ selected_text: text の坪 sentiment の功になるもの。
デ`タ古勣
10
¢ デ`タ楚
$ train (3.3 MB): 27,481 佩
$ public test (307 KB): 3,534 佩
$ private test (?): public のs 7/3 蔚
デ`タ古勣
11
¢ sentiment がY嶷勣
$ neutral, positive, negative が贋壓
$ 嚠y娼業に寄きく篠嚥
$ sentiment == neutral の栽、text == selected_text になりがち
デ`タ古勣
12
¢ word-level Jaccard Score
$ ex1) pred/GT = I have a pen. / I have a pen. ★ 1.0
$ ex2) pred/GT = have / I have a pen. ★ ? = 0.25
u峺
pred GT
pred GT
Jaccard =
https://www.kaggle.com/c/tweet-sentiment-extraction/overview/evaluation
13
チ`ムのスコアw卞
☆ 燕幣チ`ムは private で署だったチ`ム、燕幣は public score
14
歌紗念?
15
チ`ムのスコアw卞
☆ 燕幣チ`ムは private で署だったチ`ム、燕幣は public score
16
¢ metric のg廾ミスによる leader board update
$ evaluation page の python code と leader board back end の C# g廾が
なっていたらしい...
$ Ahmet が python 井では笋錣蕕覆い呂困I尖を sub して{べたらしい
(よくつけたな...)
いくつか}があったらしい https://www.kaggle.com/c/tweet-sentiment-extraction/discussion/140942
https://www.kaggle.com/c/tweet-sentiment-extraction/discussion/142073
17
¢ ラベルズレによる塘下デ`タ update
$ HTML codes 軟咀でラベルにズレがk伏
いくつか}があったらしい https://www.kaggle.com/c/tweet-sentiment-extraction/discussion/142291
https://www.kaggle.com/c/tweet-sentiment-extraction/discussion/140847
18
¢ ラベルズレによる塘下デ`タ update
$ index によるラベル原けと HTML code の燕幣の`い
¢ ラベルズレの箭
$ & ★ & の`いで 8 猟忖蛍ズレている
いくつか}があったらしい
kaggle annotator
tweet をラベル原けして圀しい ...
ラベルは i 猟忖朕 ~ j 猟忖朕ダヨ
&, <, ...
&amp;, &lt;, ...
19
會 P?
20
チ`ムのスコアw卞
☆ 燕幣チ`ムは private で署だったチ`ム、燕幣は public score
21
¢ ほぼ 0 sub merge みたいな侘
$ w/ @fuz_qwa, @Kenmatsu4, @yiemon773
いきなりチ`ムマ`ジ
22
¢ 児云議にはよくある NLP の僥パイプライン
$ ラベルと head は}の盾き圭による
児AパイプラインのB
sentiment: positive
text: haha that¨s way cool! Good morning
selected_text: haha that¨s way cool!
add sentiment & BPE tokenize
training label
make label
text¨: <s> positive </s> </s> haha that ` s way ´.
embedding
...
...
...
...
... RoBERTa
Head
pred
calc loss & optimize weight
23
¢ この}の盾き圭
$  : start/end 圭塀 (こちらがメジャ`)
$  : segmentation 圭塀
児AパイプラインのB
☆ これ參翌にも箭えば sentiment を嚠y鵑箸靴栽の attention を聞って盾くとか弼?と
やり圭はある (https://www.kaggle.com/cdeotte/unsupervised-text-selection)
text¨ : <s> positive </s> </s> haha that ` s way cool ! Good morning
start label : 0 0 0 0 1 0 00 0 0 0 0 0
selected_text: haha that`s way cool!
end label : 0 0 0 0 0 0 00 0 0 1 0 0
text¨ : <s> positive </s> </s> haha that ` s way cool ! Good morning
label : 0 0 0 0 1 1 11 1 1 1 0 0
selected_text: haha that`s way cool!
24
¢ 嚠yには start/end 圭塀を聞うが、僥rに segmentation 圭塀の
僥も揖rに佩う
$ それぞれの loss の曳楕をうまく{屁するとYスコアが鯢
マルチタスク僥
RoBERTa
start
head
end
head
segmentation
head
start
label
end
label
segmentation
label
CE loss Lovasz-hinge loss
嚠yはこっちのみ
25
¢ cumax v方 [Shen et al., 2018] の旋喘
$ softmax 瘁の_楕蛍下を拙e、砲掘segmentation に聞喘
* 嚠yに聞う start/end head の竃薦に segmentation loss もかけることができる
$ (これベ`スでの房いつきではないが) 貌 discussion も贋壓
* https://www.kaggle.com/c/tweet-sentiment-extraction/discussion/153747
マルチタスク僥 https://openreview.net/pdf?id=B1l6qiR5F7
☆ 屎_にはこのときはスコアの阜びはなかったが、PP と栽わせて恷K議にスコアの阜びに篠嚥
26
¢ スコア篠嚥あり
$ LR scheduling
$ Larger batch
* sentiment の`いによる娼業ブレを簾
$ EMA
* batch/epoch 阿縫皀妊襪琳悗澆鮓仟念瘁で嶷み原き峠譲。芦協晒に篠嚥。
$ 猟^、猟挑の . や , の方を{屁
* tokenizer の曝俳りと屎盾ラベルの屁栽來が函れない栽が謹かった
その麿やっていたこと
27
¢ スコア篠嚥なし
$ head の個措
$ soft labels, start/end distance loss 吉
* start/end フレ`ムワ`クだと index のズレを深]しきれない
ex. pred1, pred2 の`いを深]しきれない
$ start end 郡貨
* start, end のvS來に苧幣議な崙sのないモデリングになっている
$ different models and tokenizers, manual pre-train
$ pseudo labeling (CV+, LB-)
* soft, hard, leak free, for valid ´ 吉弼?して CV は貧がるが LB 晒
その麿やっていたこと
text : I really want to see UP! haha. Tooo cute! (:
label : Tooo cute!
GT start: 0 0 0 0 0 0 0 0 1 0 0 0
pred1 : 0 1 0 0 0 0 0 0 0 0 0 0
pred2 : 0 0 0 0 0 0 0 0 0 1 0 0
28
¢ スコア篠嚥なし
$ head の個措
$ soft labels, start/end distance loss 吉
* start/end フレ`ムワ`クだと index のズレを深]しきれない
ex. pred1, pred2 の`いを深]しきれない
$ start end 郡貨
* start, end のvS來に苧幣議な崙sのないモデリングになっている
$ different models and tokenizers, manual pre-train
$ pseudo labeling (CV+, LB-)
* soft, hard, leak free, for valid ´ 吉弼?して CV は貧がるが LB 晒
その麿やっていたこと
text : I really want to see UP! haha. Tooo cute! (:
label : Tooo cute!
GT start: 0 0 0 0 0 0 0 0 1 0 0 0
pred1 : 0 1 0 0 0 0 0 0 0 0 0 0
pred2 : 0 0 0 0 0 0 0 0 0 1 0 0
畠くスコアが阜びない...?
29
¢ どうやら magic で 0.716 から 0.724 まで貧がるらしい
$ 輝rの〆~ ~ y ★ 署〇の寄ジャンプ
$ 欷兇い討い詒砲發い燭韻匹Δ舛離践`ムはたどり彭けていなかった...
Magic スレの竃F https://www.kaggle.com/c/tweet-sentiment-extraction/discussion/154415
30
¢ 了の貧がり圭から tkm-san は magic をつけているっぽかった
$ 飛孤の賦しUoさもありつつ、マ`ジしてくことに...
tkm san からのマ`ジ卆m
31
嶄 P?
32
チ`ムのスコアw卞
☆ 燕幣チ`ムは private で署だったチ`ム、燕幣は public score
33
¢ (訊らく) kaggle の卆mrとデ`タ恬撹rのスペ`スのQいズレ
¢ 苧らかにおかしい箭を盾裂したらえてくる
Magic の古勣
kaggle annotator
ラベルは 0 猟忖朕 ~ 8 猟忖朕ダヨ
Thank you, I have ´
★ Thank you だな
tweet をラベル原けして圀しい ...
(BAスペ`ス方は 1 つに屎サ)
Thank you, I have ´
★ Thank you, I have ...
Thank you, I ´ の 0-8 か
★ 〆Thank y〇だな
34
¢ magic の旋喘
1. スペ`ス方などに児づく pre-process で selected_text のズレを盾
2. ズレを盾した selected_text を聞って僥
3. 嚠yrにスペ`ス方などに児づいて嚠yした selected_text をずらす
¢ ℃ 慌宥峺砲 post-process をuできる kaggle notebook を恬撹
$ pre-process して恬った屎盾ラベルに post-process をかける
* 勣は model が 100% 嚠yできた協をおいた post-process の_k
$ pre-process 念の selected_text vs post-process 瘁の嚠y text の
Jaccard Score をyり個鋲したら sub
pre-post processing の_k https://www.kaggle.com/tkm2261/pre-postprosessing-guc
35
¢ magic 個措 + 返嗽悗澹兇吋▲鵐汽鵐屮襪能貧了まで JUMP!
スコアの寄嫌個鋲
36
K P?
37
チ`ムのスコアw卞
☆ 燕幣チ`ムは private で署だったチ`ム、燕幣は public score
38
¢ 蒙にアンサンブルは CV が個鋲するのに LB がくなる...
返まり...
39
¢ 麿チ`ムがどんどん弖い貧げてくる...
$ 蒙に晩云繁 kaggler _の櫃い twitter から擦錣辰討てきつかった...
返まり...
best fitting にも
iき卦される...
40
¢ 恷K晩をギリギリのラインで哭える...
返まり...
41
¢ もうほぼ返はなくて、まだやりきれてなかったアンサンブルモデルの弖紗を
やっていた
適薦の撹惚が...
42
Y惚?
43
¢ 並 shake up して 5 了に
$ kaggle master++
Private での了
44
¢ 1st (Dark of the Moon)
$ char-based modeling
* これにより、スペ`スズレもモデリングできる
* E2E ではなく stacking によりgF
貧了盾隈 https://www.kaggle.com/c/tweet-sentiment-extraction/discussion/159477
char-based modeling パイプライン (solution より哈喘)
45
¢ 1st (Dark of the Moon)
$ Custom loss (Jaccard-based Soft Labels)
* ラベルをなまらし、KL divergence を optimize することで翌す了崔にも loss を
協xできる
* 2 \のは smoothing のためにいれているらしい (?)
貧了盾隈 https://www.kaggle.com/c/tweet-sentiment-extraction/discussion/159477
ラベル伏撹の塀 (solution より哈喘)
伏撹されるラベル箭 (solution より哈喘)
46
¢ 1st (Dark of the Moon)
$ Multi-Sample Dropout
* appendix 歌孚
$ Sequence Bucketing
* 狼双Lの揖殻業のサンプルをできるだけまとめて batch を恬る圭隈。
互堀晒に篠嚥。
$ QUEST 1st の pseudo labeling (https://www.kaggle.com/c/google-quest-challenge/discussion/129840)
* fold 阿 pseudo labeling して validation set について leak を閲けるやり圭
* いろいろしたがうちのチ`ムでは pseudo labeling が畠く貧返くいかなかった...
* appendix 歌孚
$ Bertweet [Nguyen et al., 2020]
貧了盾隈 https://www.kaggle.com/c/tweet-sentiment-extraction/discussion/159477
47
¢ 2nd (Y.O. & m.y. & hiromu)
$ pre-post processing
$ QUEST 1st の盾隈にある僥辛嬬な weight を聞った嶄g燕F渇竃
* appendix 歌孚
$ Multi-Sample Dropout
$ Sequence Bucketing
$ Sentiment Sampler
* sentiment 阿両業の`いに彭朕して sampler を恬撹
貧了盾隈 https://www.kaggle.com/c/tweet-sentiment-extraction/discussion/159310
Sentiment Sampler のイメ`ジ (solution より哈喘)
48
¢ 2nd (Y.O. & m.y. & hiromu)
$ Reranking-model training
* start/end 侏の容において、匯業 index を嚠yした瘁に top-n の index から
それぞれ恷措のものをxぶモデルを壅恬撹
1. top-n を嚠yし、それぞれについてselected_text との jaccard を麻
2. 1 の嚠yY惚を圷に 1 で麻した jaccard を指「で箔めるモデルを恬撹
3. 2 の jaccard を峺砲没鄙爾僚Mみ栽わせをxぶ
貧了盾隈 https://www.kaggle.com/c/tweet-sentiment-extraction/discussion/159310
49
¢ 3rd (Muggles united)
$ Reranking
$ E2E の char-level model
貧了盾隈 https://www.kaggle.com/c/tweet-sentiment-extraction/discussion/159910
E2E char-based modeling 古勣 (solution より哈喘)
50
¢ 4th (Podpall)
$ 4 Nのマルチタスク僥
* _兵?K阻 index のラベルを 0.9、IOを 0.05 として KL-divergence loss で僥
* segmentation
* sentiment によって吭龍原けした semantic segmentation (label 翌は neutral)
* sentiment を輝てる (?)
貧了盾隈 https://www.kaggle.com/c/tweet-sentiment-extraction/discussion/159499
51
ブログいたのでよりなはこちらで
¢ https://guchio3.hatenablog.com/entry/2020/06/20/115616
52
Youtube live もア`カイブあります
¢ https://www.youtube.com/watch?v=gdhqdDwLuU0&feature=youtu.be
53
¢ tweet コンペの嘘尚?盾隈?チ`ムでやったことをまとめました
¢ Y惚は 5 th でした
¢ 措かったらブログ & YouTube Live てみて和さい :)
まとめ
54
APPENDIX?
55
¢ network を蛍けて謹來をもたせた瘁 AVG する返隈
$ 書指だと head 何蛍に聞うイメ`ジ
$ 恷除 NLP コンペでよくる
Multi-Sample Dropout [Inoue, 2019]
https://arxiv.org/abs/1905.09788
56
¢ hidden 0 ~ 11 畠ての嶷み原き峠譲を head への秘薦とする
$ 嶷みも揖rに僥する
$ 愔瓦 hidden 11 だけ、や hidden 8 ~ 11 のg峠譲など
Quest 1st の僥辛嬬嶷み原き嶄g啼従
Bert Layer 0
hidden 0
Bert Layer 11
hidden 11
...
Bert Layer 1
hidden 1
embedded input text
+
w0
w1
w11
head
trainable
https://medium.com/kaggle-blog/the-3-ingredients-to-our-success-winners-dish-on-their-solution-to-googles-quest-q-a-labeling-c1a63014b88
57
¢ Cross Validation の fold model 阿 pseudo label を恬撹
$ fold i の pseudo label が fold i の validation set を僥に聞ったモデル
から伏撹されるのを腕うやり圭
Quest 1st の pseudo labeling
https://medium.com/kaggle-blog/the-3-ingredients-to-our-success-winners-dish-on-their-solution-to-googles-quest-q-a-labeling-c1a63014b88

More Related Content

20201010 kaggle tweet コンペの三

  • 2. 2 弥笥 岷置 (@ihcgT_Ykchi) # DeNA 18 仟怱 # DeNA ★ MoT 竃鰆 # DRIVE CHART # kaggle master (?*2 ?*5) 徭失B初
  • 4. 4 ¢ デ`タが嚥えられ、Leader Board 貧での嚠yスコアをうゲ`ム $ train data, test data が贋壓 * train data: 屎盾ラベルがあり、児云議にはこのデ`タを聞って 僥?編^を佩う。 * test data: 屎盾ラベルがなく、train data 吉を聞って僥したモデルで 屎盾ラベルを嚠y。了uにつかわれる。 このk燕を尖盾する貧で駅勣な kaggle のル`ル train test 屎盾ラベルあり 屎盾ラベルなし僥?編^ このデ`タの 嚠y娼業をう
  • 5. 5 ¢ デ`タが嚥えられ、Leader Board 貧での嚠yスコアをうゲ`ム $ public / private leader board が贋壓 * public leader board: コンペ豚g嶄もることのできる了燕。public test set のみで 了uされており、恷K了にはvSないが歌深、箸靴 ることができる。 * private leader board: コンペK阻岷瘁に_幣される了燕。private test set のみで 了uされ、ここの了が恷K了となる。 歌紗宀は戻竃したファイルから、2つだけ private leader board におい て了郡啌されるものをxべる。 このk燕を尖盾する貧で駅勣な kaggle のル`ル
  • 8. 8 ¢ 醤悶箭 ¢ どう叨羨つ $ ネガポジ蛍裂をよりにできる $ kaggle 麼岸コンペなので... tweet のネガポジの功となるフレ`ズの渇竃 sentiment : positive label : it was yummy tweet : just finished dinner - it was yummy PREDICT GIVEN
  • 9. 9 ¢ デ`タのh苧 $ textID: ID。 $ text: 嚠yをかける tweet。 $ sentiment: tweet の湖秤にvする秤鵝 $ selected_text: text の坪 sentiment の功になるもの。 デ`タ古勣
  • 10. 10 ¢ デ`タ楚 $ train (3.3 MB): 27,481 佩 $ public test (307 KB): 3,534 佩 $ private test (?): public のs 7/3 蔚 デ`タ古勣
  • 11. 11 ¢ sentiment がY嶷勣 $ neutral, positive, negative が贋壓 $ 嚠y娼業に寄きく篠嚥 $ sentiment == neutral の栽、text == selected_text になりがち デ`タ古勣
  • 12. 12 ¢ word-level Jaccard Score $ ex1) pred/GT = I have a pen. / I have a pen. ★ 1.0 $ ex2) pred/GT = have / I have a pen. ★ ? = 0.25 u峺 pred GT pred GT Jaccard = https://www.kaggle.com/c/tweet-sentiment-extraction/overview/evaluation
  • 13. 13 チ`ムのスコアw卞 ☆ 燕幣チ`ムは private で署だったチ`ム、燕幣は public score
  • 15. 15 チ`ムのスコアw卞 ☆ 燕幣チ`ムは private で署だったチ`ム、燕幣は public score
  • 16. 16 ¢ metric のg廾ミスによる leader board update $ evaluation page の python code と leader board back end の C# g廾が なっていたらしい... $ Ahmet が python 井では笋錣蕕覆い呂困I尖を sub して{べたらしい (よくつけたな...) いくつか}があったらしい https://www.kaggle.com/c/tweet-sentiment-extraction/discussion/140942 https://www.kaggle.com/c/tweet-sentiment-extraction/discussion/142073
  • 17. 17 ¢ ラベルズレによる塘下デ`タ update $ HTML codes 軟咀でラベルにズレがk伏 いくつか}があったらしい https://www.kaggle.com/c/tweet-sentiment-extraction/discussion/142291 https://www.kaggle.com/c/tweet-sentiment-extraction/discussion/140847
  • 18. 18 ¢ ラベルズレによる塘下デ`タ update $ index によるラベル原けと HTML code の燕幣の`い ¢ ラベルズレの箭 $ & ★ &amp; の`いで 8 猟忖蛍ズレている いくつか}があったらしい kaggle annotator tweet をラベル原けして圀しい ... ラベルは i 猟忖朕 ~ j 猟忖朕ダヨ &, <, ... &amp;, &lt;, ...
  • 20. 20 チ`ムのスコアw卞 ☆ 燕幣チ`ムは private で署だったチ`ム、燕幣は public score
  • 21. 21 ¢ ほぼ 0 sub merge みたいな侘 $ w/ @fuz_qwa, @Kenmatsu4, @yiemon773 いきなりチ`ムマ`ジ
  • 22. 22 ¢ 児云議にはよくある NLP の僥パイプライン $ ラベルと head は}の盾き圭による 児AパイプラインのB sentiment: positive text: haha that¨s way cool! Good morning selected_text: haha that¨s way cool! add sentiment & BPE tokenize training label make label text¨: <s> positive </s> </s> haha that ` s way ´. embedding ... ... ... ... ... RoBERTa Head pred calc loss & optimize weight
  • 23. 23 ¢ この}の盾き圭 $ : start/end 圭塀 (こちらがメジャ`) $ : segmentation 圭塀 児AパイプラインのB ☆ これ參翌にも箭えば sentiment を嚠y鵑箸靴栽の attention を聞って盾くとか弼?と やり圭はある (https://www.kaggle.com/cdeotte/unsupervised-text-selection) text¨ : <s> positive </s> </s> haha that ` s way cool ! Good morning start label : 0 0 0 0 1 0 00 0 0 0 0 0 selected_text: haha that`s way cool! end label : 0 0 0 0 0 0 00 0 0 1 0 0 text¨ : <s> positive </s> </s> haha that ` s way cool ! Good morning label : 0 0 0 0 1 1 11 1 1 1 0 0 selected_text: haha that`s way cool!
  • 24. 24 ¢ 嚠yには start/end 圭塀を聞うが、僥rに segmentation 圭塀の 僥も揖rに佩う $ それぞれの loss の曳楕をうまく{屁するとYスコアが鯢 マルチタスク僥 RoBERTa start head end head segmentation head start label end label segmentation label CE loss Lovasz-hinge loss 嚠yはこっちのみ
  • 25. 25 ¢ cumax v方 [Shen et al., 2018] の旋喘 $ softmax 瘁の_楕蛍下を拙e、砲掘segmentation に聞喘 * 嚠yに聞う start/end head の竃薦に segmentation loss もかけることができる $ (これベ`スでの房いつきではないが) 貌 discussion も贋壓 * https://www.kaggle.com/c/tweet-sentiment-extraction/discussion/153747 マルチタスク僥 https://openreview.net/pdf?id=B1l6qiR5F7 ☆ 屎_にはこのときはスコアの阜びはなかったが、PP と栽わせて恷K議にスコアの阜びに篠嚥
  • 26. 26 ¢ スコア篠嚥あり $ LR scheduling $ Larger batch * sentiment の`いによる娼業ブレを簾 $ EMA * batch/epoch 阿縫皀妊襪琳悗澆鮓仟念瘁で嶷み原き峠譲。芦協晒に篠嚥。 $ 猟^、猟挑の . や , の方を{屁 * tokenizer の曝俳りと屎盾ラベルの屁栽來が函れない栽が謹かった その麿やっていたこと
  • 27. 27 ¢ スコア篠嚥なし $ head の個措 $ soft labels, start/end distance loss 吉 * start/end フレ`ムワ`クだと index のズレを深]しきれない ex. pred1, pred2 の`いを深]しきれない $ start end 郡貨 * start, end のvS來に苧幣議な崙sのないモデリングになっている $ different models and tokenizers, manual pre-train $ pseudo labeling (CV+, LB-) * soft, hard, leak free, for valid ´ 吉弼?して CV は貧がるが LB 晒 その麿やっていたこと text : I really want to see UP! haha. Tooo cute! (: label : Tooo cute! GT start: 0 0 0 0 0 0 0 0 1 0 0 0 pred1 : 0 1 0 0 0 0 0 0 0 0 0 0 pred2 : 0 0 0 0 0 0 0 0 0 1 0 0
  • 28. 28 ¢ スコア篠嚥なし $ head の個措 $ soft labels, start/end distance loss 吉 * start/end フレ`ムワ`クだと index のズレを深]しきれない ex. pred1, pred2 の`いを深]しきれない $ start end 郡貨 * start, end のvS來に苧幣議な崙sのないモデリングになっている $ different models and tokenizers, manual pre-train $ pseudo labeling (CV+, LB-) * soft, hard, leak free, for valid ´ 吉弼?して CV は貧がるが LB 晒 その麿やっていたこと text : I really want to see UP! haha. Tooo cute! (: label : Tooo cute! GT start: 0 0 0 0 0 0 0 0 1 0 0 0 pred1 : 0 1 0 0 0 0 0 0 0 0 0 0 pred2 : 0 0 0 0 0 0 0 0 0 1 0 0 畠くスコアが阜びない...?
  • 29. 29 ¢ どうやら magic で 0.716 から 0.724 まで貧がるらしい $ 輝rの〆~ ~ y ★ 署〇の寄ジャンプ $ 欷兇い討い詒砲發い燭韻匹Δ舛離践`ムはたどり彭けていなかった... Magic スレの竃F https://www.kaggle.com/c/tweet-sentiment-extraction/discussion/154415
  • 30. 30 ¢ 了の貧がり圭から tkm-san は magic をつけているっぽかった $ 飛孤の賦しUoさもありつつ、マ`ジしてくことに... tkm san からのマ`ジ卆m
  • 32. 32 チ`ムのスコアw卞 ☆ 燕幣チ`ムは private で署だったチ`ム、燕幣は public score
  • 33. 33 ¢ (訊らく) kaggle の卆mrとデ`タ恬撹rのスペ`スのQいズレ ¢ 苧らかにおかしい箭を盾裂したらえてくる Magic の古勣 kaggle annotator ラベルは 0 猟忖朕 ~ 8 猟忖朕ダヨ Thank you, I have ´ ★ Thank you だな tweet をラベル原けして圀しい ... (BAスペ`ス方は 1 つに屎サ) Thank you, I have ´ ★ Thank you, I have ... Thank you, I ´ の 0-8 か ★ 〆Thank y〇だな
  • 34. 34 ¢ magic の旋喘 1. スペ`ス方などに児づく pre-process で selected_text のズレを盾 2. ズレを盾した selected_text を聞って僥 3. 嚠yrにスペ`ス方などに児づいて嚠yした selected_text をずらす ¢ ℃ 慌宥峺砲 post-process をuできる kaggle notebook を恬撹 $ pre-process して恬った屎盾ラベルに post-process をかける * 勣は model が 100% 嚠yできた協をおいた post-process の_k $ pre-process 念の selected_text vs post-process 瘁の嚠y text の Jaccard Score をyり個鋲したら sub pre-post processing の_k https://www.kaggle.com/tkm2261/pre-postprosessing-guc
  • 35. 35 ¢ magic 個措 + 返嗽悗澹兇吋▲鵐汽鵐屮襪能貧了まで JUMP! スコアの寄嫌個鋲
  • 37. 37 チ`ムのスコアw卞 ☆ 燕幣チ`ムは private で署だったチ`ム、燕幣は public score
  • 38. 38 ¢ 蒙にアンサンブルは CV が個鋲するのに LB がくなる... 返まり...
  • 39. 39 ¢ 麿チ`ムがどんどん弖い貧げてくる... $ 蒙に晩云繁 kaggler _の櫃い twitter から擦錣辰討てきつかった... 返まり... best fitting にも iき卦される...
  • 43. 43 ¢ 並 shake up して 5 了に $ kaggle master++ Private での了
  • 44. 44 ¢ 1st (Dark of the Moon) $ char-based modeling * これにより、スペ`スズレもモデリングできる * E2E ではなく stacking によりgF 貧了盾隈 https://www.kaggle.com/c/tweet-sentiment-extraction/discussion/159477 char-based modeling パイプライン (solution より哈喘)
  • 45. 45 ¢ 1st (Dark of the Moon) $ Custom loss (Jaccard-based Soft Labels) * ラベルをなまらし、KL divergence を optimize することで翌す了崔にも loss を 協xできる * 2 \のは smoothing のためにいれているらしい (?) 貧了盾隈 https://www.kaggle.com/c/tweet-sentiment-extraction/discussion/159477 ラベル伏撹の塀 (solution より哈喘) 伏撹されるラベル箭 (solution より哈喘)
  • 46. 46 ¢ 1st (Dark of the Moon) $ Multi-Sample Dropout * appendix 歌孚 $ Sequence Bucketing * 狼双Lの揖殻業のサンプルをできるだけまとめて batch を恬る圭隈。 互堀晒に篠嚥。 $ QUEST 1st の pseudo labeling (https://www.kaggle.com/c/google-quest-challenge/discussion/129840) * fold 阿 pseudo labeling して validation set について leak を閲けるやり圭 * いろいろしたがうちのチ`ムでは pseudo labeling が畠く貧返くいかなかった... * appendix 歌孚 $ Bertweet [Nguyen et al., 2020] 貧了盾隈 https://www.kaggle.com/c/tweet-sentiment-extraction/discussion/159477
  • 47. 47 ¢ 2nd (Y.O. & m.y. & hiromu) $ pre-post processing $ QUEST 1st の盾隈にある僥辛嬬な weight を聞った嶄g燕F渇竃 * appendix 歌孚 $ Multi-Sample Dropout $ Sequence Bucketing $ Sentiment Sampler * sentiment 阿両業の`いに彭朕して sampler を恬撹 貧了盾隈 https://www.kaggle.com/c/tweet-sentiment-extraction/discussion/159310 Sentiment Sampler のイメ`ジ (solution より哈喘)
  • 48. 48 ¢ 2nd (Y.O. & m.y. & hiromu) $ Reranking-model training * start/end 侏の容において、匯業 index を嚠yした瘁に top-n の index から それぞれ恷措のものをxぶモデルを壅恬撹 1. top-n を嚠yし、それぞれについてselected_text との jaccard を麻 2. 1 の嚠yY惚を圷に 1 で麻した jaccard を指「で箔めるモデルを恬撹 3. 2 の jaccard を峺砲没鄙爾僚Mみ栽わせをxぶ 貧了盾隈 https://www.kaggle.com/c/tweet-sentiment-extraction/discussion/159310
  • 49. 49 ¢ 3rd (Muggles united) $ Reranking $ E2E の char-level model 貧了盾隈 https://www.kaggle.com/c/tweet-sentiment-extraction/discussion/159910 E2E char-based modeling 古勣 (solution より哈喘)
  • 50. 50 ¢ 4th (Podpall) $ 4 Nのマルチタスク僥 * _兵?K阻 index のラベルを 0.9、IOを 0.05 として KL-divergence loss で僥 * segmentation * sentiment によって吭龍原けした semantic segmentation (label 翌は neutral) * sentiment を輝てる (?) 貧了盾隈 https://www.kaggle.com/c/tweet-sentiment-extraction/discussion/159499
  • 52. 52 Youtube live もア`カイブあります ¢ https://www.youtube.com/watch?v=gdhqdDwLuU0&feature=youtu.be
  • 53. 53 ¢ tweet コンペの嘘尚?盾隈?チ`ムでやったことをまとめました ¢ Y惚は 5 th でした ¢ 措かったらブログ & YouTube Live てみて和さい :) まとめ
  • 55. 55 ¢ network を蛍けて謹來をもたせた瘁 AVG する返隈 $ 書指だと head 何蛍に聞うイメ`ジ $ 恷除 NLP コンペでよくる Multi-Sample Dropout [Inoue, 2019] https://arxiv.org/abs/1905.09788
  • 56. 56 ¢ hidden 0 ~ 11 畠ての嶷み原き峠譲を head への秘薦とする $ 嶷みも揖rに僥する $ 愔瓦 hidden 11 だけ、や hidden 8 ~ 11 のg峠譲など Quest 1st の僥辛嬬嶷み原き嶄g啼従 Bert Layer 0 hidden 0 Bert Layer 11 hidden 11 ... Bert Layer 1 hidden 1 embedded input text + w0 w1 w11 head trainable https://medium.com/kaggle-blog/the-3-ingredients-to-our-success-winners-dish-on-their-solution-to-googles-quest-q-a-labeling-c1a63014b88
  • 57. 57 ¢ Cross Validation の fold model 阿 pseudo label を恬撹 $ fold i の pseudo label が fold i の validation set を僥に聞ったモデル から伏撹されるのを腕うやり圭 Quest 1st の pseudo labeling https://medium.com/kaggle-blog/the-3-ingredients-to-our-success-winners-dish-on-their-solution-to-googles-quest-q-a-labeling-c1a63014b88