10. Mobility Technologies Co., Ltd.
● word-level Jaccard Score
○ ex1) pred/GT = I have a pen. / I have a pen. → 1.0
○ ex2) pred/GT = have / I have a pen. → ? = 0.25
Metric
10
pred GT
https://www.kaggle.com/c/tweet-sentiment-extraction/overview/evaluation
pred GT
Jaccard =
20. Mobility Technologies Co., Ltd.
● 基本的にはよくある NLP の学習パイプライン
○ ラベルと head は問題の解き方による
基礎パイプラインの構築
20
sentiment: positive
text: haha that’s way cool! Good morning
selected_text: haha that’s way cool!
add sentiment & BPE tokenize
training label
make label
text’: <s> positive </s> </s> haha that ‘ s way ….
embedding
...
...
...
...
...
RoBERTa
Head
pred
calc loss & optimize weight
21. Mobility Technologies Co., Ltd.
● この問題の解き方
○ ① : start/end 方式 (こちらがメジャー)
○ ② : segmentation 方式
基礎パイプラインの構築
21
※ これ以外にも例えば sentiment を予測対象とした場合の attention を使って解くとか色々と
やり方はある (https://www.kaggle.com/cdeotte/unsupervised-text-selection)
text’ : <s> positive </s> </s> haha that ‘ s way cool ! Good morning
start label : 0 0 0 0 1 0 00 0 0 0 0 0
selected_text: haha that‘s way cool!
end label : 0 0 0 0 0 0 00 0 0 1 0 0
text’ : <s> positive </s> </s> haha that ‘ s way cool ! Good morning
label : 0 0 0 0 1 1 11 1 1 1 0 0
selected_text: haha that‘s way cool!
22. Mobility Technologies Co., Ltd.
● 予測には start/end 方式を使うが、学習時に segmentation 方式の
学習も同時に行う
○ それぞれの loss の比率をうまく調整すると結構スコアが向上
マルチタスク学習
22
RoBERTa
start
head
end
head
segmentation
head
start
label
end
label
segmentation
label
CE loss Lovasz-hinge loss
予測はこっちのみ