狠狠撸

狠狠撸Share a Scribd company logo
NLP2022 Workshop
狈尝笔における再现性
東北大学 データ駆動科学?AI教育研究センター
鈴木 潤
2022.03.18
1
l 話題
l DNN手法の再現が難しい問題
l SOTAとの比較問題
l モデル選択
? Testset-tuning
l Random Seed
2
[注意事項]
1. 現時点でわかっている範囲での解釈なので,今
後の研究成果によっては,ここで話したやり方
がよくない可能性があると思います.
2. 個人的な意見を含むので,異論は普通にありえ
ます.あくまで一つの観点からの参考意見とい
う位置づけで聞いてほしいと思います.
3. 与えられた状況の中で最善を目指して試行錯誤
している途中の現時点のやり方になります.
3
l DNN手法の再現が難しい問題
4
DNNの学習の再現性
l 比較:SVM
l 制約付き凸関数
l 大域的最適解
l 使うツールが違っても
えられる解は大体同じ
l ハイパラは基本一つ
l DNN
l 複雑な非凸関数
l 局所解がたくさんある
l ツールが違うと結果が変
わる可能性
l ハイパラたくさん
5
多くの理由で再現しない
l Random Seed
l GPU
l Library version
l Driver version
l 並列処理
l ...
6
多くの理由で再現しない
l Random Seed
https://arxiv.org/abs/2109.08203
https://arxiv.org/abs/2002.06305
7
多くの理由で再現しない
l GPU
https://arxiv.org/abs/2106.11872
8
多くの理由で再現しない
l 並列処理
l GPUは非同期で並列処理をしている (場合が多い) の
で計算結果が毎回変わる可能性がある
l そもそも学習したモデルが局所解まで到達して
ないのでは疑惑?
l => (学習問題としては) 何を学習したのだろう?
9
DNNの学習の再現性
l 無理でしょ...
l 再現しないものに対して再現を求められても
ねぇ...
l 自分ではどうにもできないことは一旦諦める
10
どうすればよい?
l 「ちゃんとやっているよ感」が大事 (多分)
l なるべく条件をしっかり書く
? AppendixでOK
? 可読な設定ファイルをsupplementary materialとしてつけ
てくれてもOK
l Rebuttal 時の根拠
? 査読者が言っていることが正しそうか
vs 著者が言っていることが正しそうか
? Meta-reviewer を味方につけたい
=> でも reviewer 見てないし...
=> でも meta-reviewer も見てないし...fin.
11
従来法が再現しない場合
l 重要な比較手法は手元の実験設定で追実験をす
る (方が良いとおもっている...)
l 様々な理由で基本論文の値は再現しないことを前提
? 公平な比較をするために同じ環境で比較したい
l 論文の報告値と再現実験の値を両方載せる
? Appendixでもよい
l 再現しない理由をかく
12
l SOTAとの比較問題
13
SOTAとの比較問題
l (何かの手法を提案する際に) なぜSOTA手法と
比較しなくてはいけないのか?
14
SOTAとの比較問題
l (何かの手法を提案する際に) なぜSOTA手法と
比較しなくてはいけないのか?
l ? みんなSOTA手法が大好きだから!
l ? NLPは応用よりの分野だから結果が全て!
l ? SOTA手法に勝たないと論文通らないから!
現在のACL系の査読規定で
は,「SOTAと比べてない
から落とすわ!」という
reviewはダメレビュー扱い
https://aclrollingreview.org/reviewertutorial#6-check-for-lazy-thinking
15
SOTAとの比較問題
l (何かの手法を提案する際に) なぜSOTA手法と
比較しなくてはいけないのか?
l 性能が向上する理由は排他的ではない
l => 提案する方法論が解決したい問題は実は既に解決
されている可能性がある
俺様の手法がSOTA!
提案法が主張する効果がこれまでにまだ
得られていないことを示す (ために「いま一
番イケていると思われる方法」と比べて効果があるこ
とを示す)
? たまたま比較手法 (○○法) がいま一番良
い結果をだしていたから一番よい結果に
なった,ぐらいの気持ち
16
SOTAとの比較問題
l (何かの手法を提案する際に) なぜSOTA手法と
比較しなくてはいけないのか?
l => しなくてもいいよね
? 言い方 (書き方) 問題
提案法により
△△ベンチマークデータ
の性能が向上した
比較手法である従来法 (○○法)
では xx の課題があるが,提案
法によりその課題を解決(軽
減)することで△△ベンチマー
クデータの性能が向上した
めちゃくちゃ強い主張ではないかもしれないが
これで十分論文は採録されるチャンスはある
17
l モデル選択
18
モデル選択
l 開発データを使う l 一定回数まわす
このモデルを取る?
このモデルを取る?
学習のロス
開発データの性能
19
モデル選択
l 開発データによるモデル選択(early stopping)
このモデルを取る? l 本当に大丈夫?
l 開発データによるモデル選
択自体が悪いわけではない
20
モデル選択
l 開発データによるモデル選択(early stopping)
l どうしたら良い?
? 開発データによる選択
(Early stopping) しなくて
も良い設定にする
– そもそもlossの設計 (または
学習の設定)が悪い可能性
? あきらめる
– 開発が下がってもそれはそ
れと思う
l なるべく多く回して学習
Lossがあまり変わらない
ところまで回す
21
[余談] Testset tuning
l DNNになって比較的簡単に恣意的な結果をだせ
るようになった
?Testset-tuning疑惑の論文が散見されるように
なった??? (この値本当に出る?)
?とはいえ,難しい問題が...
これは絶対にやってはいけない
22
Random seedで複数回評価
l 5回(できれば10回)Random Seedを変えて
実験
l 平均を報告
l (検定をするなら)Non-parametric な検定
? かなり厳しい設定の検定
=> これで有意差がでるならよいと考える
1 2 3 4 5 Ave
21.5 20.9 21.4 20.9 21.8 21.30
21.1 20.8 21.7 21.1 21.0 21.14
23
まとめ
l 実験結果が同じにならない様々な要因
l 自分にどうにもできないことは一旦あきらめる...
l 重要な比較手法は可能な限り再実験
l 比較手法は適切に(なるべく業界標準の良い方法)
l Lossの設計または学習の設定を確認
l 開発データで性能が下がらない設定をみつける?
l 乱数初期値を変えて複数回実験
l 検定もしておく?
他にもまだある気がするけど今日はこの辺で...

More Related Content

狈尝笔における再现性