狠狠撸
Submit Search
狈尝笔における再现性
?
2 likes
?
2,147 views
J
JunSuzuki21
Follow
NLP2022「狈尝笔における再现性」ワークショップ 講演資料 https://sites.google.com/view/reproducible-nlp-ws
Read less
Read more
1 of 24
More Related Content
狈尝笔における再现性
1.
NLP2022 Workshop 狈尝笔における再现性 東北大学 データ駆動科学?AI教育研究センター 鈴木
潤 2022.03.18
2.
1 l 話題 l DNN手法の再現が難しい問題 l
SOTAとの比較問題 l モデル選択 ? Testset-tuning l Random Seed
3.
2 [注意事項] 1. 現時点でわかっている範囲での解釈なので,今 後の研究成果によっては,ここで話したやり方 がよくない可能性があると思います. 2. 個人的な意見を含むので,異論は普通にありえ ます.あくまで一つの観点からの参考意見とい う位置づけで聞いてほしいと思います. 3.
与えられた状況の中で最善を目指して試行錯誤 している途中の現時点のやり方になります.
4.
3 l DNN手法の再現が難しい問題
5.
4 DNNの学習の再現性 l 比較:SVM l 制約付き凸関数 l
大域的最適解 l 使うツールが違っても えられる解は大体同じ l ハイパラは基本一つ l DNN l 複雑な非凸関数 l 局所解がたくさんある l ツールが違うと結果が変 わる可能性 l ハイパラたくさん
6.
5 多くの理由で再現しない l Random Seed l
GPU l Library version l Driver version l 並列処理 l ...
7.
6 多くの理由で再現しない l Random Seed https://arxiv.org/abs/2109.08203 https://arxiv.org/abs/2002.06305
8.
7 多くの理由で再現しない l GPU https://arxiv.org/abs/2106.11872
9.
8 多くの理由で再現しない l 並列処理 l GPUは非同期で並列処理をしている
(場合が多い) の で計算結果が毎回変わる可能性がある l そもそも学習したモデルが局所解まで到達して ないのでは疑惑? l => (学習問題としては) 何を学習したのだろう?
10.
9 DNNの学習の再現性 l 無理でしょ... l 再現しないものに対して再現を求められても ねぇ... l
自分ではどうにもできないことは一旦諦める
11.
10 どうすればよい? l 「ちゃんとやっているよ感」が大事 (多分) l
なるべく条件をしっかり書く ? AppendixでOK ? 可読な設定ファイルをsupplementary materialとしてつけ てくれてもOK l Rebuttal 時の根拠 ? 査読者が言っていることが正しそうか vs 著者が言っていることが正しそうか ? Meta-reviewer を味方につけたい => でも reviewer 見てないし... => でも meta-reviewer も見てないし...fin.
12.
11 従来法が再現しない場合 l 重要な比較手法は手元の実験設定で追実験をす る (方が良いとおもっている...) l
様々な理由で基本論文の値は再現しないことを前提 ? 公平な比較をするために同じ環境で比較したい l 論文の報告値と再現実験の値を両方載せる ? Appendixでもよい l 再現しない理由をかく
13.
12 l SOTAとの比較問題
14.
13 SOTAとの比較問題 l (何かの手法を提案する際に) なぜSOTA手法と 比較しなくてはいけないのか?
15.
14 SOTAとの比較問題 l (何かの手法を提案する際に) なぜSOTA手法と 比較しなくてはいけないのか? l
? みんなSOTA手法が大好きだから! l ? NLPは応用よりの分野だから結果が全て! l ? SOTA手法に勝たないと論文通らないから! 現在のACL系の査読規定で は,「SOTAと比べてない から落とすわ!」という reviewはダメレビュー扱い https://aclrollingreview.org/reviewertutorial#6-check-for-lazy-thinking
16.
15 SOTAとの比較問題 l (何かの手法を提案する際に) なぜSOTA手法と 比較しなくてはいけないのか? l
性能が向上する理由は排他的ではない l => 提案する方法論が解決したい問題は実は既に解決 されている可能性がある 俺様の手法がSOTA! 提案法が主張する効果がこれまでにまだ 得られていないことを示す (ために「いま一 番イケていると思われる方法」と比べて効果があるこ とを示す) ? たまたま比較手法 (○○法) がいま一番良 い結果をだしていたから一番よい結果に なった,ぐらいの気持ち
17.
16 SOTAとの比較問題 l (何かの手法を提案する際に) なぜSOTA手法と 比較しなくてはいけないのか? l
=> しなくてもいいよね ? 言い方 (書き方) 問題 提案法により △△ベンチマークデータ の性能が向上した 比較手法である従来法 (○○法) では xx の課題があるが,提案 法によりその課題を解決(軽 減)することで△△ベンチマー クデータの性能が向上した めちゃくちゃ強い主張ではないかもしれないが これで十分論文は採録されるチャンスはある
18.
17 l モデル選択
19.
18 モデル選択 l 開発データを使う l
一定回数まわす このモデルを取る? このモデルを取る? 学習のロス 開発データの性能
20.
19 モデル選択 l 開発データによるモデル選択(early stopping) このモデルを取る?
l 本当に大丈夫? l 開発データによるモデル選 択自体が悪いわけではない
21.
20 モデル選択 l 開発データによるモデル選択(early stopping) l
どうしたら良い? ? 開発データによる選択 (Early stopping) しなくて も良い設定にする – そもそもlossの設計 (または 学習の設定)が悪い可能性 ? あきらめる – 開発が下がってもそれはそ れと思う l なるべく多く回して学習 Lossがあまり変わらない ところまで回す
22.
21 [余談] Testset tuning l
DNNになって比較的簡単に恣意的な結果をだせ るようになった ?Testset-tuning疑惑の論文が散見されるように なった??? (この値本当に出る?) ?とはいえ,難しい問題が... これは絶対にやってはいけない
23.
22 Random seedで複数回評価 l 5回(できれば10回)Random
Seedを変えて 実験 l 平均を報告 l (検定をするなら)Non-parametric な検定 ? かなり厳しい設定の検定 => これで有意差がでるならよいと考える 1 2 3 4 5 Ave 21.5 20.9 21.4 20.9 21.8 21.30 21.1 20.8 21.7 21.1 21.0 21.14
24.
23 まとめ l 実験結果が同じにならない様々な要因 l 自分にどうにもできないことは一旦あきらめる... l
重要な比較手法は可能な限り再実験 l 比較手法は適切に(なるべく業界標準の良い方法) l Lossの設計または学習の設定を確認 l 開発データで性能が下がらない設定をみつける? l 乱数初期値を変えて複数回実験 l 検定もしておく? 他にもまだある気がするけど今日はこの辺で...