This document summarizes a presentation on offline reinforcement learning. It discusses how offline RL can learn from fixed datasets without further interaction with the environment, which allows for fully off-policy learning. However, offline RL faces challenges from distribution shift between the behavior policy that generated the data and the learned target policy. The document reviews several offline policy evaluation, policy gradient, and deep deterministic policy gradient methods, and also discusses using uncertainty and constraints to address distribution shift in offline deep reinforcement learning.
This document discusses self-supervised representation learning (SRL) for reinforcement learning tasks. SRL learns state representations by using prediction tasks as an auxiliary objective. The key ideas are: (1) SRL learns an encoder that maps observations to states using a prediction task like modeling future states or actions; (2) The learned state representations improve generalization and exploration in reinforcement learning algorithms; (3) Several SRL methods are discussed, including world models, inverse models, and causal infoGANs.
This document discusses self-supervised representation learning (SRL) for reinforcement learning tasks. SRL learns state representations by using prediction tasks as an auxiliary objective. The key ideas are: (1) SRL learns an encoder that maps observations to states using a prediction task like modeling future states or actions; (2) The learned state representations improve generalization and exploration in reinforcement learning algorithms; (3) Several SRL methods are discussed, including world models, inverse models, and causal infoGANs.
19. Copyright (c) 2020 The Japan Research Institute, Limited 19 /32
2-6. 解法 (1)EDA
多くの商品は散発的に売れており、売上が0となっている日が最も多い。
そのため、個別商品のモデルには負の二項分布を採用。
<例>全店舗?個別商品(FOODS_2_262)の時系列データとヒストグラム
ほとんど商品が売れていない期間がある
時系列データ ヒストグラム
Zero-inflated
20. Copyright (c) 2020 The Japan Research Institute, Limited 20 /32
2-6. 解法 (1)EDA
商品をカテゴリー単位や分類単位で集計すると様相が異なり、正規分布に近くなる。
そのため、商品を集計したものでは正規分布またはT分布を採用。
<例>個別店舗(CA_1)?商品分類(HOUSEHOLD_2)単位で集計した時系列データとヒストグラム
時系列データ ヒストグラム
21. Copyright (c) 2020 The Japan Research Institute, Limited 21 /32
2-6. 解法 (1)EDA
まとめると、時系列データごとに下記のモデルを作成する方針を採用。
Each Model Agg Model
負の二項分布 正規分布、または、T分布
個別商品の時系列データを予測する 全商品?カテゴリー単位?商品分類単位で集計
した時系列データを予測する
22. Copyright (c) 2020 The Japan Research Institute, Limited 22 /32
2-6. 解法 (2)モデル構造
「Each Model」「Agg Model」ともに同じ構造。
ただし、「Agg Model」は入力特徴量として価格の情報を用いない点が異なる。
入力データ
エンベディング層
(カテゴリー特徴量をエンコーディングする)
LSTM層1 LSTM層2
FC
(月)
FC
(火)
FC
(日)
FC
(土)
???
出力データ
28日間それぞれの
売上分布のパラメータ
曜日ごとにFC層を分割
予測対象28日間の
カレンダー?価格
モデル
???
直近28日間の
売上?カレンダー?価格
???
当初出力層は曜日ごとのFC層ではなくLSTM層にしていたが、うまく周期性を表現できなかったため、FC層に変更。
Batch Norm?Layer NormはLSTMと相性が悪いようなので見送った。
23. Copyright (c) 2020 The Japan Research Institute, Limited 23 /32
2-6. 解法 (3)特徴量エンジニアリング
? 特徴量エンジニアリング
? 前述のモデル構造としたことから当初検討していたラグ特徴量や直近N日間のターゲットエンコ
ーディングは不採用。
? 外部データ
? AccuracyのDiscussionに上がっていた”Federal Holidays USA 1966-2020”を使用。
(https://www.kaggle.com/gsnehaa21/federal-holidays-usa-19662020).
? 売上のスケーリング
? 「Agg Model」の売上データを標準正規分布に近づけるために、PowerTransformerで売
上をスケーリング。
? 「Each Model」は整数のままとしたかったため、特にスケール変換せず。
24. Copyright (c) 2020 The Japan Research Institute, Limited 24 /32
2-6. 解法 (4)Cross Validation
当初のクロスバリデーション方針は下図の通り。
しかし、Foldごとにスコアが大きく変動したため、土壇場で4週間単位を8週間単位に変更したが、
スコアが変動する問題は解消せず。
26. Copyright (c) 2020 The Japan Research Institute, Limited 26 /32
2-6. 解法 (6)その他の工夫
? ターゲットエンコーディング
? 時系列+曜日のターゲットエンコーディングを採用。
? 曜日ごとに分かれている最終FC層に入力。
? オーバーサンプリング
? 直近のデータを重視するため、2015年のデータは2倍に、2016年のデータは4倍にオーバーサ
ンプリング。
? 重み付きロス
? 評価指標は売上によって重みづけされるため、重み付きのロスを使って学習。
? 「Each Model」では効果があったが、「Agg Model」では効果がなかった。
27. Copyright (c) 2020 The Japan Research Institute, Limited 27 /32
2-7. 結果
実装はGitHubで公開中。ぜひスターを!https://github.com/marisakamozz/m5
Validation Phase Evaluation Phase
全店舗?全商品で集計した時系列データの実際の売上と予測(9分位点)。
赤線が実際の売上で、それ以外の線が予測した各分位点。Evaluation Phaseの赤線は最後の1週間の平均。
28. Copyright (c) 2020 The Japan Research Institute, Limited 28 /32
2-8. 後日譚 (1/3)
? 締め切り時刻:日本時間 7/1 朝9:00(UTC 7/1 0:00)
<Accuracy> Public Leaderboardの順位:3155位/約5000チーム
<Uncertainty> Public Leaderboardの順位:596位/約900チーム
29. Copyright (c) 2020 The Japan Research Institute, Limited 29 /32
2-8. 後日譚 (2/3)
? 再現できねぇ!
? 学習前にはseedを固定していた。そのため、何度実行しても同じ結果になる。
? しかし、予測ファイルを作成する前にseedを固定していなかった。そのため、保存したモデルから
同じ予測ファイルを再現できない!
? 別のマシンで最初から実行しても同じ結果にならない。
? torch.cuda.set_rng_state()で何とか解決。(7月9日の出来事)
? モデルの説明資料とプレゼン資料
? 上記の再現モデルとあわせて7月15日の期限までに提出が必要。
? 全部英語。
30. Copyright (c) 2020 The Japan Research Institute, Limited 30 /32
2-8. 後日譚 (3/3)
? 個人的に考える今回の勝因
① 運がよかった
? そもそも時系列データの予測は不確実性が高い。
? 実際、今回のコンペでは(私も含めて)初めて参加した人が上位に入っている一方、歴戦の猛者があまり
上位に入っていない。
? Accuracy部門では主催者が用意したベースラインモデルが銅メダルを獲得している。
② 独自のモデル
? 多くの参加者が売上を予測した後で信頼区間を付与する2段階のアプローチをとっていた中で、確率分布
そのものをモデル化
? 曜日の周期性を表現可能な構造
③ データを訓練に使用するかどうかの判断
? 基本的には直近のデータを重視してモデルを作成
? あえて最後の4週間のデータを訓練に使用せず、モデルの評価に使用した