狠狠撸

狠狠撸Share a Scribd company logo
? So-net Media Networks Corporation.
Learning Optimal Policies from
Observational Data	
Top Conference 論?読み会 2018/11/22(?)
東京?業?学 経営?学系 学?課程3年
齋藤 優太
*本スライドで?いられている表や図は全て[1]からの引?です.
? So-net Media Networks Corporation.
2紹介論?
?? Learning Optimal Policies from Observational Data [1]
?? OxfordのMihaela van der Schaar Lab
?? ICML 2018
?? 要約
?? ?的:Observationalデータを?いた介??策最適化
?? 背景:既存?法はPropensityが必要かつlinearクラスのみ対応
?? ?法:Unsupervised Domain Adaptation, DANN*
* Domain Adversarial Neural Network [6]
? So-net Media Networks Corporation.
3研究マップ (BLBF)
BLBF*
PF
[ICML 17]
DACPOL
[ICML 18]
POEM**
[ICML 15]
*Batch Learning from Bandit Feedback
: BLBFの定式化. 精度?体はあまり良くないっぽい?
:Policy Outcomeを最?化するよう特徴空間を分割しながら
?介?割当を個別化していくtree-basedなアルゴリズム.
:DANNから着想を得て, 真のPolicy Outcome の
?下界をempiricalに算出して, それを最?化.
これ
** BanditNet[4]とかSNIPS[5]とかいくつか派??法もある
? So-net Media Networks Corporation.
4Abstract & Introduction
Aさん Bさん
Factual介? 介?1 介?9
介?0 Counterfactual Counterfactual
介?1 3,000円 Counterfactual
... ... ... Counterfactual Counterfactual
介?8 Counterfactual Counterfactual
介?9 Counterfactual 0円
最適介? ? ?
?? 以下の状況で, 各データに対する最適な介?を導き出したい.
?? しかし, データはObservational. つまり, 各介?割り当てが特徴量に依存.
? So-net Media Networks Corporation.
5Notation
?? Action (介?) :
?? 特徴量空間??:
?? ?的変数空間?:
?? 潜在?的変数?:
?? 学習?ログ : (Finite Sample)
? So-net Media Networks Corporation.
6Notation
?? ?策(Policy) :
?? 潜在?的変数の期待値:
?? Policy Outcome :
? So-net Media Networks Corporation.
7Notation
?? ?策(Policy) :
?? 潜在?的変数の期待値:
?? Policy Outcome :
やりたいこと ただし、Observational
? So-net Media Networks Corporation.
8Proposed Framework
基本コンセプト:「Policy Outcomeの予測には役?つが,
?????????Domainの予測には役?たない特徴表現を獲得」
?? representation function:
?? hypothesis class :
? So-net Media Networks Corporation.
9Domain Adaptation的定式化
?? Source分布 :
?? Target分布 :
?? 特徴量周辺分布:
representation function
?により新たな分布を?成
? So-net Media Networks Corporation.
10Domain Adaptation的定式化
により?成される分布を使ってPolicy Outcomeを書き直すと...
これがわかれば苦労しないが、実際はCounterfactualによる?損が?じるので、
Source分布を?いたナイーブな
Policy Outcome推定量
Target分布を?いたナイーブな
Policy Outcome推定量
究極の?標はこれを最?化する
仮説? を導き出すこと.
どんな割当にもよしなに対応してくれる
? So-net Media Networks Corporation.
11Target分布を?いた推定量は望ましい
Proposition 1.
proof:
?旦、?は固定(law of iterated expectation)
の項が残るので
つまり?
Target分布(Randomized Data)を?いたナイーブな推定量は
真のPolicy Outcomeに?致.
? So-net Media Networks Corporation.
12Unsupervised Domain Adaptation
Source Domain
(observational)
Target Domain
(randomized)
?? もちろん, Target分布からの実現値をデータとして得られていれば,
????をデータから推定することが可能.
?? もしくは,
?? しかし, 私たちが?いることができるのは, 以下のデータのみ.
ラベルあり ラベルなし
? So-net Media Networks Corporation.
13Sourceのデータを?いてboundしたい
やりたいこと
EmpiricalなSource Policy Outcomeを?いて真のPolicy Outcomeをbound
データから計算できる
?を解き明かすため?つ?つ地道に不等式評価していく
でも同じこと.
? So-net Media Networks Corporation.
14分布間距離としてH-divergenceの導?
仮説集合??に属する任意のPolicy について,
とすると、2つの分布???? の間のH-divergenceは以下のように定義される.
Definition 1. (H-divergence)
つまり、
という事象列が? 上で実現する確率と? 上で実現する確率の差の上限
? So-net Media Networks Corporation.
15Source Policy OutcomeによるBound
Lemma 1.
proof:
真のPolicy Outcomeの下界をSource Policy OutcomeとH-divergenceで表している
? So-net Media Networks Corporation.
16Source Policy OutcomeによるBound
Lemma 1.
proof:
これを有限サンプルから推定した値にすると?
? So-net Media Networks Corporation.
17Policy OutcomeとDivergenceの経験値
The Monte-Carlo Estimator for the Source Policy Outcome
The Empirical H-divergence
経験分布を とする
? So-net Media Networks Corporation.
18Policy OutcomeとDivergenceのbound
Lemma 2.
Lemma 3.
以上の確率で以下が成り?つ
以上の確率で以下が成り?つ
? So-net Media Networks Corporation.
19Policy OutcomeとDivergenceのbound
Lemma 2.
Lemma 3.
以上の確率で以下が成り?つ
以上の確率で以下が成り?つ Empiricalに計算できる
? So-net Media Networks Corporation.
20Policy OutcomeとDivergenceのbound
Lemma 2.
Lemma 3.
以上の確率で以下が成り?つ
以上の確率で以下が成り?つ
Hypothesis Complexity
? So-net Media Networks Corporation.
21真のPolicy Outcomeのlower bound
Theorem 1. Lemma 1, 2, 3により, 以上の確率で以下が成り?つ
Empirical計算できる
?において?様
? So-net Media Networks Corporation.
22真のPolicy Outcomeのlower bound
Theorem 1.
ここを最?化したい
?において?様
Lemma 1, 2, 3により, 以上の確率で以下が成り?つ
? So-net Media Networks Corporation.
23Counterfactual Policy Optimization
Counterfactual Policy Optimization (CPO)
Theorem 1に基づき, 真のPolicy Outcomeの下界を最?化するような
仮説と特徴表現を得るような枠組み
Empirical Source Policy Outcome Empirical H-divergence
(NP-Hard)
? So-net Media Networks Corporation.
24経験Target分布のサンプリング
?? もちろん, ?持ちのデータはObservationalなのでそこからunlabeledの
経験Target分布をサンプリングしてあげる必要がある.
?? ここで?様な多項分布を?いて
Target分布?のactionをサンプリング
?? Target分布はunlabeledなので、
事前にサンプリングした特徴量集合と
concatしてあげれば良い
? So-net Media Networks Corporation.
25Optimization Criteria
?? Policy Blockに対する損失関数. に対応.
?? Domain Blockに対する損失関数*. に対応.
最適化において扱いやすくするため
定義に対して修正を加えたもの
: Source分布に従うデータなら0, Target分布に従うデータなら1を取るdomain label
* 論?におけるdomain lossはおそらくtypoです. こちらの表記を?いるとパラメータ更新式などの筋が通るかと…
? So-net Media Networks Corporation.
26Optimization Criteria
?? Policy Blockに対する損失関数. に対応.
?? Domain Blockに対する損失関数. に対応.
?? Totalの損失関数.
domain lossの考慮具合を司るhyper-parameter
最適化において扱いやすくするため
定義に対して修正を加えたもの
? So-net Media Networks Corporation.
27Architecture (DANN)
以下の3つのパートから成る
?? Representation Block
?? Policy Block
?? Domain Block
Representation Policy
Domain
?? Outcome依存, Domain?依存な
新たな特徴表現を得るための層
?? 新たに得た特徴表現を?いて
最適な介?を予測するための層
?? 新たに得た特徴表現を?いて
Domainを予測するための層
? So-net Media Networks Corporation.
28Architecture (DANN)
以下の3つのパートから成る
?? Representation Block
?? Policy Block
?? Domain Block
をpolicy lossを減少させる?向にパラメータを更新.
gradient reversal layer[8] を通すことによって,??
? はdomain lossを減少させる?向に, は増加させる?向に
敵対的にパラメータを更新.
? So-net Media Networks Corporation.
29Optimization Algorithm (DACPOL*)
* Domain Adverse Counterfactual POLicy training
Trainデータから経験Target分布を?成
(Algorithm 1)
Policy LossとDomain Lossを
それぞれデータから計算
Policy LossとDomain Lossの勾配により
Representation, Policy, Domainの
パラメータを更新
(propagationの様?はarchitecture参照)
? So-net Media Networks Corporation.
30Optimization Algorithm (DACPOL*)
* Domain Adverse Counterfactual POLicy training
representation blockのパラメータを
?? Policy Lossを減少させる?向
?? Domain Lossを増加させる?向
に更新する. に対し敵対的.
Target分布におけるPolicy Lossを減少させるような
特徴表現を得ることを?指していると解釈できる
? So-net Media Networks Corporation.
31実験setup
?? 使?データセット (potential outcomeとactionを?成したsemi-synthetic)
?? Breast cancer dataset (5つの治療をaction)
?? Satellite image dataset (imageのlabelをaction)
?? Research Questions (RQs)
1.? Loss(最適介?不正解率)
2.? Hyper-parameter を変化させた時の精度の推移
3.? Selection biasの?きさに対する頑健性
4.? #Irrelevant featuresに対する頑健性
? So-net Media Networks Corporation.
32RQ1: Loss
?? 提案?法のDACPOLが他のBenchmarkを圧倒する性能
?? Domain Lossもちゃんと考慮することで性能が向上 (RQ2で検証)
?? POEMやIPSは本論?でTrueのPropensityが必要とされているが,
Propensityを必要としないDACPOLとfairに?較するため推定値を?いた
? So-net Media Networks Corporation.
33RQ2: Lambda
?? Lambdaを徐々に?きくした時の
性能の推移グラフ
?? Lambdaが?さいとDomain Lossを
考慮せずselection biasの影響を受ける
?? Lambdaが?きいとPolicy Lossを
考慮せずoutcomeの予測を考慮しない
特徴表現が学習されてしまう
? So-net Media Networks Corporation.
34RQ3: Selection Bias
?? Selection biasを徐々に?きくした時の
性能の推移グラフ
?? Selection biasが?きいとSourceとTarget
の分布乖離が?きくなるので
lossのboundが緩くなってしまう
?? それでも, domain lossを考慮することで
selection biasの?部分を取り除けている
? So-net Media Networks Corporation.
35RQ4: #Irrelevant Features
?? #Irrelevant featuresを徐々に
?きくした時の性能の推移グラフ
?? 学習データのaction割り当ては
irrelevant featuresにのみ依存
?? #Irrelevant featureが増えると
selection biasも増えるため
POEMはvarianceの増加により性能悪化
?? ??で, DACPOLはrepresentation block
でrelevant featuresのみを抽出できるため
性能がさほど変わらない
? So-net Media Networks Corporation.
36Conclusion
?? Observationalデータを?いた介??策最適化問題に対して
Domain Adaptation的に真のPolicy Outcomeに対する下界を導出
?? Empirical source policy outcomeとempirical H-divergenceに依存する
下界を最?化する枠組みとしてCPOを提案
?? CPOにおける?つのアルゴリズムとしてDANNに着想を得たDACPOLを提案
?? Semi-syntheticデータを?いた実験で, DACPOLはdomain lossとpolicy loss
の良好なtrade-offを達成し, より良い介??策を導き出した
? So-net Media Networks Corporation.
37
ご静聴ありがとうございました。
? So-net Media Networks Corporation.
38References
[1] O. Atan, W. R. Zame, and M. van der Schaar.
Learning optimal policies from observational data.
International Conference on Machine Learning (ICML?18).
[2] Adith Swaminathan and Thorsten Joachims.
Batch learning from logged bandit feedback through counterfactual risk minimization.
Journal of Machine Learning Research 16 (2015), 1731–1755.
[3] Adith Swaminathan and Thorsten Joachims.
Counterfactual Risk Minimization: Learning from Logged Bandit Feedback.
International Conference on Machine Learning (ICML?15).
[4] Thorsten Joachims, Artem Grotov, Adith Swaminathan,and Maarten de Rijke.
Deep Learning with Logged Bandit Feedback.
Proceedings of the International Conference on Learning Representations (ICLR) (2018).
? So-net Media Networks Corporation.
39References
[5] A. Swaminathan and T. Joachims.
The self-normalized estimator for counterfactual learning.
In NIPS, 2015
[6] Ganin, Yaroslav, Ustinova, Evgeniya, Ajakan, Hana, Germain,
Pascal, Larochelle, Hugo, Laviolette, Francois, Marchand, Mario, and Lempitsky, Victor.
Domain adversarial training of neural networks.
The Journal of Machine Learning Research, 17(1), 2016.
[7] Ben-David, Shai, Blitzer, John, Crammer, Koby, and Pereira, Fernando.
Analysis of representations for domain adaptation.
In Advances in neural information processing systems, pp. 137–144, 2007.
[8] Yaroslav Ganin and Victor Lempitsky.
Unsupervised domain adaptation by backpropagation.
In ICML, pages 325–333, 2015. URL http://jmlr.org/proceedings/papers/ v37/ganin15.html.

More Related Content

181122_learning_optimal_policies_from_observational_data

  • 1. ? So-net Media Networks Corporation. Learning Optimal Policies from Observational Data Top Conference 論?読み会 2018/11/22(?) 東京?業?学 経営?学系 学?課程3年 齋藤 優太 *本スライドで?いられている表や図は全て[1]からの引?です.
  • 2. ? So-net Media Networks Corporation. 2紹介論? ?? Learning Optimal Policies from Observational Data [1] ?? OxfordのMihaela van der Schaar Lab ?? ICML 2018 ?? 要約 ?? ?的:Observationalデータを?いた介??策最適化 ?? 背景:既存?法はPropensityが必要かつlinearクラスのみ対応 ?? ?法:Unsupervised Domain Adaptation, DANN* * Domain Adversarial Neural Network [6]
  • 3. ? So-net Media Networks Corporation. 3研究マップ (BLBF) BLBF* PF [ICML 17] DACPOL [ICML 18] POEM** [ICML 15] *Batch Learning from Bandit Feedback : BLBFの定式化. 精度?体はあまり良くないっぽい? :Policy Outcomeを最?化するよう特徴空間を分割しながら ?介?割当を個別化していくtree-basedなアルゴリズム. :DANNから着想を得て, 真のPolicy Outcome の ?下界をempiricalに算出して, それを最?化. これ ** BanditNet[4]とかSNIPS[5]とかいくつか派??法もある
  • 4. ? So-net Media Networks Corporation. 4Abstract & Introduction Aさん Bさん Factual介? 介?1 介?9 介?0 Counterfactual Counterfactual 介?1 3,000円 Counterfactual ... ... ... Counterfactual Counterfactual 介?8 Counterfactual Counterfactual 介?9 Counterfactual 0円 最適介? ? ? ?? 以下の状況で, 各データに対する最適な介?を導き出したい. ?? しかし, データはObservational. つまり, 各介?割り当てが特徴量に依存.
  • 5. ? So-net Media Networks Corporation. 5Notation ?? Action (介?) : ?? 特徴量空間??: ?? ?的変数空間?: ?? 潜在?的変数?: ?? 学習?ログ : (Finite Sample)
  • 6. ? So-net Media Networks Corporation. 6Notation ?? ?策(Policy) : ?? 潜在?的変数の期待値: ?? Policy Outcome :
  • 7. ? So-net Media Networks Corporation. 7Notation ?? ?策(Policy) : ?? 潜在?的変数の期待値: ?? Policy Outcome : やりたいこと ただし、Observational
  • 8. ? So-net Media Networks Corporation. 8Proposed Framework 基本コンセプト:「Policy Outcomeの予測には役?つが, ?????????Domainの予測には役?たない特徴表現を獲得」 ?? representation function: ?? hypothesis class :
  • 9. ? So-net Media Networks Corporation. 9Domain Adaptation的定式化 ?? Source分布 : ?? Target分布 : ?? 特徴量周辺分布: representation function ?により新たな分布を?成
  • 10. ? So-net Media Networks Corporation. 10Domain Adaptation的定式化 により?成される分布を使ってPolicy Outcomeを書き直すと... これがわかれば苦労しないが、実際はCounterfactualによる?損が?じるので、 Source分布を?いたナイーブな Policy Outcome推定量 Target分布を?いたナイーブな Policy Outcome推定量 究極の?標はこれを最?化する 仮説? を導き出すこと. どんな割当にもよしなに対応してくれる
  • 11. ? So-net Media Networks Corporation. 11Target分布を?いた推定量は望ましい Proposition 1. proof: ?旦、?は固定(law of iterated expectation) の項が残るので つまり? Target分布(Randomized Data)を?いたナイーブな推定量は 真のPolicy Outcomeに?致.
  • 12. ? So-net Media Networks Corporation. 12Unsupervised Domain Adaptation Source Domain (observational) Target Domain (randomized) ?? もちろん, Target分布からの実現値をデータとして得られていれば, ????をデータから推定することが可能. ?? もしくは, ?? しかし, 私たちが?いることができるのは, 以下のデータのみ. ラベルあり ラベルなし
  • 13. ? So-net Media Networks Corporation. 13Sourceのデータを?いてboundしたい やりたいこと EmpiricalなSource Policy Outcomeを?いて真のPolicy Outcomeをbound データから計算できる ?を解き明かすため?つ?つ地道に不等式評価していく でも同じこと.
  • 14. ? So-net Media Networks Corporation. 14分布間距離としてH-divergenceの導? 仮説集合??に属する任意のPolicy について, とすると、2つの分布???? の間のH-divergenceは以下のように定義される. Definition 1. (H-divergence) つまり、 という事象列が? 上で実現する確率と? 上で実現する確率の差の上限
  • 15. ? So-net Media Networks Corporation. 15Source Policy OutcomeによるBound Lemma 1. proof: 真のPolicy Outcomeの下界をSource Policy OutcomeとH-divergenceで表している
  • 16. ? So-net Media Networks Corporation. 16Source Policy OutcomeによるBound Lemma 1. proof: これを有限サンプルから推定した値にすると?
  • 17. ? So-net Media Networks Corporation. 17Policy OutcomeとDivergenceの経験値 The Monte-Carlo Estimator for the Source Policy Outcome The Empirical H-divergence 経験分布を とする
  • 18. ? So-net Media Networks Corporation. 18Policy OutcomeとDivergenceのbound Lemma 2. Lemma 3. 以上の確率で以下が成り?つ 以上の確率で以下が成り?つ
  • 19. ? So-net Media Networks Corporation. 19Policy OutcomeとDivergenceのbound Lemma 2. Lemma 3. 以上の確率で以下が成り?つ 以上の確率で以下が成り?つ Empiricalに計算できる
  • 20. ? So-net Media Networks Corporation. 20Policy OutcomeとDivergenceのbound Lemma 2. Lemma 3. 以上の確率で以下が成り?つ 以上の確率で以下が成り?つ Hypothesis Complexity
  • 21. ? So-net Media Networks Corporation. 21真のPolicy Outcomeのlower bound Theorem 1. Lemma 1, 2, 3により, 以上の確率で以下が成り?つ Empirical計算できる ?において?様
  • 22. ? So-net Media Networks Corporation. 22真のPolicy Outcomeのlower bound Theorem 1. ここを最?化したい ?において?様 Lemma 1, 2, 3により, 以上の確率で以下が成り?つ
  • 23. ? So-net Media Networks Corporation. 23Counterfactual Policy Optimization Counterfactual Policy Optimization (CPO) Theorem 1に基づき, 真のPolicy Outcomeの下界を最?化するような 仮説と特徴表現を得るような枠組み Empirical Source Policy Outcome Empirical H-divergence (NP-Hard)
  • 24. ? So-net Media Networks Corporation. 24経験Target分布のサンプリング ?? もちろん, ?持ちのデータはObservationalなのでそこからunlabeledの 経験Target分布をサンプリングしてあげる必要がある. ?? ここで?様な多項分布を?いて Target分布?のactionをサンプリング ?? Target分布はunlabeledなので、 事前にサンプリングした特徴量集合と concatしてあげれば良い
  • 25. ? So-net Media Networks Corporation. 25Optimization Criteria ?? Policy Blockに対する損失関数. に対応. ?? Domain Blockに対する損失関数*. に対応. 最適化において扱いやすくするため 定義に対して修正を加えたもの : Source分布に従うデータなら0, Target分布に従うデータなら1を取るdomain label * 論?におけるdomain lossはおそらくtypoです. こちらの表記を?いるとパラメータ更新式などの筋が通るかと…
  • 26. ? So-net Media Networks Corporation. 26Optimization Criteria ?? Policy Blockに対する損失関数. に対応. ?? Domain Blockに対する損失関数. に対応. ?? Totalの損失関数. domain lossの考慮具合を司るhyper-parameter 最適化において扱いやすくするため 定義に対して修正を加えたもの
  • 27. ? So-net Media Networks Corporation. 27Architecture (DANN) 以下の3つのパートから成る ?? Representation Block ?? Policy Block ?? Domain Block Representation Policy Domain ?? Outcome依存, Domain?依存な 新たな特徴表現を得るための層 ?? 新たに得た特徴表現を?いて 最適な介?を予測するための層 ?? 新たに得た特徴表現を?いて Domainを予測するための層
  • 28. ? So-net Media Networks Corporation. 28Architecture (DANN) 以下の3つのパートから成る ?? Representation Block ?? Policy Block ?? Domain Block をpolicy lossを減少させる?向にパラメータを更新. gradient reversal layer[8] を通すことによって,?? ? はdomain lossを減少させる?向に, は増加させる?向に 敵対的にパラメータを更新.
  • 29. ? So-net Media Networks Corporation. 29Optimization Algorithm (DACPOL*) * Domain Adverse Counterfactual POLicy training Trainデータから経験Target分布を?成 (Algorithm 1) Policy LossとDomain Lossを それぞれデータから計算 Policy LossとDomain Lossの勾配により Representation, Policy, Domainの パラメータを更新 (propagationの様?はarchitecture参照)
  • 30. ? So-net Media Networks Corporation. 30Optimization Algorithm (DACPOL*) * Domain Adverse Counterfactual POLicy training representation blockのパラメータを ?? Policy Lossを減少させる?向 ?? Domain Lossを増加させる?向 に更新する. に対し敵対的. Target分布におけるPolicy Lossを減少させるような 特徴表現を得ることを?指していると解釈できる
  • 31. ? So-net Media Networks Corporation. 31実験setup ?? 使?データセット (potential outcomeとactionを?成したsemi-synthetic) ?? Breast cancer dataset (5つの治療をaction) ?? Satellite image dataset (imageのlabelをaction) ?? Research Questions (RQs) 1.? Loss(最適介?不正解率) 2.? Hyper-parameter を変化させた時の精度の推移 3.? Selection biasの?きさに対する頑健性 4.? #Irrelevant featuresに対する頑健性
  • 32. ? So-net Media Networks Corporation. 32RQ1: Loss ?? 提案?法のDACPOLが他のBenchmarkを圧倒する性能 ?? Domain Lossもちゃんと考慮することで性能が向上 (RQ2で検証) ?? POEMやIPSは本論?でTrueのPropensityが必要とされているが, Propensityを必要としないDACPOLとfairに?較するため推定値を?いた
  • 33. ? So-net Media Networks Corporation. 33RQ2: Lambda ?? Lambdaを徐々に?きくした時の 性能の推移グラフ ?? Lambdaが?さいとDomain Lossを 考慮せずselection biasの影響を受ける ?? Lambdaが?きいとPolicy Lossを 考慮せずoutcomeの予測を考慮しない 特徴表現が学習されてしまう
  • 34. ? So-net Media Networks Corporation. 34RQ3: Selection Bias ?? Selection biasを徐々に?きくした時の 性能の推移グラフ ?? Selection biasが?きいとSourceとTarget の分布乖離が?きくなるので lossのboundが緩くなってしまう ?? それでも, domain lossを考慮することで selection biasの?部分を取り除けている
  • 35. ? So-net Media Networks Corporation. 35RQ4: #Irrelevant Features ?? #Irrelevant featuresを徐々に ?きくした時の性能の推移グラフ ?? 学習データのaction割り当ては irrelevant featuresにのみ依存 ?? #Irrelevant featureが増えると selection biasも増えるため POEMはvarianceの増加により性能悪化 ?? ??で, DACPOLはrepresentation block でrelevant featuresのみを抽出できるため 性能がさほど変わらない
  • 36. ? So-net Media Networks Corporation. 36Conclusion ?? Observationalデータを?いた介??策最適化問題に対して Domain Adaptation的に真のPolicy Outcomeに対する下界を導出 ?? Empirical source policy outcomeとempirical H-divergenceに依存する 下界を最?化する枠組みとしてCPOを提案 ?? CPOにおける?つのアルゴリズムとしてDANNに着想を得たDACPOLを提案 ?? Semi-syntheticデータを?いた実験で, DACPOLはdomain lossとpolicy loss の良好なtrade-offを達成し, より良い介??策を導き出した
  • 37. ? So-net Media Networks Corporation. 37 ご静聴ありがとうございました。
  • 38. ? So-net Media Networks Corporation. 38References [1] O. Atan, W. R. Zame, and M. van der Schaar. Learning optimal policies from observational data. International Conference on Machine Learning (ICML?18). [2] Adith Swaminathan and Thorsten Joachims. Batch learning from logged bandit feedback through counterfactual risk minimization. Journal of Machine Learning Research 16 (2015), 1731–1755. [3] Adith Swaminathan and Thorsten Joachims. Counterfactual Risk Minimization: Learning from Logged Bandit Feedback. International Conference on Machine Learning (ICML?15). [4] Thorsten Joachims, Artem Grotov, Adith Swaminathan,and Maarten de Rijke. Deep Learning with Logged Bandit Feedback. Proceedings of the International Conference on Learning Representations (ICLR) (2018).
  • 39. ? So-net Media Networks Corporation. 39References [5] A. Swaminathan and T. Joachims. The self-normalized estimator for counterfactual learning. In NIPS, 2015 [6] Ganin, Yaroslav, Ustinova, Evgeniya, Ajakan, Hana, Germain, Pascal, Larochelle, Hugo, Laviolette, Francois, Marchand, Mario, and Lempitsky, Victor. Domain adversarial training of neural networks. The Journal of Machine Learning Research, 17(1), 2016. [7] Ben-David, Shai, Blitzer, John, Crammer, Koby, and Pereira, Fernando. Analysis of representations for domain adaptation. In Advances in neural information processing systems, pp. 137–144, 2007. [8] Yaroslav Ganin and Victor Lempitsky. Unsupervised domain adaptation by backpropagation. In ICML, pages 325–333, 2015. URL http://jmlr.org/proceedings/papers/ v37/ganin15.html.