狠狠撸

? So-net Media Networks Corporation.
Learning Optimal Policies from
Observational Data
Top Conference 論?読み会 2018/11/22（?）
東京?業?学経営?学系学?課程3年
齋藤優太
*本スライドで?いられている表や図は全て[1]からの引?です.

2紹介論?
?? Learning Optimal Policies from Observational Data [1]
?? OxfordのMihaela van der Schaar Lab
?? ICML 2018
?? 要約
?? ?的：Observationalデータを?いた介??策最適化
?? 背景：既存?法はPropensityが必要かつlinearクラスのみ対応
?? ?法：Unsupervised Domain Adaptation, DANN*
* Domain Adversarial Neural Network [6]

3研究マップ (BLBF)
BLBF*
PF
[ICML 17]
DACPOL
[ICML 18]
POEM**
[ICML 15]
*Batch Learning from Bandit Feedback
: BLBFの定式化. 精度?体はあまり良くないっぽい？
：Policy Outcomeを最?化するよう特徴空間を分割しながら
?介?割当を個別化していくtree-basedなアルゴリズム.
：DANNから着想を得て, 真のPolicy Outcome の
?下界をempiricalに算出して, それを最?化.
これ
** BanditNet[4]とかSNIPS[5]とかいくつか派??法もある

4Abstract & Introduction
Aさん Bさん
Factual介? 介?1 介?9
介?0 Counterfactual Counterfactual
介?1 3,000円 Counterfactual
... ... ... Counterfactual Counterfactual
介?8 Counterfactual Counterfactual
介?9 Counterfactual 0円
最適介? ？？
?? 以下の状況で, 各データに対する最適な介?を導き出したい.
?? しかし, データはObservational. つまり, 各介?割り当てが特徴量に依存.

5Notation
?? Action (介?) ：
?? 特徴量空間??：
?? ?的変数空間?：
?? 潜在?的変数?：
?? 学習?ログ： (Finite Sample)

6Notation
?? ?策(Policy) ：
?? 潜在?的変数の期待値：
?? Policy Outcome ：

7Notation
?? ?策(Policy) ：
?? 潜在?的変数の期待値：
?? Policy Outcome ：
やりたいことただし、Observational

8Proposed Framework
基本コンセプト：「Policy Outcomeの予測には役?つが,
?????????Domainの予測には役?たない特徴表現を獲得」
?? representation function：
?? hypothesis class :

9Domain Adaptation的定式化
?? Source分布：
?? Target分布：
?? 特徴量周辺分布：
representation function
?により新たな分布を?成

10Domain Adaptation的定式化
により?成される分布を使ってPolicy Outcomeを書き直すと...
これがわかれば苦労しないが、実際はCounterfactualによる?損が?じるので、
Source分布を?いたナイーブな
Policy Outcome推定量
Target分布を?いたナイーブな
Policy Outcome推定量
究極の?標はこれを最?化する
仮説? を導き出すこと.
どんな割当にもよしなに対応してくれる

11Target分布を?いた推定量は望ましい
Proposition 1.
proof:
?旦、?は固定（law of iterated expectation）
の項が残るので
つまり？
Target分布(Randomized Data)を?いたナイーブな推定量は
真のPolicy Outcomeに?致.

12Unsupervised Domain Adaptation
Source Domain
(observational)
Target Domain
(randomized)
?? もちろん, Target分布からの実現値をデータとして得られていれば,
????をデータから推定することが可能.
?? もしくは,
?? しかし, 私たちが?いることができるのは, 以下のデータのみ.
ラベルありラベルなし

13Sourceのデータを?いてboundしたい
やりたいこと
EmpiricalなSource Policy Outcomeを?いて真のPolicy Outcomeをbound
データから計算できる
?を解き明かすため?つ?つ地道に不等式評価していく
でも同じこと.

14分布間距離としてH-divergenceの導?
仮説集合??に属する任意のPolicy について,
とすると、2つの分布???? の間のH-divergenceは以下のように定義される.
Definition 1. (H-divergence)
つまり、
という事象列が? 上で実現する確率と? 上で実現する確率の差の上限

15Source Policy OutcomeによるBound
Lemma 1.
proof:
真のPolicy Outcomeの下界をSource Policy OutcomeとH-divergenceで表している

16Source Policy OutcomeによるBound
Lemma 1.
proof:
これを有限サンプルから推定した値にすると？

17Policy OutcomeとDivergenceの経験値
The Monte-Carlo Estimator for the Source Policy Outcome
The Empirical H-divergence
経験分布をとする

18Policy OutcomeとDivergenceのbound
Lemma 2.
Lemma 3.
以上の確率で以下が成り?つ

Lemma 2.
Lemma 3.
以上の確率で以下が成り?つ Empiricalに計算できる

Lemma 2.
Lemma 3.
Hypothesis Complexity

21真のPolicy Outcomeのlower bound
Theorem 1. Lemma 1, 2, 3により, 以上の確率で以下が成り?つ
Empirical計算できる
?において?様

22真のPolicy Outcomeのlower bound
Theorem 1.
ここを最?化したい
?において?様
Lemma 1, 2, 3により, 以上の確率で以下が成り?つ

23Counterfactual Policy Optimization
Counterfactual Policy Optimization (CPO)
Theorem 1に基づき, 真のPolicy Outcomeの下界を最?化するような
仮説と特徴表現を得るような枠組み
Empirical Source Policy Outcome Empirical H-divergence
(NP-Hard)

24経験Target分布のサンプリング
?? もちろん, ?持ちのデータはObservationalなのでそこからunlabeledの
経験Target分布をサンプリングしてあげる必要がある.
?? ここで?様な多項分布を?いて
Target分布?のactionをサンプリング
?? Target分布はunlabeledなので、
事前にサンプリングした特徴量集合と
concatしてあげれば良い

25Optimization Criteria
?? Policy Blockに対する損失関数. に対応.
?? Domain Blockに対する損失関数*. に対応.
最適化において扱いやすくするため
定義に対して修正を加えたもの
: Source分布に従うデータなら0, Target分布に従うデータなら1を取るdomain label
* 論?におけるdomain lossはおそらくtypoです. こちらの表記を?いるとパラメータ更新式などの筋が通るかと…

26Optimization Criteria
?? Policy Blockに対する損失関数. に対応.
?? Domain Blockに対する損失関数. に対応.
?? Totalの損失関数.
domain lossの考慮具合を司るhyper-parameter
最適化において扱いやすくするため
定義に対して修正を加えたもの

27Architecture (DANN)
以下の3つのパートから成る
?? Representation Block
?? Policy Block
?? Domain Block
Representation Policy
Domain
?? Outcome依存, Domain?依存な
新たな特徴表現を得るための層
?? 新たに得た特徴表現を?いて
最適な介?を予測するための層
?? 新たに得た特徴表現を?いて
Domainを予測するための層

28Architecture (DANN)
以下の3つのパートから成る
?? Representation Block
?? Policy Block
?? Domain Block
をpolicy lossを減少させる?向にパラメータを更新.
gradient reversal layer[8] を通すことによって,??
? はdomain lossを減少させる?向に, は増加させる?向に
敵対的にパラメータを更新.

29Optimization Algorithm (DACPOL*)
* Domain Adverse Counterfactual POLicy training
Trainデータから経験Target分布を?成
(Algorithm 1)
Policy LossとDomain Lossを
それぞれデータから計算
Policy LossとDomain Lossの勾配により
Representation, Policy, Domainの
パラメータを更新
(propagationの様?はarchitecture参照)

30Optimization Algorithm (DACPOL*)
* Domain Adverse Counterfactual POLicy training
representation blockのパラメータを
?? Policy Lossを減少させる?向
?? Domain Lossを増加させる?向
に更新する. に対し敵対的.
Target分布におけるPolicy Lossを減少させるような
特徴表現を得ることを?指していると解釈できる

31実験setup
?? 使?データセット (potential outcomeとactionを?成したsemi-synthetic)
?? Breast cancer dataset (5つの治療をaction)
?? Satellite image dataset (imageのlabelをaction)
?? Research Questions (RQs)
1.? Loss（最適介?不正解率）
2.? Hyper-parameter を変化させた時の精度の推移
3.? Selection biasの?きさに対する頑健性
4.? #Irrelevant featuresに対する頑健性

32RQ1: Loss
?? 提案?法のDACPOLが他のBenchmarkを圧倒する性能
?? Domain Lossもちゃんと考慮することで性能が向上 (RQ2で検証)
?? POEMやIPSは本論?でTrueのPropensityが必要とされているが,
Propensityを必要としないDACPOLとfairに?較するため推定値を?いた

33RQ2: Lambda
?? Lambdaを徐々に?きくした時の
性能の推移グラフ
?? Lambdaが?さいとDomain Lossを
考慮せずselection biasの影響を受ける
?? Lambdaが?きいとPolicy Lossを
考慮せずoutcomeの予測を考慮しない
特徴表現が学習されてしまう

34RQ3: Selection Bias
?? Selection biasを徐々に?きくした時の
性能の推移グラフ
?? Selection biasが?きいとSourceとTarget
の分布乖離が?きくなるので
lossのboundが緩くなってしまう
?? それでも, domain lossを考慮することで
selection biasの?部分を取り除けている

35RQ4: #Irrelevant Features
?? #Irrelevant featuresを徐々に
?きくした時の性能の推移グラフ
?? 学習データのaction割り当ては
irrelevant featuresにのみ依存
?? #Irrelevant featureが増えると
selection biasも増えるため
POEMはvarianceの増加により性能悪化
?? ??で, DACPOLはrepresentation block
でrelevant featuresのみを抽出できるため
性能がさほど変わらない

36Conclusion
?? Observationalデータを?いた介??策最適化問題に対して
Domain Adaptation的に真のPolicy Outcomeに対する下界を導出
?? Empirical source policy outcomeとempirical H-divergenceに依存する
下界を最?化する枠組みとしてCPOを提案
?? CPOにおける?つのアルゴリズムとしてDANNに着想を得たDACPOLを提案
?? Semi-syntheticデータを?いた実験で, DACPOLはdomain lossとpolicy loss
の良好なtrade-offを達成し, より良い介??策を導き出した

37
ご静聴ありがとうございました。

38References
[1] O. Atan, W. R. Zame, and M. van der Schaar.
Learning optimal policies from observational data.
International Conference on Machine Learning (ICML?18).
[2] Adith Swaminathan and Thorsten Joachims.
Batch learning from logged bandit feedback through counterfactual risk minimization.
Journal of Machine Learning Research 16 (2015), 1731–1755.
[3] Adith Swaminathan and Thorsten Joachims.
Counterfactual Risk Minimization: Learning from Logged Bandit Feedback.
International Conference on Machine Learning (ICML?15).
[4] Thorsten Joachims, Artem Grotov, Adith Swaminathan,and Maarten de Rijke.
Deep Learning with Logged Bandit Feedback.
Proceedings of the International Conference on Learning Representations (ICLR) (2018).

39References
[5] A. Swaminathan and T. Joachims.
The self-normalized estimator for counterfactual learning.
In NIPS, 2015
[6] Ganin, Yaroslav, Ustinova, Evgeniya, Ajakan, Hana, Germain,
Pascal, Larochelle, Hugo, Laviolette, Francois, Marchand, Mario, and Lempitsky, Victor.
Domain adversarial training of neural networks.
The Journal of Machine Learning Research, 17(1), 2016.
[7] Ben-David, Shai, Blitzer, John, Crammer, Koby, and Pereira, Fernando.
Analysis of representations for domain adaptation.
In Advances in neural information processing systems, pp. 137–144, 2007.
[8] Yaroslav Ganin and Victor Lempitsky.
Unsupervised domain adaptation by backpropagation.
In ICML, pages 325–333, 2015. URL http://jmlr.org/proceedings/papers/ v37/ganin15.html.

狠狠撸

181122_learning_optimal_policies_from_observational_data

More Related Content

181122_learning_optimal_policies_from_observational_data