狠狠撸

狠狠撸Share a Scribd company logo
Validating Causal Inference Models
via Influence Functions
Alaa and van der Schaar, ICML 2019
Presenter: Masahiro Kato
Aug. 3th, 2019 @BreadSeminar
1
概要
n 反実仮想モデル:あるデータが2つ以上の出力を持ちうるが,実際に選ばれた1つの出
力しか観測できないモデル.
→ 教師有り学習のような答えがない:交差検証のような性能評価ができない.
n テイラー展開のような近似と影響関数を用いることで評価が可能になる.
ポイント:本来定義できない二乗損失を推定量で置き換えることを考える.
最初に良さそうな推定量を得られればバイアスは影響関数で近似できる.
ü問題点:証明やアルゴリスムの詳細はAppendixにあるらしいがWeb上に存在しない.
2
影響関数
n Hample (1971)によって導入された概念.
n ?!, ?", … , ?#を分布関数?からの無作為標本とし,パラメータ?(?)の推定量を
?# = ?# ?!, ?", … , ?#
とする.そして?#を?個の?!, ?", … , ?#に基づく経験的分布関数とする.
また,?# = ?# ?!, ?", … , ?# = ?# ?# とし,? ?# →
$
?(?)であるとする.
n 観測点?に対する影響関数は
? ?; ?, ? = lim
%→'
? 1 ? ?)? + ??( ? ?(?)
?
となる.ここで?(は?で1をとり,それ以外で0の値をとる分布関数.
n 影響関数の用途.
? あるデータ点が推定量に与える影響の計測(推定量のデータへの感応度).
? 漸近分布の導出.
3
処置効果の定義
ある個体に対して処置をする/しないを選ぶことができるとする.
? 特徴? ∈ ?.
? 選択する処置? ∈ 0,1 .
? 処置結果? ∈ ?.
?処置の結果は選択された処置に応じて潜在的に? ' と? ! が存在する.
n 処置を選択した場合(? = 1):? = ? ! .
n 処置を選択しなかった場合(? = 0):? = ? ' .
? すなわち,処置結果?は
? = ?? ! + 1 ? ? ? '
と書き表すことができる.
n 処置効果:?(!) ? ? ' .
4
データ?成過程
三つ組? = ?, ?, ? で与えられる?個のサンプル.
n ?が従う分布は?というパラメータで与えられるとする.すなわち
? ?!, … , ?# ~ ?+.
? ?+は? = ?+,: ?- ∈ Θ に属するとする.
? ?を局外母数? = ?', ?!, ?, ? の集まりであるとする.
? ?'と?!は条件付き潜在処置結果:?. ? = ?+ ? . |? = ? , ? ∈ 0,1 .
? ?は処置割り当てメカニズム:? ? = ?+ ? = 1 ? = ?).
? ?は?が従う分布:? ? = ?+ ? = ? .
? ?はノンパラメトリックであり, Θは無限次元であるとする.
5
条件付き平均処置効果
n 条件付き処置効果(Conditional Average Treatment Effect; CATE)?: ? → ?を
? ? = ?+ ?(!) ? ? ' |? = ?
として定義する.
n CATEを推定する手法は色々なものが提案されている.
? BNN, Johansson et al. (2016)
? CMGP, Alan et al. (2017)
? TARNet, Shalit et al. (2017)
? CFR Wass, Shalit et al. (2017)
? BART, Hill (2011)
? Causal Forest, Wager et al. (2017) など.
6
因果推論(処置効果推定)モデルの精度
n 因果推論モデル?:データセット ?/ /0!
#
からCATEの推定量L?(?)への写像.
n モデルの精度を二乗損失
?+
L? ≡ L? ? ? ? ? +
"
.
で測る.
n この評価基準はprecision of estimating heterogeneous effects (PEHE)と呼ばれている.
7
交差検証と反実仮想モデル
n 因果推論モデルの候補の集合? = ?!, ?", … , ?1 :色々な因果推論モデル.
?目標:与えられたデータセットに対しPEHEを最小にするモデル?? ∈ ?の選択.
正しいモデル選択のためには?のそれぞれの要素に対するPEHEを計測する必要がある.
ü処置効果? 1 ? ?(0)を直接知ることはできない.
? 観測できる値:?(3).
? 観測できない(反実仮想的な)値: ?(!43).
8
9
どうやってPEHEを計算するのか
? PEHEの推定のためには反実仮想なデータ? !43 が必要になる.
? Plug-in推定量:真の処置効果が推定量P?で置き換えられている.
?キーアイデア:PEHEはΘで張られた汎関数であり,十分?5+ が?+に近ければ, ?+のもと
での真のPEHEを?5+のもとでのPEHEの推定量を用いてテイラー展開で近似できる.
? テイラー展開で現れる微分値が影響関数である.
10
PEHEを推定するための?順
?検証(validation)のために以下の二段階推定を行う.
? 第1ステップ:Plug-in推定(Plug-in estimation)
1. Plug-inモデル P? = Q?', Q?!, Q?, Q? を推定する.
評価するモデルとは違うモデルを用いる.
2. PEHEのPlug-in推定量を求める.
? 第2ステップ:Unplugged検証(Unplugged validation)
?+を予測するために?6+の影響関数を用いる.
11
?1と2で異なるデータを用いる.
12
第1ステップ:Plug-in推定
n パラメータ?が手に入らないので推定されたパラメータ P?においてPEHE汎関数を評価す
ることでモデルのPEHEの最初の予想を得る.すなわち,
?5+
L? = L? ? ? P? ? 6+
"
をその予想とする.ここで, L? ? はモデル?によるCATEの推定量であり, P? =
Q?', Q?!, Q?, Q? は観測されたデータによって得られるplug-inモデルである.
? P? ? = Q?! ? ? Q?'(?).
n Plug-inモデル P? = Q?', Q?!, Q?, Q? を観測されたデータ ?/ /0!
#
を用いて次のように推定する:
? Q?., ? ∈ 0,1 : 教師あり回帰モデルをデータセット{(?/, ?/)|?/ = ?}に当てはめる.
? Q?: 教師あり分類モデルをデータセット{(?/, ?/)}に当てはめる.
13
Plug-in推定はPEHEの近似として不?分
n Plug-in推定量?5+
L? はモデルに依存するバイアス?+ ? ?5+を表示する
n これはモデルを選択するという点ではほとんど意味をなさない.
なぜなら?5+
L? は処置効果の推定量L?がいかにplug-inされたP?を近似しているのかを計測す
るだけであり,それは真の値?に対して計算されているわけではない.
? バイアス P? ? ? +
"
が0に十分近ければ,パフォーマスを正しく測れる.
? バイアス P? ? ? +
"
が大きい場合には何も言えない.
14
第2ステップ:Unplugged検証
n Plug-in PEHEと真のPEHEは同じ汎関数を P?と?という2つの点で評価したものである.
n 故に,?+は?5+に対してvon Mises展開により
?+
L? = ?5+
L? + T
70!
8
U
??5+
7
?; L?
?!
? ?+ ? ?5+
?7
と書ける.
n ここで, ??5+
7
?; L? = ??5+
7
?!, … , ?7; L? は?におけるPEHE汎関数の?階の影響関数である.
15
影響関数の解釈
n 影響関数 ??+
7
?!, … , ?7; L? :観測データ中の?個のデータ点についての?5+の依存度を測る.
影響関数の値はデータが摂動した時のplug-in推定量の感応度を表している.
n ?個のデータ ?!, … , ?7 を? ?+ ? ?5+ で周辺化したものは ?+ ? ?5+ による?5+の方向微分.
n Von	Mises展開の式
?+
L? = ?5+
L? + T
70!
8
U
??5+
7
?; L?
?!
? ?+ ? ?5+
?7
はplug-inバイアス?+ ? ?5+を?5+の汎関数微分で表現しているとみることができる.
一階のvon	Mises展開だけに着目すれば,
?+
L? = ?5+
L? + U ??5+
!
?; L? ? ?+ ? ?5+
16
反実仮想データに関する問題の回避
n 観測されたデータ ?/ /0!
#
からplug-inバイアスを補正する方法を示した.
n 以下のサンプル平均でPEHEのvon-Mises展開を近似することができる.
L?+
(:) L? = ?5+
L? + T
70!
:
1
?!
?#
??5+
7
?; L?
ここで,?#は経験?統計量である.すなわち,多次元関数のサンプル平均である.
17
U統計量
18
最尤法との関係
n MLE:スコア関数? ? に対して? ? = ?を満たすパラメータ??を探す手法.
n スコア関数:対数尤度関数の一階微分.
解析的に解けない場合,MLEの数値的な解を求める手法としてFisher scoring手順.
?論文の二段階推定はFisher scoring手順を用いてPEHEを最尤推定することと同値.
19
? 実質,ニュートン?ラフソン法となる.
?致性と効率性
?',?!,そして?を有界なヘルダー関数とし,ヘルダー属性をそれぞれ?', ?!,そして?と
する.また,? ∈ 0,1 ;とする.ここで,以下の条件
i. L?と P?は分割されたデータを使って計算される
ii. L?はminimax最適な?の推定量である
が満たされるならば,
L?#
: L? ? ?+
L? = ?? 1/ ? ∨ ?
4 =>∧=@ (:A!)
" =>∧=@ A;
が得られる.
加えて,? ≥
;
"(=>∧=@)
ならば,定数? > 0と任意の推定量L?- L? に対して以下が成立する.
一致性 : ? L?#
: L? ? ?+
L? →
;
? 0, ?" ,
効率性 :??? L?#
: L? ≤ ??? ?- L? .
20
Theorem 1.
ヘルダー条件(関数)
21
無限次元の影響関数
?+はノンパラメトリック,つまり?は無限次元である.
?どうやって計算するのか.
n 一般的なアプローチはノンパラメトリックな族?の汎関数の影響関数を計算する方法は?
の滑らかなパラメトリックなサブモデルを考えることである.
n ?のパラメトリックなサブモデル?% = ?%: ? ∈ ? ? ?は? = 0で?+になる.
? 本論文では有界な関数? ? に対して
??% ? = 1 + ?? ? ??+ ?
というサブモデルを考えることにする.
22
影響関数の計算
n サブモデル?%を所与として,一階の影響関数が
w
??%
L?
??
%0'
= ?+
??+
7
?; L? ? ?% ? y
%0'
を満たすことを示すことができる.
n ここで,?% ? = ? log ??%(?) /??はパラメトリックなサブモデルのスコア関数である.
23
?階の影響関数の閉形式解
PEHE汎関数?+
L? の一階の影響関数は一意であり,
L?+
! L? = 1 ? ? ?" ? + ?? ? ? ? L? ? ? ? ? ? ? L? ?
"
+ L?" ? ? ?+
L?
で計算できる.ここで,? = ? ? ? ? ,? = 2? ? ? ? ? ? ?4!,そして? = ? ? ?

1 ?
? ? である.
24
Theorem 2.
n この結果により,真のPEHE?+
L? の影響関数は?(?)に依存しないことが分かる.
この事実は直観に即している.
n PEHEの高次の影響関数を計算することは難しい.
? 定理2のような閉形式での解が存在しない.
? 有限差分法により計算する(Appendix D).
因果推論モデルの?較
n 影響関数を用いたモデル評価の手法を用いてNeuIPSやICMLなどの論文のモデルを比較.
üこれはデータ駆動型の自動モデル選択であるとみなすことができる.
実験で行うこと.
? 影響関数の計算方法の一例を紹介.
? 他の評価手法との比較.
25
影響関数に基づく検証
n データセットを?個の部分集合に分割する.
n ?$を?番目の部分集合内のデータセットであるとする. ?4$をその補集合であるとする.
n モデルはデータ?4$を用いて学習される.そのCATEの推定量をL?4$とする.
?検証(validation)のために以下の二段階推定を行う.
? 第1ステップ:Plug-in推定
?4$を用いて P?4$ = Q?4$,', Q?4$,!, Q?4$, Q?4$ を推定する.P?4$ = Q?4$,! ? Q?4$,'.
XGBoostを使用.
? 第2ステップ:Unplugged検証
?4$
!
= T
/∈DE
L?4$ ?/ ? P?4$ ?/
"
+ ??5+FE
7
?/; L?4$ .
26
PEHEの推定量
n 最終的なPEHEの推定量はPEHEの ? 個の交差検証の集合に対する平均として計算される.
すなわち,
L?#
!
= ?4! T
$
L?$
!
.
n 高次の影響関数を用いることもできるが今回は使用しない.
? 試してみたが性能は改善されなかった.
考えられる2つの理由.
1. 定理1の? ≥
;
"(=>∧=@)
が? = 1で満たされていたから?
2. 実際の値でなく近似値を用いたらから?
27
データ
n Atlantic Causal Inference Competition (Hill, 2016): 処置効果推定の77個のデータセット.
? 全てのデータで?は同じ.
? それぞれのデータセットで異なる処置結果と割り当てメカニズム ?, ? を有する.
?はリアルデータに基づき, ?, ? は人工的に生成.
? ?の元データ:Collaborative Perinatal Project (Niswander, 1972).
? 幼児の障害の原因を調べるための妊婦のコホートの調査.
? 処置結果はIQ.
? サンプルサイズは4,802,55次元のデータ?
28
性能評価
n 77のデータセットのそれぞれにおいてランダムにに10個のデータセットを作成.
? 全体で770のデータセット.
n それぞれのデータセットにおいて訓練/テストを80/20で分割.
n それぞれの訓練データをさらに5個に分割して影響関数ベースの交差検証を実施.
n 影響関数ベースの交差検証で最も性能が良かったモデルを,テストデータで性能評価.
29
ベースライン
n 影響関数ベースの評価以外に以下の評価方法も適用.
n 影響関数ベースの評価との比較を行う.
30
実験結果
%Winner: 最もよい性能を達成した割合.
n 全てのデータセットに対して同じ手法を適用.
合計で100%になっている.
n 上のように単一の手法を適用するよりもモデル
選択をする方が圧倒的に性能が上がる.
? それぞれの手法には得意なデータがある.
? 影響関数ベースが一番よい性能を達成している.
31
影響関数を?いることの効果
32
XGBoostの深さ
n Plug-in推定量とUnplugged検証の比較.
n 影響関数によって大きく精度が改善している.
n また,最初の齿骋叠辞辞蝉迟の影响も少なくなっている.
参考?献
? Alaa and Van Der Schaar, Validating causal inference models
via influence functions, ICML 2019.
? Hill, Atlantic causal inference conference competition: Is your satt where it’s at?, 2016.
URL http://jenniferhill7.wixsite.com/ acic-2016/competition.
? Niswander, The collaborative perinatal study of the national institute of neurological
diseases and stroke, The Woman and Their Pregnancies 1972.
? 蓑谷千鳳彦,頑健回帰推定,朝倉書店.
? Wikipedia(U推定量,Holder Condition)
33

More Related Content

Validating Causal Inference Models via Influence Functions