狠狠撸

狠狠撸Share a Scribd company logo
An Actor-Critic
Contextual Bandit
Algorithm for
Personalized Mobile
Health
Interventions
Paper-Friday
2018/10/12
Daisuke Moriwaki
Susan Murphy
HeartSteps
http://www.heartsteps.net/
? 心臓病の手術のあとのリハビリ用のアプ
リ
? 日常生活で適度な運動をすることで回復
を促進
課題
? 歩けるときはできるだけ歩かせたいので、プッシュ通知で運
動を促進したい
? でも、プッシュ通知しすぎると無視される(最悪アプリを消さ
れる)
? 最适な频度、最适なタイミングで通知をしたい
A Contextual Bandit
with Chance Constraint
? 一定時刻ごとにプッシュ通知をするかしないか判断
? ユーザーの現在位置や天候などから、効果的なタイミン
グを狙う
? プッシュ通知連打=うざい
? 報酬:通知(非通知)のあと60分間で歩いた時間
“
The Bandit
The machine was called a
‘two-armed bandit’
in homage to the one-armed
bandit, an old-fashioned name
for a lever operated
slot machine (‘bandit’ because
they steal your money).
http://banditalgs.com/
モデル
? actor-criticモデル
? 報酬予測(critic)と、方策(actor)が分離
? 報酬モデル
? 特徴量fとパラメータμの線形モデル
? 方策モデル
? 確率的な方策
報酬予測モデルの推定
? L2正則化つき最小二乗法でμを推定
? t時点までのデータを使って学習
? 正則化はtが小さいときの可逆性のために入れている
? rの予測値は上限下限を決めてそれ以上以下を定数にしている
? これにより一致性を担保
方策モデルの推定
? 選択確率が偏らないように制約をつけた期待報酬最大
化
? つまり、選択確率を一定の幅に抑え込む
(続)方策モデルの推定
? 制約付き最大化問題をラグランジアンとして定式化
? 制約が罰則項のようになっており、λ>0が大きいほど罰則が
強まる
? 大きすぎる選択確率を抑制
? 未定乗数λは直線探索で最小のものを見つける
信頼区間の推定
? パラメータの信頼区間の推定はpercentile-t bootstrap
(bootstrap-t)を用いる。
? サンプルサイズが小さい(プッシュ通知の試行回数が小さい)とき
に、解析的に導出した信頼区間が「強気」になったため。
既存手法との比較
方策 腕選択 文脈S
LinUBC 予測報酬によって
暗黙的に決まる
決定論的 i.i.d.を仮定しない
トンプソンサンプリング ※決定論的 i.i.d.を仮定しない
提案手法 明示的なパラメタ
ライズ
確率的 i.i.d.を仮定する
※報酬予測モデルのパラメータ推定値の確信度を用いて確率的に運用
実験
? 3つのシナリオ
? 文脈がiid、各期に受け取る情報は完全にランダム
? 文脈がAR(1)、各期に受け取る情報は前の期に依存する
? 文脈がAR(1)かつ介入疲れがある。
評価
? 真のパラメータがわかっている状況で、バンディットを走
らせてパラメータ推定を行い、その精度を評価する
? 平均二乗誤差
? バイアス
? 95%信頼区間に真のパラメータが入る割合(=95%
だと嬉しい)
シナリオ1(i.i.d)
文脈: S1,
S2,
S3
互いに独立な
多項正規分布
真のパラメータ: θ*
, λ*
適当に
設定
サンプルサイズ: 200, 500
結果: サンプルサイズ200では
多少誤差は出るもののサンプ
ルサイズ500では
シナリオ2 (AR(1))
文脈:
真のパラメータ、サンプ
ルサイズ: 前と一緒
結果:時系列相関に対
してロバスト
シナリオ3(介入疲れ)
文脈:1期前がS3
に影響
S3
は運動確率を下げる方向に働く(Cは運動しない時間)
τを調整することで、介入疲れの効果を変化させる
(続)シナリオ3(介入疲れ)
介入疲れが大きいと推
定精度が悪くなってい
く。
介入疲れが大きくなる
ほど、推定値が過大に
なっていく。
(続々)シナリオ3(介入疲れ)
信頼区間から外れる割合も増える。
これは、バンディットがover-treatす
るためだと考えられる
介入疲れ効果
介入疲れの影響が大きく
なるにつれ、運動しない
時間も増加。
ただし、サンプルサイズ
を大きくすると(右)、運
動しない時間は収束して
いく
i.i.dでなくても収束!
(おまけ)非線形の報酬
真の報酬モデルが非線形の場合に線形のモデルでうまく近似できる
かやって見た。
結果的には、非線形の度合いが強くなるほど推定がうまくいかなくなっ
ていった(自明では)
結論と考察
? 介入疲れを考慮したactor-criticバンディットモデルを提案
? i.i.dでない環境でもうまく最適な方策モデルを推定できた
? 前の期の介入が今期の状態に影響する環境ではそこそこだった。
? 介入疲れが存在する場合、バンディットは近視眼的な動きをする
のではないか(理論的な整理はまだ)
今後の課題
? 線形モデルは仮定が強すぎるのでは
? 期ごとに推定し直しているが、前の期の推定値を使えるの
では
? ユーザーごとのパラメータ推定をしたが、ユーザー横断の
方が良いのでは
感想
? 強化学習について
? 履歴効果のモデリング
? 統計学者のお作法
? 現在のタスクとの関係

More Related Content

An actor critic contextual bandit algorithm for personalized mobile health interventions@Paper-Friday (CyberAgent)