18. より効率的なスコアリングに基づく方策
? LUCB方策はスコアリングによって一様選択で発生する余分な施行を減らそうとした.
? しかし,「腕 ? ? と腕 ? ?? を引く」というプロセスが入っているために,逐次削除方策とは
逆に最適腕の選択数が過度に多くなってしまうという問題が生じる.
? UGapE方策では,反復ごとに腕 ? ?
と腕 ? ??
のうちサンプル数が小さい(期待値の不確かさ
が大きい)もののみを選択する.
V. Gabillon, M. Ghavamzadeh, and A. Lazaric. Best arm identification: a unified approach to fixed
budget and fixed confidence. NeuIPS, 2012.
18
47. 参考洋書
- V. Gabillon, M. Ghavamzadeh, and A. Lazaric. Best arm identification: a unified approach to fixed
budget and fixed confidence. In Advances in Neural Information Processing Systems (NIPS), 2012.
- K. Jamieson, M. Malloy, R. Nowak, and S. Bubeck. lil’UCB: an optimal exploration algorithm for
multi-armed bandits. In Conference on Learning Theory (COLT), 2014.
- Jamieson, Kevin G and Jain, Lalit, A Bandit Approach to Sequential Experimental Design with
False Discovery Control, NeuIPS, 2018.
- Hahn, Hirano, and Karlan. Adaptive Experimental Design Using the Propensity Score, Journal of
Business and Economic Statistics, 2009.
- Efficient Counterfactual Learning from Bandit Feedback, Yusuke Narita, Shota Yasui, and Kohei
Yata, AAAI 2019
47