26. 例 : AIの更新
26
x
candidates
a,b,c,d
b Y_b
● ユーザーに対して広告画像を表示する
● ユーザーの情報Xを得て、選択肢{a,b,c,d}に対してクリックされるか否かの予測を行う。
● 予測クリック率が最大の選択肢を選ぶ
● クリックされたか否かの結果 (Y)を観測する
● 選ばれなかった画像に関しての結果は観測不能
Predict + decision
AI
Y_a 観測不可能a
27. 例 : AIの更新
27
x
candidates
A = {a,b,c,d}
b Y_b
Predict + decision
dataset
X, A, Y
x
candidates
A = {a,b,c,d}
b Y_b
Predict + decision
モデルの学習と更新
1日この仕組みを回す
翌日は更新したモデルで回す
データの蓄積
28. 例 : AIの更新
28
x
candidates
A = {a,b,c,d}
b Y_b
Predict + decision
dataset
X, A, Y
x
candidates
A = {a,b,c,d}
b
Predict + decision
1日この仕組みを回す
更新したモデルで回す
データの蓄積
new system
c
蓄積されたデータから
新AIを作る
→ 旧AIと新AIの比較を
どうすればいいのか?
31. Off-Policy Evaluation
31
● 過去ログに対して新規のAIに意思決定を行わせる
○ つまり新規AIを実システムで運用する必要がない
○ したがって,コストが低く済む
● 意思決定が一致する物は結果の観測が出来る
● 結果が一致しない物は観測が出来ない
○ いわゆる欠測変数の問題
X 結果
X1 1 a d
X2 1 d d
X3 0 c c
X4 1 a a
X5 1 b c
評価
-
1
0
1
-
旧 新
AI
33. Off-Policy Evaluation
33
● 新AIについては、左の赤い部分のみ観測可能
○ 赤い部分についての結果のみ平均して平均を取
ればいい?
● 左の赤い部分は,全体のデータからのランダムサンプ
ルになっているわけではない
○ よって因果推論が必要に
○ 理論的には、Inverse Propensity Score、
Doubly Robust Estimationなどの手法を使う
X 結果
X1 1 a d
X2 1 d d
X3 0 c c
X4 1 a a
X5 1 b c
評価
-
1
0
1
-
旧 新
AI