狠狠撸

狠狠撸Share a Scribd company logo
Eliciting Informative Feedback:
The Peer-Prediction Method
(Miller, Resnick, & Zachhauser, 2005)
Shigeru ONO / Insight Factory
集合知研究会: 2022/04/01 (誤字訂正版)
Shigeru ONO / Insight Factory Miller et al.(2005) 集合知研究会: 2022/04 1 / 44
TOC
1 1. イントロダクション
2 2. 誠実なフィードバックを引き出すメカニズム
3 3. 拡張
4 4. 実務応用における諸問題
5 5. 結論
Shigeru ONO / Insight Factory Miller et al.(2005) 集合知研究会: 2022/04 2 / 44
(紹介する論文について)
次の論文を紹介します:
Miller, N., Resnick, P., Zeckhauser, R. (2005) Eliciting Informative Feedback: The
Peer-Prediction Method. Management Science, 51(9), 1359-1373.
ピア予測法を提案した論文
Google Scholar では被引用件数 618 件
Shigeru ONO / Insight Factory Miller et al.(2005) 集合知研究会: 2022/04 3 / 44
1. イントロダクション
< 課題 >
意思決定にあたって、他の人々の経験に頼ることはよくある。他人から情報
を引き出す際、以下の点が課題になる。
情報の過少提供。態度形成と報告には時間と労力がかかるが自分にはベ
ネフィットがないから
誠実性。否定的フィードバックをためらう; 他人との利益対立などのせ
いで歪んだ回答をする
これらの難題を解決する方法のひとつは、個人の報告を客観的なアウトカム
と比べて報酬を与えることである。
では、アウトカムの情報が手に入らない場合はどうするか?ピアの報告と一
致したときに報酬を与えるという方法もあるが、本当の経験を報告しなくな
るかもしれない。
本研究は、アウトカムについての独立で客観的な情報を利用できない場面で、
フィードバックを効率的に引き出すメカニズムを提案する。
Shigeru ONO / Insight Factory Miller et al.(2005) 集合知研究会: 2022/04 4 / 44
< 本研究の概要 >
本研究は「ピア予測法」を提案する。
このメカニズムは、アウトカムについての独立で客観的な情報を利用できな
い場面で、フィードバックを効率的に引き出すことができる。
ピア予測法では、
ある評定者の報告を使って、他の誰か (参照評定者) の報告の確率分布を
更新する。
評定者のスコアを、参照評定者の可能な評定値に割り当てられた尤度と、
参照評定者の実際の評定との比較に基づいて決める。
スコアは金銭的報酬に変換しても良いし、評定者を動機づけるなにか
(権威とか名誉とか) に変換しても良い。
Shigeru ONO / Insight Factory Miller et al.(2005) 集合知研究会: 2022/04 5 / 44
< 先行研究 >
メカニズムデザイン研究では以前から、エージェントの私秘的情報の間の相
関を使って真の言明を引き出すという発想がある。
d’Aspremont & Gerard-Varet(1979 J.Public Econom.; 1982 J. Math.
Econom.), Cremer & McLean (1985 Econometrica; 1988 Econometrica): 均
衡予算的な給付金によってエージェントの私秘的情報を引き出す方法
Johnson et al.(1990 Econometrica): プロパー?スコアリング?ルールによ
る均衡予算的給付金の構築方法
Johnson et al.(2003 WorkingPaper): 多次元的?連続的な私秘的情報への
拡張
Kandori & Matsushima (1998 Econometrica): 繰り返しゲームで、ステージ
のアウトカムについて公的情報がないときに、相関均衡を通じて協調を
促進する方法。プロパー?スコアリング?ルールをつかってアウトカム
についての真実性のあるコミュニケーションを引き出す
Shigeru ONO / Insight Factory Miller et al.(2005) 集合知研究会: 2022/04 6 / 44
< 本論文の位置づけ >
本論文は、プロパー?スコアリング?ルールをつかって情報を引き出せると
いう一般的な 知見を、製品?論文?提案などについての誠実なレビューを引
き出すという特定の 問題に対して適用する。
提案メカニズムはインターネットでの実装に適している。
Shigeru ONO / Insight Factory Miller et al.(2005) 集合知研究会: 2022/04 7 / 44
2. 誠実なフィードバックを引き出すメカニズム
< 設定 >
次の場面について考える。これを同時報告ゲームと呼ぶ。
多くの評定者がある製品を経験し、その品質 (タイプ) を評価する。品質
に変動はないが、各評定者の知覚 (シグナル) には個人ごとの誤差がある。
それぞれの評定者が「センター」にシグナルについて報告する。センタ
ーは他に情報を持たない。
すべての報告が集まったら、センターはすべての報告を全評定者に公開
し、さらに、評定者への給付ポイントを決める。
評定者にとっての効用は給付ポイントに対して線形である。
評定者はリスク中立で、期待効用を最大化するものとする。
Shigeru ONO / Insight Factory Miller et al.(2005) 集合知研究会: 2022/04 8 / 44
< タイプとシグナル >
タイプの数は有限とし、タイプを t = 1, . . . , T と表す。
t の事前確率は共通に知られているとし、p(t)(> 0) と表す。
評定者の集合を I と表す。|I| ≥ 3 とする。I は可算無限でもよい。
評定者 i が受け取るシグナルを Si
と表す。シグナルは私秘的であるとす
る。可能なシグナルの集合を S = {s1, . . . , sM} と表す。
製品タイプの下でシグナルは独立に同分布に従うとする。
f(sm|t) = Pr(Si
= sm|t) と表す。すべての sm と t について f(sm|t) > 0 とす
る。
f(sm|t) は共通知識であるとする。
t が異なればシグナルの条件付き分布も異なるものとする。
Si
の実現値を si
と表す。Si
= sm であることを si
m と表す。
Shigeru ONO / Insight Factory Miller et al.(2005) 集合知研究会: 2022/04 9 / 44
< 報告 >
評定者 i のシグナルについて行う報告を ai
(∈ S) と表す。全評定者の報告
のベクトルを a と表す。
評定者 i がシグナル sm を受け取ったときの報告を ai
m(∈ S) と表す。
評定者 i の報告戦略を a?i
= (ai
1, . . . , ai
m) と表す。
全評定者の報告戦略のベクトルを a? と表す。
評定者 i 以外の評定者の報告戦略のベクトルを a??i
と表す。
< 給付 >
報告が a であるときの評定者 i への給付を τi(a) と表す。
全評定者への給付のベクトルを τ(a) と表す。
Shigeru ONO / Insight Factory Miller et al.(2005) 集合知研究会: 2022/04 10 / 44
< 最良の報告戦略 >
a??i
に対する報告戦略 a?i
は、他のすべての評定者のシグナルの分布を通じた
給付の期待値を最大化するときに最良となる。
すなわち、それぞれの m について、すべての a?i
∈ S について
ES?i [τi(a?i
m, a??i
)|si
m] ≥ ES?i [τi(a?i
, a??i
)|si
m]
が成り立つときに最良となる。
Shigeru ONO / Insight Factory Miller et al.(2005) 集合知研究会: 2022/04 11 / 44
< ナッシュ均衡となる報告戦略 >
全員の報告戦略 a? がすべての評定者について上式を満たすとき、a? はナッシ
ュ均衡である (たとえば給付がない場合にはいかなる報告戦略ベクトルもナ
ッシュ均衡になりうる)。
すべての評定者において上式の不等号が strict であるなら、a? は狭義ナッシュ
均衡である 1
。
< 真実報告がナッシュ均衡になるとき >
全ての i, m において ai
m = sm であるときすべての評定者について上式が満た
されるなら、真実報告はナッシュ均衡である。
上式の不等号が strict だったら真実報告は狭義ナッシュ均衡である。
1原文には一貫して「ナッシュ均衡」とあります。研究会では、むしろ「ベイジアンナッシュ
均衡」と表現すべきではないかという議論となりました。調べてみたところ、Zeng, Yu & Chen
(2021, arXiv) も本論文を紹介しているくだりでこの均衡を「ベイジアンナッシュ均衡」と表現し
ていました。
Shigeru ONO / Insight Factory Miller et al.(2005) 集合知研究会: 2022/04 12 / 44
2.1 ベース?ケース
本項では、真実報告が狭義ナッシュ均衡となる給付スキームを定義する。
< 確率的関連性 >
確率変数 Si
と Sj
について、Si
の下での Sj
の条件付き分布が Si
の実現値によ
って異なることを、確率的関連性があると呼ぶ。本論文ではすべての Si
, Sj
に
ついて確率的関連性があると仮定する。
Shigeru ONO / Insight Factory Miller et al.(2005) 集合知研究会: 2022/04 13 / 44
< かんたんな例 >
タイプは H, L のふたつとし、p(H) = 0.5 とする。
可能なシグナルは h, l のふたつとし、f(h|H) = 0.85, f(h|L) = 0.45 とする。
評定者 i の受け取ったシグナルの下での、評定者 j の受け取るシグナルの条件
付き分布を g(sj
|si
) と表す。
計算すると...
g(sj
h|si
l) = f(h|H)
f(l|H)p(H)
Pr(si
l)
+ f(h|L)
f(l|L)p(L)
Pr(si
l)
? 0.54
同様に, g(sj
h|si
h) ? 0.71 となる。
Shigeru ONO / Insight Factory Miller et al.(2005) 集合知研究会: 2022/04 14 / 44
< プロパー?スコアリング?ルール >
評定者 i の報告 ai
の下で、Sj
の個々の実現値にスコアを与えるルール R(sj
|ai
)
について考える。
評定者 i が Si
の真の実現値を報告することによってこのスコアの期待値を一
意に最大化できるとき、スコアリング?ルールは狭義プロパーであるという。
よく知られている狭義プロパーなスコアリング?ルールとして以下がある。
二次スコアリングルール: R(sj
n|ai
) = 2g(sj
n|ai
) ?
∑M
h=1 g(sj
h|ai
)2
球面スコアリングルール: R(sj
n|ai
) =
g(sj
n|ai
)
(
∑M
h=1 g(sj
h|ai)2)1/2
対数スコアリングルール: R(sj
n|ai
) = log g(sj
n|ai
)
R(·|·) が狭義プロパーなら、それをスケーリングした αR(·|·) + β (α > 0) も狭
義プロパーである。
以下では、R(sj
n|ai
) はなんらかの狭義プロパー?スコアリング?ルールである
とする。
Shigeru ONO / Insight Factory Miller et al.(2005) 集合知研究会: 2022/04 15 / 44
< 提案 >
仮に他の評定者のシグナルが公的に利用可能なら、評定者 i のシグナルがそ
れと確率的関連性を持っている限り、狭義プロパー?スコアリング?ルール
に基づいて給付を決めれば真実申告が引き出せる。しかし、他の評定者のシ
グナルはわからない。
そこで、それぞれの評定者 i に対して参照評定者 r(i) を選ぶ。以下では
τ?
i (ai
, ar(i)
) = R(ar(i)
|ai
)
と表す。
命題 1. 評定者 i を参照評定者 r(i)(?= i)  へと割り当てる任意のマッピングを
r とし、任意のプロパー?スコアリング?ルールを R とする。給付 τ?
i を持つ
同時報告ゲームにおいて、真実申告は狭義ナッシュ均衡である。
[... 証明。メモ省略... ]
Shigeru ONO / Insight Factory Miller et al.(2005) 集合知研究会: 2022/04 16 / 44
< かんたんな例 >
評定者 i がシグナル l を観察しているとする。
仮に「あなたの報告が評定者 j の報告と一致したら報酬をあげます」という
ルールだったら、g(sj
l|si
l) ? 0.46 なので、h を観察したと報告した方が良いこ
とになる。
いっぽう、対数スコアリングルール R(sj
n|ai
) = log g(sj
n|ai
) に従って報酬を決め
る場合であれば、
R(sj
h|ai
= l)g(sj
h|si
l) + R(sj
l|ai
= l)g(sj
l|si
l) ? log(0.54)0.54 + log(0.46)0.46 ? ?0.69
R(sj
h|ai
= h)g(sj
h|si
l) + R(sj
l|ai
= h)g(sj
l|si
l) ? log(0.71)0.54 + log(0.29)0.46 ? ?0.75
なので、l を観察したと報告した方がよいことになる 2
。
2原文では、たとえば R(sj
h|ai = l) のところは log g(sj
h|l)g(sj
h|l) という風に表記されています。
縦棒の右側はきっと ai = l という意味だと考え、勝手に書き換えました。
Shigeru ONO / Insight Factory Miller et al.(2005) 集合知研究会: 2022/04 17 / 44
< 提案のポイント >
この提案のポイントは、
「評定者の報告によって更新された、参照評定者のシ
グナルについての信念」に基づいてスコアを決める、という点である。この
更新においては、事前分布と報告されたシグナルの両方が考慮されている。
評定者は複雑なベイズ更新を行う必要が無い。単にシグナルを報告するだけ
である。評定者は、(1) センターは正しく更新していると信じ (2) 参照評定者
が誠実に報告すると信じている限りにおいて、誠実な報告が最良だと信じる
ことができる。
命題 1 は真実性を持つ均衡が存在することを示しているだけであり、真実性
のない均衡も存在しうる (例, 全員が常にある決まったシグナルを報告する)。
しかし、
評定者間のコミュニケーションが限られている場合や、何人かの評定者
が誠実でありたいという強い選好を持っていると知られている場合には、
真実性のある均衡がフォーカル?ポイントになるだろう。
評定者たちが完全に情報のない均衡に陥ってしまったらセンターが全員
を罰するという手もある。
Shigeru ONO / Insight Factory Miller et al.(2005) 集合知研究会: 2022/04 18 / 44
2.2 真実申告の努力と賄賂の防止
< 真実申告を引き出すためのスケーリング >
評定者が評定しようとする意向は、評定にあたっての直接費用と、(他人の評
価にただ乗りするのではなく) みずから初期の評価者となることの機会費用
とによって決まるだろう。
命題 2. シグナルを獲得し報告する費用を c > 0 とする。もし他の評定者がシ
グナルを獲得しそれを誠実に報告しているならば、評定者 i が
τ?
i (ai
, ar(i)
) = αR(ar(i)
, ai
) に従って支払を受けるときシグナルを獲得し誠実に
報告することが最良の反応になるような、スカラー α > 0 が存在する。
証明は Appendix A. をみよ。
Shigeru ONO / Insight Factory Miller et al.(2005) 集合知研究会: 2022/04 19 / 44
< 真実申告への努力を引き出すためのスケーリング >
評定者の経験を確率標本と捉えよう。情報が「より良い」とは、その評定者
の標本サイズが大きいことに対応する。センターは、評定者が持っている標
本サイズ x を x?
にするように仕向けることができるだろうか?3
この問いはプロパー?スコアリング?ルールのスケーリングを用いて次のよ
うに定式化できる。標本サイズ x のもとでの最適化された期待スコアを V?
(x)
としたとき、
x?
∈ arg max
x
α?
V?
(x) ? c(x)
となる α?
は存在するか?
V?
(x) が concave で c(x) がある正則性条件を満たすならば、上を満たす α?
が
存在することを示せる。Appendix B. をみよ。
3研究会では、もしも x によってシグナルの質が変わるのならば、もはや f(sm|t) は評定者を通
じて共通ではないのではないか、というご指摘を頂きました。著者らがどう考えているのか、残
念ながら良く理解できていません。
Shigeru ONO / Insight Factory Miller et al.(2005) 集合知研究会: 2022/04 20 / 44
< 賄賂を抑制するためのスケーリング >
スケーリングで外的選好を圧倒することもできる。
費用 c は、たとえばポジティブ評定に対する賄賂によって生じる、ネガティ
ブなシグナルを得て報告することの機会費用として解釈することができる。
Shigeru ONO / Insight Factory Miller et al.(2005) 集合知研究会: 2022/04 21 / 44
2.3 自主的参加と予算バランス
< 自主的に参加してもらうためのスケーリング >
真実報告によって期待される給付が小さすぎて参加してもらえないときは、
給付に定数 ki を加えればよい。
ki は、事前の参加制約 (給付の期待値が非負となる)、途中での参加制約 (どん
なシグナルであっても給付の条件付き期待値が非負となる)、ないし事後の制
約 (どの評定者が参照評定者であっても給付の期待値が非負となる) を満たす
ような値にすればよい。
Shigeru ONO / Insight Factory Miller et al.(2005) 集合知研究会: 2022/04 22 / 44
< センターの予算を均衡させるための工夫 >
スコアが金銭的支払に変換される場合、センターの予算を均衡させることが
望ましい。そうでない場合でも、スコアがインフレを起こすとユーザにとっ
てわかりにくくなる。
評定者 i について、i と r(i) 以外の評定者 b(i) を選び、評定者 i の給付を本人
の基礎給付と b(i) の基礎給付との差とすると、予算を均衡させることができ
る。[... 中略... ]
Shigeru ONO / Insight Factory Miller et al.(2005) 集合知研究会: 2022/04 23 / 44
3. 拡張
ふたつの拡張について検討する。
同時に報告させるのではなく系列的に報告させる場合
タイプとシグナルが連続的である場合
Shigeru ONO / Insight Factory Miller et al.(2005) 集合知研究会: 2022/04 24 / 44
3.1 系列的相互作用
評定者 i = 1, 2, . . . の無限長の系列を考える 4
。参照評定者は r(i) = i + 1 とす
る。タイプの事前分布を p(t) とする。
評定者 1 について:
評定者 1 が受け取ったシグナルを s1
とする。
シグナルを得たあとの評定者 1 からみた、タイプの事後分布を p1(t|s1
)
とする。シグナル s1
と事前分布 p(t) からベイズ?ルールで求まる。
参照評定者 (評定者 2) が受け取るシグナルについての、評定者 1 からみ
た事後分布は g(s2
|s1
) =
∑T
t=1 f(s2
|t)p1(t|s1
) となる。
命題 1 に用い、評定者 1 の真実申告を引き出せる。
評定者 1 の報告は公開され、タイプの分布が更新される 5
。
評定者が有限である場合は、たとえば、最後の 3 人 (A,B,C) だけは同時に報
告させ、それぞれの参照評定者を B,C,A にすればよい。
4著者らが考えているのは、評定者が自分の系列位置を決められないような設定だと思います。
5評定者 2 の事後分布 p2(t|s2) はシグナル s2 と事前分布 p1(t|a1) = p1(t|s1) から求める、と
いうことと思います
Shigeru ONO / Insight Factory Miller et al.(2005) 集合知研究会: 2022/04 25 / 44
3.2 連続的シグナル
提案した方法は連続的シグナルにも自然に拡張できる。g(sj
|si
) は事後密度と
なる。
本節では、以下の側面について検討する。
事前分布と標本情報が正規分布に従っているときの、3 つのスコアリン
グ?ルールの比較
シグナルが連続的だが報告は離散的である場合
Shigeru ONO / Insight Factory Miller et al.(2005) 集合知研究会: 2022/04 26 / 44
3.2.1 正規ノイズの場合のスコアリング?ルールの比較
品質を q とする。評定者からみた q の事前分布を、平均 ?, 分散 1/θq の正規
分布とする。
評定者 i はシグナル Si
を受け取る。評定者からみて Si
は平均 q, 分散 1/θi の
正規分布に従っているとする。
評定者 i からみた q の事後分布は、平均 ?? =
?θq+si
θi
θq+θi
, 分散 1/θ? = 1/(θq + θi)
の正規分布となる。
評定者 i からみた Sj
の事後分布は、平均 ??, 分散
θ?+θj
θ?θj
の正規分布となる。こ
れに基づいたスコアを与えれば、誠実な報告を引き出せる。
Shigeru ONO / Insight Factory Miller et al.(2005) 集合知研究会: 2022/04 27 / 44
i が精度 θi(≥ 0) を達成するためのコストを c(θi) とする。
c′
(θi) > 0, c′
(0) = 0, c′
(∞) = ∞, c′′
(θi) ≥ 0 とする。
特定の θi が達成されるように、スケーリング?ファクター α を最適化するこ
とができる [... 中略...]。
α を最適化したとき、3 つのスコアリング?ルールの給付の分散、最小値、最
大値、範囲は Table 1. となる。
二次ルールと球面ルールは分散?範囲が同じ。
対数ルールの分散は小さい。
対数ルールの最大値は無限大となってしまう。
Shigeru ONO / Insight Factory Miller et al.(2005) 集合知研究会: 2022/04 28 / 44
3.2.2 報告が離散的である場合
< 問題 >
たとえば 5 件法で報告するような場合、自分の真の情報に「一番近い」値を
報告してもらうことになる。このとき、以下の難題が生じる。
シグナルの「近さ」はタイプの事後分布の近さに対応するのか
タイプ空間における信念の近さは参照評定者の報告の分布についての信
念の近さに対応するのか
シグナル空間を有限の「ビン」に分割した場合について考えよう。
評定者 i にとって、自分のシグナルがどのビンに落ちたかを報告することが、
他の評定者もそうしているという信念の下で最良の報告になるようなスコア
リング?ルールを構築したい。
Shigeru ONO / Insight Factory Miller et al.(2005) 集合知研究会: 2022/04 29 / 44
3.2.2 報告が離散的である場合
< スコアリング?ルールの効率性 >
評定者が持っている真の分布と評定者が報告した分布との間の距離が減るほ
ど報告後のスコアの期待値が増えるとき、そのスコアリング?ルールは効率
的であるという 6
。
L2 メトリックで距離を測る場合、二次ルールは効率的である。
renormalized した L2 メトリック7
で距離を測れば、球面ルールは効率的で
ある。
対数ルールは効率的でない。
6原文: A scoring rule is effective with respect to a metric if the expected score from
announcing a distribution increases as the announced distribution’s distance from the rater’s true
distribution decrease. 研究会では、本論文の提案メカニズムでは評定者が報告するのは分布では
ないのでは、というご指摘を頂きました。ここでは提案メカニズムを離れて一般的な説明をして
いるのだと思います。
7すみません、理解できていません
Shigeru ONO / Insight Factory Miller et al.(2005) 集合知研究会: 2022/04 30 / 44
< タイプが 2 つの場合 >
タイプが Good, Bad の 2 つで、区間 (0, 1) からシグナルがドローされるとし
よう。シグナルの密度を f(s|G), f(s|B) とする。タイプが Good である共通の事
前確率を p(∈ (0, 1)) とする。密度は単調尤度比特性 (MLRP; f(s|G)/f(s|B) が s
について狭義単調であること) を満たすとする。
評定者 i からみた事後確率は p(G|si
) = pf(si
|G)
pf(si|G)+(1?p)f(si|B) となる。
こうした場合に、以下が成り立つ。
命題 3. タイプが 2 つであり、シグナルの密度が MLRP を満たすとする。任意
の整数 L について、シグナルを L 個の区間に分割するとき、エージェントが
自分のシグナルが落ちた区間を報告することだけがナッシュ均衡となるよう
な、分割と給付が存在する。
証明は Appendix A に示したが、簡単に言うと..[メモ省略]
Shigeru ONO / Insight Factory Miller et al.(2005) 集合知研究会: 2022/04 31 / 44
< まとめ >
... というわけで、タイプがたった 2 つであったとしても、評定者が誠実な報
告をすることを示すのはちょっと大変である。
もっと複雑な場合にも誠実な報告が引き出せることを示せるかどうかは今後
の課題である。
Shigeru ONO / Insight Factory Miller et al.(2005) 集合知研究会: 2022/04 32 / 44
4. 実務応用における諸問題
本章では、実務的なシステムの設計者が直面するであろう難題について述
べる。
いずれの問題も、給付スキーマの調整、過去データに基づくパラメータ計算、
評定を求める次元の注意深い選択によって克服できる。
Shigeru ONO / Insight Factory Miller et al.(2005) 集合知研究会: 2022/04 33 / 44
4.1 リスク回避
評定者がリスク回避的であるときの対処法:
もしセンターが評定者の効用関数 U() を知っているならば、プロパー?
スコアリング?ルールを R として、給付を τ = U?1
(R) とすれば真実報
告を引き出せる。
センターが U() を知らない場合、評定者に金を払うのではなく、二値ア
ウトカムの「くじ」を渡し、くじの勝率をスコアで決めるようにすれば
よい。期待効用を最大化するエージェントはくじの勝率を最大化するの
で、評定者の効用関数が未知の非線形関数であったとしても、評定者の
行動はあたかもリスク中立であるかのようになる。
支払の変動を小さくするという手もある。リスク回避的な評定者であっ
てもリスク中立に近づくからである。たとえば、参照評定者を複数人選
んで平均するようにすれば、参照評定者の個人レベル誤差による支払変
動は小さくなる。
Shigeru ONO / Insight Factory Miller et al.(2005) 集合知研究会: 2022/04 34 / 44
4.2 スコアリング?ルールの選択
3 つのスコアリング?ルールのうちどれを選ぶのが良いか?
対数ルールは、球面ルール?二次ルールに比べて...
シンプル。出来事の尤度のみに依存する。
。
情報が正規分布であれば、特定のレベルの努力を引き出すための給付の
分散が小さい (つまり、評定者に与えたスコアで評定者を評価する際、試
行数が少なくて済む)。
確率が小さいときや評定者の責任が小さいときは不向き (x がゼロに近づ
くと log(x) は ?∞ に近づくから)。
効率性がない。
Shigeru ONO / Insight Factory Miller et al.(2005) 集合知研究会: 2022/04 35 / 44
4.3 タイプ、事前分布、シグナル分布の推定
過去データに基づいて事前分布を決めることもできる。たとえば過去の評定
に基づいて決めるとか。
タイプを t = 1, . . . , 9 とし、シグナルは high と low の 2 つで f(high|t) = t/10
であると想定した場合に、信念が更新されている様子を、Table 2. に示す。
Shigeru ONO / Insight Factory Miller et al.(2005) 集合知研究会: 2022/04 36 / 44
4.4 評定者間の嗜好の個人差
たとえば、評定者には A 型と B 型があり、A 型はどんな製品でも品質を低く
知覚してしまう (fA(low|t) > fB(low|t))) というようなことがあるるかもしれ
ない。
また、アクション映画ファンはアクション映画の品質を高く、恋愛映画の品
質を低く知覚し、恋愛映画ファンはその逆、というようなことがあるかもし
れない。
このように嗜好が体系的に異なる場合には、センターはあらかじめ評定者の
タイプをモデル化する必要がある。
Shigeru ONO / Insight Factory Miller et al.(2005) 集合知研究会: 2022/04 37 / 44
4.5 共通でない事前分布とその他の私秘情報
評定者がシグナル以外に私秘的情報を持っているときは問題が生じる。もは
や評定者は、シグナルについての報告が、参照評定者のシグナルの分布につ
いての真の事後信念に基づいてスコアリングされると信じることができなく
なる。
本論文のメカニズムは、評定者に追加で報告してもらった情報 (製品タイプ
の分布、評定者タイプの分布、製品タイプと評定者タイプの関係) を容易に組
み込むことができる。センター側では2つのスコアを計算できる8
:
報告された私秘的事前分布に基づくスコア
事前分布と報告されたシグナルから求めた事後分布に基づくスコア
前者のスコアは誠実な報告によって最大化される。後者のスコアは事後分布
とシグナルの誠実な報告によって最大化される。
実務的には、センターが過去の評定を十分に持っていたら、たいていの評定
者は、製品タイプの分布、評定者タイプの分布、製品タイプと評定者タイプ
の下でのシグナルの分布についてのセンターの推論を信じるだろう。その場
合は、評定者には自分の信念について報告してもらうだけでよい。
8以下、理解できていません
Shigeru ONO / Insight Factory Miller et al.(2005) 集合知研究会: 2022/04 38 / 44
4.6 その他の潜在的限界
評定者が共謀するかもしれない。
→ 対策: (1) 誰が参照評定者かをランダムに決め、スコアを決めてから公
表する。(2) 統計的分析によって共謀を検出し、見つかったら外部の専門
家による製品評価に切り替える。
シグナルは多次元的かもしれない (例, レストランの料理の品質, 内装の
品質, サービスの品質, ...)。多次元的評価へとメカニズムを拡張するのは
容易だが、(1) 重要な次元を見落としてしまうかもしれない。(2) 評定者
は参照評定者の報告をセンターよりうまく推測し、それに合わせて報告
するかも知れない (例, 研究計画書を専門家パネルが評価しているとき、
センター側は評定者を専門領域 A の評定者と B の評定者に分けて捉えて
いるのだが、A の評定者のなかに実は B を囓っている人がいて、B の評
定者がどう答えそうかをうまく推測できるかもしれない)。
→ 対策: (1) 次元を網羅的にする。実務的には難しいけれど。(2) センタ
ーは情報も計算資源も豊富だが評定者はそうでないので、評定者はうま
く嘘をつく方法がわからないだろう。
システムが信頼されないかもしれない。
→ 対策: 専門家や独立した監査者を用意する。
Shigeru ONO / Insight Factory Miller et al.(2005) 集合知研究会: 2022/04 39 / 44
5. 結論
ピア予測法によって、誠実な報告へのインセンティブをつくりだすことがで
きる。
本論文では実装者向けに、デザイン上のさまざまな決定事項のうち誠実報告
のインセンティブに関わる決定事項について、概念的なロードマップを提供
した。
ポイントは、(評定者の実際の報告ではなくて) 評定者の報告から示唆される
事後分布を、参照評定者の報告と比べるという点である。
Shigeru ONO / Insight Factory Miller et al.(2005) 集合知研究会: 2022/04 40 / 44
(感想)
要するに、
「私たちは私たちが持っている過去のデータとあなたの製品評
定値を参考にして別のお客さんの製品評定値を推測します。その推測が
あたったらあなたに報酬をあげますね」というメカニズムだと思います
素朴な疑問: システムの事前情報が豊かなとき、このメカニズムは真実
報告を引き出せるのでしょうか?
たとえば系列的報告ゲームに参加したとして、すでにその製品について
100 人の評定が集められているとき、私が製品についてどう評定しよう
が、システムによる参照評定者の評定値の予測にはもはやたいして影響
しないので、もはや私にとっては誠実に報告するインセンティブが極め
て小さいように思うのですが...
(理解不足で変なことを書いているかもしれません。お許し下さい)
Shigeru ONO / Insight Factory Miller et al.(2005) 集合知研究会: 2022/04 41 / 44
(後続研究)
connectedpapers.com で作成した論文グラフ
Shigeru ONO / Insight Factory Miller et al.(2005) 集合知研究会: 2022/04 42 / 44
伊東 (2018, 紀要) による後続研究紹介:
Jurca & Faltings (2007 ACM Conf. Elec. Commerce, 2009 J.AI Res.): 複数の均衡
に対する対処。比較対象とする他者の数を増やす
Witkowski & Parkes (2012 ACM Conf. Elec. Commerce) : シグナルを報告する前
に他者の事前分布について予測させる
Dasgupta & Ghosh (2013 WWW): 報告に費やす労力をモデルに反映させる試み。
複数の観測対象について報告させる。報酬計算にはすべての報告を用いる
Radanovic & Falting(2014 AAAI): シグナル報告と同時に他者が観測したシグナル
についても予測させる
Liu & Chen (2016 AAAI): 報告に費やす労力をモデルに反映させる試み。ピア予
測法を繰り返し行い、報告の質と努力水準を探り最適な報酬を求める
Shigeru ONO / Insight Factory Miller et al.(2005) 集合知研究会: 2022/04 43 / 44
2016 年以降の研究から (被引用回数が高そうなやつをピックアップしまし
た):
Shnayder & Frongillo (2016 IJCAI): 複数の均衡に対する対処。population learning
のモデルとして replicator dynamics を採用。真実性のある均衡の basin of
attraction のサイズを、真実性のあるプレイの頑健性の指標とみなす
Shnayder, Agarwal, Frongillo, & Parkes (2016 ACM Econ.Comp.): 複数の均衡への
対処。Correlated Agreement メカニズムを提案
Kong, Ligett & Schoenebeck (2016 WINE): 複数の均衡に対する対処。真実性のあ
る均衡をフォーカルポイントにする方法
Radanovic, Faltings, & Jurca (2016) ACM Int.Sys.Tech.): クラウド?ソーシング
においてピアとの一致性に基づき報酬を決めるとき、複数の均衡のうち全員が誠
実に働く均衡へと至るようにする方法
Agarwal, Mandal, Parkes, Shah (2017 ACM Econ.Comp.): 評定者の異質性への対
処。Correlated Agreement メカニズムを拡張
Liu & Chen (2017 ACM Econ.Comp.): 評定者の異質性への対処。実際の参照評定
者ではなく、機械学習でつくった参照報告を使って報酬を決める
Kong & Schoenebeck (2019 ACM Econ.Comp.): Mutual Information Paradigm。評
定者のシグナルとピアのシグナルの相互情報量で報酬を決める
お粗末様でした!
Shigeru ONO / Insight Factory Miller et al.(2005) 集合知研究会: 2022/04 44 / 44

More Related Content

Miller_Resnick_Zhackhauser_2005