3. 问题设定
パターン認識で扱う問題=判別問題
判別問題:「白黒はっきりつける」問題
? テストデータ D:データとラベルの組み合わせの集合
? 入力された特徴量 X:ベクトル、スカラー
? 判別器 F(X):Xを受け取る関数、Yを出力
? 出力Y:値のセット、+1/-1
Y=-1→No 例:スパムメールの判別問題
X
F(X) D ? {( x1 , y1 ),.....( xn , yn )}
Y=+1→ Yes e.g.SVM
No Yes
データを基に判別器を構築
4. 誤り率
判別器の性能を評価する指標。予測が誤っている割合。
yと判断されるX でもYはyじゃない
y
Pr(F ( X ) ? Y ) ? ? Pr(X ? R ( F ),Y ? y)
y ?{?1, ?1}
y
4 2 誤り率
F F
yes yes yes no
6
4 12 22
F F
no yes no no
7. 搁翱颁曲线の説明の前に
誤り率だけでは、判別器を評価できない場合がある。
? データに偏りが存在する場合に問題が ?? 1, ( F ( X ) ? C )?
発生する。 Sgn( F ( X ) ? C )? ?
– メールデータの99%がスパムでな ? ? 1, ( F ( X ) ? C ) ?
い→必ずスパムでないという判別
器は99%の正解率を誇る。
? パラメータを用意して、判別器を調整す
る。
+1
– 一般に2値判別問題では判別関数 C
Fの正負を使って、判別結果を返す。 -1
– そこで、パラメータCとの差分を取り、
どちらかの結果に傾きやすくする。
?Cの値をどのくらいに設定すれば
よいか?
8. 罢笔搁と贵笔搁
TPR(陽性率):興味のあるクラスに関して、正しく判別できた割合
FPR(偽陽性率):興味のないクラスに関して、正しく判別できなかった割合
Y=+1 Y=-1
?興味のあるクラス+1と
F(X)>C する。
yes yes yes no
?偽陽性率を抑えたまま、
陽性率を上げたい。
F(X)<=C
no yes no no
TPR FPR
Pr(F ( X ) ? C | Y ? ?1)
Pr(F ( X ) ? C | Y ? ?1)