狠狠撸

狠狠撸Share a Scribd company logo
搁で学ぶデータサイエンス
   5パターン認識
第1章 判別能力の評価
      2011/03/05
  TwitterID:sleipnir002
       中川帝人
この章の目的
   パターン認識を学ぶにあたって必要な概念。
     特にその結果の評価方法について。

? キーワード
 – 判別問題
 – 誤り率
 – 予測誤差と訓練誤差
 – K交差検証法
 – ROC曲線
 – 適合率、再現率、F値
问题设定
                パターン認識で扱う問題=判別問題
                判別問題:「白黒はっきりつける」問題

?   テストデータ D:データとラベルの組み合わせの集合
?   入力された特徴量 X:ベクトル、スカラー
?   判別器 F(X):Xを受け取る関数、Yを出力
?   出力Y:値のセット、+1/-1
    Y=-1→No          例:スパムメールの判別問題
                                 X
                     F(X)            D ? {( x1 , y1 ),.....( xn , yn )}
    Y=+1→ Yes      e.g.SVM
                                           No            Yes

                  データを基に判別器を構築
誤り率
判別器の性能を評価する指標。予測が誤っている割合。

                                   yと判断されるX      でもYはyじゃない
                         y
Pr(F ( X ) ? Y ) ?     ? Pr(X ? R ( F ),Y ? y)
                     y ?{?1, ?1}
                                             y


        4                          2                誤り率
        F                          F
  yes       yes          yes            no
                                                     6
        4                          12                22
        F                          F
  no        yes          no             no
训练误差と予测误差
   ?予測誤差を知りたいが、訓練誤差しかわからない。
?(訓練誤差)と(モデルの複雑度)はトレードオフの関係にある

? 訓練誤差:判別器を構成するための学習
  データに対する誤り率
? 予測誤差:未知のデータに対する誤り率
  訓練誤差:学習データ     予測誤差:未知のデータ
K交差検証法
データセットDをK分割して、K回判別器を構成して、予測誤差を
推定する方法。ローカルフィッティングを避けることができる。

            学習用        学習用       学習用
  データセット

            F1 ( x )   F2 ( x)   F3 ( x )
            推定用        推定用       推定用




            それぞれの誤り率の平均=予測誤差の推定値
搁翱颁曲线の説明の前に
     誤り率だけでは、判別器を評価できない場合がある。

?   データに偏りが存在する場合に問題が                         ?? 1, ( F ( X ) ? C )?
    発生する。                   Sgn( F ( X ) ? C )?                      ?
     – メールデータの99%がスパムでな                       ? ? 1, ( F ( X ) ? C ) ?
       い→必ずスパムでないという判別
       器は99%の正解率を誇る。

?   パラメータを用意して、判別器を調整す
    る。
                                               +1
     – 一般に2値判別問題では判別関数                                              C
       Fの正負を使って、判別結果を返す。                       -1
     – そこで、パラメータCとの差分を取り、
       どちらかの結果に傾きやすくする。

?Cの値をどのくらいに設定すれば
  よいか?
罢笔搁と贵笔搁
       TPR(陽性率):興味のあるクラスに関して、正しく判別できた割合
   FPR(偽陽性率):興味のないクラスに関して、正しく判別できなかった割合

               Y=+1                Y=-1
                                                ?興味のあるクラス+1と
F(X)>C                                          する。
          yes         yes    yes          no
                                                ?偽陽性率を抑えたまま、
                                                  陽性率を上げたい。
F(X)<=C
          no          yes    no           no

                TPR           FPR
                                           Pr(F ( X ) ? C | Y ? ?1)
                                   Pr(F ( X ) ? C | Y ? ?1)
ROC曲線
2値判別に関して、判別器のパラメータCを-∞から∞まで動かし
      た時の、(FPR(C),TPR(C))のプロット。

? (0,0)、(1,1)を結ぶ
? 直角が理想的
? 対角線だと完全にラン
                   TPR
  ダム
? 傾きは常に正
? 横軸との面積=AUC、
  判別器の指標となる。
                         FPR
ROCR
      判別結果の可視化用パッケージROCRを使ってみた。

> library(ROCR)
> data(ROCR.simple)
> pred <- prediction
(ROCR.simple$predictions,
 ROCR.simple$labels)
> perf <- performance(pred,
    measure = "tpr", x.measure =
    "fpr")
> plot(perf, col=rainbow(10))
適合率VS再現率、F値
適合率p:検索結果の精度、どれだけ正解しているか
再現率r:検索結果の抽出率、どれだけ正解をもってこれたか
           TPR ( F ,0)
p?                                         2TPR ( F ,0)
     TPR ( F ,0) ? FPR ( F ,0)
                                 F?
r ? TPR(F ,0)                       1 ? TPR ( F ,0) ? FPR ( F ,0)
ドキュメントの集合(例、WWW)                   検索結果
                                                 P=2/3

                                                   r=2/4
EOF

More Related Content

パターン認識 第01章-判別能力の評価

  • 1. 搁で学ぶデータサイエンス 5パターン認識 第1章 判別能力の評価 2011/03/05 TwitterID:sleipnir002 中川帝人
  • 2. この章の目的 パターン認識を学ぶにあたって必要な概念。 特にその結果の評価方法について。 ? キーワード – 判別問題 – 誤り率 – 予測誤差と訓練誤差 – K交差検証法 – ROC曲線 – 適合率、再現率、F値
  • 3. 问题设定 パターン認識で扱う問題=判別問題 判別問題:「白黒はっきりつける」問題 ? テストデータ D:データとラベルの組み合わせの集合 ? 入力された特徴量 X:ベクトル、スカラー ? 判別器 F(X):Xを受け取る関数、Yを出力 ? 出力Y:値のセット、+1/-1 Y=-1→No 例:スパムメールの判別問題 X F(X) D ? {( x1 , y1 ),.....( xn , yn )} Y=+1→ Yes e.g.SVM No Yes データを基に判別器を構築
  • 4. 誤り率 判別器の性能を評価する指標。予測が誤っている割合。 yと判断されるX でもYはyじゃない y Pr(F ( X ) ? Y ) ? ? Pr(X ? R ( F ),Y ? y) y ?{?1, ?1} y 4 2 誤り率 F F yes yes yes no 6 4 12 22 F F no yes no no
  • 5. 训练误差と予测误差 ?予測誤差を知りたいが、訓練誤差しかわからない。 ?(訓練誤差)と(モデルの複雑度)はトレードオフの関係にある ? 訓練誤差:判別器を構成するための学習 データに対する誤り率 ? 予測誤差:未知のデータに対する誤り率 訓練誤差:学習データ 予測誤差:未知のデータ
  • 6. K交差検証法 データセットDをK分割して、K回判別器を構成して、予測誤差を 推定する方法。ローカルフィッティングを避けることができる。 学習用 学習用 学習用 データセット F1 ( x ) F2 ( x) F3 ( x ) 推定用 推定用 推定用 それぞれの誤り率の平均=予測誤差の推定値
  • 7. 搁翱颁曲线の説明の前に 誤り率だけでは、判別器を評価できない場合がある。 ? データに偏りが存在する場合に問題が ?? 1, ( F ( X ) ? C )? 発生する。 Sgn( F ( X ) ? C )? ? – メールデータの99%がスパムでな ? ? 1, ( F ( X ) ? C ) ? い→必ずスパムでないという判別 器は99%の正解率を誇る。 ? パラメータを用意して、判別器を調整す る。 +1 – 一般に2値判別問題では判別関数 C Fの正負を使って、判別結果を返す。 -1 – そこで、パラメータCとの差分を取り、 どちらかの結果に傾きやすくする。 ?Cの値をどのくらいに設定すれば よいか?
  • 8. 罢笔搁と贵笔搁 TPR(陽性率):興味のあるクラスに関して、正しく判別できた割合 FPR(偽陽性率):興味のないクラスに関して、正しく判別できなかった割合 Y=+1 Y=-1 ?興味のあるクラス+1と F(X)>C する。 yes yes yes no ?偽陽性率を抑えたまま、 陽性率を上げたい。 F(X)<=C no yes no no TPR FPR Pr(F ( X ) ? C | Y ? ?1) Pr(F ( X ) ? C | Y ? ?1)
  • 9. ROC曲線 2値判別に関して、判別器のパラメータCを-∞から∞まで動かし た時の、(FPR(C),TPR(C))のプロット。 ? (0,0)、(1,1)を結ぶ ? 直角が理想的 ? 対角線だと完全にラン TPR ダム ? 傾きは常に正 ? 横軸との面積=AUC、 判別器の指標となる。 FPR
  • 10. ROCR 判別結果の可視化用パッケージROCRを使ってみた。 > library(ROCR) > data(ROCR.simple) > pred <- prediction (ROCR.simple$predictions, ROCR.simple$labels) > perf <- performance(pred, measure = "tpr", x.measure = "fpr") > plot(perf, col=rainbow(10))
  • 11. 適合率VS再現率、F値 適合率p:検索結果の精度、どれだけ正解しているか 再現率r:検索結果の抽出率、どれだけ正解をもってこれたか TPR ( F ,0) p? 2TPR ( F ,0) TPR ( F ,0) ? FPR ( F ,0) F? r ? TPR(F ,0) 1 ? TPR ( F ,0) ? FPR ( F ,0) ドキュメントの集合(例、WWW) 検索結果 P=2/3 r=2/4
  • 12. EOF