狠狠撸

狠狠撸Share a Scribd company logo
PRML4.1-?‐4.2	

 @masa_kzm
4章 線形識別モデル	
4.1	
 ?識別関数(判別関数)	
 ?
?? 4.1.1	
 ?2クラス	
 ?
?? 4.1.2	
 ?多クラス	
 ?
?? 4.1.3	
 ?分類における最小二乗法	
 ?
?? 4.1.4-?‐4.1.6	
 ?フィッシャーの判別	
 ?
?? 4.1.7	
 ?パーセプトロン
分類問題	
  分類の目的は、ある入力ベクトルxをK個の	
 ?
  離散クラスCkの1つに割り当てること	

  入力空間は決定領域に分離される	

  決定領域の境界を決定境界または決定面と呼ぶ	

線形識別モデル	
  決定面が、入力ベクトル虫の线形関数であり、
  D次元入力空間に対して、その決定面がD-?‐1
  次元の超平面で定義される。
目的変数	
2クラス分類	
    2値表現	
    クラスC1をt=1、クラスC2をt=0で表現する。	
    t∈{0,1}	

多クラス分類	
    1-?‐of-?‐K符号化法	
    例えば、K=5クラスの場合、クラス2のパターンは
分類問題に対するアプローチ	
識別関数	
 ?4.1章	
□入力ベクトルxから直接クラスを推定する識別関数を構築する。	

確率的識別モデル	
 ?4.3章	
□条件付き確率分布p(Ck|x)を直接モデル化する。	

確率的生成モデル	
 ?4.2章	
□クラスに対する事前確率p(Ck)とともに、	
 ?
	
 ?	
 ?	
 ?クラスで条件付けられた確率密度p(x|Ck)を考え、	
 ?
	
 ?	
 ?	
 ?ベイズ定理より、事後確率p(Ck|x)を求める	
 ?
分類問題に対するアプローチ2	
一般線形化モデル	


 分類問題では、領域(0,1)の値をとる事後確率を予測したい	

 fは活性化関数	


決定面はy(x)=定数に相当し、      が定数となる。つまり、	
 ?
関数fが非線形でも、決定面は虫の线形関数である。	
 ?
4.1.1	
 ?識別関数	
線形識別関数	
wは重みベクトル、w0はバイアスパラメータ。	
 ?
-?‐w0はしきい値パラメータと呼ばれる。	
y(x)≧0ならば、入力ベクトルxはクラスC1に割り当てられる。	
 ?
それ以外は、クラスC2に割り当てられる。	

決定境界は、y(x)=0で定義される。	

D次元入力空間中のD-?‐1次元超平面に対応する。
決定面の性質	
決定面上にあるxAとxBを考えると下の式が成り立つ。	




原点から決定面までの距離	



任意のxから決定面までの距離
4.1.2	
 ?多クラス	
1対他分類器	
  ある特定のクラスCkに入る点とそのクラスに
  入らない点とに分類する2クラス問題を解く分
  類器をK-?‐1個利用する。	

緑の部分は、クラスC1とクラスC2の両方に	
 ?
所属している。	


曖昧な分類領域が出てしまう。
4.1.2	
 ?多クラス	
1対1分類器	
  すべての可能なクラスの組の2クラス識別関
  数を考え、K(K-?‐1)/2個の2クラス識別関数を
  利用する。	

緑の部分は、	
 ?
「クラスC1ではなくクラスC2」	
 ?
「クラスC2ではなくクラスC3」	
 ?
「クラスC3ではなくクラスC1」	
 ?
である。	

曖昧な分類領域が出てしまう。
4.1.2	
 ?多クラス	
K個の識別関数を考える。	


最大のyk(x)のクラスCkに割り当てる。	
境界は以下の式で定義される(D-?‐1)次元の超
平面に相当する。
4.1.2	
 ?多クラス	
凸領域	

   2点xAとxBが同じ決定領域Rkにあるとき、	
 ?
   2点xAとxBを結ぶ直線上にある任意の点も	
 ?
   決定領域Rkにある。
凸性の証明	


識別関数の線形性より	




よって、2点xAとxBを結ぶ直線上にある任意
の点も決定領域Rkにある。
識別関数のパラメータを学習する方法	



?? 最小二乗 4.1.3章	
 ?
?? フィッシャーの線形判別 4.1.4章	
 ?
?? パーセプトロンアルゴリズム 4.1.7章
4.1.3	
 ?分類における最小二乗	
目的変数ベクトルtは1-?‐of-?‐K符号化法
4.1.3	
 ?分類における最小二乗	
二乗和誤差関数	

Wの導関数=0の解	

識別関数
最小二乗法の問題点	
外れ値に敏感。頑健性が弱い。	

最小二乗法は条件付き確率に	
 ?
ガウス分布を仮定した場合の最尤法	

2値目的変数ベクトルは	
 ?
ガウス分布からかけ離れている。
4.1.4	
 ?フィッシャーの線形判別	
2クラス問題について	
D次元入力ベクトルを、1次元に射影する。	


2つのクラスの平均ベクトルは	




射影されたクラスの平均の差を最大にしたい。
4.1.4	
 ?フィッシャーの線形判別	

    最大化	

    制約条件	

ラグランジュの未定乗数法	




よって
4.1.4	
 ?フィッシャーの線形判別	
クラス平均を結んだ直線上への射影	
重なりあう部分が多い。	



フィッシャーの方法	

 射影されたクラス平均間の分離度を大きくすると同
 時に、各クラス内では小さな分散を与える関数を最
 大化する。	

フィッシャーの判別基準	
 ?=	
 ?クラス间分散/クラス内分散
4.1.4	
 ?フィッシャーの線形判別	
クラス内分散は	



フィッシャーの判別基準	
 ?=	
 ?クラス间分散/クラス内分散
4.1.4	
 ?フィッシャーの線形判別	
 フィッシャーの判別基準	
 ?=	
 ?クラス内分散/クラス間分散	




クラス間共分散行列	
        総クラス内共分散行列
4.1.4	
 ?フィッシャーの線形判別	
    最大化	




※
            (Aが対称行列)
4.1.5	
 ?最小二乗との関連	
最小二乗法	
目的変数値の集合にできるだけ近い予測をすることを目的	

フィッシャーの判別基準	
出力空間でのクラス分類を最大にする	


2クラス問題において、フィッシャーの判別基準は
最小二乗の特殊な場合である。
4.1.5	
 ?最小二乗との関連	

   クラスC1に対する目的変数値をN/N1	
 ?
   クラスC2に対する目的変数値を-?‐N/N2とする。	
   N1はクラスC1に属するパターンの個数	
 ?
   N2はクラスC2に属するパターンの個数	
 ?

二乗和誤差関数	

w0の導関数	

wの導関数	

                      フィッシャーの線形判別と同じ
4.1.6	
 ?多クラスにおけるフィッシャーの判別	
 クラス内共分散	



 総共分散行列	


 クラス間共分散行列の測度と考えられる行列	



 総共分散行列
4.1.6	
 ?多クラスにおけるフィッシャーの判別	
射影後	
  クラス内共分散	

  クラス間共分散行列の測度と考えられる行列	


  Fukunaga,1990	
  クラス間共分散が大きく、クラス内共分散が小さい場合に、
  大きくなるスカラーを構成。	



  SBのランクは高々(K-?‐1)である。(K-?‐1)個以上の線形「特徴」を
  発見することができない。
4.1.7	
 ?パーセプトロンアルゴリズム	
 入力ベクトルxを特徴ベクトルφ(x)に変換する。	

  一般化線形モデル	

  非線形活性化関数	
 ?f()はステップ関数	

  目的変数値 t∈{-?‐1,1}	

              ならC1	
              ならC2	

すべてのパターンは           を満たす。
4.1.7	
 ?パーセプトロンアルゴリズム	
パーセプトロン基準	

正しく分類された任意のパターンに対しては誤差0	
誤分類された任意のパターンに対しては	



確率的最急降下アルゴリズム	


パターンが正しく分類されている場合には、重みベクトル
に手を加えず、パターンが誤って分類された場合、	
 ?
誤分類されたパターンがC1の場合には、φnを加え	
 ?
誤分類されたパターンがC2の場合には、φnを引く
4.1.7	
 ?パーセプトロンアルゴリズム	
確率的最急降下アルゴリズム
4.1.7	
 ?パーセプトロンアルゴリズム	
一回の更新で、誤分類されたパターンの誤差は減少できる	
一回の更新で、新たな誤差が生じることも	
一回の更新で、総誤差関数を減少させることを保証していない	


パーセプトロンの収束定理	
 線形分離が可能な場合、パーセプトロン学習アルゴリズムは	
 ?
 有限回の繰り返しで厳密解に収束することを保証している。	

収束するのに必要な繰り返し回数がかなり多い	
初期値やデータの提示順に依存して様々な解に収束してしまう
4.2	
 ?確率的生成モデル	

クラスの条件付き確率密度p(x|Ck)と	
 ?
クラスの事前確率p(Ck)をモデル化して、	
 ?
ベイズの定理より、	
 ?
事後確率p(Ck|x)を計算する。	
 ?
4.2	
 ?確率的生成モデル	
2クラスの場合	




              ロジスティックシグモイド関数
4.2.1	
 ?連続値入力	
仮定	
 クラスの条件付き確率密度がガウス分布	
 すべてのクラスが同じ共分散行列を共有する	
クラスCkの確率密度	



クラスC1の事後確率
4.2	
 ?確率的生成モデル	
Kクラス分類	
  共分散を共有 → 2次の項がキャンセル	
  一般化線形モデル
4.2.2	
 ?最尤解	
クラスの条件付き確率密度p(x|Ck)に対するパラメトリックな関
数形を決める。	
クラスの事前確率p(Ck)と、パラメータの値を最尤法で求める。	
xの観測値とそれに対応するクラスラベルで構成する	
 ?
学習データ集合が必要
4.2.2	
 ?最尤解	
仮定	
  条件付き確率密度がガウス分布、共通の共分散行列を持つ	
データ集合 {xn,tn}	
 ?	
 ?	
 ?	
 ?t∈{0,1}	
      t=1はクラスC1を表し、t=0はクラスC2を表す。	
クラスの事前確率p(C1)=π	
 ?	
 ?,	
 ?	
 ?	
 ?p(C2)=1-?‐π	




尤度関数
4.2.2	
 ?最尤解	
πに関する対数尤度の項	

πに関する最尤推定	

μ1に関する対数尤度の項	



μ1に関する最尤推定	

μ2に関する最尤推定
4.2.2	
 ?最尤解	
  ∑に関する対数尤度の項	




微分すると	


      よって、Σ	
 ?=	
 ?Sとなる	
※
4.2.3	
 ?離散特徴	
特徴が離散値xiの場合を考える。xi∈{0,1}	

特徴数D個の入力がある場合、一般的な分布は各クラスに対
する2D個の要素の表に相当する。	

 ナイーブベイズを仮定。特徴値がクラスCkに対して条件付き独
 立であるとして扱われる。	




入力値xiの線形関数
4.2.3	
 ?指数型分布族	
ガウス分布と離散値入力のとき、クラスの事後確率は一般線形
化モデルとなる。	
クラスの条件付き確率密度p(x|Ck)が指数型分布族であるなら、
クラスの事後確率は一般線形モデルとなる。	

指数型分布族	



u(x)=xとなるような分布の部分クラスに注目し、	
 ?
尺度パラメータSを導入する。
4.2.3	
 ?指数型分布族	
クラスの事後確率が虫の线形関数a(x)のロジスティックシグモイ
ド関数によって、以下の式のようになる。	
2クラス	




Kクラス	




          虫の线形関数

More Related Content

Prml4 1-4-2