狠狠撸

狠狠撸Share a Scribd company logo
カステラ本
(3章前半)
サイバーエージェント
アドテク本部 AI Lab
宮西 一徳
第3章 回帰のための線形手法 の前半
3.4.3まで
図は原著より引用
線形回帰モデル
(x1, y1) . . . (xN , yN )
訓練データ
から、βを推定したい。
最小二乗法で、残差平方和を最小化するのが一般的な方法
→ 入力X、未知のパラメータβで出力Yを予測するモデル
線形回帰モデルと最小二乗法
XがN×(p+1)行列、YがN次元ベクトルとすると、
residual
sum-of-squares
線形回帰モデルと最小二乗法
RSSが最小となるときのβを知りたい
RSSをβで微分して0になるときの βが求める推定値
(3.6)
(3.7)
(3.8)
分散共分散行列
なので、以下の多変量正規分布に従う
(3.10)
(σ2
: 観測値yi
の分散)
線形回帰モデルと最小二乗法
σ2
の推定値
分散の不偏推定量は RSS/自由度
全変動=回帰変動+残差変動
全変動の自由度: N-1(標本数-1)
回帰変動の自由度: p(入力データの次元数)
残差変動の自由度は N-1-p
誤差項の分散の不偏推定量は、
これがσ2
(観測値yi
の分散)の不偏推定量になる
(3.9)
これのεの分散を推定した値
観測値の分散ではない
特定の係数を0にできるかの検定
Zスコア(標準化スコア)= 数値から平均値を引いて標準偏差で割ったもの z=(x-μ)/s
j番目の係数の分散は σ2
vj
→ 標準偏差はσ√vj vj
は のj番目の対角成分
平均を0としたときのZスコアは、
βj
=0 という帰無仮説のもとt検定。→ zj
の絶対値が大きいときは棄却する。
複数の係数を同時に0にできるかの検定
F統計量
分子は、p0
からp1
にパラメータを増やしたときの残差二乗和の差分
分母は、σ2
の推定値
という分布に従う
例:前立腺癌
説明変数間の相関
lcavolとlcpが目的変数lpsaと強い相関
lcavolとlcpの間にも強い相関
各係数のZスコア
(絶対値が2を超えると0にできない)
lcavolが強い影響
lweightとsviも同様
lcpは重要ではない(lcavolが入ってると)
[引用 https://web.stanford.edu/~hastie/Papers/ESLII.pdf ]
例:前立腺癌
各係数のZスコア
(絶対値が2を超えると0にできない)
F統計量で同時に複数の変数を除外できるか検定
age, lcp, gleason, pgg45を除外する場合、
このときのp値が0.17となり有意ではない。
[引用 https://web.stanford.edu/~hastie/Papers/ESLII.pdf ]
ガウス=マルコフ定理
バイアスを犠牲にして分散を小さくできれば、
MSEがより小さくなる不偏ではない推定量が存在する可能性がある
ex. 変数選択やリッジ回帰で係数を縮小したり0にしたり
全ての線形不偏推定量の中で、最小二乗推定量が最も小さい平均二乗誤差(MSE)を持つ
MSEは、分散とバイアスに分解することができる。
単回帰から重回帰
切片のない1変数モデル の最小二乗推定量と残差は
ベクトル表記
切片と1変数のモデルについて
1. x=β0
1+ε → 残差
2. y=β1
z +ε
残差=説明変数で説明できない=説明変数と残差に相関がない=直交する
この場合の残差Zは、Xから切片の影響を除外したもの
ステップ1のβ0
の推定値がxの平均値となるので、残差zは
個人的な解釈
このβ1
の推定値が
単回帰から重回帰
説明変数の数をpに増やした場合、
z0
~ zj-1
を使ってxj
を推定する回帰をして、
最小二乗推定量βj
と残差zj
を求める。
pまで繰り返して、最後はyを推定する回帰で βp
を求める。
これをグラム=シュミットの直交化法 という
[引用 https://web.stanford.edu/~hastie/Papers/ESLII.pdf ]
変数選択
● 最良変数組み合わせ選択
● 前向き/後向き漸次的選択法
● 前向き段阶的回帰
変数選択(最良変数組み合わせ選択)
変数の部分集合の総当たりでいいのを見つける
部分集合の大きさkは大きいほどいいので、kを決めるには別の基準が必要になる。
→ 一般的には、「期待予測誤差を最小化する最も小さいモデルを選択する」
[引用 https://web.stanford.edu/~hastie/Papers/ESLII.pdf ]
変数選択(前向き/後向き漸次的選択法)
● 前向き
○ 切片から始めて、最もいい推定結果になる説明変数を順次加えていく。
○ 準最適解しか求められない
○ 説明変数の数がデータ数より多くても計算可能
○ 制約された探索のため、低分散高バイアス
● 後向き
○ フルセットの説明変数から始めて、影響の小さい変数を順次除去していく。
○ 説明変数の数がデータ数より少ないときしか無理
変数選択(前向き段阶的回帰)
● 切片をyの平均値、その他の係数を全て0でスタート
● 残差と最も相関の大きい変数を選択し、残差に対する単回帰係数を求めて、その変数の係数に加える。
● 残差と相関を持つ変数がなくなるまで繰り返す。
● 説明変数の数以上繰り返す必要があり遅い。けどなんかいいらしい。→3.8.1で説明
変数選択(比較)
前向き/後向きはほぼ同じ。
前向き段阶的回帰は選択回数が多め。
[ https://web.stanford.edu/~hastie/Papers/ESLII.pdf ]
縮小推定
変数選択は、変数を使うか使わないかを選ぶ(離散的)
→ 分散が大きくなって、予測誤差が減りにくい。
縮小推定を使うと、この問題は起こらない。
縮小推定(リッジ回帰)(1/7)
パラメータの大きさに罰則を課す。
残差二乗
和
罰則項 = 係数の二乗和
こう書くこともできる↓
λとtが一対一に対応する何か
説明変数間に相関があると、
それらの変数に対して、
正負の大きな係数が割り当てられて、不安定になる。(多
重共線性)
リッジ回帰では、係数の大きさに制約を課しているので、こ
の問題は起きない。
縮小推定(リッジ回帰)(2/7)
? 説明変数の大きさの影響を受けるので、標準化する必要がある。
? 平均0、分散1になるように変換する
? 罰則項に切片は入れない
? 切片に罰則を課すと、目的変数の原点の選び方に依存してしまうから。
中心化 → とすると、切片β0
はyの平均で推定できる →
残りの係数は切片なしのリッジ回帰で推定できるので、
行列形式で書くと、
(3.43)
このときのリッジ回帰の解は、
(3.6)
ちなみに、
最小二乗法での解は、
比べると、
の対角成分にλ≧0を加えている
→ 特異行列にならなくなるので、必ず逆行列が求まる。
縮小推定(リッジ回帰)(3/7)
縮小推定(リッジ回帰)(4/7)
Xの特異値分解
U(N×p)はXの列空間、
V(p×p)はXの行空間、
D(p×p)の対角成分はXの特異値
■ 最小二乗法の解
■ リッジ回帰の解
← dはXの特異値で、d2
が小さいとより強く縮小される。
縮小推定(リッジ回帰)(5/7)
→ 第一主成分と呼ぶ
→ (Xの固有値分解)
ここで、Vの列ベクトルは、固有ベクトル vj
でXの主成分方向とも呼ばれる
第一主成分方向v1は、 z1
=Xv1
がXの列ベクトルの線形結合の中で最も大きい分散を持ち
となり、z1
は
特異値d1
, d2
,..., dj
の順に小さくなっていき、小さい特異値はXの列空間上で分散が小さくなる。
前のページの、
Xの特異値 d2
が小さいとより強く縮小される。
リッジ回帰は、小さい特異値の方向の成分を
強く縮小する
縮小推定(リッジ回帰)(6/7)
二次元データを主成分方向に射影してプロットした図
大きい主成分=分散が大きい
小さい主成分=分散が小さい
リッジ回帰は分散が小さい方向の成分を縮小する
予測変数は応答変数に応じて変化するはず
→ 応答変数は入力の分散が大きい方向に最も変化しやすいはず
[引用 https://web.stanford.edu/~hastie/Papers/ESLII.pdf ]
縮小推定(リッジ回帰)(7/7)
リッジ回帰の有効自由度
説明変数の数がpとすると、通常自由度は p
リッジ回帰では、λの制約を受けるので
それに対応した自由度が↑の有効自由度
λ=0のとき df(λ)=p
λ→∞のとき df(λ)→0
例、df(λ)=5 のとき推定予測誤差が最小→
[ https://web.stanford.edu/~hastie/Papers/ESLII.pdf ]
縮小推定(lasso)
リッジ回帰でL2だった罰則をL1にしたもの
tを小さくすると、いくつかの係数を0にできる
→ 変数選択が可能
tは、リッジ回帰と同様、期待推定誤差の推定値を最
小化するように適応的に決めればいい
調整パラメータ に対応する係数の変化
リッジは係数が0にならないが、lassoは sを0に近づけると0になる。
[ https://web.stanford.edu/~hastie/Papers/ESLII.pdf ]
部分集合選択、リッジ、lassoの考察(1/4)
の符号にあわせて(sign)
max( , 0)
[ https://web.stanford.edu/~hastie/Papers/ESLII.pdf ]
部分集合選択、リッジ、lassoの考察(2/4)
lasso リッジ回帰
lassoの場合、頂点で交わると一方のパラメータが0になる
高次元になると頂点とか辺が増えて、複数のパラメータが0になるケースが増える
[ https://web.stanford.edu/~hastie/Papers/ESLII.pdf ]
部分集合選択、リッジ、lassoの考察(3/4)
罰則のところ一般化すると
qを変えたときの制約領域
q=1のときlassoで、2のときリッジ [ https://web.stanford.edu/~hastie/Papers/ESLII.pdf ]
部分集合選択、リッジ、lassoの考察(4/4)
q=1, 2 以外のときも試したくなるが、経験上分散が大きくなってよくない。
lassoとリッジの折衷案としてElasticNetが提案された
罰則項→
lassoのように変数を選択し、
リッジのように相関のある変数の係数を縮
小する。
Lq
罰則よりも計算コストが小さい
[ https://web.stanford.edu/~hastie/Papers/ESLII.pdf ]

More Related Content

統計的学習の基礎 3章前半