狠狠撸
Submit Search
統計的学習の基礎 3章前半
?
0 likes
?
695 views
Kazunori Miyanishi
Follow
社内での読書会の発表資料です。 原著は https://web.stanford.edu/~hastie/Papers/ESLII.pdf
Read less
Read more
1 of 30
Download now
Download to read offline
More Related Content
統計的学習の基礎 3章前半
1.
カステラ本 (3章前半) サイバーエージェント アドテク本部 AI Lab 宮西
一徳
2.
第3章 回帰のための線形手法 の前半 3.4.3まで 図は原著より引用
3.
線形回帰モデル (x1, y1) .
. . (xN , yN ) 訓練データ から、βを推定したい。 最小二乗法で、残差平方和を最小化するのが一般的な方法 → 入力X、未知のパラメータβで出力Yを予測するモデル 線形回帰モデルと最小二乗法 XがN×(p+1)行列、YがN次元ベクトルとすると、 residual sum-of-squares
4.
線形回帰モデルと最小二乗法 RSSが最小となるときのβを知りたい RSSをβで微分して0になるときの βが求める推定値 (3.6) (3.7) (3.8) 分散共分散行列 なので、以下の多変量正規分布に従う (3.10) (σ2 : 観測値yi の分散)
5.
線形回帰モデルと最小二乗法 σ2 の推定値 分散の不偏推定量は RSS/自由度 全変動=回帰変動+残差変動 全変動の自由度: N-1(標本数-1) 回帰変動の自由度:
p(入力データの次元数) 残差変動の自由度は N-1-p 誤差項の分散の不偏推定量は、 これがσ2 (観測値yi の分散)の不偏推定量になる (3.9) これのεの分散を推定した値 観測値の分散ではない
6.
特定の係数を0にできるかの検定 Zスコア(標準化スコア)= 数値から平均値を引いて標準偏差で割ったもの z=(x-μ)/s j番目の係数の分散は
σ2 vj → 標準偏差はσ√vj vj は のj番目の対角成分 平均を0としたときのZスコアは、 βj =0 という帰無仮説のもとt検定。→ zj の絶対値が大きいときは棄却する。
7.
複数の係数を同時に0にできるかの検定 F統計量 分子は、p0 からp1 にパラメータを増やしたときの残差二乗和の差分 分母は、σ2 の推定値 という分布に従う
8.
例:前立腺癌 説明変数間の相関 lcavolとlcpが目的変数lpsaと強い相関 lcavolとlcpの間にも強い相関 各係数のZスコア (絶対値が2を超えると0にできない) lcavolが強い影響 lweightとsviも同様 lcpは重要ではない(lcavolが入ってると) [引用 https://web.stanford.edu/~hastie/Papers/ESLII.pdf ]
9.
例:前立腺癌 各係数のZスコア (絶対値が2を超えると0にできない) F統計量で同時に複数の変数を除外できるか検定 age, lcp, gleason,
pgg45を除外する場合、 このときのp値が0.17となり有意ではない。 [引用 https://web.stanford.edu/~hastie/Papers/ESLII.pdf ]
10.
ガウス=マルコフ定理 バイアスを犠牲にして分散を小さくできれば、 MSEがより小さくなる不偏ではない推定量が存在する可能性がある ex. 変数選択やリッジ回帰で係数を縮小したり0にしたり 全ての線形不偏推定量の中で、最小二乗推定量が最も小さい平均二乗誤差(MSE)を持つ MSEは、分散とバイアスに分解することができる。
11.
単回帰から重回帰 切片のない1変数モデル の最小二乗推定量と残差は ベクトル表記 切片と1変数のモデルについて 1. x=β0 1+ε
→ 残差 2. y=β1 z +ε 残差=説明変数で説明できない=説明変数と残差に相関がない=直交する この場合の残差Zは、Xから切片の影響を除外したもの ステップ1のβ0 の推定値がxの平均値となるので、残差zは 個人的な解釈 このβ1 の推定値が
12.
単回帰から重回帰 説明変数の数をpに増やした場合、 z0 ~ zj-1 を使ってxj を推定する回帰をして、 最小二乗推定量βj と残差zj を求める。 pまで繰り返して、最後はyを推定する回帰で βp を求める。 これをグラム=シュミットの直交化法
という [引用 https://web.stanford.edu/~hastie/Papers/ESLII.pdf ]
13.
変数選択 ● 最良変数組み合わせ選択 ● 前向き/後向き漸次的選択法 ●
前向き段阶的回帰
14.
変数選択(最良変数組み合わせ選択) 変数の部分集合の総当たりでいいのを見つける 部分集合の大きさkは大きいほどいいので、kを決めるには別の基準が必要になる。 → 一般的には、「期待予測誤差を最小化する最も小さいモデルを選択する」 [引用 https://web.stanford.edu/~hastie/Papers/ESLII.pdf
]
15.
変数選択(前向き/後向き漸次的選択法) ● 前向き ○ 切片から始めて、最もいい推定結果になる説明変数を順次加えていく。 ○
準最適解しか求められない ○ 説明変数の数がデータ数より多くても計算可能 ○ 制約された探索のため、低分散高バイアス ● 後向き ○ フルセットの説明変数から始めて、影響の小さい変数を順次除去していく。 ○ 説明変数の数がデータ数より少ないときしか無理
16.
変数選択(前向き段阶的回帰) ● 切片をyの平均値、その他の係数を全て0でスタート ● 残差と最も相関の大きい変数を選択し、残差に対する単回帰係数を求めて、その変数の係数に加える。 ●
残差と相関を持つ変数がなくなるまで繰り返す。 ● 説明変数の数以上繰り返す必要があり遅い。けどなんかいいらしい。→3.8.1で説明
17.
変数選択(比較) 前向き/後向きはほぼ同じ。 前向き段阶的回帰は選択回数が多め。 [ https://web.stanford.edu/~hastie/Papers/ESLII.pdf ]
18.
縮小推定 変数選択は、変数を使うか使わないかを選ぶ(離散的) → 分散が大きくなって、予測誤差が減りにくい。 縮小推定を使うと、この問題は起こらない。
19.
縮小推定(リッジ回帰)(1/7) パラメータの大きさに罰則を課す。 残差二乗 和 罰則項 = 係数の二乗和 こう書くこともできる↓ λとtが一対一に対応する何か 説明変数間に相関があると、 それらの変数に対して、 正負の大きな係数が割り当てられて、不安定になる。(多 重共線性) リッジ回帰では、係数の大きさに制約を課しているので、こ の問題は起きない。
20.
縮小推定(リッジ回帰)(2/7) ? 説明変数の大きさの影響を受けるので、標準化する必要がある。 ? 平均0、分散1になるように変換する ?
罰則項に切片は入れない ? 切片に罰則を課すと、目的変数の原点の選び方に依存してしまうから。
21.
中心化 → とすると、切片β0 はyの平均で推定できる
→ 残りの係数は切片なしのリッジ回帰で推定できるので、 行列形式で書くと、 (3.43) このときのリッジ回帰の解は、 (3.6) ちなみに、 最小二乗法での解は、 比べると、 の対角成分にλ≧0を加えている → 特異行列にならなくなるので、必ず逆行列が求まる。 縮小推定(リッジ回帰)(3/7)
22.
縮小推定(リッジ回帰)(4/7) Xの特異値分解 U(N×p)はXの列空間、 V(p×p)はXの行空間、 D(p×p)の対角成分はXの特異値 ■ 最小二乗法の解 ■ リッジ回帰の解 ←
dはXの特異値で、d2 が小さいとより強く縮小される。
23.
縮小推定(リッジ回帰)(5/7) → 第一主成分と呼ぶ → (Xの固有値分解) ここで、Vの列ベクトルは、固有ベクトル
vj でXの主成分方向とも呼ばれる 第一主成分方向v1は、 z1 =Xv1 がXの列ベクトルの線形結合の中で最も大きい分散を持ち となり、z1 は 特異値d1 , d2 ,..., dj の順に小さくなっていき、小さい特異値はXの列空間上で分散が小さくなる。 前のページの、 Xの特異値 d2 が小さいとより強く縮小される。 リッジ回帰は、小さい特異値の方向の成分を 強く縮小する
24.
縮小推定(リッジ回帰)(6/7) 二次元データを主成分方向に射影してプロットした図 大きい主成分=分散が大きい 小さい主成分=分散が小さい リッジ回帰は分散が小さい方向の成分を縮小する 予測変数は応答変数に応じて変化するはず → 応答変数は入力の分散が大きい方向に最も変化しやすいはず [引用 https://web.stanford.edu/~hastie/Papers/ESLII.pdf
]
25.
縮小推定(リッジ回帰)(7/7) リッジ回帰の有効自由度 説明変数の数がpとすると、通常自由度は p リッジ回帰では、λの制約を受けるので それに対応した自由度が↑の有効自由度 λ=0のとき df(λ)=p λ→∞のとき
df(λ)→0 例、df(λ)=5 のとき推定予測誤差が最小→ [ https://web.stanford.edu/~hastie/Papers/ESLII.pdf ]
26.
縮小推定(lasso) リッジ回帰でL2だった罰則をL1にしたもの tを小さくすると、いくつかの係数を0にできる → 変数選択が可能 tは、リッジ回帰と同様、期待推定誤差の推定値を最 小化するように適応的に決めればいい 調整パラメータ に対応する係数の変化 リッジは係数が0にならないが、lassoは
sを0に近づけると0になる。 [ https://web.stanford.edu/~hastie/Papers/ESLII.pdf ]
27.
部分集合選択、リッジ、lassoの考察(1/4) の符号にあわせて(sign) max( , 0) [
https://web.stanford.edu/~hastie/Papers/ESLII.pdf ]
28.
部分集合選択、リッジ、lassoの考察(2/4) lasso リッジ回帰 lassoの場合、頂点で交わると一方のパラメータが0になる 高次元になると頂点とか辺が増えて、複数のパラメータが0になるケースが増える [ https://web.stanford.edu/~hastie/Papers/ESLII.pdf
]
29.
部分集合選択、リッジ、lassoの考察(3/4) 罰則のところ一般化すると qを変えたときの制約領域 q=1のときlassoで、2のときリッジ [ https://web.stanford.edu/~hastie/Papers/ESLII.pdf
]
30.
部分集合選択、リッジ、lassoの考察(4/4) q=1, 2 以外のときも試したくなるが、経験上分散が大きくなってよくない。 lassoとリッジの折衷案としてElasticNetが提案された 罰則項→ lassoのように変数を選択し、 リッジのように相関のある変数の係数を縮 小する。 Lq 罰則よりも計算コストが小さい [
https://web.stanford.edu/~hastie/Papers/ESLII.pdf ]
Download