狠狠撸
Submit Search
統計的学習の基礎 第2章後半
?
10 likes
?
4,591 views
P
Prunus 1350
Follow
カステラ本読书会
Read less
Read more
1 of 26
Download now
Downloaded 26 times
More Related Content
統計的学習の基礎 第2章後半
1.
統計的学習の基礎 第2章 2.5 ~
2.9 @Prunus1350
2.
2.5 高次元での局所的手法
3.
これまで学んだ予測のための二つの方法 ? 線形モデル ? 安定しているがバイアスが大きい ?
k最近傍法 ? 不安定だがバイアスが小さい ? 訓練データが十分多ければk最近傍法でいいのでは? ? →高次元において破綻をきたす(次元の呪い)
4.
次元の呪いを理解するための例題 10次元の場合、10%の データが近傍に含まれ るようにするには、各 変数の80%をカバーす る必要がある。 →もはや「局所的」と はいえない
5.
高次元空間から疎に標本を得ることに起因する もう一つの問題 ? 原点を中心とする半径が1のp次元超球内にN個のデータ点が一様に分 布しているとする。 ? 原点に最も近いデータ点までの距離の中央値 ?
N = 500, p = 10 の場合、d(p, N) ≈ 0.52 ? 超球の境界までの距離の半分以上にあたる。 ? 近傍の点を用いた予測が、極めて不安定になってしまう。
6.
標本化密度の観点から次元の呪いを理解する ? pを入力変数の次元、Nをデータ数とすると、標本化密度は? 1 ?に比例 する。 ? 入力変数が1次元の場合に?1
= 100であれば、十分に密なデータであ ると見なすことにする。 ? 10次元の入力変数に関して同様に密であるためには、?10 = 10010もの データが必要になる。 ? →ある程度次元の高い状況では、訓練データが入力空間で極めて疎に 分布していると考えなければならない。
7.
最近傍法で下方バイアスのある推定となる例 ? ?(0)を推定する場合、最近傍点が 原点でない限り下方バイアスがか かる。 ? 次元が増えると最近傍点までの距 離も増えるのでバイアスが増大す る。 ?
この例では、平均2乗誤差は2乗バ イアスによって増大する。
8.
2.6 統計モデル, 教師あり学習,
関数近似
9.
2.6 統計モデル, 教師あり学習,
関数近似 ? ここでの目的は、背後に潜む入出力関係f(x)の有用な近似を行うこと である。 ? 高次元に起因する問題を解決するためには、回帰関数f(x)の他のクラ スの近似モデルを考えるのが有意義である。
10.
2.6.1 同時分布Pr(X,Y)のための統計モデル ? ?
11.
2.6.2 教師あり学習 ? 機械学習の観点から関数当てはめの問題を説明しておく。 ?
学習中のシステムの入力と出力の両方を観察し、それらを集めて観測 値の訓練集合を構成する。 ? 観測された??を人工システムへ入力すると、その出力 ?(??)を得る。 ? 真のシステムによる出力??と人工システムによる出力 ?(??)の違いに応 じて入出力関係 ?を修正していく。(例による学習) ? 学習プロセスを終えた段階では、真のシステムと人工システムの出力 が十分に近いことが期待される。
12.
2.6.3 関数近似 ? ここでの目的は、訓練データを用いて入力空間内の任意のxについて f(x)の有用な近似を求めることである。 ?
議論を簡潔にするため、入力空間としてp次元ユークリッド空間を仮定する。 ? 教師あり学習を関数近似の問題と見なすと、ユークリッド空間の幾何 学的な概念や確率推論の数学的概念を利用することができる。 ? テキスト内で扱う多くの近似モデルでは、データに応じて修正可能な パラメータ集合θが含まれている。 ? 線形モデル ? 線形基底展開
13.
パラメータの推定 ? 線形基底関数のパラメータθを推定するには、線形モデルの場合と同 様、最小2乗法を用いて残差2乗和 を最小化すればよい。 2入力の関数に最小2乗法で関数を当てはめた例
14.
2.7 構造化回帰モデル
15.
2.7.1 なぜ問題が困難なのか ? 全ての訓練データ点を通るような関数は無数に存在する。 ?
残差2乗和は最小化されるが、汎化性能が低い。 ? データ数が有限の場合、解となる関数の集合を限定し、残差2乗和の 解を制限して考える必要がある。 ? 学習に用いられる制約は、さまざまな形式の複雑度(complexity)と して表現されることが多い。 ? 複雑度とは、入力空間内の小さな近傍領域内でのある種の規則性である。 ? 制約の強さは近傍の大きさによって決まる。 ? 制約の性質は入力空間の計量に依存する。
16.
2.8 制限付き推定法
17.
2.8 制限付き推定法 ? ノンパラメトリックな回帰や学習のためには、さまざまな方法が存在 する。 ?
本節では概要を述べるに留め、詳しくは以降の章で解説する。 ? ここでは、三つの代表的なクラスを紹介する。 ? 粗度に対する罰則とベイズ法 ? カーネル法と局所回帰 ? 基底関数と辞書による方法
18.
2.8.1 粗度に対する罰則とベイズ法 ? このクラスの方法では、残差2乗和
RSS(f) に粗度に対する罰則を加え を最小化することで関数のクラスを制限する。 ? ユーザーが指定する汎関数 J(f) は、関数fが入力空間の小さな領域で急激に変化 する場合に大きな値をとる。 ? 罰則関数や正則化(regularization)を用いると、推定対象の関数にあ る特定の滑らかさを持たせることができる。 ? 粗度に関する罰則を用いたアプローチ ? 第5章 ? ベイズ的な枠組み ? 第8章
19.
2.8.2 カーネル法と局所回帰 ? このクラスの方法では、局所的な近傍をどのように決めるか、どのよ うな関数を局所的に当てはめるか、といった事項を直接指定し、回帰 関数や条件付き期待値を明示的に推定する。 ?
局所的な近傍はカーネル関数(kernel function)を用いて定義される。 ? 例えば、ガウスカーネル ? 当然、高次元データに用いる際には、次元の呪いを避けるための工夫 が必要 ? 第6章
20.
2.8.3 基底関数と辞書による方法 ? このクラスのモデルは基底関数(basis
function)を線形展開した の形式で表される。 ? ? 5.2節および第9章のCARTモデルやMARSモデル ? 動径基底関数(radial basis function) ? ある特定の点を中心として対称的な広がりを持つp次元のカーネル ? ? 推定については6.7節
21.
2.8.3 基底関数と辞書による方法 ? 出力層が線形の単層フィードフォワード?ニューラルネットワーク ?
は活性化関数(activation function)として知られている ? ? 詳細は第11章 ? このような基底関数を用いる方法は、辞書による方法(dictionary method)として知られている。
22.
2.9 モデル選択と, バイアスと分散の トレードオフ
23.
モデルに含まれるパラメータ ? 多くのモデルが、平滑化パラメータ(smoothing parameter)や複雑度 パラメータ(complexity
parameter)を有している。 ? これらのパラメータはユーザーが指定するもので ? 罰則項の乗数 ? カーネルの幅 ? 基底関数の数 などの形でモデルに含まれている。 ? これらパラメータを決めるために訓練データの残差2乗和を使うと残 差が0になり過学習を起こす。
24.
バイアスと分散のトレードオフ ? ?0における期待予測誤差は と分解できる。 ? 第2項(バイアス項)と第3項(分散)はユーザーが制御可能な項である。 ?
両者はトレードオフの関係にある。
25.
バイアスと分散のトレードオフ モデル複雑度 増 ?
減 バイアス(の2乗) 減 ? 増 分散 増 ? 減 k最近傍法の近傍数k 少 ? 多 ? モデルの複雑度は、テスト誤差が最小化されるように、バイアスと分 散のトレードオフを調整して選ぶ。
26.
ご清聴ありがとうございました。
Download