狠狠撸

狠狠撸Share a Scribd company logo
PRML輪読会 第9回 made by
C.M.Bishop
modified by T.Sakaki

PATTERN RECOGNITION
AND MACHINE LEARNING
Chapter 5.4 The Hessian Matrix
Chapter 5.5 Regularization Neural Networks
5.4 ヘッセ行列概要
?逆伝播は,一階微分だけでなく,二階微分を評価する
のにも使える

?すべての重みパラメタとバイアス項をまとめてwとし
て扱うと,二階微分がヘッセ行列Hの成分Hijをなす.
ここで
?ヘッセ行列の役割
?NNの最適化アルゴリズムの一部で利用
?訓練データの変化に伴う再学習を効率化
?ベイズニューラルネットワーク(5.7節)のラプラス近似に利
用 ヘッセ行列の高速な近似?評価が重要な課題
5.4.1 対角近似
5.4.2 外積による近似
5.4.3 ヘッセ行列の逆行列
5.4.5 ヘッセ行列の厳密な評価
5.4.5 ヘッセ行列の厳密な評価
5.4.6 ヘッセ行列の積の高速な計算手法
5.5 ニューラルネットワークの正
則化
?ニューラルネットワークにユニット数
?入力ユニット/出力ユニット数:データ集合の次元
?隠れユニット数M:自由に設定可能

?Mはネットワーク内のパラメータ(重みとバ
イアス)を制御する
→ 適合不足と過学習のバランスを最適にす
るMがあるはず
~
E w

Ew

2

wT w

最適なMをどのように決定したらよいか?
5.5 ニューラルネットワークの正
則化
?アプローチ1
Mと2乗和誤差をグラフにプ
ロットし、検証用集合に対して、
誤差を最小とするMを選ぶ

?アプローチ2
比較的大きなMを選んだ後、誤
差関数に正則化項を追加するこ
とで複雑さを制御する

~
E w

Ew

2

wT w

重みベクトルwの平均ゼロ
のガウス事前分布の負の対
数
5.5.1 無矛盾なガウス事前分布
?入力→第1層隠れユニット z
?隠れユニット→出力ユニット
y
j

k

h

w ji xi

wj0

i

h

wkj x j

wk 0

j

?入力データの線形変換時、写像が変化しないように入
力から隠れユニットへの重みとバイアスを変換

xi

yk

~
xi
~
yk

axi

cyk

b

d

w ji

~
w ji

wj0

~
wj0

wkj

wk 0

~
wkj

~
wk 0

1
w ji
a
b
wj0
a

重み

w ji
i

重み

cwkj

cwk 0

バイア
ス

d

バイア
ス
5.5.1 無矛盾なガウス事前分布
元のデータで訓練した
ネットワーク

線形変換で変換したデータ
で訓練したネットワーク

前述の線形変換分だけ重みが異なる等価なネットワー
ク
→ 無矛盾である

どんな正則化項も無矛盾性を持つべ
き

w2

1

2

2

w W1

W1:第1層の重みの集合
W2:第2層の重みの集合

w2

2
w W2

正則化項は変速事前分布に対応

pw

1

,

2

exp

w2

1

2

w W1

w2

2

2

w W2
5.5.1 無矛盾なガウス事前分布
正則化項

変速事前分布

pw

1,

2

exp

w2

1

2

w W1

w2

2

2

w2

1

2

w W2

w W1

一般形

pw

exp

1
2
ak w
k
2 w W1

w

2
k

w2
j
j Wk

w2

2

2

w W2
5.5.2 早期終了
?早期終了:正則化とは異なる複雑さ制御アプ
ローチ
?非線形ネットワークモデルの訓練
→ 誤差関数を反復的に現象させる
→ ただし、検証用に関する誤差は減少→増加

ここで訓練を止め
る
→早期終了
5.5.2 早期終了
?尤度関数と事前分布の等高線表示
5.5.3 不変性
?入力に対する普遍性をニューラルネットワー
クでどのように扱うか?
普遍性の例:文字認識における反転や回転

不変性を取り込むことで汎化性能の向上を目
指す
5.5.3 不変性
5.5.4 接線伝播法
?誤差関数Eに不変性の保たれなさのペナルティを付け
足して、誤差関数をグレードアップさせる
?Ω:不変性の破れについてのペナルティ
?簡単のため、入力xnに対する変換が1つのパラメタξで表されると
する。
?Ωを次のようにすると、入力の変換に対して出力が変化しない場
合、この項が0に近づき誤差関数が小さくなる。

※ynkは、n個目のデータ点でのk番目の出力
5.5.4 接線伝播法
?yのξに関する微分は次のように計算できる。

?Jkiはヤコビ行列の要素であり、ニューラルネットワーク上の逆伝
播によって計算できる。(→5.3.4)
?τniは、n番目のデータ点の入力についての、ξに関する接線のi次元
目の要素である。
?この値は、実際に入力を微小変化させることで計算できる
5.5.5 接線伝播法と変換データでの訓
練
?対称性を扱うアプローチの中に、「データ点を自分で
変換して増やしてやる」という方法があったが、実は
これと接線伝播法には関係がある。
?入力の変換が1つのパラメタξで表現できるとして、入
力xに対して変換を行って得られるベクトルをs(x,ξ)と
表す。※s(x,0)==x
?データ数無限の極限では、二乗和誤差関数は次のよう
に書ける。
5.5.5 接線伝播法と変換データでの訓
練
5.5.5 接線伝播法と変換データでの訓
練
5.5.5 接線伝播法と変換データでの訓
練
5.5.5 接線伝播法と変換データでの訓
練
5.5.5 接線伝播法と変換データでの訓
練
5.5.6 畳み込みニューラルネットワー
ク
5.5.6 畳み込みニューラルネットワー
ク
5.5.6 畳み込みニューラルネットワー
ク
5.5.7 ソフト重み共有
5.5.7 ソフト重み共有

More Related Content

What's hot (20)

笔搁惭尝轮読#2
笔搁惭尝轮読#2笔搁惭尝轮読#2
笔搁惭尝轮読#2
matsuolab
?
笔搁惭尝轮読#4
笔搁惭尝轮読#4笔搁惭尝轮読#4
笔搁惭尝轮読#4
matsuolab
?
PRML 5章 PP.227-PP.247
PRML 5章 PP.227-PP.247PRML 5章 PP.227-PP.247
PRML 5章 PP.227-PP.247
Tomoki Hayashi
?
W8PRML5.1-5.3
W8PRML5.1-5.3W8PRML5.1-5.3
W8PRML5.1-5.3
Masahito Ohue
?
笔搁惭尝轮読#6
笔搁惭尝轮読#6笔搁惭尝轮読#6
笔搁惭尝轮読#6
matsuolab
?
PRML5.5
PRML5.5PRML5.5
PRML5.5
hiroki yamaoka
?
笔搁惭尝轮読#1
笔搁惭尝轮読#1笔搁惭尝轮読#1
笔搁惭尝轮読#1
matsuolab
?
笔搁惭尝第3章蔼京大笔搁惭尝轮讲
笔搁惭尝第3章蔼京大笔搁惭尝轮讲笔搁惭尝第3章蔼京大笔搁惭尝轮讲
笔搁惭尝第3章蔼京大笔搁惭尝轮讲
Sotetsu KOYAMADA(小山田創哲)
?
笔搁惭尝轮読#7
笔搁惭尝轮読#7笔搁惭尝轮読#7
笔搁惭尝轮読#7
matsuolab
?
PRML5
PRML5PRML5
PRML5
Hidekazu Oiwa
?
贰惭アルゴリズム
贰惭アルゴリズム贰惭アルゴリズム
贰惭アルゴリズム
Sotetsu KOYAMADA(小山田創哲)
?
2013.12.26 prml勉強会 線形回帰モデル3.2~3.4
2013.12.26 prml勉強会 線形回帰モデル3.2~3.42013.12.26 prml勉強会 線形回帰モデル3.2~3.4
2013.12.26 prml勉強会 線形回帰モデル3.2~3.4
Takeshi Sakaki
?
PRML 6.1章 カーネル法と双対表現
PRML 6.1章 カーネル法と双対表現PRML 6.1章 カーネル法と双対表現
PRML 6.1章 カーネル法と双対表現
hagino 3000
?
PRML6.4
PRML6.4PRML6.4
PRML6.4
hiroki yamaoka
?
PRML 上 2.3.6 ~ 2.5.2
PRML 上 2.3.6 ~ 2.5.2PRML 上 2.3.6 ~ 2.5.2
PRML 上 2.3.6 ~ 2.5.2
禎晃 山崎
?
2014.01.23 prml勉強会4.2確率的生成モデル
2014.01.23 prml勉強会4.2確率的生成モデル2014.01.23 prml勉強会4.2確率的生成モデル
2014.01.23 prml勉強会4.2確率的生成モデル
Takeshi Sakaki
?
PRML 第4章
PRML 第4章PRML 第4章
PRML 第4章
Akira Miyazawa
?
クラシックな机械学习入门:付録:よく使う线形代数の公式
クラシックな机械学习入门:付録:よく使う线形代数の公式クラシックな机械学习入门:付録:よく使う线形代数の公式
クラシックな机械学习入门:付録:よく使う线形代数の公式
Hiroshi Nakagawa
?
笔搁惭尝轮読#9
笔搁惭尝轮読#9笔搁惭尝轮読#9
笔搁惭尝轮読#9
matsuolab
?

2014.02.20冲5章ニューラルネットワーク