22. 相澤?山崎研究室勉強会
Back propagation
? Case 1 最小二乗誤差を誤差関数に取る場合(回帰問題に使うことが
多い)
22
E(w) =
1
2
N
n=1
K
k=1
(tn
k yn
k )2
tn
k は教師信号,yn
k は MLP の出力.
それを出力ユニット分足しあわせたものを,全データ分足す
wkj( + 1) = wkj( ) + wkj( )
一般にこの修正を何度も繰り返すので, はイテレーション回数を示す.
23. 相澤?山崎研究室勉強会
Back propagation
? Case 1 最小二乗誤差を誤差関数に取る場合(回帰問題に使うことが
多い)
23
wkj( ) =
N
n=1
En(w)
wkj
=
N
n=1
En(w)
yn
k
yn
k
wkj
=
N
n=1
(tn
k yn
k )?g (yn
k,in)V n
j,out
where En(w) =
1
2
K
k=1
(tn
k yn
k )2
24. 相澤?山崎研究室勉強会
Back propagation
? Case 1 最小二乗誤差を誤差関数に取る場合(回帰問題に使うことが
多い)
24
ここで, n
k = (tn
k yn
k )?g (yn
k,in) とおくと
N
n=1
(tn
k yn
k )?g (yn
k,in)V n
j,out =
N
n=1
n
k V n
j,out
※これで出力層終わり
36. 相澤?山崎研究室勉強会
ILSVRC 2012
36
チーム Result 手法
SuperVision 15.3% Deep CNN
ISI 26.1% FV + PA
OXFORD_VGG 26.7% FV + SVM
XRCE/INRIA 27.1% FV + SVM
Univ. of
Amsterdam
29.6% FV + SVM
LEAR-XRCE 34.5% FV + NCM
1. Introduction to Convolutional Neural Network
37. 相澤?山崎研究室勉強会
ILSVRC 2013
37
チーム Result 手法
Clarifai 11.7% Deep CNN
NUS 13.0% SVM based + Deep CNN
ZF 13.5% Deep CNN
Andrew Howard 13.6% Deep CNN
OverFeat-NYU 14.1% Deep CNN
UvA-Euvison 14.2% Deep CNN
1. Introduction to Convolutional Neural Network
57. 相澤?山崎研究室勉強会
なぜ学習がうまくいくのか?
? Bengio「Although deep supervised neural networks were generally found
too di?cult to train before the use of unsupervised pre-training, there is one
notable exception: convolutional neural networks.」[Bengio, 2009]
!
? 一般に多層のNNは過学習を起こす
? なぜCNNはOK?
!
? One untested hypothesis by Bengio
? 入力数(fan-in)が少ないと誤差なく勾配伝搬する?
? 局所的に接続された階層構造は認識タスクに向いている?
? FULL < Random CNN < Supervised CNN
57
3. Other Topic
58. 相澤?山崎研究室勉強会
DropOut
? DropOut [Hinton et al., 2012]
? 学習時に,中間層の出力の50%をrandomに0にする
? 一時的に依存関係を大幅に減らすことで,強い正則化の効果があ
る
? 一般化→DropConnect [Wan et al., 2013]
? 50% -> (1-p)%
? Sparseな接続の重み行列に
58
3. Other Topic