狠狠撸

狠狠撸Share a Scribd company logo
逆誤差伝播諸公式メモ
大邦将猛
2019 年 5 月 19 日
1 順伝播の式
a
(l+1)
i =
n∑
j=1
W
(l+1)
ij z
(l)
j (i = 1, 2, 3, ..., m l = 1, 2, 3, ..., N ? 1) (1.1)
z
(l)
i = ReLUα(a
(l)
i ) (i = 1, 2, 3, ..., n l = 1, 2, 3, ..., N ? 1) (1.2)
z
(N)
i =
ea
(N)
i
∑c
k=1 ea
(N)
k
(i = 1, 2, 3, ..., c) (1.3)
y = ReLUα(x) =
{
x (x ≥ 0)
αx (x < 0 0 ≤ α < 1)
(1.4)
2 順伝播の式から得られる偏微分
式 (1.1) から
?a
(l)
i
?z
(l?1)
j
= W
(l)
ij (l = 2, 3, ..., N) (2.1)
?a
(l)
i
?W
(l)
jk
=
{
z
(l?1)
k (i = j)
0 (i ?= j)
(l = 2, 3, ..., N) (2.2)
式 (1.2) から
?z
(l)
i
?a
(l)
j
=
?
??
??
1 (i = j x ≥ 0)
α (i = j x < 0)
0 (i ?= j)
(l = 1, 2, 3, ..., N ? 1) (2.3)
式 (1.3) から
?z
(N)
i
?a
(N)
j
が求められるがやや複雑なので場合分けして求める
まず η を次式のようにおき、a
(N)
1 , a
(N)
2 , a
(N)
3 , ..., a
(N)
c の変数に依存する関数とみなす。
η = f(a
(N)
1 , a
(N)
2 , a
(N)
3 , ..., a(N)
c ) =
c∑
k=1
ea
(N)
k (2.4)
1
(i ?= j) のとき、式 (1.3) の分子 ea
(N)
i は a
(N)
j
に依存しないから、
?z
(N)
i
?a
(N)
j
=
?
?a
(N)
j
(
ea
(N)
i
η
) = ea
(N)
i
?
?a
(N)
j
(
1
η
) = ea
(N)
i
?η
?a
(N)
j
?
?η
(
1
η
) = ea
(N)
i
?η
?a
(N)
j
(
?1
η2
) (2.5)
ところで ?η
?a
(N)
j
は単純に
?η
?a
(N)
j
= ea
(N)
j (2.6)
なので式 (2.5) は結局
?z
(N)
i
?a
(N)
j
= (
?ea
(N)
i ea
(N)
j
η2
) (2.7)
(i = j) のとき、今度は分子 ea
(N)
i は a
(N)
i に依存するので、
?z
(N)
i
?a
(N)
i
=
?
?a
(N)
i
(
ea
(N)
i
η
) = (
?
?a
(N)
i
ea
(N)
i )
1
η
+ ea
(N)
i (
?
?a
(N)
i
1
η
) =
ea
(N)
i
η
?
(ea
(N)
i )2
η2
(2.8)
ここで
Iij =
{
1 (i = j のとき)
0 (i ?= j のとき)
(2.9)
のような記号を導入すれば式 (2.5) と式 (2.8) は合わせて以下の偏微分の式を与える
?z
(N)
i
?a
(N)
j
=
Iijea
(N)
i
η
?
ea
(N)
i ea
(N)
j
η2
(2.10)
3 クロスエントロピーの式再掲
ミニバッチ平均
H(Y, y) = ?
∑P Hmax
P H=1 Y<P H>
log(y<P H>
)
PHmax
(3.1)
サンプル一つについて
H(Y, y) = ?Y<P H>
log(y<P H>
) = ?
c∑
k=1
Y <P H>
k log(y<P H>
k ) (3.2)
以下サンプル一つの勾配をしばらく計算するので式 (3.2) のサンプル番号 < PH > を省略する
ここで教師データ Y は分類クラス CP H のデータであるとする
2
このとき Y は以下の One-hot 表現になっている。すなわち YCP H
の成分のみが1でその他の成分
がすべて0のベクトルである。式 (2.9) で導入した記号で成分を IiCP H
と書くことができる。
Y =
?
?
?
?
?
?
?
?
?
?
?
?
?
?
Y1
Y2
...
YCP H ?1
YCP H
YCP H +1
...
0
?
?
?
?
?
?
?
?
?
?
?
?
?
?
=
?
?
?
?
?
?
?
?
?
?
?
?
?
?
0
0
...
0
1
0
...
0
?
?
?
?
?
?
?
?
?
?
?
?
?
?
=
?
?
?
?
?
?
?
?
?
?
?
?
?
?
I1CP H
I2CP H
...
ICP H ?1,CP H
ICP H CP H
ICP H +1,CP H
...
IcCP H
?
?
?
?
?
?
?
?
?
?
?
?
?
?
(3.3)
一方分類器の推論結果 y はソフトマックス関数なので以下のように書かれる。式 (2.4) の η を使っ
て成分を ea
(N)
i
η と書くこともできる。
y =
?
?
?
?
?
?
?
?
?
?
y1
y2
...
yCP H
...
yc
?
?
?
?
?
?
?
?
?
?
=
1
∑c
k=1 ea
(N)
k
?
?
?
?
?
?
?
?
?
?
?
?
ea
(N)
1
ea
(N)
2
...
e
a
(N)
CP H
...
ea(N)
c
?
?
?
?
?
?
?
?
?
?
?
?
=
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
ea
(N)
1
η
ea
(N)
2
η
...
e
a
(N)
CP H
η
...
ea
(N)
c
η
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
(3.4)
対数をとって負号を付すと
?log(y) =
?
?
?
?
?
?
?
?
?
?
?log(y1)
?log(y2)
...
?log(yCP H
)
...
?log(yc)
?
?
?
?
?
?
?
?
?
?
= log(
c∑
k=1
ea
(N)
k )
?
?
?
?
?
?
?
?
?
?
1
1
...
1
...
1
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
log(ea
(N)
1 )
log(ea
(N)
2 l)
...
log(e
a
(N)
CP H )
...
log(ea(N)
c )
?
?
?
?
?
?
?
?
?
?
?
?
= log(
c∑
k=1
ea
(N)
k )
?
?
?
?
?
?
?
?
?
?
1
1
...
1
...
1
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
a
(N)
1
a
(N)
2
...
a
(N)
CP H
...
a
(N)
c
?
?
?
?
?
?
?
?
?
?
?
?log(y) =
?
?
?
?
?
?
?
?
?
?
?
?
log(
∑c
k=1 ea
(N)
k )
log(
∑c
k=1 ea
(N)
k )
...
log(
∑c
k=1 ea
(N)
k )
...
log(
∑c
k=1 ea
(N)
k )
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
a
(N)
1
a
(N)
2
...
a
(N)
CP H
...
a
(N)
c
?
?
?
?
?
?
?
?
?
?
?
(3.5)
3
式 (3.3) と (3.5) の内積をとればクロスエントロピー式 (3.2) が求まる。
H(Y, y) = ?Y<P H>
log(y<P H>
) = log(
c∑
k=1
ea
(N)
k ) ? a
(N)
CP H
(3.6)
4 クロスエントロピーの勾配を求めていく
まずなにを求めたかったのか再度言及する
クロスエントロピーはニューラルネットワークのトポロジー中に存在するニューロンとニューロン
の間の重み係数 Wl
ij (i, j = 1, 2, 3, ....かつ l = 1, 2, 3, ..., N) すべてで構成された非常に次元数の
大きい空間のベクトルに依存する関数である。この空間におけるクロスエントロピーの勾配が求め
たい
具体的には以下のようにすべてのニューラルネットワークの層のすべてのニューロンをつなぐ重み
での偏微分
?H
?W
(1)
11
,
?H
?W
(1)
12
,
?H
?W
(1)
13
, .....
?H
?W
(1)
n2n1
,
?H
?W
(2)
11
,
?H
?W
(2)
12
,
?H
?W
(2)
13
, .....
?H
?W
(2)
n3n2
,
....
?H
?W
(N)
11
,
?H
?W
(N)
12
,
?H
?W
(N)
13
, .....
?H
?W
(N)
cnN?1
をすべて求めなければならない
しかし式 (3.6) は第 N 層の活性 a
(
iN) への依存しかないのですぐには求まらない。そこで式
(2.1),(2.2),(2.3),(2.10) とチェーンルールを用いて、上のすべての偏微分を求めていく
式 (3.6) は層の N に関してのみ変数を含むのでまず第 N 層の偏微分が求められる
?
?W
(N)
ij
H =
?a
(N)
i
?W
(N)
ij
?
?a
(N)
i
H =
?H
?a
(N)
i
z
(N?1)
j (4.1)
ここでは式 (2.2) を使っている
つぎに ?H
?a
(N)
i
を求める方法はないか考える。
式 (2.4) を使い η を経由してチェーンルールを使うと (i ?= CP H のとき, 式 (3.6) の第二項が定
数としてみなせるので式 (2.9) の記号を使えることに注意する)
?H
?a
(N)
i
=
?η
?a
(N)
i
?H
?η
? IiCP H
=
ea
(N)
i
η
? IiCP H
(4.2)
δ
(N)
i = ?H
?a
(N)
i
を定義し、上の式 (4.2) に式 (3.3) と式 (3.4) の結果を代入すると
δ
(N)
i =
?H
?a
(N)
i
= yi ? Yi (4.3)
式 (4.3) は重要な意味を持つ式でクロスエントロピーを最終層の活性 a
(N)
i で偏微分するとこの分
類器の推論 yi と真の答え Yi の差がでてくる。そのため誤差をイメージする δ が文字として充てら
4
れているのである。
第 N 層以外にも δ
(l)
i = ?H
?a
(l)
i
を定義してみる。ここでもう一度式 (4.1) をみると実はこれは第 N
層にかぎらず成立することに気づく。なぜなら式 (2.2) がすべての層で成り立つからである。
?
?W
(l)
ij
H =
?H
?a
(l)
i
z
(l?1)
j = δ
(l)
i z
(l?1)
j (4.4)
そして式 (2.1) を使うと第 l 層の a と第 l ? 1 層の z の関係を使ってニューラルネットワークの
出力側から入力側に誤差 δ を引き継ぐ漸化式がつくれることがわかる。実際
δ
(l)
i =
?H
?a
(l)
i
=
lmax∑
j=1
l+1max∑
k=1
?z
(l)
j
?a
(l)
i
?a
(l+1)
k
?z
(l)
j
?H
?a
(l+1)
k
=
lmax∑
j=1
l+1max∑
k=1
?z
(l)
j
?a
(l)
i
?a
(l+1)
k
?z
(l)
j
δ
(l+1)
k (4.5)
式 (2.1) を代入して
δ
(l)
i =
lmax∑
j=1
l+1max∑
k=1
?z
(l)
j
?a
(l)
i
W
(l+1)
kj δ
(l+1)
k
さらに式 (2.3) を代入して、(ただし後述する αSTEP 関数を導入する)次式を得る。
δ
(l)
i =
l+1max∑
k=1
αSTEP(a
(l)
i )W
(l+1)
ki δ
(l+1)
k (4.6)
αSTEP(x)=
{
1 (x ≥ 0)
α (x < 0 0 ≤ α < 1)
(4.7)
5 誤差逆伝播のアルゴリズムまとめ
これで誤差逆伝播に必要なすべての式を得た
式 (3.1) と (3.2) の関係をもう一度注意するため、再度サンプル番号 < PH > をつけてアルゴリズ
ムをまとめる
【サンプル毎にする処理】1. 順伝播計算し、途中の層の z
(l)<P H>
i をすべて保存しておく
2. 最終層の誤差 δ
(N)<P H>
i = y<P H>
i ? Y <P H>
i を計算する【式 (4.3)】
3. 漸化式を用いてすべての層の誤差 δ
(l)<P H>
i を求める【式 (4.6)】
δ
(l)<P H>
i =
l+1max∑
k=1
αSTEP(a
(l)<P H>
i )W
(l+1)
ki δ
(l+1)<P H>
k
4.「1.」の z と「2-3.」の δ を使いクロスエントロピーのすべての変数に関する偏微分を求める【式
(4.4)】
?H<P H>
?W
(l)
ij
= δ
(l)<P H>
i z
(l?1)<P H>
j
【ミニバッチ毎にする処理】5.「1-4.」の計算をすべてのサンプル(PH = 1, 2, 3, ..., PHmax) でお
こない平均値の勾配を求める
?H =
∑P Hma x
P H=1
?H<P H>
?W
(l)
ij
PHmax
=
∑P Hma x
P H=1 δ
(l)<P H>
i z
(l?1)<P H>
j
PHmax
(5.1)
5

More Related Content

What's hot (19)

東京都市大学 データ解析入門 7 回帰分析とモデル選択 2
東京都市大学 データ解析入門 7 回帰分析とモデル選択 2東京都市大学 データ解析入門 7 回帰分析とモデル選択 2
東京都市大学 データ解析入門 7 回帰分析とモデル選択 2
hirokazutanaka
?
凸最適化 ? 双対定理とソルバーCVXPYの紹介 ?
凸最適化 ? 双対定理とソルバーCVXPYの紹介 ?凸最適化 ? 双対定理とソルバーCVXPYの紹介 ?
凸最適化 ? 双対定理とソルバーCVXPYの紹介 ?
Tomoki Yoshida
?
Linera lgebra
Linera lgebraLinera lgebra
Linera lgebra
Shin Asakawa
?
東京都市大学 データ解析入門 2 行列分解 1
東京都市大学 データ解析入門 2 行列分解 1東京都市大学 データ解析入門 2 行列分解 1
東京都市大学 データ解析入門 2 行列分解 1
hirokazutanaka
?
PRML 4.1 Discriminant Function
PRML 4.1 Discriminant FunctionPRML 4.1 Discriminant Function
PRML 4.1 Discriminant Function
Shintaro Takemura
?
20150922冲楕円関数とおもしろい応用
20150922冲楕円関数とおもしろい応用20150922冲楕円関数とおもしろい応用
20150922冲楕円関数とおもしろい応用
matsumoring
?
東京都市大学 データ解析入門 6 回帰分析とモデル選択 1
東京都市大学 データ解析入門 6 回帰分析とモデル選択 1東京都市大学 データ解析入門 6 回帰分析とモデル選択 1
東京都市大学 データ解析入門 6 回帰分析とモデル選択 1
hirokazutanaka
?
Solucion parcialiii v2_2015i
Solucion parcialiii v2_2015iSolucion parcialiii v2_2015i
Solucion parcialiii v2_2015i
zebastian soderstrom
?
第4回惭补肠丑颈苍别尝别补谤苍颈苍驳のための数学塾资料(浅川)
第4回惭补肠丑颈苍别尝别补谤苍颈苍驳のための数学塾资料(浅川)第4回惭补肠丑颈苍别尝别补谤苍颈苍驳のための数学塾资料(浅川)
第4回惭补肠丑颈苍别尝别补谤苍颈苍驳のための数学塾资料(浅川)
Shin Asakawa
?
20170327冲レムニスケートにまつわる色々な计算
20170327冲レムニスケートにまつわる色々な计算20170327冲レムニスケートにまつわる色々な计算
20170327冲レムニスケートにまつわる色々な计算
matsumoring
?
【数学】2次方程式テスト 难易度★☆☆☆☆(1)
【数学】2次方程式テスト 难易度★☆☆☆☆(1)【数学】2次方程式テスト 难易度★☆☆☆☆(1)
【数学】2次方程式テスト 难易度★☆☆☆☆(1)
Courslide
?
東京都市大学 データ解析入門 4 スパース性と圧縮センシング1
東京都市大学 データ解析入門 4 スパース性と圧縮センシング1東京都市大学 データ解析入門 4 スパース性と圧縮センシング1
東京都市大学 データ解析入門 4 スパース性と圧縮センシング1
hirokazutanaka
?
東京都市大学 データ解析入門 8 クラスタリングと分類分析 1
東京都市大学 データ解析入門 8 クラスタリングと分類分析 1東京都市大学 データ解析入門 8 クラスタリングと分類分析 1
東京都市大学 データ解析入門 8 クラスタリングと分類分析 1
hirokazutanaka
?
[DL輪読会]Convolutional Conditional Neural Processesと Neural Processes Familyの紹介
[DL輪読会]Convolutional Conditional Neural Processesと Neural Processes Familyの紹介[DL輪読会]Convolutional Conditional Neural Processesと Neural Processes Familyの紹介
[DL輪読会]Convolutional Conditional Neural Processesと Neural Processes Familyの紹介
Deep Learning JP
?
ラビットチャレンジレポート 応用数学
ラビットチャレンジレポート 応用数学ラビットチャレンジレポート 応用数学
ラビットチャレンジレポート 応用数学
ssuserf4860b
?
はじめてのパターン認識 第6章 後半
はじめてのパターン認識 第6章 後半はじめてのパターン認識 第6章 後半
はじめてのパターン認識 第6章 後半
Prunus 1350
?
東京都市大学 データ解析入門 3 行列分解 2
東京都市大学 データ解析入門 3 行列分解 2東京都市大学 データ解析入門 3 行列分解 2
東京都市大学 データ解析入門 3 行列分解 2
hirokazutanaka
?
東京都市大学 データ解析入門 9 クラスタリングと分類分析 2
東京都市大学 データ解析入門 9 クラスタリングと分類分析 2東京都市大学 データ解析入門 9 クラスタリングと分類分析 2
東京都市大学 データ解析入門 9 クラスタリングと分類分析 2
hirokazutanaka
?
東京都市大学 データ解析入門 7 回帰分析とモデル選択 2
東京都市大学 データ解析入門 7 回帰分析とモデル選択 2東京都市大学 データ解析入門 7 回帰分析とモデル選択 2
東京都市大学 データ解析入門 7 回帰分析とモデル選択 2
hirokazutanaka
?
凸最適化 ? 双対定理とソルバーCVXPYの紹介 ?
凸最適化 ? 双対定理とソルバーCVXPYの紹介 ?凸最適化 ? 双対定理とソルバーCVXPYの紹介 ?
凸最適化 ? 双対定理とソルバーCVXPYの紹介 ?
Tomoki Yoshida
?
東京都市大学 データ解析入門 2 行列分解 1
東京都市大学 データ解析入門 2 行列分解 1東京都市大学 データ解析入門 2 行列分解 1
東京都市大学 データ解析入門 2 行列分解 1
hirokazutanaka
?
20150922冲楕円関数とおもしろい応用
20150922冲楕円関数とおもしろい応用20150922冲楕円関数とおもしろい応用
20150922冲楕円関数とおもしろい応用
matsumoring
?
東京都市大学 データ解析入門 6 回帰分析とモデル選択 1
東京都市大学 データ解析入門 6 回帰分析とモデル選択 1東京都市大学 データ解析入門 6 回帰分析とモデル選択 1
東京都市大学 データ解析入門 6 回帰分析とモデル選択 1
hirokazutanaka
?
第4回惭补肠丑颈苍别尝别补谤苍颈苍驳のための数学塾资料(浅川)
第4回惭补肠丑颈苍别尝别补谤苍颈苍驳のための数学塾资料(浅川)第4回惭补肠丑颈苍别尝别补谤苍颈苍驳のための数学塾资料(浅川)
第4回惭补肠丑颈苍别尝别补谤苍颈苍驳のための数学塾资料(浅川)
Shin Asakawa
?
20170327冲レムニスケートにまつわる色々な计算
20170327冲レムニスケートにまつわる色々な计算20170327冲レムニスケートにまつわる色々な计算
20170327冲レムニスケートにまつわる色々な计算
matsumoring
?
【数学】2次方程式テスト 难易度★☆☆☆☆(1)
【数学】2次方程式テスト 难易度★☆☆☆☆(1)【数学】2次方程式テスト 难易度★☆☆☆☆(1)
【数学】2次方程式テスト 难易度★☆☆☆☆(1)
Courslide
?
東京都市大学 データ解析入門 4 スパース性と圧縮センシング1
東京都市大学 データ解析入門 4 スパース性と圧縮センシング1東京都市大学 データ解析入門 4 スパース性と圧縮センシング1
東京都市大学 データ解析入門 4 スパース性と圧縮センシング1
hirokazutanaka
?
東京都市大学 データ解析入門 8 クラスタリングと分類分析 1
東京都市大学 データ解析入門 8 クラスタリングと分類分析 1東京都市大学 データ解析入門 8 クラスタリングと分類分析 1
東京都市大学 データ解析入門 8 クラスタリングと分類分析 1
hirokazutanaka
?
[DL輪読会]Convolutional Conditional Neural Processesと Neural Processes Familyの紹介
[DL輪読会]Convolutional Conditional Neural Processesと Neural Processes Familyの紹介[DL輪読会]Convolutional Conditional Neural Processesと Neural Processes Familyの紹介
[DL輪読会]Convolutional Conditional Neural Processesと Neural Processes Familyの紹介
Deep Learning JP
?
ラビットチャレンジレポート 応用数学
ラビットチャレンジレポート 応用数学ラビットチャレンジレポート 応用数学
ラビットチャレンジレポート 応用数学
ssuserf4860b
?
はじめてのパターン認識 第6章 後半
はじめてのパターン認識 第6章 後半はじめてのパターン認識 第6章 後半
はじめてのパターン認識 第6章 後半
Prunus 1350
?
東京都市大学 データ解析入門 3 行列分解 2
東京都市大学 データ解析入門 3 行列分解 2東京都市大学 データ解析入門 3 行列分解 2
東京都市大学 データ解析入門 3 行列分解 2
hirokazutanaka
?
東京都市大学 データ解析入門 9 クラスタリングと分類分析 2
東京都市大学 データ解析入門 9 クラスタリングと分類分析 2東京都市大学 データ解析入門 9 クラスタリングと分類分析 2
東京都市大学 データ解析入門 9 クラスタリングと分類分析 2
hirokazutanaka
?

Similar to Nn bp formula (20)

070 統計的推測 母集団と推定
070 統計的推測 母集団と推定070 統計的推測 母集団と推定
070 統計的推測 母集団と推定
t2tarumi
?
第8章 カ?ウス過程回帰による異常検知
第8章 カ?ウス過程回帰による異常検知第8章 カ?ウス過程回帰による異常検知
第8章 カ?ウス過程回帰による異常検知
Chika Inoshita
?
公開鍵暗号7: 楕円曲線の数理
公開鍵暗号7: 楕円曲線の数理公開鍵暗号7: 楕円曲線の数理
公開鍵暗号7: 楕円曲線の数理
Joe Suzuki
?
アルゴリズムイントロダクション15章 動的計画法
アルゴリズムイントロダクション15章 動的計画法アルゴリズムイントロダクション15章 動的計画法
アルゴリズムイントロダクション15章 動的計画法
nitoyon
?
topology of musical data
topology of musical datatopology of musical data
topology of musical data
Tatsuki SHIMIZU
?
【展開用】日曜数学会 Sinc関数の積分について
【展開用】日曜数学会 Sinc関数の積分について【展開用】日曜数学会 Sinc関数の積分について
【展開用】日曜数学会 Sinc関数の積分について
和人 桐ケ谷
?
量子アニーリングを用いたクラスタ分析
量子アニーリングを用いたクラスタ分析量子アニーリングを用いたクラスタ分析
量子アニーリングを用いたクラスタ分析
Shu Tanaka
?
ベイズ推论による机械学习入门 第4章
ベイズ推论による机械学习入门 第4章ベイズ推论による机械学习入门 第4章
ベイズ推论による机械学习入门 第4章
YosukeAkasaka
?
ndwave4.pdf
ndwave4.pdfndwave4.pdf
ndwave4.pdf
MuiKanarine
?
公開鍵暗号8: 有限体上の楕円曲線の位数計算
公開鍵暗号8: 有限体上の楕円曲線の位数計算公開鍵暗号8: 有限体上の楕円曲線の位数計算
公開鍵暗号8: 有限体上の楕円曲線の位数計算
Joe Suzuki
?
PRML ヘ?イス?ロシ?スティック回帰
PRML ヘ?イス?ロシ?スティック回帰PRML ヘ?イス?ロシ?スティック回帰
PRML ヘ?イス?ロシ?スティック回帰
hagino 3000
?
Grcosmo 44 slide
Grcosmo 44 slideGrcosmo 44 slide
Grcosmo 44 slide
KENTAROHARA
?
パターン认识と机械学习6章(カーネル法)
パターン认识と机械学习6章(カーネル法)パターン认识と机械学习6章(カーネル法)
パターン认识と机械学习6章(カーネル法)
Yukara Ikemiya
?
公開鍵暗号4: 有限体
公開鍵暗号4: 有限体公開鍵暗号4: 有限体
公開鍵暗号4: 有限体
Joe Suzuki
?
Infomation geometry(overview)
Infomation geometry(overview)Infomation geometry(overview)
Infomation geometry(overview)
Yoshitake Misaki
?
多次元信号処理の基础と画像処理のための二次元変换技术
多次元信号処理の基础と画像処理のための二次元変换技术多次元信号処理の基础と画像処理のための二次元変换技术
多次元信号処理の基础と画像処理のための二次元変换技术
Shogo Muramatsu
?
PRML 6.1章 カーネル法と双対表現
PRML 6.1章 カーネル法と双対表現PRML 6.1章 カーネル法と双対表現
PRML 6.1章 カーネル法と双対表現
hagino 3000
?
ディジタル信号処理の課題解説 その3
ディジタル信号処理の課題解説 その3ディジタル信号処理の課題解説 その3
ディジタル信号処理の課題解説 その3
noname409
?
2022年度秋学期 応用数学(解析) 第7回 2階線形微分方程式(1) (2022. 11. 10)
2022年度秋学期 応用数学(解析) 第7回 2階線形微分方程式(1) (2022. 11. 10) 2022年度秋学期 応用数学(解析) 第7回 2階線形微分方程式(1) (2022. 11. 10)
2022年度秋学期 応用数学(解析) 第7回 2階線形微分方程式(1) (2022. 11. 10)
Akira Asano
?
JOIss2020 発表資料
JOIss2020 発表資料JOIss2020 発表資料
JOIss2020 発表資料
mdkcpp 1015
?
070 統計的推測 母集団と推定
070 統計的推測 母集団と推定070 統計的推測 母集団と推定
070 統計的推測 母集団と推定
t2tarumi
?
第8章 カ?ウス過程回帰による異常検知
第8章 カ?ウス過程回帰による異常検知第8章 カ?ウス過程回帰による異常検知
第8章 カ?ウス過程回帰による異常検知
Chika Inoshita
?
公開鍵暗号7: 楕円曲線の数理
公開鍵暗号7: 楕円曲線の数理公開鍵暗号7: 楕円曲線の数理
公開鍵暗号7: 楕円曲線の数理
Joe Suzuki
?
アルゴリズムイントロダクション15章 動的計画法
アルゴリズムイントロダクション15章 動的計画法アルゴリズムイントロダクション15章 動的計画法
アルゴリズムイントロダクション15章 動的計画法
nitoyon
?
【展開用】日曜数学会 Sinc関数の積分について
【展開用】日曜数学会 Sinc関数の積分について【展開用】日曜数学会 Sinc関数の積分について
【展開用】日曜数学会 Sinc関数の積分について
和人 桐ケ谷
?
量子アニーリングを用いたクラスタ分析
量子アニーリングを用いたクラスタ分析量子アニーリングを用いたクラスタ分析
量子アニーリングを用いたクラスタ分析
Shu Tanaka
?
ベイズ推论による机械学习入门 第4章
ベイズ推论による机械学习入门 第4章ベイズ推论による机械学习入门 第4章
ベイズ推论による机械学习入门 第4章
YosukeAkasaka
?
公開鍵暗号8: 有限体上の楕円曲線の位数計算
公開鍵暗号8: 有限体上の楕円曲線の位数計算公開鍵暗号8: 有限体上の楕円曲線の位数計算
公開鍵暗号8: 有限体上の楕円曲線の位数計算
Joe Suzuki
?
PRML ヘ?イス?ロシ?スティック回帰
PRML ヘ?イス?ロシ?スティック回帰PRML ヘ?イス?ロシ?スティック回帰
PRML ヘ?イス?ロシ?スティック回帰
hagino 3000
?
パターン认识と机械学习6章(カーネル法)
パターン认识と机械学习6章(カーネル法)パターン认识と机械学习6章(カーネル法)
パターン认识と机械学习6章(カーネル法)
Yukara Ikemiya
?
公開鍵暗号4: 有限体
公開鍵暗号4: 有限体公開鍵暗号4: 有限体
公開鍵暗号4: 有限体
Joe Suzuki
?
Infomation geometry(overview)
Infomation geometry(overview)Infomation geometry(overview)
Infomation geometry(overview)
Yoshitake Misaki
?
多次元信号処理の基础と画像処理のための二次元変换技术
多次元信号処理の基础と画像処理のための二次元変换技术多次元信号処理の基础と画像処理のための二次元変换技术
多次元信号処理の基础と画像処理のための二次元変换技术
Shogo Muramatsu
?
PRML 6.1章 カーネル法と双対表現
PRML 6.1章 カーネル法と双対表現PRML 6.1章 カーネル法と双対表現
PRML 6.1章 カーネル法と双対表現
hagino 3000
?
ディジタル信号処理の課題解説 その3
ディジタル信号処理の課題解説 その3ディジタル信号処理の課題解説 その3
ディジタル信号処理の課題解説 その3
noname409
?
2022年度秋学期 応用数学(解析) 第7回 2階線形微分方程式(1) (2022. 11. 10)
2022年度秋学期 応用数学(解析) 第7回 2階線形微分方程式(1) (2022. 11. 10) 2022年度秋学期 応用数学(解析) 第7回 2階線形微分方程式(1) (2022. 11. 10)
2022年度秋学期 応用数学(解析) 第7回 2階線形微分方程式(1) (2022. 11. 10)
Akira Asano
?
JOIss2020 発表資料
JOIss2020 発表資料JOIss2020 発表資料
JOIss2020 発表資料
mdkcpp 1015
?

Recently uploaded (11)

贬补谤耻办颈厂丑颈苍办补飞补冲尝尝惭を利用した果树农家の経験知の対话的蓄积支援冲诲别颈尘2025
贬补谤耻办颈厂丑颈苍办补飞补冲尝尝惭を利用した果树农家の経験知の対话的蓄积支援冲诲别颈尘2025贬补谤耻办颈厂丑颈苍办补飞补冲尝尝惭を利用した果树农家の経験知の対话的蓄积支援冲诲别颈尘2025
贬补谤耻办颈厂丑颈苍办补飞补冲尝尝惭を利用した果树农家の経験知の対话的蓄积支援冲诲别颈尘2025
Matsushita Laboratory
?
测距センサと滨惭鲍センサを用いた指轮型デバイスにおける颜认証システムの提案
测距センサと滨惭鲍センサを用いた指轮型デバイスにおける颜认証システムの提案测距センサと滨惭鲍センサを用いた指轮型デバイスにおける颜认証システムの提案
测距センサと滨惭鲍センサを用いた指轮型デバイスにおける颜认証システムの提案
sugiuralab
?
空间オーディオを用いたヘッドパスワードの提案と音源提示手法の最适化
空间オーディオを用いたヘッドパスワードの提案と音源提示手法の最适化空间オーディオを用いたヘッドパスワードの提案と音源提示手法の最适化
空间オーディオを用いたヘッドパスワードの提案と音源提示手法の最适化
sugiuralab
?
2025フードテックWeek大阪展示会 - LoRaWANを使った複数ポイント温度管理 by AVNET玉井部長
2025フードテックWeek大阪展示会 - LoRaWANを使った複数ポイント温度管理 by AVNET玉井部長2025フードテックWeek大阪展示会 - LoRaWANを使った複数ポイント温度管理 by AVNET玉井部長
2025フードテックWeek大阪展示会 - LoRaWANを使った複数ポイント温度管理 by AVNET玉井部長
CRI Japan, Inc.
?
実はアナタの身近にある!? Linux のチェックポイント/レストア機能 (NTT Tech Conference 2025 発表資料)
実はアナタの身近にある!? Linux のチェックポイント/レストア機能 (NTT Tech Conference 2025 発表資料)実はアナタの身近にある!? Linux のチェックポイント/レストア機能 (NTT Tech Conference 2025 発表資料)
実はアナタの身近にある!? Linux のチェックポイント/レストア機能 (NTT Tech Conference 2025 発表資料)
NTT DATA Technology & Innovation
?
第1回日本理学疗法推论学会学术大会での発表资料(2025年3月2日 高桥可奈恵)
第1回日本理学疗法推论学会学术大会での発表资料(2025年3月2日 高桥可奈恵)第1回日本理学疗法推论学会学术大会での発表资料(2025年3月2日 高桥可奈恵)
第1回日本理学疗法推论学会学术大会での発表资料(2025年3月2日 高桥可奈恵)
Matsushita Laboratory
?
狈辞诲补滨迟蝉耻办颈冲反省観点の分类に基づく试合の振り返り支援システムに関する有用性検証冲顿贰滨惭2025
狈辞诲补滨迟蝉耻办颈冲反省観点の分类に基づく试合の振り返り支援システムに関する有用性検証冲顿贰滨惭2025狈辞诲补滨迟蝉耻办颈冲反省観点の分类に基づく试合の振り返り支援システムに関する有用性検証冲顿贰滨惭2025
狈辞诲补滨迟蝉耻办颈冲反省観点の分类に基づく试合の振り返り支援システムに関する有用性検証冲顿贰滨惭2025
Matsushita Laboratory
?
【卒业论文】尝尝惭を用いた惭耻濒迟颈-础驳别苍迟-顿别产补迟别における反论の効果に関する研究
【卒业论文】尝尝惭を用いた惭耻濒迟颈-础驳别苍迟-顿别产补迟别における反论の効果に関する研究【卒业论文】尝尝惭を用いた惭耻濒迟颈-础驳别苍迟-顿别产补迟别における反论の効果に関する研究
【卒业论文】尝尝惭を用いた惭耻濒迟颈-础驳别苍迟-顿别产补迟别における反论の効果に関する研究
harmonylab
?
ラズパイを使って作品を作ったらラズパイコンテストで碍厂驰赏を貰って、さらに、文化庁メディア芸术祭で审査员推荐作品に选ばれてしまった件?自作チップでラズパイ...
ラズパイを使って作品を作ったらラズパイコンテストで碍厂驰赏を貰って、さらに、文化庁メディア芸术祭で审査员推荐作品に选ばれてしまった件?自作チップでラズパイ...ラズパイを使って作品を作ったらラズパイコンテストで碍厂驰赏を貰って、さらに、文化庁メディア芸术祭で审査员推荐作品に选ばれてしまった件?自作チップでラズパイ...
ラズパイを使って作品を作ったらラズパイコンテストで碍厂驰赏を貰って、さらに、文化庁メディア芸术祭で审査员推荐作品に选ばれてしまった件?自作チップでラズパイ...
Industrial Technology Research Institute (ITRI)(工業技術研究院, 工研院)
?
【卒业论文】深层学习によるログ异常検知モデルを用いたサイバー攻撃検知に関する研究
【卒业论文】深层学习によるログ异常検知モデルを用いたサイバー攻撃検知に関する研究【卒业论文】深层学习によるログ异常検知モデルを用いたサイバー攻撃検知に関する研究
【卒业论文】深层学习によるログ异常検知モデルを用いたサイバー攻撃検知に関する研究
harmonylab
?
LF Decentralized Trust Tokyo Meetup 3
LF Decentralized Trust Tokyo Meetup 3LF Decentralized Trust Tokyo Meetup 3
LF Decentralized Trust Tokyo Meetup 3
LFDT Tokyo Meetup
?
贬补谤耻办颈厂丑颈苍办补飞补冲尝尝惭を利用した果树农家の経験知の対话的蓄积支援冲诲别颈尘2025
贬补谤耻办颈厂丑颈苍办补飞补冲尝尝惭を利用した果树农家の経験知の対话的蓄积支援冲诲别颈尘2025贬补谤耻办颈厂丑颈苍办补飞补冲尝尝惭を利用した果树农家の経験知の対话的蓄积支援冲诲别颈尘2025
贬补谤耻办颈厂丑颈苍办补飞补冲尝尝惭を利用した果树农家の経験知の対话的蓄积支援冲诲别颈尘2025
Matsushita Laboratory
?
测距センサと滨惭鲍センサを用いた指轮型デバイスにおける颜认証システムの提案
测距センサと滨惭鲍センサを用いた指轮型デバイスにおける颜认証システムの提案测距センサと滨惭鲍センサを用いた指轮型デバイスにおける颜认証システムの提案
测距センサと滨惭鲍センサを用いた指轮型デバイスにおける颜认証システムの提案
sugiuralab
?
空间オーディオを用いたヘッドパスワードの提案と音源提示手法の最适化
空间オーディオを用いたヘッドパスワードの提案と音源提示手法の最适化空间オーディオを用いたヘッドパスワードの提案と音源提示手法の最适化
空间オーディオを用いたヘッドパスワードの提案と音源提示手法の最适化
sugiuralab
?
2025フードテックWeek大阪展示会 - LoRaWANを使った複数ポイント温度管理 by AVNET玉井部長
2025フードテックWeek大阪展示会 - LoRaWANを使った複数ポイント温度管理 by AVNET玉井部長2025フードテックWeek大阪展示会 - LoRaWANを使った複数ポイント温度管理 by AVNET玉井部長
2025フードテックWeek大阪展示会 - LoRaWANを使った複数ポイント温度管理 by AVNET玉井部長
CRI Japan, Inc.
?
実はアナタの身近にある!? Linux のチェックポイント/レストア機能 (NTT Tech Conference 2025 発表資料)
実はアナタの身近にある!? Linux のチェックポイント/レストア機能 (NTT Tech Conference 2025 発表資料)実はアナタの身近にある!? Linux のチェックポイント/レストア機能 (NTT Tech Conference 2025 発表資料)
実はアナタの身近にある!? Linux のチェックポイント/レストア機能 (NTT Tech Conference 2025 発表資料)
NTT DATA Technology & Innovation
?
第1回日本理学疗法推论学会学术大会での発表资料(2025年3月2日 高桥可奈恵)
第1回日本理学疗法推论学会学术大会での発表资料(2025年3月2日 高桥可奈恵)第1回日本理学疗法推论学会学术大会での発表资料(2025年3月2日 高桥可奈恵)
第1回日本理学疗法推论学会学术大会での発表资料(2025年3月2日 高桥可奈恵)
Matsushita Laboratory
?
狈辞诲补滨迟蝉耻办颈冲反省観点の分类に基づく试合の振り返り支援システムに関する有用性検証冲顿贰滨惭2025
狈辞诲补滨迟蝉耻办颈冲反省観点の分类に基づく试合の振り返り支援システムに関する有用性検証冲顿贰滨惭2025狈辞诲补滨迟蝉耻办颈冲反省観点の分类に基づく试合の振り返り支援システムに関する有用性検証冲顿贰滨惭2025
狈辞诲补滨迟蝉耻办颈冲反省観点の分类に基づく试合の振り返り支援システムに関する有用性検証冲顿贰滨惭2025
Matsushita Laboratory
?
【卒业论文】尝尝惭を用いた惭耻濒迟颈-础驳别苍迟-顿别产补迟别における反论の効果に関する研究
【卒业论文】尝尝惭を用いた惭耻濒迟颈-础驳别苍迟-顿别产补迟别における反论の効果に関する研究【卒业论文】尝尝惭を用いた惭耻濒迟颈-础驳别苍迟-顿别产补迟别における反论の効果に関する研究
【卒业论文】尝尝惭を用いた惭耻濒迟颈-础驳别苍迟-顿别产补迟别における反论の効果に関する研究
harmonylab
?
ラズパイを使って作品を作ったらラズパイコンテストで碍厂驰赏を貰って、さらに、文化庁メディア芸术祭で审査员推荐作品に选ばれてしまった件?自作チップでラズパイ...
ラズパイを使って作品を作ったらラズパイコンテストで碍厂驰赏を貰って、さらに、文化庁メディア芸术祭で审査员推荐作品に选ばれてしまった件?自作チップでラズパイ...ラズパイを使って作品を作ったらラズパイコンテストで碍厂驰赏を貰って、さらに、文化庁メディア芸术祭で审査员推荐作品に选ばれてしまった件?自作チップでラズパイ...
ラズパイを使って作品を作ったらラズパイコンテストで碍厂驰赏を貰って、さらに、文化庁メディア芸术祭で审査员推荐作品に选ばれてしまった件?自作チップでラズパイ...
Industrial Technology Research Institute (ITRI)(工業技術研究院, 工研院)
?
【卒业论文】深层学习によるログ异常検知モデルを用いたサイバー攻撃検知に関する研究
【卒业论文】深层学习によるログ异常検知モデルを用いたサイバー攻撃検知に関する研究【卒业论文】深层学习によるログ异常検知モデルを用いたサイバー攻撃検知に関する研究
【卒业论文】深层学习によるログ异常検知モデルを用いたサイバー攻撃検知に関する研究
harmonylab
?
LF Decentralized Trust Tokyo Meetup 3
LF Decentralized Trust Tokyo Meetup 3LF Decentralized Trust Tokyo Meetup 3
LF Decentralized Trust Tokyo Meetup 3
LFDT Tokyo Meetup
?

Nn bp formula

  • 1. 逆誤差伝播諸公式メモ 大邦将猛 2019 年 5 月 19 日 1 順伝播の式 a (l+1) i = n∑ j=1 W (l+1) ij z (l) j (i = 1, 2, 3, ..., m l = 1, 2, 3, ..., N ? 1) (1.1) z (l) i = ReLUα(a (l) i ) (i = 1, 2, 3, ..., n l = 1, 2, 3, ..., N ? 1) (1.2) z (N) i = ea (N) i ∑c k=1 ea (N) k (i = 1, 2, 3, ..., c) (1.3) y = ReLUα(x) = { x (x ≥ 0) αx (x < 0 0 ≤ α < 1) (1.4) 2 順伝播の式から得られる偏微分 式 (1.1) から ?a (l) i ?z (l?1) j = W (l) ij (l = 2, 3, ..., N) (2.1) ?a (l) i ?W (l) jk = { z (l?1) k (i = j) 0 (i ?= j) (l = 2, 3, ..., N) (2.2) 式 (1.2) から ?z (l) i ?a (l) j = ? ?? ?? 1 (i = j x ≥ 0) α (i = j x < 0) 0 (i ?= j) (l = 1, 2, 3, ..., N ? 1) (2.3) 式 (1.3) から ?z (N) i ?a (N) j が求められるがやや複雑なので場合分けして求める まず η を次式のようにおき、a (N) 1 , a (N) 2 , a (N) 3 , ..., a (N) c の変数に依存する関数とみなす。 η = f(a (N) 1 , a (N) 2 , a (N) 3 , ..., a(N) c ) = c∑ k=1 ea (N) k (2.4) 1
  • 2. (i ?= j) のとき、式 (1.3) の分子 ea (N) i は a (N) j に依存しないから、 ?z (N) i ?a (N) j = ? ?a (N) j ( ea (N) i η ) = ea (N) i ? ?a (N) j ( 1 η ) = ea (N) i ?η ?a (N) j ? ?η ( 1 η ) = ea (N) i ?η ?a (N) j ( ?1 η2 ) (2.5) ところで ?η ?a (N) j は単純に ?η ?a (N) j = ea (N) j (2.6) なので式 (2.5) は結局 ?z (N) i ?a (N) j = ( ?ea (N) i ea (N) j η2 ) (2.7) (i = j) のとき、今度は分子 ea (N) i は a (N) i に依存するので、 ?z (N) i ?a (N) i = ? ?a (N) i ( ea (N) i η ) = ( ? ?a (N) i ea (N) i ) 1 η + ea (N) i ( ? ?a (N) i 1 η ) = ea (N) i η ? (ea (N) i )2 η2 (2.8) ここで Iij = { 1 (i = j のとき) 0 (i ?= j のとき) (2.9) のような記号を導入すれば式 (2.5) と式 (2.8) は合わせて以下の偏微分の式を与える ?z (N) i ?a (N) j = Iijea (N) i η ? ea (N) i ea (N) j η2 (2.10) 3 クロスエントロピーの式再掲 ミニバッチ平均 H(Y, y) = ? ∑P Hmax P H=1 Y<P H> log(y<P H> ) PHmax (3.1) サンプル一つについて H(Y, y) = ?Y<P H> log(y<P H> ) = ? c∑ k=1 Y <P H> k log(y<P H> k ) (3.2) 以下サンプル一つの勾配をしばらく計算するので式 (3.2) のサンプル番号 < PH > を省略する ここで教師データ Y は分類クラス CP H のデータであるとする 2
  • 3. このとき Y は以下の One-hot 表現になっている。すなわち YCP H の成分のみが1でその他の成分 がすべて0のベクトルである。式 (2.9) で導入した記号で成分を IiCP H と書くことができる。 Y = ? ? ? ? ? ? ? ? ? ? ? ? ? ? Y1 Y2 ... YCP H ?1 YCP H YCP H +1 ... 0 ? ? ? ? ? ? ? ? ? ? ? ? ? ? = ? ? ? ? ? ? ? ? ? ? ? ? ? ? 0 0 ... 0 1 0 ... 0 ? ? ? ? ? ? ? ? ? ? ? ? ? ? = ? ? ? ? ? ? ? ? ? ? ? ? ? ? I1CP H I2CP H ... ICP H ?1,CP H ICP H CP H ICP H +1,CP H ... IcCP H ? ? ? ? ? ? ? ? ? ? ? ? ? ? (3.3) 一方分類器の推論結果 y はソフトマックス関数なので以下のように書かれる。式 (2.4) の η を使っ て成分を ea (N) i η と書くこともできる。 y = ? ? ? ? ? ? ? ? ? ? y1 y2 ... yCP H ... yc ? ? ? ? ? ? ? ? ? ? = 1 ∑c k=1 ea (N) k ? ? ? ? ? ? ? ? ? ? ? ? ea (N) 1 ea (N) 2 ... e a (N) CP H ... ea(N) c ? ? ? ? ? ? ? ? ? ? ? ? = ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ea (N) 1 η ea (N) 2 η ... e a (N) CP H η ... ea (N) c η ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? (3.4) 対数をとって負号を付すと ?log(y) = ? ? ? ? ? ? ? ? ? ? ?log(y1) ?log(y2) ... ?log(yCP H ) ... ?log(yc) ? ? ? ? ? ? ? ? ? ? = log( c∑ k=1 ea (N) k ) ? ? ? ? ? ? ? ? ? ? 1 1 ... 1 ... 1 ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? log(ea (N) 1 ) log(ea (N) 2 l) ... log(e a (N) CP H ) ... log(ea(N) c ) ? ? ? ? ? ? ? ? ? ? ? ? = log( c∑ k=1 ea (N) k ) ? ? ? ? ? ? ? ? ? ? 1 1 ... 1 ... 1 ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? a (N) 1 a (N) 2 ... a (N) CP H ... a (N) c ? ? ? ? ? ? ? ? ? ? ? ?log(y) = ? ? ? ? ? ? ? ? ? ? ? ? log( ∑c k=1 ea (N) k ) log( ∑c k=1 ea (N) k ) ... log( ∑c k=1 ea (N) k ) ... log( ∑c k=1 ea (N) k ) ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? a (N) 1 a (N) 2 ... a (N) CP H ... a (N) c ? ? ? ? ? ? ? ? ? ? ? (3.5) 3
  • 4. 式 (3.3) と (3.5) の内積をとればクロスエントロピー式 (3.2) が求まる。 H(Y, y) = ?Y<P H> log(y<P H> ) = log( c∑ k=1 ea (N) k ) ? a (N) CP H (3.6) 4 クロスエントロピーの勾配を求めていく まずなにを求めたかったのか再度言及する クロスエントロピーはニューラルネットワークのトポロジー中に存在するニューロンとニューロン の間の重み係数 Wl ij (i, j = 1, 2, 3, ....かつ l = 1, 2, 3, ..., N) すべてで構成された非常に次元数の 大きい空間のベクトルに依存する関数である。この空間におけるクロスエントロピーの勾配が求め たい 具体的には以下のようにすべてのニューラルネットワークの層のすべてのニューロンをつなぐ重み での偏微分 ?H ?W (1) 11 , ?H ?W (1) 12 , ?H ?W (1) 13 , ..... ?H ?W (1) n2n1 , ?H ?W (2) 11 , ?H ?W (2) 12 , ?H ?W (2) 13 , ..... ?H ?W (2) n3n2 , .... ?H ?W (N) 11 , ?H ?W (N) 12 , ?H ?W (N) 13 , ..... ?H ?W (N) cnN?1 をすべて求めなければならない しかし式 (3.6) は第 N 層の活性 a ( iN) への依存しかないのですぐには求まらない。そこで式 (2.1),(2.2),(2.3),(2.10) とチェーンルールを用いて、上のすべての偏微分を求めていく 式 (3.6) は層の N に関してのみ変数を含むのでまず第 N 層の偏微分が求められる ? ?W (N) ij H = ?a (N) i ?W (N) ij ? ?a (N) i H = ?H ?a (N) i z (N?1) j (4.1) ここでは式 (2.2) を使っている つぎに ?H ?a (N) i を求める方法はないか考える。 式 (2.4) を使い η を経由してチェーンルールを使うと (i ?= CP H のとき, 式 (3.6) の第二項が定 数としてみなせるので式 (2.9) の記号を使えることに注意する) ?H ?a (N) i = ?η ?a (N) i ?H ?η ? IiCP H = ea (N) i η ? IiCP H (4.2) δ (N) i = ?H ?a (N) i を定義し、上の式 (4.2) に式 (3.3) と式 (3.4) の結果を代入すると δ (N) i = ?H ?a (N) i = yi ? Yi (4.3) 式 (4.3) は重要な意味を持つ式でクロスエントロピーを最終層の活性 a (N) i で偏微分するとこの分 類器の推論 yi と真の答え Yi の差がでてくる。そのため誤差をイメージする δ が文字として充てら 4
  • 5. れているのである。 第 N 層以外にも δ (l) i = ?H ?a (l) i を定義してみる。ここでもう一度式 (4.1) をみると実はこれは第 N 層にかぎらず成立することに気づく。なぜなら式 (2.2) がすべての層で成り立つからである。 ? ?W (l) ij H = ?H ?a (l) i z (l?1) j = δ (l) i z (l?1) j (4.4) そして式 (2.1) を使うと第 l 層の a と第 l ? 1 層の z の関係を使ってニューラルネットワークの 出力側から入力側に誤差 δ を引き継ぐ漸化式がつくれることがわかる。実際 δ (l) i = ?H ?a (l) i = lmax∑ j=1 l+1max∑ k=1 ?z (l) j ?a (l) i ?a (l+1) k ?z (l) j ?H ?a (l+1) k = lmax∑ j=1 l+1max∑ k=1 ?z (l) j ?a (l) i ?a (l+1) k ?z (l) j δ (l+1) k (4.5) 式 (2.1) を代入して δ (l) i = lmax∑ j=1 l+1max∑ k=1 ?z (l) j ?a (l) i W (l+1) kj δ (l+1) k さらに式 (2.3) を代入して、(ただし後述する αSTEP 関数を導入する)次式を得る。 δ (l) i = l+1max∑ k=1 αSTEP(a (l) i )W (l+1) ki δ (l+1) k (4.6) αSTEP(x)= { 1 (x ≥ 0) α (x < 0 0 ≤ α < 1) (4.7) 5 誤差逆伝播のアルゴリズムまとめ これで誤差逆伝播に必要なすべての式を得た 式 (3.1) と (3.2) の関係をもう一度注意するため、再度サンプル番号 < PH > をつけてアルゴリズ ムをまとめる 【サンプル毎にする処理】1. 順伝播計算し、途中の層の z (l)<P H> i をすべて保存しておく 2. 最終層の誤差 δ (N)<P H> i = y<P H> i ? Y <P H> i を計算する【式 (4.3)】 3. 漸化式を用いてすべての層の誤差 δ (l)<P H> i を求める【式 (4.6)】 δ (l)<P H> i = l+1max∑ k=1 αSTEP(a (l)<P H> i )W (l+1) ki δ (l+1)<P H> k 4.「1.」の z と「2-3.」の δ を使いクロスエントロピーのすべての変数に関する偏微分を求める【式 (4.4)】 ?H<P H> ?W (l) ij = δ (l)<P H> i z (l?1)<P H> j 【ミニバッチ毎にする処理】5.「1-4.」の計算をすべてのサンプル(PH = 1, 2, 3, ..., PHmax) でお こない平均値の勾配を求める ?H = ∑P Hma x P H=1 ?H<P H> ?W (l) ij PHmax = ∑P Hma x P H=1 δ (l)<P H> i z (l?1)<P H> j PHmax (5.1) 5