�ݺ�ߣ

Mempelajari parameter untuk jaringan berarti mencari
parameter (𝑊1. 𝑏1. 𝑊2. 𝑏2) yang meminimalisasi error
pada pelatihan data. Bagaimana cara mengdefenisikan
kesalahan? Kami menyebutnya loss function yang
berfungsi mengukur error. Cross-entropy loss (atau
biasa disebut dengan negative log likelihood) yang
umum digunakan pada output softmax. Jika kita
memiliki contoh 𝑁 training dan 𝐶 kelas lalu loss pada 𝑦
untuk label 𝑦 ialah pada rumusan berikut:

𝐿 𝑦, 𝑦 = −
1
𝑁
𝑛∈𝑁 𝑖=𝐶
𝑦 𝑛,𝑖 log 𝑦 𝑛,𝑖
Formula diatas memang terlihat rumit tetapi rumusan ini memang
ditujukan untuk menjumlahkan semua contoh training dan
menambahkan loss (jika kita prediksi kelas ternyata salah).
Semakin jauh dua distribusi kemungkinan 𝑦 (label yang benar)
dan 𝑦 (prediksi) maka akan semakin besar kerugian (loss) yang
akan terjadi. Dengan mencari parameter yang meminimalisasi
kekurangan (loss) sejatinya kita akan memaksimalkan
kemungkinan (likelihood) pada training data kita.

Kita bisa menggunakan gradient descent untuk mencari
minimumnya dan kami akan mengimplementasi gradient
descent yang vanilla version, yang juga biasa disebut dengan
batch gradient descent dengan learning rate yang sudah fix.
Variasi lainnya seperrti SGD (Stochastic Gradient Descent) atau
minibatch gradient descent biasanya menunjukkan performa
lebih baik pada percobaan. Jadi jika anda cukup serius
menggunakan salah satu dari teknik diatas, maka idealnya
anda juga memperbaiki kerusakan pada learning rate
nantinya.

Untuk input, gradient descent membutuhkan gradient
(vector derivatives) untuk fungsi yang hilang (loss)
untuk parameter ini
𝜕𝐿
𝜕𝑊1
,
𝜕𝐿
𝜕𝑏1
,
𝜕𝐿
𝜕𝑊2
,
𝜕𝐿
𝜕𝑏2
. Untuk
menghitung gradient tersebut kami menggunakan
algoritma backpropagation, yang efesien untuk
mengkalkulasi gradient mulai dari ouptunya. Kami tidak
akan membahas lebih detail mengenai
backpropagation tetapi penjelasannya bisa anda
dapatkan di dua link ini ini: 1 dan 2.

Berikut ialah formula untuk backpropagation:
𝛿3 = 𝑦 − 𝑦
𝛿2 = 1 − tanh2 𝑧1 ∘ 𝛿3 𝑊2
𝑇
𝜕𝐿
𝜕𝑊2
= 𝑎1
𝑇
𝛿3
𝜕𝐿
𝜕𝑏1
= 𝛿3
𝜕𝐿
𝜕𝑊1
= 𝑥 𝑇 𝛿2
𝜕𝐿
𝜕𝑏1
= 𝛿2

�ݺ�ߣ

Additional Files - Implementing a Neural Network 2

More Related Content

Additional Files - Implementing a Neural Network 2