1. ialah input pada setiap time step . Contoh, 1 merupakan
koresponding one-hot vector pada kata kedua pada kalimat.
adalah hidden state pada setiap time step . Hidden state ialah
memory pada sebuah jaringan. dikalkulasikan sesuai dengan
hidden state sebelumnya dan input pada step saat ini: = ( +
≠1). Pada fungsi biasanya adalah non-linearitas seperti tanh
atau ReLU. 1 dibutuhkan untuk mengkalkulasikan hidden state
yang pertama, biasanya semuanya di-inisilisasi dengan 0 (nol).
adalah ouput pada setiap step . Contoh, jika anda ingin
memprediksi kata selanjutnya pada sebuah kalimat maka
merupakan vector probabilitas di seluruh vocabulary. Yang berarti jika
dirumuskan = softmax().
2. Ada beberapa hal yang perlu anda catat disini:
Hidden State adalah memory pada jaringan. merekam informasi yang
pada seluruh waktu pada time step (langkah waktu) sebelumnya. Output
step hanya dikalkulasikan pada memory pada setiap waktu (time) .
Seperti yang disebutkan diatas bahwa pada prakteknya untuk merekam
setiap informasi pada waktu sebelumnya di RNN sangatlah rumit, karena
khususnya tidak bisa merekam informasi pada time step yang lampau
terlalu banyak.
Tidak seperti pada tradisional (konservatif) deep neural network, yang
menggunakan parameter yang berbeda pada setiap layer-nya, sebuah RNN
membagikan secara merata pada semua parameter diatas (, , ) pada
seluruh langkah. Jika kita me-refleksikan dari sini bahwa faktanya kita
menjalankan seluruh tugas yang sama pada setiap langkah, hanya
berbeda input saja. Hal ini sangat menguras jumlah parameter yang harus
kita pelajari.
3. Pada diagram diatas memiliki output pada setiap time step-nya, tetapi
jika bergantung kepada tugasnya hal tersebut tidak terlalu pending.
Contohnya, saat memprediksikan sentiment (maksud) pada sebuah
kalimat kita hanya peduli pada output terakhirnya, bukan sentiment
(maksud) disetiap kata. Hal ini berbanding lurus bahwa kita mungkin
tidak perlu input pada setiap time step. Fitur Utama pada sebuah
RNN ialah hidden state yang merekam beberapa informasi pada
sebuah kalimat.
One hot ialah sebuah group diantara bit yang memiliki kombinasi nilai
dengan nilai tertinggi ialah 1 dan terendah ialah 0.