際際滷

際際滷Share a Scribd company logo
1 | P a g e
ashrovy.tumblr.com | ashrovy.wordpress.com |medium.com/ashrovy
____
01:Data-driven response generation in social media. Ritter
et al. 2011
komunikasi antarpribadi :
penerima :
dyadic
addressee
02:A neural network approach to context-sensitive
generation of conversational responses. Sordon et ali.
2015
teman bicara :
daya tarik :
menghasilkan :
interlocutor
traction
yield
03:A neural conversational model. Vinyals. 2015 kecenderungan : propensity
A Persona-Based Neural Conversation Model
Jiwei Li, Michel Galley, Chirs Brockett, Georgios P. Spithouraskis, Jianfeng Gao, Bill Dolan
paper resume by ashrovy
Abstract
Paper ini memperkenalkan persona-based models untuk menghandling isu konsistensi
pembicara didalam neural response generation. Persona-based model di-encode
didalam distributed embedding yang dapat menangkap karakterisitik individual
seperti background information dan speaker style. Model ini menghasilkan
peningkatan kualitatif performa baik untuk perplexity dan BLEU score berdasarkan
sequence to sequence model. Hasil yang sama juga diperoleh teknik evaluasi yang lain
yaitu human judges.
Introduction
Conversational agent telah dikembangkan
dengan tujuan membuat pembicaraan antara
manusia dan bot (chatbot) bisa terasa cukup
realistik dan memilliki response yang
relevant1,2,3,4
. Pada paper ini fokus dalam
menghadapi tantangan konsistensi dan
bagaimana data yang diberikan oleh data
kepada sistem itu koheren dengan menampilkan
persona seperti layaknya manusia.
Persona merupakan campuran dari beberapa
indentitas (profile, fact atau latarbelakang,
language behavior dan gaya berbicara).
Untungnya neural model conversational
generation2,3,4,5
sudah ada yang mengarah
kepada personas sebagai embedding. Maka
pada paper ini akan mengeksplore dua persona
model: single-speaker (Speaker model) dan
diadik (Speaker-Addressee model), didalam
framework sequence-to-sequence (seq2seq).
Pada Speaker model akan mengintegrasikan
speaker-level vector representation kedalam
bagian target pada seq2seq model. Secara
analog, Speaker-Addressee model meng-
encode pola interaksi dari dua pembicara
dengan mengkonstruksi gambaran interaksi dari
individual embedding dan menggabungkan ke
dalam seq2seq model. Dan eksperimen ini
bersifat open-domain corpus pada percakapan
di Twitter dan dialog dataset dari TV series script
yang memanfaatkan persona vector.
Harapannya itu semua dapat meningkatkan
performa hingga 20% pada BLEU score dan 12%
pada perplexity.
Related Work
Pengerjaan ini dinisiasi dari conversational
dialog sebagai stastiscal machine translation
problem atau SMT7
yang menggambarkan
bahwa tidak perlu terlalu bergantung pada
aturan hand-coded dengan membangun model
statis aturan heuristik atau template7,8,9,10,11
,
atau dengan learning geration rules dari minimal
set authored rules atau label12,13,14,15,16,17
. Baru-
2 | P a g e
ashrovy.tumblr.com | ashrovy.wordpress.com |medium.com/ashrovy
____
04:A diversity-promoting objective function for neural
conversation models. Li et al.2016
memberikan :
campuran :
composite
endow
05:Neural responding machine for short-text
conversation. Shang et al. 2015
sepadan :
vague :
commensurate
samar
06:Data-driven response generation in social media.
Ritter et al. 2011
menggabungkan :
terdiri dari :
incorporating
comprising
07:A stochastic model of human-machine interaction
for learning dialog strategies. Levin et al. 2000
memanfaatkan teknologi :
Sejaman :
leveraging
contemporaneous
08:The hidden information state model: A practical
framework for pomdp-based spoken dialogue
management. Young et al. 2010
membedakan :
menunjukkan:
sudut:
distinguish
denotes
generation
baru ini malah menggunakan Long Short-Term
Memory (LSTM)18
untuk mempelajari data yang
tidak memiliki identitas waktu untuk
mengurangi heuristic space pada kalimat.
SMT model1
adalah end-to-end, data murni dan
berisi model yang tidak eksplisit pada struktur
dialog. Pada prosesnya. SMT stemming
menggunakan natural language model19,20,21,22
yang telah menginspirasikan pada kinerja teknik
neural pada SMT-based respon hasil
pembicaraan dengan rescoring ouput
menggunakan seq2seq model yang dikondisikan
pada history percakapan. Penelitian yang lain
menggunakan seq2seq untuk menghasilkan
response dengan gaya end-to-end tanpa
mengandalkan SMT phrase table3,23,24
ialah
dengan menggunakan hierarchical neural model
yang menangkap keterkaitan pada history
percakapan. Ada juga penelitian yang mengukur
informasi4
yang dikenal antara pesan dan
response untuk mengurangi proporsi generic
response seq2seq sistem. Ada juga yang
menjaga relevansi response5
terhadap masukan
yang ada.
Modeling user dan speaker telah dipelajari
didalam dialog standar modeling
framework25,26,27
. Open-domain skenario
menjadi sulit dipelajari didalam conventional
dialog system, model model yang ada cenderung
fokus dalam menghasilkan karakter28,29
. Pada
pengerjaan saat ini, lebih cenderung
memperkaya model dengan men-training
persona vector langsung dari data pembicaraan
dan informasi yang relevant.
Sequence to Sequence Models
Sequence input adalah  = {1, 2,  ,   
}
LSTM mengasosiasikan setiap langkah dengan
memory gate dan ouput gate, masing-masing
elemen dilambangkan sebagai  ,  dan .
Bedakan antara  dan  dimana 
melambangkan vector untuk unit teks individual
(kata atau kalimat) pada waktu timestep  pada
  menujukkan vector yang dikomputasikan oleh
LSTM pada waktu , kemudian dikombinasikan
dengan  dan  ≠1. Cell state vector  pada
waktu , dan  melambangkan fungsi sigmoid.
Kemduan vector menggambarkan   untuk
setiap time step :
[
 


 
] = [



$
]   [
 ≠1

8 ]
 01 
 =   ≠1 +     
 02 
 
8
=   tanh()
 03 
dimana  ialah , , ,     2
.
Didalam sudut seq2seq memiliki tugas, setiap
input  dipasangkan dengan sebuah sequence
output untuk memprediksi:  = {1, 2,  ,  
}.
LSTM mendefenisiskan sebuah distribusi melalui
output dan diteruskan pada rentetan token
prediksi menggunakan fungsi softmax:
3 | P a g e
ashrovy.tumblr.com | ashrovy.wordpress.com |medium.com/ashrovy
____
09:A trainable generator for recommendations in
multimodal dialog. Walker et al. 2003
komposisi:
berbeda:
compositional
distinct
10:Are we there yet? research in commercial spoken
dialog systems.Pieraccini et al. 2009
sangat:
beranotasi:
tremendously
annotated
11:Improving spoken dialogue understanding using
phonetic mixture models. Wang et al. 2011
sifat:
menempati:
traits
occupying
12:Stochastic language generation for spoken
dialogue systems. Oh et al. 2000
anggap saja:
Sebagai gantinya:
suppose that
Instead
(|) =  (|1, 2,  , ヰ, 1, 2,  , ≠1)
 
=1
= 
exp(( ≠1,  ))
 ヰ(( ≠1,  ))
 
=1
dimana ( ≠1,  ) menunjukkan fungsi
aktivasi antara  ≠1 dan  . Setiap kalimat
diakhiri dengan simbol EOS (end-of-sentence).
Untuk menjaga percobaan umum, input dan
ouput menggunakan LSTM yang berbeda dengan
memisahkan parameter untuk menangkap pola
komposisi.
Selama decoding, algoritma berhenti ketika
sebuah token telah diprediksi. Untuk setiap
timestep, baik pendekatan greedy ataupun
beam search dapat mengambil prediksi kata.
Personlized Response Generation
Pengerjaan yang dipaparkan didalam paper ini
memperkenalkan dua persona-based models:
Speaker Model, dimana personality model
sebagai respoden, dan Speaker-Addressee
Model dimana alur model mengadaptasi
pembicaraan yang diberikan oleh penerima30
.
Notation
Untuk merespon tugas turunan. Biarkan 
menunjukkan input sequence kata (message)
 = {1, 2,  , }.  menunjukkan sequence
kata didalam response , dimana reponse  =
{1, 2,  , , 乞} dan  adalah panjang dari
response (yang dihentikan oleh token EOS).
Sedangkan  sendiri menunjukkan token kata
yang terasosiasi dengan dimensional pada
word embedding yang berbeda . Besaran
vocabulary disimbolkan oleh .
Speaker Model
Model pertama yang akan dibahas disini ialaah
Speaker Model, yang meresponden sendiri.
Model ini menggambarkan pembicara individual
sebagai vector atau embedding, yang akan
meng-encode spesifik informasi pembicara
(seperti: dialek, umur, gender dan lain-lain) dan
ini berperngaruh pada respon konten. Sebagai
catatan atribut-atribut diatas tidak secara
explisit di anotasikan karena akan sangat mahal
dan besar untuk pengumpulan dataset. Sebagai
gantinya, model ini dapat menggabungkan
pengguna dari beberapa ciri (seperti umur,
wilayah dan lain-lain) berdasarkan responden
sendiri.
Gambar 1 memberikan ilustrasi jelas tentang
Speaker Model. Setiap speaker   [1, ]
terasosiakan dengan user-level p   消1
.
Sebagai standar seq2seq model, pertama
encode message  kedalam sebuah vector  
menggunakan sumber pada LSTM. Kemudian
setiap step pada target, hidden unit didapatkan
dengan menggabungkan gambaran yang
diproduksi dari target LSTM di waktu sebelum
timestep, representasikan kata di timestep yang
sama dan speaker embedding p.
[
 


 
] = [



$
]   [
 ≠1

8
p
]
 04 
 =   ≠1 +     
 05 
 
8
=   tanh()
 06
4 | P a g e
ashrovy.tumblr.com | ashrovy.wordpress.com |medium.com/ashrovy
____
13:Trainable approaches to surface natural language
generation and their application to conversational
dialog systems. Ratnapharki. 2002
perpanjangan:
tunangan:
semaunya:
extension
engaged
arbitary
14:IRIS: a chatoriented dialogue system based on the
vector space model. Banchs et al. 2012
menonjol:
secara linear:
salient
linearly
15:Luke, I am your father: dealing with out-of-domain
requests by using movies subtitles. Ameixa et al.
2014
mencoba:
tergabung:
yaitu:
attempt
incoporated
namely
16:Developing non-goal dialog system based on
examplesofdramatelevision. Nio et al. 2014.
berasal:
memeriksa:
derives
examine
17:An empirical investigation of sparse log-linear
models for improved dialogue act classi鍖cation.
Chen et al. 2013
kemungkinan:
terkait:
paling banyak:
likelihood
associated
at most
dimana   4消3
. Pada tahap ini informasi
dari speaker di encoded dan di inject ke dalam
hidden layer disetiap timestepnya dan dengan
demikian dapat membantu memprediksi respon
secara personalitas melalui proses generation.
Embedding speaker {p} dishare melalui
percakapan yang terkait dengan speaker . {p}
dipelajari dengan back propagating word
prediction errors untuk setiap neural component
selama latihan.
Model ini dapat membantu mengambil
kesimpulan pada jawaban dari soal meskipun
tidak ada bukti (yang membenarkan jawaban
tersebut pada dataset) yang muncul pada
training dataset. Ini yang penting sewaktu
training, data yang terdapat didalam training
data tidak explicit secara informasi (atau detail)
untuk setiap attribute pada setiap pengguna
(seperti gender, age, country residence). Model
mempelajari representasi pembicara based on
kontent pembicaraan yang dihasilkan oleh
pembicara yang lain. Kemudian pembicara akan
memproduksi similar response terkait dengan
similar embeddings, atau penempatan didekat
dengan vector space. Dengan ini training data
speaker diambil pada vector space terdekat
untuk membantu menaikkan kapabilitas
generalization pada speaker model. Contoh:
anggaplah ada dua speaker  dan  yang memiliki
suara berbeda dari british yang berarti keduanya
dekat dengan speaker embedding space.
Sekarang, anggap saja, didalam training data,
speaker  ditanya dimana kamu tinggal? dan
direspon didalam UK. Sekalipun speaker  tidak
pernah menanyakan hal yang sama, jawaban ini
dapat membantu respon bahwa speaker  dapat
berfungsi dengan baik, tanpa labal yang explicit.
Speaker -Addressee Model
Natural extension Speaker model adalah sebuah
model yang sensitif kepada pola interaksi
speaker-addressee didalam percakapan. Tidak
hanya semua jenis speaking style tetapi juga
penerima (addressee). Speaker-Addressee
Model beroperasi sebagai berikut: Pertama,
memprediksi bagaimana speaker  akan
merespon sebuah message yang diberikan oleh
speaker . Kedua, hampir sama dengan Speaker
model, setiap speaker terasosiasi dengan
deminsional  speaker-level represntation, yaitu
p untuk user  dan p untuk user . Representasi
interaksi didapatkan ,   消1
digabungkan
secara linear oleh vector user p dan p didalam
upaya untuk interaktif model user style user  ke
user ,
, = tanh(1  p + 2  2)
 07 
dimana 1, 2    
. Sedangkan ,
tergabung secara linear didalam LSTM model
pada setiap target step-nya:
[
 


 
] = [



$
]   [
 ≠1

8
p,
]
 08
5 | P a g e
ashrovy.tumblr.com | ashrovy.wordpress.com |medium.com/ashrovy
____
18:Long short-term memory. Hochreiter et al. 1997 penyamarataan: generalization
19:Sequence to sequence learning with neural
networks. Sutskever et al. 2014
menghasilkan:
pembicara:
yielded
conversationalists
Gambar 1: Ilustrasi dari Speaker model yang diperkenalkan pada paper ini. Speaker IDs yang terdapat
dekat dengan embedding space cenderung untuk merespon dengan cara yang sama. Speaker embeddings
mempelajari bersamaan dengan word embeddings dan parameter lainnya di neural model via
backpropagation. Contoh: Rob adalah speaker yang di kumpulkan dari orang yang biasa mention kata
England pada training data, lalu turunan pada token England pada waktu t = 2 jauh lebih banyak dari
U.S. Non-persona model akan lebih memilih men-generate in the U.S. jika U.S. lebih banyak terdapat
pada training data diantara banyak speaker.
***
 =   ≠1 +     
 09 
 
8
=   tanh()
 10 
Speaker dan addresssee dan juga pembicara
yang sama akan merespon jawaban yang
berbeda dari lawan bicara yang berbeda pula.
Salah satu isu potensial yang mungkin terjadi
ialah dimana modelling Speaker-addresssee
sulit dikaitkan didalam pengumpulan dataset
training skala besar diamana setiap speaker
berkecimpung pada percakapan dengan
berbagai macam orang. Seperti halnya Speaker
Model, namun, Speaker-Addressee Model
berasal dari penyamarataan kapabilitas dari
speaker embeddings. Bahkan jika kedua speaker
pada test time ( dan ) tidak pernah terlibat
didalam percakapan yang sama selama training,
dua pembicara  dan  meskipun dekat dengan
embeddings mungkin dapat membantu dalam
pemodelan bagaimana cara  menanggapi .
Decoding and Rerangking
Untuk decoding, N-best list dihasilkan dengan
menggunakan decoder dengan beam size  =
200 (decoding pada paper ini memakai beam
search).  memiliki panjang maksimum 20 untuk
men-generated candidate. Untuk
mengoperasikan decoding ikuti langkah berikut:
setiap langkah periksa semua 誼
kemungkinan pada kandidat next-word, dan
tambahakan semua hipotesis dengan ending
EOS token pada N-best list. Kemudian
pertahankan top- yang hipotesisnya belum
selesai lalu pindahkan ke posisi next-word.
6 | P a g e
ashrovy.tumblr.com | ashrovy.wordpress.com |medium.com/ashrovy
____
20:Learning continuous phrase representations for
translation modeling. Gao et al. 2014
21:Neural machine translation by jointly learning to
align and translate. Bahdanau et al. 2015
22:Addressing the rare word problem in neural
machine translation. Luong et al. 2015.
penyamarataan:
terutama:
barangkali:
menekankan:
semau-maunya:
muncul:
generalization
primarily
presumably
emphasized
arbitrarily
emergent
Untuk menghadapi masalah pada seq2seq yang
cenderung men-generate generic dan response
biasa seperti I dont know, dengan
menggunakan reranking pada N-best list
memakai fungsi scoring yang secara lienear
digabungkan dengan penalty dan kemungkinan
log target:
log (|, ) +  log  (|) + ||
 11 
dimana (|, ) menunjukkan kemungkinan
untuk menghasilkan response yang diberikan
oleh message  dan responden speaker ID. ||
menyimbolkan panjang dari target dan simbol 
terkait dengan berat penalty. Optimasi  dan 
pada N-best list merupakan kandidat response
yang dihasilkan dari MERT31
dengan
mengoptimasi BLEU. Untuk mengkomputasi
(|), training akan dilakukan secara terbalik
pada seq2seq model dengan cara menukar
message dan response. Sedangkan pada standar
seq2seq model (|) akan di training tanpa
speaker information.
Dataset
Twitter Persona Dataset
Data Collection: Training data untuk Speaker
Model ter-extract dari Twitter FireHouse selama
6 bulan dimulai dari 1 Januari, 2012. Sequence
dibatasi untuk response (jawaban) paling sedikit
60 dan paling banyak 300, dan percakapan
selama 3 kali bolak-balik dihitung satu (contoh:
{A halo, B  halo juga, C  gimana kabar?}
percakapan disitu dihitung sebagai satu 1
percakapan). Dataset yang dihasilkan sekitar
74.003 pengguna dari 60 dan maksimal turn
sebanyak 164-conversational turn (average:
92.24, median: 90). Dataset yang di-extract
menggunakan reponses pembicara ini adalah
24.725.711 selama 3-turn sliding-window
(context-message-response) sequence
percakapan.
Sebagai tambahan, terdapat sample 12000 3-
turn conversation dari user set yang sama dari
Twitter FireHose, dari hasil ini divalidasi dan
dihasilkan test set (4000 percakapan disetiap
percakapan).
Training Protocols: Seq2seq detraining
sebanyak 4-layer pada Twitter corpus19
. Berikut
detailnya:
 4 Layer LSTM model memiliki 1000
hidden cells untuk setiap layernya.
 Ukuran batch disetting hingga 128
 Learning rate diset hingga 1.0
 Parameter diinisialisasi oleh sampling
dari uniform distribution[-0.1,0.1].
 Gradient dipotong untuk menghindari
gradient explosion dengan threshold
sebanyak 5.
 Batas vocabulary 50.000
 Dropout rate dimulai dari 0.2
Sumber dan LSTM target menggunakan
parameter set yang berbeda.
Twitter Sordoni Dataset
Twitter Sordoni Dataset yang diambil dari paper
ini adalah speaker ID information. Untuk
mendapatkan perbandingan state-of-the-art
work2,4
sebelumnya, baseline (non-persona)
LSTM model pengerjaan sebelumnya juga perlu
diukur untuk Twitter Sordoni Dataset. Perlu
dicatat bahwa Sordoni dataset menawarkan
hamper 10 references per message, sedangan
Twitter Persona dataset hanya memberikan 1
references per-message. BLEU score tidak bias
membandingkan terhadap dua dataset twitter
7 | P a g e
ashrovy.tumblr.com | ashrovy.wordpress.com |medium.com/ashrovy
____
23:Building end-to-end dialogue systems using
generative hierarchical neural network models.
Serban et al. 2015
24:Attention with intention for a neural network
conversation model. Yao et al. 2015
25:User models in dialog systems. Whalster et al. 1989
26:Effects of the user model on simulation-based
learning of dialogue strategies. Schatztnann et al.
2005
27:All the worlds a stage: Learning character models
from 鍖lm. Lin et al. 2011
28: Perceived or not perceived: Film character models
for expressive nlg. Walker et al. 2011
Penyetelan:
Menyimpulkan:
Merupakan:
sebelumnya:
memeriksa:
kemungkinan:
terkait:
paling banyak:
memeriksa:
kemungkinan:
terkait:
menghasilkan:
pembicara:
mencapuradukkan:
tuning
inferring
constitute
prior
examine
likelihood
associated
at most
examine
likelihood
associated
yielded
conversationalists
confound
(BLEU Score pada 10 references biasanya jauh
lebih tinggi dibanding 1 references).
Television Series Transcripts
Data Collection: untuk percakapan diadik
Speaker Addressee Model menggunakan
transcript dari acara televise Friends dan The Big
Bang Theory yang bias diakses di Internet Movie
Script Database (IMSDb). 13 tokoh utama
dikumpulkan dari corpus sebanyak 69.565
putaran. Corpus dibagi-bagi untuk keperluan
training/development/testing set (development
dan testing sendirin setiap set-nya
membutuhkan sekitar 2000 putaran).
Training dikarenakan jumlah dataset yang kecil
proses training tidak teruntuk untuk open-
domain dialog model. Difase pertama men-
training Seq2seq model menggunakan dataset
yang sedikit besar yaitu OpenSubtitles (OSDb)
dataset. Tetapi OSDb memiliki noisy yang tinggi
dan merupakan open-domain dataset, bahkan
dataset ini tidak memiliki detail spesifik
mengenai siapa yang berbicara disetiap subtitle
line. Masalah ini menyulitkan untuk mengambil
kesimpulan pada siapa yang berbicara. Pada
training menggunakan standar Seq2seq
menggunakan protocol yang telah di
deskripsikan pada Twitter Persona Dataset.
Inisialisasi dimulai pada word embeddings dan
LSTM parameter pada Speaker Model,
sedangkan pada Speaker-Addressee model
menggunakan parameter yang telah dipelajari
dari OpenSubtitles dataset.
 second_table 
System BLEU
MT baseline1 3.60%
Standard LSTM MMI4 5.26%
Standard LSTM MMI 5.82%
Human 6.08%
Table 2: BLEU pada dataset Twitter Sordoni (10 references).
Terdapat kontras antara baseline pada paper ini dan SMT
baseline2 dan hasil terbaik4 dibangun dari dataset Twitter
Sordoni. Hasil terakhir pada human oracle, tetapi tidak
cocok untuk dibandingkan langsung dengan oracle BLEU
dikarenakan komputasinya terlalu ketinggalan zaman.
Experiment
Evaluation
Bila mengacup pada paper2,4
maka pada evaluasi
menggunakan BLEU33
sebagai parameter
penyetelan dan evaluasi. BLEU telah
menunjukkan korelasi dengan baik pada human
judgement response dan tugas turunan.
 third_table 
Model Standard LSTM Speaker Model
Perplexity 47.2 42.2(-10.6%)
Table 3: Standard perplexity seq2seq dan Speaker model
pada Twitter Persona development set.
Baseline
Semenjak experiment menggunakan dataset
yang baru (Twitter Persona Dataset), LSTM
baseline cukup kompetitif dengan state-of-the-
art2
pada pembuatan datasetnya. Baseline pada
paper ini sederhananya mengimpelemntasikan
LSTM-MMI2
, sehingga hasilnya harusnya relative
sama dengan hasil yang sudah dilaporkan pada
paper tersebut.
8 | P a g e
ashrovy.tumblr.com | ashrovy.wordpress.com |medium.com/ashrovy
____
29:An annotated corpus of 鍖lm dialogue for learning
and characterizing character style. Walker et al.
2012
30:Social interaction and the development of de鍖nite
descriptions. Deutsch et al. 1982
31:Minimum error rate training in statistical machine
translation. Och. 2003
32:A collection of multilingual parallel corpora with
tools and interfaces. Tiedemann. 2009
33:BLEU: a method for automatic evaluation of
machine translation. Papineni et al. 2002
cukup:
mengungguli:
sedalam-dalamnya
menghalangi
tawaran
masuk akal
salah
kontingen
berlebihan
dimana-mana
halangan:
sufficent
outperform
profusely
impede
overture
plausible
amiss
contigents
exaggerate
ubiquitous
hitch
 fourth_table 
Model Objective BLEU
Standard LSTM MLE 0.92%
Speaker Model MLE 1.12%(+21.7%)
Standard LSTM MMI 1.41%
Speaker Model MMI 1.66% (+11.7%)
Table 4: BLEU pada Twitter Persona dataset (1 reference),
untuk standard Seq2seq model dan Speaker model
menggunakan objek kemungkinan maksimum (MLE) atau
maksimum mutual information.
Result
Perplexity pada Twitter Persona dataset dapat
dilihat pada table 3. Hasil observasi menyatakan
bahwa sekitar 10% penurunan pada perplexity
untuk Speaker model dibandingkan dengan
standard seq2seq model. Pada table 4 (BLEU
Score) ada peningkatan signifikan pada Speaker
model dibandingkan seq2seq model, 21%
peningkatan didalam maximum likelihood
(MLE) setting dan 11.7% untuk mutual
information setting (MMI). Pada titik ini
observasi menyimpulkan adanya konsistensi
yang diperkenalkan oleh fungsi objek MMI
melalui standard seq2seq model based on fungsi
objekl MLE. Ini menjadi catatan bahwa persona
model dengan menggunakan MLE lebih
bermanfaat ketimbang MMI Model.
Untuk TV series dataset, perplexity dan BLEU
score dilaporkan pada table 5 dan table 6.
Perplexity pada Speaker dan Speaker addressee
model mencapai 25.4 dan 25.0 pada TV series
dataset, 7.0% dan 8.4% lebih rendah dari
koresponden standar seq2seq model. Tidak ada
perbedaan yang signifikan antara perbandingan
model Speaker-Addresssee dan Speaker model,
mungkin karena kecil dataset yang digunakan
pada paper ini sehingga pola tidak bisa ditangkap
atau bisa juga dikarenakan noisy pada dataset.
Qualitative Analysis
Diverse Responses by Different Speaker table 7
merepresentasikan response yang dihasilkan
oleh persona model didalam merespon 3 input
pertanyaan yang berbeda. Disini 10 speaker akan
diambil secara acak pada Twitter dataset. Model
cenderung untuk menghasilkan jawaban yang
spesifik dari orang-orang yang berbeda.
Jawaban yang dihasilkan pada table 8 adalah
table dengan menggunakan Speaker-Addressee
Model dan menggunakan dataset TV-Series.
Menariknya, pada model ini jawaban justru
sangat sensitive pada penerimanya. Contoh
model bisa menghasilkan jawaban Of course, I
love you Emily bahkan model juga bisa
menjawab seperti ini Of course, I love you
(kisses her) dimana model bisa mengetahui
gender pengirim pesan.
Human Evaluation pada output Speaker Model
menggunakan crowdsourcing service. Disini
konsistensi evaluasi di desain dari output yang
terasosiasi dengan Speaker ID. Sebagai contoh,
model harus mampu menangkap knowledge
juga, jika message berupa Are you vegan or
vegetarian? Do you eat beef? jika jawaban
pertamanya ialah Yes, Iam vegan. Maka
jawaban berikutnya ialah Of course not!
9 | P a g e
ashrovy.tumblr.com | ashrovy.wordpress.com |medium.com/ashrovy
____
 fifth_table 
Model Standard LSTM Speaker Model Speaker-Addressee Model
Perplexity 27.3 25.4(-7%) 25.0(-8.4%)
Table 5: Perplexity untuk standard seq2seq dan persona model pada TV Series Dataset.
 sixth_table 
Model Standard LSTM Speaker Model Speaker-Addressee Model
MLE 1.60% 1.82%(+13.7%) 1.83(+14.3%)
MMI 1.70% 1.90%(+10.6%) 1.88%(+10.9)
Table 6: BLEU pada dataset TV Series (1 reference), untuk standard seq2seq2 dan persona models.
Pada table 9 mengambarkan konsistensi yang
muncul pada property dari dua user yang diambil
secara random. Model memiliki kemampuan
untuk menemukan relasi antara katagori lokasi,
seperti Jakarta dan Indonesia, London dan UK,
namun model tidak konsisten dalam
memberikan keputusan tersebut.
 seventh_table 
message What company do you work for?
baseline I work for a company
user1 I dont have a job
user2 I am a manager
user3 I am working
user4 I work for a company
user5 Im working
user6 Customer service
user7 I work in retail
user8 I work in a caf辿
user9 I work at a gas station
user10 I dont know
Table 7: merupakan response yang dihasilkan dari baseline
(LSTM-MMI) dan Speaker Model pada 10 user yang diambil
secara acak. Strikeout merupakan jawaban dengan kualitas
yang buruk.
 eighth_table 
message Do you Love me?
baseline Of Course, I love you
addressee: Emily, Speaker: Sheldon
of course, I love you, Emily
addressee: Emily, Speaker: Penny
of course, I love you, Emily
addressee: Monica, speaker: Chandler
Of course I love you. I want to marry you
addressee: Ross, speaker: Rachel
Of course I love you. (kisses him)
Table 8: Response dari Do you love me? Dari Speaker
Addressee model pada TV-series dataset menggunakan
addresses dan speaker
User1
message Where is your hometown?
response Im from England
message Where are you from?
response Im from England.
message In which city do you live now?
response I live in London
message In which country do you live now?
response I live in England
User2
message Where is your hometown?
response Im from Indonesia
message Where are you from?
response England, you?
message In which city do you live now?
response I live in Jakarta
message In which country do you live now?
response I live in Indonesia
Table 9: Contoh speaker yang konsisten dan tidak, yang
dihasilkan oleh Speaker Model.
Conclusion
Paper ini menjelaskan dua persona-based
response generation model dari open-domain
generation. Masih ada dimensi lain yang tidak
masuk di paper ini diantaranya mood, emosi dan
kebiasaan. Meskipun begitu pada kenyataannya
model pada paper ini tidak begitu spektakular
system berhasil mengungguli seq2seq system
dari BLEU, Perplexity dan human judgement
consistency. Disini juga mendemonstrasikan
encoding persona didalam distribusi
representation, juga dapat meng-capture
personal characteristic. Goal pada paper ini ialah
berhasil mengambil profil pada individu secara
acak belum berhasil diketahui sukses tidaknya,
menghasilkan pembicaraan yang akurat dengan
meniru seseorang secara individu.

More Related Content

Chatbot with Persona Based

  • 1. 1 | P a g e ashrovy.tumblr.com | ashrovy.wordpress.com |medium.com/ashrovy ____ 01:Data-driven response generation in social media. Ritter et al. 2011 komunikasi antarpribadi : penerima : dyadic addressee 02:A neural network approach to context-sensitive generation of conversational responses. Sordon et ali. 2015 teman bicara : daya tarik : menghasilkan : interlocutor traction yield 03:A neural conversational model. Vinyals. 2015 kecenderungan : propensity A Persona-Based Neural Conversation Model Jiwei Li, Michel Galley, Chirs Brockett, Georgios P. Spithouraskis, Jianfeng Gao, Bill Dolan paper resume by ashrovy Abstract Paper ini memperkenalkan persona-based models untuk menghandling isu konsistensi pembicara didalam neural response generation. Persona-based model di-encode didalam distributed embedding yang dapat menangkap karakterisitik individual seperti background information dan speaker style. Model ini menghasilkan peningkatan kualitatif performa baik untuk perplexity dan BLEU score berdasarkan sequence to sequence model. Hasil yang sama juga diperoleh teknik evaluasi yang lain yaitu human judges. Introduction Conversational agent telah dikembangkan dengan tujuan membuat pembicaraan antara manusia dan bot (chatbot) bisa terasa cukup realistik dan memilliki response yang relevant1,2,3,4 . Pada paper ini fokus dalam menghadapi tantangan konsistensi dan bagaimana data yang diberikan oleh data kepada sistem itu koheren dengan menampilkan persona seperti layaknya manusia. Persona merupakan campuran dari beberapa indentitas (profile, fact atau latarbelakang, language behavior dan gaya berbicara). Untungnya neural model conversational generation2,3,4,5 sudah ada yang mengarah kepada personas sebagai embedding. Maka pada paper ini akan mengeksplore dua persona model: single-speaker (Speaker model) dan diadik (Speaker-Addressee model), didalam framework sequence-to-sequence (seq2seq). Pada Speaker model akan mengintegrasikan speaker-level vector representation kedalam bagian target pada seq2seq model. Secara analog, Speaker-Addressee model meng- encode pola interaksi dari dua pembicara dengan mengkonstruksi gambaran interaksi dari individual embedding dan menggabungkan ke dalam seq2seq model. Dan eksperimen ini bersifat open-domain corpus pada percakapan di Twitter dan dialog dataset dari TV series script yang memanfaatkan persona vector. Harapannya itu semua dapat meningkatkan performa hingga 20% pada BLEU score dan 12% pada perplexity. Related Work Pengerjaan ini dinisiasi dari conversational dialog sebagai stastiscal machine translation problem atau SMT7 yang menggambarkan bahwa tidak perlu terlalu bergantung pada aturan hand-coded dengan membangun model statis aturan heuristik atau template7,8,9,10,11 , atau dengan learning geration rules dari minimal set authored rules atau label12,13,14,15,16,17 . Baru-
  • 2. 2 | P a g e ashrovy.tumblr.com | ashrovy.wordpress.com |medium.com/ashrovy ____ 04:A diversity-promoting objective function for neural conversation models. Li et al.2016 memberikan : campuran : composite endow 05:Neural responding machine for short-text conversation. Shang et al. 2015 sepadan : vague : commensurate samar 06:Data-driven response generation in social media. Ritter et al. 2011 menggabungkan : terdiri dari : incorporating comprising 07:A stochastic model of human-machine interaction for learning dialog strategies. Levin et al. 2000 memanfaatkan teknologi : Sejaman : leveraging contemporaneous 08:The hidden information state model: A practical framework for pomdp-based spoken dialogue management. Young et al. 2010 membedakan : menunjukkan: sudut: distinguish denotes generation baru ini malah menggunakan Long Short-Term Memory (LSTM)18 untuk mempelajari data yang tidak memiliki identitas waktu untuk mengurangi heuristic space pada kalimat. SMT model1 adalah end-to-end, data murni dan berisi model yang tidak eksplisit pada struktur dialog. Pada prosesnya. SMT stemming menggunakan natural language model19,20,21,22 yang telah menginspirasikan pada kinerja teknik neural pada SMT-based respon hasil pembicaraan dengan rescoring ouput menggunakan seq2seq model yang dikondisikan pada history percakapan. Penelitian yang lain menggunakan seq2seq untuk menghasilkan response dengan gaya end-to-end tanpa mengandalkan SMT phrase table3,23,24 ialah dengan menggunakan hierarchical neural model yang menangkap keterkaitan pada history percakapan. Ada juga penelitian yang mengukur informasi4 yang dikenal antara pesan dan response untuk mengurangi proporsi generic response seq2seq sistem. Ada juga yang menjaga relevansi response5 terhadap masukan yang ada. Modeling user dan speaker telah dipelajari didalam dialog standar modeling framework25,26,27 . Open-domain skenario menjadi sulit dipelajari didalam conventional dialog system, model model yang ada cenderung fokus dalam menghasilkan karakter28,29 . Pada pengerjaan saat ini, lebih cenderung memperkaya model dengan men-training persona vector langsung dari data pembicaraan dan informasi yang relevant. Sequence to Sequence Models Sequence input adalah = {1, 2, , } LSTM mengasosiasikan setiap langkah dengan memory gate dan ouput gate, masing-masing elemen dilambangkan sebagai , dan . Bedakan antara dan dimana melambangkan vector untuk unit teks individual (kata atau kalimat) pada waktu timestep pada menujukkan vector yang dikomputasikan oleh LSTM pada waktu , kemudian dikombinasikan dengan dan ≠1. Cell state vector pada waktu , dan melambangkan fungsi sigmoid. Kemduan vector menggambarkan untuk setiap time step : [ ] = [ $ ] [ ≠1 8 ] 01 = ≠1 + 02 8 = tanh() 03 dimana ialah , , , 2 . Didalam sudut seq2seq memiliki tugas, setiap input dipasangkan dengan sebuah sequence output untuk memprediksi: = {1, 2, , }. LSTM mendefenisiskan sebuah distribusi melalui output dan diteruskan pada rentetan token prediksi menggunakan fungsi softmax:
  • 3. 3 | P a g e ashrovy.tumblr.com | ashrovy.wordpress.com |medium.com/ashrovy ____ 09:A trainable generator for recommendations in multimodal dialog. Walker et al. 2003 komposisi: berbeda: compositional distinct 10:Are we there yet? research in commercial spoken dialog systems.Pieraccini et al. 2009 sangat: beranotasi: tremendously annotated 11:Improving spoken dialogue understanding using phonetic mixture models. Wang et al. 2011 sifat: menempati: traits occupying 12:Stochastic language generation for spoken dialogue systems. Oh et al. 2000 anggap saja: Sebagai gantinya: suppose that Instead (|) = (|1, 2, , ヰ, 1, 2, , ≠1) =1 = exp(( ≠1, )) ヰ(( ≠1, )) =1 dimana ( ≠1, ) menunjukkan fungsi aktivasi antara ≠1 dan . Setiap kalimat diakhiri dengan simbol EOS (end-of-sentence). Untuk menjaga percobaan umum, input dan ouput menggunakan LSTM yang berbeda dengan memisahkan parameter untuk menangkap pola komposisi. Selama decoding, algoritma berhenti ketika sebuah token telah diprediksi. Untuk setiap timestep, baik pendekatan greedy ataupun beam search dapat mengambil prediksi kata. Personlized Response Generation Pengerjaan yang dipaparkan didalam paper ini memperkenalkan dua persona-based models: Speaker Model, dimana personality model sebagai respoden, dan Speaker-Addressee Model dimana alur model mengadaptasi pembicaraan yang diberikan oleh penerima30 . Notation Untuk merespon tugas turunan. Biarkan menunjukkan input sequence kata (message) = {1, 2, , }. menunjukkan sequence kata didalam response , dimana reponse = {1, 2, , , 乞} dan adalah panjang dari response (yang dihentikan oleh token EOS). Sedangkan sendiri menunjukkan token kata yang terasosiasi dengan dimensional pada word embedding yang berbeda . Besaran vocabulary disimbolkan oleh . Speaker Model Model pertama yang akan dibahas disini ialaah Speaker Model, yang meresponden sendiri. Model ini menggambarkan pembicara individual sebagai vector atau embedding, yang akan meng-encode spesifik informasi pembicara (seperti: dialek, umur, gender dan lain-lain) dan ini berperngaruh pada respon konten. Sebagai catatan atribut-atribut diatas tidak secara explisit di anotasikan karena akan sangat mahal dan besar untuk pengumpulan dataset. Sebagai gantinya, model ini dapat menggabungkan pengguna dari beberapa ciri (seperti umur, wilayah dan lain-lain) berdasarkan responden sendiri. Gambar 1 memberikan ilustrasi jelas tentang Speaker Model. Setiap speaker [1, ] terasosiakan dengan user-level p 消1 . Sebagai standar seq2seq model, pertama encode message kedalam sebuah vector menggunakan sumber pada LSTM. Kemudian setiap step pada target, hidden unit didapatkan dengan menggabungkan gambaran yang diproduksi dari target LSTM di waktu sebelum timestep, representasikan kata di timestep yang sama dan speaker embedding p. [ ] = [ $ ] [ ≠1 8 p ] 04 = ≠1 + 05 8 = tanh() 06
  • 4. 4 | P a g e ashrovy.tumblr.com | ashrovy.wordpress.com |medium.com/ashrovy ____ 13:Trainable approaches to surface natural language generation and their application to conversational dialog systems. Ratnapharki. 2002 perpanjangan: tunangan: semaunya: extension engaged arbitary 14:IRIS: a chatoriented dialogue system based on the vector space model. Banchs et al. 2012 menonjol: secara linear: salient linearly 15:Luke, I am your father: dealing with out-of-domain requests by using movies subtitles. Ameixa et al. 2014 mencoba: tergabung: yaitu: attempt incoporated namely 16:Developing non-goal dialog system based on examplesofdramatelevision. Nio et al. 2014. berasal: memeriksa: derives examine 17:An empirical investigation of sparse log-linear models for improved dialogue act classi鍖cation. Chen et al. 2013 kemungkinan: terkait: paling banyak: likelihood associated at most dimana 4消3 . Pada tahap ini informasi dari speaker di encoded dan di inject ke dalam hidden layer disetiap timestepnya dan dengan demikian dapat membantu memprediksi respon secara personalitas melalui proses generation. Embedding speaker {p} dishare melalui percakapan yang terkait dengan speaker . {p} dipelajari dengan back propagating word prediction errors untuk setiap neural component selama latihan. Model ini dapat membantu mengambil kesimpulan pada jawaban dari soal meskipun tidak ada bukti (yang membenarkan jawaban tersebut pada dataset) yang muncul pada training dataset. Ini yang penting sewaktu training, data yang terdapat didalam training data tidak explicit secara informasi (atau detail) untuk setiap attribute pada setiap pengguna (seperti gender, age, country residence). Model mempelajari representasi pembicara based on kontent pembicaraan yang dihasilkan oleh pembicara yang lain. Kemudian pembicara akan memproduksi similar response terkait dengan similar embeddings, atau penempatan didekat dengan vector space. Dengan ini training data speaker diambil pada vector space terdekat untuk membantu menaikkan kapabilitas generalization pada speaker model. Contoh: anggaplah ada dua speaker dan yang memiliki suara berbeda dari british yang berarti keduanya dekat dengan speaker embedding space. Sekarang, anggap saja, didalam training data, speaker ditanya dimana kamu tinggal? dan direspon didalam UK. Sekalipun speaker tidak pernah menanyakan hal yang sama, jawaban ini dapat membantu respon bahwa speaker dapat berfungsi dengan baik, tanpa labal yang explicit. Speaker -Addressee Model Natural extension Speaker model adalah sebuah model yang sensitif kepada pola interaksi speaker-addressee didalam percakapan. Tidak hanya semua jenis speaking style tetapi juga penerima (addressee). Speaker-Addressee Model beroperasi sebagai berikut: Pertama, memprediksi bagaimana speaker akan merespon sebuah message yang diberikan oleh speaker . Kedua, hampir sama dengan Speaker model, setiap speaker terasosiasi dengan deminsional speaker-level represntation, yaitu p untuk user dan p untuk user . Representasi interaksi didapatkan , 消1 digabungkan secara linear oleh vector user p dan p didalam upaya untuk interaktif model user style user ke user , , = tanh(1 p + 2 2) 07 dimana 1, 2 . Sedangkan , tergabung secara linear didalam LSTM model pada setiap target step-nya: [ ] = [ $ ] [ ≠1 8 p, ] 08
  • 5. 5 | P a g e ashrovy.tumblr.com | ashrovy.wordpress.com |medium.com/ashrovy ____ 18:Long short-term memory. Hochreiter et al. 1997 penyamarataan: generalization 19:Sequence to sequence learning with neural networks. Sutskever et al. 2014 menghasilkan: pembicara: yielded conversationalists Gambar 1: Ilustrasi dari Speaker model yang diperkenalkan pada paper ini. Speaker IDs yang terdapat dekat dengan embedding space cenderung untuk merespon dengan cara yang sama. Speaker embeddings mempelajari bersamaan dengan word embeddings dan parameter lainnya di neural model via backpropagation. Contoh: Rob adalah speaker yang di kumpulkan dari orang yang biasa mention kata England pada training data, lalu turunan pada token England pada waktu t = 2 jauh lebih banyak dari U.S. Non-persona model akan lebih memilih men-generate in the U.S. jika U.S. lebih banyak terdapat pada training data diantara banyak speaker. *** = ≠1 + 09 8 = tanh() 10 Speaker dan addresssee dan juga pembicara yang sama akan merespon jawaban yang berbeda dari lawan bicara yang berbeda pula. Salah satu isu potensial yang mungkin terjadi ialah dimana modelling Speaker-addresssee sulit dikaitkan didalam pengumpulan dataset training skala besar diamana setiap speaker berkecimpung pada percakapan dengan berbagai macam orang. Seperti halnya Speaker Model, namun, Speaker-Addressee Model berasal dari penyamarataan kapabilitas dari speaker embeddings. Bahkan jika kedua speaker pada test time ( dan ) tidak pernah terlibat didalam percakapan yang sama selama training, dua pembicara dan meskipun dekat dengan embeddings mungkin dapat membantu dalam pemodelan bagaimana cara menanggapi . Decoding and Rerangking Untuk decoding, N-best list dihasilkan dengan menggunakan decoder dengan beam size = 200 (decoding pada paper ini memakai beam search). memiliki panjang maksimum 20 untuk men-generated candidate. Untuk mengoperasikan decoding ikuti langkah berikut: setiap langkah periksa semua 誼 kemungkinan pada kandidat next-word, dan tambahakan semua hipotesis dengan ending EOS token pada N-best list. Kemudian pertahankan top- yang hipotesisnya belum selesai lalu pindahkan ke posisi next-word.
  • 6. 6 | P a g e ashrovy.tumblr.com | ashrovy.wordpress.com |medium.com/ashrovy ____ 20:Learning continuous phrase representations for translation modeling. Gao et al. 2014 21:Neural machine translation by jointly learning to align and translate. Bahdanau et al. 2015 22:Addressing the rare word problem in neural machine translation. Luong et al. 2015. penyamarataan: terutama: barangkali: menekankan: semau-maunya: muncul: generalization primarily presumably emphasized arbitrarily emergent Untuk menghadapi masalah pada seq2seq yang cenderung men-generate generic dan response biasa seperti I dont know, dengan menggunakan reranking pada N-best list memakai fungsi scoring yang secara lienear digabungkan dengan penalty dan kemungkinan log target: log (|, ) + log (|) + || 11 dimana (|, ) menunjukkan kemungkinan untuk menghasilkan response yang diberikan oleh message dan responden speaker ID. || menyimbolkan panjang dari target dan simbol terkait dengan berat penalty. Optimasi dan pada N-best list merupakan kandidat response yang dihasilkan dari MERT31 dengan mengoptimasi BLEU. Untuk mengkomputasi (|), training akan dilakukan secara terbalik pada seq2seq model dengan cara menukar message dan response. Sedangkan pada standar seq2seq model (|) akan di training tanpa speaker information. Dataset Twitter Persona Dataset Data Collection: Training data untuk Speaker Model ter-extract dari Twitter FireHouse selama 6 bulan dimulai dari 1 Januari, 2012. Sequence dibatasi untuk response (jawaban) paling sedikit 60 dan paling banyak 300, dan percakapan selama 3 kali bolak-balik dihitung satu (contoh: {A halo, B halo juga, C gimana kabar?} percakapan disitu dihitung sebagai satu 1 percakapan). Dataset yang dihasilkan sekitar 74.003 pengguna dari 60 dan maksimal turn sebanyak 164-conversational turn (average: 92.24, median: 90). Dataset yang di-extract menggunakan reponses pembicara ini adalah 24.725.711 selama 3-turn sliding-window (context-message-response) sequence percakapan. Sebagai tambahan, terdapat sample 12000 3- turn conversation dari user set yang sama dari Twitter FireHose, dari hasil ini divalidasi dan dihasilkan test set (4000 percakapan disetiap percakapan). Training Protocols: Seq2seq detraining sebanyak 4-layer pada Twitter corpus19 . Berikut detailnya: 4 Layer LSTM model memiliki 1000 hidden cells untuk setiap layernya. Ukuran batch disetting hingga 128 Learning rate diset hingga 1.0 Parameter diinisialisasi oleh sampling dari uniform distribution[-0.1,0.1]. Gradient dipotong untuk menghindari gradient explosion dengan threshold sebanyak 5. Batas vocabulary 50.000 Dropout rate dimulai dari 0.2 Sumber dan LSTM target menggunakan parameter set yang berbeda. Twitter Sordoni Dataset Twitter Sordoni Dataset yang diambil dari paper ini adalah speaker ID information. Untuk mendapatkan perbandingan state-of-the-art work2,4 sebelumnya, baseline (non-persona) LSTM model pengerjaan sebelumnya juga perlu diukur untuk Twitter Sordoni Dataset. Perlu dicatat bahwa Sordoni dataset menawarkan hamper 10 references per message, sedangan Twitter Persona dataset hanya memberikan 1 references per-message. BLEU score tidak bias membandingkan terhadap dua dataset twitter
  • 7. 7 | P a g e ashrovy.tumblr.com | ashrovy.wordpress.com |medium.com/ashrovy ____ 23:Building end-to-end dialogue systems using generative hierarchical neural network models. Serban et al. 2015 24:Attention with intention for a neural network conversation model. Yao et al. 2015 25:User models in dialog systems. Whalster et al. 1989 26:Effects of the user model on simulation-based learning of dialogue strategies. Schatztnann et al. 2005 27:All the worlds a stage: Learning character models from 鍖lm. Lin et al. 2011 28: Perceived or not perceived: Film character models for expressive nlg. Walker et al. 2011 Penyetelan: Menyimpulkan: Merupakan: sebelumnya: memeriksa: kemungkinan: terkait: paling banyak: memeriksa: kemungkinan: terkait: menghasilkan: pembicara: mencapuradukkan: tuning inferring constitute prior examine likelihood associated at most examine likelihood associated yielded conversationalists confound (BLEU Score pada 10 references biasanya jauh lebih tinggi dibanding 1 references). Television Series Transcripts Data Collection: untuk percakapan diadik Speaker Addressee Model menggunakan transcript dari acara televise Friends dan The Big Bang Theory yang bias diakses di Internet Movie Script Database (IMSDb). 13 tokoh utama dikumpulkan dari corpus sebanyak 69.565 putaran. Corpus dibagi-bagi untuk keperluan training/development/testing set (development dan testing sendirin setiap set-nya membutuhkan sekitar 2000 putaran). Training dikarenakan jumlah dataset yang kecil proses training tidak teruntuk untuk open- domain dialog model. Difase pertama men- training Seq2seq model menggunakan dataset yang sedikit besar yaitu OpenSubtitles (OSDb) dataset. Tetapi OSDb memiliki noisy yang tinggi dan merupakan open-domain dataset, bahkan dataset ini tidak memiliki detail spesifik mengenai siapa yang berbicara disetiap subtitle line. Masalah ini menyulitkan untuk mengambil kesimpulan pada siapa yang berbicara. Pada training menggunakan standar Seq2seq menggunakan protocol yang telah di deskripsikan pada Twitter Persona Dataset. Inisialisasi dimulai pada word embeddings dan LSTM parameter pada Speaker Model, sedangkan pada Speaker-Addressee model menggunakan parameter yang telah dipelajari dari OpenSubtitles dataset. second_table System BLEU MT baseline1 3.60% Standard LSTM MMI4 5.26% Standard LSTM MMI 5.82% Human 6.08% Table 2: BLEU pada dataset Twitter Sordoni (10 references). Terdapat kontras antara baseline pada paper ini dan SMT baseline2 dan hasil terbaik4 dibangun dari dataset Twitter Sordoni. Hasil terakhir pada human oracle, tetapi tidak cocok untuk dibandingkan langsung dengan oracle BLEU dikarenakan komputasinya terlalu ketinggalan zaman. Experiment Evaluation Bila mengacup pada paper2,4 maka pada evaluasi menggunakan BLEU33 sebagai parameter penyetelan dan evaluasi. BLEU telah menunjukkan korelasi dengan baik pada human judgement response dan tugas turunan. third_table Model Standard LSTM Speaker Model Perplexity 47.2 42.2(-10.6%) Table 3: Standard perplexity seq2seq dan Speaker model pada Twitter Persona development set. Baseline Semenjak experiment menggunakan dataset yang baru (Twitter Persona Dataset), LSTM baseline cukup kompetitif dengan state-of-the- art2 pada pembuatan datasetnya. Baseline pada paper ini sederhananya mengimpelemntasikan LSTM-MMI2 , sehingga hasilnya harusnya relative sama dengan hasil yang sudah dilaporkan pada paper tersebut.
  • 8. 8 | P a g e ashrovy.tumblr.com | ashrovy.wordpress.com |medium.com/ashrovy ____ 29:An annotated corpus of 鍖lm dialogue for learning and characterizing character style. Walker et al. 2012 30:Social interaction and the development of de鍖nite descriptions. Deutsch et al. 1982 31:Minimum error rate training in statistical machine translation. Och. 2003 32:A collection of multilingual parallel corpora with tools and interfaces. Tiedemann. 2009 33:BLEU: a method for automatic evaluation of machine translation. Papineni et al. 2002 cukup: mengungguli: sedalam-dalamnya menghalangi tawaran masuk akal salah kontingen berlebihan dimana-mana halangan: sufficent outperform profusely impede overture plausible amiss contigents exaggerate ubiquitous hitch fourth_table Model Objective BLEU Standard LSTM MLE 0.92% Speaker Model MLE 1.12%(+21.7%) Standard LSTM MMI 1.41% Speaker Model MMI 1.66% (+11.7%) Table 4: BLEU pada Twitter Persona dataset (1 reference), untuk standard Seq2seq model dan Speaker model menggunakan objek kemungkinan maksimum (MLE) atau maksimum mutual information. Result Perplexity pada Twitter Persona dataset dapat dilihat pada table 3. Hasil observasi menyatakan bahwa sekitar 10% penurunan pada perplexity untuk Speaker model dibandingkan dengan standard seq2seq model. Pada table 4 (BLEU Score) ada peningkatan signifikan pada Speaker model dibandingkan seq2seq model, 21% peningkatan didalam maximum likelihood (MLE) setting dan 11.7% untuk mutual information setting (MMI). Pada titik ini observasi menyimpulkan adanya konsistensi yang diperkenalkan oleh fungsi objek MMI melalui standard seq2seq model based on fungsi objekl MLE. Ini menjadi catatan bahwa persona model dengan menggunakan MLE lebih bermanfaat ketimbang MMI Model. Untuk TV series dataset, perplexity dan BLEU score dilaporkan pada table 5 dan table 6. Perplexity pada Speaker dan Speaker addressee model mencapai 25.4 dan 25.0 pada TV series dataset, 7.0% dan 8.4% lebih rendah dari koresponden standar seq2seq model. Tidak ada perbedaan yang signifikan antara perbandingan model Speaker-Addresssee dan Speaker model, mungkin karena kecil dataset yang digunakan pada paper ini sehingga pola tidak bisa ditangkap atau bisa juga dikarenakan noisy pada dataset. Qualitative Analysis Diverse Responses by Different Speaker table 7 merepresentasikan response yang dihasilkan oleh persona model didalam merespon 3 input pertanyaan yang berbeda. Disini 10 speaker akan diambil secara acak pada Twitter dataset. Model cenderung untuk menghasilkan jawaban yang spesifik dari orang-orang yang berbeda. Jawaban yang dihasilkan pada table 8 adalah table dengan menggunakan Speaker-Addressee Model dan menggunakan dataset TV-Series. Menariknya, pada model ini jawaban justru sangat sensitive pada penerimanya. Contoh model bisa menghasilkan jawaban Of course, I love you Emily bahkan model juga bisa menjawab seperti ini Of course, I love you (kisses her) dimana model bisa mengetahui gender pengirim pesan. Human Evaluation pada output Speaker Model menggunakan crowdsourcing service. Disini konsistensi evaluasi di desain dari output yang terasosiasi dengan Speaker ID. Sebagai contoh, model harus mampu menangkap knowledge juga, jika message berupa Are you vegan or vegetarian? Do you eat beef? jika jawaban pertamanya ialah Yes, Iam vegan. Maka jawaban berikutnya ialah Of course not!
  • 9. 9 | P a g e ashrovy.tumblr.com | ashrovy.wordpress.com |medium.com/ashrovy ____ fifth_table Model Standard LSTM Speaker Model Speaker-Addressee Model Perplexity 27.3 25.4(-7%) 25.0(-8.4%) Table 5: Perplexity untuk standard seq2seq dan persona model pada TV Series Dataset. sixth_table Model Standard LSTM Speaker Model Speaker-Addressee Model MLE 1.60% 1.82%(+13.7%) 1.83(+14.3%) MMI 1.70% 1.90%(+10.6%) 1.88%(+10.9) Table 6: BLEU pada dataset TV Series (1 reference), untuk standard seq2seq2 dan persona models. Pada table 9 mengambarkan konsistensi yang muncul pada property dari dua user yang diambil secara random. Model memiliki kemampuan untuk menemukan relasi antara katagori lokasi, seperti Jakarta dan Indonesia, London dan UK, namun model tidak konsisten dalam memberikan keputusan tersebut. seventh_table message What company do you work for? baseline I work for a company user1 I dont have a job user2 I am a manager user3 I am working user4 I work for a company user5 Im working user6 Customer service user7 I work in retail user8 I work in a caf辿 user9 I work at a gas station user10 I dont know Table 7: merupakan response yang dihasilkan dari baseline (LSTM-MMI) dan Speaker Model pada 10 user yang diambil secara acak. Strikeout merupakan jawaban dengan kualitas yang buruk. eighth_table message Do you Love me? baseline Of Course, I love you addressee: Emily, Speaker: Sheldon of course, I love you, Emily addressee: Emily, Speaker: Penny of course, I love you, Emily addressee: Monica, speaker: Chandler Of course I love you. I want to marry you addressee: Ross, speaker: Rachel Of course I love you. (kisses him) Table 8: Response dari Do you love me? Dari Speaker Addressee model pada TV-series dataset menggunakan addresses dan speaker User1 message Where is your hometown? response Im from England message Where are you from? response Im from England. message In which city do you live now? response I live in London message In which country do you live now? response I live in England User2 message Where is your hometown? response Im from Indonesia message Where are you from? response England, you? message In which city do you live now? response I live in Jakarta message In which country do you live now? response I live in Indonesia Table 9: Contoh speaker yang konsisten dan tidak, yang dihasilkan oleh Speaker Model. Conclusion Paper ini menjelaskan dua persona-based response generation model dari open-domain generation. Masih ada dimensi lain yang tidak masuk di paper ini diantaranya mood, emosi dan kebiasaan. Meskipun begitu pada kenyataannya model pada paper ini tidak begitu spektakular system berhasil mengungguli seq2seq system dari BLEU, Perplexity dan human judgement consistency. Disini juga mendemonstrasikan encoding persona didalam distribusi representation, juga dapat meng-capture personal characteristic. Goal pada paper ini ialah berhasil mengambil profil pada individu secara acak belum berhasil diketahui sukses tidaknya, menghasilkan pembicaraan yang akurat dengan meniru seseorang secara individu.