Merupakan resume paper : A Persona-based neural conversation Model
Jadi pada paper ini akan memaparkan secara gamblang, apasih gunanya personality pada chatbot. Yang menggunakan framwork seq2seq, RNN dan pengujian pada BLEU
1 of 9
Download to read offline
More Related Content
Chatbot with Persona Based
1. 1 | P a g e
ashrovy.tumblr.com | ashrovy.wordpress.com |medium.com/ashrovy
____
01:Data-driven response generation in social media. Ritter
et al. 2011
komunikasi antarpribadi :
penerima :
dyadic
addressee
02:A neural network approach to context-sensitive
generation of conversational responses. Sordon et ali.
2015
teman bicara :
daya tarik :
menghasilkan :
interlocutor
traction
yield
03:A neural conversational model. Vinyals. 2015 kecenderungan : propensity
A Persona-Based Neural Conversation Model
Jiwei Li, Michel Galley, Chirs Brockett, Georgios P. Spithouraskis, Jianfeng Gao, Bill Dolan
paper resume by ashrovy
Abstract
Paper ini memperkenalkan persona-based models untuk menghandling isu konsistensi
pembicara didalam neural response generation. Persona-based model di-encode
didalam distributed embedding yang dapat menangkap karakterisitik individual
seperti background information dan speaker style. Model ini menghasilkan
peningkatan kualitatif performa baik untuk perplexity dan BLEU score berdasarkan
sequence to sequence model. Hasil yang sama juga diperoleh teknik evaluasi yang lain
yaitu human judges.
Introduction
Conversational agent telah dikembangkan
dengan tujuan membuat pembicaraan antara
manusia dan bot (chatbot) bisa terasa cukup
realistik dan memilliki response yang
relevant1,2,3,4
. Pada paper ini fokus dalam
menghadapi tantangan konsistensi dan
bagaimana data yang diberikan oleh data
kepada sistem itu koheren dengan menampilkan
persona seperti layaknya manusia.
Persona merupakan campuran dari beberapa
indentitas (profile, fact atau latarbelakang,
language behavior dan gaya berbicara).
Untungnya neural model conversational
generation2,3,4,5
sudah ada yang mengarah
kepada personas sebagai embedding. Maka
pada paper ini akan mengeksplore dua persona
model: single-speaker (Speaker model) dan
diadik (Speaker-Addressee model), didalam
framework sequence-to-sequence (seq2seq).
Pada Speaker model akan mengintegrasikan
speaker-level vector representation kedalam
bagian target pada seq2seq model. Secara
analog, Speaker-Addressee model meng-
encode pola interaksi dari dua pembicara
dengan mengkonstruksi gambaran interaksi dari
individual embedding dan menggabungkan ke
dalam seq2seq model. Dan eksperimen ini
bersifat open-domain corpus pada percakapan
di Twitter dan dialog dataset dari TV series script
yang memanfaatkan persona vector.
Harapannya itu semua dapat meningkatkan
performa hingga 20% pada BLEU score dan 12%
pada perplexity.
Related Work
Pengerjaan ini dinisiasi dari conversational
dialog sebagai stastiscal machine translation
problem atau SMT7
yang menggambarkan
bahwa tidak perlu terlalu bergantung pada
aturan hand-coded dengan membangun model
statis aturan heuristik atau template7,8,9,10,11
,
atau dengan learning geration rules dari minimal
set authored rules atau label12,13,14,15,16,17
. Baru-
2. 2 | P a g e
ashrovy.tumblr.com | ashrovy.wordpress.com |medium.com/ashrovy
____
04:A diversity-promoting objective function for neural
conversation models. Li et al.2016
memberikan :
campuran :
composite
endow
05:Neural responding machine for short-text
conversation. Shang et al. 2015
sepadan :
vague :
commensurate
samar
06:Data-driven response generation in social media.
Ritter et al. 2011
menggabungkan :
terdiri dari :
incorporating
comprising
07:A stochastic model of human-machine interaction
for learning dialog strategies. Levin et al. 2000
memanfaatkan teknologi :
Sejaman :
leveraging
contemporaneous
08:The hidden information state model: A practical
framework for pomdp-based spoken dialogue
management. Young et al. 2010
membedakan :
menunjukkan:
sudut:
distinguish
denotes
generation
baru ini malah menggunakan Long Short-Term
Memory (LSTM)18
untuk mempelajari data yang
tidak memiliki identitas waktu untuk
mengurangi heuristic space pada kalimat.
SMT model1
adalah end-to-end, data murni dan
berisi model yang tidak eksplisit pada struktur
dialog. Pada prosesnya. SMT stemming
menggunakan natural language model19,20,21,22
yang telah menginspirasikan pada kinerja teknik
neural pada SMT-based respon hasil
pembicaraan dengan rescoring ouput
menggunakan seq2seq model yang dikondisikan
pada history percakapan. Penelitian yang lain
menggunakan seq2seq untuk menghasilkan
response dengan gaya end-to-end tanpa
mengandalkan SMT phrase table3,23,24
ialah
dengan menggunakan hierarchical neural model
yang menangkap keterkaitan pada history
percakapan. Ada juga penelitian yang mengukur
informasi4
yang dikenal antara pesan dan
response untuk mengurangi proporsi generic
response seq2seq sistem. Ada juga yang
menjaga relevansi response5
terhadap masukan
yang ada.
Modeling user dan speaker telah dipelajari
didalam dialog standar modeling
framework25,26,27
. Open-domain skenario
menjadi sulit dipelajari didalam conventional
dialog system, model model yang ada cenderung
fokus dalam menghasilkan karakter28,29
. Pada
pengerjaan saat ini, lebih cenderung
memperkaya model dengan men-training
persona vector langsung dari data pembicaraan
dan informasi yang relevant.
Sequence to Sequence Models
Sequence input adalah = {1, 2, ,
}
LSTM mengasosiasikan setiap langkah dengan
memory gate dan ouput gate, masing-masing
elemen dilambangkan sebagai , dan .
Bedakan antara dan dimana
melambangkan vector untuk unit teks individual
(kata atau kalimat) pada waktu timestep pada
menujukkan vector yang dikomputasikan oleh
LSTM pada waktu , kemudian dikombinasikan
dengan dan ≠1. Cell state vector pada
waktu , dan melambangkan fungsi sigmoid.
Kemduan vector menggambarkan untuk
setiap time step :
[
] = [
$
] [
≠1
8 ]
01
= ≠1 +
02
8
= tanh()
03
dimana ialah , , , 2
.
Didalam sudut seq2seq memiliki tugas, setiap
input dipasangkan dengan sebuah sequence
output untuk memprediksi: = {1, 2, ,
}.
LSTM mendefenisiskan sebuah distribusi melalui
output dan diteruskan pada rentetan token
prediksi menggunakan fungsi softmax:
3. 3 | P a g e
ashrovy.tumblr.com | ashrovy.wordpress.com |medium.com/ashrovy
____
09:A trainable generator for recommendations in
multimodal dialog. Walker et al. 2003
komposisi:
berbeda:
compositional
distinct
10:Are we there yet? research in commercial spoken
dialog systems.Pieraccini et al. 2009
sangat:
beranotasi:
tremendously
annotated
11:Improving spoken dialogue understanding using
phonetic mixture models. Wang et al. 2011
sifat:
menempati:
traits
occupying
12:Stochastic language generation for spoken
dialogue systems. Oh et al. 2000
anggap saja:
Sebagai gantinya:
suppose that
Instead
(|) = (|1, 2, , ヰ, 1, 2, , ≠1)
=1
=
exp(( ≠1, ))
ヰ(( ≠1, ))
=1
dimana ( ≠1, ) menunjukkan fungsi
aktivasi antara ≠1 dan . Setiap kalimat
diakhiri dengan simbol EOS (end-of-sentence).
Untuk menjaga percobaan umum, input dan
ouput menggunakan LSTM yang berbeda dengan
memisahkan parameter untuk menangkap pola
komposisi.
Selama decoding, algoritma berhenti ketika
sebuah token telah diprediksi. Untuk setiap
timestep, baik pendekatan greedy ataupun
beam search dapat mengambil prediksi kata.
Personlized Response Generation
Pengerjaan yang dipaparkan didalam paper ini
memperkenalkan dua persona-based models:
Speaker Model, dimana personality model
sebagai respoden, dan Speaker-Addressee
Model dimana alur model mengadaptasi
pembicaraan yang diberikan oleh penerima30
.
Notation
Untuk merespon tugas turunan. Biarkan
menunjukkan input sequence kata (message)
= {1, 2, , }. menunjukkan sequence
kata didalam response , dimana reponse =
{1, 2, , , 乞} dan adalah panjang dari
response (yang dihentikan oleh token EOS).
Sedangkan sendiri menunjukkan token kata
yang terasosiasi dengan dimensional pada
word embedding yang berbeda . Besaran
vocabulary disimbolkan oleh .
Speaker Model
Model pertama yang akan dibahas disini ialaah
Speaker Model, yang meresponden sendiri.
Model ini menggambarkan pembicara individual
sebagai vector atau embedding, yang akan
meng-encode spesifik informasi pembicara
(seperti: dialek, umur, gender dan lain-lain) dan
ini berperngaruh pada respon konten. Sebagai
catatan atribut-atribut diatas tidak secara
explisit di anotasikan karena akan sangat mahal
dan besar untuk pengumpulan dataset. Sebagai
gantinya, model ini dapat menggabungkan
pengguna dari beberapa ciri (seperti umur,
wilayah dan lain-lain) berdasarkan responden
sendiri.
Gambar 1 memberikan ilustrasi jelas tentang
Speaker Model. Setiap speaker [1, ]
terasosiakan dengan user-level p 消1
.
Sebagai standar seq2seq model, pertama
encode message kedalam sebuah vector
menggunakan sumber pada LSTM. Kemudian
setiap step pada target, hidden unit didapatkan
dengan menggabungkan gambaran yang
diproduksi dari target LSTM di waktu sebelum
timestep, representasikan kata di timestep yang
sama dan speaker embedding p.
[
] = [
$
] [
≠1
8
p
]
04
= ≠1 +
05
8
= tanh()
06
4. 4 | P a g e
ashrovy.tumblr.com | ashrovy.wordpress.com |medium.com/ashrovy
____
13:Trainable approaches to surface natural language
generation and their application to conversational
dialog systems. Ratnapharki. 2002
perpanjangan:
tunangan:
semaunya:
extension
engaged
arbitary
14:IRIS: a chatoriented dialogue system based on the
vector space model. Banchs et al. 2012
menonjol:
secara linear:
salient
linearly
15:Luke, I am your father: dealing with out-of-domain
requests by using movies subtitles. Ameixa et al.
2014
mencoba:
tergabung:
yaitu:
attempt
incoporated
namely
16:Developing non-goal dialog system based on
examplesofdramatelevision. Nio et al. 2014.
berasal:
memeriksa:
derives
examine
17:An empirical investigation of sparse log-linear
models for improved dialogue act classi鍖cation.
Chen et al. 2013
kemungkinan:
terkait:
paling banyak:
likelihood
associated
at most
dimana 4消3
. Pada tahap ini informasi
dari speaker di encoded dan di inject ke dalam
hidden layer disetiap timestepnya dan dengan
demikian dapat membantu memprediksi respon
secara personalitas melalui proses generation.
Embedding speaker {p} dishare melalui
percakapan yang terkait dengan speaker . {p}
dipelajari dengan back propagating word
prediction errors untuk setiap neural component
selama latihan.
Model ini dapat membantu mengambil
kesimpulan pada jawaban dari soal meskipun
tidak ada bukti (yang membenarkan jawaban
tersebut pada dataset) yang muncul pada
training dataset. Ini yang penting sewaktu
training, data yang terdapat didalam training
data tidak explicit secara informasi (atau detail)
untuk setiap attribute pada setiap pengguna
(seperti gender, age, country residence). Model
mempelajari representasi pembicara based on
kontent pembicaraan yang dihasilkan oleh
pembicara yang lain. Kemudian pembicara akan
memproduksi similar response terkait dengan
similar embeddings, atau penempatan didekat
dengan vector space. Dengan ini training data
speaker diambil pada vector space terdekat
untuk membantu menaikkan kapabilitas
generalization pada speaker model. Contoh:
anggaplah ada dua speaker dan yang memiliki
suara berbeda dari british yang berarti keduanya
dekat dengan speaker embedding space.
Sekarang, anggap saja, didalam training data,
speaker ditanya dimana kamu tinggal? dan
direspon didalam UK. Sekalipun speaker tidak
pernah menanyakan hal yang sama, jawaban ini
dapat membantu respon bahwa speaker dapat
berfungsi dengan baik, tanpa labal yang explicit.
Speaker -Addressee Model
Natural extension Speaker model adalah sebuah
model yang sensitif kepada pola interaksi
speaker-addressee didalam percakapan. Tidak
hanya semua jenis speaking style tetapi juga
penerima (addressee). Speaker-Addressee
Model beroperasi sebagai berikut: Pertama,
memprediksi bagaimana speaker akan
merespon sebuah message yang diberikan oleh
speaker . Kedua, hampir sama dengan Speaker
model, setiap speaker terasosiasi dengan
deminsional speaker-level represntation, yaitu
p untuk user dan p untuk user . Representasi
interaksi didapatkan , 消1
digabungkan
secara linear oleh vector user p dan p didalam
upaya untuk interaktif model user style user ke
user ,
, = tanh(1 p + 2 2)
07
dimana 1, 2
. Sedangkan ,
tergabung secara linear didalam LSTM model
pada setiap target step-nya:
[
] = [
$
] [
≠1
8
p,
]
08
5. 5 | P a g e
ashrovy.tumblr.com | ashrovy.wordpress.com |medium.com/ashrovy
____
18:Long short-term memory. Hochreiter et al. 1997 penyamarataan: generalization
19:Sequence to sequence learning with neural
networks. Sutskever et al. 2014
menghasilkan:
pembicara:
yielded
conversationalists
Gambar 1: Ilustrasi dari Speaker model yang diperkenalkan pada paper ini. Speaker IDs yang terdapat
dekat dengan embedding space cenderung untuk merespon dengan cara yang sama. Speaker embeddings
mempelajari bersamaan dengan word embeddings dan parameter lainnya di neural model via
backpropagation. Contoh: Rob adalah speaker yang di kumpulkan dari orang yang biasa mention kata
England pada training data, lalu turunan pada token England pada waktu t = 2 jauh lebih banyak dari
U.S. Non-persona model akan lebih memilih men-generate in the U.S. jika U.S. lebih banyak terdapat
pada training data diantara banyak speaker.
***
= ≠1 +
09
8
= tanh()
10
Speaker dan addresssee dan juga pembicara
yang sama akan merespon jawaban yang
berbeda dari lawan bicara yang berbeda pula.
Salah satu isu potensial yang mungkin terjadi
ialah dimana modelling Speaker-addresssee
sulit dikaitkan didalam pengumpulan dataset
training skala besar diamana setiap speaker
berkecimpung pada percakapan dengan
berbagai macam orang. Seperti halnya Speaker
Model, namun, Speaker-Addressee Model
berasal dari penyamarataan kapabilitas dari
speaker embeddings. Bahkan jika kedua speaker
pada test time ( dan ) tidak pernah terlibat
didalam percakapan yang sama selama training,
dua pembicara dan meskipun dekat dengan
embeddings mungkin dapat membantu dalam
pemodelan bagaimana cara menanggapi .
Decoding and Rerangking
Untuk decoding, N-best list dihasilkan dengan
menggunakan decoder dengan beam size =
200 (decoding pada paper ini memakai beam
search). memiliki panjang maksimum 20 untuk
men-generated candidate. Untuk
mengoperasikan decoding ikuti langkah berikut:
setiap langkah periksa semua 誼
kemungkinan pada kandidat next-word, dan
tambahakan semua hipotesis dengan ending
EOS token pada N-best list. Kemudian
pertahankan top- yang hipotesisnya belum
selesai lalu pindahkan ke posisi next-word.
6. 6 | P a g e
ashrovy.tumblr.com | ashrovy.wordpress.com |medium.com/ashrovy
____
20:Learning continuous phrase representations for
translation modeling. Gao et al. 2014
21:Neural machine translation by jointly learning to
align and translate. Bahdanau et al. 2015
22:Addressing the rare word problem in neural
machine translation. Luong et al. 2015.
penyamarataan:
terutama:
barangkali:
menekankan:
semau-maunya:
muncul:
generalization
primarily
presumably
emphasized
arbitrarily
emergent
Untuk menghadapi masalah pada seq2seq yang
cenderung men-generate generic dan response
biasa seperti I dont know, dengan
menggunakan reranking pada N-best list
memakai fungsi scoring yang secara lienear
digabungkan dengan penalty dan kemungkinan
log target:
log (|, ) + log (|) + ||
11
dimana (|, ) menunjukkan kemungkinan
untuk menghasilkan response yang diberikan
oleh message dan responden speaker ID. ||
menyimbolkan panjang dari target dan simbol
terkait dengan berat penalty. Optimasi dan
pada N-best list merupakan kandidat response
yang dihasilkan dari MERT31
dengan
mengoptimasi BLEU. Untuk mengkomputasi
(|), training akan dilakukan secara terbalik
pada seq2seq model dengan cara menukar
message dan response. Sedangkan pada standar
seq2seq model (|) akan di training tanpa
speaker information.
Dataset
Twitter Persona Dataset
Data Collection: Training data untuk Speaker
Model ter-extract dari Twitter FireHouse selama
6 bulan dimulai dari 1 Januari, 2012. Sequence
dibatasi untuk response (jawaban) paling sedikit
60 dan paling banyak 300, dan percakapan
selama 3 kali bolak-balik dihitung satu (contoh:
{A halo, B halo juga, C gimana kabar?}
percakapan disitu dihitung sebagai satu 1
percakapan). Dataset yang dihasilkan sekitar
74.003 pengguna dari 60 dan maksimal turn
sebanyak 164-conversational turn (average:
92.24, median: 90). Dataset yang di-extract
menggunakan reponses pembicara ini adalah
24.725.711 selama 3-turn sliding-window
(context-message-response) sequence
percakapan.
Sebagai tambahan, terdapat sample 12000 3-
turn conversation dari user set yang sama dari
Twitter FireHose, dari hasil ini divalidasi dan
dihasilkan test set (4000 percakapan disetiap
percakapan).
Training Protocols: Seq2seq detraining
sebanyak 4-layer pada Twitter corpus19
. Berikut
detailnya:
4 Layer LSTM model memiliki 1000
hidden cells untuk setiap layernya.
Ukuran batch disetting hingga 128
Learning rate diset hingga 1.0
Parameter diinisialisasi oleh sampling
dari uniform distribution[-0.1,0.1].
Gradient dipotong untuk menghindari
gradient explosion dengan threshold
sebanyak 5.
Batas vocabulary 50.000
Dropout rate dimulai dari 0.2
Sumber dan LSTM target menggunakan
parameter set yang berbeda.
Twitter Sordoni Dataset
Twitter Sordoni Dataset yang diambil dari paper
ini adalah speaker ID information. Untuk
mendapatkan perbandingan state-of-the-art
work2,4
sebelumnya, baseline (non-persona)
LSTM model pengerjaan sebelumnya juga perlu
diukur untuk Twitter Sordoni Dataset. Perlu
dicatat bahwa Sordoni dataset menawarkan
hamper 10 references per message, sedangan
Twitter Persona dataset hanya memberikan 1
references per-message. BLEU score tidak bias
membandingkan terhadap dua dataset twitter
7. 7 | P a g e
ashrovy.tumblr.com | ashrovy.wordpress.com |medium.com/ashrovy
____
23:Building end-to-end dialogue systems using
generative hierarchical neural network models.
Serban et al. 2015
24:Attention with intention for a neural network
conversation model. Yao et al. 2015
25:User models in dialog systems. Whalster et al. 1989
26:Effects of the user model on simulation-based
learning of dialogue strategies. Schatztnann et al.
2005
27:All the worlds a stage: Learning character models
from 鍖lm. Lin et al. 2011
28: Perceived or not perceived: Film character models
for expressive nlg. Walker et al. 2011
Penyetelan:
Menyimpulkan:
Merupakan:
sebelumnya:
memeriksa:
kemungkinan:
terkait:
paling banyak:
memeriksa:
kemungkinan:
terkait:
menghasilkan:
pembicara:
mencapuradukkan:
tuning
inferring
constitute
prior
examine
likelihood
associated
at most
examine
likelihood
associated
yielded
conversationalists
confound
(BLEU Score pada 10 references biasanya jauh
lebih tinggi dibanding 1 references).
Television Series Transcripts
Data Collection: untuk percakapan diadik
Speaker Addressee Model menggunakan
transcript dari acara televise Friends dan The Big
Bang Theory yang bias diakses di Internet Movie
Script Database (IMSDb). 13 tokoh utama
dikumpulkan dari corpus sebanyak 69.565
putaran. Corpus dibagi-bagi untuk keperluan
training/development/testing set (development
dan testing sendirin setiap set-nya
membutuhkan sekitar 2000 putaran).
Training dikarenakan jumlah dataset yang kecil
proses training tidak teruntuk untuk open-
domain dialog model. Difase pertama men-
training Seq2seq model menggunakan dataset
yang sedikit besar yaitu OpenSubtitles (OSDb)
dataset. Tetapi OSDb memiliki noisy yang tinggi
dan merupakan open-domain dataset, bahkan
dataset ini tidak memiliki detail spesifik
mengenai siapa yang berbicara disetiap subtitle
line. Masalah ini menyulitkan untuk mengambil
kesimpulan pada siapa yang berbicara. Pada
training menggunakan standar Seq2seq
menggunakan protocol yang telah di
deskripsikan pada Twitter Persona Dataset.
Inisialisasi dimulai pada word embeddings dan
LSTM parameter pada Speaker Model,
sedangkan pada Speaker-Addressee model
menggunakan parameter yang telah dipelajari
dari OpenSubtitles dataset.
second_table
System BLEU
MT baseline1 3.60%
Standard LSTM MMI4 5.26%
Standard LSTM MMI 5.82%
Human 6.08%
Table 2: BLEU pada dataset Twitter Sordoni (10 references).
Terdapat kontras antara baseline pada paper ini dan SMT
baseline2 dan hasil terbaik4 dibangun dari dataset Twitter
Sordoni. Hasil terakhir pada human oracle, tetapi tidak
cocok untuk dibandingkan langsung dengan oracle BLEU
dikarenakan komputasinya terlalu ketinggalan zaman.
Experiment
Evaluation
Bila mengacup pada paper2,4
maka pada evaluasi
menggunakan BLEU33
sebagai parameter
penyetelan dan evaluasi. BLEU telah
menunjukkan korelasi dengan baik pada human
judgement response dan tugas turunan.
third_table
Model Standard LSTM Speaker Model
Perplexity 47.2 42.2(-10.6%)
Table 3: Standard perplexity seq2seq dan Speaker model
pada Twitter Persona development set.
Baseline
Semenjak experiment menggunakan dataset
yang baru (Twitter Persona Dataset), LSTM
baseline cukup kompetitif dengan state-of-the-
art2
pada pembuatan datasetnya. Baseline pada
paper ini sederhananya mengimpelemntasikan
LSTM-MMI2
, sehingga hasilnya harusnya relative
sama dengan hasil yang sudah dilaporkan pada
paper tersebut.
8. 8 | P a g e
ashrovy.tumblr.com | ashrovy.wordpress.com |medium.com/ashrovy
____
29:An annotated corpus of 鍖lm dialogue for learning
and characterizing character style. Walker et al.
2012
30:Social interaction and the development of de鍖nite
descriptions. Deutsch et al. 1982
31:Minimum error rate training in statistical machine
translation. Och. 2003
32:A collection of multilingual parallel corpora with
tools and interfaces. Tiedemann. 2009
33:BLEU: a method for automatic evaluation of
machine translation. Papineni et al. 2002
cukup:
mengungguli:
sedalam-dalamnya
menghalangi
tawaran
masuk akal
salah
kontingen
berlebihan
dimana-mana
halangan:
sufficent
outperform
profusely
impede
overture
plausible
amiss
contigents
exaggerate
ubiquitous
hitch
fourth_table
Model Objective BLEU
Standard LSTM MLE 0.92%
Speaker Model MLE 1.12%(+21.7%)
Standard LSTM MMI 1.41%
Speaker Model MMI 1.66% (+11.7%)
Table 4: BLEU pada Twitter Persona dataset (1 reference),
untuk standard Seq2seq model dan Speaker model
menggunakan objek kemungkinan maksimum (MLE) atau
maksimum mutual information.
Result
Perplexity pada Twitter Persona dataset dapat
dilihat pada table 3. Hasil observasi menyatakan
bahwa sekitar 10% penurunan pada perplexity
untuk Speaker model dibandingkan dengan
standard seq2seq model. Pada table 4 (BLEU
Score) ada peningkatan signifikan pada Speaker
model dibandingkan seq2seq model, 21%
peningkatan didalam maximum likelihood
(MLE) setting dan 11.7% untuk mutual
information setting (MMI). Pada titik ini
observasi menyimpulkan adanya konsistensi
yang diperkenalkan oleh fungsi objek MMI
melalui standard seq2seq model based on fungsi
objekl MLE. Ini menjadi catatan bahwa persona
model dengan menggunakan MLE lebih
bermanfaat ketimbang MMI Model.
Untuk TV series dataset, perplexity dan BLEU
score dilaporkan pada table 5 dan table 6.
Perplexity pada Speaker dan Speaker addressee
model mencapai 25.4 dan 25.0 pada TV series
dataset, 7.0% dan 8.4% lebih rendah dari
koresponden standar seq2seq model. Tidak ada
perbedaan yang signifikan antara perbandingan
model Speaker-Addresssee dan Speaker model,
mungkin karena kecil dataset yang digunakan
pada paper ini sehingga pola tidak bisa ditangkap
atau bisa juga dikarenakan noisy pada dataset.
Qualitative Analysis
Diverse Responses by Different Speaker table 7
merepresentasikan response yang dihasilkan
oleh persona model didalam merespon 3 input
pertanyaan yang berbeda. Disini 10 speaker akan
diambil secara acak pada Twitter dataset. Model
cenderung untuk menghasilkan jawaban yang
spesifik dari orang-orang yang berbeda.
Jawaban yang dihasilkan pada table 8 adalah
table dengan menggunakan Speaker-Addressee
Model dan menggunakan dataset TV-Series.
Menariknya, pada model ini jawaban justru
sangat sensitive pada penerimanya. Contoh
model bisa menghasilkan jawaban Of course, I
love you Emily bahkan model juga bisa
menjawab seperti ini Of course, I love you
(kisses her) dimana model bisa mengetahui
gender pengirim pesan.
Human Evaluation pada output Speaker Model
menggunakan crowdsourcing service. Disini
konsistensi evaluasi di desain dari output yang
terasosiasi dengan Speaker ID. Sebagai contoh,
model harus mampu menangkap knowledge
juga, jika message berupa Are you vegan or
vegetarian? Do you eat beef? jika jawaban
pertamanya ialah Yes, Iam vegan. Maka
jawaban berikutnya ialah Of course not!
9. 9 | P a g e
ashrovy.tumblr.com | ashrovy.wordpress.com |medium.com/ashrovy
____
fifth_table
Model Standard LSTM Speaker Model Speaker-Addressee Model
Perplexity 27.3 25.4(-7%) 25.0(-8.4%)
Table 5: Perplexity untuk standard seq2seq dan persona model pada TV Series Dataset.
sixth_table
Model Standard LSTM Speaker Model Speaker-Addressee Model
MLE 1.60% 1.82%(+13.7%) 1.83(+14.3%)
MMI 1.70% 1.90%(+10.6%) 1.88%(+10.9)
Table 6: BLEU pada dataset TV Series (1 reference), untuk standard seq2seq2 dan persona models.
Pada table 9 mengambarkan konsistensi yang
muncul pada property dari dua user yang diambil
secara random. Model memiliki kemampuan
untuk menemukan relasi antara katagori lokasi,
seperti Jakarta dan Indonesia, London dan UK,
namun model tidak konsisten dalam
memberikan keputusan tersebut.
seventh_table
message What company do you work for?
baseline I work for a company
user1 I dont have a job
user2 I am a manager
user3 I am working
user4 I work for a company
user5 Im working
user6 Customer service
user7 I work in retail
user8 I work in a caf辿
user9 I work at a gas station
user10 I dont know
Table 7: merupakan response yang dihasilkan dari baseline
(LSTM-MMI) dan Speaker Model pada 10 user yang diambil
secara acak. Strikeout merupakan jawaban dengan kualitas
yang buruk.
eighth_table
message Do you Love me?
baseline Of Course, I love you
addressee: Emily, Speaker: Sheldon
of course, I love you, Emily
addressee: Emily, Speaker: Penny
of course, I love you, Emily
addressee: Monica, speaker: Chandler
Of course I love you. I want to marry you
addressee: Ross, speaker: Rachel
Of course I love you. (kisses him)
Table 8: Response dari Do you love me? Dari Speaker
Addressee model pada TV-series dataset menggunakan
addresses dan speaker
User1
message Where is your hometown?
response Im from England
message Where are you from?
response Im from England.
message In which city do you live now?
response I live in London
message In which country do you live now?
response I live in England
User2
message Where is your hometown?
response Im from Indonesia
message Where are you from?
response England, you?
message In which city do you live now?
response I live in Jakarta
message In which country do you live now?
response I live in Indonesia
Table 9: Contoh speaker yang konsisten dan tidak, yang
dihasilkan oleh Speaker Model.
Conclusion
Paper ini menjelaskan dua persona-based
response generation model dari open-domain
generation. Masih ada dimensi lain yang tidak
masuk di paper ini diantaranya mood, emosi dan
kebiasaan. Meskipun begitu pada kenyataannya
model pada paper ini tidak begitu spektakular
system berhasil mengungguli seq2seq system
dari BLEU, Perplexity dan human judgement
consistency. Disini juga mendemonstrasikan
encoding persona didalam distribusi
representation, juga dapat meng-capture
personal characteristic. Goal pada paper ini ialah
berhasil mengambil profil pada individu secara
acak belum berhasil diketahui sukses tidaknya,
menghasilkan pembicaraan yang akurat dengan
meniru seseorang secara individu.