際際滷

際際滷Share a Scribd company logo
1 | P a g e
medium.com/ashrovy | ashrovy.tumblr.com | ashrovy.wordpress.com
Ref____
[6] J. Eisenstein, B. OaA Z Connor, N. A. Smith, and E. P.
Xing. A latent variable model for geographic lexical
variation. EMNLP, 2010.
Kekhasan:
Kepribadian:
Memperoleh:
Idiosyncrasies
Personalized
Deriving
Social Embedding meets Conversational Model
Paraminder Bhatia, Marsal Gavald, Arash Einolghozati
Resume Paper by Ashrovy
Abstract - Upvote dan like adalah hal yang umum dan biasa pada sosial media dan itu
mudah dilakukan, sedangkan comment dan reply juga mudah dilakukan tetapi user
cenderung malas melakukannya. Bagaimana jika ada fitur semacam auto-reply atau
auto-predict yang dapat mempermudah user dalam melakukan reply. Paper ini
memperkenalkan terbosan baru tentang reply generation model yang melampaui
model auto-reply biasa atau prediksi teks saat ini. Keunggulannya pada auto-reply
atau prediksi memperhatikan khas user dan kontent yang dibicarakan bahkan hingga
struktur grafik sosial itu sendiri. Secara spesifik kami (penulis paper) menggunakan
dua model personalisasi interaksi user yaitu: content-based conversation model
yang dapat melakukan tracking lokasi, geografis wilayah dan informasi user sendiri,
dan social-graph-based conversaiton model merupakan gabungan dari content-
based conversation models dengan social graphs.
Introduction
Yik Yak merupakan aplikasi sosial media
berbasis lokasi dimana penggunanya bisa mem-
posting text dan gambar pada radius 5 mil. User
juga bisa melakukan upvotes/downvotes, like
dan comment.
Informasi yang beranekaragam ini (user profile,
location dan content) dianalisis untuk
mendaptkan informasi yang lebih spesifik
terhadap user itu sendiri.
Permasalahan pada Yik Yak ialah pada
pengetikan reply di handphone yang terasa
kurang nyaman, sehingga paper ini
bereskperimen dengan menyajikan reply
suggestion yang berbasiskan sifat pribadi. Reply
Suggestion bukanlah merupakan hal yang baru
tetapi suggestion yang dihasilkan bersifat
kurang relevan6
dan akurat.note
Pada paper ini seangkah lebih maju dengan
memperluas vector-space lexical semantic
model untuk mempelajari gamabaran geografis
hingga situasi di suatu wilayah. Terdapat dua
model personalisasi yang akan dibahas disini,
yaitu conversation model dan social graph
conversation. Conversation model didalamnya
terdapat informasi lokasi dan user-based,
sedangkan pada social graph conversation
merupakan gabungan dari conversation model
dan social graphic. Ini merupakan pertama
kalianya neural conversation model
digabungkan dengan social graph.
Related Work
Banyak literatur terkait dengan
mengindentifikasi informasi penting ataupun
node yang berpengaruh didalam jaringan baik
unsupervised dan semi-supervised manner.
Juga beragam penelitian terkait conversation
model atau chatbot yang menggunakan neural
generative model seperti sequence to
sequence (seq2seq).
2 | P a g e
medium.com/ashrovy | ashrovy.tumblr.com | ashrovy.wordpress.com
Ref____
[7] M. Galley, C. Brockett, A. Sordoni, Y. Ji, and M. Auli. A
discriminative metric for generation tasks with intrinsically
diverse targets. arXiv:1506.06863, 2015.
[11] A. Kannan, K. Kurach, S. Ravi, T. Kaufmann,A.
Tomkins, and B. Miklos. Smart reply: Automated response
suggestion for email. KDD, August 2016.
[14] R. Lowe, N. Pow, I. V. Serban, and J. Pineau. The
ubuntu dialogue corpus: A large dataset for research in
unstructured multi-turn dialogue systems. SIGDIAL, 2015.
Kekhasan:
Kepribadian:
Memperoleh:
Menelan:
Intisari:
Kecenderungan:
Tekanan:
Berlawanan:
Idiosyncrasies
Personalized
Deriving
Ingest
Gist
Tendency
Emphasis
Opposed
Gambar 2: Googles Smart Reply11 menggunakan sequence to sequence
Conversation Models
Chatbot atau conversatino agent atau juga bisa
disebut dialog sistem, memiliki dua class utama
didalam conversatinon model ini: retrieval-
based dan generative models.
Retrieval-Based Models
Retrieval-based model menggunakan
repository sebagai standar response (jawaban)
dan heuristic yang bertugas untuk memilih
response-based yang berarti sesuai dengan
input dan konteks yang ada. Pada hakikatnya
heuristic sederhananya mirip dengan rule-
based expression match7
dan kompleksnya
seperti machine learning classifiers14
. Sistem ini
tidak menghasilkan jawaban baru dan hanya
mengambil response yang tersedia pada fixed
set.
Generative Models
Sedangkan Generative model sebaliknya tidak
menggunakan standar reponse dan sebaliknya
menghasilkan response. Mirip teknik machine
translation tapi disini input ditranslated ke
response out. Paper ini menggunakan seq2seq
sebagai baseline.
Gambar 1: Yik Yak app posting, replies dan votes
3 | P a g e
medium.com/ashrovy | ashrovy.tumblr.com | ashrovy.wordpress.com
Ref____
[7] M. Galley, C. Brockett, A. Sordoni, Y. Ji, and M. Auli. A
discriminative metric for generation tasks with intrinsically
diverse targets. arXiv:1506.06863, 2015.
[8] S. Ghosh, O. Vinyals, B. Strope, S. Roy, T. Dean, and L.
Heck. Contextual lstm (clstm) models for large scale nlp
tasks. arXiv:1602.06291, September 2016.
[11] A. Kannan, K. Kurach, S. Ravi, T. Kaufmann,A.
Tomkins, and B. Miklos. Smart reply: Automated response
suggestion for email. KDD, August 2016.
[18] C. Xing, W. Wu, Y. Wu, and J. Liu. Topic aware neural
response generation. arXiv:1606.08340, September 2016
Menggambarkan:
Secara luas:
Teman bicara:
Kedekatan:
Titik:
Meskipun:
Melengkapai:
Jarang-jarang:
Semaunya:
Cocok:
Mempertahankan:
Depict
Broadly
Interlocutor
Proximity
Vertice
Even though
Complement
Sparsity
Arbitrary
Suitable
Preserve
Gambar 3: Contoh dari suggested reply yang tidak valid.
Sequence to Sequence Models
Seq2seq atau sequence-to-sequence memiliki
dua recurrent network (RNN) yaitu encoder
yang bertugas memproses input decoder yang
bertugas menghasilkan output. Sequence di
masukkan ke dalam input  = { ,  ,  ,  },
kemudian LSTM mengasosiasikan atau
menghubungkannya pada setiap timestep ke
input gate, memory gate dan ouput gate
disimbolkan dengan  ,  dan  . Sedangkan 
menggambarkan cell state vector pada time 
dan menyimbokan  sebagai fungsi sigmoid.
Maka pada setiap time step  digambarkan oleh
vector representation  sebagai berikut:
 =  (   +     )
 =      +    
 =  (   +     )
 = tanh(   +     )
 =    +   皋 
 = tanh( 皋 )
Didalam tugas generation seq2seq, setiap input
 dihubungkan dengan sequence output untuk
memprediksi  = {  ,  ,  }. Lalu LSTM
mendistribusikan output dan secara bertahap
akan memprediksi token menggunakan fungsi
softmax.
Pada Smart reply11
(gambar 2) google
menggunakan teknik yang mirip dengan
seq2seq model, dimana Smart reply memasang-
masangkan incoming email dan kemungkinan
prediksi response. Encoding network ini
menelan hampir semua kata pada incoming
email lalu menjadikannya vector (list angka).
Vector ini disebut dengan thought vector yang
berfungsi menangkap intisari dari kata-kata
abstrak ke kata yang sering digunakan. Model
ini masih memiliki masalah yang disebut dengan
vanishing gradient yang mudahnya jika kata
input terlalu panjang. Dilain sisi ada model yang
lain yaitu attention-based model1
yang dapat
meniru bagaimana manusia lebih
mementingkan kata-kata tertentu dalam
sebuah kalimat.
Attention mechanism (gambar 5) memprediksi
outpu menggunakan weighted-average context
vector dan tidak hanya sate terakhir. Contoh:
What is good to watch on TV penekanan ada
pada kata watch dan TV.
Pada baseline pada paper ini akan mentraining
attention-based di model seq2seq memakai Yik
Yak Post dan reply data kemudian di
dimasukkan ke dalam bot pada Slack untuk
demo. Gambar 4 adalah contoh pada beberapa
reply dari model tadi dengan beam search size
200.
Penelitian yang terakit pada topic18
dan
konteks8
didalam seq2seq model yang
bertujuan menghasilkan jawaban topic-based
response.
4 | P a g e
medium.com/ashrovy | ashrovy.tumblr.com | ashrovy.wordpress.com
Ref____
[1] D. Bahdanau, K. Cho, and Y. Bengio. Neural machine
translation by jointly learning to align and translate. ICLR,
2015.
[2] M. Belkin and P. Niyogi. Laplacian eigenmaps and
spectral techniques for embedding and clustering. NIPS,
14:585591, 2001.
[5] T. F. Cox and M. A. Cox. Multidimensional scaling. CRC,
2000.
[17] J. B. Tenenbaum, V. D. Silva, and J. C. Langford. A
global geometric framework for nonlinear dimensionality
reduction. Science,290(5500), pages 23192323, 2000.
Perbedaan:
Gagasan:
Diliputi:
Kesimpulan:
Kontainer:
Tuntutan:
Kurang lebih:
Berbeda:
Dengan kondisi:
Sedangkan:
Berbagai bentuk:
Variance
Notition
Encompassed
Inference
Containerized
Demand
Roughly
Vary
in terms
Whereas
Multimodal
Gambar 4: YikYak's Smart Reply menggunakan seq2seq dengan attention, reply_yak adalah Slack Bot
Personalized Respond Generation
Gambar 6 menggambarkan proses penggunaan
persona untuk membangun conversation
model12
. Penelitian ini sebelumnya sebelumnya
pernah ada tentang personalized conversation
model yang secara umum terdapat dua model:
Speaker model yang mengintegrasikan speaker-
level vector representation ke dalam beberapa
bagian didalam seq2seq model. Sedangkan
Speaker-Addressee model men-encode pola
interaksi antara dua pembicara dengan
mengkonstruksikan interaction representation
dari individual embedddings dan
menggabungkannya ke seq2seq model. Persona
vector sendiri di training dengan human-to-
human data conversation dan menggunakan
test time untuk menghasilkan personalized
response.
Gambar 5: Attention-based model1
.
Social Graphs and Embeddings
Beberapa metode graph embedding telah
banyak diusulkan didalam literature machine
learning2,5,17
dan kebanyakan diantaranya
berjalan di network skala kecil.
5 | P a g e
medium.com/ashrovy | ashrovy.tumblr.com | ashrovy.wordpress.com
Ref____
[9] A. Grover and J. Leskovec. node2vec: Scalable feature
learning for networks. KDD, August 2016.
[12] J. Li, M. Galley, C. Brockett, G. Spithourakis, J. Gao,
and B. Dolan. A persona-based neural conversation
model. ACM Trans. Program. Lang. Syst., 1(5):9941003,
2016.
[16] J. Tang, M. Qu, and M. Wang. Line: Large-scale
information network embedding. WWW, 2015.
Pembungkusan:
Penggabungan:
Jarang:
Mengungguli:
Ditambah:
Pengaruh:
Persamaan:
Keseluruhan:
Encapsulate
Concatenate
Sparse
Outperform
Supplemented
Leverage
Affinity
Aggregate
Gambar 6: contoh dari Speaker model yang terintegrasi
pada speaker-level vector representation didalam bagian
target di seq2seq model.
Masalahnya ialah implementasinya pada skala
besar akan sangat berbeda dikarenakan jumlah
node pada network akan mencapai milyaran.
Jika begitu maka diperlukan low-dimenstional
embeddings yang efesien untuk meng-catpure
network structure.
Gambar 7: Contoh information network pada LiNE16. Titik
6 & 7 disebut dengan low-dimensional space karena
mereka terkoneksi dengan kuat. Titik 5 & 6 disebut share
similar negihbors.
Gambar 7 diatas adalah gambaran ilustrasi.
Weight pada titik 6 & 7 adalah besarnote
, pada
waktu yang sama tidak ada direct link antara
titik 5 & 6, mereka cuman berbagi neighbors
yang sama dan disebut second order.note
Aplikasi LiNE16
menggunakan network
embedding model yang cocok dengan model
informasi network yang acak untuk meng-
efesiensikan milyaran nodes. Fungsi objek
didesain untuk mempertahankan kedekatan
first-order dan second-order. Berat gradient
akan berlipat ganda dan ini menjadi masalah
tapi untuk mengatasinya LiNE menggunakan
edge sampling. Fungsi tersebut ialah
mengambil berat dari probabilitas sebagai
sampling secara proposional. Pendekatan
lainnya mengunakan Node2Vec9
yang
menyediakan gagasan flexible terhadap
neighborhood dan dibiaskan secara efesien
untuk meng-eksplorasi didalam perbedaan
neighborhoods.
Training and Implementation
Pada pengerjaannya akan mengikuti pengerjaan
pada paper persona based conversation
model12
, yang memperkenalkan dua persona-
based models: Speaker Model, yaitu model
personality respondent dan Speaker-Addressee
Model yaitu bagaimana model mengadaptasi
setiap addressee yang diberikan.
Training Protocols
Berikut ialah Procedure training method:
4 Layer LSTM model dengan 1000
hidden cell untuk setiap layer.
Ukuran Batch sebesar 128
Learning rate di set 1.0 decay
Inisialisasi Parameter dengan sampling
dari distribusi uniform [-0.1,0.1]
Titik potong gradient untuk
menghindari gradient explosion dengan
threshold 5.
Batas vocabulary 100,000
Dropout rate 0.25
6 | P a g e
medium.com/ashrovy | ashrovy.tumblr.com | ashrovy.wordpress.com
Ref____
[9] A. Grover and J. Leskovec. node2vec: Scalable feature
learning for networks. KDD, August 2016.
[12] J. Li, M. Galley, C. Brockett, G. Spithourakis, J. Gao,
and B. Dolan. A persona-based neural conversation
model. ACM Trans. Program. Lang. Syst., 1(5):9941003,
2016.
[16] J. Tang, M. Qu, and M. Wang. Line: Large-scale
information network embedding. WWW, 2015.
Kekurangan:
Terpendam:
Pilihan:
Hanya pada:
Ditetapkan oleh:
Sangat:
Perkiraan:
Cenderung:
Deficiencies
Latent
Preferance
Solely on
Determined by
Vastly
Approximate
Inclined
Decoding
Untuk fase decoding, N-best list yang dihasilkan
menggunakan decoder dengan beam size  =
200. Maximum length yang ditetap pada paper
ini 20 generated candidates. Decoding
dilakukan dengan cara berikut: Disetiap step-
nya periksa setiap    pada kandidat
kemungkinan next-word, dan setiap hipostesis
diakhir symbol EOS token pada N-best list. Lalu
hipotesis (yang belum selesai) top- dipindah
ke next-word.
Dataset
Dataset yang digunakan pada training disini
menggunakan pada datasert Yik Yak (post dan
pasangan comment-reply). Pada proses
Preprocess disini ialah memasangkan setiap
post yang berisikan sedikitnya 5 kata dan
bahasa yang tidak explisit. Setelah
preprocessing, akan diperoleh sekitar 10 milyar
pasangan yang akan dibagi secara acak kedalam
training dan test. Dataset ini meliputi 10,000
lokasi (daerah dan level kota) tersebar di 13
negara dan 100,000 unique user.
Implementation
Impelentasi hanya dibagi menjadi dua tahapan
yaitu training dan kesimpulan/inference:
Training
Source dan target LSTM disini menggunakan
parameter set yang berbeda. 20 epochs dan
training berlangsung kurang lebih selama
seminggu untuk menyelesaikan g2.8xlarge AWS
instance dengan 32 high frequency Intel Xeon
E5-2670 (Sandy Bridge) processors yang sama
dengan 4 performa tertinggi NVIDIA GPU,
dengan setiap CUDA score 1,536 dan 4 GB
video memory.
Inference
Untuk inference (kesimpulan,dugaan) disini
menggunakan Kubernetes, open-source system
untuk penyebaran otomatis, scaling, dan
management containerized application.
Kubernetas akan dipadukan dengan
TensorFlow Serving, high-perofrmance, open-
source serving system untuk machine learning
models, untuk menemukan intensitas
computasi dan scaling demands pada aplikasi
ini. Server mengeksekusi grafik proses
TensorFlow disetiap text suggestion request
yang diterima. Model digambarkan didalam file
set kemudian di deskripsikan didalam bentuk
pada grafik TensorFlow, berat model, asset, dan
lain-lain. Setelah semuanya dipaketkan bersama
secara dinamis jumlah skala terreplikasikan oleh
pod menggunakan Kubernetes Replication
Controller.
Conversation-Based Model
Terdapat dua tipe conversation models yang
akan diperkenalkan: location based model
adalah model untuk mencapture komunitas dan
user-based model merupakan model yang akan
mem-personalisasi setiap user.
Location-based model
Lokasi yang diberikan oleh Yik Yak sangat
penting didalam penggabungan informasi
didalam model. Berdasarkan beberapa studi,
telah ditemukan berbagai komunitas yang
sagnat berbeda antara satu dan lainnya baik
dari social connectivity dan penggunaan bahasa.
Pada pengerjaan ini akan lebih menuju kepada
multimodal learning pada general domain.
Tidak seperti multimodal system klasik yang
7 | P a g e
medium.com/ashrovy | ashrovy.tumblr.com | ashrovy.wordpress.com
Ref____
[15] S. Oviatt. The Human-computer Interaction
Handbook. Julie A. Jacko and Andrew Sears, Hillsdale, NJ,
USA, 2003.
Keluar:
Penurut:
Hilir:
Outward
Tractable
Downstream
Gambar 8: Location-based Conversation Model.
tergabung pada banyak bentuk (seperti gesture)
user15
, disini input yang paling penting ialah
textual data, ditambah dengan metadata
tentang author dan waktu.
Untuk pendekatan pengembangan dua
persona-based model: decoder model yang
tugasnya ialah meng-capture personality dari
responden, dan encoder-decoder model
bertugas meng-capture langkah atau jalan
bagaimana respondent beradaptasi dengan
lawan bicaranya. Secara spesifik menggunakan
location embedding untuk dua encoder dan
decoder.
User diberikan tag dengan latitude dan
longitude, pada Yik Yak memiliki understanding
location yang cukup robust. Disini informasi
lokasi akan di bungkus dengan 3 level
granularity: county, city, dan country.
Gambaran koresponding akan digabungkan
untuk setiap level agar mendapatkan final local
embedding (Gambar 8).
Maksud dari strategi ini adalah jika
koresponding data lebih tinggi level-granularity-
nya dan melebar, level yang lebih rendah akan
memperoleh sinyal yang kuat.
Contoh: final local embedding untuk Queens
county di dalam New York:
高  =  ,  , 
Besar final location embedding adalah 300
didalam model. Berdasarkan standard Seq2seq
model, pertama encode messge  ke dalam
vector representation  menggunakan source
LSTM. Lalu untuk setiap step didalam target
side, hidden unit diperoleh dengan
penggabungan hasil representasi dengan target
LSTM pada langkah sebelumnya, word
representation pada setiap timestep dan
location embedding:
 =      +    [ , 高  ]
 =  (   +     )
 =  (   +     )
 = tanh(   +     )
 =    +   皋 
 = tanh( 皋 )
Disini kita berhasil mendapatkan rumus untuk
simple LSTM. Pada final model, kita gunakan
attention-based model yang mengungguli
standard LSTM.
LSTM mendefenisikan distribusi dari output dan
tahapan token prediksi menggunakan fungsi
softmax. Saat ingin memprediksi next word
pada kalimat, maka perlu menggunakan
probabilitas vector didalam vocabulary .
 =  $(   )
8 | P a g e
medium.com/ashrovy | ashrovy.tumblr.com | ashrovy.wordpress.com
Ref____
Lalu diminimalisasi rata-rata kemungkinan log
negative pada target words menjadi:
 =  ln 
User-Based Model
User-based model mirip dengan location-based
dengan perbedaan penggunaan location
embeddings, pada paper ini menggunakan user
mebedding based on conversational interaction
antara user.
Table 1: Location Perplexity dan user-based models.
Model Perplexity
LSTM Standard 79.1
LSTM Attention 77.2
Location-based
model
Decoder 73.3
Location-based
model
Decoder & encoder 72.7
User-based model Decoder 79.6
User-based model Decoder & encoder 80.7
Result and Discussion
Ukuran yang untuk digunakan didalam
membandingkan perbedaan model perplexity:
 
= 
Pada table 1 telah diringkas hasil dari model
dan perbadingan diantara mereka.
Kami mengobservasi hasil location-based model
mengalami peningkatan signifikan (sekitar 8%
pengurangan perplexity), sedangkan untuk
user-based model mengungguli baseline(LSTM)
model sekitar 2% peningkatan pada perplexity.
Jarak antara data untuk user dapat dijelaskan
pada observasi ini,
Terdapat per-user yang dibandingkan dengan
per-location. Jumlah embeddings yang
dipelajari untuk user-based model (1,00,000)
merupakan 10 kali lebih banyak dari nomor
korepsonding untuk location-based model
(10,000). Obeservasi selanjutnya ialah terhadap
decoder-and encoder model yang sangat buruk
dibandingkan decoder model, yang
menunjukkan bahwa informasi dari speaker
tidak menunjukkan hasil yang baik di lingkungan
anonymous. Hal ini bisa dilakukan terbosan
model yang menggabungkan inforamsi yang
lebih robust.
SOC2SEQ
Untuk mengatasi kekurangan pada user-based
model pada paper ini mengajukan
pengggabungan model social embedding
dengan conversation model. Berdasarakan
dengan hasil yang ada di tabel 1, cukup gunakan
decoder model. Selanjutnya pengerjaan akan
berbasis online tanpa perlu di training ulang
seluruh model yang sudah robust pada data
sparsity. Pertama, kami ingin mendiskusikan
social graph dan bagaimana cara
mengkonstruksikannya ke Yik Yak dan
mendeskripsikan bagaimana social graph bisa
digunakan untuk mempelajari low-dimensional
embedding dan menjelaskan bagaimana
menggabungkannya dengan model yang ada
sebelumnya.
Interaction-based Social Graph
Social graph memiliki berbagai macam aplikasi
tapi yang terpenting ialah bagaimana cara
melakukan perangkingan (ranking factor) untuk
beberapa fungsionalitas seperti people
discovery (mirip "people you may know") dan
algoritma content feed creation. Sebagai
catatan, Yik Yak tidak se-eksplisit Facebook,
Twitter dan lain-lain, yang memiliki social link
antar teman atau follower. Social grapb
nantinya harus bisa membuat user merasa
memiliki interaksi dengan platform, karena
nantinya model harus bisa menyesuaikan
dengan fakta seiring berjalannya waktu, dan
orang-orang cenderung berkembang dengan
pilihan-pilihan (reply suggestion) yang ada.
9 | P a g e
medium.com/ashrovy | ashrovy.tumblr.com | ashrovy.wordpress.com
Ref____
Gambar 10: Soc2Seq: Social Conversation Model
Setelah kita memiliki general loaction-based
social graph maka akan lebih mudah
mengaplikasikan pada deep learning models
seperti Node2Vec, DeepWalk, LiNE dan lain-lain
untuk menemukan kesamaan diantara
pengguna. Aspek penting yang wajib dicatat
ialah untuk memenuhi pembangunan model ini,
jangan menggunakan textual content tapi
hanya pada user-to-user interaction.
Building Interaction Graphs
Salah satu tantangan yang dihadapi oleh Yik Yak
adalah lemahnya pengartian menjadi teman
atau follower satu sama lain. Membangun
social graph bertujuan untuk mendalami
interaksi antara user dan platform. Terutama
beragam informasi yang akan dikombinasikan
dan kalkulasi berat persamaannya. Tanda
apabila secara keseluruhan interaksi telah
terpenuhi:
Profile View (directed dan binary):
Grafik ini berdasarkan apakah user
telah melihat profile user lain atau
tidak.
Chat request (directed and binary):
Grafik ini berbasis apakah user telah
mengirim chat request ke user lain.
Comment (directed and weighted):
Edge respond untuk membalas, dimana
user meng-comment post user lain.
Weight ditetapkan oleh jumlah
interaksi.
Like (directed): Upvotes (like) pada
koresponden, dimana user yang
melakukan like pada user post yang
lain. Weight ditentukan oleh jumlah
interaksi serupa.
View (directed-weak signal dan
weighted): Koresponden post view,
dimana user dapat melakukan view ke
user lainnya atau comment. Weight
ditentukan dari jumlah interaksi serupa.
10 | P a g e
medium.com/ashrovy | ashrovy.tumblr.com | ashrovy.wordpress.com
Ref____
Figure 9: Weighted Social Graph based on Interaction.
Pada prakteknya, perbedaan grafik digunakan
pada aplikasi yang berbeda. Contoh, untuk fitur
user recommendation atau people you may
know, tujuannya ialah memaksimalkan chat
request dan profile views. Disini kami
menggunakan Node2Vec untuk mengambil
social embedding untuk setiap user. Node2Vec
dioptimasi menurut fungsi target, yang berarti
memaksimalkan log-probability untuk meng-
observasi network neighborhood  () untuk
node  dikondisikan pada fitur representasi
yang diberikan oleh 
 log   () ()

dan bisa permudah menjadi
 [ log  + log ( ). ())
 ( )
]

Gambar 11: Ilustrasi dari random walk procedure didalam
Node2Vec. Walk hanya ditransisi dari node  ke  dan
dievaluasi pada step selanjutnya di nove . Edge label
mengindikasi search biases .
Selanjutnya, sampling negatif digunakan untuk
mempercepat pada proses, daripada
mengkalkulasikan fungsi partisi per-node.
Tantangna disini ialah neighbos defenition.
Neighborhoods  () tidak terlalu dibatasi
secara langsung oleh neighbors dan bisa
berbeda sturukturnya tergantung pada strategi
sampling .
Faktanya, keuntungan Node2Vec model ini
fleksible pada notion neighborhoofs dnegnan
men-desain biased random walk untuk
mengefesiensikan eskplorasi perbedaan
neighborhoods.
Table 2: Result using soc2seq model..
Model Perplexity
LSTM Standard 79.1
LSTM Attention 77.2
Location-based
model
Decoder 73.3
Location-based
model
Decoder & encoder 72.7
Social user model Standard 72.4
Social user model tuned 70.9
Pada gambar 11 second-degree random walk di
Node2Vec memeiliki dua parameter, p dan q.
Return parameter p mengontrol likelihood
untuk langsung mendatangi node pada walk.
Setting untuk high value (> max(q,1)) yang akan
memastikan sample sudah dikunjungi node di
11 | P a g e
medium.com/ashrovy | ashrovy.tumblr.com | ashrovy.wordpress.com
Ref____
langkah kedua (kecuali next node di walk tidak
memiliki neighbor). Strategi ini mendorong
model untuk bereksplorasi dan menghindari 2-
hop redudancy didalam sampling. Dilain hal, jika
p rendah (< min(q,1)), akan membawa walk ke
backtrack step (lihat gambar 11) yang akan
membawa walk lebih ke local. Disisi lain juga in-
out parameter, q memperbolehkan untuk
mencari perbedaan antara inward dan outward
nodes. Lihatlah kembali gambar 11, jika q>1,
random walk membiaskan kearah nodes yang
dekat dengan node .
Berbeda jika q<1, walk akan lebih condong
untuk mem-visit nodes yang jauh dari node .
Hal tersebut dikarenakan karena node tersebut
mirip dengan DFS, yang mendorong explorasi
keluar. Namun, perebedaan utamannya disini
ialah pencapaian DFS seperti explorasi didalam
ranom walk framework. Dengan demikian,
Node2Vec sample tidak dengan ketat
menambah jarak yang diberikan dari source
node , tetapi sebagai gantinya kita menikmati
dari preprocessing dan efisensi superior
sampling dari random walks. Berikut ini adalah
rumus gabungan dari loss function pada model:
 =  + 
=  ln  + 咋(2p_ゐ)
dimana SGD adalah stohastic gradient descent
pada Node2Vec random walk.
Sekarang, berkat training complexity yang
dilakukan random walk pada seluru graph di
setiap pembicaraan, pertama training
Node2Vec dari interaksi graph dan embeddings
didalam user-based conversation models. p dan
q diset sama dengan 1, agar mendapatkan
optimal value untuk downstream stask seperti
chat link prediction.
Secara spesifik untuk tugas reply suggestion,
kita menggunakan gabungan dari comment dan
like grafik, jadi embedding user akan
menggunakan Alice:
 =  , ゐ 
Seperti yang bisa kita lihat pad table 2
menggunakan pre-trained embedding dari like
dan comment view social graph boosts,
meskipun tanpa pretraining user embedding.
Selain itu peningkatan signifikan ditemukan dari
tune user embeddings menggunakan baik social
dan conversation information.note
Practical Outputs
Pengukuran hasil sistem ini dilihat dari sudut
perplexity, penting juga untuk mengobservasi
performa pada prakteknya.
Result 1: Sample output dari location-based
conversation model.
Anyone wanna watch netflix?
New York: Daredevil is lit!!!
LA: Lets go for House of Cards
SF: orange is the new black 
London: GOT
Atlanta: netflix and chill
I am feeling lonely and depressed
New York: Lets Party
LA: Find a date dude
SF: we are there op
London: I think of yo as friend
Atlanta: Are you a girl?
Location-based Examples
Lokasi dipilih secara acak dan post-replied juga
diambil secara acak. Result 1 memberikan
contoh question Anyone wanna watch Neflix
dan memperlihatkan jawaban dari berbagai
12 | P a g e
medium.com/ashrovy | ashrovy.tumblr.com | ashrovy.wordpress.com
Ref____
[3] P. Bhatia, R. Guthrie, and J. Eisenstein. Morphological
priors for probabilistic neural word embeddings. EMNLP,
2016.
[10] D. Ha, A. Dai, and Q. Le. Hypernetworks.
arXiv:1609.09106, September 2016.
[13] J. Li, W. Monroe, A. Ritter, M. Galley, J. Gao, and D.
Jurafsky. Deep reinforcement learning for dialogue
generation. EMNLP, 2016
Besar:
Satuan bahasa terkecil yang memiliki arti:
yang stabi:
Sudut:
Cenderung:
Dengan Demikian:
Gantinya:
Menikmati:
Substantial
Morpheme
Standpoint
Incline
As Such
In Turn
Benefit
tempat dan berbeda lokasi. Dari jawaban
tersebut dapat di observasi bahwa Daredevil
populer diantar New Yorkers sedangkan Game
of Thrones popular di London. Fleksibilitas ini
tidak akan dimiliki pada model sebelumnya.
Result 2: Sample output dari soc2seq social
conversation model.
I Wanna start gym?
User1: good luck op
User2: I am too fat 
User3: you are the man
User4: I want to start too
User5: Go out of course
I love you
User1: I love you
User2: I have a boy friend 
User3: I am a boy
User4: I am a girl lol.
User5: Are you a girl?
Social-Graph-Based Examples
Untuk user juga diambil hanya 5 dari 100,000
user, kemudian mengevaluasi response dari set
post yang berbeda. Observasi pada Result 2
setiap user memiliki jawaban tetapi
personality-nya konsisten. Sebagai contoh
User1 extrovert sedangkan User4 (sepertinya)
perempuan.
Conclusion and Future Work
Paper ini terlah persentasikan terbosan
pendekatan dari conversinoal dan social aspek
pada user interaction. Model dapat membuat
intelligent agent (chatbot) mempelajari konten
dan mengetahui struktur user interaction untuk
lebih baik mempersonalisasi kebiasaan orang.
Pencapaian ini merupakan peningkatan besar
pada per-plexity untuk location-based dan juga
social-based model. Encoding personas didalam
distribusi representation conversation dan
social graph juga telah dipersentasikan. Salah
satunya dapat meng-capture personal
characteristics seperti speaking style dan
background informastion.
Model ini juga merepresentasikan building
block untuk pengerjaan kedepanna, diantarnya
membuat model ini lebih robust pada kata yang
tidak diketahui dari gabungan morfem3
atau
level character-embedding. Juga kami
merencanakan untuk menggabungkan social
graph dan pendekatan reinforcement
learning13
. Tapi dibeda area mungkin juga untuk
membuat sequntial network seperti LSTM lebih
pintar seperti HpyerNetworks10
dimana
networks yang lebih kecil membantu network
untuk utama untuk membuat keputusan yang
cerdas.

More Related Content

Chatbot with Personality integration with Social Media

  • 1. 1 | P a g e medium.com/ashrovy | ashrovy.tumblr.com | ashrovy.wordpress.com Ref____ [6] J. Eisenstein, B. OaA Z Connor, N. A. Smith, and E. P. Xing. A latent variable model for geographic lexical variation. EMNLP, 2010. Kekhasan: Kepribadian: Memperoleh: Idiosyncrasies Personalized Deriving Social Embedding meets Conversational Model Paraminder Bhatia, Marsal Gavald, Arash Einolghozati Resume Paper by Ashrovy Abstract - Upvote dan like adalah hal yang umum dan biasa pada sosial media dan itu mudah dilakukan, sedangkan comment dan reply juga mudah dilakukan tetapi user cenderung malas melakukannya. Bagaimana jika ada fitur semacam auto-reply atau auto-predict yang dapat mempermudah user dalam melakukan reply. Paper ini memperkenalkan terbosan baru tentang reply generation model yang melampaui model auto-reply biasa atau prediksi teks saat ini. Keunggulannya pada auto-reply atau prediksi memperhatikan khas user dan kontent yang dibicarakan bahkan hingga struktur grafik sosial itu sendiri. Secara spesifik kami (penulis paper) menggunakan dua model personalisasi interaksi user yaitu: content-based conversation model yang dapat melakukan tracking lokasi, geografis wilayah dan informasi user sendiri, dan social-graph-based conversaiton model merupakan gabungan dari content- based conversation models dengan social graphs. Introduction Yik Yak merupakan aplikasi sosial media berbasis lokasi dimana penggunanya bisa mem- posting text dan gambar pada radius 5 mil. User juga bisa melakukan upvotes/downvotes, like dan comment. Informasi yang beranekaragam ini (user profile, location dan content) dianalisis untuk mendaptkan informasi yang lebih spesifik terhadap user itu sendiri. Permasalahan pada Yik Yak ialah pada pengetikan reply di handphone yang terasa kurang nyaman, sehingga paper ini bereskperimen dengan menyajikan reply suggestion yang berbasiskan sifat pribadi. Reply Suggestion bukanlah merupakan hal yang baru tetapi suggestion yang dihasilkan bersifat kurang relevan6 dan akurat.note Pada paper ini seangkah lebih maju dengan memperluas vector-space lexical semantic model untuk mempelajari gamabaran geografis hingga situasi di suatu wilayah. Terdapat dua model personalisasi yang akan dibahas disini, yaitu conversation model dan social graph conversation. Conversation model didalamnya terdapat informasi lokasi dan user-based, sedangkan pada social graph conversation merupakan gabungan dari conversation model dan social graphic. Ini merupakan pertama kalianya neural conversation model digabungkan dengan social graph. Related Work Banyak literatur terkait dengan mengindentifikasi informasi penting ataupun node yang berpengaruh didalam jaringan baik unsupervised dan semi-supervised manner. Juga beragam penelitian terkait conversation model atau chatbot yang menggunakan neural generative model seperti sequence to sequence (seq2seq).
  • 2. 2 | P a g e medium.com/ashrovy | ashrovy.tumblr.com | ashrovy.wordpress.com Ref____ [7] M. Galley, C. Brockett, A. Sordoni, Y. Ji, and M. Auli. A discriminative metric for generation tasks with intrinsically diverse targets. arXiv:1506.06863, 2015. [11] A. Kannan, K. Kurach, S. Ravi, T. Kaufmann,A. Tomkins, and B. Miklos. Smart reply: Automated response suggestion for email. KDD, August 2016. [14] R. Lowe, N. Pow, I. V. Serban, and J. Pineau. The ubuntu dialogue corpus: A large dataset for research in unstructured multi-turn dialogue systems. SIGDIAL, 2015. Kekhasan: Kepribadian: Memperoleh: Menelan: Intisari: Kecenderungan: Tekanan: Berlawanan: Idiosyncrasies Personalized Deriving Ingest Gist Tendency Emphasis Opposed Gambar 2: Googles Smart Reply11 menggunakan sequence to sequence Conversation Models Chatbot atau conversatino agent atau juga bisa disebut dialog sistem, memiliki dua class utama didalam conversatinon model ini: retrieval- based dan generative models. Retrieval-Based Models Retrieval-based model menggunakan repository sebagai standar response (jawaban) dan heuristic yang bertugas untuk memilih response-based yang berarti sesuai dengan input dan konteks yang ada. Pada hakikatnya heuristic sederhananya mirip dengan rule- based expression match7 dan kompleksnya seperti machine learning classifiers14 . Sistem ini tidak menghasilkan jawaban baru dan hanya mengambil response yang tersedia pada fixed set. Generative Models Sedangkan Generative model sebaliknya tidak menggunakan standar reponse dan sebaliknya menghasilkan response. Mirip teknik machine translation tapi disini input ditranslated ke response out. Paper ini menggunakan seq2seq sebagai baseline. Gambar 1: Yik Yak app posting, replies dan votes
  • 3. 3 | P a g e medium.com/ashrovy | ashrovy.tumblr.com | ashrovy.wordpress.com Ref____ [7] M. Galley, C. Brockett, A. Sordoni, Y. Ji, and M. Auli. A discriminative metric for generation tasks with intrinsically diverse targets. arXiv:1506.06863, 2015. [8] S. Ghosh, O. Vinyals, B. Strope, S. Roy, T. Dean, and L. Heck. Contextual lstm (clstm) models for large scale nlp tasks. arXiv:1602.06291, September 2016. [11] A. Kannan, K. Kurach, S. Ravi, T. Kaufmann,A. Tomkins, and B. Miklos. Smart reply: Automated response suggestion for email. KDD, August 2016. [18] C. Xing, W. Wu, Y. Wu, and J. Liu. Topic aware neural response generation. arXiv:1606.08340, September 2016 Menggambarkan: Secara luas: Teman bicara: Kedekatan: Titik: Meskipun: Melengkapai: Jarang-jarang: Semaunya: Cocok: Mempertahankan: Depict Broadly Interlocutor Proximity Vertice Even though Complement Sparsity Arbitrary Suitable Preserve Gambar 3: Contoh dari suggested reply yang tidak valid. Sequence to Sequence Models Seq2seq atau sequence-to-sequence memiliki dua recurrent network (RNN) yaitu encoder yang bertugas memproses input decoder yang bertugas menghasilkan output. Sequence di masukkan ke dalam input = { , , , }, kemudian LSTM mengasosiasikan atau menghubungkannya pada setiap timestep ke input gate, memory gate dan ouput gate disimbolkan dengan , dan . Sedangkan menggambarkan cell state vector pada time dan menyimbokan sebagai fungsi sigmoid. Maka pada setiap time step digambarkan oleh vector representation sebagai berikut: = ( + ) = + = ( + ) = tanh( + ) = + 皋 = tanh( 皋 ) Didalam tugas generation seq2seq, setiap input dihubungkan dengan sequence output untuk memprediksi = { , , }. Lalu LSTM mendistribusikan output dan secara bertahap akan memprediksi token menggunakan fungsi softmax. Pada Smart reply11 (gambar 2) google menggunakan teknik yang mirip dengan seq2seq model, dimana Smart reply memasang- masangkan incoming email dan kemungkinan prediksi response. Encoding network ini menelan hampir semua kata pada incoming email lalu menjadikannya vector (list angka). Vector ini disebut dengan thought vector yang berfungsi menangkap intisari dari kata-kata abstrak ke kata yang sering digunakan. Model ini masih memiliki masalah yang disebut dengan vanishing gradient yang mudahnya jika kata input terlalu panjang. Dilain sisi ada model yang lain yaitu attention-based model1 yang dapat meniru bagaimana manusia lebih mementingkan kata-kata tertentu dalam sebuah kalimat. Attention mechanism (gambar 5) memprediksi outpu menggunakan weighted-average context vector dan tidak hanya sate terakhir. Contoh: What is good to watch on TV penekanan ada pada kata watch dan TV. Pada baseline pada paper ini akan mentraining attention-based di model seq2seq memakai Yik Yak Post dan reply data kemudian di dimasukkan ke dalam bot pada Slack untuk demo. Gambar 4 adalah contoh pada beberapa reply dari model tadi dengan beam search size 200. Penelitian yang terakit pada topic18 dan konteks8 didalam seq2seq model yang bertujuan menghasilkan jawaban topic-based response.
  • 4. 4 | P a g e medium.com/ashrovy | ashrovy.tumblr.com | ashrovy.wordpress.com Ref____ [1] D. Bahdanau, K. Cho, and Y. Bengio. Neural machine translation by jointly learning to align and translate. ICLR, 2015. [2] M. Belkin and P. Niyogi. Laplacian eigenmaps and spectral techniques for embedding and clustering. NIPS, 14:585591, 2001. [5] T. F. Cox and M. A. Cox. Multidimensional scaling. CRC, 2000. [17] J. B. Tenenbaum, V. D. Silva, and J. C. Langford. A global geometric framework for nonlinear dimensionality reduction. Science,290(5500), pages 23192323, 2000. Perbedaan: Gagasan: Diliputi: Kesimpulan: Kontainer: Tuntutan: Kurang lebih: Berbeda: Dengan kondisi: Sedangkan: Berbagai bentuk: Variance Notition Encompassed Inference Containerized Demand Roughly Vary in terms Whereas Multimodal Gambar 4: YikYak's Smart Reply menggunakan seq2seq dengan attention, reply_yak adalah Slack Bot Personalized Respond Generation Gambar 6 menggambarkan proses penggunaan persona untuk membangun conversation model12 . Penelitian ini sebelumnya sebelumnya pernah ada tentang personalized conversation model yang secara umum terdapat dua model: Speaker model yang mengintegrasikan speaker- level vector representation ke dalam beberapa bagian didalam seq2seq model. Sedangkan Speaker-Addressee model men-encode pola interaksi antara dua pembicara dengan mengkonstruksikan interaction representation dari individual embedddings dan menggabungkannya ke seq2seq model. Persona vector sendiri di training dengan human-to- human data conversation dan menggunakan test time untuk menghasilkan personalized response. Gambar 5: Attention-based model1 . Social Graphs and Embeddings Beberapa metode graph embedding telah banyak diusulkan didalam literature machine learning2,5,17 dan kebanyakan diantaranya berjalan di network skala kecil.
  • 5. 5 | P a g e medium.com/ashrovy | ashrovy.tumblr.com | ashrovy.wordpress.com Ref____ [9] A. Grover and J. Leskovec. node2vec: Scalable feature learning for networks. KDD, August 2016. [12] J. Li, M. Galley, C. Brockett, G. Spithourakis, J. Gao, and B. Dolan. A persona-based neural conversation model. ACM Trans. Program. Lang. Syst., 1(5):9941003, 2016. [16] J. Tang, M. Qu, and M. Wang. Line: Large-scale information network embedding. WWW, 2015. Pembungkusan: Penggabungan: Jarang: Mengungguli: Ditambah: Pengaruh: Persamaan: Keseluruhan: Encapsulate Concatenate Sparse Outperform Supplemented Leverage Affinity Aggregate Gambar 6: contoh dari Speaker model yang terintegrasi pada speaker-level vector representation didalam bagian target di seq2seq model. Masalahnya ialah implementasinya pada skala besar akan sangat berbeda dikarenakan jumlah node pada network akan mencapai milyaran. Jika begitu maka diperlukan low-dimenstional embeddings yang efesien untuk meng-catpure network structure. Gambar 7: Contoh information network pada LiNE16. Titik 6 & 7 disebut dengan low-dimensional space karena mereka terkoneksi dengan kuat. Titik 5 & 6 disebut share similar negihbors. Gambar 7 diatas adalah gambaran ilustrasi. Weight pada titik 6 & 7 adalah besarnote , pada waktu yang sama tidak ada direct link antara titik 5 & 6, mereka cuman berbagi neighbors yang sama dan disebut second order.note Aplikasi LiNE16 menggunakan network embedding model yang cocok dengan model informasi network yang acak untuk meng- efesiensikan milyaran nodes. Fungsi objek didesain untuk mempertahankan kedekatan first-order dan second-order. Berat gradient akan berlipat ganda dan ini menjadi masalah tapi untuk mengatasinya LiNE menggunakan edge sampling. Fungsi tersebut ialah mengambil berat dari probabilitas sebagai sampling secara proposional. Pendekatan lainnya mengunakan Node2Vec9 yang menyediakan gagasan flexible terhadap neighborhood dan dibiaskan secara efesien untuk meng-eksplorasi didalam perbedaan neighborhoods. Training and Implementation Pada pengerjaannya akan mengikuti pengerjaan pada paper persona based conversation model12 , yang memperkenalkan dua persona- based models: Speaker Model, yaitu model personality respondent dan Speaker-Addressee Model yaitu bagaimana model mengadaptasi setiap addressee yang diberikan. Training Protocols Berikut ialah Procedure training method: 4 Layer LSTM model dengan 1000 hidden cell untuk setiap layer. Ukuran Batch sebesar 128 Learning rate di set 1.0 decay Inisialisasi Parameter dengan sampling dari distribusi uniform [-0.1,0.1] Titik potong gradient untuk menghindari gradient explosion dengan threshold 5. Batas vocabulary 100,000 Dropout rate 0.25
  • 6. 6 | P a g e medium.com/ashrovy | ashrovy.tumblr.com | ashrovy.wordpress.com Ref____ [9] A. Grover and J. Leskovec. node2vec: Scalable feature learning for networks. KDD, August 2016. [12] J. Li, M. Galley, C. Brockett, G. Spithourakis, J. Gao, and B. Dolan. A persona-based neural conversation model. ACM Trans. Program. Lang. Syst., 1(5):9941003, 2016. [16] J. Tang, M. Qu, and M. Wang. Line: Large-scale information network embedding. WWW, 2015. Kekurangan: Terpendam: Pilihan: Hanya pada: Ditetapkan oleh: Sangat: Perkiraan: Cenderung: Deficiencies Latent Preferance Solely on Determined by Vastly Approximate Inclined Decoding Untuk fase decoding, N-best list yang dihasilkan menggunakan decoder dengan beam size = 200. Maximum length yang ditetap pada paper ini 20 generated candidates. Decoding dilakukan dengan cara berikut: Disetiap step- nya periksa setiap pada kandidat kemungkinan next-word, dan setiap hipostesis diakhir symbol EOS token pada N-best list. Lalu hipotesis (yang belum selesai) top- dipindah ke next-word. Dataset Dataset yang digunakan pada training disini menggunakan pada datasert Yik Yak (post dan pasangan comment-reply). Pada proses Preprocess disini ialah memasangkan setiap post yang berisikan sedikitnya 5 kata dan bahasa yang tidak explisit. Setelah preprocessing, akan diperoleh sekitar 10 milyar pasangan yang akan dibagi secara acak kedalam training dan test. Dataset ini meliputi 10,000 lokasi (daerah dan level kota) tersebar di 13 negara dan 100,000 unique user. Implementation Impelentasi hanya dibagi menjadi dua tahapan yaitu training dan kesimpulan/inference: Training Source dan target LSTM disini menggunakan parameter set yang berbeda. 20 epochs dan training berlangsung kurang lebih selama seminggu untuk menyelesaikan g2.8xlarge AWS instance dengan 32 high frequency Intel Xeon E5-2670 (Sandy Bridge) processors yang sama dengan 4 performa tertinggi NVIDIA GPU, dengan setiap CUDA score 1,536 dan 4 GB video memory. Inference Untuk inference (kesimpulan,dugaan) disini menggunakan Kubernetes, open-source system untuk penyebaran otomatis, scaling, dan management containerized application. Kubernetas akan dipadukan dengan TensorFlow Serving, high-perofrmance, open- source serving system untuk machine learning models, untuk menemukan intensitas computasi dan scaling demands pada aplikasi ini. Server mengeksekusi grafik proses TensorFlow disetiap text suggestion request yang diterima. Model digambarkan didalam file set kemudian di deskripsikan didalam bentuk pada grafik TensorFlow, berat model, asset, dan lain-lain. Setelah semuanya dipaketkan bersama secara dinamis jumlah skala terreplikasikan oleh pod menggunakan Kubernetes Replication Controller. Conversation-Based Model Terdapat dua tipe conversation models yang akan diperkenalkan: location based model adalah model untuk mencapture komunitas dan user-based model merupakan model yang akan mem-personalisasi setiap user. Location-based model Lokasi yang diberikan oleh Yik Yak sangat penting didalam penggabungan informasi didalam model. Berdasarkan beberapa studi, telah ditemukan berbagai komunitas yang sagnat berbeda antara satu dan lainnya baik dari social connectivity dan penggunaan bahasa. Pada pengerjaan ini akan lebih menuju kepada multimodal learning pada general domain. Tidak seperti multimodal system klasik yang
  • 7. 7 | P a g e medium.com/ashrovy | ashrovy.tumblr.com | ashrovy.wordpress.com Ref____ [15] S. Oviatt. The Human-computer Interaction Handbook. Julie A. Jacko and Andrew Sears, Hillsdale, NJ, USA, 2003. Keluar: Penurut: Hilir: Outward Tractable Downstream Gambar 8: Location-based Conversation Model. tergabung pada banyak bentuk (seperti gesture) user15 , disini input yang paling penting ialah textual data, ditambah dengan metadata tentang author dan waktu. Untuk pendekatan pengembangan dua persona-based model: decoder model yang tugasnya ialah meng-capture personality dari responden, dan encoder-decoder model bertugas meng-capture langkah atau jalan bagaimana respondent beradaptasi dengan lawan bicaranya. Secara spesifik menggunakan location embedding untuk dua encoder dan decoder. User diberikan tag dengan latitude dan longitude, pada Yik Yak memiliki understanding location yang cukup robust. Disini informasi lokasi akan di bungkus dengan 3 level granularity: county, city, dan country. Gambaran koresponding akan digabungkan untuk setiap level agar mendapatkan final local embedding (Gambar 8). Maksud dari strategi ini adalah jika koresponding data lebih tinggi level-granularity- nya dan melebar, level yang lebih rendah akan memperoleh sinyal yang kuat. Contoh: final local embedding untuk Queens county di dalam New York: 高 = , , Besar final location embedding adalah 300 didalam model. Berdasarkan standard Seq2seq model, pertama encode messge ke dalam vector representation menggunakan source LSTM. Lalu untuk setiap step didalam target side, hidden unit diperoleh dengan penggabungan hasil representasi dengan target LSTM pada langkah sebelumnya, word representation pada setiap timestep dan location embedding: = + [ , 高 ] = ( + ) = ( + ) = tanh( + ) = + 皋 = tanh( 皋 ) Disini kita berhasil mendapatkan rumus untuk simple LSTM. Pada final model, kita gunakan attention-based model yang mengungguli standard LSTM. LSTM mendefenisikan distribusi dari output dan tahapan token prediksi menggunakan fungsi softmax. Saat ingin memprediksi next word pada kalimat, maka perlu menggunakan probabilitas vector didalam vocabulary . = $( )
  • 8. 8 | P a g e medium.com/ashrovy | ashrovy.tumblr.com | ashrovy.wordpress.com Ref____ Lalu diminimalisasi rata-rata kemungkinan log negative pada target words menjadi: = ln User-Based Model User-based model mirip dengan location-based dengan perbedaan penggunaan location embeddings, pada paper ini menggunakan user mebedding based on conversational interaction antara user. Table 1: Location Perplexity dan user-based models. Model Perplexity LSTM Standard 79.1 LSTM Attention 77.2 Location-based model Decoder 73.3 Location-based model Decoder & encoder 72.7 User-based model Decoder 79.6 User-based model Decoder & encoder 80.7 Result and Discussion Ukuran yang untuk digunakan didalam membandingkan perbedaan model perplexity: = Pada table 1 telah diringkas hasil dari model dan perbadingan diantara mereka. Kami mengobservasi hasil location-based model mengalami peningkatan signifikan (sekitar 8% pengurangan perplexity), sedangkan untuk user-based model mengungguli baseline(LSTM) model sekitar 2% peningkatan pada perplexity. Jarak antara data untuk user dapat dijelaskan pada observasi ini, Terdapat per-user yang dibandingkan dengan per-location. Jumlah embeddings yang dipelajari untuk user-based model (1,00,000) merupakan 10 kali lebih banyak dari nomor korepsonding untuk location-based model (10,000). Obeservasi selanjutnya ialah terhadap decoder-and encoder model yang sangat buruk dibandingkan decoder model, yang menunjukkan bahwa informasi dari speaker tidak menunjukkan hasil yang baik di lingkungan anonymous. Hal ini bisa dilakukan terbosan model yang menggabungkan inforamsi yang lebih robust. SOC2SEQ Untuk mengatasi kekurangan pada user-based model pada paper ini mengajukan pengggabungan model social embedding dengan conversation model. Berdasarakan dengan hasil yang ada di tabel 1, cukup gunakan decoder model. Selanjutnya pengerjaan akan berbasis online tanpa perlu di training ulang seluruh model yang sudah robust pada data sparsity. Pertama, kami ingin mendiskusikan social graph dan bagaimana cara mengkonstruksikannya ke Yik Yak dan mendeskripsikan bagaimana social graph bisa digunakan untuk mempelajari low-dimensional embedding dan menjelaskan bagaimana menggabungkannya dengan model yang ada sebelumnya. Interaction-based Social Graph Social graph memiliki berbagai macam aplikasi tapi yang terpenting ialah bagaimana cara melakukan perangkingan (ranking factor) untuk beberapa fungsionalitas seperti people discovery (mirip "people you may know") dan algoritma content feed creation. Sebagai catatan, Yik Yak tidak se-eksplisit Facebook, Twitter dan lain-lain, yang memiliki social link antar teman atau follower. Social grapb nantinya harus bisa membuat user merasa memiliki interaksi dengan platform, karena nantinya model harus bisa menyesuaikan dengan fakta seiring berjalannya waktu, dan orang-orang cenderung berkembang dengan pilihan-pilihan (reply suggestion) yang ada.
  • 9. 9 | P a g e medium.com/ashrovy | ashrovy.tumblr.com | ashrovy.wordpress.com Ref____ Gambar 10: Soc2Seq: Social Conversation Model Setelah kita memiliki general loaction-based social graph maka akan lebih mudah mengaplikasikan pada deep learning models seperti Node2Vec, DeepWalk, LiNE dan lain-lain untuk menemukan kesamaan diantara pengguna. Aspek penting yang wajib dicatat ialah untuk memenuhi pembangunan model ini, jangan menggunakan textual content tapi hanya pada user-to-user interaction. Building Interaction Graphs Salah satu tantangan yang dihadapi oleh Yik Yak adalah lemahnya pengartian menjadi teman atau follower satu sama lain. Membangun social graph bertujuan untuk mendalami interaksi antara user dan platform. Terutama beragam informasi yang akan dikombinasikan dan kalkulasi berat persamaannya. Tanda apabila secara keseluruhan interaksi telah terpenuhi: Profile View (directed dan binary): Grafik ini berdasarkan apakah user telah melihat profile user lain atau tidak. Chat request (directed and binary): Grafik ini berbasis apakah user telah mengirim chat request ke user lain. Comment (directed and weighted): Edge respond untuk membalas, dimana user meng-comment post user lain. Weight ditetapkan oleh jumlah interaksi. Like (directed): Upvotes (like) pada koresponden, dimana user yang melakukan like pada user post yang lain. Weight ditentukan oleh jumlah interaksi serupa. View (directed-weak signal dan weighted): Koresponden post view, dimana user dapat melakukan view ke user lainnya atau comment. Weight ditentukan dari jumlah interaksi serupa.
  • 10. 10 | P a g e medium.com/ashrovy | ashrovy.tumblr.com | ashrovy.wordpress.com Ref____ Figure 9: Weighted Social Graph based on Interaction. Pada prakteknya, perbedaan grafik digunakan pada aplikasi yang berbeda. Contoh, untuk fitur user recommendation atau people you may know, tujuannya ialah memaksimalkan chat request dan profile views. Disini kami menggunakan Node2Vec untuk mengambil social embedding untuk setiap user. Node2Vec dioptimasi menurut fungsi target, yang berarti memaksimalkan log-probability untuk meng- observasi network neighborhood () untuk node dikondisikan pada fitur representasi yang diberikan oleh log () () dan bisa permudah menjadi [ log + log ( ). ()) ( ) ] Gambar 11: Ilustrasi dari random walk procedure didalam Node2Vec. Walk hanya ditransisi dari node ke dan dievaluasi pada step selanjutnya di nove . Edge label mengindikasi search biases . Selanjutnya, sampling negatif digunakan untuk mempercepat pada proses, daripada mengkalkulasikan fungsi partisi per-node. Tantangna disini ialah neighbos defenition. Neighborhoods () tidak terlalu dibatasi secara langsung oleh neighbors dan bisa berbeda sturukturnya tergantung pada strategi sampling . Faktanya, keuntungan Node2Vec model ini fleksible pada notion neighborhoofs dnegnan men-desain biased random walk untuk mengefesiensikan eskplorasi perbedaan neighborhoods. Table 2: Result using soc2seq model.. Model Perplexity LSTM Standard 79.1 LSTM Attention 77.2 Location-based model Decoder 73.3 Location-based model Decoder & encoder 72.7 Social user model Standard 72.4 Social user model tuned 70.9 Pada gambar 11 second-degree random walk di Node2Vec memeiliki dua parameter, p dan q. Return parameter p mengontrol likelihood untuk langsung mendatangi node pada walk. Setting untuk high value (> max(q,1)) yang akan memastikan sample sudah dikunjungi node di
  • 11. 11 | P a g e medium.com/ashrovy | ashrovy.tumblr.com | ashrovy.wordpress.com Ref____ langkah kedua (kecuali next node di walk tidak memiliki neighbor). Strategi ini mendorong model untuk bereksplorasi dan menghindari 2- hop redudancy didalam sampling. Dilain hal, jika p rendah (< min(q,1)), akan membawa walk ke backtrack step (lihat gambar 11) yang akan membawa walk lebih ke local. Disisi lain juga in- out parameter, q memperbolehkan untuk mencari perbedaan antara inward dan outward nodes. Lihatlah kembali gambar 11, jika q>1, random walk membiaskan kearah nodes yang dekat dengan node . Berbeda jika q<1, walk akan lebih condong untuk mem-visit nodes yang jauh dari node . Hal tersebut dikarenakan karena node tersebut mirip dengan DFS, yang mendorong explorasi keluar. Namun, perebedaan utamannya disini ialah pencapaian DFS seperti explorasi didalam ranom walk framework. Dengan demikian, Node2Vec sample tidak dengan ketat menambah jarak yang diberikan dari source node , tetapi sebagai gantinya kita menikmati dari preprocessing dan efisensi superior sampling dari random walks. Berikut ini adalah rumus gabungan dari loss function pada model: = + = ln + 咋(2p_ゐ) dimana SGD adalah stohastic gradient descent pada Node2Vec random walk. Sekarang, berkat training complexity yang dilakukan random walk pada seluru graph di setiap pembicaraan, pertama training Node2Vec dari interaksi graph dan embeddings didalam user-based conversation models. p dan q diset sama dengan 1, agar mendapatkan optimal value untuk downstream stask seperti chat link prediction. Secara spesifik untuk tugas reply suggestion, kita menggunakan gabungan dari comment dan like grafik, jadi embedding user akan menggunakan Alice: = , ゐ Seperti yang bisa kita lihat pad table 2 menggunakan pre-trained embedding dari like dan comment view social graph boosts, meskipun tanpa pretraining user embedding. Selain itu peningkatan signifikan ditemukan dari tune user embeddings menggunakan baik social dan conversation information.note Practical Outputs Pengukuran hasil sistem ini dilihat dari sudut perplexity, penting juga untuk mengobservasi performa pada prakteknya. Result 1: Sample output dari location-based conversation model. Anyone wanna watch netflix? New York: Daredevil is lit!!! LA: Lets go for House of Cards SF: orange is the new black London: GOT Atlanta: netflix and chill I am feeling lonely and depressed New York: Lets Party LA: Find a date dude SF: we are there op London: I think of yo as friend Atlanta: Are you a girl? Location-based Examples Lokasi dipilih secara acak dan post-replied juga diambil secara acak. Result 1 memberikan contoh question Anyone wanna watch Neflix dan memperlihatkan jawaban dari berbagai
  • 12. 12 | P a g e medium.com/ashrovy | ashrovy.tumblr.com | ashrovy.wordpress.com Ref____ [3] P. Bhatia, R. Guthrie, and J. Eisenstein. Morphological priors for probabilistic neural word embeddings. EMNLP, 2016. [10] D. Ha, A. Dai, and Q. Le. Hypernetworks. arXiv:1609.09106, September 2016. [13] J. Li, W. Monroe, A. Ritter, M. Galley, J. Gao, and D. Jurafsky. Deep reinforcement learning for dialogue generation. EMNLP, 2016 Besar: Satuan bahasa terkecil yang memiliki arti: yang stabi: Sudut: Cenderung: Dengan Demikian: Gantinya: Menikmati: Substantial Morpheme Standpoint Incline As Such In Turn Benefit tempat dan berbeda lokasi. Dari jawaban tersebut dapat di observasi bahwa Daredevil populer diantar New Yorkers sedangkan Game of Thrones popular di London. Fleksibilitas ini tidak akan dimiliki pada model sebelumnya. Result 2: Sample output dari soc2seq social conversation model. I Wanna start gym? User1: good luck op User2: I am too fat User3: you are the man User4: I want to start too User5: Go out of course I love you User1: I love you User2: I have a boy friend User3: I am a boy User4: I am a girl lol. User5: Are you a girl? Social-Graph-Based Examples Untuk user juga diambil hanya 5 dari 100,000 user, kemudian mengevaluasi response dari set post yang berbeda. Observasi pada Result 2 setiap user memiliki jawaban tetapi personality-nya konsisten. Sebagai contoh User1 extrovert sedangkan User4 (sepertinya) perempuan. Conclusion and Future Work Paper ini terlah persentasikan terbosan pendekatan dari conversinoal dan social aspek pada user interaction. Model dapat membuat intelligent agent (chatbot) mempelajari konten dan mengetahui struktur user interaction untuk lebih baik mempersonalisasi kebiasaan orang. Pencapaian ini merupakan peningkatan besar pada per-plexity untuk location-based dan juga social-based model. Encoding personas didalam distribusi representation conversation dan social graph juga telah dipersentasikan. Salah satunya dapat meng-capture personal characteristics seperti speaking style dan background informastion. Model ini juga merepresentasikan building block untuk pengerjaan kedepanna, diantarnya membuat model ini lebih robust pada kata yang tidak diketahui dari gabungan morfem3 atau level character-embedding. Juga kami merencanakan untuk menggabungkan social graph dan pendekatan reinforcement learning13 . Tapi dibeda area mungkin juga untuk membuat sequntial network seperti LSTM lebih pintar seperti HpyerNetworks10 dimana networks yang lebih kecil membantu network untuk utama untuk membuat keputusan yang cerdas.