狠狠撸

狠狠撸Share a Scribd company logo
Latent Cross: Making Use of Context in
Recurrent Recommender Systems
by Alex Beutel, etc
担当: @Quasi_quant2010
WSDM2018読み会1
【WSDM2018読み会】
概要
- コンテキストは結合せずattentionとして扱う -
? 行列分解系の予測をNNで近似する
? 変数間の相互作用について、明示的に相関関係を与えない設定
でNNはデータから相互作用を学習するのか
? 埋め込みベクトルの結合以外で予測を高める仕組みは?
? Latent Crossを提案
? 提案手法を考えた背景
? コンテキストを単純に結合した埋め込みベクトルを用いるとモデルサ
イズが大きくなるので非効率
? コンテキストを主たる特徴量を調整する情報源と捉える
? 主たる特徴量の埋め込みベクトル(x)とコンテキストの埋め込みベクトル
(c)の要素積をとる。つまり、xにcというattentionを作用させる
? 操作自体はノイズ処理に対応
WSDM2018読み会2
実験①
- 行列分解系の予測をNNで近似する -
? 行列分解系
? Matrix Factorization : 2変数間の相関
? ???????????? = < ??, ?? >
? Tensor Factorization : 3変数間の相関
? ????????????? = < ??, ??, ?? >
? NNでもPredictionを予測する
? 行列分解系の予測を近似するとは、異なるモデル(行列分解系?
NN)で同じ値(Prediction)を予測
? 行列分解系は2 or 3変数間の相関を通じ相互作用を加味
? NNで行列分解系と同程度の予測ができれば、 NNが変数間の
相互作用を学習できていると解釈する
WSDM2018読み会3
実験①
- 行列分解系の予測をNNで近似する -
? m個特徴量をN回レコードとして観測する
? デザイン行列 : m * N
? ただし、m個が各々独立した特徴量とは限らない
? 独立した特徴量を見つけたいという行列分解系の動機がある
? あらかじめランクr(<m)と分かっている状況で、
NNは行列分解系の予測結果を再現できるか
? データ:m * H * N
? m:特徴量の種類, H:埋め込みベクトルの次元, N:レコード数
? 再現するにはどのようなパラメータが必要か
? 本検証では隠れ層1層で幅CのNNを検証モデルとする
? 埋め込みベクトルのサイズについて試行実験をし、サイズの大小
によって結果はあまり変わらなかった4
? ~ ?(0, 1/?1/2?
?)
実験①
- 検証モデル : 隠れ層1?幅CのNN -
? Input Layer
? ??? × ?? ej : one-hot
? Hidden Layer
? Activation : ReLU
? ? ? = ? ? ?; ? + ?
? 結合したあとReLUを通じ相互
作用を獲得するらしい
? Transform and Aggregation
? ? = ?=1
?
? ? ? ?
? Ouput Layer
? ? = ???????(???? ? + ?)
? Reference
? Split, Transform, and Aggregation
are based on [Xie.S]WSDM2018読み会5
Activati
on 1
Activati
on 2
Activati
on C
Input Layer
Output Layer
split
transform
aggregation
実験①
- NNが変数間の相互作用を学習したと解釈-
? 結果
? ランク数一定で特徴量(m)が2から3に増えたとき、行列分解と同
等の性能を出すために、幅が4倍(=20/5)必要
? 独立な特徴量が1で観測特徴量が2の場合を指す。つまり、
不必要な特徴量が多い場合、各隠れ層の幅を大きくとる必要がある
? 特徴量一定でランク数が1から2に増えたとき、行列分解と同等の
性能を出すために、幅が3倍(=30/10)必要
? 観測した特徴量の内、
独立成分がより多い場合も各隠れ層の幅を大きくとる必要がある
WSDM2018読み会6
引用[Beutel.A, etc]
問題設定
- 動画推薦タスク -
? データ
? 各ユーザーの動画視聴履歴をセッションとして保持
? セッションは30分とかではなく、全セッションを繋げたものだと思われる
? 言語モデルで言えば単語が動画IDに対応
? その他に、コンテキストとして以下のデータがある
? 直前見終わった時間と見始める時間間隔
? デバイスタイプ(iOS, Android,etc)
? Referer:ユーザーが自発的に流入したかレコメンドから流入したか
? 予測値:動画ID
? 前処理
? 5Mの人気動画のみを計算対象
? 少なくともセッション中、50種類の動画をみているユーザに限る
7
Simple Technique for RNN
- コンテキストを結合せずattentionとして扱う -
? 実験①から、不必要な特徴量が多い場合、各隠れ層の幅
を大きくとる必要がある
? 例えばRNNの隠れ層に幅を導入することも可能ではあるが、モデ
ルサイズが肥大することが実験①から分かる
? コンテキストは種類が多くなる傾向があり、結合でない観点から新
たな計算方法(それがLatentCross)を考える必要がある
? 本論文では以下のような調整(LatentCross)を行う
? ? = 1 + ?=1
?
? ? ? ?
? h : 隠れ層の埋め込みベクトル
? ac : c-thコンテキストの埋め込みベクトル
? 結合する場合、?(? ?; ? ?; ? ? … ; ? ? + ?)とかになる
WSDM2018読み会8
Proposed Model
- アーキテクチャ -
? 通常のRNNと異なる点
? : LatentCross(LC)
? LCを作用させた埋め込みベク
トルを一旦ReLU入れる
? 実験①より、ReLUを通すことで
、NNが変数間の相互作用を
学習すると解釈する
? 入力層 : Pre-fusionと呼ぶ
? 出力層 : Post-fusionと呼ぶ
? Pre-fusion
? 隠れ状態に影響を与える
? Post-fusion
? 予測に影響を与える
WSDM2018読み会9
Input Layer
LSTM
ReLU
ReLU
Output Layer
実験②
- ProposedModel vs SOTA -
? RNNwithConcatenated < RNNwithLC
? RNNwithoutConcatenated < RNNwithConcatenated
WSDM2018読み会10
引用[Beutel.A, etc]
実験③
- ProposedModel with various context -
? 実験②より提案モデルがSOTAより性能が高い
? ただし、使用したコンテキストは時間のみ
? よって、より多くのコンテキストを使用する事で予測性能が向
上するかを追加実験
? 追加実験①
? コンテキストを時間からリファラーに変更
? 追加実験②
? Pre-fusion
? 時間間隔?リファラー
? Post-fusion
? デバイス?リファラー
WSDM2018読み会11
実験③?①
- コンテキストを時間間隔からリファラーへ変更 -
? 結合したRNNよりもLatenCrossしたRNNの方が高い性能
? ただ、ほとんど変わらないともいえる
? もしRNN with LatenCrossの方が安定してパラメータを推
定出来るならgood news
? 実際はよくわならない???
WSDM2018読み会12
実験③?②
- 使えるコンテキスト全てを使用 -
? 全てもコンテキストを結合した場合よりもLatenCrossの方が
、実験③?①と比べ性能差が高い
WSDM2018読み会13
感想
- 変数間相互作用とノイズ処理をNNで -
? NNが変数の相互作用を学習するか
? 行列分解系の予測をNNで再現出来れば分からなくもない
? ノイズ処理
? LatentCrossの背景
? モデルサイズの効率性という点もあろうが、隠れ層の埋め込みを調整し、ノ
イズ処理をしたいんだろう
? Pre(Post)-fusionは、明示的なノイズ処理
? CNNでノイズ処理を行い、RNNの入力とする最近の流行を連想する
? 筆者はこれにより変数間相互作用を獲得できると主張しているが
? ノイズ処理についてはCNN+RNN
との比較実験をした方がよいのでは
WSDM2018読み会14
参考文献
? [Beutel.A, etc] Latent Cross : Making Use of Context in
Recurrent Recommender Systems, WSDM 2018
? [Xie.S, etc] Aggregated Residual Transformations for Deep
Neural Networks, arXiv:1611.05431
WSDM2018読み会15

More Related Content

What's hot (20)

大规模データに基づく自然言语処理
大规模データに基づく自然言语処理大规模データに基づく自然言语処理
大规模データに基づく自然言语処理
JunSuzuki21
?
ベイズ深層学習5章 ニューラルネットワークのベイズ推論 Bayesian deep learning
ベイズ深層学習5章 ニューラルネットワークのベイズ推論 Bayesian deep learningベイズ深層学習5章 ニューラルネットワークのベイズ推論 Bayesian deep learning
ベイズ深層学習5章 ニューラルネットワークのベイズ推論 Bayesian deep learning
ssuserca2822
?
[DL輪読会]Revisiting Deep Learning Models for Tabular Data (NeurIPS 2021) 表形式デー...
[DL輪読会]Revisiting Deep Learning Models for Tabular Data  (NeurIPS 2021) 表形式デー...[DL輪読会]Revisiting Deep Learning Models for Tabular Data  (NeurIPS 2021) 表形式デー...
[DL輪読会]Revisiting Deep Learning Models for Tabular Data (NeurIPS 2021) 表形式デー...
Deep Learning JP
?
SSII2021 [OS2-01] 転移学習の基礎:異なるタスクの知識を利用するための機械学習の方法
SSII2021 [OS2-01] 転移学習の基礎:異なるタスクの知識を利用するための機械学習の方法SSII2021 [OS2-01] 転移学習の基礎:異なるタスクの知識を利用するための機械学習の方法
SSII2021 [OS2-01] 転移学習の基礎:異なるタスクの知識を利用するための機械学習の方法
SSII
?
BlackBox モデルの説明性?解釈性技術の実装
BlackBox モデルの説明性?解釈性技術の実装BlackBox モデルの説明性?解釈性技術の実装
BlackBox モデルの説明性?解釈性技術の実装
Deep Learning Lab(ディープラーニング?ラボ)
?
トピックモデルの評価指標 Perplexity とは何なのか?
トピックモデルの評価指標 Perplexity とは何なのか?トピックモデルの評価指標 Perplexity とは何なのか?
トピックモデルの評価指標 Perplexity とは何なのか?
hoxo_m
?
贬颈笔笔翱/厂4解説
贬颈笔笔翱/厂4解説贬颈笔笔翱/厂4解説
贬颈笔笔翱/厂4解説
Morpho, Inc.
?
工学系大学4年生のための论文の読み方
工学系大学4年生のための论文の読み方工学系大学4年生のための论文の読み方
工学系大学4年生のための论文の読み方
ychtanaka
?
continual learning survey
continual learning surveycontinual learning survey
continual learning survey
ぱんいち すみもと
?
[DeepLearning論文読み会] Dataset Distillation
[DeepLearning論文読み会] Dataset Distillation[DeepLearning論文読み会] Dataset Distillation
[DeepLearning論文読み会] Dataset Distillation
Ryutaro Yamauchi
?
[DL輪読会]PointNet++: Deep Hierarchical Feature Learning on Point Sets in a Metr...
[DL輪読会]PointNet++: Deep Hierarchical Feature Learning on Point Sets in a Metr...[DL輪読会]PointNet++: Deep Hierarchical Feature Learning on Point Sets in a Metr...
[DL輪読会]PointNet++: Deep Hierarchical Feature Learning on Point Sets in a Metr...
Deep Learning JP
?
罢谤补苍蝉蹿辞谤尘别谤を雰囲気で理解する
罢谤补苍蝉蹿辞谤尘别谤を雰囲気で理解する罢谤补苍蝉蹿辞谤尘别谤を雰囲気で理解する
罢谤补苍蝉蹿辞谤尘别谤を雰囲気で理解する
AtsukiYamaguchi1
?
グラフニューラルネットワーク入门
グラフニューラルネットワーク入门グラフニューラルネットワーク入门
グラフニューラルネットワーク入门
ryosuke-kojima
?
【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models
【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models
【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models
Deep Learning JP
?
强化学习その3
强化学习その3强化学习その3
强化学习その3
nishio
?
[DL輪読会]NVAE: A Deep Hierarchical Variational Autoencoder
[DL輪読会]NVAE: A Deep Hierarchical Variational Autoencoder[DL輪読会]NVAE: A Deep Hierarchical Variational Autoencoder
[DL輪読会]NVAE: A Deep Hierarchical Variational Autoencoder
Deep Learning JP
?
SSII2019企画: 点群深層学習の研究動向
SSII2019企画: 点群深層学習の研究動向SSII2019企画: 点群深層学習の研究動向
SSII2019企画: 点群深層学習の研究動向
SSII
?
蝉肠颈办颈迟-濒别补谤苍を用いた机械学习チュートリアル
蝉肠颈办颈迟-濒别补谤苍を用いた机械学习チュートリアル蝉肠颈办颈迟-濒别补谤苍を用いた机械学习チュートリアル
蝉肠颈办颈迟-濒别补谤苍を用いた机械学习チュートリアル
敦志 金谷
?
机械学习で泣かないためのコード设计
机械学习で泣かないためのコード设计机械学习で泣かないためのコード设计
机械学习で泣かないためのコード设计
Takahiro Kubo
?
Depth Estimation論文紹介
Depth Estimation論文紹介Depth Estimation論文紹介
Depth Estimation論文紹介
Keio Robotics Association
?
大规模データに基づく自然言语処理
大规模データに基づく自然言语処理大规模データに基づく自然言语処理
大规模データに基づく自然言语処理
JunSuzuki21
?
ベイズ深層学習5章 ニューラルネットワークのベイズ推論 Bayesian deep learning
ベイズ深層学習5章 ニューラルネットワークのベイズ推論 Bayesian deep learningベイズ深層学習5章 ニューラルネットワークのベイズ推論 Bayesian deep learning
ベイズ深層学習5章 ニューラルネットワークのベイズ推論 Bayesian deep learning
ssuserca2822
?
[DL輪読会]Revisiting Deep Learning Models for Tabular Data (NeurIPS 2021) 表形式デー...
[DL輪読会]Revisiting Deep Learning Models for Tabular Data  (NeurIPS 2021) 表形式デー...[DL輪読会]Revisiting Deep Learning Models for Tabular Data  (NeurIPS 2021) 表形式デー...
[DL輪読会]Revisiting Deep Learning Models for Tabular Data (NeurIPS 2021) 表形式デー...
Deep Learning JP
?
SSII2021 [OS2-01] 転移学習の基礎:異なるタスクの知識を利用するための機械学習の方法
SSII2021 [OS2-01] 転移学習の基礎:異なるタスクの知識を利用するための機械学習の方法SSII2021 [OS2-01] 転移学習の基礎:異なるタスクの知識を利用するための機械学習の方法
SSII2021 [OS2-01] 転移学習の基礎:異なるタスクの知識を利用するための機械学習の方法
SSII
?
トピックモデルの評価指標 Perplexity とは何なのか?
トピックモデルの評価指標 Perplexity とは何なのか?トピックモデルの評価指標 Perplexity とは何なのか?
トピックモデルの評価指標 Perplexity とは何なのか?
hoxo_m
?
贬颈笔笔翱/厂4解説
贬颈笔笔翱/厂4解説贬颈笔笔翱/厂4解説
贬颈笔笔翱/厂4解説
Morpho, Inc.
?
工学系大学4年生のための论文の読み方
工学系大学4年生のための论文の読み方工学系大学4年生のための论文の読み方
工学系大学4年生のための论文の読み方
ychtanaka
?
[DeepLearning論文読み会] Dataset Distillation
[DeepLearning論文読み会] Dataset Distillation[DeepLearning論文読み会] Dataset Distillation
[DeepLearning論文読み会] Dataset Distillation
Ryutaro Yamauchi
?
[DL輪読会]PointNet++: Deep Hierarchical Feature Learning on Point Sets in a Metr...
[DL輪読会]PointNet++: Deep Hierarchical Feature Learning on Point Sets in a Metr...[DL輪読会]PointNet++: Deep Hierarchical Feature Learning on Point Sets in a Metr...
[DL輪読会]PointNet++: Deep Hierarchical Feature Learning on Point Sets in a Metr...
Deep Learning JP
?
罢谤补苍蝉蹿辞谤尘别谤を雰囲気で理解する
罢谤补苍蝉蹿辞谤尘别谤を雰囲気で理解する罢谤补苍蝉蹿辞谤尘别谤を雰囲気で理解する
罢谤补苍蝉蹿辞谤尘别谤を雰囲気で理解する
AtsukiYamaguchi1
?
グラフニューラルネットワーク入门
グラフニューラルネットワーク入门グラフニューラルネットワーク入门
グラフニューラルネットワーク入门
ryosuke-kojima
?
【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models
【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models
【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models
Deep Learning JP
?
强化学习その3
强化学习その3强化学习その3
强化学习その3
nishio
?
[DL輪読会]NVAE: A Deep Hierarchical Variational Autoencoder
[DL輪読会]NVAE: A Deep Hierarchical Variational Autoencoder[DL輪読会]NVAE: A Deep Hierarchical Variational Autoencoder
[DL輪読会]NVAE: A Deep Hierarchical Variational Autoencoder
Deep Learning JP
?
SSII2019企画: 点群深層学習の研究動向
SSII2019企画: 点群深層学習の研究動向SSII2019企画: 点群深層学習の研究動向
SSII2019企画: 点群深層学習の研究動向
SSII
?
蝉肠颈办颈迟-濒别补谤苍を用いた机械学习チュートリアル
蝉肠颈办颈迟-濒别补谤苍を用いた机械学习チュートリアル蝉肠颈办颈迟-濒别补谤苍を用いた机械学习チュートリアル
蝉肠颈办颈迟-濒别补谤苍を用いた机械学习チュートリアル
敦志 金谷
?
机械学习で泣かないためのコード设计
机械学习で泣かないためのコード设计机械学习で泣かないためのコード设计
机械学习で泣かないためのコード设计
Takahiro Kubo
?

Similar to WSDM2018 読み会 Latent cross making use of context in recurrent recommender systems.slide (20)

Combining long short term memory and convolutional neural network for cross s...
Combining long short term memory and convolutional neural network for cross s...Combining long short term memory and convolutional neural network for cross s...
Combining long short term memory and convolutional neural network for cross s...
RI
?
[DL輪読会]Abstractive Summarization of Reddit Posts with Multi-level Memory Netw...
[DL輪読会]Abstractive Summarization of Reddit Posts with Multi-level Memory Netw...[DL輪読会]Abstractive Summarization of Reddit Posts with Multi-level Memory Netw...
[DL輪読会]Abstractive Summarization of Reddit Posts with Multi-level Memory Netw...
Deep Learning JP
?
Paper: seq2seq 20190320
Paper: seq2seq 20190320Paper: seq2seq 20190320
Paper: seq2seq 20190320
Yusuke Fujimoto
?
効率的学習 / Efficient Training(メタサーベイ)
効率的学習 / Efficient Training(メタサーベイ)効率的学習 / Efficient Training(メタサーベイ)
効率的学習 / Efficient Training(メタサーベイ)
cvpaper. challenge
?
Interop2017
Interop2017Interop2017
Interop2017
tak9029
?
TensorFlow math ja 05 word2vec
TensorFlow math ja 05 word2vecTensorFlow math ja 05 word2vec
TensorFlow math ja 05 word2vec
Shin Asakawa
?
Creating and Using Links between Data Objects
Creating and Using Links between Data ObjectsCreating and Using Links between Data Objects
Creating and Using Links between Data Objects
Mitsuo Yamamoto
?
【文献紹介】Automatic community creation for abstractive spoken conversation summar...
【文献紹介】Automatic community creation for abstractive spoken conversation summar...【文献紹介】Automatic community creation for abstractive spoken conversation summar...
【文献紹介】Automatic community creation for abstractive spoken conversation summar...
Takashi YAMAMURA
?
分散表现を用いたリアルタイム学习型セッションベース推荐システム
分散表现を用いたリアルタイム学习型セッションベース推荐システム分散表现を用いたリアルタイム学习型セッションベース推荐システム
分散表现を用いたリアルタイム学习型セッションベース推荐システム
Okamoto Laboratory, The University of Electro-Communications
?
Deep learning を用いた画像から説明文の自動生成に関する研究の紹介
Deep learning を用いた画像から説明文の自動生成に関する研究の紹介Deep learning を用いた画像から説明文の自動生成に関する研究の紹介
Deep learning を用いた画像から説明文の自動生成に関する研究の紹介
株式会社メタップスホールディングス
?
論文輪読(Effective LSTMs for Target-Dependent Sentiment Classification, Duyu Tang...
論文輪読(Effective LSTMs for Target-Dependent Sentiment Classification, Duyu Tang...論文輪読(Effective LSTMs for Target-Dependent Sentiment Classification, Duyu Tang...
論文輪読(Effective LSTMs for Target-Dependent Sentiment Classification, Duyu Tang...
Masatoshi Kurihara
?
ACL 2015 読み会 @ 小町研 "Gated Recursive Neural Network for Chinese Word Segmentat...
ACL 2015 読み会 @ 小町研 "Gated Recursive Neural Network for Chinese Word Segmentat...ACL 2015 読み会 @ 小町研 "Gated Recursive Neural Network for Chinese Word Segmentat...
ACL 2015 読み会 @ 小町研 "Gated Recursive Neural Network for Chinese Word Segmentat...
Yuki Tomo
?
ICCV 2019 論文紹介 (26 papers)
ICCV 2019 論文紹介 (26 papers)ICCV 2019 論文紹介 (26 papers)
ICCV 2019 論文紹介 (26 papers)
Hideki Okada
?
20190604 aws well-architected_tool_seminar_detail
20190604 aws well-architected_tool_seminar_detail20190604 aws well-architected_tool_seminar_detail
20190604 aws well-architected_tool_seminar_detail
Yoshii Ryo
?
Pfi last seminar
Pfi last seminarPfi last seminar
Pfi last seminar
Hidekazu Oiwa
?
仮想化とシステムソフトウェア研究
仮想化とシステムソフトウェア研究仮想化とシステムソフトウェア研究
仮想化とシステムソフトウェア研究
Kazuhiko Kato
?
顿尝フレームワーク颁丑补颈苍别谤の绍介と分散深层强化学习によるロボット制御
顿尝フレームワーク颁丑补颈苍别谤の绍介と分散深层强化学习によるロボット制御顿尝フレームワーク颁丑补颈苍别谤の绍介と分散深层强化学习によるロボット制御
顿尝フレームワーク颁丑补颈苍别谤の绍介と分散深层强化学习によるロボット制御
Ryosuke Okuta
?
画像認識モデルを自動的に作る。1日以内に。~Simple And Efficient Architecture Search for Convolutio...
画像認識モデルを自動的に作る。1日以内に。~Simple And Efficient Architecture Search for Convolutio...画像認識モデルを自動的に作る。1日以内に。~Simple And Efficient Architecture Search for Convolutio...
画像認識モデルを自動的に作る。1日以内に。~Simple And Efficient Architecture Search for Convolutio...
Takahiro Kubo
?
Combining long short term memory and convolutional neural network for cross s...
Combining long short term memory and convolutional neural network for cross s...Combining long short term memory and convolutional neural network for cross s...
Combining long short term memory and convolutional neural network for cross s...
RI
?
[DL輪読会]Abstractive Summarization of Reddit Posts with Multi-level Memory Netw...
[DL輪読会]Abstractive Summarization of Reddit Posts with Multi-level Memory Netw...[DL輪読会]Abstractive Summarization of Reddit Posts with Multi-level Memory Netw...
[DL輪読会]Abstractive Summarization of Reddit Posts with Multi-level Memory Netw...
Deep Learning JP
?
効率的学習 / Efficient Training(メタサーベイ)
効率的学習 / Efficient Training(メタサーベイ)効率的学習 / Efficient Training(メタサーベイ)
効率的学習 / Efficient Training(メタサーベイ)
cvpaper. challenge
?
Interop2017
Interop2017Interop2017
Interop2017
tak9029
?
TensorFlow math ja 05 word2vec
TensorFlow math ja 05 word2vecTensorFlow math ja 05 word2vec
TensorFlow math ja 05 word2vec
Shin Asakawa
?
Creating and Using Links between Data Objects
Creating and Using Links between Data ObjectsCreating and Using Links between Data Objects
Creating and Using Links between Data Objects
Mitsuo Yamamoto
?
【文献紹介】Automatic community creation for abstractive spoken conversation summar...
【文献紹介】Automatic community creation for abstractive spoken conversation summar...【文献紹介】Automatic community creation for abstractive spoken conversation summar...
【文献紹介】Automatic community creation for abstractive spoken conversation summar...
Takashi YAMAMURA
?
論文輪読(Effective LSTMs for Target-Dependent Sentiment Classification, Duyu Tang...
論文輪読(Effective LSTMs for Target-Dependent Sentiment Classification, Duyu Tang...論文輪読(Effective LSTMs for Target-Dependent Sentiment Classification, Duyu Tang...
論文輪読(Effective LSTMs for Target-Dependent Sentiment Classification, Duyu Tang...
Masatoshi Kurihara
?
ACL 2015 読み会 @ 小町研 "Gated Recursive Neural Network for Chinese Word Segmentat...
ACL 2015 読み会 @ 小町研 "Gated Recursive Neural Network for Chinese Word Segmentat...ACL 2015 読み会 @ 小町研 "Gated Recursive Neural Network for Chinese Word Segmentat...
ACL 2015 読み会 @ 小町研 "Gated Recursive Neural Network for Chinese Word Segmentat...
Yuki Tomo
?
ICCV 2019 論文紹介 (26 papers)
ICCV 2019 論文紹介 (26 papers)ICCV 2019 論文紹介 (26 papers)
ICCV 2019 論文紹介 (26 papers)
Hideki Okada
?
20190604 aws well-architected_tool_seminar_detail
20190604 aws well-architected_tool_seminar_detail20190604 aws well-architected_tool_seminar_detail
20190604 aws well-architected_tool_seminar_detail
Yoshii Ryo
?
仮想化とシステムソフトウェア研究
仮想化とシステムソフトウェア研究仮想化とシステムソフトウェア研究
仮想化とシステムソフトウェア研究
Kazuhiko Kato
?
顿尝フレームワーク颁丑补颈苍别谤の绍介と分散深层强化学习によるロボット制御
顿尝フレームワーク颁丑补颈苍别谤の绍介と分散深层强化学习によるロボット制御顿尝フレームワーク颁丑补颈苍别谤の绍介と分散深层强化学习によるロボット制御
顿尝フレームワーク颁丑补颈苍别谤の绍介と分散深层强化学习によるロボット制御
Ryosuke Okuta
?
画像認識モデルを自動的に作る。1日以内に。~Simple And Efficient Architecture Search for Convolutio...
画像認識モデルを自動的に作る。1日以内に。~Simple And Efficient Architecture Search for Convolutio...画像認識モデルを自動的に作る。1日以内に。~Simple And Efficient Architecture Search for Convolutio...
画像認識モデルを自動的に作る。1日以内に。~Simple And Efficient Architecture Search for Convolutio...
Takahiro Kubo
?

More from Takanori Nakai (18)

Sentence-State LSTM for Text Representation
Sentence-State LSTM for Text RepresentationSentence-State LSTM for Text Representation
Sentence-State LSTM for Text Representation
Takanori Nakai
?
ICLR2017読み会 Data Noising as Smoothing in Neural Network Language Models @Dena
ICLR2017読み会 Data Noising as Smoothing in Neural Network Language Models @DenaICLR2017読み会 Data Noising as Smoothing in Neural Network Language Models @Dena
ICLR2017読み会 Data Noising as Smoothing in Neural Network Language Models @Dena
Takanori Nakai
?
Note : Noise constastive estimation of unnormalized statictics methods
Note : Noise constastive estimation of unnormalized statictics methodsNote : Noise constastive estimation of unnormalized statictics methods
Note : Noise constastive estimation of unnormalized statictics methods
Takanori Nakai
?
Adaptive subgradient methods for online learning and stochastic optimization ...
Adaptive subgradient methods for online learning and stochastic optimization ...Adaptive subgradient methods for online learning and stochastic optimization ...
Adaptive subgradient methods for online learning and stochastic optimization ...
Takanori Nakai
?
GBDTを使ったfeature transformationの適用例
GBDTを使ったfeature transformationの適用例GBDTを使ったfeature transformationの適用例
GBDTを使ったfeature transformationの適用例
Takanori Nakai
?
Learning Better Embeddings for Rare Words Using Distributional Representations
Learning Better Embeddings for Rare Words Using Distributional RepresentationsLearning Better Embeddings for Rare Words Using Distributional Representations
Learning Better Embeddings for Rare Words Using Distributional Representations
Takanori Nakai
?
Preference-oriented Social Networks_Group Recommendation and Inference
Preference-oriented Social Networks_Group Recommendation and InferencePreference-oriented Social Networks_Group Recommendation and Inference
Preference-oriented Social Networks_Group Recommendation and Inference
Takanori Nakai
?
高次元データの统计:スパース正则化の近似误差と推定误差
高次元データの统计:スパース正则化の近似误差と推定误差高次元データの统计:スパース正则化の近似误差と推定误差
高次元データの统计:スパース正则化の近似误差と推定误差
Takanori Nakai
?
Analysis of Learning from Positive and Unlabeled Data
Analysis of Learning from Positive and Unlabeled DataAnalysis of Learning from Positive and Unlabeled Data
Analysis of Learning from Positive and Unlabeled Data
Takanori Nakai
?
Positive Unlabeled Learning for Deceptive Reviews Detection
Positive Unlabeled Learning for Deceptive Reviews DetectionPositive Unlabeled Learning for Deceptive Reviews Detection
Positive Unlabeled Learning for Deceptive Reviews Detection
Takanori Nakai
?
Modeling Mass Protest Adoption in Social Network Communities using Geometric ...
Modeling Mass Protest Adoption in Social Network Communities using Geometric ...Modeling Mass Protest Adoption in Social Network Communities using Geometric ...
Modeling Mass Protest Adoption in Social Network Communities using Geometric ...
Takanori Nakai
?
Similarity component analysis
Similarity component analysisSimilarity component analysis
Similarity component analysis
Takanori Nakai
?
Query driven context aware recommendation
Query driven context aware recommendationQuery driven context aware recommendation
Query driven context aware recommendation
Takanori Nakai
?
Unsupervised Graph-based Topic Labelling using DBpedia
Unsupervised Graph-based Topic Labelling using DBpediaUnsupervised Graph-based Topic Labelling using DBpedia
Unsupervised Graph-based Topic Labelling using DBpedia
Takanori Nakai
?
Psychological Advertising_Exploring User Psychology for Click Prediction in S...
Psychological Advertising_Exploring User Psychology for Click Prediction in S...Psychological Advertising_Exploring User Psychology for Click Prediction in S...
Psychological Advertising_Exploring User Psychology for Click Prediction in S...
Takanori Nakai
?
笔鲍颁碍モデルの适用例:修论を仕上げた后、个人的にやっていたリサーチ
笔鲍颁碍モデルの适用例:修论を仕上げた后、个人的にやっていたリサーチ笔鲍颁碍モデルの适用例:修论を仕上げた后、个人的にやっていたリサーチ
笔鲍颁碍モデルの适用例:修论を仕上げた后、个人的にやっていたリサーチ
Takanori Nakai
?
金利期間構造について:Forward Martingale Measureの導出
金利期間構造について:Forward Martingale Measureの導出金利期間構造について:Forward Martingale Measureの導出
金利期間構造について:Forward Martingale Measureの導出
Takanori Nakai
?
Topic discovery through data dependent and random projections
Topic discovery through data dependent and random projectionsTopic discovery through data dependent and random projections
Topic discovery through data dependent and random projections
Takanori Nakai
?
Sentence-State LSTM for Text Representation
Sentence-State LSTM for Text RepresentationSentence-State LSTM for Text Representation
Sentence-State LSTM for Text Representation
Takanori Nakai
?
ICLR2017読み会 Data Noising as Smoothing in Neural Network Language Models @Dena
ICLR2017読み会 Data Noising as Smoothing in Neural Network Language Models @DenaICLR2017読み会 Data Noising as Smoothing in Neural Network Language Models @Dena
ICLR2017読み会 Data Noising as Smoothing in Neural Network Language Models @Dena
Takanori Nakai
?
Note : Noise constastive estimation of unnormalized statictics methods
Note : Noise constastive estimation of unnormalized statictics methodsNote : Noise constastive estimation of unnormalized statictics methods
Note : Noise constastive estimation of unnormalized statictics methods
Takanori Nakai
?
Adaptive subgradient methods for online learning and stochastic optimization ...
Adaptive subgradient methods for online learning and stochastic optimization ...Adaptive subgradient methods for online learning and stochastic optimization ...
Adaptive subgradient methods for online learning and stochastic optimization ...
Takanori Nakai
?
GBDTを使ったfeature transformationの適用例
GBDTを使ったfeature transformationの適用例GBDTを使ったfeature transformationの適用例
GBDTを使ったfeature transformationの適用例
Takanori Nakai
?
Learning Better Embeddings for Rare Words Using Distributional Representations
Learning Better Embeddings for Rare Words Using Distributional RepresentationsLearning Better Embeddings for Rare Words Using Distributional Representations
Learning Better Embeddings for Rare Words Using Distributional Representations
Takanori Nakai
?
Preference-oriented Social Networks_Group Recommendation and Inference
Preference-oriented Social Networks_Group Recommendation and InferencePreference-oriented Social Networks_Group Recommendation and Inference
Preference-oriented Social Networks_Group Recommendation and Inference
Takanori Nakai
?
高次元データの统计:スパース正则化の近似误差と推定误差
高次元データの统计:スパース正则化の近似误差と推定误差高次元データの统计:スパース正则化の近似误差と推定误差
高次元データの统计:スパース正则化の近似误差と推定误差
Takanori Nakai
?
Analysis of Learning from Positive and Unlabeled Data
Analysis of Learning from Positive and Unlabeled DataAnalysis of Learning from Positive and Unlabeled Data
Analysis of Learning from Positive and Unlabeled Data
Takanori Nakai
?
Positive Unlabeled Learning for Deceptive Reviews Detection
Positive Unlabeled Learning for Deceptive Reviews DetectionPositive Unlabeled Learning for Deceptive Reviews Detection
Positive Unlabeled Learning for Deceptive Reviews Detection
Takanori Nakai
?
Modeling Mass Protest Adoption in Social Network Communities using Geometric ...
Modeling Mass Protest Adoption in Social Network Communities using Geometric ...Modeling Mass Protest Adoption in Social Network Communities using Geometric ...
Modeling Mass Protest Adoption in Social Network Communities using Geometric ...
Takanori Nakai
?
Similarity component analysis
Similarity component analysisSimilarity component analysis
Similarity component analysis
Takanori Nakai
?
Query driven context aware recommendation
Query driven context aware recommendationQuery driven context aware recommendation
Query driven context aware recommendation
Takanori Nakai
?
Unsupervised Graph-based Topic Labelling using DBpedia
Unsupervised Graph-based Topic Labelling using DBpediaUnsupervised Graph-based Topic Labelling using DBpedia
Unsupervised Graph-based Topic Labelling using DBpedia
Takanori Nakai
?
Psychological Advertising_Exploring User Psychology for Click Prediction in S...
Psychological Advertising_Exploring User Psychology for Click Prediction in S...Psychological Advertising_Exploring User Psychology for Click Prediction in S...
Psychological Advertising_Exploring User Psychology for Click Prediction in S...
Takanori Nakai
?
笔鲍颁碍モデルの适用例:修论を仕上げた后、个人的にやっていたリサーチ
笔鲍颁碍モデルの适用例:修论を仕上げた后、个人的にやっていたリサーチ笔鲍颁碍モデルの适用例:修论を仕上げた后、个人的にやっていたリサーチ
笔鲍颁碍モデルの适用例:修论を仕上げた后、个人的にやっていたリサーチ
Takanori Nakai
?
金利期間構造について:Forward Martingale Measureの導出
金利期間構造について:Forward Martingale Measureの導出金利期間構造について:Forward Martingale Measureの導出
金利期間構造について:Forward Martingale Measureの導出
Takanori Nakai
?
Topic discovery through data dependent and random projections
Topic discovery through data dependent and random projectionsTopic discovery through data dependent and random projections
Topic discovery through data dependent and random projections
Takanori Nakai
?

WSDM2018 読み会 Latent cross making use of context in recurrent recommender systems.slide

  • 1. Latent Cross: Making Use of Context in Recurrent Recommender Systems by Alex Beutel, etc 担当: @Quasi_quant2010 WSDM2018読み会1 【WSDM2018読み会】
  • 2. 概要 - コンテキストは結合せずattentionとして扱う - ? 行列分解系の予測をNNで近似する ? 変数間の相互作用について、明示的に相関関係を与えない設定 でNNはデータから相互作用を学習するのか ? 埋め込みベクトルの結合以外で予測を高める仕組みは? ? Latent Crossを提案 ? 提案手法を考えた背景 ? コンテキストを単純に結合した埋め込みベクトルを用いるとモデルサ イズが大きくなるので非効率 ? コンテキストを主たる特徴量を調整する情報源と捉える ? 主たる特徴量の埋め込みベクトル(x)とコンテキストの埋め込みベクトル (c)の要素積をとる。つまり、xにcというattentionを作用させる ? 操作自体はノイズ処理に対応 WSDM2018読み会2
  • 3. 実験① - 行列分解系の予測をNNで近似する - ? 行列分解系 ? Matrix Factorization : 2変数間の相関 ? ???????????? = < ??, ?? > ? Tensor Factorization : 3変数間の相関 ? ????????????? = < ??, ??, ?? > ? NNでもPredictionを予測する ? 行列分解系の予測を近似するとは、異なるモデル(行列分解系? NN)で同じ値(Prediction)を予測 ? 行列分解系は2 or 3変数間の相関を通じ相互作用を加味 ? NNで行列分解系と同程度の予測ができれば、 NNが変数間の 相互作用を学習できていると解釈する WSDM2018読み会3
  • 4. 実験① - 行列分解系の予測をNNで近似する - ? m個特徴量をN回レコードとして観測する ? デザイン行列 : m * N ? ただし、m個が各々独立した特徴量とは限らない ? 独立した特徴量を見つけたいという行列分解系の動機がある ? あらかじめランクr(<m)と分かっている状況で、 NNは行列分解系の予測結果を再現できるか ? データ:m * H * N ? m:特徴量の種類, H:埋め込みベクトルの次元, N:レコード数 ? 再現するにはどのようなパラメータが必要か ? 本検証では隠れ層1層で幅CのNNを検証モデルとする ? 埋め込みベクトルのサイズについて試行実験をし、サイズの大小 によって結果はあまり変わらなかった4 ? ~ ?(0, 1/?1/2? ?)
  • 5. 実験① - 検証モデル : 隠れ層1?幅CのNN - ? Input Layer ? ??? × ?? ej : one-hot ? Hidden Layer ? Activation : ReLU ? ? ? = ? ? ?; ? + ? ? 結合したあとReLUを通じ相互 作用を獲得するらしい ? Transform and Aggregation ? ? = ?=1 ? ? ? ? ? ? Ouput Layer ? ? = ???????(???? ? + ?) ? Reference ? Split, Transform, and Aggregation are based on [Xie.S]WSDM2018読み会5 Activati on 1 Activati on 2 Activati on C Input Layer Output Layer split transform aggregation
  • 6. 実験① - NNが変数間の相互作用を学習したと解釈- ? 結果 ? ランク数一定で特徴量(m)が2から3に増えたとき、行列分解と同 等の性能を出すために、幅が4倍(=20/5)必要 ? 独立な特徴量が1で観測特徴量が2の場合を指す。つまり、 不必要な特徴量が多い場合、各隠れ層の幅を大きくとる必要がある ? 特徴量一定でランク数が1から2に増えたとき、行列分解と同等の 性能を出すために、幅が3倍(=30/10)必要 ? 観測した特徴量の内、 独立成分がより多い場合も各隠れ層の幅を大きくとる必要がある WSDM2018読み会6 引用[Beutel.A, etc]
  • 7. 問題設定 - 動画推薦タスク - ? データ ? 各ユーザーの動画視聴履歴をセッションとして保持 ? セッションは30分とかではなく、全セッションを繋げたものだと思われる ? 言語モデルで言えば単語が動画IDに対応 ? その他に、コンテキストとして以下のデータがある ? 直前見終わった時間と見始める時間間隔 ? デバイスタイプ(iOS, Android,etc) ? Referer:ユーザーが自発的に流入したかレコメンドから流入したか ? 予測値:動画ID ? 前処理 ? 5Mの人気動画のみを計算対象 ? 少なくともセッション中、50種類の動画をみているユーザに限る 7
  • 8. Simple Technique for RNN - コンテキストを結合せずattentionとして扱う - ? 実験①から、不必要な特徴量が多い場合、各隠れ層の幅 を大きくとる必要がある ? 例えばRNNの隠れ層に幅を導入することも可能ではあるが、モデ ルサイズが肥大することが実験①から分かる ? コンテキストは種類が多くなる傾向があり、結合でない観点から新 たな計算方法(それがLatentCross)を考える必要がある ? 本論文では以下のような調整(LatentCross)を行う ? ? = 1 + ?=1 ? ? ? ? ? ? h : 隠れ層の埋め込みベクトル ? ac : c-thコンテキストの埋め込みベクトル ? 結合する場合、?(? ?; ? ?; ? ? … ; ? ? + ?)とかになる WSDM2018読み会8
  • 9. Proposed Model - アーキテクチャ - ? 通常のRNNと異なる点 ? : LatentCross(LC) ? LCを作用させた埋め込みベク トルを一旦ReLU入れる ? 実験①より、ReLUを通すことで 、NNが変数間の相互作用を 学習すると解釈する ? 入力層 : Pre-fusionと呼ぶ ? 出力層 : Post-fusionと呼ぶ ? Pre-fusion ? 隠れ状態に影響を与える ? Post-fusion ? 予測に影響を与える WSDM2018読み会9 Input Layer LSTM ReLU ReLU Output Layer
  • 10. 実験② - ProposedModel vs SOTA - ? RNNwithConcatenated < RNNwithLC ? RNNwithoutConcatenated < RNNwithConcatenated WSDM2018読み会10 引用[Beutel.A, etc]
  • 11. 実験③ - ProposedModel with various context - ? 実験②より提案モデルがSOTAより性能が高い ? ただし、使用したコンテキストは時間のみ ? よって、より多くのコンテキストを使用する事で予測性能が向 上するかを追加実験 ? 追加実験① ? コンテキストを時間からリファラーに変更 ? 追加実験② ? Pre-fusion ? 時間間隔?リファラー ? Post-fusion ? デバイス?リファラー WSDM2018読み会11
  • 12. 実験③?① - コンテキストを時間間隔からリファラーへ変更 - ? 結合したRNNよりもLatenCrossしたRNNの方が高い性能 ? ただ、ほとんど変わらないともいえる ? もしRNN with LatenCrossの方が安定してパラメータを推 定出来るならgood news ? 実際はよくわならない??? WSDM2018読み会12
  • 13. 実験③?② - 使えるコンテキスト全てを使用 - ? 全てもコンテキストを結合した場合よりもLatenCrossの方が 、実験③?①と比べ性能差が高い WSDM2018読み会13
  • 14. 感想 - 変数間相互作用とノイズ処理をNNで - ? NNが変数の相互作用を学習するか ? 行列分解系の予測をNNで再現出来れば分からなくもない ? ノイズ処理 ? LatentCrossの背景 ? モデルサイズの効率性という点もあろうが、隠れ層の埋め込みを調整し、ノ イズ処理をしたいんだろう ? Pre(Post)-fusionは、明示的なノイズ処理 ? CNNでノイズ処理を行い、RNNの入力とする最近の流行を連想する ? 筆者はこれにより変数間相互作用を獲得できると主張しているが ? ノイズ処理についてはCNN+RNN との比較実験をした方がよいのでは WSDM2018読み会14
  • 15. 参考文献 ? [Beutel.A, etc] Latent Cross : Making Use of Context in Recurrent Recommender Systems, WSDM 2018 ? [Xie.S, etc] Aggregated Residual Transformations for Deep Neural Networks, arXiv:1611.05431 WSDM2018読み会15