狠狠撸

狠狠撸Share a Scribd company logo
Sentence-State LSTM for Text
Representation
by Y.Zhang etc
担当: @Quasi_quant2010
ACL2018読み会1
【ACL2018読み会】
本論文を読んだ動機
- どの様にセンテンスをベクトル表現すれば良いか -
? センテンスを単語系列と考えてRNN
? 本論文でのベースライン(BiLSTM)
? 本論文でのベースライン(BiLSTM + Attention)
? センテンスから局所情報をCNNで獲得して、group by
? 本論文でのベースライン(CNN)
? パラグラフをセンテンス系列?センテンスを単語系列と考えて
階層RNN
? Query Suggestionを構築する際、ユーザー毎のセッションデータ
を作り、階層構造を入れたencoder-decoderが有名
? 上記以外に、センテンス内の係受け情報や項構造を付加す
ることも考えられる
ACL2018読み会2
概要
- パラグラフ方向にLSTMを適用 -
? パラグラフをセンテンス系列?センテンスを単語系列と考えて
センテンスをグローバル特徴量?単語をローカル特徴量と考え
パラグラフ方向にLSTMを適用した
? h(t,i) : i-thの単語の隠れベクトル表現 at t-th センテンス
? i = 1,…,n t = 1,…,T
? n : t-thのセンテンスに含まれる単語数
? T : パラグラフがT個のセンテンスを持つ
? g(t) : ベクトル表現 at t-th センテンス
? t番目とt+1番目のセンテンスのアライメントは考慮しない
? 学習時には、センテンスのidリストを一様乱数からサンプリング
ACL2018読み会3
アイディア①
- 単語(ローカル特徴量)の更新方法 -
ACL2018読み会4
wi-1, t wi , t wi+1 , t
wi-1,t-1 wi ,t-1 wi+1,t-1
Word
Embedding(t-1)
Hidden
Embedding(t-1)
Sentence
Embedding(t-1)
Word
Embedding(t)
Hidden
Embedding(t)
h(t,i)
g(t-1,i)
h(t-1,i-1) h(t-1,i) h(t-1,i+1)
アイディア②
- センテンス(グローバル特徴量)の隠れベクトルの更新方法 -
ACL2018読み会5
w0, t-1 w1,t-1 wn+1,t+1
Sentence
Embedding(t-1)
Word
Embedding(t-1)
wi,t
Hidden
Embedding(t-1)
Word
Embedding(t)
Hidden
Embedding(t-1)
Sentence
Embedding(t)
???
???
g(t,i)
g(t-1,i)
h(t-1,0) h(t-1,1) h(t-1,n+1)
イメージ
ACL2018読み会6
問題設定
- センテンス分類 -
? センテンスがあるトピックに属するか否かの教師データを用意
? Text Classification(Liu, etc, 2017)
? 評価指標はAccuracy
? 前処理 :高頻度単語を削除、未知語は<unk>
? 事前学習 : Glove(300次元)
? NN回り
? Softmax Layer
? センテンスのグローバル特徴量g(t)を使って分類
? Adam Optimizer
? Dropout is 0.5
? Gradient Clipping at 3
? L2 regularization(0.001)
ACL2018読み会7
結果
- 評価値のwindow依存性 -
? TimeStep t は、S-LSTMの時間方向の長さ(エポックではない)
? ローカル特徴量更新時におけるWindowサイズには依存してない
? センテンス分類にはグローバル特徴量が有効。ローカル特徴量単体では相対
比効果がないが、グローバル特徴量にアグリゲーションされると有効
8
結果
- グローバル特徴量を除去した場合の性能 -
? gを除去すると、81.76%(t=11)まで性能が下がる
? gのノードを追加しても性能は変わらなかった
ACL2018読み会9
81.76%
結果
- 16種類のデータセットでの結果 -
? S-LSTMの売りは大きく二つ
? パラグラフ方向にLSTMを走らせる
? t-番目内におけるローカル特徴量の更新は並列化できる
? 学習時に11個センテンスをサンプリングすれば性能が安定するらしい
? S-LSTMとBiLSTMと比べると、短い時間で高い性能
? パラグラフ方向にLSTMを走らせるため、CNNを使った場合
よりは時間がかかる
ACL2018読み会10
考察
- センテンス間のアライメントを考えなくてよいのか -
? センテンス間の関係(アライメント)を考えなくてよいのか
? 学習時のセンテンスサンプリングの方法
? 例えば100個のラベル付センテンスがある
? 公開コードでは、ここから幾つかのセンテンスをランダムサンプリング
? つまり、tとt+1番目のセンテンスの関係を考慮していない
? 例えば、検索のセッションデータを考える
? あるユーザーのセッション/dayを一か月持つとする
? するとセッション/day内のレコードはマルチインテントとなっている
? さらに、t日目とt+1日目のセッションは不連続なインテントとなる
? なので、 t日目のセッションデータが与えられた時、t+1日目の最
初の検索クエリをナイーブに予測することは難しい
ACL2018読み会11
考察
- パラメータ推定方法(勾配情報の伝播) -
? S.Hahn, etc
? なぜDropoutが汎化に寄与するのかを経験的に調べた文献
? MnistデータでDropout有り無しの場合を調べた
? 表は特に各レイヤーの勾配の絶対値を平均したもの
? 表(Layer3はOutput Layer)からわかるように、Dropoutがある
ほうが、勾配情報が伝播していることがわかる
? レイヤーに60個と59個のノードがあっても性能は変わらない
? Dropoutの定説
? Dropoutは勾配情報の伝播を促進させる
ACL2018読み会12
考察
- パラメータ推定方法(勾配の加速) -
? Momentum
? Momentum Restart Scheme
? Aggregated Scheme
? 通常のMomentumやNesterov Momentumにより、目
的関数の学習が加速されることはよく知られる
? ただし、Momentumはパイパーパラメタの調整をしないと、
目的関数が振動することも知られている
? [B.O’Donoghue, etc]
? それを防ぐ方法として、上記二つの方法がある
ACL2018読み会13
考察
- Restart Scheme(NAG) -
? 振動する理由は
[B.O’Donoghue, etc]
? モメンタムを微分方程式で表
すと、ある条件では調和振動
子の方程式となる
? 大きく二つのテクニック
? 目的関数が増加したらベータ
をゼロにしてモメンタムを消す
? 加速の方法と勾配の内積が
せいになったらベータをゼロにし
てモメンタムを消す
? 勾配はnegative方向
ACL2018読み会14
考察
- Aggregated Scheme(AggMo) -
? 最適なモメンタムパラメータβを求めるのは難しいので、複数
の係数βで更新したパラメータをアグリゲーション
? そもそも、各FeatureWeightに対して最適なβは異なる
? それを見つけるより、異なるβで求めたパラメータを平均したほ
うが安定する
? [J.Lucas, etc]には、損失関数がconvex+smoothで正則化
項がconvex+non-differentiable、の設定で収束を証明
? 画像分類の例で、ResNetを各Optimizerで精度比較
? 言語モデルの例で、LSTMを各Optimizerで精度比較
ACL2018読み会15
考察
- AggMoイケてるかも -
? x,y二種類の変数が与えられた時の最適化問題(Non-Convex)
? (x,y)=(0,0)で最適値をとる目的関数
? βがゼロ (=SGD、青)? NAG(黄色)では、フラットな領域から抜け出せない
? NAG(緑)は最適値を目指すも振動しながらオーバーフィット
? AggMo(赤)はフラットな領域を脱出しつつ、振動することなく最適値へ収束
ACL2018読み会16
参考文献
? Sentence Embedding
? [G.Zhe, etc] Learning Generic Sentence
Representations Using Convolutional Neural
Networks, EMNLP, 2017
? Parameter Estimation
? [S.Hahn, etc] Gradient Acceleration in Activation
Functions, arXiv, 1806.09783v1, 2018
? [B.O’Donoghue, etc] Adaptive Restart for
Accelerated Gradient Schemes, JFCM, vol15(3),
p715-732, 2015
? [J.Lucas, etc], Aggregated Momentum_Stability
Through Passive Damping, arXiv, 1804.00325v1,
2018
ACL2018読み会17

More Related Content

What's hot (19)

[DL輪読会]AdaShare: Learning What To Share For Efficient Deep Multi-Task Learning
[DL輪読会]AdaShare: Learning What To Share For Efficient Deep Multi-Task Learning[DL輪読会]AdaShare: Learning What To Share For Efficient Deep Multi-Task Learning
[DL輪読会]AdaShare: Learning What To Share For Efficient Deep Multi-Task Learning
Deep Learning JP
?
Dl hacks paperreading_20150527
Dl hacks paperreading_20150527Dl hacks paperreading_20150527
Dl hacks paperreading_20150527
Makoto Kawano
?
Minimally Supervised Classification to Semantic Categories using Automaticall...
Minimally Supervised Classification to Semantic Categories using Automaticall...Minimally Supervised Classification to Semantic Categories using Automaticall...
Minimally Supervised Classification to Semantic Categories using Automaticall...
sakaizawa
?
Distributed Representations of Sentences and Documents
Distributed Representations of Sentences and DocumentsDistributed Representations of Sentences and Documents
Distributed Representations of Sentences and Documents
sakaizawa
?
ディープラーニングゼミ TensorFlowで学ぶ理論と実践
ディープラーニングゼミ TensorFlowで学ぶ理論と実践ディープラーニングゼミ TensorFlowで学ぶ理論と実践
ディープラーニングゼミ TensorFlowで学ぶ理論と実践
Yota Ishida
?
輪読資料 Xception: Deep Learning with Depthwise Separable Convolutions
輪読資料 Xception: Deep Learning with Depthwise Separable Convolutions輪読資料 Xception: Deep Learning with Depthwise Separable Convolutions
輪読資料 Xception: Deep Learning with Depthwise Separable Convolutions
Kotaro Asami
?
2016word embbed
2016word embbed2016word embbed
2016word embbed
Shin Asakawa
?
[DL輪読会]Xception: Deep Learning with Depthwise Separable Convolutions
[DL輪読会]Xception: Deep Learning with Depthwise Separable Convolutions[DL輪読会]Xception: Deep Learning with Depthwise Separable Convolutions
[DL輪読会]Xception: Deep Learning with Depthwise Separable Convolutions
Deep Learning JP
?
TensorFlow math ja 05 word2vec
TensorFlow math ja 05 word2vecTensorFlow math ja 05 word2vec
TensorFlow math ja 05 word2vec
Shin Asakawa
?
NIPS2015読み会: Ladder Networks
NIPS2015読み会: Ladder NetworksNIPS2015読み会: Ladder Networks
NIPS2015読み会: Ladder Networks
Eiichi Matsumoto
?
惭虫苍别迟によるテ?ーフ?ラーニンク?て?セミの抜け殻を识别する
惭虫苍别迟によるテ?ーフ?ラーニンク?て?セミの抜け殻を识别する惭虫苍别迟によるテ?ーフ?ラーニンク?て?セミの抜け殻を识别する
惭虫苍别迟によるテ?ーフ?ラーニンク?て?セミの抜け殻を识别する
dokechin
?
Learning sparse neural networks through L0 regularization
Learning sparse neural networks through L0 regularizationLearning sparse neural networks through L0 regularization
Learning sparse neural networks through L0 regularization
周平 合田
?
論文輪読(Effective LSTMs for Target-Dependent Sentiment Classification, Duyu Tang...
論文輪読(Effective LSTMs for Target-Dependent Sentiment Classification, Duyu Tang...論文輪読(Effective LSTMs for Target-Dependent Sentiment Classification, Duyu Tang...
論文輪読(Effective LSTMs for Target-Dependent Sentiment Classification, Duyu Tang...
Masatoshi Kurihara
?
2015 08 survey
2015 08 survey2015 08 survey
2015 08 survey
marujirou
?
ACL 2015 読み会 @ 小町研 "Gated Recursive Neural Network for Chinese Word Segmentat...
ACL 2015 読み会 @ 小町研 "Gated Recursive Neural Network for Chinese Word Segmentat...ACL 2015 読み会 @ 小町研 "Gated Recursive Neural Network for Chinese Word Segmentat...
ACL 2015 読み会 @ 小町研 "Gated Recursive Neural Network for Chinese Word Segmentat...
Yuki Tomo
?
[DL Hacks]Model-Agnostic Meta-Learning for Fast Adaptation of Deep Network
[DL Hacks]Model-Agnostic Meta-Learning for Fast Adaptation of Deep Network[DL Hacks]Model-Agnostic Meta-Learning for Fast Adaptation of Deep Network
[DL Hacks]Model-Agnostic Meta-Learning for Fast Adaptation of Deep Network
Deep Learning JP
?
深层学习(讲谈社)のまとめ 第7章
深层学习(讲谈社)のまとめ 第7章深层学习(讲谈社)のまとめ 第7章
深层学习(讲谈社)のまとめ 第7章
okku apot
?
Learning Composition Models for Phrase Embeddings
Learning Composition Models for Phrase EmbeddingsLearning Composition Models for Phrase Embeddings
Learning Composition Models for Phrase Embeddings
Sho Takase
?
文献紹介:SemEval-2012 Task 1: English Lexical Simplification
文献紹介:SemEval-2012 Task 1: English Lexical Simplification文献紹介:SemEval-2012 Task 1: English Lexical Simplification
文献紹介:SemEval-2012 Task 1: English Lexical Simplification
Tomoyuki Kajiwara
?
[DL輪読会]AdaShare: Learning What To Share For Efficient Deep Multi-Task Learning
[DL輪読会]AdaShare: Learning What To Share For Efficient Deep Multi-Task Learning[DL輪読会]AdaShare: Learning What To Share For Efficient Deep Multi-Task Learning
[DL輪読会]AdaShare: Learning What To Share For Efficient Deep Multi-Task Learning
Deep Learning JP
?
Dl hacks paperreading_20150527
Dl hacks paperreading_20150527Dl hacks paperreading_20150527
Dl hacks paperreading_20150527
Makoto Kawano
?
Minimally Supervised Classification to Semantic Categories using Automaticall...
Minimally Supervised Classification to Semantic Categories using Automaticall...Minimally Supervised Classification to Semantic Categories using Automaticall...
Minimally Supervised Classification to Semantic Categories using Automaticall...
sakaizawa
?
Distributed Representations of Sentences and Documents
Distributed Representations of Sentences and DocumentsDistributed Representations of Sentences and Documents
Distributed Representations of Sentences and Documents
sakaizawa
?
ディープラーニングゼミ TensorFlowで学ぶ理論と実践
ディープラーニングゼミ TensorFlowで学ぶ理論と実践ディープラーニングゼミ TensorFlowで学ぶ理論と実践
ディープラーニングゼミ TensorFlowで学ぶ理論と実践
Yota Ishida
?
輪読資料 Xception: Deep Learning with Depthwise Separable Convolutions
輪読資料 Xception: Deep Learning with Depthwise Separable Convolutions輪読資料 Xception: Deep Learning with Depthwise Separable Convolutions
輪読資料 Xception: Deep Learning with Depthwise Separable Convolutions
Kotaro Asami
?
[DL輪読会]Xception: Deep Learning with Depthwise Separable Convolutions
[DL輪読会]Xception: Deep Learning with Depthwise Separable Convolutions[DL輪読会]Xception: Deep Learning with Depthwise Separable Convolutions
[DL輪読会]Xception: Deep Learning with Depthwise Separable Convolutions
Deep Learning JP
?
TensorFlow math ja 05 word2vec
TensorFlow math ja 05 word2vecTensorFlow math ja 05 word2vec
TensorFlow math ja 05 word2vec
Shin Asakawa
?
NIPS2015読み会: Ladder Networks
NIPS2015読み会: Ladder NetworksNIPS2015読み会: Ladder Networks
NIPS2015読み会: Ladder Networks
Eiichi Matsumoto
?
惭虫苍别迟によるテ?ーフ?ラーニンク?て?セミの抜け殻を识别する
惭虫苍别迟によるテ?ーフ?ラーニンク?て?セミの抜け殻を识别する惭虫苍别迟によるテ?ーフ?ラーニンク?て?セミの抜け殻を识别する
惭虫苍别迟によるテ?ーフ?ラーニンク?て?セミの抜け殻を识别する
dokechin
?
Learning sparse neural networks through L0 regularization
Learning sparse neural networks through L0 regularizationLearning sparse neural networks through L0 regularization
Learning sparse neural networks through L0 regularization
周平 合田
?
論文輪読(Effective LSTMs for Target-Dependent Sentiment Classification, Duyu Tang...
論文輪読(Effective LSTMs for Target-Dependent Sentiment Classification, Duyu Tang...論文輪読(Effective LSTMs for Target-Dependent Sentiment Classification, Duyu Tang...
論文輪読(Effective LSTMs for Target-Dependent Sentiment Classification, Duyu Tang...
Masatoshi Kurihara
?
ACL 2015 読み会 @ 小町研 "Gated Recursive Neural Network for Chinese Word Segmentat...
ACL 2015 読み会 @ 小町研 "Gated Recursive Neural Network for Chinese Word Segmentat...ACL 2015 読み会 @ 小町研 "Gated Recursive Neural Network for Chinese Word Segmentat...
ACL 2015 読み会 @ 小町研 "Gated Recursive Neural Network for Chinese Word Segmentat...
Yuki Tomo
?
[DL Hacks]Model-Agnostic Meta-Learning for Fast Adaptation of Deep Network
[DL Hacks]Model-Agnostic Meta-Learning for Fast Adaptation of Deep Network[DL Hacks]Model-Agnostic Meta-Learning for Fast Adaptation of Deep Network
[DL Hacks]Model-Agnostic Meta-Learning for Fast Adaptation of Deep Network
Deep Learning JP
?
深层学习(讲谈社)のまとめ 第7章
深层学习(讲谈社)のまとめ 第7章深层学习(讲谈社)のまとめ 第7章
深层学习(讲谈社)のまとめ 第7章
okku apot
?
Learning Composition Models for Phrase Embeddings
Learning Composition Models for Phrase EmbeddingsLearning Composition Models for Phrase Embeddings
Learning Composition Models for Phrase Embeddings
Sho Takase
?
文献紹介:SemEval-2012 Task 1: English Lexical Simplification
文献紹介:SemEval-2012 Task 1: English Lexical Simplification文献紹介:SemEval-2012 Task 1: English Lexical Simplification
文献紹介:SemEval-2012 Task 1: English Lexical Simplification
Tomoyuki Kajiwara
?

Similar to Sentence-State LSTM for Text Representation (7)

深層学習フレームワーク Chainer の開発と今後の展開
深層学習フレームワーク Chainer の開発と今後の展開深層学習フレームワーク Chainer の開発と今後の展開
深層学習フレームワーク Chainer の開発と今後の展開
Seiya Tokui
?
【文献紹介】Abstractive Text Summarization Using Sequence-to-Sequence RNNs and Beyond
【文献紹介】Abstractive Text Summarization Using Sequence-to-Sequence RNNs and Beyond【文献紹介】Abstractive Text Summarization Using Sequence-to-Sequence RNNs and Beyond
【文献紹介】Abstractive Text Summarization Using Sequence-to-Sequence RNNs and Beyond
Takashi YAMAMURA
?
深层学习による自然言语処理の研究动向
深层学习による自然言语処理の研究动向深层学习による自然言语処理の研究动向
深层学习による自然言语処理の研究动向
STAIR Lab, Chiba Institute of Technology
?
全力解説!罢谤补苍蝉蹿辞谤尘别谤
全力解説!罢谤补苍蝉蹿辞谤尘别谤全力解説!罢谤补苍蝉蹿辞谤尘别谤
全力解説!罢谤补苍蝉蹿辞谤尘别谤
Arithmer Inc.
?
[DLHacks]Fast and Accurate Entity Recognition with Iterated Dilated Convoluti...
[DLHacks]Fast and Accurate Entity Recognition with Iterated Dilated Convoluti...[DLHacks]Fast and Accurate Entity Recognition with Iterated Dilated Convoluti...
[DLHacks]Fast and Accurate Entity Recognition with Iterated Dilated Convoluti...
Deep Learning JP
?
2021 10-07 kdd2021読み会 uc phrase
2021 10-07 kdd2021読み会 uc phrase2021 10-07 kdd2021読み会 uc phrase
2021 10-07 kdd2021読み会 uc phrase
Tatsuya Shirakawa
?
SASによるインメモリ分散並列処理 レコメンドプロシジャ入門
SASによるインメモリ分散並列処理 レコメンドプロシジャ入門SASによるインメモリ分散並列処理 レコメンドプロシジャ入門
SASによるインメモリ分散並列処理 レコメンドプロシジャ入門
SAS Institute Japan
?
深層学習フレームワーク Chainer の開発と今後の展開
深層学習フレームワーク Chainer の開発と今後の展開深層学習フレームワーク Chainer の開発と今後の展開
深層学習フレームワーク Chainer の開発と今後の展開
Seiya Tokui
?
【文献紹介】Abstractive Text Summarization Using Sequence-to-Sequence RNNs and Beyond
【文献紹介】Abstractive Text Summarization Using Sequence-to-Sequence RNNs and Beyond【文献紹介】Abstractive Text Summarization Using Sequence-to-Sequence RNNs and Beyond
【文献紹介】Abstractive Text Summarization Using Sequence-to-Sequence RNNs and Beyond
Takashi YAMAMURA
?
全力解説!罢谤补苍蝉蹿辞谤尘别谤
全力解説!罢谤补苍蝉蹿辞谤尘别谤全力解説!罢谤补苍蝉蹿辞谤尘别谤
全力解説!罢谤补苍蝉蹿辞谤尘别谤
Arithmer Inc.
?
[DLHacks]Fast and Accurate Entity Recognition with Iterated Dilated Convoluti...
[DLHacks]Fast and Accurate Entity Recognition with Iterated Dilated Convoluti...[DLHacks]Fast and Accurate Entity Recognition with Iterated Dilated Convoluti...
[DLHacks]Fast and Accurate Entity Recognition with Iterated Dilated Convoluti...
Deep Learning JP
?
2021 10-07 kdd2021読み会 uc phrase
2021 10-07 kdd2021読み会 uc phrase2021 10-07 kdd2021読み会 uc phrase
2021 10-07 kdd2021読み会 uc phrase
Tatsuya Shirakawa
?
SASによるインメモリ分散並列処理 レコメンドプロシジャ入門
SASによるインメモリ分散並列処理 レコメンドプロシジャ入門SASによるインメモリ分散並列処理 レコメンドプロシジャ入門
SASによるインメモリ分散並列処理 レコメンドプロシジャ入門
SAS Institute Japan
?

More from Takanori Nakai (17)

ICLR2017読み会 Data Noising as Smoothing in Neural Network Language Models @Dena
ICLR2017読み会 Data Noising as Smoothing in Neural Network Language Models @DenaICLR2017読み会 Data Noising as Smoothing in Neural Network Language Models @Dena
ICLR2017読み会 Data Noising as Smoothing in Neural Network Language Models @Dena
Takanori Nakai
?
Note : Noise constastive estimation of unnormalized statictics methods
Note : Noise constastive estimation of unnormalized statictics methodsNote : Noise constastive estimation of unnormalized statictics methods
Note : Noise constastive estimation of unnormalized statictics methods
Takanori Nakai
?
Adaptive subgradient methods for online learning and stochastic optimization ...
Adaptive subgradient methods for online learning and stochastic optimization ...Adaptive subgradient methods for online learning and stochastic optimization ...
Adaptive subgradient methods for online learning and stochastic optimization ...
Takanori Nakai
?
GBDTを使ったfeature transformationの適用例
GBDTを使ったfeature transformationの適用例GBDTを使ったfeature transformationの適用例
GBDTを使ったfeature transformationの適用例
Takanori Nakai
?
Learning Better Embeddings for Rare Words Using Distributional Representations
Learning Better Embeddings for Rare Words Using Distributional RepresentationsLearning Better Embeddings for Rare Words Using Distributional Representations
Learning Better Embeddings for Rare Words Using Distributional Representations
Takanori Nakai
?
Preference-oriented Social Networks_Group Recommendation and Inference
Preference-oriented Social Networks_Group Recommendation and InferencePreference-oriented Social Networks_Group Recommendation and Inference
Preference-oriented Social Networks_Group Recommendation and Inference
Takanori Nakai
?
高次元データの统计:スパース正则化の近似误差と推定误差
高次元データの统计:スパース正则化の近似误差と推定误差高次元データの统计:スパース正则化の近似误差と推定误差
高次元データの统计:スパース正则化の近似误差と推定误差
Takanori Nakai
?
Analysis of Learning from Positive and Unlabeled Data
Analysis of Learning from Positive and Unlabeled DataAnalysis of Learning from Positive and Unlabeled Data
Analysis of Learning from Positive and Unlabeled Data
Takanori Nakai
?
Positive Unlabeled Learning for Deceptive Reviews Detection
Positive Unlabeled Learning for Deceptive Reviews DetectionPositive Unlabeled Learning for Deceptive Reviews Detection
Positive Unlabeled Learning for Deceptive Reviews Detection
Takanori Nakai
?
Modeling Mass Protest Adoption in Social Network Communities using Geometric ...
Modeling Mass Protest Adoption in Social Network Communities using Geometric ...Modeling Mass Protest Adoption in Social Network Communities using Geometric ...
Modeling Mass Protest Adoption in Social Network Communities using Geometric ...
Takanori Nakai
?
Similarity component analysis
Similarity component analysisSimilarity component analysis
Similarity component analysis
Takanori Nakai
?
Query driven context aware recommendation
Query driven context aware recommendationQuery driven context aware recommendation
Query driven context aware recommendation
Takanori Nakai
?
Unsupervised Graph-based Topic Labelling using DBpedia
Unsupervised Graph-based Topic Labelling using DBpediaUnsupervised Graph-based Topic Labelling using DBpedia
Unsupervised Graph-based Topic Labelling using DBpedia
Takanori Nakai
?
Psychological Advertising_Exploring User Psychology for Click Prediction in S...
Psychological Advertising_Exploring User Psychology for Click Prediction in S...Psychological Advertising_Exploring User Psychology for Click Prediction in S...
Psychological Advertising_Exploring User Psychology for Click Prediction in S...
Takanori Nakai
?
笔鲍颁碍モデルの适用例:修论を仕上げた后、个人的にやっていたリサーチ
笔鲍颁碍モデルの适用例:修论を仕上げた后、个人的にやっていたリサーチ笔鲍颁碍モデルの适用例:修论を仕上げた后、个人的にやっていたリサーチ
笔鲍颁碍モデルの适用例:修论を仕上げた后、个人的にやっていたリサーチ
Takanori Nakai
?
金利期間構造について:Forward Martingale Measureの導出
金利期間構造について:Forward Martingale Measureの導出金利期間構造について:Forward Martingale Measureの導出
金利期間構造について:Forward Martingale Measureの導出
Takanori Nakai
?
Topic discovery through data dependent and random projections
Topic discovery through data dependent and random projectionsTopic discovery through data dependent and random projections
Topic discovery through data dependent and random projections
Takanori Nakai
?
ICLR2017読み会 Data Noising as Smoothing in Neural Network Language Models @Dena
ICLR2017読み会 Data Noising as Smoothing in Neural Network Language Models @DenaICLR2017読み会 Data Noising as Smoothing in Neural Network Language Models @Dena
ICLR2017読み会 Data Noising as Smoothing in Neural Network Language Models @Dena
Takanori Nakai
?
Note : Noise constastive estimation of unnormalized statictics methods
Note : Noise constastive estimation of unnormalized statictics methodsNote : Noise constastive estimation of unnormalized statictics methods
Note : Noise constastive estimation of unnormalized statictics methods
Takanori Nakai
?
Adaptive subgradient methods for online learning and stochastic optimization ...
Adaptive subgradient methods for online learning and stochastic optimization ...Adaptive subgradient methods for online learning and stochastic optimization ...
Adaptive subgradient methods for online learning and stochastic optimization ...
Takanori Nakai
?
GBDTを使ったfeature transformationの適用例
GBDTを使ったfeature transformationの適用例GBDTを使ったfeature transformationの適用例
GBDTを使ったfeature transformationの適用例
Takanori Nakai
?
Learning Better Embeddings for Rare Words Using Distributional Representations
Learning Better Embeddings for Rare Words Using Distributional RepresentationsLearning Better Embeddings for Rare Words Using Distributional Representations
Learning Better Embeddings for Rare Words Using Distributional Representations
Takanori Nakai
?
Preference-oriented Social Networks_Group Recommendation and Inference
Preference-oriented Social Networks_Group Recommendation and InferencePreference-oriented Social Networks_Group Recommendation and Inference
Preference-oriented Social Networks_Group Recommendation and Inference
Takanori Nakai
?
高次元データの统计:スパース正则化の近似误差と推定误差
高次元データの统计:スパース正则化の近似误差と推定误差高次元データの统计:スパース正则化の近似误差と推定误差
高次元データの统计:スパース正则化の近似误差と推定误差
Takanori Nakai
?
Analysis of Learning from Positive and Unlabeled Data
Analysis of Learning from Positive and Unlabeled DataAnalysis of Learning from Positive and Unlabeled Data
Analysis of Learning from Positive and Unlabeled Data
Takanori Nakai
?
Positive Unlabeled Learning for Deceptive Reviews Detection
Positive Unlabeled Learning for Deceptive Reviews DetectionPositive Unlabeled Learning for Deceptive Reviews Detection
Positive Unlabeled Learning for Deceptive Reviews Detection
Takanori Nakai
?
Modeling Mass Protest Adoption in Social Network Communities using Geometric ...
Modeling Mass Protest Adoption in Social Network Communities using Geometric ...Modeling Mass Protest Adoption in Social Network Communities using Geometric ...
Modeling Mass Protest Adoption in Social Network Communities using Geometric ...
Takanori Nakai
?
Similarity component analysis
Similarity component analysisSimilarity component analysis
Similarity component analysis
Takanori Nakai
?
Query driven context aware recommendation
Query driven context aware recommendationQuery driven context aware recommendation
Query driven context aware recommendation
Takanori Nakai
?
Unsupervised Graph-based Topic Labelling using DBpedia
Unsupervised Graph-based Topic Labelling using DBpediaUnsupervised Graph-based Topic Labelling using DBpedia
Unsupervised Graph-based Topic Labelling using DBpedia
Takanori Nakai
?
Psychological Advertising_Exploring User Psychology for Click Prediction in S...
Psychological Advertising_Exploring User Psychology for Click Prediction in S...Psychological Advertising_Exploring User Psychology for Click Prediction in S...
Psychological Advertising_Exploring User Psychology for Click Prediction in S...
Takanori Nakai
?
笔鲍颁碍モデルの适用例:修论を仕上げた后、个人的にやっていたリサーチ
笔鲍颁碍モデルの适用例:修论を仕上げた后、个人的にやっていたリサーチ笔鲍颁碍モデルの适用例:修论を仕上げた后、个人的にやっていたリサーチ
笔鲍颁碍モデルの适用例:修论を仕上げた后、个人的にやっていたリサーチ
Takanori Nakai
?
金利期間構造について:Forward Martingale Measureの導出
金利期間構造について:Forward Martingale Measureの導出金利期間構造について:Forward Martingale Measureの導出
金利期間構造について:Forward Martingale Measureの導出
Takanori Nakai
?
Topic discovery through data dependent and random projections
Topic discovery through data dependent and random projectionsTopic discovery through data dependent and random projections
Topic discovery through data dependent and random projections
Takanori Nakai
?

Sentence-State LSTM for Text Representation

  • 1. Sentence-State LSTM for Text Representation by Y.Zhang etc 担当: @Quasi_quant2010 ACL2018読み会1 【ACL2018読み会】
  • 2. 本論文を読んだ動機 - どの様にセンテンスをベクトル表現すれば良いか - ? センテンスを単語系列と考えてRNN ? 本論文でのベースライン(BiLSTM) ? 本論文でのベースライン(BiLSTM + Attention) ? センテンスから局所情報をCNNで獲得して、group by ? 本論文でのベースライン(CNN) ? パラグラフをセンテンス系列?センテンスを単語系列と考えて 階層RNN ? Query Suggestionを構築する際、ユーザー毎のセッションデータ を作り、階層構造を入れたencoder-decoderが有名 ? 上記以外に、センテンス内の係受け情報や項構造を付加す ることも考えられる ACL2018読み会2
  • 3. 概要 - パラグラフ方向にLSTMを適用 - ? パラグラフをセンテンス系列?センテンスを単語系列と考えて センテンスをグローバル特徴量?単語をローカル特徴量と考え パラグラフ方向にLSTMを適用した ? h(t,i) : i-thの単語の隠れベクトル表現 at t-th センテンス ? i = 1,…,n t = 1,…,T ? n : t-thのセンテンスに含まれる単語数 ? T : パラグラフがT個のセンテンスを持つ ? g(t) : ベクトル表現 at t-th センテンス ? t番目とt+1番目のセンテンスのアライメントは考慮しない ? 学習時には、センテンスのidリストを一様乱数からサンプリング ACL2018読み会3
  • 4. アイディア① - 単語(ローカル特徴量)の更新方法 - ACL2018読み会4 wi-1, t wi , t wi+1 , t wi-1,t-1 wi ,t-1 wi+1,t-1 Word Embedding(t-1) Hidden Embedding(t-1) Sentence Embedding(t-1) Word Embedding(t) Hidden Embedding(t) h(t,i) g(t-1,i) h(t-1,i-1) h(t-1,i) h(t-1,i+1)
  • 5. アイディア② - センテンス(グローバル特徴量)の隠れベクトルの更新方法 - ACL2018読み会5 w0, t-1 w1,t-1 wn+1,t+1 Sentence Embedding(t-1) Word Embedding(t-1) wi,t Hidden Embedding(t-1) Word Embedding(t) Hidden Embedding(t-1) Sentence Embedding(t) ??? ??? g(t,i) g(t-1,i) h(t-1,0) h(t-1,1) h(t-1,n+1)
  • 7. 問題設定 - センテンス分類 - ? センテンスがあるトピックに属するか否かの教師データを用意 ? Text Classification(Liu, etc, 2017) ? 評価指標はAccuracy ? 前処理 :高頻度単語を削除、未知語は<unk> ? 事前学習 : Glove(300次元) ? NN回り ? Softmax Layer ? センテンスのグローバル特徴量g(t)を使って分類 ? Adam Optimizer ? Dropout is 0.5 ? Gradient Clipping at 3 ? L2 regularization(0.001) ACL2018読み会7
  • 8. 結果 - 評価値のwindow依存性 - ? TimeStep t は、S-LSTMの時間方向の長さ(エポックではない) ? ローカル特徴量更新時におけるWindowサイズには依存してない ? センテンス分類にはグローバル特徴量が有効。ローカル特徴量単体では相対 比効果がないが、グローバル特徴量にアグリゲーションされると有効 8
  • 9. 結果 - グローバル特徴量を除去した場合の性能 - ? gを除去すると、81.76%(t=11)まで性能が下がる ? gのノードを追加しても性能は変わらなかった ACL2018読み会9 81.76%
  • 10. 結果 - 16種類のデータセットでの結果 - ? S-LSTMの売りは大きく二つ ? パラグラフ方向にLSTMを走らせる ? t-番目内におけるローカル特徴量の更新は並列化できる ? 学習時に11個センテンスをサンプリングすれば性能が安定するらしい ? S-LSTMとBiLSTMと比べると、短い時間で高い性能 ? パラグラフ方向にLSTMを走らせるため、CNNを使った場合 よりは時間がかかる ACL2018読み会10
  • 11. 考察 - センテンス間のアライメントを考えなくてよいのか - ? センテンス間の関係(アライメント)を考えなくてよいのか ? 学習時のセンテンスサンプリングの方法 ? 例えば100個のラベル付センテンスがある ? 公開コードでは、ここから幾つかのセンテンスをランダムサンプリング ? つまり、tとt+1番目のセンテンスの関係を考慮していない ? 例えば、検索のセッションデータを考える ? あるユーザーのセッション/dayを一か月持つとする ? するとセッション/day内のレコードはマルチインテントとなっている ? さらに、t日目とt+1日目のセッションは不連続なインテントとなる ? なので、 t日目のセッションデータが与えられた時、t+1日目の最 初の検索クエリをナイーブに予測することは難しい ACL2018読み会11
  • 12. 考察 - パラメータ推定方法(勾配情報の伝播) - ? S.Hahn, etc ? なぜDropoutが汎化に寄与するのかを経験的に調べた文献 ? MnistデータでDropout有り無しの場合を調べた ? 表は特に各レイヤーの勾配の絶対値を平均したもの ? 表(Layer3はOutput Layer)からわかるように、Dropoutがある ほうが、勾配情報が伝播していることがわかる ? レイヤーに60個と59個のノードがあっても性能は変わらない ? Dropoutの定説 ? Dropoutは勾配情報の伝播を促進させる ACL2018読み会12
  • 13. 考察 - パラメータ推定方法(勾配の加速) - ? Momentum ? Momentum Restart Scheme ? Aggregated Scheme ? 通常のMomentumやNesterov Momentumにより、目 的関数の学習が加速されることはよく知られる ? ただし、Momentumはパイパーパラメタの調整をしないと、 目的関数が振動することも知られている ? [B.O’Donoghue, etc] ? それを防ぐ方法として、上記二つの方法がある ACL2018読み会13
  • 14. 考察 - Restart Scheme(NAG) - ? 振動する理由は [B.O’Donoghue, etc] ? モメンタムを微分方程式で表 すと、ある条件では調和振動 子の方程式となる ? 大きく二つのテクニック ? 目的関数が増加したらベータ をゼロにしてモメンタムを消す ? 加速の方法と勾配の内積が せいになったらベータをゼロにし てモメンタムを消す ? 勾配はnegative方向 ACL2018読み会14
  • 15. 考察 - Aggregated Scheme(AggMo) - ? 最適なモメンタムパラメータβを求めるのは難しいので、複数 の係数βで更新したパラメータをアグリゲーション ? そもそも、各FeatureWeightに対して最適なβは異なる ? それを見つけるより、異なるβで求めたパラメータを平均したほ うが安定する ? [J.Lucas, etc]には、損失関数がconvex+smoothで正則化 項がconvex+non-differentiable、の設定で収束を証明 ? 画像分類の例で、ResNetを各Optimizerで精度比較 ? 言語モデルの例で、LSTMを各Optimizerで精度比較 ACL2018読み会15
  • 16. 考察 - AggMoイケてるかも - ? x,y二種類の変数が与えられた時の最適化問題(Non-Convex) ? (x,y)=(0,0)で最適値をとる目的関数 ? βがゼロ (=SGD、青)? NAG(黄色)では、フラットな領域から抜け出せない ? NAG(緑)は最適値を目指すも振動しながらオーバーフィット ? AggMo(赤)はフラットな領域を脱出しつつ、振動することなく最適値へ収束 ACL2018読み会16
  • 17. 参考文献 ? Sentence Embedding ? [G.Zhe, etc] Learning Generic Sentence Representations Using Convolutional Neural Networks, EMNLP, 2017 ? Parameter Estimation ? [S.Hahn, etc] Gradient Acceleration in Activation Functions, arXiv, 1806.09783v1, 2018 ? [B.O’Donoghue, etc] Adaptive Restart for Accelerated Gradient Schemes, JFCM, vol15(3), p715-732, 2015 ? [J.Lucas, etc], Aggregated Momentum_Stability Through Passive Damping, arXiv, 1804.00325v1, 2018 ACL2018読み会17