Dynamic Time Warping を用いた高頻度取引データのLead-Lag 効果の推定Katsuya Ito
?
This paper investigates the Lead-Lag relationships in high-frequency data.
We propose Multinomial Dynamic Time Warping (MDTW) that deals with non-synchronous observation, vast data, and time-varying Lead-Lag.
MDTW directly estimates the Lead-Lags without lag candidates. Its computational complexity is linear with respect to the number of observation and it does not depend on the number of lag candidates.
The experiments adopting artificial data and market data illustrate the effectiveness of our method compared to the existing methods.
論文紹介:Dueling network architectures for deep reinforcement learningKazuki Adachi
?
Wang, Ziyu, et al. "Dueling network architectures for deep reinforcement learning." Proceedings of The 33rd International Conference on Machine Learning, PMLR 48:1995-2003, 2016.
Get To The Point: Summarization with Pointer-Generator Networks_acl17_論文紹介Masayoshi Kondo
?
Neural Text Summarizationタスクの研究論文.ACL'17- long paper採択.スタンフォード大のD.Manning-labの博士学生とGoogle Brainの共同研究.長文データ(multi-sentences)に対して、生成時のrepetitionを回避するような仕組みをモデルに導入し、長文の要約生成を可能とした.ゼミでの論文紹介資料.論文URL : https://arxiv.org/abs/1704.04368
This document introduces the deep reinforcement learning model 'A3C' by Japanese.
Original literature is "Asynchronous Methods for Deep Reinforcement Learning" written by V. Mnih, et. al.
Notes on the low rank matrix approximation of kernelHiroshi Tsukahara
?
This document discusses low-rank matrix approximation of kernel matrices for kernel methods in machine learning. It notes that kernel matrices often have low rank compared to their size, and this property can be exploited to reduce the computational complexity of kernel methods. Specifically, it proposes approximating the kernel matrix as the product of two low-rank matrices. This allows the solution to be computed in terms of the low-rank matrices rather than the full kernel matrix, reducing the complexity from O(n3) to O(r2n) where r is the rank. Several algorithms for deriving the low-rank approximation are mentioned, including Nystrom approximation and incomplete Cholesky decomposition.
論文紹介:Dueling network architectures for deep reinforcement learningKazuki Adachi
?
Wang, Ziyu, et al. "Dueling network architectures for deep reinforcement learning." Proceedings of The 33rd International Conference on Machine Learning, PMLR 48:1995-2003, 2016.
Get To The Point: Summarization with Pointer-Generator Networks_acl17_論文紹介Masayoshi Kondo
?
Neural Text Summarizationタスクの研究論文.ACL'17- long paper採択.スタンフォード大のD.Manning-labの博士学生とGoogle Brainの共同研究.長文データ(multi-sentences)に対して、生成時のrepetitionを回避するような仕組みをモデルに導入し、長文の要約生成を可能とした.ゼミでの論文紹介資料.論文URL : https://arxiv.org/abs/1704.04368
This document introduces the deep reinforcement learning model 'A3C' by Japanese.
Original literature is "Asynchronous Methods for Deep Reinforcement Learning" written by V. Mnih, et. al.
Notes on the low rank matrix approximation of kernelHiroshi Tsukahara
?
This document discusses low-rank matrix approximation of kernel matrices for kernel methods in machine learning. It notes that kernel matrices often have low rank compared to their size, and this property can be exploited to reduce the computational complexity of kernel methods. Specifically, it proposes approximating the kernel matrix as the product of two low-rank matrices. This allows the solution to be computed in terms of the low-rank matrices rather than the full kernel matrix, reducing the complexity from O(n3) to O(r2n) where r is the rank. Several algorithms for deriving the low-rank approximation are mentioned, including Nystrom approximation and incomplete Cholesky decomposition.
The document proposes a new method called Sparse Isotropic Hashing (SIH) to learn compact binary codes for image retrieval. SIH imposes additional constraints of sparsity and isotropic variance on the hash functions to make the learning problem better posed. It formulates SIH as an optimization problem that balances orthogonality, isotropic variance and sparsity, and develops an algorithm to solve it. Experiments on a landmark dataset show SIH achieves comparable retrieval accuracy to the state-of-the-art method while learning hash codes 20 times faster.
2. 論文リスト
? "Micropinion Generation: An Unsupervised Approach to Generating
Ultra-Concise Summaries of Opinions",
? Kavita Ganesan, ChengXiang Zhai, Evelyne Viegas
? 要旨 :
? 人が読んで分かる要約文生成
? タグ付けや教師データを必要としない
? "A Flexible Large Scale Topic Modeling Package using Variational
Inference in MapReduce",
? Ke Zhai, Jordan Boyd-Graber, Nima Asadi, Mohamad Alkhouja
? 要旨 :
? MapReduce 形式による変分ベイズ法を用いた LDA 計算法
? Callapsed Gibbs Sampling よりもスケールアウトできる
2 Session 30: Information Extraction 担当:塚原裕史(デンソーITラボ
ラトリ)
3. Paper 1
"Micropinion Generation: An Unsupervised Approach to Generating Ultra-Concise Summaries of Opinions",
Kavita Ganesan et. al.
?モチベーション
? ブログやニュース記事として、多くの評判情報が集まっており、
これらの評判を文章として段階的に要約し、内容を理解できるよ
うにしたい。
? “micropinion” と呼ぶ
? これまでの評判情報要約では、元の文章とは異なる構造化された
簡潔な情報に変換されていたので、上記のようなことができなか
った:
? 単純な極性判別: “ positive” or “negative”
? カテゴリごとの評価値 : buttery life: 1 star, screen: 3.5 star etc.
? Key words or phrases extraction : buttery, life, screen, short, clear, etc.
3 Session 30: Information Extraction 担当:塚原裕史(デンソーITラボ
ラトリ)
4. Paper 1
"Micropinion Generation: An Unsupervised Approach to Generating Ultra-Concise Summaries of Opinions",
Kavita Ganesan et. al.
?Micropinion の事例 ( 制約: less than 10 words)
? MP3 Player Y: (8 words)
? Very short battery life. Big and clear screen.
? Restaurant X: (9 words)
? Good service. Delicious soup dishes. Very noisy at nights.
?ポイント
? 可読な文への要約
? 最大単語数を設定可能
4 Session 30: Information Extraction 担当:塚原裕史(デンソーITラボ
ラトリ)
5. Paper 1
"Micropinion Generation: An Unsupervised Approach to Generating Ultra-Concise Summaries of Opinions",
Kavita Ganesan et. al.
?方法
? フレーズの代表性と可読性の指標を設計し、それらの和を最大化
するフレーズ(単語の組合せ)の組みを検索する。(最適化問題
)
?代表性
? フレーズ内の各単語のローカル相互情報量の平均値
? ローカル相互情報量: コンテキストウインドウ内での補正相互情報量の
平均値
? 補正相互情報量: コンテキストウインドウ内で共起し易い単語間で値が
大きくなるように、ヒューリスティックな補正を入れたもの。
? 通常の相互情報量では、頻出しない単語間で値が大きくなり、代表性という観点
では問題がある。
?可読性
? N-gram 言語モデルによる対数尤度の平均値
5
? Microsoft の trigram 言語モデル使用 担当:塚原裕史(デンソーITラボ
Session 30: Information Extraction
ラトリ)
6. Paper 1
"Micropinion Generation: An Unsupervised Approach to Generating Ultra-Concise Summaries of Opinions",
Kavita Ganesan et. al.
?最適化手順
? 1.シードとなるバイグラム生成
? 2. N グラム候補生成
? 3.候補 N グラムから候補フレーズ生成
? 4. Depth-first search による Micropinion 決定
フレーズ m スコア
w1 w2 w4 w8 S rep ( m ) + S read ( m )
候補Nグラム w1 w2 w4 w5 w6 w8
シードバイグラム w1 w2 w3 w4 w5 w6 w7 w8
6 Session 30: Information Extraction 担当:塚原裕史(デンソーITラボ
ラトリ)
8. Paper 1
"Micropinion Generation: An Unsupervised Approach to Generating Ultra-Concise Summaries of Opinions",
Kavita Ganesan et. al.
?結論
? 主要な提案:
? 代表性と可読性に基づく最適化問題による定式化
? 上記最適化問題の高速な近似解探索手法を提案
? 主要な性質:
? 従来手法にくらべて、可読性の高い要約文を生成できる
? モデル的に有利な点:
? 教師なし学習 → 低コスト
? 計算量が小さい → 高速
? 形態素解析や構文解析不要 → 多言語への拡張性
8 Session 30: Information Extraction 担当:塚原裕史(デンソーITラボ
ラトリ)
9. Paper 2
"A Flexible Large Scale Topic Modeling Package using Variational Inference in MapReduce",
Ke Zhai et. al.
? モチベーション
? LDA の計算手法として Collapsed Gibbs Sampling が良く使われている
? 実装が簡単
? Collapsed Gibbs Sampling は、並列化してもパフォーマンスが出ない
? ノード全体で共有する状態があるため(実際には定期的に同期を取りながら計算)
? 明確な収束判定基準がない
? Collapsed Gibbs Sampling での計算
? (#topics in a document) * (#words in a topic across all documents)
この部分で同期が必要となり並列化の効率に影響
9 Session 30: Information Extraction 担当:塚原裕史(デンソーITラボ
ラトリ)
10. Paper 2
"A Flexible Large Scale Topic Modeling Package using Variational Inference in MapReduce",
Ke Zhai et. al.
? 方法
? 変分ベイズ法による LDA 計算を MapReduce の形式へ並列化
? 変分ベイズ法における反復更新処理
φ v(,d ) ∝ Eq [ β v ,k ]e Ψ ( γ k )
k
文書ごとの処理 Map
V
γ d ,k = α k + ∑ φ v(,d )
k
v =1
λv ,k = η v ,k + ∑ ( wv( d )φv(.dk ) )
C
文書全体での処理 Reduce
d =1
α new = α old ? H ?1 ( α old ) g ( α old ) モデル全体の制御 Driver
10 Session 30: Information Extraction 担当:塚原裕史(デンソーITラボ
ラトリ)
11. Paper 2
"A Flexible Large Scale Topic Modeling Package using Variational Inference in MapReduce",
Ke Zhai et. al.
? MapReduce での処理の流れ
Hyperparameters
Mapper (α k , λv ,k ) t → (α k , λv ,k ) t +1
文書
d (γ d ,k ) ?
?
? K ??
, φ v(,d ) → ? γ d , k , φ v(,d ) , Ψ ( γ d , k ) ? Ψ ? ∑ γ d , k ? ?
?
Reducer
t
? k =1 ? ?t +1
k k
?
(η , {φ }) ? ? K ??
C
v ,k
(d )
→ ? λv ,k , ∑ Ψ (γ d ,k ) ? Ψ? ∑ γ d ,k ? ?
? ?
t
? k =1 ? ?t +1
v ,k
? d =1
(γ ) ? ? K ?? Driver
d d ,k , φ v(,d ) → ? γ d , k , φ v(,d ) , Ψ ( γ d , k ) ? Ψ ? ∑ γ d , k ? ?
k t
?
?
k
? k =1
?
? ?t +1
(η , {φ })
v ,k
(d )
v ,k t
?
?
?
C
d =1
? K
? k =1
??
→ ? λv ,k , ∑ Ψ (γ d ,k ) ? Ψ? ∑ γ d ,k ? ?
?
? ?t +1
(α k ) t → (α k ) t +1
d (γ d ,k ) ? ? K ??
, φ v(,d ) → ? γ d , k , φ v(,d ) , Ψ ( γ d , k ) ? Ψ ? ∑ γ d , k ? ?
? ?
t
? k =1 ? ?t +1
k k
?
(η , {φ }) ? ? K ??
C
v ,k
(d )
→ ? λv ,k , ∑ Ψ (γ d ,k ) ? Ψ? ∑ γ d ,k ? ?
? ?
t
? k =1 ? ?t +1
v ,k
? d =1
Test Convergence
d (γ ) ?
?
? K ??
, φ v(,d ) → ? γ d , k , φ v(,d ) , Ψ ( γ d , k ) ? Ψ ? ∑ γ d , k ? ?
?
(Likelihood Computation)
d ,k t
? k =1 ? ?t +1
k k
?
partitioner
11 Session 30: Information Extraction 担当:塚原裕史(デンソーITラボ
ラトリ)
12. Paper 2
"A Flexible Large Scale Topic Modeling Package using Variational Inference in MapReduce",
Ke Zhai et. al.
? 結論
? 従来実装 (Mahout) に比べて、処理速度?事後分布の近似精度の
両面で、非常に良く改善されている。
(論文から引用)
事
L = Eq [ log( p ( D Z ) p ( Z Θ ) ) ] ? Eq [ log q( Z ) ] 後
分
布
変分ベイズでは、この量を最大化する へ
の
下
限
学習時間
? Remark
? Collapsed Gibbs Sampling の並列化に関しては Mallet というラ
イブラリがあるが、それとの比較がないので、変分ベイズ法の方
が本当に良いと言って良いのか、実際にどれくらいの差があるの
か気になる。
12 Session 30: Information Extraction 担当:塚原裕史(デンソーITラボ
ラトリ)