【DL輪読会】Efficiently Modeling Long Sequences with Structured State SpacesDeep Learning JP
?
This document summarizes a research paper on modeling long-range dependencies in sequence data using structured state space models and deep learning. The proposed S4 model (1) derives recurrent and convolutional representations of state space models, (2) improves long-term memory using HiPPO matrices, and (3) efficiently computes state space model convolution kernels. Experiments show S4 outperforms existing methods on various long-range dependency tasks, achieves fast and memory-efficient computation comparable to efficient Transformers, and performs competitively as a general sequence model.
1) The document discusses recent advances in deep reinforcement learning algorithms for continuous control tasks. It examines factors like network architecture, reward scaling, random seeds, environments and codebases that impact reproducibility of deep RL results.
2) It analyzes the performance of algorithms like ACKTR, PPO, DDPG and TRPO on benchmarks like Hopper, HalfCheetah and identifies unstable behaviors and unfair comparisons.
3) Simpler approaches like nearest neighbor policies are explored as alternatives to deep networks for solving continuous control tasks, especially in sparse reward settings.
The document discusses control as inference in Markov decision processes (MDPs) and partially observable MDPs (POMDPs). It introduces optimality variables that represent whether a state-action pair is optimal or not. It formulates the optimal action-value function Q* and optimal value function V* in terms of these optimality variables and the reward and transition distributions. Q* is defined as the log probability of a state-action pair being optimal, and V* is defined as the log probability of a state being optimal. Bellman equations are derived relating Q* and V* to the reward and next state value.
1) The document discusses recent advances in deep reinforcement learning algorithms for continuous control tasks. It examines factors like network architecture, reward scaling, random seeds, environments and codebases that impact reproducibility of deep RL results.
2) It analyzes the performance of algorithms like ACKTR, PPO, DDPG and TRPO on benchmarks like Hopper, HalfCheetah and identifies unstable behaviors and unfair comparisons.
3) Simpler approaches like nearest neighbor policies are explored as alternatives to deep networks for solving continuous control tasks, especially in sparse reward settings.
The document discusses control as inference in Markov decision processes (MDPs) and partially observable MDPs (POMDPs). It introduces optimality variables that represent whether a state-action pair is optimal or not. It formulates the optimal action-value function Q* and optimal value function V* in terms of these optimality variables and the reward and transition distributions. Q* is defined as the log probability of a state-action pair being optimal, and V* is defined as the log probability of a state being optimal. Bellman equations are derived relating Q* and V* to the reward and next state value.
最近傍探索と直積量子化(Nearest neighbor search and Product Quantization)
1. Nearest Neighbor Search(NNS)
NGUYEN ANH TUAN
Bachelor 4th year
The Engineering Falcuty, the University of Tokyo
May 14, 2014
NGUYEN ANH TUAN Group study memo 1 / 45
2. 自己紹介
2008 年?来日
2009 年~2012 年?兵庫県明石高専
卒論:「エッジ方向のヒストグラムを利用した電子透かしの手
法」(対象:文章画像)
2012 年?東大 2 年に編入
好きなプログラミング言語:C/C++、Java、最近は Ruby を
触っています。
NGUYEN ANH TUAN Group study memo 2 / 45
7. ユークリッド空間内の距離
ユークリッド距離 → 直感的、通常の距離
→Minkowski 距離 dp(x, y) =
( D∑
i=1
|xi ? yi|p
)1
p
→ p = 2 の時、ユークリッド距離
p = 1 の時、マンハッタン距離
dM (x, y) =
D∑
i=1
|xi ? yi| (2)
NGUYEN ANH TUAN Group study memo 6 / 45
8. ユークリッド空間内の距離
ユークリッド距離 → 直感的、通常の距離
→Minkowski 距離 dp(x, y) =
( D∑
i=1
|xi ? yi|p
)1
p
→ p = 2 の時、ユークリッド距離
p = 1 の時、マンハッタン距離
dM (x, y) =
D∑
i=1
|xi ? yi| (2)
Question: p > 2 の Minkowski 距離を利用するか?
NGUYEN ANH TUAN Group study memo 6 / 45
9. Hamming Space
Hamming Space:H = {0, 1} の時、すべての長さ D のビッ
ト列からなる空間を D 次元 Hamming Space HD
NGUYEN ANH TUAN Group study memo 7 / 45
10. Hamming Space
Hamming Space:H = {0, 1} の時、すべての長さ D のビッ
ト列からなる空間を D 次元 Hamming Space HD
Hamming 距離 → 二つのビット列の相違度
dH(x, y) = {i|xi ?= yi} (3)
NGUYEN ANH TUAN Group study memo 7 / 45
11. Hamming Space
Hamming Space:H = {0, 1} の時、すべての長さ D のビッ
ト列からなる空間を D 次元 Hamming Space HD
Hamming 距離 → 二つのビット列の相違度
dH(x, y) = {i|xi ?= yi} (3)
例: 00011 と 00101 の相違度が 2
NGUYEN ANH TUAN Group study memo 7 / 45
13. 高次元と低次元
参考文献 1
定理 1(引用)
Let F is an arbitrary distribution of n points (from a database of N
uniformly distributed points), the distance function is an k-norm
Minkowski distance function inside an Euclidean space RD
. Therefore,
Ck ≤ lim
D→+∞
E
[
dmax ? dmin
D1/k?1/2
]
≤ (N ? 1)Ck (4)
, where dmax, dmin are the farthest and nearest distance from a point in F
to the query point, respectively. Ck is a constant value that depends on k.
1
A. Hinneburg et al , “What Is the Nearest Neighbor in High
Dimensional Spaces?”, Proceedings of the 26th International Conference
on Very Large Data Bases, pp.506-515, 2000
NGUYEN ANH TUAN Group study memo 9 / 45
14. 高次元と低次元
k > 2 の Minkowski 距離 dk(x, y) を利用した時、
NGUYEN ANH TUAN Group study memo 10 / 45
15. 高次元と低次元
k > 2 の Minkowski 距離 dk(x, y) を利用した時、
空間の次元 D を増加させると、
NGUYEN ANH TUAN Group study memo 10 / 45
16. 高次元と低次元
k > 2 の Minkowski 距離 dk(x, y) を利用した時、
空間の次元 D を増加させると、
dmax ? dmin が 0 に収束
NGUYEN ANH TUAN Group study memo 10 / 45
17. 高次元と低次元
k > 2 の Minkowski 距離 dk(x, y) を利用した時、
空間の次元 D を増加させると、
dmax ? dmin が 0 に収束
→ 高次元で k > 2 の Minkowski 距離の時、データセットの中の最
短距離と最長距離はほぼ一致してしまう
NGUYEN ANH TUAN Group study memo 10 / 45
21. k 近傍法の例
学習用のデータが二つカテゴリ A, B に
分けた時、問い合わせデータ “?”はどの
カテゴリに入るか?→ データの分類問題
アルゴリズム:
NGUYEN ANH TUAN Group study memo 13 / 45
22. k 近傍法の例
学習用のデータが二つカテゴリ A, B に
分けた時、問い合わせデータ “?”はどの
カテゴリに入るか?→ データの分類問題
アルゴリズム:
1 k を適切に選ぶ
2 “?”と学習用のデータとの距離を
計算
3 距離でデータを並び替える
NGUYEN ANH TUAN Group study memo 13 / 45
23. k 近傍法の例
学習用のデータが二つカテゴリ A, B に
分けた時、問い合わせデータ “?”はどの
カテゴリに入るか?→ データの分類問題
アルゴリズム:
1 k を適切に選ぶ
2 “?”と学習用のデータとの距離を
計算
3 距離でデータを並び替える
4 学習用のデータから k 個だけを選
別する。選択されたデータで多数
決投票を行う
5 最多となるデータのカテゴリが、
“?”の推測されたカテゴリとなる。
NGUYEN ANH TUAN Group study memo 13 / 45
36. kd木:次元の呪い
平衡木にすれば、1~3 の平均時間計算量が O(D log n) になる
が、その時でも 4 の計算量が生じる。
2
D.T. Lee, C. K. Wong, “Worst-case analysis for region and partial
region searches in multidimensional binary search trees and
balanced quad trees”, Acta Informatica 13. XII. 1977, Volume 9, Issue 1,
pp 23-29
NGUYEN ANH TUAN Group study memo 25 / 45
37. kd木:次元の呪い
平衡木にすれば、1~3 の平均時間計算量が O(D log n) になる
が、その時でも 4 の計算量が生じる。
次元の呪い:参考文献 2
では、最悪時 kd 木での探索の時間計算
量は O(Dn1?1/D
) となる。
2
D.T. Lee, C. K. Wong, “Worst-case analysis for region and partial
region searches in multidimensional binary search trees and
balanced quad trees”, Acta Informatica 13. XII. 1977, Volume 9, Issue 1,
pp 23-29
NGUYEN ANH TUAN Group study memo 25 / 45
38. kd木:次元の呪い
平衡木にすれば、1~3 の平均時間計算量が O(D log n) になる
が、その時でも 4 の計算量が生じる。
次元の呪い:参考文献 2
では、最悪時 kd 木での探索の時間計算
量は O(Dn1?1/D
) となる。
D → +∞ の時 Dn1?1/D
→ Dn (5)
2
D.T. Lee, C. K. Wong, “Worst-case analysis for region and partial
region searches in multidimensional binary search trees and
balanced quad trees”, Acta Informatica 13. XII. 1977, Volume 9, Issue 1,
pp 23-29
NGUYEN ANH TUAN Group study memo 25 / 45
48. 最近の研究
Product Quantization3
3
H. Jegou et al., “Product Quantization for Nearest Neighbor
Search”, IEEE TRANSACTIONS ON PATTERN ANALYSIS AND
MACHINE INTELLIGENCE,VOL. 33, NO. 1,JANUARY 2011, pp 117-126
NGUYEN ANH TUAN Group study memo 32 / 45
54. Vector Quantization
コードブック (codebook) C = {pi|0 ≤ i < k}
量子器 (quantizer) Q : RD
→ C
x ∈ RD
の時、Q(x) ∈ C
RD
を k 領域に分割する → ボロノイ図のイメージ
NGUYEN ANH TUAN Group study memo 35 / 45
55. Vector Quantization
コードブック (codebook) C = {pi|0 ≤ i < k}
量子器 (quantizer) Q : RD
→ C
x ∈ RD
の時、Q(x) ∈ C
RD
を k 領域に分割する → ボロノイ図のイメージ
Q(x) = arg min
ci∈C
d(x, ci) (6)
NGUYEN ANH TUAN Group study memo 35 / 45
56. Vector Quantization
コードブック (codebook) C = {pi|0 ≤ i < k}
量子器 (quantizer) Q : RD
→ C
x ∈ RD
の時、Q(x) ∈ C
RD
を k 領域に分割する → ボロノイ図のイメージ
Q(x) = arg min
ci∈C
d(x, ci) (6)
ボロノイ領域を Vi = {x ∈ RD
: Q(x) = ci} とすると、
ci = E[x|i] =
∫
Vi
p(x)xdx (7)
NGUYEN ANH TUAN Group study memo 35 / 45
66. Product Quantization
発想
64 bit のコードブック ? log2 k = 64 ? k = 264
264
個の整数型データを保存するのに、コードブックのサイズ
は
NGUYEN ANH TUAN Group study memo 39 / 45
67. Product Quantization
発想
64 bit のコードブック ? log2 k = 64 ? k = 264
264
個の整数型データを保存するのに、コードブックのサイズ
は 264
× 32[bit]≈ 64, 000, 000, 000, 000[GB]=64[Zettabyte]
NGUYEN ANH TUAN Group study memo 39 / 45
68. Product Quantization
発想
64 bit のコードブック ? log2 k = 64 ? k = 264
264
個の整数型データを保存するのに、コードブックのサイズ
は 264
× 32[bit]≈ 64, 000, 000, 000, 000[GB]=64[Zettabyte]
例えば、各 ci を二つの 32 ビットの ci1, ci2 に分割すると、必
要な個数は
NGUYEN ANH TUAN Group study memo 39 / 45
69. Product Quantization
発想
64 bit のコードブック ? log2 k = 64 ? k = 264
264
個の整数型データを保存するのに、コードブックのサイズ
は 264
× 32[bit]≈ 64, 000, 000, 000, 000[GB]=64[Zettabyte]
例えば、各 ci を二つの 32 ビットの ci1, ci2 に分割すると、必
要な個数は 2 × 232
= 233
個
NGUYEN ANH TUAN Group study memo 39 / 45
70. Product Quantization
発想
64 bit のコードブック ? log2 k = 64 ? k = 264
264
個の整数型データを保存するのに、コードブックのサイズ
は 264
× 32[bit]≈ 64, 000, 000, 000, 000[GB]=64[Zettabyte]
例えば、各 ci を二つの 32 ビットの ci1, ci2 に分割すると、必
要な個数は 2 × 232
= 233
個
コードブックのサイズは 233
× 32[bit]≈ 32, 000[GB]=32[TB]
NGUYEN ANH TUAN Group study memo 39 / 45
71. Product Quantization
コードブック (codebook) C = {pi|0 ≤ i < k} の D = log2 k
次元の空間を m 個 Cj の子空間 (次元が D/m) に分割する。
C = C1 × C2 × . . . × Cm (8)
NGUYEN ANH TUAN Group study memo 40 / 45
72. Product Quantization
コードブック (codebook) C = {pi|0 ≤ i < k} の D = log2 k
次元の空間を m 個 Cj の子空間 (次元が D/m) に分割する。
C = C1 × C2 × . . . × Cm (8)
子量子器 Qj : RD/m
→ Cj
子コードブックのサイズ
k?
= 2
D
m = 2
log2 k
m = k
1
m (9)
総コードブックのサイズは mk
1
m
NGUYEN ANH TUAN Group study memo 40 / 45
73. Searching algorithm(By H. Jegou et al.)
1 Indexing
2 Searching
NGUYEN ANH TUAN Group study memo 41 / 45