狠狠撸

狠狠撸Share a Scribd company logo
2次PUCK検定の有効性と実データへの応用
Twitter : @Quasi quant20101
2010/3/18
1Quasi Science
Contents
1 初めに 2
2 2 次 PUCK 検定の方法と適用例 3
2.1 PUCK 検定の有効性 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3
2.2 結果 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4
3 2 次 PUCK 検定の実データへの適用 6
A 2 次 PUCK 検定の方法 12
Chapter 1
初めに
本報告書は 2 次 PUCK 検定と実データへの応用をまとめたものである。
本報告書の結論は、2 次ポテンシャルまでを想定した PUCK モデル
P(t + 1) ? P(t) = ?
d
dp
U(p, t)|p=
P (t)?PM (t)
M?1
+ N(0, σ), (1.1)
U(p, t) =
b(t)
2
p2
, (1.2)
PM (t) =
1
M
M?1∑
k=0
P(t ? k). (1.3)
と OU 過程でモデル化した b(t)
b(t + 1) = b(t) + θ1(θ2 ? b(t)) + θ3N(0, 1) (1.4)
により発生させた価格に 2 次 PUCK 検定を適用すると、設定する閾値の条件下で、約 99%
が適用可能であることがわかった。さらに、この判定法を 2006/1/3~2006/7/1(CQG 社
から提供されたデータで、1 分間隔の bestbid) 期間中、円ドルの為替価格似て起用すると、
上記と同様の条件で約 93% 適用可能であることがわかった。
Chapter 2
2次PUCK検定の方法と適用例
ここでは、PUCK 検定が有効に機能するのかを調べる。その概要は、OU 過程 (1.4) 式に
よって生成した b(t) を 2 次ポテンシャルまでを想定した PUCk モデル (1.1) 式に入力して、
PUCK 検定を行うものである。ただし、OU パラメータは 2006/0101/~2006/06/30 の市
場価格の統計性を再現した
(θ1, θ2, θ3) = (0.029, 0.12, 0.218) (2.1)
、また M=20、σ = 0.02 とした。
さらに、PUCK 検定の概要を述べておく。1
この検定では、
A)b=0 でない場合、(1.1) 式が成立するかどうか
B) 最後に、b=0 の場合を復活させる
、というステップを踏む。そして、A) では、b=0 でない閾値として、決定係数の閾値を
0.029 とした 2
。ここで、強調しておくことは、この検定には次の様な 2 種類の閾値がある
ことである;
1. 決定係数の関する閾値 (Rthreshold と定義、Appendix A の最後の文) => 判定 A) に
対応
2. b=0 に関する閾値 (Probthreshold と定義、Appendix A の最後の文) => ?判定 B) に
対応
2.1 PUCK検定の有効性
PUCK 検定の有効性を知るために、次のような実験を行った。
1. (1.1) 式に M = 20, σ = 0.02 を代入する。そして、b(t) に関しては (θ1, θ2, θ3) =
(0.029, 0.12, 0.218) として最適移動平均を発生させる。発生させたパスは 100000 個
である。
2. 次に、スーパー移動平均を計算し、(1.1) 式に対する決定係数を計算する。ただし、
{P(t + 1) ? P(t)} {(P(t) ? PM (t))} を順に、非説明変数?説明変数とした。
1
Appnedix A に詳細を記述する。
2
Appendix A を参照のこと。
2.2 結果 4
3. Rthreshold = 0.029、Probthreshold ∈ [0.93, 1.0] として設定する。
4. 設定した閾値に関して夫々2 次 PUCK 検定を行い、PUCK 検定を受託する確率を計
算する
5. 1~4 を 1000 回繰り返して、PUCK 検定を受託する確率を 1000 個作る。
6. 設定した閾値に関して各々の場合の受託率の平均?標準偏差を 1000 個のデータから
推定する。
2.2 結果
1.00
0.98
0.96
0.94
0.92
Mean
1.000.980.960.94
Threshold
6x10
-3
4
2
0
Stdev
Mean
Stdev
Figure 2.1: 受託確率の平均と標準偏差、左軸 (赤):平均、右軸 (青):標準偏差、水平
軸:Probthreshold。ただし、Rthreshold = 0.029
図 2.1 から、Probthreshold が 0.97~0.98 の間において急激に受託確率が低くなっている
ことがわかる。この区間を 0.001 刻みの Probthreshold で調べたのが図 2.2 である;
2.2 結果 5
1.00
0.98
0.96
0.94
0.92
Mean
0.9800.9750.970
Threshold
6x10
-3
4
2
0
Stdev
Mean
Stdev
Figure 2.2: 受託確率の平均と標準偏差、左軸 (赤):平均、右軸 (青):標準偏差、水平
軸:Probthreshold。ただし、Rthreshold = 0.029
細かく調べても、受託確率が約 99% から急激に約 94% に減少している。同時に、受託
確率の標準偏差も急激に増加している。これは次のように解釈できると考える。
決定係数、R(t)、を見積もる際、{P(t + 1) ? P(t)}、{P(t) ? PM (t)} に関して、各々200
個から推定している。さらに、ここでは、5 個づつの Box に分けて平均しているので、結
局 50 個から b(t) を推定していることになる (正確には、両端の 2 個をはずれ値として処
理するので、48 個である)。
問題は、このように R(t) を推定する際、2.1 節のステップ 4 で確実に b(t)=0 の場合が受
託確率に含まれるかという点である。R(t) の推定はデータ数が 48 点で行うので、もし、
48 点のデータの内 1 点が [? ? 3Σ/5, ? + 3Σ/5] に含まれなければ、この時間に関して、2
次 PUCK 検定が棄却される。なぜなら、[? ? 3Σ/5, ? + 3Σ/5] に Probthreshold の点が含ま
れなければ受託されないからである。このことが受託確率が急激に変化している箇所で起
こっていると考えられる。理想的には、2 次 PUCK+OU でモデル化した b(t) で発生させ
た場合、受託確率は 100% になるはずだからである。
以上の実験から、実データに 2 次 PUCK 検定を適用する際、2 種類の閾値の設定は
Rthreshold = 0.029
Probthreshold = 0.97
とした。
Chapter 3
2次PUCK検定の実データへの適用
第 2 章の結果を使って、CQG 社から提供された 2006/1/3~2006/6/30 の 1 分間隔の円ド
ルの外国為替市場のデータ適用した。その結果、約 93% のデータが 2 次ポテンシャルま
でを想定した PUCK モデルにより記述可能であった。
用いたデータは下図のようになっている;
118
116
114
112
110
Price[USD/JPY]
150x10
3
100500
Time[minute]
Figure 3.1: 円ドルの価格、縦軸:価格、横軸:時間 [分](2006/1/3~2006/7/1)
図 3 の長方形で囲った時間帯で、価格にトレンド (RegionA)?急激な変化 (RegionB) と思
える価格変動をあらわす時間帯を下図の示す。
7
111.5
111.0
110.5
110.0
109.5
Price[USD/JPY]
133.2x10
3
132.8132.4132.0
Time[minute]
2006/5/11/15:51
~2006/5/12/21:07
Figure 3.2: RegionA、価格にトレンドがあると思われる領域
赤色の時系列が実際の為替価格。青色のプロットが 2 次 PUCK 検定において棄却され
た時間を表す。時系列の表示時間はほぼ 1 日である。1 日の間に、2 円価格が下落してい
るので、価格変動に関して強い下降トレンドがあるとみなせる。
さて、本当にこの時間帯で三次ポテンシャルが観測できているかを調べる。以下の図で
は、番号 1332200~133300 のポテンシャルを連続的に観測した。観測するポテンシャルは
(M-1) で規格化したものである。RegionA については補足資料 A(pdf の題名は main?gA)
を参照して下さい。補足資料の中でもきれいに三次ポテンシャルが観測できているものを
1 つあげると、次のようになる;
8
-10x10
-3
-5
0
5
10
U(t)
-100x10
-3
0 100
P(t)-PM(t)
Figure 3.3: 2006/5/12/16:55 に観測したポテンシャル
9
112.5
112.0
111.5
111.0
110.5
110.0
Price[USD/JPY]
141.2x10
3
140.8140.4140.0139.6
Time[minute]
2006/5/19/2:34
~2006/5/20/5:14
Figure 3.4: RegionB、価格に急激な変化があると思われる領域
赤色の時系列が実際の為替価格。青色のプロットが 2 次 PUCK 検定において棄却され
た時間を表す。時系列の表示時間はほぼ 1 日である。大きな価格変動二着目すると、約 30
分で約 0.5 円上昇している。これは、1 日に直すと 24 円上昇することと等しく、短い時間
ではあるがかなり大きな価格変動といえる。
こちらでも同様に、本当にこの時間帯で三次ポテンシャルが観測できているかを調べる。
以下の図では、番号 140425~140453 のポテンシャルを連続的に観測した。観測するポテ
ンシャルは (M-1) で規格化したものである。RegionB については補足資料 B(pdf の題名は
main?gB) を参照してください。補足資料の中でもきれいに三次ポテンシャルが観測でき
ているものを 1 つあげると、次のようになる;
10
-3x10
-3
-2
-1
0
1
2
3
U(t)
-100x10
-3
0 100
P(t)-PM(t)
Figure 3.5: 2006/5/19/16:32 に観測したポテンシャル
11
補足資料 A?B から、図 3.3?3.5 のようなポテンシャルが 2 次 PUCK 検定で棄却され
た時間で観測されている。これの事実と第 2 章の結果から、現在用いている 2 次 PUCK
検定にはそれなりに有意義であることが主張できると思います。
Appendix A
2次PUCK検定の方法
まず線形力を想定した PUCK モデルを定義する;
P(t + 1) ? P(t) = ?
d
dp
U(p, t)|p=
P (t)?PM (t)
M?1
+ f(t) (A.1)
U(p, t) =
b(t)
2
p2
, (A.2)
PM (t) =
1
M
M?1∑
k=0
P(t ? k). (A.3)
ただし、P(t) は、最適移動平均を適応し、ノイズを除去した 1 分刻みの価格の時系列であ
る。b(t) はポテンシャル係数と呼ばれる線形力の強さを定量的に表す係数である。また、
f(t) は平均が 0 の正規乱数とする。
次に、{P(t + 1) ? P(t)} を被説明変数、{P(t) ? PM (t)} を説明変数とし、新たな変数
X(t), Y (t) を次のように定義する;
Y (t) = P(t + 1) ? P(t), X(t) = P(t) ? PM (t) (A.4)
この新たな変数を用いて (1) 式を変換すると、
Y (t) = ?
b(t)
M ? 1
X(t) + f(t) (A.5)
となる。この Y と X は単回帰の関係になっており、決定係数、R2
、は次式で定義できる;
R2
=
[
∑
(Xj? < X >)(Yj? < Y >)]2
∑
(Xj? < X >)2
∑
(Yj? < Y >)2
. (A.6)
一般に、決定係数は、その値が高いほど被説明変数と説明変数の直線関係がつよい。従っ
て、2 次 PUCK のポテンシャル係数を推定する際に用いる {X(t), Y (t)} の散布図の決定
係数を求め、直線関係を判定する為に、決定係数に閾値をもうけた。次にその閾値の決定
方法を説明する。
(1)式で b(t)=0の場合の R2
の値を Rthresold とする。この結果を用いて、Σ(f(t)の標準偏差)
とすると、b(t)=0 ならば、P(t+1) - P(t) は 97% 以上、[? ? 3Σ, ? + 3Σ]、(?=E[P(t+1)-
P(t)])、の範囲に存在しなければならない。また、ポテンシャルを推定際、、x の値の小さ
い順から 5 点ずつの平均値を用いて b(t) を推定している事を考慮すると P(t+1) - P(t) は
99% 以上、[? ? 3Σ/5, ? + 3Σ/5] の範囲に存在しなければならない。 まとめると、下の
ようになる;
13
1. R2
> Rthresold ならば、2 次 PUCK モデルが有効であるとする。
2. R2
≤ Rthresold であっても、P(t+1) - P(t) が 97% 以上、[? ? 3Σ/5, ? + 3Σ/5] の範囲
に存在すれば、2 次 PUCK モデルが有効であるとする。
用いたデータにおいて、Rthresold = 0.029 であった。

More Related Content

What's hot (20)

顿狈狈の曖昧性に関する研究动向
顿狈狈の曖昧性に関する研究动向顿狈狈の曖昧性に関する研究动向
顿狈狈の曖昧性に関する研究动向
Naoki Matsunaga
?
Deep Learning技術の最近の動向とPreferred Networksの取り組み
Deep Learning技術の最近の動向とPreferred Networksの取り組みDeep Learning技術の最近の動向とPreferred Networksの取り組み
Deep Learning技術の最近の動向とPreferred Networksの取り組み
Kenta Oono
?
次世代シーケンサが求める机械学习
次世代シーケンサが求める机械学习次世代シーケンサが求める机械学习
次世代シーケンサが求める机械学习
sesejun
?
最适输送の解き方
最适输送の解き方最适输送の解き方
最适输送の解き方
joisino
?
Bayes Independence Test - HSIC と性能を比較する-
Bayes Independence Test - HSIC と性能を比較する-Bayes Independence Test - HSIC と性能を比較する-
Bayes Independence Test - HSIC と性能を比較する-
Joe Suzuki
?
データ解析14 ナイーブベイズ
データ解析14 ナイーブベイズデータ解析14 ナイーブベイズ
データ解析14 ナイーブベイズ
Hirotaka Hachiya
?
サポートベクトルマシン(厂痴惭)の勉强
サポートベクトルマシン(厂痴惭)の勉强サポートベクトルマシン(厂痴惭)の勉强
サポートベクトルマシン(厂痴惭)の勉强
Kazuki Adachi
?
础濒辫丑补骋辞のしくみ
础濒辫丑补骋辞のしくみ础濒辫丑补骋辞のしくみ
础濒辫丑补骋辞のしくみ
Hiroyuki Yoshida
?
フ?ースティンク?入门
フ?ースティンク?入门フ?ースティンク?入门
フ?ースティンク?入门
Retrieva inc.
?
Learning with a Wasserstein Loss (NIPS2015)
Learning with a Wasserstein Loss (NIPS2015)Learning with a Wasserstein Loss (NIPS2015)
Learning with a Wasserstein Loss (NIPS2015)
Hayato Watanabe
?
最适输送入门
最适输送入门最适输送入门
最适输送入门
joisino
?
ノンパラメトリックベイズ4章クラスタリンク?
ノンパラメトリックベイズ4章クラスタリンク?ノンパラメトリックベイズ4章クラスタリンク?
ノンパラメトリックベイズ4章クラスタリンク?
智文 中野
?
Prml 1.3~1.6 ver3
Prml 1.3~1.6 ver3Prml 1.3~1.6 ver3
Prml 1.3~1.6 ver3
Toshihiko Iio
?
はじめてのパターン认识8章サポートベクトルマシン
はじめてのパターン认识8章サポートベクトルマシンはじめてのパターン认识8章サポートベクトルマシン
はじめてのパターン认识8章サポートベクトルマシン
NobuyukiTakayasu
?
クラシックな机械学习入门:付録:よく使う线形代数の公式
クラシックな机械学习入门:付録:よく使う线形代数の公式クラシックな机械学习入门:付録:よく使う线形代数の公式
クラシックな机械学习入门:付録:よく使う线形代数の公式
Hiroshi Nakagawa
?
Direct feedback alignment provides learning in Deep Neural Networks
Direct feedback alignment provides learning in Deep Neural NetworksDirect feedback alignment provides learning in Deep Neural Networks
Direct feedback alignment provides learning in Deep Neural Networks
Deep Learning JP
?
ドメイン适応の原理と応用
ドメイン适応の原理と応用ドメイン适応の原理と応用
ドメイン适応の原理と応用
Yoshitaka Ushiku
?
Deep Counterfactual Regret Minimization
Deep Counterfactual Regret MinimizationDeep Counterfactual Regret Minimization
Deep Counterfactual Regret Minimization
Kenshi Abe
?
制限ボルツマンマシン入门
制限ボルツマンマシン入门制限ボルツマンマシン入门
制限ボルツマンマシン入门
佑馬 斎藤
?
ECCV2020 Oral論文 完全読破(1/2)
ECCV2020 Oral論文 完全読破(1/2)ECCV2020 Oral論文 完全読破(1/2)
ECCV2020 Oral論文 完全読破(1/2)
cvpaper. challenge
?
顿狈狈の曖昧性に関する研究动向
顿狈狈の曖昧性に関する研究动向顿狈狈の曖昧性に関する研究动向
顿狈狈の曖昧性に関する研究动向
Naoki Matsunaga
?
Deep Learning技術の最近の動向とPreferred Networksの取り組み
Deep Learning技術の最近の動向とPreferred Networksの取り組みDeep Learning技術の最近の動向とPreferred Networksの取り組み
Deep Learning技術の最近の動向とPreferred Networksの取り組み
Kenta Oono
?
次世代シーケンサが求める机械学习
次世代シーケンサが求める机械学习次世代シーケンサが求める机械学习
次世代シーケンサが求める机械学习
sesejun
?
最适输送の解き方
最适输送の解き方最适输送の解き方
最适输送の解き方
joisino
?
Bayes Independence Test - HSIC と性能を比較する-
Bayes Independence Test - HSIC と性能を比較する-Bayes Independence Test - HSIC と性能を比較する-
Bayes Independence Test - HSIC と性能を比較する-
Joe Suzuki
?
データ解析14 ナイーブベイズ
データ解析14 ナイーブベイズデータ解析14 ナイーブベイズ
データ解析14 ナイーブベイズ
Hirotaka Hachiya
?
サポートベクトルマシン(厂痴惭)の勉强
サポートベクトルマシン(厂痴惭)の勉强サポートベクトルマシン(厂痴惭)の勉强
サポートベクトルマシン(厂痴惭)の勉强
Kazuki Adachi
?
础濒辫丑补骋辞のしくみ
础濒辫丑补骋辞のしくみ础濒辫丑补骋辞のしくみ
础濒辫丑补骋辞のしくみ
Hiroyuki Yoshida
?
フ?ースティンク?入门
フ?ースティンク?入门フ?ースティンク?入门
フ?ースティンク?入门
Retrieva inc.
?
Learning with a Wasserstein Loss (NIPS2015)
Learning with a Wasserstein Loss (NIPS2015)Learning with a Wasserstein Loss (NIPS2015)
Learning with a Wasserstein Loss (NIPS2015)
Hayato Watanabe
?
最适输送入门
最适输送入门最适输送入门
最适输送入门
joisino
?
ノンパラメトリックベイズ4章クラスタリンク?
ノンパラメトリックベイズ4章クラスタリンク?ノンパラメトリックベイズ4章クラスタリンク?
ノンパラメトリックベイズ4章クラスタリンク?
智文 中野
?
はじめてのパターン认识8章サポートベクトルマシン
はじめてのパターン认识8章サポートベクトルマシンはじめてのパターン认识8章サポートベクトルマシン
はじめてのパターン认识8章サポートベクトルマシン
NobuyukiTakayasu
?
クラシックな机械学习入门:付録:よく使う线形代数の公式
クラシックな机械学习入门:付録:よく使う线形代数の公式クラシックな机械学习入门:付録:よく使う线形代数の公式
クラシックな机械学习入门:付録:よく使う线形代数の公式
Hiroshi Nakagawa
?
Direct feedback alignment provides learning in Deep Neural Networks
Direct feedback alignment provides learning in Deep Neural NetworksDirect feedback alignment provides learning in Deep Neural Networks
Direct feedback alignment provides learning in Deep Neural Networks
Deep Learning JP
?
ドメイン适応の原理と応用
ドメイン适応の原理と応用ドメイン适応の原理と応用
ドメイン适応の原理と応用
Yoshitaka Ushiku
?
Deep Counterfactual Regret Minimization
Deep Counterfactual Regret MinimizationDeep Counterfactual Regret Minimization
Deep Counterfactual Regret Minimization
Kenshi Abe
?
制限ボルツマンマシン入门
制限ボルツマンマシン入门制限ボルツマンマシン入门
制限ボルツマンマシン入门
佑馬 斎藤
?
ECCV2020 Oral論文 完全読破(1/2)
ECCV2020 Oral論文 完全読破(1/2)ECCV2020 Oral論文 完全読破(1/2)
ECCV2020 Oral論文 完全読破(1/2)
cvpaper. challenge
?

More from Takanori Nakai (18)

Sentence-State LSTM for Text Representation
Sentence-State LSTM for Text RepresentationSentence-State LSTM for Text Representation
Sentence-State LSTM for Text Representation
Takanori Nakai
?
WSDM2018 読み会 Latent cross making use of context in recurrent recommender syst...
WSDM2018 読み会 Latent cross making use of context in recurrent recommender syst...WSDM2018 読み会 Latent cross making use of context in recurrent recommender syst...
WSDM2018 読み会 Latent cross making use of context in recurrent recommender syst...
Takanori Nakai
?
ICLR2017読み会 Data Noising as Smoothing in Neural Network Language Models @Dena
ICLR2017読み会 Data Noising as Smoothing in Neural Network Language Models @DenaICLR2017読み会 Data Noising as Smoothing in Neural Network Language Models @Dena
ICLR2017読み会 Data Noising as Smoothing in Neural Network Language Models @Dena
Takanori Nakai
?
Note : Noise constastive estimation of unnormalized statictics methods
Note : Noise constastive estimation of unnormalized statictics methodsNote : Noise constastive estimation of unnormalized statictics methods
Note : Noise constastive estimation of unnormalized statictics methods
Takanori Nakai
?
Adaptive subgradient methods for online learning and stochastic optimization ...
Adaptive subgradient methods for online learning and stochastic optimization ...Adaptive subgradient methods for online learning and stochastic optimization ...
Adaptive subgradient methods for online learning and stochastic optimization ...
Takanori Nakai
?
GBDTを使ったfeature transformationの適用例
GBDTを使ったfeature transformationの適用例GBDTを使ったfeature transformationの適用例
GBDTを使ったfeature transformationの適用例
Takanori Nakai
?
Learning Better Embeddings for Rare Words Using Distributional Representations
Learning Better Embeddings for Rare Words Using Distributional RepresentationsLearning Better Embeddings for Rare Words Using Distributional Representations
Learning Better Embeddings for Rare Words Using Distributional Representations
Takanori Nakai
?
Preference-oriented Social Networks_Group Recommendation and Inference
Preference-oriented Social Networks_Group Recommendation and InferencePreference-oriented Social Networks_Group Recommendation and Inference
Preference-oriented Social Networks_Group Recommendation and Inference
Takanori Nakai
?
高次元データの统计:スパース正则化の近似误差と推定误差
高次元データの统计:スパース正则化の近似误差と推定误差高次元データの统计:スパース正则化の近似误差と推定误差
高次元データの统计:スパース正则化の近似误差と推定误差
Takanori Nakai
?
Analysis of Learning from Positive and Unlabeled Data
Analysis of Learning from Positive and Unlabeled DataAnalysis of Learning from Positive and Unlabeled Data
Analysis of Learning from Positive and Unlabeled Data
Takanori Nakai
?
Positive Unlabeled Learning for Deceptive Reviews Detection
Positive Unlabeled Learning for Deceptive Reviews DetectionPositive Unlabeled Learning for Deceptive Reviews Detection
Positive Unlabeled Learning for Deceptive Reviews Detection
Takanori Nakai
?
Modeling Mass Protest Adoption in Social Network Communities using Geometric ...
Modeling Mass Protest Adoption in Social Network Communities using Geometric ...Modeling Mass Protest Adoption in Social Network Communities using Geometric ...
Modeling Mass Protest Adoption in Social Network Communities using Geometric ...
Takanori Nakai
?
Similarity component analysis
Similarity component analysisSimilarity component analysis
Similarity component analysis
Takanori Nakai
?
Query driven context aware recommendation
Query driven context aware recommendationQuery driven context aware recommendation
Query driven context aware recommendation
Takanori Nakai
?
Unsupervised Graph-based Topic Labelling using DBpedia
Unsupervised Graph-based Topic Labelling using DBpediaUnsupervised Graph-based Topic Labelling using DBpedia
Unsupervised Graph-based Topic Labelling using DBpedia
Takanori Nakai
?
Psychological Advertising_Exploring User Psychology for Click Prediction in S...
Psychological Advertising_Exploring User Psychology for Click Prediction in S...Psychological Advertising_Exploring User Psychology for Click Prediction in S...
Psychological Advertising_Exploring User Psychology for Click Prediction in S...
Takanori Nakai
?
金利期間構造について:Forward Martingale Measureの導出
金利期間構造について:Forward Martingale Measureの導出金利期間構造について:Forward Martingale Measureの導出
金利期間構造について:Forward Martingale Measureの導出
Takanori Nakai
?
Topic discovery through data dependent and random projections
Topic discovery through data dependent and random projectionsTopic discovery through data dependent and random projections
Topic discovery through data dependent and random projections
Takanori Nakai
?
Sentence-State LSTM for Text Representation
Sentence-State LSTM for Text RepresentationSentence-State LSTM for Text Representation
Sentence-State LSTM for Text Representation
Takanori Nakai
?
WSDM2018 読み会 Latent cross making use of context in recurrent recommender syst...
WSDM2018 読み会 Latent cross making use of context in recurrent recommender syst...WSDM2018 読み会 Latent cross making use of context in recurrent recommender syst...
WSDM2018 読み会 Latent cross making use of context in recurrent recommender syst...
Takanori Nakai
?
ICLR2017読み会 Data Noising as Smoothing in Neural Network Language Models @Dena
ICLR2017読み会 Data Noising as Smoothing in Neural Network Language Models @DenaICLR2017読み会 Data Noising as Smoothing in Neural Network Language Models @Dena
ICLR2017読み会 Data Noising as Smoothing in Neural Network Language Models @Dena
Takanori Nakai
?
Note : Noise constastive estimation of unnormalized statictics methods
Note : Noise constastive estimation of unnormalized statictics methodsNote : Noise constastive estimation of unnormalized statictics methods
Note : Noise constastive estimation of unnormalized statictics methods
Takanori Nakai
?
Adaptive subgradient methods for online learning and stochastic optimization ...
Adaptive subgradient methods for online learning and stochastic optimization ...Adaptive subgradient methods for online learning and stochastic optimization ...
Adaptive subgradient methods for online learning and stochastic optimization ...
Takanori Nakai
?
GBDTを使ったfeature transformationの適用例
GBDTを使ったfeature transformationの適用例GBDTを使ったfeature transformationの適用例
GBDTを使ったfeature transformationの適用例
Takanori Nakai
?
Learning Better Embeddings for Rare Words Using Distributional Representations
Learning Better Embeddings for Rare Words Using Distributional RepresentationsLearning Better Embeddings for Rare Words Using Distributional Representations
Learning Better Embeddings for Rare Words Using Distributional Representations
Takanori Nakai
?
Preference-oriented Social Networks_Group Recommendation and Inference
Preference-oriented Social Networks_Group Recommendation and InferencePreference-oriented Social Networks_Group Recommendation and Inference
Preference-oriented Social Networks_Group Recommendation and Inference
Takanori Nakai
?
高次元データの统计:スパース正则化の近似误差と推定误差
高次元データの统计:スパース正则化の近似误差と推定误差高次元データの统计:スパース正则化の近似误差と推定误差
高次元データの统计:スパース正则化の近似误差と推定误差
Takanori Nakai
?
Analysis of Learning from Positive and Unlabeled Data
Analysis of Learning from Positive and Unlabeled DataAnalysis of Learning from Positive and Unlabeled Data
Analysis of Learning from Positive and Unlabeled Data
Takanori Nakai
?
Positive Unlabeled Learning for Deceptive Reviews Detection
Positive Unlabeled Learning for Deceptive Reviews DetectionPositive Unlabeled Learning for Deceptive Reviews Detection
Positive Unlabeled Learning for Deceptive Reviews Detection
Takanori Nakai
?
Modeling Mass Protest Adoption in Social Network Communities using Geometric ...
Modeling Mass Protest Adoption in Social Network Communities using Geometric ...Modeling Mass Protest Adoption in Social Network Communities using Geometric ...
Modeling Mass Protest Adoption in Social Network Communities using Geometric ...
Takanori Nakai
?
Similarity component analysis
Similarity component analysisSimilarity component analysis
Similarity component analysis
Takanori Nakai
?
Query driven context aware recommendation
Query driven context aware recommendationQuery driven context aware recommendation
Query driven context aware recommendation
Takanori Nakai
?
Unsupervised Graph-based Topic Labelling using DBpedia
Unsupervised Graph-based Topic Labelling using DBpediaUnsupervised Graph-based Topic Labelling using DBpedia
Unsupervised Graph-based Topic Labelling using DBpedia
Takanori Nakai
?
Psychological Advertising_Exploring User Psychology for Click Prediction in S...
Psychological Advertising_Exploring User Psychology for Click Prediction in S...Psychological Advertising_Exploring User Psychology for Click Prediction in S...
Psychological Advertising_Exploring User Psychology for Click Prediction in S...
Takanori Nakai
?
金利期間構造について:Forward Martingale Measureの導出
金利期間構造について:Forward Martingale Measureの導出金利期間構造について:Forward Martingale Measureの導出
金利期間構造について:Forward Martingale Measureの導出
Takanori Nakai
?
Topic discovery through data dependent and random projections
Topic discovery through data dependent and random projectionsTopic discovery through data dependent and random projections
Topic discovery through data dependent and random projections
Takanori Nakai
?

笔鲍颁碍モデルの适用例:修论を仕上げた后、个人的にやっていたリサーチ

  • 2. Contents 1 初めに 2 2 2 次 PUCK 検定の方法と適用例 3 2.1 PUCK 検定の有効性 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3 2.2 結果 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4 3 2 次 PUCK 検定の実データへの適用 6 A 2 次 PUCK 検定の方法 12
  • 3. Chapter 1 初めに 本報告書は 2 次 PUCK 検定と実データへの応用をまとめたものである。 本報告書の結論は、2 次ポテンシャルまでを想定した PUCK モデル P(t + 1) ? P(t) = ? d dp U(p, t)|p= P (t)?PM (t) M?1 + N(0, σ), (1.1) U(p, t) = b(t) 2 p2 , (1.2) PM (t) = 1 M M?1∑ k=0 P(t ? k). (1.3) と OU 過程でモデル化した b(t) b(t + 1) = b(t) + θ1(θ2 ? b(t)) + θ3N(0, 1) (1.4) により発生させた価格に 2 次 PUCK 検定を適用すると、設定する閾値の条件下で、約 99% が適用可能であることがわかった。さらに、この判定法を 2006/1/3~2006/7/1(CQG 社 から提供されたデータで、1 分間隔の bestbid) 期間中、円ドルの為替価格似て起用すると、 上記と同様の条件で約 93% 適用可能であることがわかった。
  • 4. Chapter 2 2次PUCK検定の方法と適用例 ここでは、PUCK 検定が有効に機能するのかを調べる。その概要は、OU 過程 (1.4) 式に よって生成した b(t) を 2 次ポテンシャルまでを想定した PUCk モデル (1.1) 式に入力して、 PUCK 検定を行うものである。ただし、OU パラメータは 2006/0101/~2006/06/30 の市 場価格の統計性を再現した (θ1, θ2, θ3) = (0.029, 0.12, 0.218) (2.1) 、また M=20、σ = 0.02 とした。 さらに、PUCK 検定の概要を述べておく。1 この検定では、 A)b=0 でない場合、(1.1) 式が成立するかどうか B) 最後に、b=0 の場合を復活させる 、というステップを踏む。そして、A) では、b=0 でない閾値として、決定係数の閾値を 0.029 とした 2 。ここで、強調しておくことは、この検定には次の様な 2 種類の閾値がある ことである; 1. 決定係数の関する閾値 (Rthreshold と定義、Appendix A の最後の文) => 判定 A) に 対応 2. b=0 に関する閾値 (Probthreshold と定義、Appendix A の最後の文) => ?判定 B) に 対応 2.1 PUCK検定の有効性 PUCK 検定の有効性を知るために、次のような実験を行った。 1. (1.1) 式に M = 20, σ = 0.02 を代入する。そして、b(t) に関しては (θ1, θ2, θ3) = (0.029, 0.12, 0.218) として最適移動平均を発生させる。発生させたパスは 100000 個 である。 2. 次に、スーパー移動平均を計算し、(1.1) 式に対する決定係数を計算する。ただし、 {P(t + 1) ? P(t)} {(P(t) ? PM (t))} を順に、非説明変数?説明変数とした。 1 Appnedix A に詳細を記述する。 2 Appendix A を参照のこと。
  • 5. 2.2 結果 4 3. Rthreshold = 0.029、Probthreshold ∈ [0.93, 1.0] として設定する。 4. 設定した閾値に関して夫々2 次 PUCK 検定を行い、PUCK 検定を受託する確率を計 算する 5. 1~4 を 1000 回繰り返して、PUCK 検定を受託する確率を 1000 個作る。 6. 設定した閾値に関して各々の場合の受託率の平均?標準偏差を 1000 個のデータから 推定する。 2.2 結果 1.00 0.98 0.96 0.94 0.92 Mean 1.000.980.960.94 Threshold 6x10 -3 4 2 0 Stdev Mean Stdev Figure 2.1: 受託確率の平均と標準偏差、左軸 (赤):平均、右軸 (青):標準偏差、水平 軸:Probthreshold。ただし、Rthreshold = 0.029 図 2.1 から、Probthreshold が 0.97~0.98 の間において急激に受託確率が低くなっている ことがわかる。この区間を 0.001 刻みの Probthreshold で調べたのが図 2.2 である;
  • 6. 2.2 結果 5 1.00 0.98 0.96 0.94 0.92 Mean 0.9800.9750.970 Threshold 6x10 -3 4 2 0 Stdev Mean Stdev Figure 2.2: 受託確率の平均と標準偏差、左軸 (赤):平均、右軸 (青):標準偏差、水平 軸:Probthreshold。ただし、Rthreshold = 0.029 細かく調べても、受託確率が約 99% から急激に約 94% に減少している。同時に、受託 確率の標準偏差も急激に増加している。これは次のように解釈できると考える。 決定係数、R(t)、を見積もる際、{P(t + 1) ? P(t)}、{P(t) ? PM (t)} に関して、各々200 個から推定している。さらに、ここでは、5 個づつの Box に分けて平均しているので、結 局 50 個から b(t) を推定していることになる (正確には、両端の 2 個をはずれ値として処 理するので、48 個である)。 問題は、このように R(t) を推定する際、2.1 節のステップ 4 で確実に b(t)=0 の場合が受 託確率に含まれるかという点である。R(t) の推定はデータ数が 48 点で行うので、もし、 48 点のデータの内 1 点が [? ? 3Σ/5, ? + 3Σ/5] に含まれなければ、この時間に関して、2 次 PUCK 検定が棄却される。なぜなら、[? ? 3Σ/5, ? + 3Σ/5] に Probthreshold の点が含ま れなければ受託されないからである。このことが受託確率が急激に変化している箇所で起 こっていると考えられる。理想的には、2 次 PUCK+OU でモデル化した b(t) で発生させ た場合、受託確率は 100% になるはずだからである。 以上の実験から、実データに 2 次 PUCK 検定を適用する際、2 種類の閾値の設定は Rthreshold = 0.029 Probthreshold = 0.97 とした。
  • 7. Chapter 3 2次PUCK検定の実データへの適用 第 2 章の結果を使って、CQG 社から提供された 2006/1/3~2006/6/30 の 1 分間隔の円ド ルの外国為替市場のデータ適用した。その結果、約 93% のデータが 2 次ポテンシャルま でを想定した PUCK モデルにより記述可能であった。 用いたデータは下図のようになっている; 118 116 114 112 110 Price[USD/JPY] 150x10 3 100500 Time[minute] Figure 3.1: 円ドルの価格、縦軸:価格、横軸:時間 [分](2006/1/3~2006/7/1) 図 3 の長方形で囲った時間帯で、価格にトレンド (RegionA)?急激な変化 (RegionB) と思 える価格変動をあらわす時間帯を下図の示す。
  • 8. 7 111.5 111.0 110.5 110.0 109.5 Price[USD/JPY] 133.2x10 3 132.8132.4132.0 Time[minute] 2006/5/11/15:51 ~2006/5/12/21:07 Figure 3.2: RegionA、価格にトレンドがあると思われる領域 赤色の時系列が実際の為替価格。青色のプロットが 2 次 PUCK 検定において棄却され た時間を表す。時系列の表示時間はほぼ 1 日である。1 日の間に、2 円価格が下落してい るので、価格変動に関して強い下降トレンドがあるとみなせる。 さて、本当にこの時間帯で三次ポテンシャルが観測できているかを調べる。以下の図で は、番号 1332200~133300 のポテンシャルを連続的に観測した。観測するポテンシャルは (M-1) で規格化したものである。RegionA については補足資料 A(pdf の題名は main?gA) を参照して下さい。補足資料の中でもきれいに三次ポテンシャルが観測できているものを 1 つあげると、次のようになる;
  • 9. 8 -10x10 -3 -5 0 5 10 U(t) -100x10 -3 0 100 P(t)-PM(t) Figure 3.3: 2006/5/12/16:55 に観測したポテンシャル
  • 10. 9 112.5 112.0 111.5 111.0 110.5 110.0 Price[USD/JPY] 141.2x10 3 140.8140.4140.0139.6 Time[minute] 2006/5/19/2:34 ~2006/5/20/5:14 Figure 3.4: RegionB、価格に急激な変化があると思われる領域 赤色の時系列が実際の為替価格。青色のプロットが 2 次 PUCK 検定において棄却され た時間を表す。時系列の表示時間はほぼ 1 日である。大きな価格変動二着目すると、約 30 分で約 0.5 円上昇している。これは、1 日に直すと 24 円上昇することと等しく、短い時間 ではあるがかなり大きな価格変動といえる。 こちらでも同様に、本当にこの時間帯で三次ポテンシャルが観測できているかを調べる。 以下の図では、番号 140425~140453 のポテンシャルを連続的に観測した。観測するポテ ンシャルは (M-1) で規格化したものである。RegionB については補足資料 B(pdf の題名は main?gB) を参照してください。補足資料の中でもきれいに三次ポテンシャルが観測でき ているものを 1 つあげると、次のようになる;
  • 11. 10 -3x10 -3 -2 -1 0 1 2 3 U(t) -100x10 -3 0 100 P(t)-PM(t) Figure 3.5: 2006/5/19/16:32 に観測したポテンシャル
  • 12. 11 補足資料 A?B から、図 3.3?3.5 のようなポテンシャルが 2 次 PUCK 検定で棄却され た時間で観測されている。これの事実と第 2 章の結果から、現在用いている 2 次 PUCK 検定にはそれなりに有意義であることが主張できると思います。
  • 13. Appendix A 2次PUCK検定の方法 まず線形力を想定した PUCK モデルを定義する; P(t + 1) ? P(t) = ? d dp U(p, t)|p= P (t)?PM (t) M?1 + f(t) (A.1) U(p, t) = b(t) 2 p2 , (A.2) PM (t) = 1 M M?1∑ k=0 P(t ? k). (A.3) ただし、P(t) は、最適移動平均を適応し、ノイズを除去した 1 分刻みの価格の時系列であ る。b(t) はポテンシャル係数と呼ばれる線形力の強さを定量的に表す係数である。また、 f(t) は平均が 0 の正規乱数とする。 次に、{P(t + 1) ? P(t)} を被説明変数、{P(t) ? PM (t)} を説明変数とし、新たな変数 X(t), Y (t) を次のように定義する; Y (t) = P(t + 1) ? P(t), X(t) = P(t) ? PM (t) (A.4) この新たな変数を用いて (1) 式を変換すると、 Y (t) = ? b(t) M ? 1 X(t) + f(t) (A.5) となる。この Y と X は単回帰の関係になっており、決定係数、R2 、は次式で定義できる; R2 = [ ∑ (Xj? < X >)(Yj? < Y >)]2 ∑ (Xj? < X >)2 ∑ (Yj? < Y >)2 . (A.6) 一般に、決定係数は、その値が高いほど被説明変数と説明変数の直線関係がつよい。従っ て、2 次 PUCK のポテンシャル係数を推定する際に用いる {X(t), Y (t)} の散布図の決定 係数を求め、直線関係を判定する為に、決定係数に閾値をもうけた。次にその閾値の決定 方法を説明する。 (1)式で b(t)=0の場合の R2 の値を Rthresold とする。この結果を用いて、Σ(f(t)の標準偏差) とすると、b(t)=0 ならば、P(t+1) - P(t) は 97% 以上、[? ? 3Σ, ? + 3Σ]、(?=E[P(t+1)- P(t)])、の範囲に存在しなければならない。また、ポテンシャルを推定際、、x の値の小さ い順から 5 点ずつの平均値を用いて b(t) を推定している事を考慮すると P(t+1) - P(t) は 99% 以上、[? ? 3Σ/5, ? + 3Σ/5] の範囲に存在しなければならない。 まとめると、下の ようになる;
  • 14. 13 1. R2 > Rthresold ならば、2 次 PUCK モデルが有効であるとする。 2. R2 ≤ Rthresold であっても、P(t+1) - P(t) が 97% 以上、[? ? 3Σ/5, ? + 3Σ/5] の範囲 に存在すれば、2 次 PUCK モデルが有効であるとする。 用いたデータにおいて、Rthresold = 0.029 であった。