狠狠撸
Submit Search
金融时系列のための深层迟过程回帰モデル
?
2 likes
?
2,960 views
Kei Nakagawa
Follow
2019年厂颈驳贵颈苍研究会优秀赏论文赏受赏
Read less
Read more
1 of 20
More Related Content
金融时系列のための深层迟过程回帰モデル
1.
金融时系列のための深层迟过程回帰モデル 第21回 人工知能学会 金融情報学研究会 2018/10/20
2.
2 背景/目的 ? 隠れ層が多層の場合のニューラルネットワーク(深層学習)に対応するカーネル関数の導出 (Cho and
Saul [2009]) ? 深層学習カーネルを用いた深層ガウス過程回帰モデルの提案(Lee et, al.[2018]) ?点推定である(信頼区間などの確率情報がない) ?ハイパーパラメータが多く、過学習しやすい ?収束の確認が難しく、モデル比較ができない 深層学習は様々な分野/タスクで非常に高い性能を挙げているが、下記をはじめ問題点も多くある。 深層学習のベイズ推論化、ガウス過程で表現するアプローチが注目されている。 ? 隠れ層が単層の場合のニューラルネットワークに対応するカーネル関数の導出(Neal [1994]) ?学習に大量のデータが必要
3.
3 モデルができないこと、苦手なことを理解できる。 以上を踏まえて、一般に裾の厚い金融時系列データへの適用のため、 深層ガウス過程回帰から、深層t過程回帰への拡張と有効性の評価を行う。 予測に自信がない(=予測誤差が大きい)と 実際に予測も間違えやすい 深層ガウス過程回帰モデルの画像データ予測に対する予測誤差(横軸)と予測精度(縦軸) しかも精度は深層学習と同程度。 背景/目的 Lee et, al.[2018]より抜粋
4.
アウトライン 背景/目的 カーネル法と深層学習カーネル ガウス過程とガウス過程回帰モデル t過程とt過程回帰モデル 実証分析 まとめ ?
5.
カーネル法 5 (?1, ?2, ?3)
= (?1 2 , ?2 2 , 2?1 ?2) 特徴空間で(内積を用いて)解析を行う! ?(?) 特徴写像 データ空間 ? 特徴空間 ? より表現力を高めるため、 高次元(無限次元)で考えたい。 カーネル?トリック 高次元への写像?をどのように決めるか? 非線形性のあるデータを高次元空間へ写し、単純な構造を抽出。
6.
カーネル法 6 特徴写像によって、内積を持つ特徴空間(ヒルベルト空間)にデータを写像し解析する のではなく、特徴ベクトルの内積 ? ??
, ? ?? を用いる。 ?1, … , ? ? → ? ?1 , … , ?(? ?) すると、この内積がある条件(正定値性)を満たすカーネル関数?を用いて 高次元、無限次元 データ数分の次元 変換?が明示的に分からなくてもOK! しかし、カーネルだけ計算できるような特徴空間中の量が多数ある。 (回帰、PCAなどほとんどのアルゴリズムが適用可能) ? ?? , ? ?? = ?(??, ??) と計算できる。(Mercerの定理) カーネル法では、カーネル関数?を設計することで解析を行う。
7.
深層学習カーネル 7 ? ? ?, ?′ =
? ? 2 + ? ? 2 ? ?(? ??1 ?, ? , ? ??1 ?, ?′ , ? ??1 ?′ , ?′ ) 引数を? ? 1層のカーネルとしたとき、活性化関数?によって異なる関数? ?を用いて表現できる。 ? ? ?, ?′ = ? ? 2 + ? ? 2 2 ???1 ?, ? ???1 ?′, ?′ (sin ? ??1 + ? ? ? ??1 cos ? ??1) ? ??1 = ? ??1 ?, ?′ ? ??1 ?, ? ? ??1 ?′, ?′ ? ?は活性化関数がReLUの場合には以下のように解析的に書け、 その他の場合には数値的に計算できる。 中間層に無限個ユニット数を持つ非線形関数(NN)に対応したカーネル関数が存在。 単層の場合; Neal [1994] 多層の場合; Cho and Saul [2009]
8.
アウトライン 背景/目的 カーネル法と深層学習カーネル ガウス過程とガウス過程回帰モデル t過程とt過程回帰モデル 実証分析 まとめ ? ?
9.
ガウス過程 9 ?確率過程???が、入力ベクトルから成る任意の有限集合 ? =
?1, … , ? ? ? に対して、 関数値のベクトル??? = ??? ?1 , … , ??? ? ? ? の分布がガウス分布であるとき、 ガウス過程という。 ????の分布は、 ガウス分布であるので、その期待値を指定する平均関数 ? = ? ?1 , … , ? ? ? ? および、共分散 (カーネル) 関数 ? = (? ?, ? ?) の値? ?? を 要素とする共分散行列?を指定するによって完全に特定できる。これを、 ??? ~?(? ? , ?(?, ?0)) と書く。 → ? 個のデータを ? 次元正規分布として表現 → 既知のデータ点が ? 個あるとき、それらを ? 次元正規分布 ?(? ? , ?(?, ?0)) からの サンプルであると考える。
10.
ガウス過程 10 カーネル 関数 ?1 ?2 ?1 ?2 ?1?2 ガウス過程のイメージ(サンプル) … … … ? 【1】カーネル関数によって類似度を計算 【2】カーネル関数を共分散行列とする ガウス分布から?のサンプルを得る 「近い」データは似たような値をとる。 ? 2 × 標 準 偏 差 データ点が多いほど、予測誤差は小さく、 データ点が少ないほど、予測誤差は大きい。 途中でサンプルの傾向が変わった場合に対応可能 外挿に強い
11.
11 ガウス過程回帰モデル ?? = ???
?? + ?? ???~?(?(?), ?(?, ?0)) ??? + ??~?(? ? , ? ?, ?0 + ?2 ?) ? ??? ? ~? ?(?) ?(?) , ? ?, ? + ?2 ? ? ?, ? ? ? ?, ? ? ?, ? ? ??? ? ? = ? ??? ? , ? ? ? ~?( ?, Σ) ? = ? ?, ? ? ? ?, ? + ?2 ? ?1 ? ? ? ? + ?(?) Σ = ? ?, ? ? ? ? ?, ? ? ? ?, ? + ?2 ? ?1 ? ?, ? ??~?(0, ?2) ガウス過程を使った回帰モデルを考える。 ガウス分布の畳込みはまたガウス分布であるので、 ここで、新しい観測値 ? = ?1, … , ? ? ?が与えられたとき、その予測値??? ? = ??? ? (?1), … , ??? ? (? ?) ?と ?の同時分布は、?と?のカーネルを考えることで、再びガウス過程となり、 ?の下での予測値??? ? の分布は、条件付き分布を計算することで、 分布があるので最尤法で推定可能 ,
12.
t過程 12 メリット: 外れ値を考慮できる。 ガウス過程とほぼ同じ性質がある デメリット: 自由度のパラメータが増える。 t過程 ガウス過程 ?(?, ?)
= min(s, t) ;Wiener processの平均0のガウス過程とt過程(自由度5)を100サンプル生成 ? ?, ?, ? = Γ ? + ? 2 ? ? 2 ? ? 2Γ ? 2 det ? ? 1 2 × 1 + ? ? ? ? ??1 ? ? ? ? ? 2 ? ?+? 2 t 過程とガウス過程の違い 指数関数の定義から ? → ∞でガウス分布へ収束。 ???? 個のデータを ? 次元t分布として表現
13.
13 t過程回帰モデル ?? = ???
?? + ?? ???~?(?, ?(?), ?(?, ?0)) ??? + ?? ≈ ?(?, ? ? , ? ?, ?0 + ?2 ?) ? ??? ? ~? ?, ?(?) ?(?) , ? ?, ? + ?2 ? ? ?, ? ? ? ?, ? ? ?, ? ? ??? ? ? = ? ??? ? , ? ? ? ~?( ?, ?, Σ) ? = ? ?, ? ? ? ?, ? + ?2 ? ?1 ? ? ? ? + ?(?) Σ = ? ? ? ? 2 ? ? ? ? 2 ? ?, ? ? ? ? ?, ? ? ? ?, ? + ?2 ? ?1 ? ?, ? ??~?(?, 0, ?2) t過程を使った回帰モデルを考える。 t分布の畳込みはまたt分布にならないが、近似的に、 ここで、新しい観測値 ? = ?1, … , ? ? ?が与えられたとき、その予測値??? ? = ??? ? (?1), … , ??? ? (? ?) ?と ?の同時分布は、?と?のカーネルを考えることで、再びt過程となり、 ?の下での予測値??? ? の分布は、条件付き分布を計算することで、(論文参照) ? = ? + ? ? = ? ? ? ? ? ? ?, ? ?? ? ? ? ? 分布があるので最尤法で推定可能 ,
14.
実証分析 各国の株式指数(TPX,S&P,DAX)の月次データを用いて、深層ガウス過程回帰モデルをベンチマークに、 深層t過程回帰モデルの有効性を確認する。 14 TPX SPX DAX 年率リターン[%]
2.37 7.38 8.15 年率リスク[%] 18.02 14.24 18.32 歪度 -0.47 -0.82 -0.56 尖度 5.22 6.2 5.69 Jarque-Beta統計量 12.94 41.75 23.67 p-値[%] 0.155 0 0.0007 ?データは2018/6末から直近12年分 (144 サンプル) を使用し、うち推定に7割、テストに3割使用する。 全期間における各指数の統計量 各指数ともに正規性を満たさないため、t過程をあてはめる余地がある。 ?各指数の配当利回り、PBR、PER、ROE、12-1 か月モメンタムを説明変数とし、 翌月のリターンを非説明変数とする。
15.
1. 深層学習カーネルのハイパーパラメータ ?? 2 ,
? ? 2の初期値を 0.1 とする 2. 観測ノイズのパラメータ ?2 を 0.005 で与える 3. ガウス過程、t 過程をそれぞれ最尤推定する 4. テストデータを予測する 15 実証分析 ?評価指標としてテスト期間におけるRMSEとMAEを用いる。 両モデルの具体的な推定手順は下記の通りである。
16.
実証分析 16 指数 Total GP TP
GP TP GP TP RMSE 0.3511 0.2158 1.0357 0.5076 0.2934 0.1134 MAE 0.2914 0.1622 0.891 0.4282 0.2489 0.0808 予測誤差(大) GP TP GP TP GP TP RMSE 0.3561 0.2623 1.3646 0.6856 0.3285 0.139 MAE 0.2937 0.2079 1.3431 0.6674 0.2759 0.1014 予測誤差(小) GP TP GP TP GP TP RMSE 0.3458 0.1524 0.565 0.2343 0.2553 0.08 MAE 0.2892 0.1142 0.4594 0.1999 0.2231 0.0602 TPX SPX DAX GPはデータの非正規性により、異常値に振らされた予測を行うため、 TPよりも精度が悪いのでは。 精度の分析(1層) 指数 TPX SPX DAX Total RMSE 38.5% 51.0% 61.3% MAE 44.3% 51.9% 67.5% 予測誤差(大) RMSE 26.3% 49.8% 57.7% MAE 29.2% 50.3% 63.2% 予測誤差(小) RMSE 55.9% 58.5% 68.7% MAE 60.5% 56.5% 73.0% 改善率 改善率 改善率
17.
17 実証分析 SPXの予測誤差(Std)とRMSEとの関係(赤丸:GP、青丸:TP) ?先行研究同様に、金融データにおいても 予測誤差が大きいほど、 予測精度が悪くなっていることがわかる。 ?他の指数でも同様の傾向。
18.
18 実証分析 Total 1層 2層
3層 4層 RMSE 0.3511 0.4114 0.3790 0.3893 MAE 0.2914 0.3558 0.3267 0.3354 予測誤差(大) 1層 2層 3層 4層 RMSE 0.3561 0.4218 0.3559 0.3867 MAE 0.2937 0.3621 0.3008 0.3311 予測誤差(小) 1層 2層 3層 4層 RMSE 0.3458 0.4013 0.3997 0.3918 MAE 0.2892 0.3497 0.3514 0.3396 GP Total 1層 2層 3層 4層 RMSE 0.2158 0.2222 0.1325 0.1385 MAE 0.1622 0.1651 0.1004 0.1104 予測誤差(大) 1層 2層 3層 4層 RMSE 0.2623 0.1619 0.1162 0.1432 MAE 0.2079 0.1238 0.0940 0.1171 予測誤差(小) 1層 2層 3層 4層 RMSE 0.1524 0.2674 0.1464 0.1340 MAE 0.1142 0.2045 0.1066 0.1041 TP GPは層が深くなっても精度が改善するとは限らない。 一方で、TPは層が深くなると精度が改善傾向。 精度の分析(多層、TPX)
19.
本研究では、金融時系列への応用という観点から深層ガウス過程回帰モデルを、 t過程回帰モデルへの拡張と実証分析を行った。 19 まとめ ? t 過程回帰モデルに必要となる多変量条件付き
t 分布の完全な導出 ? 実証分析により深層 t 過程回帰モデルの有効性の確認 ? 深層 t 過程の予測の不確実性と予測精度の考察
20.
今後の研究の方向性として、 20 まとめ 実証的には、 ?層の数と予測精度との関係 ?ファクターモデルへの適用 ?予測誤差を利用した投資戦略 理論的には、 ?Cauchy過程回帰モデル の検討。 ?Levy過程回帰モデル への拡張。
Editor's Notes
#2:
それでは、金融时系列のための深层迟过程回帰モデルと題して野村アセットの中川が発表します。 本研究は株式会社MAZINの角屋さん、内山さんとの共同研究になります。
#3:
さて、深層学習は色んな分野で高い精度を誇ってますが、一方で課題も多く指摘されています。 例えば、予測が点推定であるため、予測の信頼区間がわからないとか、ハイパーパラメータが多く過学習しやすい、学習に大量のデータが必要などが課題として挙げられています。 そこで、これらの課題に対処するため、深層学習をベイズ推論の枠組み、 具体的にはガウス過程を用いて表現するアプローチが提案されました。 このアプローチはまず深層学習をカーネル関数というもので表現します。 これは単層のNNはNeal(ニール)によって、多層の場合はCho(チョウ)によって導出されました。 そして、そのカーネル関数を用いたガウス過程、深層ガウス過程回帰がLeeによってまさに今年提案されました。
#4:
さて、この深層ガウス回帰モデルの最大のメリットは、 こちらの図に表現されています。 この図は有名な画像データMNISTを予測した際の、縦軸がMSE(予測精度)、横軸が予測誤差です。 図から予測誤差が大きい、すなわち予測に自信がないと実際に予測も間違えやすいことがわかります。 モデルができないこと、苦手なことを理解できます。 しかも、精度自体も同じ層の深層学習と比べても同程度、ないし若干改善しています。 以上が研究の背景で、本研究ではこの深層ガウス回帰モデルを金融時系列データへ適用するにあたり、 ガウス過程からt過程への拡張を行いました。 よく知られているように金融時系列はガウスよりも裾が厚いため、 t過程へと拡張することで精度改善が見込めるかどうかを検討します。
#5:
研究の背景と目的を紹介したので、 次のスライド以降で具体的な手法の中身を検討していきます。 ちゃんと見ていくと結構数式が多くなり、しんどいので できるだけ直感的に説明していきたいと思います。 従って詳細は論文の方を参照してください。
#6:
はじめにカーネル法のイメージを簡単にみていきます。 カーネル法は、非線形性をうまく扱うための手法です。 例えば、左の図のような線形分離できないデータがあったときに、 スライドのような変換をして、高次元、3次元に写像すると、線形分離可能になります。 このような何らかの特徴写像?ファイによって、 高次元、ないし無限次元の特徴空間へ写して解析する、 これがカーネル法のアイデアです。
#7:
ただ実際は、このファイφを直接用いるのではなく、その内積を使って解析します。 そうすると、この内積はある条件を満たす関数Kで表現できることが知られています。 その何が嬉しいかというと、高次元あるいは無限次元の空間の内積を考える必要はなく、 高々データ数分の関数Kを計算するだけでいいという点です。 カーネル法はφを直接決めてもいいのですが、普通この関数Kをうまく設計して解析します。
#8:
このカーネル関数Kについて 中間層に無限個のユニットを持つニューラルネットに対応したカーネル関数Kが存在することが証明されました。 これは深層学習と同様に階層構造を持ちます。 具体的な式は、引数を??1層のカーネルとしたとき、活性化関数?によって異なる関数 ? ? を用いて書けます。 活性化関数がRuleの場合には解析的に書けて、その他の場合は数値的に計算できます。
#9:
では、次にガウス过程についてみていきます。
#10:
ガウス過程、 ? ?? と書きますが、これは、データの出力のベクトルの分布がガウス分布になることが定義です。 つまり、n個のデータがあった時にそれらをn次元正規分布として表現できることを要求しています。 また、ガウス分布であるので、 その期待値を指定する平均関数と共分散関数、これはさきほどのカーネル関数を使いますが、 これらを指定してやれば完全に分布を特定できます。
#11:
では、ガウス過程のイメージですが、こちらの図を見てください。 まずはデータ間の関係性、類似度をカーネル関数で計算します。 そして、そのカーネル関数からの出力を共分散行列とするガウス分布を考えます。 それらのサンプルがガウス過程の具体的な出力になります。 カーネル関数で測って似ているデータは同じような値を取ります。 特徴としては、2つあって、 一つが、オレンジ線が平均をプロットしていて、点線が2σをプロットしてますが、 データが多いところでは分散が小さくなり、データが少ないところでは分散が大きくなります。 もう一つは、1次関数などの関数形を具体的に決めてないため、外挿に強く、サンプルの傾向が変わってもある程度対応できます。
#12:
では次に、このガウス過程を用いた回帰モデルを考えます。 つまり、ある被説明変数yをガウス過程と独立な正規ノイズの和で表現できるとします。 すると、ガウス分布同士の和になり、またガウス分布になります。 これは正規分布の性質ですね。 ここで、さらに新たなデータZが与えられたとき、その予測値 ? ?? ? を推定したいとします。 ガウス過程の定義から、わかっているyと予測値 ? ?? ? の分布もスライドのような結合ガウス分布になります。 するとこの結合ガウス分布の条件付き分布、yを知ったときの予測値 ? ?? ? の分布を計算することで、 このような形で分布を特定できます。 また分布はガウス分布なので最尤法で容易に計算可能です。
#13:
では、t過程は、データをt分布、下に密度関数がありますが、 これで表現するところだけがガウス過程と違います。 カーネルを二つのサンプルの時点の小さいほうとして場合、 ガウス過程とt過程のサンプルをプロットしたのがスライドの図です。 ガウス過程はようはブラウン運動です。 t過程は見てわかる通り外れ値を考慮でき、 ガウス過程とほぼ同じ性質をもつ一方で、自由度のパラメータが増えます。
#14:
では、先ほどと同じく、t過程を用いた回帰モデルを考えます。 違いは、自由度のパラメータνが入っており、ノイズがt分布である点です。 そして、t分布は和については、近似的に成り立ちます。 先ほど同様に新たなデータZが与えられたとき、予測値 ? ?? ? は、 まず結合分布を考えて、さらにその条件付き分布をとることで、予測できます。
#15:
では、具体的にt過程にすることの有効性を確認していきたいと思います。 データはTPX、SP、DAXの月次データを使います。 ベンチマークは当然深層ガウス過程回帰モデルです。 データの期間は2018年6月からの直近12年分を使用し、推定に7割、テストに3割使用します。 全期間の統計量はこちらの表の通りで、やはり正規性を満たさないため、ガウス過程よりもt過程の方がよさそうです。 回帰モデルの説明変数は、適当に各指数の配当利回り、PBR、PER、ROE、12-1カ月のモメンタムとし、 翌月のリターンを説明します。
#16:
モデルの推定はこちらの通りで最尤法で推定し、 評価指標としてテスト期間のRMSEとMAEを用いる。
#17:
こちらが結果のまとめです。 左の表は各指数のGPとTPのRMSEとMAEのサマリーです。 その右の表はGPに対してTPがどれだけ精度が改善したかという改善率を示しています。 表から全ての指数においてRMSEとMAEともにTPの方が精度が良いという結果になりました。 また、中段は予測誤差が大きい場合の結果で、下段は予測誤差が小さい場合の結果です。
#18:
こちらはSPXの予測誤差と精度の関係をプロットしたものです。 ちょうど最初のスライドに見せたものと同様の図です。
#21:
过去のファイナンスの研究が指摘していることを利用できる。