狠狠撸

狠狠撸Share a Scribd company logo
The views expressed here are our own and do not necessarily reflect the views of Nomura Asset management.
Any errors and inadequacies are our own.
言語処理学会(NLP2023) テーマセッション 1 : 金融?経済ドメインのための言語処理(1)
2023/3/15(水) 17:30-19:00
連続時間フラクショナル?トピックモデル
a.野村アセットマネジメント株式会社
b.東京大学大学院数理科学研究科
中川 慧、林 晃平、藤本 悠吾
a a
b
資産運用先端技術研究部
リサーチフェロー
Overview
1
? 本研究では、連続時間トピックモデル(cDTM)の一般化を行い、トピックと単語の生
成パラメータの増分の正負の相関性を考慮できる、連続時間フラクショナル?トピック
モデル(cFTM)を提案する。
? cFTMは連続時間モデルなので、文書のタイムスタンプが不連続?欠損があっても推
定可能、かつ、(経済?金融テキストで見られる)トピック分布および単語分布の長期依
存性やラフさを考慮することができる。
? パラメータ推定は古典的トピックモデルと同じ。そしてcFTMの理論的性質およびニュー
スデータを用いた数値実験によって、提案手法がトピックの長時間依存性またはラフさを
捉えることができることを確認する。
もくじ
2
? 準備
?トピックモデル(LDA)
?動的トピックモデル(DTM)
?連続時間動的トピックモデル(cDTM)
? 提案手法
?連続時間フラクショナル?トピックモデル(cFTM)
?理論的性質
? 実証分析
? まとめ
もくじ
3
? 準備
?トピックモデル(LDA)
?動的トピックモデル(DTM)
?連続時間動的トピックモデル(cDTM)
? 提案手法
?連続時間フラクショナル?トピックモデル(cFTM)
?理論的性質
? 実証分析
? まとめ
4
トピックモデル(LDA)
国内市況
海外市況
政治
トピック分布
20%
40%
40%
首相
緊張感
検討
加速
少子化
文書(BoW)
①トピック分布から
トピックを選択
②トピックごとの単語分布から
単語を選択
検討
注視
緊張感
90%
10%
5%
…
単語分布
? LDAは文書が潜在的なトピック分布(話題の出現確率)から生成されるモデル。
文書内の各単語はあるトピックでの単語分布(単語の出現確率)に従って出現。
[Blei et.al.2003]
5
国内市況
海外市況
政治
トピック分布
20%
40%
40%
国内市況
海外市況
政治
政治
海外市況
首相
緊張感
検討
加速
少子化
文書
①トピック分布から
トピックを選択
(多項分布)
検討
注視
緊張感
90%
10%
5%
…
単語分布
?
??
? ∈ ?
?
??
? ∈ ?
トピックモデル(LDA)
②トピックごとの単語分布から
単語を選択
(多項分布)
ディリクレ分布
のパラメータ
ディリクレ分布
のパラメータ
?
文書の順序は考慮しない
? LDAにおいては文書は交換可能であり、時間構造はない。
ディリクレ分布
ディリクレ分布
ディリクレ分布???多項分布の分布
多項分布???複数の離散値をとる分布
6
ダイナミック?トピックモデル(DTM)
???1
???1
???1
???1
?
???1
??
??
??
??
?
??
???1
?
??
?
時点? ? 1
の文書
時点?の
文書
? 文書は一般には時系列構造を持つ。
? 時系列構造を考慮できるトピックモデルを考えたい→ダイナミック?トピックモデル(DTM)
?トピックの流行り廃りを考慮したい:??
検討
注視
緊張感
90%
10%
5%
…
単語分布
アベノミクス
金融政策
三本の矢
90%
10%
5%
…
単語分布
?トピック内の言葉使いの変化を考慮したい:??
e.g., 論文、新聞、ニュース
?
国内市況
海外市況
政治
トピック分布
のパラメータ
トピック分布
(多項分布)
トピック
単語分布
のパラメータ
単語分布
(多項分布)
softmax
softmax
[Blei and Lafferty 2006]
7
連続時間ダイナミック?トピックモデル(cDTM)
? DTMでは文書のタイムスタンプが離散的かつ等間隔である必要がある。
? 現実の文書は不等間隔で発行され、また欠損があるケースもあり、それに対処したい。
トピック分布と単語分布のパラメータ??、??をBrown運動でモデリング
→連続時間ダイナミック?トピックモデル(cDTM)
実数値確率過程がBrown運動? = ?? ?≥0 であるとは、
(1)?0 = 0 ?. ?.
(2)??は連続である。
(3)??は独立増分性を持つ。
0 ≤ ?1 < ?2 < ? < ??, ??2
? ??1
, … , ???
? ????1
はそれぞれ独立。
(4)??は正規増分性を持つ。
? > ? ≥ 0, ?? ? ?
?~?(0, ? ? ?)
[Wang et.al. 2008]
もくじ
8
? 準備
?トピックモデル(LDA)
?動的トピックモデル(DTM)
?連続時間動的トピックモデル(cDTM)
? 提案手法
?連続時間フラクショナル?トピックモデル(cFTM)
?理論的性質
? 実証分析
? まとめ
9
? cDTMでは、Brown運動の性質から(1)トピックの流行り廃り??、(2)トピック内の言葉使
い??の増分が独立に変化し、時間的な依存関係を考慮できない。
トピック分布と単語分布のパラメータ??、??をFractional Brown運動(fBm)でモデリング
→連続時間フラクショナル?トピックモデル(cFTM)
実数値確率過程が? ∈ 0,1 :Hurst指数をもつFractional Brown運動
?? = ??
?
?≥0 であるとは、
(1)?0 = 0 ?. ?.
(2)??は連続である。
(3)??は正規増分性を持つ。
? > ? ≥ 0, ?? ? ?
?~?(0, ? ? ? 2?)
連続時間フラクショナルトピックモデル(cFTM)
[Mandelbrot and Ness 1968]
10
? = {??}?≥0
?? = {??,?}?≥0
??? = ???
?? ?? + ?????
?
???,? = ???,?
??,? ?? + ??,????
?
??
(?) =
exp(?)
σ exp(?)
??
(??) =
exp(??)
σ exp(??)
?~categorical(??
)
?~categorical(??
)
連続時間フラクショナルトピックモデル(cFTM)
? cFTMのグラフィカルモデル ? cFTMの生成モデル
11
cFTMの理論的性質
? cFTMはcDTMの一般化である連続時間モデルである。
→fBmの性質(連続性および正規増分性)から明らか。
? = 0.1 ? = 0.25 ? = 0. 5 ? = 0. 75 ? = 0. 9
? = 0.5のとき、fBmはBrown運動と一致する。
? > 1/2 のとき、fBmの増分は長期記憶性(≒正相関)を持つ。
? < 1/2のとき、fBmの増分はラフさ (≒負相関)を持つ。
確率過程{??}?≥0に対し,その増分??,? = ?? ? ??が長期記憶性(resp. ラフさ)を持つとは次が成り立つこと:
?
?∈?
Cov ?0,?, ? ??1 ?,?? = ∞(< ∞), ?? > 0.
長期記憶性
ラフさ
12
cFTMの理論的性質
定理1:cFTMのトピック分布および単語分布は長期依存性またはラフさを持つ
命題: 2つの確率過程??, ?? = ?(??)はハースト指数?で測って同じ長期依存性またはラフさを持つ。
ここで?(?)は一階導関数が有界ななめらかな関数とする。
証明: [Hayashi & Nakagawa TBA]
命題:ソフトマックス関数?(?)は(至る所微分可能な)リプシッツ連続である
証明: [Gao & Pavel 2017] Proposition 4
命題: (至る所微分可能な)リプシッツ連続な関数は有界な一階導関数を持つ。
証明: [杉浦 1980]
定理2:ドリフトなしのcFTMのトピック分布と単語分布の生成パラメータ (≠隠れ変数)の尤度
の最適化は古典的な(時間発展のない定常な)トピックモデルのパラメータ推定に帰着できる
略称:時刻?において??および??β分布は正規分布を用いて明示的に表すことができる
略称:ヘルダー連続性が関数ノルム(定数)を除いて一致することを示す(テイラー展開)
もくじ
13
? 準備
?トピックモデル(LDA)
?動的トピックモデル(DTM)
?連続時間動的トピックモデル(cDTM)
? 提案手法
?連続時間フラクショナル?トピックモデル(cFTM)
?理論的性質
? 実証分析
? まとめ
14
実証分析
? 分析内容
提案モデルによる時系列相関の効果を評価するため、重大イベント(東日本大震災、Brexit)前後での
トピック推移について定性的な評価を行う
? データセット
ニュースの記事データを用いて、経済トピックについて比較を行った
データセットはロイターニュース(https://jp.reuters.com/ )から以下の期間のデータを取得した
(a)東日本大震災を含む前後5日間(2011/3/8~3/12)
このうち、等間隔に抜粋したニュース記事178件を使用した。
(b)Brexit国民投票を含む前後1ヶ月(2016/6/1~2016/6/30)
このうち、等間隔に抜粋したニュース記事316件を使用した。
? 入力
これらの記事の見出しから名詞を抽出し計算したBoWを利用した。
名詞を抽出する際に、4記事以下にしか含まれていない単語及び50%以上の記事に含まれている単語は
除外した。
15
モデル設定
分析に用いたモデルの設定については以下の通り。
? ハースト指数:0.1 トピックにラフさを仮定 , 0.5, 0.9(トピックに長期依存性を仮定) について比較した。
? トピック数:すべて5に設定した。
? モデルの設定
本実験の対象期間は短期であるためトピック分布は期間中変化する一方、トピック内の単語分布の変化
は相対的に小さいことが想定される。
よって本実験では、トピック分布の生成パラメータα?のみ時間発展するとした。
? モデルの学習
MCMCサンプリング(Stan)を用いてモデルの学習を行った。
反復回数、サンプル数、warmup数、推定回数はそれぞれデフォルトの2000,1000,1000,4
に設定した。
16
2011年03月09日水曜日
米国株式市場?寄り付き=反落、原油高?ポルトガル入札が圧迫 11:57午後
独ダイムラーと英ロールスロイス、独トグナム買収を提案 11:34午後
ポルトガル国債利回り急上昇、救済必要との懸念くすぶる 11:34午後
米週間住宅ローン申請指数が上昇、雇用改善で3カ月ぶり高水準 11:32午後
リビア政権派の戦車部隊、ザウィヤの広場を包囲 11:31午後
NY外為市場?序盤=ユーロが対ドルで上昇、ポルトガル国債入札が支援 11:28午後
西側が飛行禁止区域設定すれば、リビア国民は戦う=カダフィ大佐 11:14午後
アジア株式市場サマリー(9日) 10:56午後
中国税関当局がレアアース輸出の発表方法変更、落ち込みをカモフラージュ 10:54午後
〔表〕LIBOR=英国銀行協会 10:34午後
アジア株式市場サマリー(9日) 9:53午後
東南アジア株式=まちまち、ディフェンシブ銘柄に買い 9:46午後
米週間住宅ローン申請指数が上昇、雇用改善で3カ月ぶり高水準 9:32午後
実証分析(ニュース例)
タイムスタンプが
不連続
17
データセット (東日本大震災前後)
地震発生前の記事例
地震発生後の記事例
地震発生前は、海外関連を中心に幅広い内容が言及されている。
地震発生後は、地震?原発に関連するニュースが急激に増加している。
「地震」の出現頻度推移
「原発」の出現頻度推移
2011/3/11 15:11 宮城県北部で震度7の地震、東京でも震度5
2011/3/11 16:16 来週の東京株式市場、地震の影響確認まで慎重な
展開に
2011/3/12 13:02 福島第1原発から放射能漏れの可能性、通常値超
える放射線量=経産省
2011/3/8 1:23 中国、インフレ抑制に向け積極財政継続へ
2011/3/9 23:31 リビア政権派の戦車部隊、ザウィヤの広場を包囲
2011/3/10 23:45 米国株式市場?寄り付き=大幅安、スペイン格下げ
や失望誘う米中統計で
18
? = 0.1 ? = 0. 5 ? = 0. 9
5つのトピックはそれぞれ、トピック1(青線)は国内ニュース、トピック2(オレンジ線)は国内市況、トピック3(緑線)は海外
ニュース、トピック4(赤線)は海外市況、トピック5(紫線)は中国関連と解釈できる。
イベント前はリビア情勢不安や中国の政府?経済動向といった海外ニュースおよび海外市況のトピックが多かった。
一方で、イベント後は震災に関する国内ニュースおよび国内市況のトピックが大幅に上昇した。
イベント前後でトピックの推移が
大きく変化することはなく、各ト
ピックの正相関性が保たれている。
イベント後にトピックの発生確率の
大幅な変動(ラフさ)がみられる
両者の中間の位置付け
?Hurst指数?を制御することで提案モデルが長期依存性/ラフさを持つトピックの動向を追跡できる。
実証分析 (東日本大震災前後でのトピック変化)
19
データセット (Brexit前後)
選挙実施終了までの記事例
選挙実施後の記事例
Brexitの是非に関する国民投票前は、Brexitに関連する言及が、投票が近づくに連れて増加傾向だった
一方で、国民投票終了後から、Brexitに関連する言及は急激に減少している
「国民投票」の出現頻度推移
「離脱」の出現頻度推移
2016/6/28 7:56 〔マーケットアイ〕外為:英ポンド134円後半、
英国格下げ相次ぎポンド売り誘う
2016/6/29 2:41 6月米消費者信頼感指数、昨年10月以来
の高水準
2016/6/30 15:37 日経平均は小幅に4日続伸、買い戻し一
巡と円強含みで安値引け
2016/6/13 11:46 前場の日経平均は大幅続落、英国のE
U離脱を懸念
2016/6/21 5:23 米国株式市場=上昇、英EU離脱懸念緩
和で安心感
2016/6/24 13:09 英国民投票、EU離脱派が勝利へ=B
BC
20
実証分析 (Brexit前後でのトピック変化)
? = 0.1 ? = 0. 5 ? = 0. 9
H=0.1でのトピック1,2およびH=0.5,0.9でのトピック1は離脱に向けての国民投票関連のニュースを示していた。
国民投票まで次第に関連ニュースが増加し、離脱決定後、一転して国民投票関連のニュースは減少した。
離脱決定後、H=0.1では短期的な記事の減少を即座に反映して大きくトピックの確率を下げた。
一方、Hを大きくするに従い、長期トレンドとしての記事の増加を反映して、トピック確率を維持している。
トピックの長期依存性を反映し、
国民投票関連のニュースが選挙終了
後も長期的には増加傾向と推定
トピックのラフさを反映して、
国民投票関連のニュースは選挙
終了後、一転して減少と推定
?Brexit前後でもHurst指数?を制御することでトピック変化の捉え方を制御できることが確認できた。
両者の中間の位置付け
21
まとめ
LDA DTM cDTM cFTM
文書の時間依存を考慮
タイムスタンプの欠損
不等間隔を考慮
トピック分布と単語分布の
長期依存性とラフさを考慮
ARモデル Brown運動 Fractional Brown運動
駆動するモデル
? 今後の発展として、トピック分布あるいは単語分布の事後分布の効率的な計算方法を考察する。それによって
より細かい粒度でのトピックの変動をモデル化できる。
また本研究では考慮していないドリフト項を非線形なニューラルネット関数を用いて学習させることが挙げられる。
? 本研究の限界としてトピックまたは単語分布の長期記憶性やラフさの再現が主目的のためドリフト項を考慮し
なかった。またfBmは一般には独立増分性を持たないため、Kalman Filterをもとにトピック分布あるいは単語
分布の事後分布を効率的に計算することができない。
?連続時間フラクショナル?トピックモデル(cFTM)の提案を行った。
22
参考文献
Gao, B., & Pavel, L. (2017). On the properties of the softmax function with application
in game theory and reinforcement learning. arXiv preprint arXiv:1704.00805.
Blei, D. M., Ng, A. Y., & Jordan, M. I. (2003). Latent dirichlet
allocation. Journal of machine Learning research, 3(Jan), 993-1022.
Blei, D. M., & Lafferty, J. D. (2006, June). Dynamic topic models.
In Proceedings of the 23rd international conference on Machine
learning (pp. 113-120).
Wang, C., Blei, D., & Heckerman, D. (2008, July). Continuous time
dynamic topic models. In Proceedings of the Twenty-Fourth
Conference on Uncertainty in Artificial Intelligence (pp. 579-586).
Mandelbrot, B. B., & Van Ness, J. W. (1968). Fractional Brownian motions,
fractional noises and applications. SIAM review, 10(4), 422-437.
杉浦光夫. (1980) 基礎数学 2 解析入門 1 (Vol. 2). 東京大学出版会.
Kohei Hayashi & Kei Nakagawa (2023). Generating Fractional Time-Series with
Latent Fractional-Net To be appear

More Related Content

連続時間フラクショナル?トピックモデル(NLP2023 金融?経済ドメインのための言語処理)