狠狠撸

狠狠撸Share a Scribd company logo
ホロノミック勾配法
株式会社デンソーアイティーラボラトリ
坂倉義明 @a2ki
DENSO?IT?Laboratory,?INC. 1/26
はじめに
? 原著
– Holonomic gradient?descent?and?its?application?to?the?Fisher–Bingham?integral
– Advances?in?Applied?Mathematics 47.3?(2011):?639‐658.
? 微分が陽に書けない関数の最適化
– 目的関数に対する勾配法が満たす微分方程式を導出
– 微分方程式の初期値設定時のみ微分の数値計算
? 統計学の世界から出てきた
– 正規化定数が陽に書けない分布の最尤(and?ベイズ?)推定
? グレブナー基底CREST(日比先生)の成果の1つ
– 東大:竹村先生グループ
DENSO?IT?Laboratory,?INC. 2/26
背景
? 最適化問題
? 勾配法による解法:?Netwon法の例
更新即
終了条件
として
DENSO?IT?Laboratory,?INC. 3/26
背景
? 更新即(再掲)
? ?g(θ),??2g(θ)が陽にかける場合→OK
? 陽に書けない場合→毎STEP導関数を数値計算
– 特に統計で出てくる問題
– の場合、導関数評価の為に、Z(θ)の数値積分が必要(大変)
DENSO?IT?Laboratory,?INC. 4/26
ホロノミック勾配法
? ?g(θ),??2g(θ)が陽にかけない場合の勾配法
? 勾配法の初期値設定時のみ、数値微分(のための積分)すればよい
? あとは勾配法に従うだけ
DENSO?IT?Laboratory,?INC. 5/26
アウトライン
? ホロノミック勾配法概要
? 適用事例
? 考察
DENSO?IT?Laboratory,?INC. 6/26
基本戦略
? θの更新即に加え、θの更新に伴う?g,??2gの更新即を導入
– 現ステップの?g(θ0),??2g(θ0)から次ステップの?g(θ1),??2g(θ1)を計算
θ
g(θ0)
g(θ1)
g(θ)
θ0 θ1
θの更新即
?g,??2gの更新即
ホロノミック勾配法をNewton法に適用したイメージ
DENSO?IT?Laboratory,?INC. 7/26
Naiveな方法:最急降下法の例
? 最急降下法における?gの更新即
? g(θ1)はg(θ0)を使って以下のようにかける
? ?g(θ1)は?g(θ0)、?2g(θ0)を使って、以下のようにかける
? これでOK!
? ではなく、次のステップ:?g(θ1)から?g(θ2)を計算するため、?3g(θ0)の値も必要
? 同様にして、芋づる式に無限に高階の導関数が必要となる
DENSO?IT?Laboratory,?INC. 8/26
無限を止める方法
? 高階の導関数が、それより低階の導関数で記述できればよい
…
DENSO?IT?Laboratory,?INC. 9/26
(定式化1)?先頁の低階導関数表現を仮定
? k=0,...,r階の導関数?kg(θ)が、有理関数ak(θ)で零化される
– AR(r)のイメージ
– 実際にはグレブナー基底の理論を用いて導出(今回は割愛)
– g(θ)?: Holonomic関数 r?:?Holonomic Rank
DENSO?IT?Laboratory,?INC. 10/26
(定式化2)?1階微分方程式:Pfaffian Systemに変換
? とおき、1階の微分方程式で表現
– AR(r)?の状態空間モデルのイメージ
– 本微分方程式:Pfaffian System,?A(θ) :?Pfaffian
×=
g
?g
?r‐1g
?g
?2g
?rg
A(θ) G?G
DENSO?IT?Laboratory,?INC. 11/26
(定式化3)?勾配法を微分方程式で表現
? 更新幅 ε→0?とすると、Newton法が満たす微分方程式は
– ただし、 は更新時刻
– この微分方程式を解いて、?g(θ)≒0で止めれば勾配法
? ここで、以下のように定義しておく
– ※ fの形を変えれば、他の勾配法もこの形でかける
DENSO?IT?Laboratory,?INC. 12/26
(定式化4)?g(θ)更新を含む勾配法の微分方程式表現
? dG/dτ(τ:更新時刻)に関する有限の数の微分方程式系を追加
– ※ “無限を止める方法”頁の更新即の導入
θの更新
g(θ)の更新
DENSO?IT?Laboratory,?INC. 13/26
(定式化5)?dθ/dτをPfaffian Systemを用いて記述
? Pfaffian A(θ)の1?2行目をそれぞれ A1(θ)、A2(θ)と置く
? Pfaffian Systemの定義より
×=
g
?g
?r‐1g
?g
?2g
?rg
A(θ) G?G
A1(θ)
A2(θ)
DENSO?IT?Laboratory,?INC. 14/26
(定式化6)?dG/dτをPfaffian Systemを用いて記述
? dG/dτをChain?Ruleで砕いて、前頁の結果とPfaffian Systemの定義を突っ込む
:?前頁の結果
:?Chain?Rule
:?Pfaffian Systemの定義
DENSO?IT?Laboratory,?INC. 15/26
以上、まとめると
1. 最適化問題 に対し、以下を定義する
– 勾配法の更新式 :
– Pfaffian Systen :?
1. 適当な初期値 をもって、以下の微分方程式を解く (e.g.ルンゲ?クッタ)
2. で終了
DENSO?IT?Laboratory,?INC. 16/26
Pfaffian Systemが自明な問題での計算例
? 問題
? より、Pfaffian Systemで記述される1階微分方程式は
? 先の公式に当てはめると、ホロノミック勾配法の微分法方程式は、Newton法の場合
? 初期値:例えば などとして上記微分方程式を解く
DENSO?IT?Laboratory,?INC. 17/26
アウトライン
? ホロノミック勾配法概要
? 適用事例
? 考察
DENSO?IT?Laboratory,?INC. 18/26
適用事例
? :回転群上のFisher分布族の最尤推定
? :球面上のFisher?Bingham分布族の最尤推定
? が第一象限に値をとる確率(象限確率)
DENSO?IT?Laboratory,?INC.
http://en.wikipedia.org/wiki/Kent_distribution
[8]より抜粋
19/26
アウトライン
? ホロノミック勾配法概要
? 適用事例
? 考察
DENSO?IT?Laboratory,?INC. 20/26
適用に有利な事実(1/2)
? 適用可能な問題のクラスが広い(Pfaffianの存在証明 :?Holonomic関数)
– 指数分布族全体
– ヘビサイド関数: H(多項式)
– 行列式 :?|行列多項式|?
– etc...
– Holonomic関数の和、積、積分もHolonomic関数
? Bayes推定、Mixtureモデル
有理式なら何でもOK
DENSO?IT?Laboratory,?INC. 21/26
適用に有利な事実(2/2)
? 職人芸が少ない
– Pfaffianが見つかれば、あとは微分方程式計算
– v.s.?MCMC
? 理論?実装両面でツール群が充実
– 式を見ただけで、Pfaffianの存在が解る
– 式を見ただけで、Pfaffianの形が解る
– Pfaffianを導出するアルゴリズムがある
– Pfaffianを導出する高速ライブラリがある
DENSO?IT?Laboratory,?INC. 22/26
適用の明暗を分ける項目
? Holonomic Rank:Pfaffianの次数
– 計算量に直結
– e.g.
? Fisher?Bingham?分布族 (Sn‐1球面):?2n?+?2?
? 象限確率 :?2d
DENSO?IT?Laboratory,?INC. 23/26
まとめと所感
? まとめ
– ホロノミック勾配法を紹介
? g(θ)が満たす微分方程式を用いて勾配法を構成
? g(θ)の数値微分が初回だけでよい
? 適用可能な問題のクラスが広い
? 所見
– (統計的)機械学習分野としてやるべきこと
? これまでMCMCや変分法で実施してきたパラメータ推定問題を解きなおす
DENSO?IT?Laboratory,?INC. 24/26
参考文献
? [1]Nakayama,?Hiromasa,?et?al.?"Holonomic gradient?descent?and?its?application?to?the?Fisher–Bingham?
integral." Advances?in?Applied?Mathematics 47.3?(2011):?639‐658.
? [2]Koyama,?Tamio,?et?al.?"Holonomic gradient?descent?for?the?Fisher–Bingham?distribution?on?the?d‐
dimensional?sphere." Computational?Statistics 29.3‐4?(2014):?661‐683.
? [3]Hashiguchi,?Hiroki,?et?al.?"The?holonomic gradient?method?for?the?distribution?function?of?the?largest?
root?of?a?Wishart matrix." Journal?of?Multivariate?Analysis117?(2013):?296‐312.
? [4]Sei,?Tomonari,?et?al.?"Properties?and?applications?of?Fisher?distribution?on?the?rotation?group." Journal?
of?Multivariate?Analysis 116?(2013):?440‐455.
? [5]JST?CREST?日比チーム,グレブナー道場,共立出版 (2011)
? [6]小山 民雄,竹村 彰通,ホロノミック勾配法による象限確率の計算,http://park.itc.u‐
tokyo.ac.jp/atstat/CREST/120601‐tokyo/slide/120601‐koyama‐slide.pdf(スライド)
? [7]清 智也ら,ホロノミック勾配法によるFisher‐Bingham?分布族の最尤推定,?http://park.itc.u‐
tokyo.ac.jp/atstat/kakenhi/1115.16shukai/sei.pdf(スライド)
DENSO?IT?Laboratory,?INC. 25/26
参考文献
? [8]清 智也ら,回転群上のフィッシャー分布に対するホロノミック勾配法, http://park.itc.u‐
tokyo.ac.jp/atstat/kakenhi/120120tsukuba/sei.pdf(スライド)
? [9]橋口ら,ウィシャート分布に現れる行列変数の超幾何関数に対するホロノミック勾配法,
http://park.itc.u‐tokyo.ac.jp/atstat/takemura‐talks/120121‐takemura‐slide.pdf(スライド)
? [10]橋口ら,Wishart 行列の最大固有値の分布関数のホロノミック勾配法による計算,
http://durian2.math.kobe‐u.ac.jp/Movies/oxvh/2012‐09‐10‐wishart/2012‐09‐19‐wishart.pdf(スライド)
DENSO?IT?Laboratory,?INC. 26/26

More Related Content

Viewers also liked (20)

Stochastic Process Overview (hypothesis)
Stochastic Process Overview (hypothesis)Stochastic Process Overview (hypothesis)
Stochastic Process Overview (hypothesis)
Yoshiaki Sakakura
?
Go-ICP: グローバル最適(Globally optimal) なICPの解説
Go-ICP: グローバル最適(Globally optimal) なICPの解説Go-ICP: グローバル最適(Globally optimal) なICPの解説
Go-ICP: グローバル最適(Globally optimal) なICPの解説
Yusuke Sekikawa
?
FLAT CAM: Replacing Lenses with Masks and Computationの解説
FLAT CAM: Replacing Lenses with Masks and Computationの解説FLAT CAM: Replacing Lenses with Masks and Computationの解説
FLAT CAM: Replacing Lenses with Masks and Computationの解説
Yusuke Sekikawa
?
On the eigenstructure of dft matrices(in japanese only)
On the eigenstructure of dft matrices(in japanese only)On the eigenstructure of dft matrices(in japanese only)
On the eigenstructure of dft matrices(in japanese only)
Koichiro Suzuki
?
DSIRNLP06 Nested Pitman-Yor Language Model
DSIRNLP06 Nested Pitman-Yor Language ModelDSIRNLP06 Nested Pitman-Yor Language Model
DSIRNLP06 Nested Pitman-Yor Language Model
Kei Uchiumi
?
Deep Learning Chapter12
Deep Learning Chapter12Deep Learning Chapter12
Deep Learning Chapter12
Kei Uchiumi
?
Halide, Darkroom - 並列化のためのソフトウェア?研究
Halide, Darkroom - 並列化のためのソフトウェア?研究Halide, Darkroom - 並列化のためのソフトウェア?研究
Halide, Darkroom - 並列化のためのソフトウェア?研究
Yuichi Yoshida
?
情报検索における评価指标の最新动向と新たな提案
情报検索における评価指标の最新动向と新たな提案情报検索における评価指标の最新动向と新たな提案
情报検索における评価指标の最新动向と新たな提案
Mitsuo Yamamoto
?
颁狈狈チュートリアル
颁狈狈チュートリアル颁狈狈チュートリアル
颁狈狈チュートリアル
Ikuro Sato
?
ディープラーニングの车载応用に向けて
ディープラーニングの车载応用に向けてディープラーニングの车载応用に向けて
ディープラーニングの车载応用に向けて
Ikuro Sato
?
Hpc server講習会第3回応用編
Hpc server講習会第3回応用編Hpc server講習会第3回応用編
Hpc server講習会第3回応用編
Osamu Masutani
?
Swift 2 (& lldb) シンホ?シ?ウム
Swift 2 (& lldb) シンホ?シ?ウムSwift 2 (& lldb) シンホ?シ?ウム
Swift 2 (& lldb) シンホ?シ?ウム
Yuichi Yoshida
?
Dsirnlp#7
Dsirnlp#7Dsirnlp#7
Dsirnlp#7
Kei Uchiumi
?
Gamglm
GamglmGamglm
Gamglm
Kei Uchiumi
?
Sparse Isotropic Hashing
Sparse Isotropic HashingSparse Isotropic Hashing
Sparse Isotropic Hashing
Ikuro Sato
?
論文紹介:Practical bayesian optimization of machine learning algorithms(nips2012)
論文紹介:Practical bayesian optimization of machine learning algorithms(nips2012)論文紹介:Practical bayesian optimization of machine learning algorithms(nips2012)
論文紹介:Practical bayesian optimization of machine learning algorithms(nips2012)
Keisuke Uto
?
Nl220 Pitman-Yor Hidden Semi Markov Model
Nl220 Pitman-Yor Hidden Semi Markov ModelNl220 Pitman-Yor Hidden Semi Markov Model
Nl220 Pitman-Yor Hidden Semi Markov Model
Kei Uchiumi
?
Paper intoduction "Playing Atari with deep reinforcement learning"
Paper intoduction   "Playing Atari with deep reinforcement learning"Paper intoduction   "Playing Atari with deep reinforcement learning"
Paper intoduction "Playing Atari with deep reinforcement learning"
Hiroshi Tsukahara
?
Stochastic Process Overview (hypothesis)
Stochastic Process Overview (hypothesis)Stochastic Process Overview (hypothesis)
Stochastic Process Overview (hypothesis)
Yoshiaki Sakakura
?
Go-ICP: グローバル最適(Globally optimal) なICPの解説
Go-ICP: グローバル最適(Globally optimal) なICPの解説Go-ICP: グローバル最適(Globally optimal) なICPの解説
Go-ICP: グローバル最適(Globally optimal) なICPの解説
Yusuke Sekikawa
?
FLAT CAM: Replacing Lenses with Masks and Computationの解説
FLAT CAM: Replacing Lenses with Masks and Computationの解説FLAT CAM: Replacing Lenses with Masks and Computationの解説
FLAT CAM: Replacing Lenses with Masks and Computationの解説
Yusuke Sekikawa
?
On the eigenstructure of dft matrices(in japanese only)
On the eigenstructure of dft matrices(in japanese only)On the eigenstructure of dft matrices(in japanese only)
On the eigenstructure of dft matrices(in japanese only)
Koichiro Suzuki
?
DSIRNLP06 Nested Pitman-Yor Language Model
DSIRNLP06 Nested Pitman-Yor Language ModelDSIRNLP06 Nested Pitman-Yor Language Model
DSIRNLP06 Nested Pitman-Yor Language Model
Kei Uchiumi
?
Deep Learning Chapter12
Deep Learning Chapter12Deep Learning Chapter12
Deep Learning Chapter12
Kei Uchiumi
?
Halide, Darkroom - 並列化のためのソフトウェア?研究
Halide, Darkroom - 並列化のためのソフトウェア?研究Halide, Darkroom - 並列化のためのソフトウェア?研究
Halide, Darkroom - 並列化のためのソフトウェア?研究
Yuichi Yoshida
?
情报検索における评価指标の最新动向と新たな提案
情报検索における评価指标の最新动向と新たな提案情报検索における评価指标の最新动向と新たな提案
情报検索における评価指标の最新动向と新たな提案
Mitsuo Yamamoto
?
颁狈狈チュートリアル
颁狈狈チュートリアル颁狈狈チュートリアル
颁狈狈チュートリアル
Ikuro Sato
?
ディープラーニングの车载応用に向けて
ディープラーニングの车载応用に向けてディープラーニングの车载応用に向けて
ディープラーニングの车载応用に向けて
Ikuro Sato
?
Hpc server講習会第3回応用編
Hpc server講習会第3回応用編Hpc server講習会第3回応用編
Hpc server講習会第3回応用編
Osamu Masutani
?
Swift 2 (& lldb) シンホ?シ?ウム
Swift 2 (& lldb) シンホ?シ?ウムSwift 2 (& lldb) シンホ?シ?ウム
Swift 2 (& lldb) シンホ?シ?ウム
Yuichi Yoshida
?
Sparse Isotropic Hashing
Sparse Isotropic HashingSparse Isotropic Hashing
Sparse Isotropic Hashing
Ikuro Sato
?
論文紹介:Practical bayesian optimization of machine learning algorithms(nips2012)
論文紹介:Practical bayesian optimization of machine learning algorithms(nips2012)論文紹介:Practical bayesian optimization of machine learning algorithms(nips2012)
論文紹介:Practical bayesian optimization of machine learning algorithms(nips2012)
Keisuke Uto
?
Nl220 Pitman-Yor Hidden Semi Markov Model
Nl220 Pitman-Yor Hidden Semi Markov ModelNl220 Pitman-Yor Hidden Semi Markov Model
Nl220 Pitman-Yor Hidden Semi Markov Model
Kei Uchiumi
?
Paper intoduction "Playing Atari with deep reinforcement learning"
Paper intoduction   "Playing Atari with deep reinforcement learning"Paper intoduction   "Playing Atari with deep reinforcement learning"
Paper intoduction "Playing Atari with deep reinforcement learning"
Hiroshi Tsukahara
?

Similar to Holonomic Gradient Descent (10)

MateriApps: OpenMXを利用した第一原理計算の簡単な実習
MateriApps: OpenMXを利用した第一原理計算の簡単な実習MateriApps: OpenMXを利用した第一原理計算の簡単な実習
MateriApps: OpenMXを利用した第一原理計算の簡単な実習
Computational Materials Science Initiative
?
El text.tokuron a(2019).yoshii190704
El text.tokuron a(2019).yoshii190704El text.tokuron a(2019).yoshii190704
El text.tokuron a(2019).yoshii190704
RCCSRENKEI
?
Deep uncertainty quantification a machine learning approach for weather fore...
Deep uncertainty quantification  a machine learning approach for weather fore...Deep uncertainty quantification  a machine learning approach for weather fore...
Deep uncertainty quantification a machine learning approach for weather fore...
harmonylab
?
RBM、Deep Learningと学習(全脳アーキテクチャ若手の会 第3回DL勉強会発表資料)
RBM、Deep Learningと学習(全脳アーキテクチャ若手の会 第3回DL勉強会発表資料)RBM、Deep Learningと学習(全脳アーキテクチャ若手の会 第3回DL勉強会発表資料)
RBM、Deep Learningと学習(全脳アーキテクチャ若手の会 第3回DL勉強会発表資料)
Takuma Yagi
?
信号処理?画像処理における凸最适化
信号処理?画像処理における凸最适化信号処理?画像処理における凸最适化
信号処理?画像処理における凸最适化
Shunsuke Ono
?
[DL輪読会]Imputing Missing Events in Continuous-Time Event Streams (ICML 2019)
[DL輪読会]Imputing Missing Events in Continuous-Time Event Streams (ICML 2019)[DL輪読会]Imputing Missing Events in Continuous-Time Event Streams (ICML 2019)
[DL輪読会]Imputing Missing Events in Continuous-Time Event Streams (ICML 2019)
Deep Learning JP
?
(文献紹介)Deep Unrolling: Learned ISTA (LISTA)
(文献紹介)Deep Unrolling: Learned ISTA (LISTA)(文献紹介)Deep Unrolling: Learned ISTA (LISTA)
(文献紹介)Deep Unrolling: Learned ISTA (LISTA)
Morpho, Inc.
?
第11回分子科学 2017/9/17 Pubchemqcプロジェクト
第11回分子科学 2017/9/17 Pubchemqcプロジェクト第11回分子科学 2017/9/17 Pubchemqcプロジェクト
第11回分子科学 2017/9/17 Pubchemqcプロジェクト
Maho Nakata
?
点群深層学習 Meta-study
点群深層学習 Meta-study点群深層学習 Meta-study
点群深層学習 Meta-study
Naoya Chiba
?
[DL輪読会]Meta-Learning Probabilistic Inference for Prediction
[DL輪読会]Meta-Learning Probabilistic Inference for Prediction[DL輪読会]Meta-Learning Probabilistic Inference for Prediction
[DL輪読会]Meta-Learning Probabilistic Inference for Prediction
Deep Learning JP
?
El text.tokuron a(2019).yoshii190704
El text.tokuron a(2019).yoshii190704El text.tokuron a(2019).yoshii190704
El text.tokuron a(2019).yoshii190704
RCCSRENKEI
?
Deep uncertainty quantification a machine learning approach for weather fore...
Deep uncertainty quantification  a machine learning approach for weather fore...Deep uncertainty quantification  a machine learning approach for weather fore...
Deep uncertainty quantification a machine learning approach for weather fore...
harmonylab
?
RBM、Deep Learningと学習(全脳アーキテクチャ若手の会 第3回DL勉強会発表資料)
RBM、Deep Learningと学習(全脳アーキテクチャ若手の会 第3回DL勉強会発表資料)RBM、Deep Learningと学習(全脳アーキテクチャ若手の会 第3回DL勉強会発表資料)
RBM、Deep Learningと学習(全脳アーキテクチャ若手の会 第3回DL勉強会発表資料)
Takuma Yagi
?
信号処理?画像処理における凸最适化
信号処理?画像処理における凸最适化信号処理?画像処理における凸最适化
信号処理?画像処理における凸最适化
Shunsuke Ono
?
[DL輪読会]Imputing Missing Events in Continuous-Time Event Streams (ICML 2019)
[DL輪読会]Imputing Missing Events in Continuous-Time Event Streams (ICML 2019)[DL輪読会]Imputing Missing Events in Continuous-Time Event Streams (ICML 2019)
[DL輪読会]Imputing Missing Events in Continuous-Time Event Streams (ICML 2019)
Deep Learning JP
?
(文献紹介)Deep Unrolling: Learned ISTA (LISTA)
(文献紹介)Deep Unrolling: Learned ISTA (LISTA)(文献紹介)Deep Unrolling: Learned ISTA (LISTA)
(文献紹介)Deep Unrolling: Learned ISTA (LISTA)
Morpho, Inc.
?
第11回分子科学 2017/9/17 Pubchemqcプロジェクト
第11回分子科学 2017/9/17 Pubchemqcプロジェクト第11回分子科学 2017/9/17 Pubchemqcプロジェクト
第11回分子科学 2017/9/17 Pubchemqcプロジェクト
Maho Nakata
?
点群深層学習 Meta-study
点群深層学習 Meta-study点群深層学習 Meta-study
点群深層学習 Meta-study
Naoya Chiba
?
[DL輪読会]Meta-Learning Probabilistic Inference for Prediction
[DL輪読会]Meta-Learning Probabilistic Inference for Prediction[DL輪読会]Meta-Learning Probabilistic Inference for Prediction
[DL輪読会]Meta-Learning Probabilistic Inference for Prediction
Deep Learning JP
?

Holonomic Gradient Descent