狠狠撸

複素ラプラス分布に基づく
非負値行列因子分解
丹治寛樹，村上隆啓，鎌田弘之（明治大学）
2017/08/24
第 116 回音楽情報科学研究会（夏のシンポジウム）

目次
(1) 非負値行列因子分解（NMF）
音響信号への適用
評価関数
(2) 複素スペクトルの統計モデル
複素スペクトルの従う分布
分散の統計モデル
(3) 提案法複素ラプラス分布に基づく NMF
統計モデル
最適化アルゴリズム
(4) シミュレーション
多重音の分解
(5) まとめ
1 / 17

研究背景
非負値行列因子分解
Nonnegative matrix factorization; NMF [Lee(1999)]
? 非負行列（すべての要素が負ではない行列）から
頻出パターンを抜き出すための枠組み
? 振幅 or パワースペクトログラムに適用すれば，
個々の音源のスペクトルとアクティベーションに
分解できる [Smaragdis(2003)]
スペクトログラム Y
Time
Frequency
スペクトル W アクティベーション H
Frequency
Time
分解
2 / 17

NMFの定式化
一般的なモデル
Y W
H
?Y=
観測データ [ymn] 基底 [wmk] 重み [hkn] 推定値 [?ymn]
振幅 or パワースペクトルの加法性いずれかを仮定
Y ?Y1
?Y2 + · · ·+
観測信号の振幅音源 1 の振幅音源 2 の振幅
観測信号のパワー音源 1 のパワー音源 2 のパワー
3 / 17

NMFの定式化
一般的なモデル
Y W
H
?Y=
観測データ [ymn] 基底 [wmk] 重み [hkn] 推定値 [?ymn]
Y と ?Y の乖離度を考慮
評価関数の最小化問題
F(W , H) =
m,n
f(ymn; ?ymn)
Y の統計的な生成過程を考慮
尤度関数の最大化問題
p(Y ; ?Y ) =
m,n
p(ymn; ?ymn)
評価関数 or 尤度関数をどう設定するか
4 / 17

NMFの評価関数?尤度関数
? ユークリッド距離の二乗：Eu–NMF [Lee(1999)]
NMF の歴史の始まり
? Kullback–Leibler (KL) divergence：KL–NMF [Lee(1999)]
振幅スペクトルの分解に適用すれば，トップクラスの分離性能
信号分離における理論的な妥当性は不明
? Itakura–Saito (IS) divergence：IS–NMF [Fevotte(2008)]
複素正規分布の再生性に基づいて
パワースペクトルの加法性を正当化
? 複素コーシー分布：Cauchy–NMF [Liutkus(2015)]
複素コーシー分布の再生性に基づいて
振幅スペクトルの加法性を正当化
信号分離の性能は KL–NMF と “Competitive”
? 複素 t 分布：t–NMF [Yoshii(2016)]
IS–NMF と Cauchy–NMF の一般化
5 / 17

NMFの評価関数?尤度関数
複素分布を用いた観測信号のモデリング
? 観測信号の複素スペクトルをモデリング
? 分布の再生性があれば，
振幅 or パワースペクトルの加法性を正当化可能
? Itakura–Saito (IS) divergence：IS–NMF [Fevotte(2008)]
複素正規分布の再生性に基づいて
パワースペクトルの加法性を正当化
? 複素コーシー分布：Cauchy–NMF [Liutkus(2015)]
複素コーシー分布の再生性に基づいて
振幅スペクトルの加法性を正当化
信号分離の性能は KL–NMF と “Competitive”
? 複素 t 分布：t–NMF [Yoshii(2016)]
IS–NMF と Cauchy–NMF の一般化
5 / 17

実環境の複素スペクトルが従う分布
-2.5
0.0
2.5
Real
010203040506070
Frequency [%]
-2.5
0.0
2.5
Imaginary
0 1 2 3 4 5
Frequency [kHz]
Figure 1: ピアノの 3 重音のスペクトル
音響信号の複素スペクトルは優ガウス性を持つ傾向 [Martin(2002)]
? 調波構造を持つスペクトルなら必ず優ガウス性
? 複素正規分布の分散をモデリングすることで
優ガウス性を表現できないだろうか
6 / 17

複素スペクトルの統計モデル
IS-NMF [Fevotte(2008)]
複素スペクトル yC
mn は，
分散 ?ymn 複素正規分布から生成される
統計モデルの観点から拡張
複素正規分布の分散の分布を考慮して，
分散を周辺化
?ymn yC
mn NC(0, ?ymn)
λmn zmn yC
mn ζmn
NC(0, zmnζmn)p(zmn; λmn)
ガンマ分布 G(z?1
mn; ν
2
, ν
2
)
0 5 10 15 20 25 30
z
0.0
0.5
1.0
1.5
2.0 nu = 2.0
nu = 5.0
nu = 10.0
nu = 50.0
ガンマ分布 G(zmn; 3
2
, λ?1
mn)
0.0 2.5 5.0 7.5 10.0 12.5 15.0
z
0.0
0.2
0.4
0.6
0.8
1.0
1.2 lambda = 0.5
lambda = 1.0
lambda = 2.0
lambda = 5.0
指数分布 E(zmn; λmn)
0.0 2.5 5.0 7.5 10.0 12.5 15.0
z
0.0
0.5
1.0
1.5
2.0
lambda = 0.5
lambda = 1.0
lambda = 2.0
lambda = 5.0
yC
mn の優ガウス性を仮定
7 / 17

先行研究 t-NMF
t–NMF [Yoshii(2016)]
? 複素スペクトル ?yC
mn が
自由度 ν の複素 t 分布に従うと仮定
裾の広い分布で複素スペクトルを表現
? パワースペクトルを分解
p(yC
mn; ?ymn) =
R+
NC(0, zmn ?ymn)G( ν
2
, ν
2
)dzmn
= TC(yC
mn; 0, ?ymn, ν)
zmn ν
yC
mn ?ymn
p(z?1
mn; ν)
= G(ν
2
, ν
2
)
NC(0, zmn ?ymn)
mn; ν
2
, ν
2
)
0 5 10 15 20 25 30
z
0.0
0.5
1.0
1.5
2.0 nu = 2.0
nu = 5.0
nu = 10.0
nu = 50.0
2
, λ?1
mn)
0.0 2.5 5.0 7.5 10.0 12.5 15.0
z
0.0
0.2
0.4
0.6
0.8
1.0
1.2 lambda = 0.5
lambda = 1.0
lambda = 2.0
lambda = 5.0
0.0 2.5 5.0 7.5 10.0 12.5 15.0
z
0.0
0.5
1.0
1.5
2.0
lambda = 0.5
lambda = 1.0
lambda = 2.0
lambda = 5.0
8 / 17

先行研究 IS-NMF
IS–NMF
? 複素スペクトル ?yC
mn が尺度 ?y2
mn の
球状ラプラス分布 [Kim(2007)] に従うと仮定
? 振幅スペクトルを IS divergence に基づいて分解
p(yC
mn; ?ymn) =
R+
NC(0, zmn)G( 3
2
, ?y?2
mn)dzmn
= 2
?y2
mnπ
exp ?
2|yC
mn|
?ymn
zmn ?ymn
yC
mn
p(zmn; ?ymn)
= G( 3
2
, ?y?2
mn)
NC(0, zmn ?ymn)
mn; ν
2
, ν
2
)
0 5 10 15 20 25 30
z
0.0
0.5
1.0
1.5
2.0 nu = 2.0
nu = 5.0
nu = 10.0
nu = 50.0
2
, λ?1
mn)
0.0 2.5 5.0 7.5 10.0 12.5 15.0
z
0.0
0.2
0.4
0.6
0.8
1.0
1.2 lambda = 0.5
lambda = 1.0
lambda = 2.0
lambda = 5.0
0.0 2.5 5.0 7.5 10.0 12.5 15.0
z
0.0
0.5
1.0
1.5
2.0
lambda = 0.5
lambda = 1.0
lambda = 2.0
lambda = 5.0
9 / 17

提案法複素ラプラス分布に基づくNMF
Laplace–NMF 厳密な優ガウス性を仮定
複素スペクトルが尺度 c2
?y2
mn の
複素ラプラス分布 [Lee(2008)] に従うと仮定
? 尤度関数は解析的に書けない
? 振幅 or パワースペクトルの加法性は
正当化されない
尤度関数
p(yC
mn; ?ymn) =
R+
NC(0, zmn)E(c2
?y2
mn)dzmn
=
2
c2 ?y2
mnπ
K0
2|yC
mn|
c?ymn
Kν(t) 第二種変形ベッセル関数
zmn ?ymn
yC
mn
p(zmn; ?ymn)
= E(c2 ?y2
mn)
NC(0, zmn ?ymn)
複素スペクトルのモデリングという観点で妥当
10 / 17

?y2
mn の
zmn ?ymn
yC
mn
p(zmn; ?ymn)
= E(c2 ?y2
mn)
NC(0, zmn ?ymn)
評価関数振幅スペクトルを分解する場合
ymn 振幅スペクトル
c 補正係数
F(W , H) =
m,n
2 log ?ymn ? log K0
2ymn
c?ymn
MM アルゴリズム
評価関数 F の
上限 Q+
を最適化
?? ← arg min
?
Q+
(W , H, ?)
W , H ← arg min
W ,H
Q+
(W , H, ??)
上限 Q+ をどう作るか
11 / 17

?y2
mn の
zmn ?ymn
yC
mn
p(zmn; ?ymn)
= E(c2 ?y2
mn)
NC(0, zmn ?ymn)
評価関数振幅スペクトルを分解する場合
ymn 振幅スペクトル
c 補正係数
F(W , H) =
m,n
2 log ?ymn ? log K0
2ymn
c?ymn
特殊関数
MM アルゴリズム
評価関数 F の
上限 Q+
を最適化
?? ← arg min
?
Q+
(W , H, ?)
W , H ← arg min
W ,H
Q+
(W , H, ??)
上限 Q+ をどう作るか
11 / 17

Laplace-NMFのMMアルゴリズム
F(W, H) =
m,n
2 log ?ymn ? log K0
2ymn
c?ymn
Q+(W, H, ρ, ?)
Majorize
1 次の Taylor 展開（g：凹関数）
g(x) ≤ g (?)(x ? ?) + g(?)
Jensen の不等式（f：凸関数）
f( k ρkxk) ≤ k ρkf(xk)
特殊関数に適用しても無意味
12 / 17

Laplace-NMFのMMアルゴリズム
F(W, H) =
m,n
2 log ?ymn ? log K0
2ymn
c?ymn
Q+(W, H, ρ, ?)
Majorize
Q(W, H)=
m,n
2 log ?ymn +
Ep(zmn|ymn;??ymn)[zmn]
c2 ?y2
mn
Jensen の不等式（g：凹関数）
?g(E[x]) ≤ ?E[g(x)]
1 次の Taylor 展開（g：凹関数）
g(x) ≤ g (?)(x ? ?) + g(?)
Jensen の不等式（f：凸関数）
f( k ρkxk) ≤ k ρkf(xk)
EM アルゴリズムのアイデア
?ymn についての
特殊関数が消える
Q(W , H) に適用
更新式の導出が可能な上限を設計できる
12 / 17

更新アルゴリズム
振幅スペクトルの分解
評価関数 F(W , H) =
m,n
2 log ?ymn ? log K0
2ymn
c?ymn
更新式 E
p(zmn|ymn;?y
(t)
mn)
[zmn] = cymn ?y
(t)
mnK1
2ymn
c?y
(t)
mn
K0
2ymn
c?y
(t)
mn
w
(t+1)
mk = w
(t)
mk
?
?
?
?
n
E
p(zmn|ymn;?y
(t)
mn)
[zmn]
c2 ?y
(t)
mn
3
h
(t)
kn
n
h
(t)
kn
?y
(t)
mn
?
?
?
?
1
3
h
(t+1)
kn = h
(t)
kn
?
?
?
?
m
E
p(zmn|ymn;?y
(t)
mn)
[zmn]
c2 ?y
(t)
mn
3
w
(t)
mk
m
w
(t)
mk
?y
(t)
mn
?
?
?
?
1
3
14 / 17

シミュレーション
タスク多重音を単音に分解する
比較対象 Eu-，KL-，IS-，Cauchy-，t-NMF
性能指標 Source-to-distortion ratio（SDR）[Vincent(2006)]
音源ピアノ，エレキギター（RWC 音楽 DB 収録）
基底の数 K = 3 or 4
サンプリング周波数 11025Hz
フレーム長 512
フレーム周期 128
窓関数 Hamming 窓
FFT の長さ 1024
観測行列のサイズ 511×1202
初期値乱数（100 通り）
G4
E4
C4
2s
K = 3 のピアノロール
B 4
G4
E4
C4
K = 4 のピアノロール
15 / 17

結果
Laplace-NMF は既存の NMF と遜色ない性能要追加検証
? 外れ値の個数は評価関数の最適解付近でのシャープさに依存
? 振幅ドメインの IS-NMF と結果が似る傾向
振幅ドメインの Laplace-NMF の方がより安定した分離が可能
-20
-10
0
10
20
(a)
Piano
SDR[dB]
K = 3
(b)
K = 4
Eu
(Amp.)
Eu
(Power)
KL
(Amp.)
KL
(Power)
IS
(Amp.)
IS
(Power)
Cauchy
t
(nu=2)
t
(nu=5)
Laplace
(Amp.)
Laplace
(Power)
-10
0
10
20
(c)
Electricguitar
SDR[dB]
Eu
(Amp.)
Eu
(Power)
KL
(Amp.)
KL
(Power)
IS
(Amp.)
IS
(Power)
Cauchy
t
(nu=2)
t
(nu=5)
Laplace
(Amp.)
Laplace
(Power)
(d)
Figure 2: SDR による評価結果 16 / 17

まとめと今後の課題
まとめ Laplace-NMF
モデル複素ラプラス分布に基づく NMF
? 複素スペクトルの優ガウス性を考慮
? 評価関数は解析的に解けない
最適化収束の保障されたアルゴリズムを導出
評価音源分離を行えることを確認
今後の課題信号分離に対する有効性の検証
? 初期値に依存
? 音源?タスクに依存
17 / 17

参考文献 I
[Lee(1999)] D.D. Lee and H.S. Seung.
“Learning the parts of objects with nonnegative matrix factorization”.
Nature, 401, pp.788–791, Oct. 1999.
[Smaragdis(2003)] P. Smaragdis and J.C. Brown.
“Non-negative matrix factorization for polyphonic music transcription”.
In Proc. 2003 IEEE International Workshop on Applications of Signal Processing to
Audio and Acoustics (WASPAA), pp. 177–180, Oct. 2003.
[Fevotte(2008)] C. Fevotte, N. Bertin, and J. L. Durrieu.
“Nonnegative matrix factorization with the Itakura-Saito divergence: with
application to music analysis”.
Neural Computation, 21(3), pp.793–830, Sep. 2008.
[Liutkus(2015)] A. Liutkus, D. Fitzgerald, and R. Badeau.
“Cauchy nonnegative matrix factorization”.
In Proc. 2015 IEEE International Workshop on Applications of Signal Processing to
Audio and Acoustics (WASPAA), pp. 1–5, Oct. 2015.
[Yoshii(2016)] K. Yoshii, K. Itoyama, and M. Goto.
“Student’s T nonnegative matrix factorization and positive semidefinite tensor
factorization for single-channel audio source separation”.
In Proc. 2016 IEEE International Conference on Acoustics, Speech and Signal
Processing (ICASSP), pp. 51–55, Mar. 2016.

参考文献 II
[Martin(2002)] R. Martin.
“Speech enhancement using MMSE short time spectral estimation with gamma
distributed speech priors”.
In Proc. 2002 IEEE International Conference on Acoustics, Speech and Signal
Processing (ICASSP), volume 1, pp. I–253–I–256, May 2002.
[Lee(2008)] B. Lee, T. Kaler, and R.W. Schafer.
“Maximum-likelihood sound source localization with a multivariate complex
Laplacian distribution”.
In Proc. 11th International Workshop on Acoustic Echo and Noise Control (IWAENC),
Sep. 2008.
[Vincent(2006)] E. Vincent, R. Gribonval, and C. Fevotte.
“Performance measurement in blind audio source separation”.
IEEE Trans. Audio, Speech, and Language Processing, 14(4), pp.1462–1469, Jul.
2006.

狠狠撸

复素ラプラス分布に基づく非负値行列因子分解

Recommended

More Related Content

What's hot (20)

Similar to 复素ラプラス分布に基づく非负値行列因子分解 (20)

More from Hiroki_Tanji (8)

复素ラプラス分布に基づく非负値行列因子分解