狠狠撸

ケプストラム正則化NTFによる
ステレオチャネル楽曲音源分離
名古屋大学
☆関翔悟，大谷健登，戸田智基，武田一哉
2016年秋季研究発表会 2016/9/14

目次
? はじめに
? 先行研究（周波数独立ゲインNTF）
? ケプストラム正則化の導入
? 実験的評価
? おわりに
2
2016年秋季研究発表会 2016/9/14

研究背景
? CD及びダウンロード配信楽曲
‐多数の構成音源:ギター，ドラム，ボーカル，etc.
‐ステレオチャネル（２チャネル）信号として表現
? 楽曲に対する各構成音源への音源分離
‐採譜[Smaragdis+03]
‐ボーカル抽出[Smaragdis+07]
‐楽曲印象操作[Ohtani+16]
ステレオチャネル楽曲音源分離
3
2016年秋季研究発表会
L R
あ
2016/9/14

ブラインド音源分離
? 目的音源数と観測チャネル数により問題が変化
? （目的音源数）（観測チャネル数）:
‐優決定条件
‐独立成分分析（ICA）
? （目的音源数）（観測チャネル数）:
‐劣決定条件
‐非負値行列因子分解（NMF）
? 劣決定条件下での音源分離を想定
4
2016年秋季研究発表会 2016/9/14

非負値行列因子分解（NMF）
? 行列の低ランク表現手法
? 観測行列（スペクトログラム）を2つの行列へと分解
‐ :基底行列
‐ :アクティベーション行列
5
2016年秋季研究発表会 2016/9/14

周波数独立ゲインNTF[Seki+16]
? 概要
‐楽曲情報:ゲインと音源集合による混合過程（パンニング）
‐振幅/パワースペクトル領域における線形演算を仮定
‐各音源スペクトログラムが低ランク行列で表現
6
L R 楽曲情報
ゲイン
音源集合
推定信号
ゲイン
ゲイン
音源集合
z基底アクティベーション
2016/9/14

周波数独立ゲインNTF[Seki+16]
? 定式化
‐ 推定チャネル信号:
‐ ゲイン情報 :
‐ 基底 :
‐ アクティベーション :
? 目的関数
? β情報量規準更新式
βNMFと同様な更新式
7
インデックス
? :周波数ビン
? :基底
? :フレーム
? :音源
? :チャネル
2016/9/14

? 自由度が高く適切な分離が困難
↑ 推定するパラメータ数が多数
? 各楽器音に対する事前情報（正則化）の付与
‐楽器音ごとの包絡情報を利用
先行研究における課題
8
8
学習データ包絡成分を抽出モデル化
推定信号ゲイン音源集合
Prior
2016/9/14

正則化項の導入
? ケプストラム距離正則化NMF[Li+16]
‐特徴量強調において利用
‐MFCC系列に対するGMM対数尤度
‐スペクトログラムに対するソフトな制約
9
2016年秋季研究発表会 2016/9/14

正則化項の導入
? ケプストラム距離正則化NMF[Li+16]
‐特徴量強調において利用
‐MFCC系列に対するGMM対数尤度
‐スペクトログラムに対するソフトな制約
10
MFCC
GMM
離散コサイン
変換行列
メルフィルタバンク
2016/9/14

提案法 –ケプストラム正則化NTF-
? 先行研究への正則化項の導入
‐ケプストラム系列に対するGMM対数尤度
? 提案手法の目的関数（KL情報量規準）
‐乗法更新式として解析解を導出可能
‐正則化パラメータの調整について実験的に評価
11
2016年秋季研究発表会 2016/9/14

ステレオチャネル楽曲分離アルゴリズム
1. パラメータを乱数により初期化
2. 周波数独立ゲインNTFによりパラメータ初期値を推定
3. ケプストラム正則化項NTFによりパラメータを推定
4. 各チャネル信号の時間周波数スロットにおける
事前SN比を推定
5. ウィナーフィルタにより分離音を抽出
（位相については観測チャネル信号を利用）
12
2016年秋季研究発表会 2016/9/14

実験的評価
? 実環境で録音された3音源楽曲に対する分離性能評価
? データの作成
‐使用データ:Cambridge Music Technology内の1曲
（Bass, Drums, Vocals）
‐パンニングにより実験楽曲を作成
? 実験データ
‐学習データ:冒頭30 s以降（各パート音源）
‐評価データ:冒頭20-30 s（実験楽曲）
? 評価対象
‐従来法:先行研究（周波数独立ゲインNTF）
‐提案法:正則化パラメータを変更し評価
13
Bass; ２:１
Drums; １:３
Vocals; ４:１
2016/9/14

実験条件
14
音源数 3
サンプリング周波数 16 kHz
フレーム? 32 ms
シフト? 16 ms
基底数 50
更新回数
200（w/o 正則化）
200（w/ 正則化）
規準情報量 KL情報量
ケプストラム次数 0-20
GMM混合数 30
評価指標
SDR，SIR
（未処理の場合からの改善量）
2016/9/14

実験結果
? SDR改善量
提案法による性能向上が確認
? SIR改善量
15
2016年秋季研究発表会 2016/9/14

おわりに
? ケプストラム正則化NTFを提案
? 提案法に対する実験的評価を実施
‐正則化項の有無/強さによる分離性能の評価
正則化項導入による分離精度向上が確認
? 適切な正則化パラメータ値の決定方法
? GMMのモデル化精度が分離性能に与える影響の調査
16
2016年秋季研究発表会 2016/9/14

狠狠撸

ケプストラム正则化狈罢贵によるステレオチャネル楽曲音源分离

Recommended

More Related Content

What's hot (20)

More from NU_I_TODALAB (20)

ケプストラム正则化狈罢贵によるステレオチャネル楽曲音源分离