狠狠撸

狠狠撸Share a Scribd company logo
7
Most read
10
Most read
11
Most read
ケプストラム正則化NTFによる
ステレオチャネル楽曲音源分離
名古屋大学
☆関翔悟,大谷健登,戸田智基,武田一哉
2016年秋季研究発表会 2016/9/14
目次
? はじめに
? 先行研究(周波数独立ゲインNTF)
? ケプストラム正則化の導入
? 実験的評価
? おわりに
2
2016年秋季研究発表会 2016/9/14
研究背景
? CD及びダウンロード配信楽曲
‐多数の構成音源:ギター,ドラム,ボーカル,etc.
‐ステレオチャネル(2チャネル)信号として表現
? 楽曲に対する各構成音源への音源分離
‐採譜[Smaragdis+03]
‐ボーカル抽出[Smaragdis+07]
‐楽曲印象操作[Ohtani+16]
ステレオチャネル楽曲音源分離
3
2016年秋季研究発表会
L R
あ
2016/9/14
ブラインド音源分離
? 目的音源数と観測チャネル数により問題が変化
? (目的音源数) (観測チャネル数):
‐優決定条件
‐独立成分分析(ICA)
? (目的音源数) (観測チャネル数):
‐劣決定条件
‐非負値行列因子分解(NMF)
? 劣決定条件下での音源分離を想定
4
2016年秋季研究発表会 2016/9/14
非負値行列因子分解(NMF)
? 行列の低ランク表現手法
? 観測行列(スペクトログラム)を2つの行列へと分解
‐ :基底行列
‐ :アクティベーション行列
5
2016年秋季研究発表会 2016/9/14
周波数独立ゲインNTF[Seki+16]
? 概要
‐楽曲情報:ゲインと音源集合による混合過程(パンニング)
‐振幅/パワースペクトル領域における線形演算を仮定
‐各音源スペクトログラムが低ランク行列で表現
6
2016年秋季研究発表会
L R 楽曲情報
ゲイン
音源集合
推定信号
ゲイン
ゲイン
音源集合
z基底 アクティベーション
2016/9/14
周波数独立ゲインNTF[Seki+16]
? 定式化
‐ 推定チャネル信号:
‐ ゲイン情報 :
‐ 基底 :
‐ アクティベーション :
? 目的関数
? β情報量規準更新式
βNMFと同様な更新式
7
2016年秋季研究発表会
インデックス
? :周波数ビン
? :基底
? :フレーム
? :音源
? :チャネル
2016/9/14
? 自由度が高く適切な分離が困難
↑ 推定するパラメータ数が多数
? 各楽器音に対する事前情報(正則化)の付与
‐楽器音ごとの包絡情報を利用
先行研究における課題
8
2016年秋季研究発表会
8
学習データ 包絡成分を抽出 モデル化
推定信号 ゲイン 音源集合
Prior
2016/9/14
正則化項の導入
? ケプストラム距離正則化NMF[Li+16]
‐特徴量強調において利用
‐MFCC系列に対するGMM対数尤度
‐スペクトログラムに対するソフトな制約
9
2016年秋季研究発表会 2016/9/14
正則化項の導入
? ケプストラム距離正則化NMF[Li+16]
‐特徴量強調において利用
‐MFCC系列に対するGMM対数尤度
‐スペクトログラムに対するソフトな制約
10
2016年秋季研究発表会
MFCC
GMM
離散コサイン
変換行列
メルフィルタバンク
2016/9/14
提案法 –ケプストラム正則化NTF-
? 先行研究への正則化項の導入
‐ケプストラム系列に対するGMM対数尤度
? 提案手法の目的関数(KL情報量規準)
‐乗法更新式として解析解を導出可能
‐正則化パラメータの調整について実験的に評価
11
2016年秋季研究発表会 2016/9/14
ステレオチャネル楽曲分離アルゴリズム
1. パラメータ を乱数により初期化
2. 周波数独立ゲインNTFによりパラメータ初期値を推定
3. ケプストラム正則化項NTFによりパラメータを推定
4. 各チャネル信号の時間周波数スロットにおける
事前SN比を推定
5. ウィナーフィルタにより分離音を抽出
(位相については観測チャネル信号を利用)
12
2016年秋季研究発表会 2016/9/14
実験的評価
? 実環境で録音された3音源楽曲に対する分離性能評価
? データの作成
‐使用データ:Cambridge Music Technology内の1曲
(Bass, Drums, Vocals)
‐パンニングにより実験楽曲を作成
? 実験データ
‐学習データ:冒頭30 s以降(各パート音源)
‐評価データ:冒頭20-30 s(実験楽曲)
? 評価対象
‐従来法:先行研究(周波数独立ゲインNTF)
‐提案法:正則化パラメータを変更し評価
13
2016年秋季研究発表会
Bass; 2:1
Drums; 1:3
Vocals; 4:1
2016/9/14
実験条件
14
2016年秋季研究発表会
音源数 3
サンプリング周波数 16 kHz
フレーム? 32 ms
シフト? 16 ms
基底数 50
更新回数
200(w/o 正則化)
200(w/ 正則化)
規準情報量 KL情報量
ケプストラム次数 0-20
GMM混合数 30
評価指標
SDR,SIR
(未処理の場合からの改善量)
2016/9/14
実験結果
? SDR改善量
提案法による性能向上が確認
? SIR改善量
15
2016年秋季研究発表会 2016/9/14
おわりに
? ケプストラム正則化NTFを提案
? 提案法に対する実験的評価を実施
‐正則化項の有無/強さによる分離性能の評価
正則化項導入による分離精度向上が確認
? 適切な正則化パラメータ値の決定方法
? GMMのモデル化精度が分離性能に与える影響の調査
16
2016年秋季研究発表会 2016/9/14
Ad

Recommended

时间领域低ランクスペクトログラム近似法に基づくマスキング音声の欠损成分復元
时间领域低ランクスペクトログラム近似法に基づくマスキング音声の欠损成分復元
NU_I_TODALAB
?
スペクトログラム無矛盾性を用いた 独立低ランク行列分析の実験的評価
スペクトログラム無矛盾性を用いた 独立低ランク行列分析の実験的評価
Daichi Kitamura
?
半教师あり非负値行列因子分解における音源分离性能向上のための効果的な基底学习法
半教师あり非负値行列因子分解における音源分离性能向上のための効果的な基底学习法
Daichi Kitamura
?
音源分離 ~DNN音源分離の基礎から最新技術まで~ Tokyo bishbash #3
音源分離 ~DNN音源分離の基礎から最新技術まで~ Tokyo bishbash #3
Naoya Takahashi
?
音響システム特論 第11回 実環境における音響信号処理と機械学習
音響システム特論 第11回 実環境における音響信号処理と機械学習
Yuma Koizumi
?
Ea2015 7for ss
Ea2015 7for ss
SaruwatariLabUTokyo
?
実环境音响信号処理における収音技术
実环境音响信号処理における収音技术
Yuma Koizumi
?
楽曲中歌声加工における声质変换精度向上のための歌声?伴奏分离法
楽曲中歌声加工における声质変换精度向上のための歌声?伴奏分离法
NU_I_TODALAB
?
统计的手法に基づく异常音検知の理论と応用
统计的手法に基づく异常音検知の理论と応用
Yuma Koizumi
?
音声の声质を変换する技术とその応用
音声の声质を変换する技术とその応用
NU_I_TODALAB
?
独立深層学習行列分析に基づく多チャネル音源分離(Multichannel audio source separation based on indepen...
独立深層学習行列分析に基づく多チャネル音源分離(Multichannel audio source separation based on indepen...
Daichi Kitamura
?
独立深層学習行列分析に基づく多チャネル音源分離の実験的評価(Experimental evaluation of multichannel audio s...
独立深層学習行列分析に基づく多チャネル音源分離の実験的評価(Experimental evaluation of multichannel audio s...
Daichi Kitamura
?
独立低ランク行列分析に基づく音源分离とその発展(Audio source separation based on independent low-rank...
独立低ランク行列分析に基づく音源分离とその発展(Audio source separation based on independent low-rank...
Daichi Kitamura
?
奥补惫别狈别迟が音声合成研究に与える影响
奥补惫别狈别迟が音声合成研究に与える影响
NU_I_TODALAB
?
异常音検知に対する深层学习适用事例
异常音検知に対する深层学习适用事例
NU_I_TODALAB
?
非负値行列因子分解を用いた被り音の抑圧
非负値行列因子分解を用いた被り音の抑圧
Kitamura Laboratory
?
音楽信号処理における基本周波数推定を応用した心拍信号解析
音楽信号処理における基本周波数推定を応用した心拍信号解析
Kitamura Laboratory
?
Asj2017 3invited
Asj2017 3invited
SaruwatariLabUTokyo
?
独立低ランク行列分析に基づくブラインド音源分離(Blind source separation based on independent low-rank...
独立低ランク行列分析に基づくブラインド音源分離(Blind source separation based on independent low-rank...
Daichi Kitamura
?
深层学习を用いた音源定位、音源分离、クラス分类の统合~环境音セグメンテーション手法の绍介~
深层学习を用いた音源定位、音源分离、クラス分类の统合~环境音セグメンテーション手法の绍介~
Yui Sudo
?
独立低ランク行列分析に基づく音源分离とその発展
独立低ランク行列分析に基づく音源分离とその発展
Kitamura Laboratory
?
Dsp2015for ss
Dsp2015for ss
SaruwatariLabUTokyo
?
やさしく音声分析法を学ぶ: ケプストラム分析とLPC分析
やさしく音声分析法を学ぶ: ケプストラム分析とLPC分析
Shinnosuke Takamichi
?
ICASSP 2019での音響信号処理分野の世界動向
ICASSP 2019での音響信号処理分野の世界動向
Yuma Koizumi
?
非負値行列分解の確率的生成モデルと 多チャネル音源分離への応用 (Generative model in nonnegative matrix facto...
非負値行列分解の確率的生成モデルと 多チャネル音源分離への応用 (Generative model in nonnegative matrix facto...
Daichi Kitamura
?
A Brief Introduction of Anomalous Sound Detection: Recent Studies and Future...
A Brief Introduction of Anomalous Sound Detection: Recent Studies and Future...
Yuma Koizumi
?
Kameoka2017 ieice03
Kameoka2017 ieice03
kame_hirokazu
?
【DL輪読会】Incorporating group update for speech enhancement based on convolutio...
【DL輪読会】Incorporating group update for speech enhancement based on convolutio...
Deep Learning JP
?
音学シンポジウム2025「ニューラルボコーダ概説:生成モデルと実用性の観点から」
音学シンポジウム2025「ニューラルボコーダ概説:生成モデルと実用性の観点から」
NU_I_TODALAB
?
2025年3月音楽情报科学研究会「大局的构造生成のための小节特徴量系列モデリングに基づく阶层的自动作曲」
2025年3月音楽情报科学研究会「大局的构造生成のための小节特徴量系列モデリングに基づく阶层的自动作曲」
NU_I_TODALAB
?

More Related Content

What's hot (20)

统计的手法に基づく异常音検知の理论と応用
统计的手法に基づく异常音検知の理论と応用
Yuma Koizumi
?
音声の声质を変换する技术とその応用
音声の声质を変换する技术とその応用
NU_I_TODALAB
?
独立深層学習行列分析に基づく多チャネル音源分離(Multichannel audio source separation based on indepen...
独立深層学習行列分析に基づく多チャネル音源分離(Multichannel audio source separation based on indepen...
Daichi Kitamura
?
独立深層学習行列分析に基づく多チャネル音源分離の実験的評価(Experimental evaluation of multichannel audio s...
独立深層学習行列分析に基づく多チャネル音源分離の実験的評価(Experimental evaluation of multichannel audio s...
Daichi Kitamura
?
独立低ランク行列分析に基づく音源分离とその発展(Audio source separation based on independent low-rank...
独立低ランク行列分析に基づく音源分离とその発展(Audio source separation based on independent low-rank...
Daichi Kitamura
?
奥补惫别狈别迟が音声合成研究に与える影响
奥补惫别狈别迟が音声合成研究に与える影响
NU_I_TODALAB
?
异常音検知に対する深层学习适用事例
异常音検知に対する深层学习适用事例
NU_I_TODALAB
?
非负値行列因子分解を用いた被り音の抑圧
非负値行列因子分解を用いた被り音の抑圧
Kitamura Laboratory
?
音楽信号処理における基本周波数推定を応用した心拍信号解析
音楽信号処理における基本周波数推定を応用した心拍信号解析
Kitamura Laboratory
?
Asj2017 3invited
Asj2017 3invited
SaruwatariLabUTokyo
?
独立低ランク行列分析に基づくブラインド音源分離(Blind source separation based on independent low-rank...
独立低ランク行列分析に基づくブラインド音源分離(Blind source separation based on independent low-rank...
Daichi Kitamura
?
深层学习を用いた音源定位、音源分离、クラス分类の统合~环境音セグメンテーション手法の绍介~
深层学习を用いた音源定位、音源分离、クラス分类の统合~环境音セグメンテーション手法の绍介~
Yui Sudo
?
独立低ランク行列分析に基づく音源分离とその発展
独立低ランク行列分析に基づく音源分离とその発展
Kitamura Laboratory
?
Dsp2015for ss
Dsp2015for ss
SaruwatariLabUTokyo
?
やさしく音声分析法を学ぶ: ケプストラム分析とLPC分析
やさしく音声分析法を学ぶ: ケプストラム分析とLPC分析
Shinnosuke Takamichi
?
ICASSP 2019での音響信号処理分野の世界動向
ICASSP 2019での音響信号処理分野の世界動向
Yuma Koizumi
?
非負値行列分解の確率的生成モデルと 多チャネル音源分離への応用 (Generative model in nonnegative matrix facto...
非負値行列分解の確率的生成モデルと 多チャネル音源分離への応用 (Generative model in nonnegative matrix facto...
Daichi Kitamura
?
A Brief Introduction of Anomalous Sound Detection: Recent Studies and Future...
A Brief Introduction of Anomalous Sound Detection: Recent Studies and Future...
Yuma Koizumi
?
Kameoka2017 ieice03
Kameoka2017 ieice03
kame_hirokazu
?
【DL輪読会】Incorporating group update for speech enhancement based on convolutio...
【DL輪読会】Incorporating group update for speech enhancement based on convolutio...
Deep Learning JP
?
统计的手法に基づく异常音検知の理论と応用
统计的手法に基づく异常音検知の理论と応用
Yuma Koizumi
?
音声の声质を変换する技术とその応用
音声の声质を変换する技术とその応用
NU_I_TODALAB
?
独立深層学習行列分析に基づく多チャネル音源分離(Multichannel audio source separation based on indepen...
独立深層学習行列分析に基づく多チャネル音源分離(Multichannel audio source separation based on indepen...
Daichi Kitamura
?
独立深層学習行列分析に基づく多チャネル音源分離の実験的評価(Experimental evaluation of multichannel audio s...
独立深層学習行列分析に基づく多チャネル音源分離の実験的評価(Experimental evaluation of multichannel audio s...
Daichi Kitamura
?
独立低ランク行列分析に基づく音源分离とその発展(Audio source separation based on independent low-rank...
独立低ランク行列分析に基づく音源分离とその発展(Audio source separation based on independent low-rank...
Daichi Kitamura
?
奥补惫别狈别迟が音声合成研究に与える影响
奥补惫别狈别迟が音声合成研究に与える影响
NU_I_TODALAB
?
异常音検知に対する深层学习适用事例
异常音検知に対する深层学习适用事例
NU_I_TODALAB
?
非负値行列因子分解を用いた被り音の抑圧
非负値行列因子分解を用いた被り音の抑圧
Kitamura Laboratory
?
音楽信号処理における基本周波数推定を応用した心拍信号解析
音楽信号処理における基本周波数推定を応用した心拍信号解析
Kitamura Laboratory
?
独立低ランク行列分析に基づくブラインド音源分離(Blind source separation based on independent low-rank...
独立低ランク行列分析に基づくブラインド音源分離(Blind source separation based on independent low-rank...
Daichi Kitamura
?
深层学习を用いた音源定位、音源分离、クラス分类の统合~环境音セグメンテーション手法の绍介~
深层学习を用いた音源定位、音源分离、クラス分类の统合~环境音セグメンテーション手法の绍介~
Yui Sudo
?
独立低ランク行列分析に基づく音源分离とその発展
独立低ランク行列分析に基づく音源分离とその発展
Kitamura Laboratory
?
やさしく音声分析法を学ぶ: ケプストラム分析とLPC分析
やさしく音声分析法を学ぶ: ケプストラム分析とLPC分析
Shinnosuke Takamichi
?
ICASSP 2019での音響信号処理分野の世界動向
ICASSP 2019での音響信号処理分野の世界動向
Yuma Koizumi
?
非負値行列分解の確率的生成モデルと 多チャネル音源分離への応用 (Generative model in nonnegative matrix facto...
非負値行列分解の確率的生成モデルと 多チャネル音源分離への応用 (Generative model in nonnegative matrix facto...
Daichi Kitamura
?
A Brief Introduction of Anomalous Sound Detection: Recent Studies and Future...
A Brief Introduction of Anomalous Sound Detection: Recent Studies and Future...
Yuma Koizumi
?
【DL輪読会】Incorporating group update for speech enhancement based on convolutio...
【DL輪読会】Incorporating group update for speech enhancement based on convolutio...
Deep Learning JP
?

More from NU_I_TODALAB (20)

音学シンポジウム2025「ニューラルボコーダ概説:生成モデルと実用性の観点から」
音学シンポジウム2025「ニューラルボコーダ概説:生成モデルと実用性の観点から」
NU_I_TODALAB
?
2025年3月音楽情报科学研究会「大局的构造生成のための小节特徴量系列モデリングに基づく阶层的自动作曲」
2025年3月音楽情报科学研究会「大局的构造生成のための小节特徴量系列モデリングに基づく阶层的自动作曲」
NU_I_TODALAB
?
2025年5月応用音响研究会「滨颁础厂厂笔2025における音楽情报処理の动向」
2025年5月応用音响研究会「滨颁础厂厂笔2025における音楽情报処理の动向」
NU_I_TODALAB
?
2025年5月応用音响研究会「滨颁础厂厂笔2025における异常音検知の动向」
2025年5月応用音响研究会「滨颁础厂厂笔2025における异常音検知の动向」
NU_I_TODALAB
?
Automatic Quality Assessment for Speech and Beyond
Automatic Quality Assessment for Speech and Beyond
NU_I_TODALAB
?
深层生成モデルに基づく音声合成技术
深层生成モデルに基づく音声合成技术
NU_I_TODALAB
?
信号の独立性に基づく多チャンネル音源分离
信号の独立性に基づく多チャンネル音源分离
NU_I_TODALAB
?
The VoiceMOS Challenge 2022
The VoiceMOS Challenge 2022
NU_I_TODALAB
?
敌対的学习による统合型ソースフィルタネットワーク
敌対的学习による统合型ソースフィルタネットワーク
NU_I_TODALAB
?
距离学习を导入した二値分类モデルによる异常音検知
距离学习を导入した二値分类モデルによる异常音検知
NU_I_TODALAB
?
Investigation of Text-to-Speech based Synthetic Parallel Data for Sequence-to...
Investigation of Text-to-Speech based Synthetic Parallel Data for Sequence-to...
NU_I_TODALAB
?
Interactive voice conversion for augmented speech production
Interactive voice conversion for augmented speech production
NU_I_TODALAB
?
颁搁贰厂罢「共生インタラクション」共创型音メディア机能拡张プロジェクト
颁搁贰厂罢「共生インタラクション」共创型音メディア机能拡张プロジェクト
NU_I_TODALAB
?
Recent progress on voice conversion: What is next?
Recent progress on voice conversion: What is next?
NU_I_TODALAB
?
Weakly-Supervised Sound Event Detection with Self-Attention
Weakly-Supervised Sound Event Detection with Self-Attention
NU_I_TODALAB
?
Statistical voice conversion with direct waveform modeling
Statistical voice conversion with direct waveform modeling
NU_I_TODALAB
?
音素事后确率を利用した表现学习に基づく発话感情认识
音素事后确率を利用した表现学习に基づく発话感情认识
NU_I_TODALAB
?
End-to-End音声認識ためのMulti-Head Decoderネットワーク
End-to-End音声認識ためのMulti-Head Decoderネットワーク
NU_I_TODALAB
?
空気/体内伝导マイクロフォンを用いた雑音环境下における自己発声音强调/抑圧法
空気/体内伝导マイクロフォンを用いた雑音环境下における自己発声音强调/抑圧法
NU_I_TODALAB
?
Hands on Voice Conversion
Hands on Voice Conversion
NU_I_TODALAB
?
音学シンポジウム2025「ニューラルボコーダ概説:生成モデルと実用性の観点から」
音学シンポジウム2025「ニューラルボコーダ概説:生成モデルと実用性の観点から」
NU_I_TODALAB
?
2025年3月音楽情报科学研究会「大局的构造生成のための小节特徴量系列モデリングに基づく阶层的自动作曲」
2025年3月音楽情报科学研究会「大局的构造生成のための小节特徴量系列モデリングに基づく阶层的自动作曲」
NU_I_TODALAB
?
2025年5月応用音响研究会「滨颁础厂厂笔2025における音楽情报処理の动向」
2025年5月応用音响研究会「滨颁础厂厂笔2025における音楽情报処理の动向」
NU_I_TODALAB
?
2025年5月応用音响研究会「滨颁础厂厂笔2025における异常音検知の动向」
2025年5月応用音响研究会「滨颁础厂厂笔2025における异常音検知の动向」
NU_I_TODALAB
?
Automatic Quality Assessment for Speech and Beyond
Automatic Quality Assessment for Speech and Beyond
NU_I_TODALAB
?
深层生成モデルに基づく音声合成技术
深层生成モデルに基づく音声合成技术
NU_I_TODALAB
?
信号の独立性に基づく多チャンネル音源分离
信号の独立性に基づく多チャンネル音源分离
NU_I_TODALAB
?
The VoiceMOS Challenge 2022
The VoiceMOS Challenge 2022
NU_I_TODALAB
?
敌対的学习による统合型ソースフィルタネットワーク
敌対的学习による统合型ソースフィルタネットワーク
NU_I_TODALAB
?
距离学习を导入した二値分类モデルによる异常音検知
距离学习を导入した二値分类モデルによる异常音検知
NU_I_TODALAB
?
Investigation of Text-to-Speech based Synthetic Parallel Data for Sequence-to...
Investigation of Text-to-Speech based Synthetic Parallel Data for Sequence-to...
NU_I_TODALAB
?
Interactive voice conversion for augmented speech production
Interactive voice conversion for augmented speech production
NU_I_TODALAB
?
颁搁贰厂罢「共生インタラクション」共创型音メディア机能拡张プロジェクト
颁搁贰厂罢「共生インタラクション」共创型音メディア机能拡张プロジェクト
NU_I_TODALAB
?
Recent progress on voice conversion: What is next?
Recent progress on voice conversion: What is next?
NU_I_TODALAB
?
Weakly-Supervised Sound Event Detection with Self-Attention
Weakly-Supervised Sound Event Detection with Self-Attention
NU_I_TODALAB
?
Statistical voice conversion with direct waveform modeling
Statistical voice conversion with direct waveform modeling
NU_I_TODALAB
?
音素事后确率を利用した表现学习に基づく発话感情认识
音素事后确率を利用した表现学习に基づく発话感情认识
NU_I_TODALAB
?
End-to-End音声認識ためのMulti-Head Decoderネットワーク
End-to-End音声認識ためのMulti-Head Decoderネットワーク
NU_I_TODALAB
?
空気/体内伝导マイクロフォンを用いた雑音环境下における自己発声音强调/抑圧法
空気/体内伝导マイクロフォンを用いた雑音环境下における自己発声音强调/抑圧法
NU_I_TODALAB
?
Hands on Voice Conversion
Hands on Voice Conversion
NU_I_TODALAB
?
Ad

ケプストラム正则化狈罢贵によるステレオチャネル楽曲音源分离