狠狠撸

狠狠撸Share a Scribd company logo
Copyright?2018 NTT corp. All Rights Reserved.
2018/06/17 @ 音学シンポジウム2018
1
NTTメディアインテリジェンス研究所
小泉 悠馬
【招待講演】
実环境音响信号処理における収音技术
Copyright?2018 NTT corp. All Rights Reserved. 2
皆さん初めまして!
SIGMUSの皆さん
お久しぶりです!
Copyright?2018 NTT corp. All Rights Reserved. 3
About me
? 小泉 悠馬(こいずみ ゆうま)
? 専門:音楽情報処理(修士まで)
? 電気音響(会社から)
略歴
? 2014年: 法政大学 情報科学研究科 修了
? 2014年: NTTメディアインテリジェンス研究所 入所
? 2017年: 博士(工学) (電気通信大学)
研究内容
? 音響信号処理 × 機械学習の基礎研究と実用化
? 収音技術:うるさい中から欲しい音だけ取り出したい!
? 異常検知:周囲の異変を音から検知したい!
指導教官
伊藤 克亘教授
指導教官
羽田 陽一教授
Copyright?2018 NTT corp. All Rights Reserved. 4
Special thanks
丹羽 健太博士 小林 和則博士日岡 祐輔准教授
川瀬 智子博士齊藤 翔一郎氏
羽田 陽一教授
本日の講演は、下記の方々の研究成果も紹介します
伊藤 弘章氏 原田 登博士
Copyright?2018 NTT corp. All Rights Reserved. 5
実環境での音情報処理サービス
計算機/通信の発達で音情報処理技術はどんどん身近に
音声認識
エンターテイメント
異常音検知
音声通信
5
Copyright?2018 NTT corp. All Rights Reserved. 6
実環境における雑音の影響
雑音が音情報処理性能を低下させる
雑音が大きく
音声認識できない
競技音が埋もれ
臨場感が伝わらない
音声認識 スポーツ中継
Copyright?2018 NTT corp. All Rights Reserved. 7
今日の話
実環境で
欲しい音だけ収録するには
どうすればいいのか?
Copyright?2018 NTT corp. All Rights Reserved. 8
収音技術
観測音から目的音を抽出する信号処理
? 音源強調、音源分離、雑音抑圧など、様々な小分類がある
? 本講演では以降、「音源強調」で統一する
観測音 目的音 雑音
※ 説明の簡単のために、周波数領
域の瞬時混合を仮定し伝達特性を
省略
目的音
雑音 …
観測音
収音技術
出力音
マイク
Copyright?2018 NTT corp. All Rights Reserved. 9
フィルタリングによる音源強調(一般形)
線形フィルタリング(e.g. ビームフォーミング, ICA, IVA)
非線形フィルタリング(e.g. 時間周波数マスク, NMF)
…
…
? 周波数領域の時不変な複素線形結合(例外あり)
? 周波数領域の時変な(複素/実数)係数の乗算
フィルタ推定
Copyright?2018 NTT corp. All Rights Reserved. 10
線形フィルタリング
音源方向によって、マイクへの到達時間/ゲイン差が生じる
正面から到来する音は、
ほぼ時間差なく到達
Copyright?2018 NTT corp. All Rights Reserved. 11
正面から以外から到来する音は、
時間差をもって到達
線形フィルタリング
音源方向によって、マイクへの到達時間/ゲイン差が生じる
Copyright?2018 NTT corp. All Rights Reserved. 12
複数の方向からの音が混ざると、
複雑な波形となる
線形フィルタリング
音源方向によって、マイクへの到達時間/ゲイン差が生じる
Copyright?2018 NTT corp. All Rights Reserved. 13
到達時間/ゲイン差を利用し、所望の音を強調/抑圧
例)正面の音は同じタイミングで到達するので、
全マイクの音を加算すると強められる
線形フィルタリング
Copyright?2018 NTT corp. All Rights Reserved. 14
目的音=人間の声
非線形フィルタリング
時間周波数マスク 0 ≤ ??,? ≤ 1 を乗じる音源強調法
Copyright?2018 NTT corp. All Rights Reserved. 15
雑音=サックス
非線形フィルタリング
時間周波数マスク 0 ≤ ??,? ≤ 1 を乗じる音源強調法
Copyright?2018 NTT corp. All Rights Reserved. 16
混ざってしまうと、どれが目的音かわからない
?? ??
非線形フィルタリング
時間周波数マスク 0 ≤ ??,? ≤ 1 を乗じる音源強調法
Copyright?2018 NTT corp. All Rights Reserved. 17
例:ウィナーフィルタ
非線形フィルタリング
時間周波数マスク 0 ≤ ??,? ≤ 1 を乗じる音源強調法
Copyright?2018 NTT corp. All Rights Reserved. 18
例:ウィナーフィルタ
非線形フィルタリング
時間周波数マスク 0 ≤ ??,? ≤ 1 を乗じる音源強調法
Copyright?2018 NTT corp. All Rights Reserved. 19
残念ながら(私の知る限り)
万能なフィルタ設計法は存在しない
どうフィルタを設計すれば良い?
Copyright?2018 NTT corp. All Rights Reserved. 20
手法 着眼点 受音構造制約 フレーム処理 抑圧量/目的音歪 計算コスト
Spectrum subtraction
[Boll+, 1979]など
信号統計量/時間周
波数構造
なし 可能 大/大 軽量
Beamforming 音源方向
マルチチャネル
(dense)
可能 小/小 軽量
音響エコーキャンセラー 音源位置(座標) 雑音源が既知 可能
線形:中/小
非線形:大/大
逐次更新
分散マイクロホンアレー
[Arabi, 2003][Ono+, 2009]
音源位置(座標)
マルチチャネル
(distributed)
可能
線形:中/小
非線形:大/大
手法依存
球面調和関数展開
[Haneda+, 2014]
音源距離 中空球面アレー 可能 大/高域大 軽量
NMF
[Smaragdis+, 2003]
信号統計量/時間周
波数構造
なし 不可 中/中 反復更新
FDICA[Smaragdis+, 1998]
/IVA[Hiroe+, 2006]
信号統計量/音源方
向
マルチチャネル
(優決定)
不可 中/小 反復更新
MNMF
[Sawada+, 2013]など
音源方向/信号統計
量/時間周波数構造
マルチチャネル
(dense)
不可 大/小 反復更新
ILRMA
[Kitamura+, 2016]など
音源方向/信号統計
量/時間周波数構造
マルチチャネル
(優決定)
不可 大/小 反復更新
深層学習/機械学習ベース
[Erdogan+, 2015]など
信号統計量/時間周
波数構造
学習時と一致す
る必要
可能 大/中 要事前学習
代表的な音源強調(※主観的なまとめ)
Copyright?2018 NTT corp. All Rights Reserved. 21
実環境では問題の事前知識は「ある」場合が多数
問題によって【求められる/求められない】性能は異なる
収音技術の性能要件を明確にする
=「問題を定義する」ことが大切
? 目的音と雑音の違いは?
? どの程度の雑音抑圧性能が必要?(抑圧量/音の歪み)
? 計算リソースはどれくらい使える?
? ハードウェアや設置条件に制限はある?
? リアルタイム処理は必要?
? 事前学習は可能?(環境の変動は大きい?)
技術開発チェックリスト
Copyright?2018 NTT corp. All Rights Reserved. 22
1. 方向の違いで分離する
もくじ
2. 位置の違いで分離する
3. 音色の違いで分離する
4. 深層学習を利用した収音技術
実環境で利用した収音技術の紹介
5. まとめ
Copyright?2018 NTT corp. All Rights Reserved. 23
1. 方向の違いで分離する
もくじ
2. 位置の違いで分離する
3. 音色の違いで分離する
4. 深層学習を利用した収音技術
5. まとめ
実環境で利用した収音技術の紹介
Copyright?2018 NTT corp. All Rights Reserved. 24
目的音と雑音の「方向」が異なる例
対話ロボット
話しかける人は
たいてい正面に立つ
Copyright?2018 NTT corp. All Rights Reserved. 25
目的音と雑音の「方向」が異なる例
雑音は様々な方向から
やってくる
対話ロボット
Copyright?2018 NTT corp. All Rights Reserved. 26
到達時間/ゲイン差を利用し、所望の音を強調/抑圧
ビームフォーミング
Copyright?2018 NTT corp. All Rights Reserved. 27
ビームフォーマ設計の例(最尤BF)
? 観測信号のモデル化
目的音から各マイクまでの伝達特性ベクトル
? 雑音がガウス雑音と仮定すると、尤度関数は 雑音の空間相関行列
? この尤度関数を最大化する出力音と BF は以下で求められる
: 雑音の方向に死角を形成
: 目的音の方向に山を形成
? や は未知のため、ステアリングベクトルを代用
? 音源強調性能が低下
Copyright?2018 NTT corp. All Rights Reserved. 28
ビームフォーミングの精度向上のために
音声認識の精度上げたい!
うるさい中でも通話をしたい!
? 音声は歪ませたくない
? 計算量は多少使える
? 「音声」だけ強調できればいい
? とにかく雑音を消したい
? 計算量は数百MIPS程度
? どんな音かわからない
Copyright?2018 NTT corp. All Rights Reserved. 29
うるさい中でも通話をしたい!
? 目的音と雑音の違いは?
? どの程度の雑音抑圧性能が必要?(抑圧量/音の歪み)
? 計算リソースはどれくらい使える?
? ハードウェアや設置条件に制限はある?
? 事前学習は可能?(環境の変動は大きい?)
? リアルタイム処理は必要?
→ 方向
→ YES
→ 通話向けだからとにかく雑音を消したい
→ No
→ DSPチップに乗る程度
→ コスト面から、マイクは数個のみ
Copyright?2018 NTT corp. All Rights Reserved.
…
30
非線形フィルタリングを後段に組み合わせる
1. 通話向けの拡張(抑圧量大/歪み大/演算量小)
BF1
BF-1
時間周波数マスク処理
時間周波数マスク設計
BF-2
BF-L
…
ポストフィルタの利用
[Kaneda+, 1984], [Zelinski, ICASSP-1988], [McCowan+, 2003]
Copyright?2018 NTT corp. All Rights Reserved. 31
?
目的音
BF出力からの時間周波数マスク設計
雑音マイクロホンアレー
BF単体での雑音抑圧性能は 15 dB 程度
Copyright?2018 NTT corp. All Rights Reserved. 32
?
BF出力からの時間周波数マスク設計
目的音 雑音マイクロホンアレー
BFを複数組み合わせれば、見かけ上の
ゲイン差が増える
Copyright?2018 NTT corp. All Rights Reserved. 33
BF出力からの時間周波数マスク設計
?
目的音 雑音マイクロホンアレー
目的音側 BF =
雑音側 BF =
+
?+
? 目的音側 BF – α × 雑音側 BF=
雑音側 BF – β×目的音側 BF=?
減算係数はどのように決めれば良いだろう?
減算して得られた目的音/雑音のパワースペクト
ルから時間周波数マスクを設計
Copyright?2018 NTT corp. All Rights Reserved. 34
PSD-estimation-in-beamspace
[Hioka, et al., IEEE Trans., 2013]
減算係数を各BFの角度周波数特性から決定
? 複数のBFの出力を、各方向毎の音源群の線形和で近似
? 減算係数を角度周波数応答行列の一般化逆行列 で求める
非常にシンプルなモデル
なものの、実環境では強
力, 安定かつ高速に動作
※ 安定動作条件は [Niwa+, IWAENC-2016] を参照
Copyright?2018 NTT corp. All Rights Reserved. 35
Demo Video
100 dB の騒音下で目的音を抽出&音声認識
Copyright?2018 NTT corp. All Rights Reserved. 36
音声認識の精度上げたい!
? 目的音と雑音の違いは?
? どの程度の雑音抑圧性能が必要?(抑圧量/音の歪み)
? 計算リソースはどれくらい使える?
? ハードウェアや設置条件に制限はある?
? 事前学習は可能?(環境の変動は大きい?)
? リアルタイム処理は必要?
→ 方向
→ 多少、計算機パワーは使える
→ YES
→ 音声認識向けだから歪ませたくない!
→ 音声の特徴は学習可能
Copyright?2018 NTT corp. All Rights Reserved. 37
時間周波数マスクを利用した空間相関行列の推定
2. 音声認識向けの拡張(抑圧量小/歪み小/演算量大)
…
T-Fマスク推定&
マスク処理
ビームフォーミング
ビームフォーマ設計
[Araki+, ICASSP-2007], [Yoshioka+, ASRU-2015], [Ochiai+, ICML-2017]
空間相関行列の推定
Copyright?2018 NTT corp. All Rights Reserved. 38
空間相関行列の推定 (cont’d)
T-Fマスクを利用した空間相関行列の推定
※ 音声認識では、ML-BF よりも MVDR-BF [Souden+, 2010] が使われている
[Araki+, ICASSP-2007], [Yoshioka+, ASRU-2015], [Ochiai+, ICML-2017]
雑音の空間相関行列
0 1 2 3 4
0
2
4
6
8
0 1 2 3 4
0
2
4
6
8
0 1 2 3 4
0
2
4
6
8
得られるのは観測信号のみで
ノイズの情報を得ることはできない
2. 音声認識向けの拡張(抑圧量小/歪み小/演算量大)
Copyright?2018 NTT corp. All Rights Reserved.
0 1 2 3 4
0
2
4
6
8
0 1 2 3 4
0
2
4
6
8
39
空間相関行列の推定 (cont’d)
T-Fマスクを利用した空間相関行列の推定
※ 音声認識では、ML-BF よりも MVDR-BF [Souden+, 2010] が使われている
[Araki+, ICASSP-2007], [Yoshioka+, ASRU-2015], [Ochiai+, ICML-2017]
雑音の空間相関行列
0 1 2 3 4
0
2
4
6
8
目的音を推定する T-F マスク設計法を利用
2. 音声認識向けの拡張(抑圧量小/歪み小/演算量大)
Copyright?2018 NTT corp. All Rights Reserved. 40
空間相関行列の推定 (cont’d)
T-Fマスクを利用した空間相関行列の推定
※ 音声認識では、ML-BF よりも MVDR-BF [Souden+, 2010] が使われている
[Araki+, ICASSP-2007], [Yoshioka+, ASRU-2015], [Ochiai+, ICML-2017]
雑音の空間相関行列
0 1 2 3 4
0
2
4
6
8
0 1 2 3 4
0
2
4
6
8
0 1 2 3 4
0
2
4
6
8
T-F マスクを ”ひっくり返せば”
雑音の推定値を得ることもできる
2. 音声認識向けの拡張(抑圧量小/歪み小/演算量大)
Copyright?2018 NTT corp. All Rights Reserved. 41
空間相関行列の推定 (cont’d)
T-Fマスクを利用した空間相関行列の推定
※ 音声認識では、ML-BF よりも MVDR-BF [Souden+, 2010] が使われている
雑音の空間相関行列
0 1 2 3 4
0
2
4
6
8
0 1 2 3 4
0
2
4
6
8
0 1 2 3 4
0
2
4
6
8
[Araki+, ICASSP-2007], [Yoshioka+, ASRU-2015], [Ochiai+, ICML-2017]
2. 音声認識向けの拡張(抑圧量小/歪み小/演算量大)
Copyright?2018 NTT corp. All Rights Reserved. 42
1. 方向の違いで分離する
もくじ
2. 位置の違いで分離する
3. 音色の違いで分離する
4. 深層学習を利用した収音技術
5. まとめ
実環境で利用した収音技術の紹介
Copyright?2018 NTT corp. All Rights Reserved. 43
目的音と雑音の「位置」が異なるケース
広い部屋での会議
お誕生日席が遠くて
強調できない!
Copyright?2018 NTT corp. All Rights Reserved. 44
なぜ、遠い音の分離が難しいのか
Target
Noise
?1
Mic. array
?2
マイクロホンからの距離が遠いほど、見込み角が小さくなる
Copyright?2018 NTT corp. All Rights Reserved. 45
分散マイクロホンアレー
Target
Noise
Microphones
複数のマイクロホンを dense に配置するのやめよう
マイクロホンを各音源の近くに配置すればいい!
Copyright?2018 NTT corp. All Rights Reserved. 46
スマホマイクアレー
複数のスマホをマイクロホンアレーとして連携
問題点1:サンプリングの同期が取れない
問題点2:マイクの相対位置が不明
[Ono+, WASPAA-2009]など
Copyright?2018 NTT corp. All Rights Reserved. 47
伝達関数ゲイン推定
伝達ゲイン(各マイクロホンの感度比)の推定問題
[Chiba+, IWAENC-2014], [Kako+, WASPAA-2015]など
PSDの瞬時混合でモデル化
? 発話者が一人の時は、
各マイクロホンの音量比で求まる!!
[Kako+, 2015] のアルゴリズム(計算量小/リアルタイム)
1. VADを行い、発話者が一人の区間を検出
2. 各マイクロホンについて、感度比を推定
3. 感度比を並べた行列の疑似逆行列を求め、目的音のPSDを推定
Copyright?2018 NTT corp. All Rights Reserved. 48
Demo Video
これまで紹介した技術を組み合わせた
車内での通話や音声認識のデモ
複数個所に取り付けたマイクロホンアレーを連携させて音声強調
Copyright?2018 NTT corp. All Rights Reserved.
? 歓声やPAが雑音源
? 野球中継で聞いている音
はパラボラマイクの音
パラボラマイク
場内アナウンス
(PAスピーカ)
応援団
競技音
49
目的音と雑音が離れている場合は?
Copyright?2018 NTT corp. All Rights Reserved. 50
目的音と雑音が離れている場合は?
瞬時混合が成り立たない(距離による伝搬遅延や長残響)
時間周波数
マスク設計
×
Copyright?2018 NTT corp. All Rights Reserved. 51
目的音と雑音が離れている場合は?
瞬時混合が成り立たない(距離による伝搬遅延や長残響)
時間周波数
マスク設計
×
遅延&
残響推定
Copyright?2018 NTT corp. All Rights Reserved. 52
Multi-delay noise model
振幅領域での伝搬遅延/長残響のモデル化
Time-frame
delay
Gain ,
Gain ,1
Gain ,
1
1
……
,
1
,
2
,
Multi-delay noise model
,
Multi-delay
noise model
Multi-delay
noise model
,
1
Time-frequency
mask calc.
? ,
,
残響 伝搬遅延
Multi-delay noise model
? Multi-delay-block-filter の振幅領域での表現 + 遅延項の拡張
? 物理的制約を事前分布におき、残響/遅延パラメータをMAP推定
[小泉+, 音講論(秋), 2017], [Koizumi, et al., EUSIPCO 2018] (to appear)
Copyright?2018 NTT corp. All Rights Reserved. 53
Multi-delay noise model
物理的制約を事前分布においた残響/遅延のMAP推定
? 残響:音のパワーは非負&指数的に減衰 → 指数分布
? 伝搬遅延:距離と音速から概算できる自然数 → ポアソン分布
[小泉+, 音講論(秋), 2017], [Koizumi, et al., EUSIPCO 2018] (to appear)
概算フレーム遅延
パワーの指数減衰
Copyright?2018 NTT corp. All Rights Reserved. 54
Modeling
…!
ホームベース付近に
パラボラマイク
外野スタンドに
ショットガンマイク
Time [s]
Freq.[kHz]Freq.[kHz]Freq.[kHz]
パラボラマイク(ホームベース)
ショットガンマイク(外野スタンド)
処理音
ストラーイク!
ミット音
Time [s]
野球場での動作デモ
審判の声や捕球音を強調
[小泉+, 音講論(秋), 2017], [Koizumi, et al., EUSIPCO 2018] (to appear)
Copyright?2018 NTT corp. All Rights Reserved. 55
1. 方向の違いで分離する
もくじ
2. 位置の違いで分離する
3. 音色の違いで分離する
4. 深層学習を利用した収音技術
5. まとめ
実環境で利用した収音技術の紹介
Copyright?2018 NTT corp. All Rights Reserved. 56
目的音と雑音の「音色」が異なるケース
マイクアレイ
競技音歓声雑音
雑音が全方位から到来し、目的音の近くにマイク配置できない
目的音と雑音の音色の違いに着目して音源強調できないか
Copyright?2018 NTT corp. All Rights Reserved. 57
音色が異なると観測音はどう変化する?
? サッカーボールのキック音 @ ゴール前
0 2 4 6 8 10
0
2
4
6
8
Time [s]
Frequency[kHz]
キック音 歓声応援&太鼓
Copyright?2018 NTT corp. All Rights Reserved. 58
Demo Video
大歓声の中でキック音を強調
周囲のスピーカーで
競技場の歓声を再現
アルゴリズム
1. 突発音を検出し、その中からキック音を検出
2. キック音だけを強調する時間周波数マスクをルールベース設計
Copyright?2018 NTT corp. All Rights Reserved. 59
もう少し高度化できないものだろうか?
ルールベース処理 = 回帰関数の手作業設計
観測音
時間周波数マスク
1. 突発音検知=閾値判定
2. フィルタ設計
=マッピング
ルール設計やパラメータ調整を自動化したい
? 機械学習ベースの手法へ
Copyright?2018 NTT corp. All Rights Reserved. 60
1. 方向の違いで分離する
もくじ
2. 位置の違いで分離する
3. 音色の違いで分離する
4. 深層学習を利用した収音技術
5. まとめ
Copyright?2018 NTT corp. All Rights Reserved. 61
(D)NN音源強調
DNNを回帰関数として利用
? 時間周波数マスク or Log-amplitude-spectrum の推定が主流
…
……
……
……
……
…
……
?
源信号
?
雑音 ?
観測信号
?
目的関数
(MMSE)
学習
データ
[Xie, et al., 1994], [Nadarayan, et al., ICASSP-2013]
Copyright?2018 NTT corp. All Rights Reserved.
様々なDNN音源強調の研究
バッチ処理系
リアルタイム処理系
? Deep clustering [Hershey+, 2016]
? Permutation Invariant Training (PIT) [Dong Yu+, 2017]
? 雑音の種類が目的音と同じでも分離可能(speech + speechなど)
? 線形フィルタのパラメータ推定、音声認識との相性が良い
? 空間相関行列推定 [Ochiai+, 2017]
? Independent Deep Learning Matrix Analysis (IDLMA) [北村+, 2018]
? マイク数や利用環境に依存しない基礎研究が多い
? 新しい時間周波数マスク
? ブラックボックスな指標を利用した最適化 [Koizumi+, 2017]
? Phase Sensitive Mask (PSM) [Erdogan+, 2015]
? Complex Ideal Ratio Mask (cIRM) [Williamson+, 2016]
? MDCT-Mask [Koizumi+, 2018]
Copyright?2018 NTT corp. All Rights Reserved. 63
DNN音源強調における目的関数の重要性
DNNにどんな「情報」を推定して欲しいのか?
? DNNは、ただの柔軟な回帰関数
? 出力の信号的/統計的性質を決めるのは、学習に用いる目的関数
システムの最終目的は「歪みの最小化」なのか?
代表的な目的関数 = 歪み最小化
Phase-Sensitive-Cost [Erdogan+, 2015]
? 対話の「満足度」を上げたい
? 人が聞いて「良い」と思える音を出力したい
実用上、性能指標が解析的に記述できないことも
Copyright?2018 NTT corp. All Rights Reserved. 64
解析的でない(微分できない)目的関数
主観的な音質評価を最大化したい
ブラックボックス関数は微分不可能 (Backprop.が困難)
???
Copyright?2018 NTT corp. All Rights Reserved. 65
DNN音源強調のブラックボックス最適化
強化学習を応用した最適化
[Koizumi, et al., ICASSP-2017], [Koizumi, et al., IEEE Trans., 2018]
Game
score
Reward func.Action selector
Action
candi-
dates
Action
…
…
…
…
ゲームスコアさえあれば
DNNが学習できる
ビデオゲームや囲碁の学習に成功している!
音源強調に応用できないか?
Copyright?2018 NTT corp. All Rights Reserved. 66
DNN音源強調のブラックボックス最適化
強化学習を応用した最適化
Reward func.Mask generator
T-F
mask
Masking
…
…
…
…
スコアを主観評価と
捉えれば最適化できる?
学習には大量の試行が必要 ? 主観評価そのままの利用は厳しい…
[Koizumi, et al., ICASSP-2017], [Koizumi, et al., IEEE Trans., 2018]
Copyright?2018 NTT corp. All Rights Reserved. 67
DNN音源強調のブラックボックス最適化
強化学習を応用した最適化
Reward func.Mask generator
T-F
mask
Masking
…
…
…
…
人間の主観評価を模擬した定量
評価指標を利用 (e.g. PESQ)
PC上のシミュレーションで完結
[Koizumi, et al., ICASSP-2017], [Koizumi, et al., IEEE Trans., 2018]
Copyright?2018 NTT corp. All Rights Reserved.
聴感評点の例
68
?音質の定量指標の例
?明瞭度(単語の聞き取りやすさ)の定量指標の例
? PESQ: Perceptual Evaluation of Speech Quality
? 音声符号化などで使われる音質の定量評価指標
Input: 目的音と出力音の音声ファイル
Output: 人間の音質評価(MOS)を模擬した値
? PESQを上げ、出力音の音質向上を狙う
? STOI: Short-Time Objective Intelligibility
? 音声強調などで使われる明瞭度の定量評価指標
Input: 目的音と出力音の音声ファイル
Output: 人間の単語正解率を模擬した値
? STOIを上げ、出力音の明瞭度向上を狙う
Copyright?2018 NTT corp. All Rights Reserved. 69
DNN音源強調のブラックボックス最適化
DNNを用いて目的関数を定義
サンプリングを用いた勾配の近似計算(policy gradient)
出力音の条件付き分布を
DNNで記述
聴感評点の最大化を
目的関数とする
Copyright?2018 NTT corp. All Rights Reserved.
評価実験
70
?定量評価実験
?主観評価実験
【確認ポイント】聴感評点を向上させるようにDNNを学習できるか?
【確認ポイント】聴感評点と対応した主観品質が向上するか?
実験1:学習回数と聴感評点の関係を調査
実験2:従来法と聴感評点の値を比較
実験1:PESQを向上させたときの 音質(MOS) を評価
実験2:STOIを向上させたときの 明瞭度(単語了解度) を評価
※時間の都合上、詳細な実装/実験/結果は、以下の文献をご参照ください
Y. Koizumi, et al., “DNN-based Source Enhancement to Increase Objective Sound Quality
Assessment Score,” IEEE Trans. ASLP, 2018.
Copyright?2018 NTT corp. All Rights Reserved.
評価実験 1/2(定量評価実験)
71
音質指標
PESQの向上値
【実験1】:学習回数が進むに従い、聴感評点が向上
明瞭度指標
STOIの向上値
学習回数 学習回数
【実験2】:学習に利用した聴感評点が、従来法より優位に向上
SDR [dB](歪み) PESQ (音質) STOI [%](明瞭度)
PSM [Erdogan,2015] 9.40 2.27 83.3
提案法(PESQ) 9.19 2.37 83.4
提案法(STOI) 9.74 2.20 87.3
? 学習が進むにつれ、目標としてい
る聴感評点も向上
? 学習に用いた聴感評点は従来法より
も優位に向上
(Input SNR: 0dB, Open test)
? 聴感評点を向上させるDNN学習に成功
? 従来技術と比べ、聴感評点が優位に向上
Copyright?2018 NTT corp. All Rights Reserved.
評価実験 2/2(主観評価実験)
72
音質の主観評価値
従来法
提案法
(PESQ)
提案法
(STOI)
単語了解度[%]
【実験1 】
出力音の音質を5段階で絶対評価
(PESQが模擬している試験)
良
悪
良
悪
【実験2 】
親密度の低い単語の聞き取り正解率
(STOIが模擬している試験)
従来法
提案法
(PESQ)
提案法
(STOI)
従来法 提案法(PESQ) 従来法 提案法(STOI)
PESQ最大化で
音質が向上
STOI最大化で
明瞭度が向上
? 聴感評点に対応する主観品質も、従来法と比べ優位に向上
Copyright?2018 NTT corp. All Rights Reserved.
評価実験 2/2(主観評価実験)
73
音質の主観評価値
従来法
提案法
(PESQ)
提案法
(STOI)
単語了解度[%]
【実験1 】
出力音の音質を5段階で絶対評価
(PESQが模擬している試験)
良
悪
良
悪
【実験2 】
親密度の低い単語の聞き取り正解率
(STOIが模擬している試験)
従来法
提案法
(PESQ)
提案法
(STOI)
従来法 提案法(PESQ)
? 聴感評点に対応する主観品質も、従来法と比べ優位に向上
従来法 提案法(STOI)
正解は「タカドノ」
従来法の正答率:31%, 提案法の正答率:81%
従来法は、雑音を削りすぎ、冒頭の子音の明瞭度が
低下しため、「ハカドノ」などと誤回答
Copyright?2018 NTT corp. All Rights Reserved. 74
1. 方向の違いで分離する
もくじ
2. 位置の違いで分離する
3. 音色の違いで分離する
4. 深層学習を利用した収音技術
5. まとめ
実環境で利用した収音技術の紹介
Copyright?2018 NTT corp. All Rights Reserved. 75
まとめ
収音技術の性能要件を明確にする
=「問題を定義する」ことが大切
? 目的音と雑音の違いは?
? どの程度の雑音抑圧性能が必要?(抑圧量/音の歪み)
? 計算リソースはどれくらい使える?
? ハードウェアや設置条件に制限はある?
? リアルタイム処理は必要?
? 事前学習は可能?(環境の変動は大きい?)
さあ、現場に行ってみましょう!
Copyright?2018 NTT corp. All Rights Reserved. 76
Thank you!!
Ad

Recommended

环境音の特徴を活用した音响イベント検出?シーン分类
环境音の特徴を活用した音响イベント検出?シーン分类
Keisuke Imoto
?
异常音検知に対する深层学习适用事例
异常音検知に対する深层学习适用事例
NU_I_TODALAB
?
スタートアップの失败を90%减らす10のポイント
スタートアップの失败を90%减らす10のポイント
Masa Tadokoro
?
深层学习を利用した音声强调
深层学习を利用した音声强调
Yuma Koizumi
?
Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料
Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料
Yusuke Uchida
?
Diabetes Mellitus
Diabetes Mellitus
MD Abdul Haleem
?
Power Point Presentation on Artificial Intelligence
Power Point Presentation on Artificial Intelligence
Anushka Ghosh
?
Republic Act No. 11313 Safe Spaces Act (Bawal Bastos Law).pptx
Republic Act No. 11313 Safe Spaces Act (Bawal Bastos Law).pptx
maricelabaya1
?
音源分離 ~DNN音源分離の基礎から最新技術まで~ Tokyo bishbash #3
音源分離 ~DNN音源分離の基礎から最新技術まで~ Tokyo bishbash #3
Naoya Takahashi
?
深层学习を用いた音源定位、音源分离、クラス分类の统合~环境音セグメンテーション手法の绍介~
深层学习を用いた音源定位、音源分离、クラス分类の统合~环境音セグメンテーション手法の绍介~
Yui Sudo
?
音响信号に対する异常音検知技术と応用
音响信号に対する异常音検知技术と応用
Yuma Koizumi
?
统计的手法に基づく异常音検知の理论と応用
统计的手法に基づく异常音検知の理论と応用
Yuma Koizumi
?
スペクトログラム無矛盾性を用いた 独立低ランク行列分析の実験的評価
スペクトログラム無矛盾性を用いた 独立低ランク行列分析の実験的評価
Daichi Kitamura
?
音源分離における音響モデリング(Acoustic modeling in audio source separation)
音源分離における音響モデリング(Acoustic modeling in audio source separation)
Daichi Kitamura
?
やさしく音声分析法を学ぶ: ケプストラム分析とLPC分析
やさしく音声分析法を学ぶ: ケプストラム分析とLPC分析
Shinnosuke Takamichi
?
独立低ランク行列分析に基づく音源分離とその発展(Audio source separation based on independent low-rank...
独立低ランク行列分析に基づく音源分離とその発展(Audio source separation based on independent low-rank...
Daichi Kitamura
?
論文紹介 Unsupervised training of neural mask-based beamforming
論文紹介 Unsupervised training of neural mask-based beamforming
Shinnosuke Takamichi
?
JTubeSpeech: 音声認識と話者照合のために YouTube から構築される日本語音声コーパス
JTubeSpeech: 音声認識と話者照合のために YouTube から構築される日本語音声コーパス
Shinnosuke Takamichi
?
非负値行列因子分解に基づくブラインド及び教师あり音楽音源分离の効果的最适化法
非负値行列因子分解に基づくブラインド及び教师あり音楽音源分离の効果的最适化法
Daichi Kitamura
?
ICASSP 2019での音響信号処理分野の世界動向
ICASSP 2019での音響信号処理分野の世界動向
Yuma Koizumi
?
音楽を见る:情报可视化技术の音楽情报処理への适用
音楽を见る:情报可视化技术の音楽情报処理への适用
Takayuki Itoh
?
音響システム特論 第11回 実環境における音響信号処理と機械学習
音響システム特論 第11回 実環境における音響信号処理と機械学習
Yuma Koizumi
?
深层学习と音响信号処理
深层学习と音响信号処理
Yuma Koizumi
?
Asj2017 3invited
Asj2017 3invited
SaruwatariLabUTokyo
?
音声の声质を変换する技术とその応用
音声の声质を変换する技术とその応用
NU_I_TODALAB
?
独立性に基づくブラインド音源分離の発展と独立低ランク行列分析 History of independence-based blind source sep...
独立性に基づくブラインド音源分離の発展と独立低ランク行列分析 History of independence-based blind source sep...
Daichi Kitamura
?
音声生成の基础と音声学
音声生成の基础と音声学
Akinori Ito
?
音情报処理における特徴表现
音情报処理における特徴表现
NU_I_TODALAB
?
滨颁础厂厂笔2019论文読み会冲笔贬础厂贰叠翱翱碍
滨颁础厂厂笔2019论文読み会冲笔贬础厂贰叠翱翱碍
Atsushi_Ando
?
滨颁础厂厂笔2020音声&音响読み会惭别濒濒辞迟谤辞苍
滨颁础厂厂笔2020音声&音响読み会惭别濒濒辞迟谤辞苍
Kentaro Tachibana
?

More Related Content

What's hot (20)

音源分離 ~DNN音源分離の基礎から最新技術まで~ Tokyo bishbash #3
音源分離 ~DNN音源分離の基礎から最新技術まで~ Tokyo bishbash #3
Naoya Takahashi
?
深层学习を用いた音源定位、音源分离、クラス分类の统合~环境音セグメンテーション手法の绍介~
深层学习を用いた音源定位、音源分离、クラス分类の统合~环境音セグメンテーション手法の绍介~
Yui Sudo
?
音响信号に対する异常音検知技术と応用
音响信号に対する异常音検知技术と応用
Yuma Koizumi
?
统计的手法に基づく异常音検知の理论と応用
统计的手法に基づく异常音検知の理论と応用
Yuma Koizumi
?
スペクトログラム無矛盾性を用いた 独立低ランク行列分析の実験的評価
スペクトログラム無矛盾性を用いた 独立低ランク行列分析の実験的評価
Daichi Kitamura
?
音源分離における音響モデリング(Acoustic modeling in audio source separation)
音源分離における音響モデリング(Acoustic modeling in audio source separation)
Daichi Kitamura
?
やさしく音声分析法を学ぶ: ケプストラム分析とLPC分析
やさしく音声分析法を学ぶ: ケプストラム分析とLPC分析
Shinnosuke Takamichi
?
独立低ランク行列分析に基づく音源分離とその発展(Audio source separation based on independent low-rank...
独立低ランク行列分析に基づく音源分離とその発展(Audio source separation based on independent low-rank...
Daichi Kitamura
?
論文紹介 Unsupervised training of neural mask-based beamforming
論文紹介 Unsupervised training of neural mask-based beamforming
Shinnosuke Takamichi
?
JTubeSpeech: 音声認識と話者照合のために YouTube から構築される日本語音声コーパス
JTubeSpeech: 音声認識と話者照合のために YouTube から構築される日本語音声コーパス
Shinnosuke Takamichi
?
非负値行列因子分解に基づくブラインド及び教师あり音楽音源分离の効果的最适化法
非负値行列因子分解に基づくブラインド及び教师あり音楽音源分离の効果的最适化法
Daichi Kitamura
?
ICASSP 2019での音響信号処理分野の世界動向
ICASSP 2019での音響信号処理分野の世界動向
Yuma Koizumi
?
音楽を见る:情报可视化技术の音楽情报処理への适用
音楽を见る:情报可视化技术の音楽情报処理への适用
Takayuki Itoh
?
音響システム特論 第11回 実環境における音響信号処理と機械学習
音響システム特論 第11回 実環境における音響信号処理と機械学習
Yuma Koizumi
?
深层学习と音响信号処理
深层学习と音响信号処理
Yuma Koizumi
?
Asj2017 3invited
Asj2017 3invited
SaruwatariLabUTokyo
?
音声の声质を変换する技术とその応用
音声の声质を変换する技术とその応用
NU_I_TODALAB
?
独立性に基づくブラインド音源分離の発展と独立低ランク行列分析 History of independence-based blind source sep...
独立性に基づくブラインド音源分離の発展と独立低ランク行列分析 History of independence-based blind source sep...
Daichi Kitamura
?
音声生成の基础と音声学
音声生成の基础と音声学
Akinori Ito
?
音情报処理における特徴表现
音情报処理における特徴表现
NU_I_TODALAB
?
音源分離 ~DNN音源分離の基礎から最新技術まで~ Tokyo bishbash #3
音源分離 ~DNN音源分離の基礎から最新技術まで~ Tokyo bishbash #3
Naoya Takahashi
?
深层学习を用いた音源定位、音源分离、クラス分类の统合~环境音セグメンテーション手法の绍介~
深层学习を用いた音源定位、音源分离、クラス分类の统合~环境音セグメンテーション手法の绍介~
Yui Sudo
?
音响信号に対する异常音検知技术と応用
音响信号に対する异常音検知技术と応用
Yuma Koizumi
?
统计的手法に基づく异常音検知の理论と応用
统计的手法に基づく异常音検知の理论と応用
Yuma Koizumi
?
スペクトログラム無矛盾性を用いた 独立低ランク行列分析の実験的評価
スペクトログラム無矛盾性を用いた 独立低ランク行列分析の実験的評価
Daichi Kitamura
?
音源分離における音響モデリング(Acoustic modeling in audio source separation)
音源分離における音響モデリング(Acoustic modeling in audio source separation)
Daichi Kitamura
?
やさしく音声分析法を学ぶ: ケプストラム分析とLPC分析
やさしく音声分析法を学ぶ: ケプストラム分析とLPC分析
Shinnosuke Takamichi
?
独立低ランク行列分析に基づく音源分離とその発展(Audio source separation based on independent low-rank...
独立低ランク行列分析に基づく音源分離とその発展(Audio source separation based on independent low-rank...
Daichi Kitamura
?
論文紹介 Unsupervised training of neural mask-based beamforming
論文紹介 Unsupervised training of neural mask-based beamforming
Shinnosuke Takamichi
?
JTubeSpeech: 音声認識と話者照合のために YouTube から構築される日本語音声コーパス
JTubeSpeech: 音声認識と話者照合のために YouTube から構築される日本語音声コーパス
Shinnosuke Takamichi
?
非负値行列因子分解に基づくブラインド及び教师あり音楽音源分离の効果的最适化法
非负値行列因子分解に基づくブラインド及び教师あり音楽音源分离の効果的最适化法
Daichi Kitamura
?
ICASSP 2019での音響信号処理分野の世界動向
ICASSP 2019での音響信号処理分野の世界動向
Yuma Koizumi
?
音楽を见る:情报可视化技术の音楽情报処理への适用
音楽を见る:情报可视化技术の音楽情报処理への适用
Takayuki Itoh
?
音響システム特論 第11回 実環境における音響信号処理と機械学習
音響システム特論 第11回 実環境における音響信号処理と機械学習
Yuma Koizumi
?
深层学习と音响信号処理
深层学习と音响信号処理
Yuma Koizumi
?
音声の声质を変换する技术とその応用
音声の声质を変换する技术とその応用
NU_I_TODALAB
?
独立性に基づくブラインド音源分離の発展と独立低ランク行列分析 History of independence-based blind source sep...
独立性に基づくブラインド音源分離の発展と独立低ランク行列分析 History of independence-based blind source sep...
Daichi Kitamura
?
音声生成の基础と音声学
音声生成の基础と音声学
Akinori Ito
?
音情报処理における特徴表现
音情报処理における特徴表现
NU_I_TODALAB
?

Similar to 実环境音响信号処理における収音技术 (20)

滨颁础厂厂笔2019论文読み会冲笔贬础厂贰叠翱翱碍
滨颁础厂厂笔2019论文読み会冲笔贬础厂贰叠翱翱碍
Atsushi_Ando
?
滨颁础厂厂笔2020音声&音响読み会惭别濒濒辞迟谤辞苍
滨颁础厂厂笔2020音声&音响読み会惭别濒濒辞迟谤辞苍
Kentaro Tachibana
?
GTC Japan 2018 Inception Award 登壇資料( LiLz Inc. )
GTC Japan 2018 Inception Award 登壇資料( LiLz Inc. )
LiLz Inc.
?
AnnoTone: 高周波音の映像収録時 埋め込みによる編集支援
AnnoTone: 高周波音の映像収録時 埋め込みによる編集支援
Ryohei Suzuki
?
搁笔础製品と础厂罢贰搁滨础て?実现した业务効率化事例
搁笔础製品と础厂罢贰搁滨础て?実现した业务効率化事例
ASTERIA User Group
?
スマートライフのパートナーを目指すドコモr&d(予告编)
スマートライフのパートナーを目指すドコモr&d(予告编)
Osaka University
?
エヌビディアのディープラーニング戦略
エヌビディアのディープラーニング戦略
NVIDIA Japan
?
日本語における自然言語解析とその応用 ?COTOHA VA & API?
日本語における自然言語解析とその応用 ?COTOHA VA & API?
ネクストスケープ
?
AI for Media 2018 Update セミナー: 株式会社ユニゾンシステム: スピーチ AI を活用した文字起こしプラットホームの活用
AI for Media 2018 Update セミナー: 株式会社ユニゾンシステム: スピーチ AI を活用した文字起こしプラットホームの活用
Daiyu Hatakeyama
?
軽量开発プロセスにおける罢谤补肠を用いたメトリクスの収集?蓄积?利用
軽量开発プロセスにおける罢谤补肠を用いたメトリクスの収集?蓄积?利用
Naoki Ohsugi
?
Extreme Management Center を活用したネットワークの見える化
Extreme Management Center を活用したネットワークの見える化
エクストリーム ネットワークス / Extreme Networks Japan
?
ソラコム×オプティム共催セミナー 「Ai ファースト」のビジネス立ち上げの秘訣
ソラコム×オプティム共催セミナー 「Ai ファースト」のビジネス立ち上げの秘訣
株式会社オプティム
?
ION Tokyo: Keynote Presentation -- "Can we go back to the original? A Return ...
ION Tokyo: Keynote Presentation -- "Can we go back to the original? A Return ...
Deploy360 Programme (Internet Society)
?
東工大 工学院 情報通信系 大学院説明会2023
東工大 工学院 情報通信系 大学院説明会2023
Tokyo Institute of Technology
?
特別チュートリアル「パターン認識とメディア理解のフロンティア」 ディスカッションペーパー
特別チュートリアル「パターン認識とメディア理解のフロンティア」 ディスカッションペーパー
Osaka University
?
我々はどこへ行くのか: UXの誤解の先にある未来
我々はどこへ行くのか: UXの誤解の先にある未来
Masaya Ando
?
ウェアラブル時代到来! ~先行企業の活用事例と今後の展望~
ウェアラブル時代到来! ~先行企業の活用事例と今後の展望~
Takashi Ohmoto
?
環境活動でアジア連携 2018
環境活動でアジア連携 2018
Ikuo Misao
?
TEACHER-STUDENT DEEP CLUSTERING FOR LOW-DELAY SINGLE CHANNEL SPEECH SEPARATION
TEACHER-STUDENT DEEP CLUSTERING FOR LOW-DELAY SINGLE CHANNEL SPEECH SEPARATION
RyoAIHARA1
?
Kameoka2016 miru08
Kameoka2016 miru08
kame_hirokazu
?
滨颁础厂厂笔2019论文読み会冲笔贬础厂贰叠翱翱碍
滨颁础厂厂笔2019论文読み会冲笔贬础厂贰叠翱翱碍
Atsushi_Ando
?
滨颁础厂厂笔2020音声&音响読み会惭别濒濒辞迟谤辞苍
滨颁础厂厂笔2020音声&音响読み会惭别濒濒辞迟谤辞苍
Kentaro Tachibana
?
GTC Japan 2018 Inception Award 登壇資料( LiLz Inc. )
GTC Japan 2018 Inception Award 登壇資料( LiLz Inc. )
LiLz Inc.
?
AnnoTone: 高周波音の映像収録時 埋め込みによる編集支援
AnnoTone: 高周波音の映像収録時 埋め込みによる編集支援
Ryohei Suzuki
?
搁笔础製品と础厂罢贰搁滨础て?実现した业务効率化事例
搁笔础製品と础厂罢贰搁滨础て?実现した业务効率化事例
ASTERIA User Group
?
スマートライフのパートナーを目指すドコモr&d(予告编)
スマートライフのパートナーを目指すドコモr&d(予告编)
Osaka University
?
エヌビディアのディープラーニング戦略
エヌビディアのディープラーニング戦略
NVIDIA Japan
?
日本語における自然言語解析とその応用 ?COTOHA VA & API?
日本語における自然言語解析とその応用 ?COTOHA VA & API?
ネクストスケープ
?
AI for Media 2018 Update セミナー: 株式会社ユニゾンシステム: スピーチ AI を活用した文字起こしプラットホームの活用
AI for Media 2018 Update セミナー: 株式会社ユニゾンシステム: スピーチ AI を活用した文字起こしプラットホームの活用
Daiyu Hatakeyama
?
軽量开発プロセスにおける罢谤补肠を用いたメトリクスの収集?蓄积?利用
軽量开発プロセスにおける罢谤补肠を用いたメトリクスの収集?蓄积?利用
Naoki Ohsugi
?
ソラコム×オプティム共催セミナー 「Ai ファースト」のビジネス立ち上げの秘訣
ソラコム×オプティム共催セミナー 「Ai ファースト」のビジネス立ち上げの秘訣
株式会社オプティム
?
ION Tokyo: Keynote Presentation -- "Can we go back to the original? A Return ...
ION Tokyo: Keynote Presentation -- "Can we go back to the original? A Return ...
Deploy360 Programme (Internet Society)
?
東工大 工学院 情報通信系 大学院説明会2023
東工大 工学院 情報通信系 大学院説明会2023
Tokyo Institute of Technology
?
特別チュートリアル「パターン認識とメディア理解のフロンティア」 ディスカッションペーパー
特別チュートリアル「パターン認識とメディア理解のフロンティア」 ディスカッションペーパー
Osaka University
?
我々はどこへ行くのか: UXの誤解の先にある未来
我々はどこへ行くのか: UXの誤解の先にある未来
Masaya Ando
?
ウェアラブル時代到来! ~先行企業の活用事例と今後の展望~
ウェアラブル時代到来! ~先行企業の活用事例と今後の展望~
Takashi Ohmoto
?
環境活動でアジア連携 2018
環境活動でアジア連携 2018
Ikuo Misao
?
TEACHER-STUDENT DEEP CLUSTERING FOR LOW-DELAY SINGLE CHANNEL SPEECH SEPARATION
TEACHER-STUDENT DEEP CLUSTERING FOR LOW-DELAY SINGLE CHANNEL SPEECH SEPARATION
RyoAIHARA1
?
Ad

Recently uploaded (8)

PGConf.dev 2025 参加レポート (JPUG総会併設セミナー2025 発表資料)
PGConf.dev 2025 参加レポート (JPUG総会併設セミナー2025 発表資料)
NTT DATA Technology & Innovation
?
础滨技术共有会2025-06-05冲顿别别辫搁别蝉别补谤肠丑の理解と実践.辫诲蹿
础滨技术共有会2025-06-05冲顿别别辫搁别蝉别补谤肠丑の理解と実践.辫诲蹿
Takuma Oda
?
色について.pptx .
色について.pptx .
iPride Co., Ltd.
?
Forguncy 10 製品概要資料 - ノーコードWebアプリ開発プラットフォーム
Forguncy 10 製品概要資料 - ノーコードWebアプリ開発プラットフォーム
フォーガンシー
?
Protect Your IoT Data with UbiBot's Private Platform.pptx
Protect Your IoT Data with UbiBot's Private Platform.pptx
ユビボット 株式会社
?
Vibe Codingを始めよう ?Cursorを例に、ノーコードでのプログラミング体験?
Vibe Codingを始めよう ?Cursorを例に、ノーコードでのプログラミング体験?
iPride Co., Ltd.
?
OWASP ASVS5.0 overview 20240607_owaspnagoya
OWASP ASVS5.0 overview 20240607_owaspnagoya
OWASP Nagoya
?
勉強会_ターミナルコマント?入力迅速化_20250620. pptx. .
勉強会_ターミナルコマント?入力迅速化_20250620. pptx. .
iPride Co., Ltd.
?
PGConf.dev 2025 参加レポート (JPUG総会併設セミナー2025 発表資料)
PGConf.dev 2025 参加レポート (JPUG総会併設セミナー2025 発表資料)
NTT DATA Technology & Innovation
?
础滨技术共有会2025-06-05冲顿别别辫搁别蝉别补谤肠丑の理解と実践.辫诲蹿
础滨技术共有会2025-06-05冲顿别别辫搁别蝉别补谤肠丑の理解と実践.辫诲蹿
Takuma Oda
?
Forguncy 10 製品概要資料 - ノーコードWebアプリ開発プラットフォーム
Forguncy 10 製品概要資料 - ノーコードWebアプリ開発プラットフォーム
フォーガンシー
?
Protect Your IoT Data with UbiBot's Private Platform.pptx
Protect Your IoT Data with UbiBot's Private Platform.pptx
ユビボット 株式会社
?
Vibe Codingを始めよう ?Cursorを例に、ノーコードでのプログラミング体験?
Vibe Codingを始めよう ?Cursorを例に、ノーコードでのプログラミング体験?
iPride Co., Ltd.
?
OWASP ASVS5.0 overview 20240607_owaspnagoya
OWASP ASVS5.0 overview 20240607_owaspnagoya
OWASP Nagoya
?
勉強会_ターミナルコマント?入力迅速化_20250620. pptx. .
勉強会_ターミナルコマント?入力迅速化_20250620. pptx. .
iPride Co., Ltd.
?
Ad

実环境音响信号処理における収音技术

  • 1. Copyright?2018 NTT corp. All Rights Reserved. 2018/06/17 @ 音学シンポジウム2018 1 NTTメディアインテリジェンス研究所 小泉 悠馬 【招待講演】 実环境音响信号処理における収音技术
  • 2. Copyright?2018 NTT corp. All Rights Reserved. 2 皆さん初めまして! SIGMUSの皆さん お久しぶりです!
  • 3. Copyright?2018 NTT corp. All Rights Reserved. 3 About me ? 小泉 悠馬(こいずみ ゆうま) ? 専門:音楽情報処理(修士まで) ? 電気音響(会社から) 略歴 ? 2014年: 法政大学 情報科学研究科 修了 ? 2014年: NTTメディアインテリジェンス研究所 入所 ? 2017年: 博士(工学) (電気通信大学) 研究内容 ? 音響信号処理 × 機械学習の基礎研究と実用化 ? 収音技術:うるさい中から欲しい音だけ取り出したい! ? 異常検知:周囲の異変を音から検知したい! 指導教官 伊藤 克亘教授 指導教官 羽田 陽一教授
  • 4. Copyright?2018 NTT corp. All Rights Reserved. 4 Special thanks 丹羽 健太博士 小林 和則博士日岡 祐輔准教授 川瀬 智子博士齊藤 翔一郎氏 羽田 陽一教授 本日の講演は、下記の方々の研究成果も紹介します 伊藤 弘章氏 原田 登博士
  • 5. Copyright?2018 NTT corp. All Rights Reserved. 5 実環境での音情報処理サービス 計算機/通信の発達で音情報処理技術はどんどん身近に 音声認識 エンターテイメント 異常音検知 音声通信 5
  • 6. Copyright?2018 NTT corp. All Rights Reserved. 6 実環境における雑音の影響 雑音が音情報処理性能を低下させる 雑音が大きく 音声認識できない 競技音が埋もれ 臨場感が伝わらない 音声認識 スポーツ中継
  • 7. Copyright?2018 NTT corp. All Rights Reserved. 7 今日の話 実環境で 欲しい音だけ収録するには どうすればいいのか?
  • 8. Copyright?2018 NTT corp. All Rights Reserved. 8 収音技術 観測音から目的音を抽出する信号処理 ? 音源強調、音源分離、雑音抑圧など、様々な小分類がある ? 本講演では以降、「音源強調」で統一する 観測音 目的音 雑音 ※ 説明の簡単のために、周波数領 域の瞬時混合を仮定し伝達特性を 省略 目的音 雑音 … 観測音 収音技術 出力音 マイク
  • 9. Copyright?2018 NTT corp. All Rights Reserved. 9 フィルタリングによる音源強調(一般形) 線形フィルタリング(e.g. ビームフォーミング, ICA, IVA) 非線形フィルタリング(e.g. 時間周波数マスク, NMF) … … ? 周波数領域の時不変な複素線形結合(例外あり) ? 周波数領域の時変な(複素/実数)係数の乗算 フィルタ推定
  • 10. Copyright?2018 NTT corp. All Rights Reserved. 10 線形フィルタリング 音源方向によって、マイクへの到達時間/ゲイン差が生じる 正面から到来する音は、 ほぼ時間差なく到達
  • 11. Copyright?2018 NTT corp. All Rights Reserved. 11 正面から以外から到来する音は、 時間差をもって到達 線形フィルタリング 音源方向によって、マイクへの到達時間/ゲイン差が生じる
  • 12. Copyright?2018 NTT corp. All Rights Reserved. 12 複数の方向からの音が混ざると、 複雑な波形となる 線形フィルタリング 音源方向によって、マイクへの到達時間/ゲイン差が生じる
  • 13. Copyright?2018 NTT corp. All Rights Reserved. 13 到達時間/ゲイン差を利用し、所望の音を強調/抑圧 例)正面の音は同じタイミングで到達するので、 全マイクの音を加算すると強められる 線形フィルタリング
  • 14. Copyright?2018 NTT corp. All Rights Reserved. 14 目的音=人間の声 非線形フィルタリング 時間周波数マスク 0 ≤ ??,? ≤ 1 を乗じる音源強調法
  • 15. Copyright?2018 NTT corp. All Rights Reserved. 15 雑音=サックス 非線形フィルタリング 時間周波数マスク 0 ≤ ??,? ≤ 1 を乗じる音源強調法
  • 16. Copyright?2018 NTT corp. All Rights Reserved. 16 混ざってしまうと、どれが目的音かわからない ?? ?? 非線形フィルタリング 時間周波数マスク 0 ≤ ??,? ≤ 1 を乗じる音源強調法
  • 17. Copyright?2018 NTT corp. All Rights Reserved. 17 例:ウィナーフィルタ 非線形フィルタリング 時間周波数マスク 0 ≤ ??,? ≤ 1 を乗じる音源強調法
  • 18. Copyright?2018 NTT corp. All Rights Reserved. 18 例:ウィナーフィルタ 非線形フィルタリング 時間周波数マスク 0 ≤ ??,? ≤ 1 を乗じる音源強調法
  • 19. Copyright?2018 NTT corp. All Rights Reserved. 19 残念ながら(私の知る限り) 万能なフィルタ設計法は存在しない どうフィルタを設計すれば良い?
  • 20. Copyright?2018 NTT corp. All Rights Reserved. 20 手法 着眼点 受音構造制約 フレーム処理 抑圧量/目的音歪 計算コスト Spectrum subtraction [Boll+, 1979]など 信号統計量/時間周 波数構造 なし 可能 大/大 軽量 Beamforming 音源方向 マルチチャネル (dense) 可能 小/小 軽量 音響エコーキャンセラー 音源位置(座標) 雑音源が既知 可能 線形:中/小 非線形:大/大 逐次更新 分散マイクロホンアレー [Arabi, 2003][Ono+, 2009] 音源位置(座標) マルチチャネル (distributed) 可能 線形:中/小 非線形:大/大 手法依存 球面調和関数展開 [Haneda+, 2014] 音源距離 中空球面アレー 可能 大/高域大 軽量 NMF [Smaragdis+, 2003] 信号統計量/時間周 波数構造 なし 不可 中/中 反復更新 FDICA[Smaragdis+, 1998] /IVA[Hiroe+, 2006] 信号統計量/音源方 向 マルチチャネル (優決定) 不可 中/小 反復更新 MNMF [Sawada+, 2013]など 音源方向/信号統計 量/時間周波数構造 マルチチャネル (dense) 不可 大/小 反復更新 ILRMA [Kitamura+, 2016]など 音源方向/信号統計 量/時間周波数構造 マルチチャネル (優決定) 不可 大/小 反復更新 深層学習/機械学習ベース [Erdogan+, 2015]など 信号統計量/時間周 波数構造 学習時と一致す る必要 可能 大/中 要事前学習 代表的な音源強調(※主観的なまとめ)
  • 21. Copyright?2018 NTT corp. All Rights Reserved. 21 実環境では問題の事前知識は「ある」場合が多数 問題によって【求められる/求められない】性能は異なる 収音技術の性能要件を明確にする =「問題を定義する」ことが大切 ? 目的音と雑音の違いは? ? どの程度の雑音抑圧性能が必要?(抑圧量/音の歪み) ? 計算リソースはどれくらい使える? ? ハードウェアや設置条件に制限はある? ? リアルタイム処理は必要? ? 事前学習は可能?(環境の変動は大きい?) 技術開発チェックリスト
  • 22. Copyright?2018 NTT corp. All Rights Reserved. 22 1. 方向の違いで分離する もくじ 2. 位置の違いで分離する 3. 音色の違いで分離する 4. 深層学習を利用した収音技術 実環境で利用した収音技術の紹介 5. まとめ
  • 23. Copyright?2018 NTT corp. All Rights Reserved. 23 1. 方向の違いで分離する もくじ 2. 位置の違いで分離する 3. 音色の違いで分離する 4. 深層学習を利用した収音技術 5. まとめ 実環境で利用した収音技術の紹介
  • 24. Copyright?2018 NTT corp. All Rights Reserved. 24 目的音と雑音の「方向」が異なる例 対話ロボット 話しかける人は たいてい正面に立つ
  • 25. Copyright?2018 NTT corp. All Rights Reserved. 25 目的音と雑音の「方向」が異なる例 雑音は様々な方向から やってくる 対話ロボット
  • 26. Copyright?2018 NTT corp. All Rights Reserved. 26 到達時間/ゲイン差を利用し、所望の音を強調/抑圧 ビームフォーミング
  • 27. Copyright?2018 NTT corp. All Rights Reserved. 27 ビームフォーマ設計の例(最尤BF) ? 観測信号のモデル化 目的音から各マイクまでの伝達特性ベクトル ? 雑音がガウス雑音と仮定すると、尤度関数は 雑音の空間相関行列 ? この尤度関数を最大化する出力音と BF は以下で求められる : 雑音の方向に死角を形成 : 目的音の方向に山を形成 ? や は未知のため、ステアリングベクトルを代用 ? 音源強調性能が低下
  • 28. Copyright?2018 NTT corp. All Rights Reserved. 28 ビームフォーミングの精度向上のために 音声認識の精度上げたい! うるさい中でも通話をしたい! ? 音声は歪ませたくない ? 計算量は多少使える ? 「音声」だけ強調できればいい ? とにかく雑音を消したい ? 計算量は数百MIPS程度 ? どんな音かわからない
  • 29. Copyright?2018 NTT corp. All Rights Reserved. 29 うるさい中でも通話をしたい! ? 目的音と雑音の違いは? ? どの程度の雑音抑圧性能が必要?(抑圧量/音の歪み) ? 計算リソースはどれくらい使える? ? ハードウェアや設置条件に制限はある? ? 事前学習は可能?(環境の変動は大きい?) ? リアルタイム処理は必要? → 方向 → YES → 通話向けだからとにかく雑音を消したい → No → DSPチップに乗る程度 → コスト面から、マイクは数個のみ
  • 30. Copyright?2018 NTT corp. All Rights Reserved. … 30 非線形フィルタリングを後段に組み合わせる 1. 通話向けの拡張(抑圧量大/歪み大/演算量小) BF1 BF-1 時間周波数マスク処理 時間周波数マスク設計 BF-2 BF-L … ポストフィルタの利用 [Kaneda+, 1984], [Zelinski, ICASSP-1988], [McCowan+, 2003]
  • 31. Copyright?2018 NTT corp. All Rights Reserved. 31 ? 目的音 BF出力からの時間周波数マスク設計 雑音マイクロホンアレー BF単体での雑音抑圧性能は 15 dB 程度
  • 32. Copyright?2018 NTT corp. All Rights Reserved. 32 ? BF出力からの時間周波数マスク設計 目的音 雑音マイクロホンアレー BFを複数組み合わせれば、見かけ上の ゲイン差が増える
  • 33. Copyright?2018 NTT corp. All Rights Reserved. 33 BF出力からの時間周波数マスク設計 ? 目的音 雑音マイクロホンアレー 目的音側 BF = 雑音側 BF = + ?+ ? 目的音側 BF – α × 雑音側 BF= 雑音側 BF – β×目的音側 BF=? 減算係数はどのように決めれば良いだろう? 減算して得られた目的音/雑音のパワースペクト ルから時間周波数マスクを設計
  • 34. Copyright?2018 NTT corp. All Rights Reserved. 34 PSD-estimation-in-beamspace [Hioka, et al., IEEE Trans., 2013] 減算係数を各BFの角度周波数特性から決定 ? 複数のBFの出力を、各方向毎の音源群の線形和で近似 ? 減算係数を角度周波数応答行列の一般化逆行列 で求める 非常にシンプルなモデル なものの、実環境では強 力, 安定かつ高速に動作 ※ 安定動作条件は [Niwa+, IWAENC-2016] を参照
  • 35. Copyright?2018 NTT corp. All Rights Reserved. 35 Demo Video 100 dB の騒音下で目的音を抽出&音声認識
  • 36. Copyright?2018 NTT corp. All Rights Reserved. 36 音声認識の精度上げたい! ? 目的音と雑音の違いは? ? どの程度の雑音抑圧性能が必要?(抑圧量/音の歪み) ? 計算リソースはどれくらい使える? ? ハードウェアや設置条件に制限はある? ? 事前学習は可能?(環境の変動は大きい?) ? リアルタイム処理は必要? → 方向 → 多少、計算機パワーは使える → YES → 音声認識向けだから歪ませたくない! → 音声の特徴は学習可能
  • 37. Copyright?2018 NTT corp. All Rights Reserved. 37 時間周波数マスクを利用した空間相関行列の推定 2. 音声認識向けの拡張(抑圧量小/歪み小/演算量大) … T-Fマスク推定& マスク処理 ビームフォーミング ビームフォーマ設計 [Araki+, ICASSP-2007], [Yoshioka+, ASRU-2015], [Ochiai+, ICML-2017] 空間相関行列の推定
  • 38. Copyright?2018 NTT corp. All Rights Reserved. 38 空間相関行列の推定 (cont’d) T-Fマスクを利用した空間相関行列の推定 ※ 音声認識では、ML-BF よりも MVDR-BF [Souden+, 2010] が使われている [Araki+, ICASSP-2007], [Yoshioka+, ASRU-2015], [Ochiai+, ICML-2017] 雑音の空間相関行列 0 1 2 3 4 0 2 4 6 8 0 1 2 3 4 0 2 4 6 8 0 1 2 3 4 0 2 4 6 8 得られるのは観測信号のみで ノイズの情報を得ることはできない 2. 音声認識向けの拡張(抑圧量小/歪み小/演算量大)
  • 39. Copyright?2018 NTT corp. All Rights Reserved. 0 1 2 3 4 0 2 4 6 8 0 1 2 3 4 0 2 4 6 8 39 空間相関行列の推定 (cont’d) T-Fマスクを利用した空間相関行列の推定 ※ 音声認識では、ML-BF よりも MVDR-BF [Souden+, 2010] が使われている [Araki+, ICASSP-2007], [Yoshioka+, ASRU-2015], [Ochiai+, ICML-2017] 雑音の空間相関行列 0 1 2 3 4 0 2 4 6 8 目的音を推定する T-F マスク設計法を利用 2. 音声認識向けの拡張(抑圧量小/歪み小/演算量大)
  • 40. Copyright?2018 NTT corp. All Rights Reserved. 40 空間相関行列の推定 (cont’d) T-Fマスクを利用した空間相関行列の推定 ※ 音声認識では、ML-BF よりも MVDR-BF [Souden+, 2010] が使われている [Araki+, ICASSP-2007], [Yoshioka+, ASRU-2015], [Ochiai+, ICML-2017] 雑音の空間相関行列 0 1 2 3 4 0 2 4 6 8 0 1 2 3 4 0 2 4 6 8 0 1 2 3 4 0 2 4 6 8 T-F マスクを ”ひっくり返せば” 雑音の推定値を得ることもできる 2. 音声認識向けの拡張(抑圧量小/歪み小/演算量大)
  • 41. Copyright?2018 NTT corp. All Rights Reserved. 41 空間相関行列の推定 (cont’d) T-Fマスクを利用した空間相関行列の推定 ※ 音声認識では、ML-BF よりも MVDR-BF [Souden+, 2010] が使われている 雑音の空間相関行列 0 1 2 3 4 0 2 4 6 8 0 1 2 3 4 0 2 4 6 8 0 1 2 3 4 0 2 4 6 8 [Araki+, ICASSP-2007], [Yoshioka+, ASRU-2015], [Ochiai+, ICML-2017] 2. 音声認識向けの拡張(抑圧量小/歪み小/演算量大)
  • 42. Copyright?2018 NTT corp. All Rights Reserved. 42 1. 方向の違いで分離する もくじ 2. 位置の違いで分離する 3. 音色の違いで分離する 4. 深層学習を利用した収音技術 5. まとめ 実環境で利用した収音技術の紹介
  • 43. Copyright?2018 NTT corp. All Rights Reserved. 43 目的音と雑音の「位置」が異なるケース 広い部屋での会議 お誕生日席が遠くて 強調できない!
  • 44. Copyright?2018 NTT corp. All Rights Reserved. 44 なぜ、遠い音の分離が難しいのか Target Noise ?1 Mic. array ?2 マイクロホンからの距離が遠いほど、見込み角が小さくなる
  • 45. Copyright?2018 NTT corp. All Rights Reserved. 45 分散マイクロホンアレー Target Noise Microphones 複数のマイクロホンを dense に配置するのやめよう マイクロホンを各音源の近くに配置すればいい!
  • 46. Copyright?2018 NTT corp. All Rights Reserved. 46 スマホマイクアレー 複数のスマホをマイクロホンアレーとして連携 問題点1:サンプリングの同期が取れない 問題点2:マイクの相対位置が不明 [Ono+, WASPAA-2009]など
  • 47. Copyright?2018 NTT corp. All Rights Reserved. 47 伝達関数ゲイン推定 伝達ゲイン(各マイクロホンの感度比)の推定問題 [Chiba+, IWAENC-2014], [Kako+, WASPAA-2015]など PSDの瞬時混合でモデル化 ? 発話者が一人の時は、 各マイクロホンの音量比で求まる!! [Kako+, 2015] のアルゴリズム(計算量小/リアルタイム) 1. VADを行い、発話者が一人の区間を検出 2. 各マイクロホンについて、感度比を推定 3. 感度比を並べた行列の疑似逆行列を求め、目的音のPSDを推定
  • 48. Copyright?2018 NTT corp. All Rights Reserved. 48 Demo Video これまで紹介した技術を組み合わせた 車内での通話や音声認識のデモ 複数個所に取り付けたマイクロホンアレーを連携させて音声強調
  • 49. Copyright?2018 NTT corp. All Rights Reserved. ? 歓声やPAが雑音源 ? 野球中継で聞いている音 はパラボラマイクの音 パラボラマイク 場内アナウンス (PAスピーカ) 応援団 競技音 49 目的音と雑音が離れている場合は?
  • 50. Copyright?2018 NTT corp. All Rights Reserved. 50 目的音と雑音が離れている場合は? 瞬時混合が成り立たない(距離による伝搬遅延や長残響) 時間周波数 マスク設計 ×
  • 51. Copyright?2018 NTT corp. All Rights Reserved. 51 目的音と雑音が離れている場合は? 瞬時混合が成り立たない(距離による伝搬遅延や長残響) 時間周波数 マスク設計 × 遅延& 残響推定
  • 52. Copyright?2018 NTT corp. All Rights Reserved. 52 Multi-delay noise model 振幅領域での伝搬遅延/長残響のモデル化 Time-frame delay Gain , Gain ,1 Gain , 1 1 …… , 1 , 2 , Multi-delay noise model , Multi-delay noise model Multi-delay noise model , 1 Time-frequency mask calc. ? , , 残響 伝搬遅延 Multi-delay noise model ? Multi-delay-block-filter の振幅領域での表現 + 遅延項の拡張 ? 物理的制約を事前分布におき、残響/遅延パラメータをMAP推定 [小泉+, 音講論(秋), 2017], [Koizumi, et al., EUSIPCO 2018] (to appear)
  • 53. Copyright?2018 NTT corp. All Rights Reserved. 53 Multi-delay noise model 物理的制約を事前分布においた残響/遅延のMAP推定 ? 残響:音のパワーは非負&指数的に減衰 → 指数分布 ? 伝搬遅延:距離と音速から概算できる自然数 → ポアソン分布 [小泉+, 音講論(秋), 2017], [Koizumi, et al., EUSIPCO 2018] (to appear) 概算フレーム遅延 パワーの指数減衰
  • 54. Copyright?2018 NTT corp. All Rights Reserved. 54 Modeling …! ホームベース付近に パラボラマイク 外野スタンドに ショットガンマイク Time [s] Freq.[kHz]Freq.[kHz]Freq.[kHz] パラボラマイク(ホームベース) ショットガンマイク(外野スタンド) 処理音 ストラーイク! ミット音 Time [s] 野球場での動作デモ 審判の声や捕球音を強調 [小泉+, 音講論(秋), 2017], [Koizumi, et al., EUSIPCO 2018] (to appear)
  • 55. Copyright?2018 NTT corp. All Rights Reserved. 55 1. 方向の違いで分離する もくじ 2. 位置の違いで分離する 3. 音色の違いで分離する 4. 深層学習を利用した収音技術 5. まとめ 実環境で利用した収音技術の紹介
  • 56. Copyright?2018 NTT corp. All Rights Reserved. 56 目的音と雑音の「音色」が異なるケース マイクアレイ 競技音歓声雑音 雑音が全方位から到来し、目的音の近くにマイク配置できない 目的音と雑音の音色の違いに着目して音源強調できないか
  • 57. Copyright?2018 NTT corp. All Rights Reserved. 57 音色が異なると観測音はどう変化する? ? サッカーボールのキック音 @ ゴール前 0 2 4 6 8 10 0 2 4 6 8 Time [s] Frequency[kHz] キック音 歓声応援&太鼓
  • 58. Copyright?2018 NTT corp. All Rights Reserved. 58 Demo Video 大歓声の中でキック音を強調 周囲のスピーカーで 競技場の歓声を再現 アルゴリズム 1. 突発音を検出し、その中からキック音を検出 2. キック音だけを強調する時間周波数マスクをルールベース設計
  • 59. Copyright?2018 NTT corp. All Rights Reserved. 59 もう少し高度化できないものだろうか? ルールベース処理 = 回帰関数の手作業設計 観測音 時間周波数マスク 1. 突発音検知=閾値判定 2. フィルタ設計 =マッピング ルール設計やパラメータ調整を自動化したい ? 機械学習ベースの手法へ
  • 60. Copyright?2018 NTT corp. All Rights Reserved. 60 1. 方向の違いで分離する もくじ 2. 位置の違いで分離する 3. 音色の違いで分離する 4. 深層学習を利用した収音技術 5. まとめ
  • 61. Copyright?2018 NTT corp. All Rights Reserved. 61 (D)NN音源強調 DNNを回帰関数として利用 ? 時間周波数マスク or Log-amplitude-spectrum の推定が主流 … …… …… …… …… … …… ? 源信号 ? 雑音 ? 観測信号 ? 目的関数 (MMSE) 学習 データ [Xie, et al., 1994], [Nadarayan, et al., ICASSP-2013]
  • 62. Copyright?2018 NTT corp. All Rights Reserved. 様々なDNN音源強調の研究 バッチ処理系 リアルタイム処理系 ? Deep clustering [Hershey+, 2016] ? Permutation Invariant Training (PIT) [Dong Yu+, 2017] ? 雑音の種類が目的音と同じでも分離可能(speech + speechなど) ? 線形フィルタのパラメータ推定、音声認識との相性が良い ? 空間相関行列推定 [Ochiai+, 2017] ? Independent Deep Learning Matrix Analysis (IDLMA) [北村+, 2018] ? マイク数や利用環境に依存しない基礎研究が多い ? 新しい時間周波数マスク ? ブラックボックスな指標を利用した最適化 [Koizumi+, 2017] ? Phase Sensitive Mask (PSM) [Erdogan+, 2015] ? Complex Ideal Ratio Mask (cIRM) [Williamson+, 2016] ? MDCT-Mask [Koizumi+, 2018]
  • 63. Copyright?2018 NTT corp. All Rights Reserved. 63 DNN音源強調における目的関数の重要性 DNNにどんな「情報」を推定して欲しいのか? ? DNNは、ただの柔軟な回帰関数 ? 出力の信号的/統計的性質を決めるのは、学習に用いる目的関数 システムの最終目的は「歪みの最小化」なのか? 代表的な目的関数 = 歪み最小化 Phase-Sensitive-Cost [Erdogan+, 2015] ? 対話の「満足度」を上げたい ? 人が聞いて「良い」と思える音を出力したい 実用上、性能指標が解析的に記述できないことも
  • 64. Copyright?2018 NTT corp. All Rights Reserved. 64 解析的でない(微分できない)目的関数 主観的な音質評価を最大化したい ブラックボックス関数は微分不可能 (Backprop.が困難) ???
  • 65. Copyright?2018 NTT corp. All Rights Reserved. 65 DNN音源強調のブラックボックス最適化 強化学習を応用した最適化 [Koizumi, et al., ICASSP-2017], [Koizumi, et al., IEEE Trans., 2018] Game score Reward func.Action selector Action candi- dates Action … … … … ゲームスコアさえあれば DNNが学習できる ビデオゲームや囲碁の学習に成功している! 音源強調に応用できないか?
  • 66. Copyright?2018 NTT corp. All Rights Reserved. 66 DNN音源強調のブラックボックス最適化 強化学習を応用した最適化 Reward func.Mask generator T-F mask Masking … … … … スコアを主観評価と 捉えれば最適化できる? 学習には大量の試行が必要 ? 主観評価そのままの利用は厳しい… [Koizumi, et al., ICASSP-2017], [Koizumi, et al., IEEE Trans., 2018]
  • 67. Copyright?2018 NTT corp. All Rights Reserved. 67 DNN音源強調のブラックボックス最適化 強化学習を応用した最適化 Reward func.Mask generator T-F mask Masking … … … … 人間の主観評価を模擬した定量 評価指標を利用 (e.g. PESQ) PC上のシミュレーションで完結 [Koizumi, et al., ICASSP-2017], [Koizumi, et al., IEEE Trans., 2018]
  • 68. Copyright?2018 NTT corp. All Rights Reserved. 聴感評点の例 68 ?音質の定量指標の例 ?明瞭度(単語の聞き取りやすさ)の定量指標の例 ? PESQ: Perceptual Evaluation of Speech Quality ? 音声符号化などで使われる音質の定量評価指標 Input: 目的音と出力音の音声ファイル Output: 人間の音質評価(MOS)を模擬した値 ? PESQを上げ、出力音の音質向上を狙う ? STOI: Short-Time Objective Intelligibility ? 音声強調などで使われる明瞭度の定量評価指標 Input: 目的音と出力音の音声ファイル Output: 人間の単語正解率を模擬した値 ? STOIを上げ、出力音の明瞭度向上を狙う
  • 69. Copyright?2018 NTT corp. All Rights Reserved. 69 DNN音源強調のブラックボックス最適化 DNNを用いて目的関数を定義 サンプリングを用いた勾配の近似計算(policy gradient) 出力音の条件付き分布を DNNで記述 聴感評点の最大化を 目的関数とする
  • 70. Copyright?2018 NTT corp. All Rights Reserved. 評価実験 70 ?定量評価実験 ?主観評価実験 【確認ポイント】聴感評点を向上させるようにDNNを学習できるか? 【確認ポイント】聴感評点と対応した主観品質が向上するか? 実験1:学習回数と聴感評点の関係を調査 実験2:従来法と聴感評点の値を比較 実験1:PESQを向上させたときの 音質(MOS) を評価 実験2:STOIを向上させたときの 明瞭度(単語了解度) を評価 ※時間の都合上、詳細な実装/実験/結果は、以下の文献をご参照ください Y. Koizumi, et al., “DNN-based Source Enhancement to Increase Objective Sound Quality Assessment Score,” IEEE Trans. ASLP, 2018.
  • 71. Copyright?2018 NTT corp. All Rights Reserved. 評価実験 1/2(定量評価実験) 71 音質指標 PESQの向上値 【実験1】:学習回数が進むに従い、聴感評点が向上 明瞭度指標 STOIの向上値 学習回数 学習回数 【実験2】:学習に利用した聴感評点が、従来法より優位に向上 SDR [dB](歪み) PESQ (音質) STOI [%](明瞭度) PSM [Erdogan,2015] 9.40 2.27 83.3 提案法(PESQ) 9.19 2.37 83.4 提案法(STOI) 9.74 2.20 87.3 ? 学習が進むにつれ、目標としてい る聴感評点も向上 ? 学習に用いた聴感評点は従来法より も優位に向上 (Input SNR: 0dB, Open test) ? 聴感評点を向上させるDNN学習に成功 ? 従来技術と比べ、聴感評点が優位に向上
  • 72. Copyright?2018 NTT corp. All Rights Reserved. 評価実験 2/2(主観評価実験) 72 音質の主観評価値 従来法 提案法 (PESQ) 提案法 (STOI) 単語了解度[%] 【実験1 】 出力音の音質を5段階で絶対評価 (PESQが模擬している試験) 良 悪 良 悪 【実験2 】 親密度の低い単語の聞き取り正解率 (STOIが模擬している試験) 従来法 提案法 (PESQ) 提案法 (STOI) 従来法 提案法(PESQ) 従来法 提案法(STOI) PESQ最大化で 音質が向上 STOI最大化で 明瞭度が向上 ? 聴感評点に対応する主観品質も、従来法と比べ優位に向上
  • 73. Copyright?2018 NTT corp. All Rights Reserved. 評価実験 2/2(主観評価実験) 73 音質の主観評価値 従来法 提案法 (PESQ) 提案法 (STOI) 単語了解度[%] 【実験1 】 出力音の音質を5段階で絶対評価 (PESQが模擬している試験) 良 悪 良 悪 【実験2 】 親密度の低い単語の聞き取り正解率 (STOIが模擬している試験) 従来法 提案法 (PESQ) 提案法 (STOI) 従来法 提案法(PESQ) ? 聴感評点に対応する主観品質も、従来法と比べ優位に向上 従来法 提案法(STOI) 正解は「タカドノ」 従来法の正答率:31%, 提案法の正答率:81% 従来法は、雑音を削りすぎ、冒頭の子音の明瞭度が 低下しため、「ハカドノ」などと誤回答
  • 74. Copyright?2018 NTT corp. All Rights Reserved. 74 1. 方向の違いで分離する もくじ 2. 位置の違いで分離する 3. 音色の違いで分離する 4. 深層学習を利用した収音技術 5. まとめ 実環境で利用した収音技術の紹介
  • 75. Copyright?2018 NTT corp. All Rights Reserved. 75 まとめ 収音技術の性能要件を明確にする =「問題を定義する」ことが大切 ? 目的音と雑音の違いは? ? どの程度の雑音抑圧性能が必要?(抑圧量/音の歪み) ? 計算リソースはどれくらい使える? ? ハードウェアや設置条件に制限はある? ? リアルタイム処理は必要? ? 事前学習は可能?(環境の変動は大きい?) さあ、現場に行ってみましょう!
  • 76. Copyright?2018 NTT corp. All Rights Reserved. 76 Thank you!!