狠狠撸

狠狠撸Share a Scribd company logo
Copyright?2019 NTT corp. All Rights Reserved.
ICASSP-2019 での
音響信号処理分野の世界動向
2019/06/08 @ ICASSP2019音声&音響論文読み会
1
NTTメディアインテリジェンス研究所
小泉 悠馬
AASP: Audio and Acoustic Signal Processing
Copyright?2019 NTT corp. All Rights Reserved. 2
? 小泉 悠馬(こいずみ ゆうま)
? 専門:音楽情報処理(修士まで)
? 音響信号処理(会社から)
略歴
? 2014年: 法政大学 情報科学研究科 修了
? 2014年: NTTメディアインテリジェンス研究所 入所
? 2017年: 博士(工学) (電気通信大学)
研究内容
? 音響信号処理 × 機械学習の基礎研究と実用化
? 音源強調:うるさい中から欲しい音だけ取り出したい
? 異常検知:周囲の異変を音から検知したい
指導教官
伊藤 克亘教授
指導教官
羽田 陽一教授
自己紹介
Copyright?2019 NTT corp. All Rights Reserved. 3
AASP分野の概要
音
源
分
離
音響イベント
識別
車の
走行音
符号化
音の収録 音声以外の分析
復号
局
所
再
生
音の再生
音の符号化
AASP: Audio and Acoustic Signal Processing
音の収録から再生まで、あらゆる音信号処理を包含
Copyright?2019 NTT corp. All Rights Reserved.
車の
走行音
4
音
源
分
離
音響イベント
識別
符号化
音の収録 音声以外の分析
復号
局
所
再
生
音の再生
音の符号化
音の収録から再生まで、あらゆる音信号処理を包含
AASP分野の概要
AASP: Audio and Acoustic Signal Processing
? マイクロホンで観測した音から、欲しい音だけ抽出
? 目的音と雑音の種類により、source separation, speech
enhancement, など細かな小分類がある
? AASPの中で、最も深層学習が浸透している分野の一つ
Copyright?2019 NTT corp. All Rights Reserved.
車の
走行音
5
音
源
分
離
音響イベント
識別
符号化
音の収録 音声以外の分析
復号
局
所
再
生
音の再生
音の符号化
音の収録から再生まで、あらゆる音信号処理を包含
? 観測音がどんな音だったのかを分析する研究
? 環境音の分析:音響シーン識別/イベント検出/異常音検知
? 音楽情報処理:歌唱/演奏の分析、自動演奏、自動作曲など
? 近年、AASPの中で急速に発展している分野。深層学習の適用も盛ん。
AASP分野の概要
AASP: Audio and Acoustic Signal Processing
Copyright?2019 NTT corp. All Rights Reserved.
車の
走行音
6
音
源
分
離
音響イベント
識別
符号化
音の収録 音声以外の分析
復号
局
所
再
生
音の再生
音の符号化
音の収録から再生まで、あらゆる音信号処理を包含
? 音を圧縮したり伝送したりする研究(MPEGなど)
? 昔は非常に多くの研究がなされていたが、現在は縮小気味
? 情報理論やフィルタバンクなど、AASPのコア技術の結晶の分野で、
個人的には、(門外漢だが)最も好きな分野の一つ
AASP分野の概要
AASP: Audio and Acoustic Signal Processing
Copyright?2019 NTT corp. All Rights Reserved.
車の
走行音
7
音
源
分
離
音響イベント
識別
犬の
鳴き声
符号化
音の収録 音声以外の分析
復号
局
所
再
生
音の再生
音の符号化
音の収録から再生まで、あらゆる音信号処理を包含
? スピーカーの駆動信号を制御して音場を制御する研究
? 音場再現:別の場所の音場の完全な再現を目指す
? 局所再生:音をある場所でのみ再生する
? 能動的雑音制御:雑音を空間的に抑圧する
? AASPの中で最も物理よりの分野であり、深層学習はほとんど利用されていない
AASP分野の概要
AASP: Audio and Acoustic Signal Processing
Copyright?2019 NTT corp. All Rights Reserved.
車の
走行音
8
AASP分野の概要
音
源
分
離
音響イベント
識別
符号化
音の収録 音声以外の分析
復号
局
所
再
生
音の再生
音の符号化
AASP: Audio and Acoustic Signal Processing
音の収録から再生まで、あらゆる音信号処理を包含
参加者の皆様のご興味が機械学習と伺いましたので
本日は、音の収録と分析の分野をご紹介します
Copyright?2019 NTT corp. All Rights Reserved.
目次
9
音源分離?音声強調
音響シーン識別/イベント検知/異常音検知
? 問題設定
? DNNを使った音源分離/音声強調
? 有名な手法とデータセット
? 今年の流行:
1. 位相復元
2. 時間周波数解析の最適化
? 問題設定
? データセット
? 分野としての課題
? 今年の流行:
1. Labelの検討
2. Rare sound event detection
Copyright?2019 NTT corp. All Rights Reserved.
音源強調/音源分離とは
10
観測音から目的音を抽出する信号処理
目的音
雑音
…
観測音
信号処理
出力音
マイク
? アプリケーション:
音声認識の前処理, 通話品質向上, Hearing aid, etc…
Copyright?2019 NTT corp. All Rights Reserved.
音源分離?音源強調?どっちなの?
Source separation/enhancement で問題設定が異なる
? Separation:混ざったものを「個々の音源に分離」する
? Enhancement:混ざったからを「特定の音源を抽出」する
音
源
分
離
音
源
強
調
? 多くの場合、有限個の点音源を仮定
それぞれの音源に分離=出力はK個
? 目的音+その他というモデル
目的音だけ求められればいい
11
Copyright?2019 NTT corp. All Rights Reserved.
マイクは1つ or 複数?
マイクが複数あると(マイクロホンアレー)空間情報が使える
? 複数ある場合は線形フィルタリング、1つの場合は非線形フィルタリ
ングが一般的
線形フィルタリング(e.g. ビームフォーミング, ICA, IVA, ILRMA)
非線形フィルタリング(or 時間周波数マスク)
12
この後の山岡さんのご発表はこちらの話
この後の安藤さん?相原さんのご発表はこちらの話
Copyright?2019 NTT corp. All Rights Reserved. 13
線形フィルタリング
音源方向によって、マイクへの到達時間/ゲイン差が生じる
正面から到来する音は、
ほぼ時間差なく到達
Copyright?2019 NTT corp. All Rights Reserved. 14
正面から以外から到来する音は、
時間差をもって到達
線形フィルタリング
音源方向によって、マイクへの到達時間/ゲイン差が生じる
Copyright?2019 NTT corp. All Rights Reserved. 15
複数の方向からの音が混ざると、
複雑な波形となる
線形フィルタリング
音源方向によって、マイクへの到達時間/ゲイン差が生じる
Copyright?2019 NTT corp. All Rights Reserved. 16
到達時間/ゲイン差を利用し、所望の音を強調/抑圧
例)正面の音は同じタイミングで到達するので、
全マイクの音を加算すると強められる
線形フィルタリング
Copyright?2019 NTT corp. All Rights Reserved. 17
目的音=人間の声
非線形フィルタリング
時間周波数マスクを乗じる音源強調法
Copyright?2019 NTT corp. All Rights Reserved. 18
雑音=サックス
非線形フィルタリング
時間周波数マスクを乗じる音源強調法
Copyright?2019 NTT corp. All Rights Reserved. 19
混ざってしまうと、どれが目的音かわからない
?? ??
非線形フィルタリング
時間周波数マスクを乗じる音源強調法
Copyright?2019 NTT corp. All Rights Reserved. 20
例:ウィナーフィルタ
非線形フィルタリング
時間周波数マスクを乗じる音源強調法
Copyright?2019 NTT corp. All Rights Reserved. 21
例:ウィナーフィルタ
非線形フィルタリング
時間周波数マスクを乗じる音源強調法
Copyright?2019 NTT corp. All Rights Reserved. 22
(D)NN音源強調/分離の一般的な手法
DNNで時間周波数マスクを推定
…
……
……
……
……
…
……
? 音響に詳しくない人は、(厳密ではないけど)声紋に対する
Attention を推定していると考えると理解しやすいかも
? なので、学習データとして必要なのは、大量の目的音と大量の雑音
Copyright?2019 NTT corp. All Rights Reserved. 23
(D)NN音源強調/分離の一般的な手法
0. 学習データを用意
目的音
雑音
Copyright?2019 NTT corp. All Rights Reserved. 24
(D)NN音源強調/分離の一般的な手法
1. ランダム取り出し&混ぜる
Copyright?2019 NTT corp. All Rights Reserved. 25
(D)NN音源強調/分離の一般的な手法
…
……
……
……
……
…
……
2. 時間周波数推定&マスク処理
Copyright?2019 NTT corp. All Rights Reserved. 26
(D)NN音源強調/分離の一般的な手法
…
……
……
……
……
…
……
3. 目的音と近くなるように backpropagation
誤差&勾配計算
Update
Copyright?2019 NTT corp. All Rights Reserved.
この後の相原さんのご発表は、Deep Clustering
の派生形のご発表
27
有名な手法とデータセット
音源分離
手法:この2つがベースとなり、派生形がたくさん提案されている
? Deep Clustering [J.R.Hershey+, ICASSP 2016]
? Permutation Invariant Training (PIT) [D.Yu+, ICASSP 2017]:
データセット
? wsj0-mix: http://www.merl.com/demos/deep-clustering
音源強調(音声強調)
手法:時間周波数領域が主流だが、時間領域の手法も出てきた
? Phase Sensitive Mask (PSM) [H.Erdogan+, ICASSP 2015]
? SEGAN [S.Pascual+, INTERSPEECH 2017]
データセット
? Voice Bank + Demand: https://doi.org/10.7488/ds/1356
Copyright?2019 NTT corp. All Rights Reserved. 28
今年のホットな話題(その1)
1. 位相復元 or 複素時間周波数マスク
この後の安藤さんの紹介論文は、これに関する話
ここの回転が考慮されていない!!
? 実数の時間周波数マスクでは、位相(回転)は修正できない
? 複素数の時間周波数マスクを推定
? 後処理的に正しい位相を推定
振幅の二乗誤差最小化
with 実数マスク
複素スペクトルの二乗誤差最小化
with 実数マスク
Copyright?2019 NTT corp. All Rights Reserved. 29
【宣伝】Deep Griffin-Lim Iteration
位相復元の代表格 Griffin-Lim法×ニューラルネットワーク
IEEE Xplore: https://ieeexplore.ieee.org/document/8682744
arXiv: https://arxiv.org/abs/1903.03971
Y. Masuyama, K. Yatabe, Y. Koizumi, Y. Oikawa, and N. Harada, “Deep Griffin–Lim Iteration,” in Proc. ICASSP 2019
Copyright?2019 NTT corp. All Rights Reserved. 30
今年のホットな話題(その2)
2. 時間周波数解析の最適化
STFT
時間周波数マスク処理
(DNN)
iSTFT 出力
ここってSTFTがベストなんだっけ?
? DNNで時間周波数変換も学習してしまえ
? DNN音源強調に最適な時間周波数変換とはなんだ?
? TasNet [Y. Luo+, ICASSP 2018]
? STFT convolution [G. Wichern+, IWAENC 2018]
Copyright?2019 NTT corp. All Rights Reserved. 31
【宣伝】学習可能な時間周波数変換(その1)
DNNで分析窓長を制御、時間周波数分解能トレードオフを解決
IEEE Xplore: https://ieeexplore.ieee.org/document/8683642
arXiv: https://arxiv.org/abs/1811.02438
Y. Koizumi, N. Harada, and Y. Haneda, “Trainable Adaptive Window Switching for Speech Enhancement,” in Proc. ICASSP 2019
Gumbel-softmaxをうまく使うと、強調の途中
で利用する窓関数やDNNを切り替えれる
Copyright?2019 NTT corp. All Rights Reserved. 32
二乗誤差最小化学習に最適な完全再構成フィルタバンクの学習
IEEE Xplore: https://ieeexplore.ieee.org/document/8683861
arXiv: https://arxiv.org/abs/1903.08876
D. Takeuchi, K. Yatabe, Y. Koizumi, Y. Oikawa, and N. Harada, “Data-Driven Design of Perfect Reconstruction Filterbank for DNN-based
Sound Source Enhancement,” in Proc. ICASSP 2019
MMSEでDNNをうまく学習させるためには、誤差分散が全周波数ビンで一定になるよ
うに完全再構成フィルタバンクを設計すればいい
【宣伝】学習可能な時間周波数変換(その2)
Copyright?2019 NTT corp. All Rights Reserved.
目次
33
音源分離?音声強調
音響シーン識別/イベント検知/異常音検知
? 問題設定
? DNNを使った音源分離/音声強調
? 有名な手法とデータセット
? 今年の流行:
1. 位相復元
2. 時間周波数解析の最適化
? 問題設定
? データセット
? 分野としての課題
? 今年の流行:
1. Noisy label
2. Rare sound event detection
Copyright?2019 NTT corp. All Rights Reserved.
音環境理解の技術
34
環境音から有用な情報を取り出す信号処理
音響イベント識別 車の走行音
音響シーン識別
異常音検知
道路の近く
正常/異常な走行
なんの音?
どんな場所?
どんな状態?
? アプリケーション:
監視システム, 製品検査, Hearing aid, etc…
時間の関係で今日は割愛
Copyright?2019 NTT corp. All Rights Reserved.
音響イベント検出/シーン識別
35
音響イベント検出 音響シーン識別
いつ?何の音が?
を当てるタスク
どんな環境?
を当てるタスク
図は http://dcase.community/ よりダウンロード
https://github.com/toni-heittola/icassp2019-tutorial
? 簡単な baseline system はコードが公開されている
Copyright?2019 NTT corp. All Rights Reserved.
最近とてもホットな分野
36
DCASE challenge & workshop で再熱
http://dcase.community/
? 2013, 2016, 2017, 2018 と開催、2019 は NY で10月に開催予定
? 参加者数はうなぎ登りに増えている
? ICASSPでも、チュートリアルが開かれたり、オーラルで2セッショ
ン組まれたりと、AASPの中でも投稿数?注目度共にトップクラス
Copyright?2019 NTT corp. All Rights Reserved.
大規模データセットも整備されつつある
37
Audio Set [J.F.Gemmeke+, ICASSP 2017]
FreeSound [E.Fonseca+, ISMIR 2017]
https://research.google.com/audioset/
? YouTube から取得された 2,084,320 個の 10 sec のオーディオクリップ
? 632クラスの分類問題
? Wav ファイルの取得方法は(ごにょごにょ)
? 権利の問題状、公式が配布しているのは、どのビデオから取ったかとい
う CSV と、特徴量抽出された結果のみ
= 5千時間以上の音データ
https://freesound.org/
? クリエイティブ?コモンズ?ライセンスのデータセット
(正しくは Webサイトで、そこから音をダウンロードして dataset 化)
? Kaggle のチャレンジでも使われている
? 後述する、ラベルノイズ問題がチャレンジング
Copyright?2019 NTT corp. All Rights Reserved.
とはいえ???研究分野としては未成熟
38
分野独自の手法、というのはほとんど見られない
? 黎明期の分野ではよくあることだが、他の分野で使われている手
法を持ってきて使いました、で ICASSPに通る…
? 理論軽視。とりあえず手を動かして動いたものを発表という状態
(スペクトログラムを RGB の 3ch画像にして入力 etc…)
今年のICASSPから、分野の問題が明確になってきた
? ラベルの問題
? ラベリングコストが非常に高い(Weakly/Semi-supervised)
? ラベルの多義性がある(Noisy label)
? データ不均衡問題
? 銃声や悲鳴など、ほとんど発生しない音の識別(Few-shot)
? 機器の故障音などは、そもそも検知したいデータがない(Zero-shot)
Copyright?2019 NTT corp. All Rights Reserved.
ラベル問題
39
? 音声認識以上のデータ量が必要なのに、ラベルを付けるコストが高すぎる
? 時刻はどこまで正確につけられるの?
? 国によって、サイレンの意味が違う
? 人間ですら、音だけから何の音か聞き分けるのは無理 etc…
図は http://dcase.community/ よりダウンロード
Copyright?2019 NTT corp. All Rights Reserved.
ラベルについての考察発表
40
K.Imoto+, “SOUND EVENT DETECTION USING GRAPH LAPLACIAN REGULARIZATION BASED ON
EVENT CO-OCCURRENCE”
E.Fonseca+, “LEARNING SOUND EVENT CLASSIFIERS FROM WEB AUDIO WITH NOISY LABELS”
A. Jati+, “HIERARCHY-AWARE LOSS FUNCTION ON A TREE STRUCTURED LABEL SPACE FOR
AUDIO EVENT DETECTION”
ラベルの共起関係(車とバイクは一緒になることが多い etc.)を利用した学習法
ラベルの階層構造(鳥?{白鳥、アヒル} etc.)を利用した学習法
ラベルノイズの分類法の提案、ノイズロバストな学習法も同時に提案
オーラルでは、どんなラベルを付けておくと、ラベリングが
簡単かつ効率的に学習できるか?という発表が多い
実際の解き方は Challenge の report 等をご覧ください
Copyright?2019 NTT corp. All Rights Reserved.
データ不均衡問題
41
銃声やガラスが割れる音など、少数しか集まらない音の検知
? Few-shot learning の利用
J.Pons+, “TRAINING NEURAL AUDIO CLASSIFIERS WITH FEW DATA”
GitHub: https://github.com/jordipons/neural-classifiers-with-few-audio
? NIPS 2017 で出た Prototypical networks を利用
? AudioSet で学習しておいて、転移学習も利用
? 半教師付き学習の利用
B.Shi+, “Semi-supervised Acoustic Event Detection based on tri-training”
? 4,000個程度(≒1h)のラベル付きデータと、1万5千時間のAmazon Instant
Video(!!) データを利用して Tri-training
? 3つモデルを学習し、ラベルなしデータに擬似ラベルを作って学習
? ※最近、Amazon から Alexa Guard というサービスが出た
Copyright?2019 NTT corp. All Rights Reserved.
【宣伝】異常音検知について
42
異常音検知の概要は 狠狠撸Share にアップしてあります
時間の都合で割愛しましたが。。。
"Theory and Methods for Unsupervised Anomaly
Detection in Sounds Based on Deep Learning," at
University of Surrey, 2019.
SideShare:
/yumakoizumi75/theory-
and-methods-for-unsupervised-anomaly-detection-in-
sounds-based-on-deep-learning
Y. Koizumi, S. Murata, N. Harada, S. Saito, H. Uematsu, “SNIPER: Few-shot Learning for Anomaly Detection to Minimize False-Negative Rate with Ensured
True-Positive Rate,” in Proc. of ICASSP 2019.
M. Yamaguchi, Y. Koizumi, and N. Harada, “AdaFlow: Domain-Adaptive Density Estimator with Application to Anomaly Detection and Unpaired Cross-
Domain Transition,” in Proc. of ICASSP 2019.
Y. Kawachi, Y. Koizumi, S. Murata, and N. Harada, “A Two-Class Hyper-Spherical Autoencoder for Supervised Anomaly Detection,” in Proc. of ICASSP 2019.
我々の異常音検知関連の発表3件の概要も触れています
Copyright?2019 NTT corp. All Rights Reserved. 43
皆様のご参入お待ちしております!
音
源
分
離
音響イベント
識別
車の
走行音
符号化
音の収録 音声以外の分析
復号
局
所
再
生
音の再生
音の符号化
AASP: Audio and Acoustic Signal Processing
最近レッドオーシャン気味になってきましたが、
まだ、音声以外の分析は研究できる分野!
Copyright?2019 NTT corp. All Rights Reserved. 44
Thank you!
Q&A

More Related Content

ICASSP 2019での音響信号処理分野の世界動向

  • 1. Copyright?2019 NTT corp. All Rights Reserved. ICASSP-2019 での 音響信号処理分野の世界動向 2019/06/08 @ ICASSP2019音声&音響論文読み会 1 NTTメディアインテリジェンス研究所 小泉 悠馬 AASP: Audio and Acoustic Signal Processing
  • 2. Copyright?2019 NTT corp. All Rights Reserved. 2 ? 小泉 悠馬(こいずみ ゆうま) ? 専門:音楽情報処理(修士まで) ? 音響信号処理(会社から) 略歴 ? 2014年: 法政大学 情報科学研究科 修了 ? 2014年: NTTメディアインテリジェンス研究所 入所 ? 2017年: 博士(工学) (電気通信大学) 研究内容 ? 音響信号処理 × 機械学習の基礎研究と実用化 ? 音源強調:うるさい中から欲しい音だけ取り出したい ? 異常検知:周囲の異変を音から検知したい 指導教官 伊藤 克亘教授 指導教官 羽田 陽一教授 自己紹介
  • 3. Copyright?2019 NTT corp. All Rights Reserved. 3 AASP分野の概要 音 源 分 離 音響イベント 識別 車の 走行音 符号化 音の収録 音声以外の分析 復号 局 所 再 生 音の再生 音の符号化 AASP: Audio and Acoustic Signal Processing 音の収録から再生まで、あらゆる音信号処理を包含
  • 4. Copyright?2019 NTT corp. All Rights Reserved. 車の 走行音 4 音 源 分 離 音響イベント 識別 符号化 音の収録 音声以外の分析 復号 局 所 再 生 音の再生 音の符号化 音の収録から再生まで、あらゆる音信号処理を包含 AASP分野の概要 AASP: Audio and Acoustic Signal Processing ? マイクロホンで観測した音から、欲しい音だけ抽出 ? 目的音と雑音の種類により、source separation, speech enhancement, など細かな小分類がある ? AASPの中で、最も深層学習が浸透している分野の一つ
  • 5. Copyright?2019 NTT corp. All Rights Reserved. 車の 走行音 5 音 源 分 離 音響イベント 識別 符号化 音の収録 音声以外の分析 復号 局 所 再 生 音の再生 音の符号化 音の収録から再生まで、あらゆる音信号処理を包含 ? 観測音がどんな音だったのかを分析する研究 ? 環境音の分析:音響シーン識別/イベント検出/異常音検知 ? 音楽情報処理:歌唱/演奏の分析、自動演奏、自動作曲など ? 近年、AASPの中で急速に発展している分野。深層学習の適用も盛ん。 AASP分野の概要 AASP: Audio and Acoustic Signal Processing
  • 6. Copyright?2019 NTT corp. All Rights Reserved. 車の 走行音 6 音 源 分 離 音響イベント 識別 符号化 音の収録 音声以外の分析 復号 局 所 再 生 音の再生 音の符号化 音の収録から再生まで、あらゆる音信号処理を包含 ? 音を圧縮したり伝送したりする研究(MPEGなど) ? 昔は非常に多くの研究がなされていたが、現在は縮小気味 ? 情報理論やフィルタバンクなど、AASPのコア技術の結晶の分野で、 個人的には、(門外漢だが)最も好きな分野の一つ AASP分野の概要 AASP: Audio and Acoustic Signal Processing
  • 7. Copyright?2019 NTT corp. All Rights Reserved. 車の 走行音 7 音 源 分 離 音響イベント 識別 犬の 鳴き声 符号化 音の収録 音声以外の分析 復号 局 所 再 生 音の再生 音の符号化 音の収録から再生まで、あらゆる音信号処理を包含 ? スピーカーの駆動信号を制御して音場を制御する研究 ? 音場再現:別の場所の音場の完全な再現を目指す ? 局所再生:音をある場所でのみ再生する ? 能動的雑音制御:雑音を空間的に抑圧する ? AASPの中で最も物理よりの分野であり、深層学習はほとんど利用されていない AASP分野の概要 AASP: Audio and Acoustic Signal Processing
  • 8. Copyright?2019 NTT corp. All Rights Reserved. 車の 走行音 8 AASP分野の概要 音 源 分 離 音響イベント 識別 符号化 音の収録 音声以外の分析 復号 局 所 再 生 音の再生 音の符号化 AASP: Audio and Acoustic Signal Processing 音の収録から再生まで、あらゆる音信号処理を包含 参加者の皆様のご興味が機械学習と伺いましたので 本日は、音の収録と分析の分野をご紹介します
  • 9. Copyright?2019 NTT corp. All Rights Reserved. 目次 9 音源分離?音声強調 音響シーン識別/イベント検知/異常音検知 ? 問題設定 ? DNNを使った音源分離/音声強調 ? 有名な手法とデータセット ? 今年の流行: 1. 位相復元 2. 時間周波数解析の最適化 ? 問題設定 ? データセット ? 分野としての課題 ? 今年の流行: 1. Labelの検討 2. Rare sound event detection
  • 10. Copyright?2019 NTT corp. All Rights Reserved. 音源強調/音源分離とは 10 観測音から目的音を抽出する信号処理 目的音 雑音 … 観測音 信号処理 出力音 マイク ? アプリケーション: 音声認識の前処理, 通話品質向上, Hearing aid, etc…
  • 11. Copyright?2019 NTT corp. All Rights Reserved. 音源分離?音源強調?どっちなの? Source separation/enhancement で問題設定が異なる ? Separation:混ざったものを「個々の音源に分離」する ? Enhancement:混ざったからを「特定の音源を抽出」する 音 源 分 離 音 源 強 調 ? 多くの場合、有限個の点音源を仮定 それぞれの音源に分離=出力はK個 ? 目的音+その他というモデル 目的音だけ求められればいい 11
  • 12. Copyright?2019 NTT corp. All Rights Reserved. マイクは1つ or 複数? マイクが複数あると(マイクロホンアレー)空間情報が使える ? 複数ある場合は線形フィルタリング、1つの場合は非線形フィルタリ ングが一般的 線形フィルタリング(e.g. ビームフォーミング, ICA, IVA, ILRMA) 非線形フィルタリング(or 時間周波数マスク) 12 この後の山岡さんのご発表はこちらの話 この後の安藤さん?相原さんのご発表はこちらの話
  • 13. Copyright?2019 NTT corp. All Rights Reserved. 13 線形フィルタリング 音源方向によって、マイクへの到達時間/ゲイン差が生じる 正面から到来する音は、 ほぼ時間差なく到達
  • 14. Copyright?2019 NTT corp. All Rights Reserved. 14 正面から以外から到来する音は、 時間差をもって到達 線形フィルタリング 音源方向によって、マイクへの到達時間/ゲイン差が生じる
  • 15. Copyright?2019 NTT corp. All Rights Reserved. 15 複数の方向からの音が混ざると、 複雑な波形となる 線形フィルタリング 音源方向によって、マイクへの到達時間/ゲイン差が生じる
  • 16. Copyright?2019 NTT corp. All Rights Reserved. 16 到達時間/ゲイン差を利用し、所望の音を強調/抑圧 例)正面の音は同じタイミングで到達するので、 全マイクの音を加算すると強められる 線形フィルタリング
  • 17. Copyright?2019 NTT corp. All Rights Reserved. 17 目的音=人間の声 非線形フィルタリング 時間周波数マスクを乗じる音源強調法
  • 18. Copyright?2019 NTT corp. All Rights Reserved. 18 雑音=サックス 非線形フィルタリング 時間周波数マスクを乗じる音源強調法
  • 19. Copyright?2019 NTT corp. All Rights Reserved. 19 混ざってしまうと、どれが目的音かわからない ?? ?? 非線形フィルタリング 時間周波数マスクを乗じる音源強調法
  • 20. Copyright?2019 NTT corp. All Rights Reserved. 20 例:ウィナーフィルタ 非線形フィルタリング 時間周波数マスクを乗じる音源強調法
  • 21. Copyright?2019 NTT corp. All Rights Reserved. 21 例:ウィナーフィルタ 非線形フィルタリング 時間周波数マスクを乗じる音源強調法
  • 22. Copyright?2019 NTT corp. All Rights Reserved. 22 (D)NN音源強調/分離の一般的な手法 DNNで時間周波数マスクを推定 … …… …… …… …… … …… ? 音響に詳しくない人は、(厳密ではないけど)声紋に対する Attention を推定していると考えると理解しやすいかも ? なので、学習データとして必要なのは、大量の目的音と大量の雑音
  • 23. Copyright?2019 NTT corp. All Rights Reserved. 23 (D)NN音源強調/分離の一般的な手法 0. 学習データを用意 目的音 雑音
  • 24. Copyright?2019 NTT corp. All Rights Reserved. 24 (D)NN音源強調/分離の一般的な手法 1. ランダム取り出し&混ぜる
  • 25. Copyright?2019 NTT corp. All Rights Reserved. 25 (D)NN音源強調/分離の一般的な手法 … …… …… …… …… … …… 2. 時間周波数推定&マスク処理
  • 26. Copyright?2019 NTT corp. All Rights Reserved. 26 (D)NN音源強調/分離の一般的な手法 … …… …… …… …… … …… 3. 目的音と近くなるように backpropagation 誤差&勾配計算 Update
  • 27. Copyright?2019 NTT corp. All Rights Reserved. この後の相原さんのご発表は、Deep Clustering の派生形のご発表 27 有名な手法とデータセット 音源分離 手法:この2つがベースとなり、派生形がたくさん提案されている ? Deep Clustering [J.R.Hershey+, ICASSP 2016] ? Permutation Invariant Training (PIT) [D.Yu+, ICASSP 2017]: データセット ? wsj0-mix: http://www.merl.com/demos/deep-clustering 音源強調(音声強調) 手法:時間周波数領域が主流だが、時間領域の手法も出てきた ? Phase Sensitive Mask (PSM) [H.Erdogan+, ICASSP 2015] ? SEGAN [S.Pascual+, INTERSPEECH 2017] データセット ? Voice Bank + Demand: https://doi.org/10.7488/ds/1356
  • 28. Copyright?2019 NTT corp. All Rights Reserved. 28 今年のホットな話題(その1) 1. 位相復元 or 複素時間周波数マスク この後の安藤さんの紹介論文は、これに関する話 ここの回転が考慮されていない!! ? 実数の時間周波数マスクでは、位相(回転)は修正できない ? 複素数の時間周波数マスクを推定 ? 後処理的に正しい位相を推定 振幅の二乗誤差最小化 with 実数マスク 複素スペクトルの二乗誤差最小化 with 実数マスク
  • 29. Copyright?2019 NTT corp. All Rights Reserved. 29 【宣伝】Deep Griffin-Lim Iteration 位相復元の代表格 Griffin-Lim法×ニューラルネットワーク IEEE Xplore: https://ieeexplore.ieee.org/document/8682744 arXiv: https://arxiv.org/abs/1903.03971 Y. Masuyama, K. Yatabe, Y. Koizumi, Y. Oikawa, and N. Harada, “Deep Griffin–Lim Iteration,” in Proc. ICASSP 2019
  • 30. Copyright?2019 NTT corp. All Rights Reserved. 30 今年のホットな話題(その2) 2. 時間周波数解析の最適化 STFT 時間周波数マスク処理 (DNN) iSTFT 出力 ここってSTFTがベストなんだっけ? ? DNNで時間周波数変換も学習してしまえ ? DNN音源強調に最適な時間周波数変換とはなんだ? ? TasNet [Y. Luo+, ICASSP 2018] ? STFT convolution [G. Wichern+, IWAENC 2018]
  • 31. Copyright?2019 NTT corp. All Rights Reserved. 31 【宣伝】学習可能な時間周波数変換(その1) DNNで分析窓長を制御、時間周波数分解能トレードオフを解決 IEEE Xplore: https://ieeexplore.ieee.org/document/8683642 arXiv: https://arxiv.org/abs/1811.02438 Y. Koizumi, N. Harada, and Y. Haneda, “Trainable Adaptive Window Switching for Speech Enhancement,” in Proc. ICASSP 2019 Gumbel-softmaxをうまく使うと、強調の途中 で利用する窓関数やDNNを切り替えれる
  • 32. Copyright?2019 NTT corp. All Rights Reserved. 32 二乗誤差最小化学習に最適な完全再構成フィルタバンクの学習 IEEE Xplore: https://ieeexplore.ieee.org/document/8683861 arXiv: https://arxiv.org/abs/1903.08876 D. Takeuchi, K. Yatabe, Y. Koizumi, Y. Oikawa, and N. Harada, “Data-Driven Design of Perfect Reconstruction Filterbank for DNN-based Sound Source Enhancement,” in Proc. ICASSP 2019 MMSEでDNNをうまく学習させるためには、誤差分散が全周波数ビンで一定になるよ うに完全再構成フィルタバンクを設計すればいい 【宣伝】学習可能な時間周波数変換(その2)
  • 33. Copyright?2019 NTT corp. All Rights Reserved. 目次 33 音源分離?音声強調 音響シーン識別/イベント検知/異常音検知 ? 問題設定 ? DNNを使った音源分離/音声強調 ? 有名な手法とデータセット ? 今年の流行: 1. 位相復元 2. 時間周波数解析の最適化 ? 問題設定 ? データセット ? 分野としての課題 ? 今年の流行: 1. Noisy label 2. Rare sound event detection
  • 34. Copyright?2019 NTT corp. All Rights Reserved. 音環境理解の技術 34 環境音から有用な情報を取り出す信号処理 音響イベント識別 車の走行音 音響シーン識別 異常音検知 道路の近く 正常/異常な走行 なんの音? どんな場所? どんな状態? ? アプリケーション: 監視システム, 製品検査, Hearing aid, etc… 時間の関係で今日は割愛
  • 35. Copyright?2019 NTT corp. All Rights Reserved. 音響イベント検出/シーン識別 35 音響イベント検出 音響シーン識別 いつ?何の音が? を当てるタスク どんな環境? を当てるタスク 図は http://dcase.community/ よりダウンロード https://github.com/toni-heittola/icassp2019-tutorial ? 簡単な baseline system はコードが公開されている
  • 36. Copyright?2019 NTT corp. All Rights Reserved. 最近とてもホットな分野 36 DCASE challenge & workshop で再熱 http://dcase.community/ ? 2013, 2016, 2017, 2018 と開催、2019 は NY で10月に開催予定 ? 参加者数はうなぎ登りに増えている ? ICASSPでも、チュートリアルが開かれたり、オーラルで2セッショ ン組まれたりと、AASPの中でも投稿数?注目度共にトップクラス
  • 37. Copyright?2019 NTT corp. All Rights Reserved. 大規模データセットも整備されつつある 37 Audio Set [J.F.Gemmeke+, ICASSP 2017] FreeSound [E.Fonseca+, ISMIR 2017] https://research.google.com/audioset/ ? YouTube から取得された 2,084,320 個の 10 sec のオーディオクリップ ? 632クラスの分類問題 ? Wav ファイルの取得方法は(ごにょごにょ) ? 権利の問題状、公式が配布しているのは、どのビデオから取ったかとい う CSV と、特徴量抽出された結果のみ = 5千時間以上の音データ https://freesound.org/ ? クリエイティブ?コモンズ?ライセンスのデータセット (正しくは Webサイトで、そこから音をダウンロードして dataset 化) ? Kaggle のチャレンジでも使われている ? 後述する、ラベルノイズ問題がチャレンジング
  • 38. Copyright?2019 NTT corp. All Rights Reserved. とはいえ???研究分野としては未成熟 38 分野独自の手法、というのはほとんど見られない ? 黎明期の分野ではよくあることだが、他の分野で使われている手 法を持ってきて使いました、で ICASSPに通る… ? 理論軽視。とりあえず手を動かして動いたものを発表という状態 (スペクトログラムを RGB の 3ch画像にして入力 etc…) 今年のICASSPから、分野の問題が明確になってきた ? ラベルの問題 ? ラベリングコストが非常に高い(Weakly/Semi-supervised) ? ラベルの多義性がある(Noisy label) ? データ不均衡問題 ? 銃声や悲鳴など、ほとんど発生しない音の識別(Few-shot) ? 機器の故障音などは、そもそも検知したいデータがない(Zero-shot)
  • 39. Copyright?2019 NTT corp. All Rights Reserved. ラベル問題 39 ? 音声認識以上のデータ量が必要なのに、ラベルを付けるコストが高すぎる ? 時刻はどこまで正確につけられるの? ? 国によって、サイレンの意味が違う ? 人間ですら、音だけから何の音か聞き分けるのは無理 etc… 図は http://dcase.community/ よりダウンロード
  • 40. Copyright?2019 NTT corp. All Rights Reserved. ラベルについての考察発表 40 K.Imoto+, “SOUND EVENT DETECTION USING GRAPH LAPLACIAN REGULARIZATION BASED ON EVENT CO-OCCURRENCE” E.Fonseca+, “LEARNING SOUND EVENT CLASSIFIERS FROM WEB AUDIO WITH NOISY LABELS” A. Jati+, “HIERARCHY-AWARE LOSS FUNCTION ON A TREE STRUCTURED LABEL SPACE FOR AUDIO EVENT DETECTION” ラベルの共起関係(車とバイクは一緒になることが多い etc.)を利用した学習法 ラベルの階層構造(鳥?{白鳥、アヒル} etc.)を利用した学習法 ラベルノイズの分類法の提案、ノイズロバストな学習法も同時に提案 オーラルでは、どんなラベルを付けておくと、ラベリングが 簡単かつ効率的に学習できるか?という発表が多い 実際の解き方は Challenge の report 等をご覧ください
  • 41. Copyright?2019 NTT corp. All Rights Reserved. データ不均衡問題 41 銃声やガラスが割れる音など、少数しか集まらない音の検知 ? Few-shot learning の利用 J.Pons+, “TRAINING NEURAL AUDIO CLASSIFIERS WITH FEW DATA” GitHub: https://github.com/jordipons/neural-classifiers-with-few-audio ? NIPS 2017 で出た Prototypical networks を利用 ? AudioSet で学習しておいて、転移学習も利用 ? 半教師付き学習の利用 B.Shi+, “Semi-supervised Acoustic Event Detection based on tri-training” ? 4,000個程度(≒1h)のラベル付きデータと、1万5千時間のAmazon Instant Video(!!) データを利用して Tri-training ? 3つモデルを学習し、ラベルなしデータに擬似ラベルを作って学習 ? ※最近、Amazon から Alexa Guard というサービスが出た
  • 42. Copyright?2019 NTT corp. All Rights Reserved. 【宣伝】異常音検知について 42 異常音検知の概要は 狠狠撸Share にアップしてあります 時間の都合で割愛しましたが。。。 "Theory and Methods for Unsupervised Anomaly Detection in Sounds Based on Deep Learning," at University of Surrey, 2019. SideShare: /yumakoizumi75/theory- and-methods-for-unsupervised-anomaly-detection-in- sounds-based-on-deep-learning Y. Koizumi, S. Murata, N. Harada, S. Saito, H. Uematsu, “SNIPER: Few-shot Learning for Anomaly Detection to Minimize False-Negative Rate with Ensured True-Positive Rate,” in Proc. of ICASSP 2019. M. Yamaguchi, Y. Koizumi, and N. Harada, “AdaFlow: Domain-Adaptive Density Estimator with Application to Anomaly Detection and Unpaired Cross- Domain Transition,” in Proc. of ICASSP 2019. Y. Kawachi, Y. Koizumi, S. Murata, and N. Harada, “A Two-Class Hyper-Spherical Autoencoder for Supervised Anomaly Detection,” in Proc. of ICASSP 2019. 我々の異常音検知関連の発表3件の概要も触れています
  • 43. Copyright?2019 NTT corp. All Rights Reserved. 43 皆様のご参入お待ちしております! 音 源 分 離 音響イベント 識別 車の 走行音 符号化 音の収録 音声以外の分析 復号 局 所 再 生 音の再生 音の符号化 AASP: Audio and Acoustic Signal Processing 最近レッドオーシャン気味になってきましたが、 まだ、音声以外の分析は研究できる分野!
  • 44. Copyright?2019 NTT corp. All Rights Reserved. 44 Thank you! Q&A