狠狠撸

Copyright?2019 NTT corp. All Rights Reserved.
ICASSP-2019 での
音響信号処理分野の世界動向
2019/06/08 @ ICASSP2019音声＆音響論文読み会
1
NTTメディアインテリジェンス研究所
小泉悠馬
AASP: Audio and Acoustic Signal Processing

Copyright?2019 NTT corp. All Rights Reserved. 2
? 小泉悠馬（こいずみゆうま）
? 専門：音楽情報処理（修士まで）
? 音響信号処理（会社から）
略歴
? 2014年: 法政大学情報科学研究科修了
? 2014年: NTTメディアインテリジェンス研究所入所
? 2017年: 博士（工学）（電気通信大学）
研究内容
? 音響信号処理 × 機械学習の基礎研究と実用化
? 音源強調：うるさい中から欲しい音だけ取り出したい
? 異常検知：周囲の異変を音から検知したい
指導教官
伊藤克亘教授
指導教官
羽田陽一教授
自己紹介

AASP分野の概要
音
源
分
離
音響イベント
識別
車の
走行音
符号化
音の収録音声以外の分析
復号
局
所
再
生
音の再生
音の符号化
音の収録から再生まで、あらゆる音信号処理を包含

車の
走行音
4
音
源
分
離
音響イベント
識別
符号化
復号
局
所
再
生
音の再生
音の符号化
AASP分野の概要
? マイクロホンで観測した音から、欲しい音だけ抽出
? 目的音と雑音の種類により、source separation, speech
enhancement, など細かな小分類がある
? AASPの中で、最も深層学習が浸透している分野の一つ

車の
走行音
5
音
源
分
離
音響イベント
識別
符号化
復号
局
所
再
生
音の再生
音の符号化
? 観測音がどんな音だったのかを分析する研究
? 環境音の分析：音響シーン識別/イベント検出/異常音検知
? 音楽情報処理：歌唱/演奏の分析、自動演奏、自動作曲など
? 近年、AASPの中で急速に発展している分野。深層学習の適用も盛ん。
AASP分野の概要

車の
走行音
6
音
源
分
離
音響イベント
識別
符号化
復号
局
所
再
生
音の再生
音の符号化
? 音を圧縮したり伝送したりする研究（MPEGなど）
? 昔は非常に多くの研究がなされていたが、現在は縮小気味
? 情報理論やフィルタバンクなど、AASPのコア技術の結晶の分野で、
個人的には、（門外漢だが）最も好きな分野の一つ
AASP分野の概要

車の
走行音
7
音
源
分
離
音響イベント
識別
犬の
鳴き声
符号化
復号
局
所
再
生
音の再生
音の符号化
? スピーカーの駆動信号を制御して音場を制御する研究
? 音場再現：別の場所の音場の完全な再現を目指す
? 局所再生：音をある場所でのみ再生する
? 能動的雑音制御：雑音を空間的に抑圧する
? AASPの中で最も物理よりの分野であり、深層学習はほとんど利用されていない
AASP分野の概要

車の
走行音
8
AASP分野の概要
音
源
分
離
音響イベント
識別
符号化
復号
局
所
再
生
音の再生
音の符号化
参加者の皆様のご興味が機械学習と伺いましたので
本日は、音の収録と分析の分野をご紹介します

目次
9
音源分離?音声強調
音響シーン識別/イベント検知/異常音検知
? 問題設定
? DNNを使った音源分離/音声強調
? 有名な手法とデータセット
? 今年の流行：
1. 位相復元
2. 時間周波数解析の最適化
? 問題設定
? データセット
? 分野としての課題
1. Labelの検討
2. Rare sound event detection

音源強調/音源分離とは
10
観測音から目的音を抽出する信号処理
目的音
雑音
…
観測音
信号処理
出力音
マイク
? アプリケーション：
音声認識の前処理, 通話品質向上, Hearing aid, etc…

音源分離？音源強調？どっちなの？
Source separation/enhancement で問題設定が異なる
? Separation：混ざったものを「個々の音源に分離」する
? Enhancement：混ざったからを「特定の音源を抽出」する
音
源
分
離
音
源
強
調
? 多くの場合、有限個の点音源を仮定
それぞれの音源に分離＝出力はK個
? 目的音＋その他というモデル
目的音だけ求められればいい
11

マイクは１つ or 複数？
マイクが複数あると（マイクロホンアレー）空間情報が使える
? 複数ある場合は線形フィルタリング、1つの場合は非線形フィルタリ
ングが一般的
線形フィルタリング（e.g. ビームフォーミング, ICA, IVA, ILRMA）
非線形フィルタリング（or 時間周波数マスク）
12
この後の山岡さんのご発表はこちらの話
この後の安藤さん?相原さんのご発表はこちらの話

線形フィルタリング
音源方向によって、マイクへの到達時間/ゲイン差が生じる
正面から到来する音は、
ほぼ時間差なく到達

正面から以外から到来する音は、
時間差をもって到達

複数の方向からの音が混ざると、
複雑な波形となる

到達時間/ゲイン差を利用し、所望の音を強調/抑圧
例）正面の音は同じタイミングで到達するので、
全マイクの音を加算すると強められる

目的音＝人間の声
非線形フィルタリング
時間周波数マスクを乗じる音源強調法

雑音＝サックス

混ざってしまうと、どれが目的音かわからない
?? ??

例：ウィナーフィルタ

（D)NN音源強調/分離の一般的な手法
DNNで時間周波数マスクを推定
…
……
……
……
……
…
……
? 音響に詳しくない人は、（厳密ではないけど）声紋に対する
Attention を推定していると考えると理解しやすいかも
? なので、学習データとして必要なのは、大量の目的音と大量の雑音

0. 学習データを用意
目的音
雑音

1. ランダム取り出し＆混ぜる

…
……
……
……
……
…
……
2. 時間周波数推定＆マスク処理

…
……
……
……
……
…
……
3. 目的音と近くなるように backpropagation
誤差＆勾配計算
Update

この後の相原さんのご発表は、Deep Clustering
の派生形のご発表
27
有名な手法とデータセット
音源分離
手法：この2つがベースとなり、派生形がたくさん提案されている
? Deep Clustering [J.R.Hershey+, ICASSP 2016]
? Permutation Invariant Training (PIT) [D.Yu+, ICASSP 2017]:
データセット
? wsj0-mix: http://www.merl.com/demos/deep-clustering
音源強調（音声強調）
手法：時間周波数領域が主流だが、時間領域の手法も出てきた
? Phase Sensitive Mask (PSM) [H.Erdogan+, ICASSP 2015]
? SEGAN [S.Pascual+, INTERSPEECH 2017]
データセット
? Voice Bank + Demand: https://doi.org/10.7488/ds/1356

今年のホットな話題（その１）
1. 位相復元 or 複素時間周波数マスク
この後の安藤さんの紹介論文は、これに関する話
ここの回転が考慮されていない！！
? 実数の時間周波数マスクでは、位相（回転）は修正できない
? 複素数の時間周波数マスクを推定
? 後処理的に正しい位相を推定
振幅の二乗誤差最小化
with 実数マスク
複素スペクトルの二乗誤差最小化
with 実数マスク

【宣伝】Deep Griffin-Lim Iteration
位相復元の代表格 Griffin-Lim法×ニューラルネットワーク
IEEE Xplore: https://ieeexplore.ieee.org/document/8682744
arXiv: https://arxiv.org/abs/1903.03971
Y. Masuyama, K. Yatabe, Y. Koizumi, Y. Oikawa, and N. Harada, “Deep Griffin–Lim Iteration,” in Proc. ICASSP 2019

今年のホットな話題（その２）
STFT
時間周波数マスク処理
（DNN）
iSTFT 出力
ここってSTFTがベストなんだっけ？
? DNNで時間周波数変換も学習してしまえ
? DNN音源強調に最適な時間周波数変換とはなんだ？
? TasNet [Y. Luo+, ICASSP 2018]
? STFT convolution [G. Wichern+, IWAENC 2018]

【宣伝】学習可能な時間周波数変換（その１）
DNNで分析窓長を制御、時間周波数分解能トレードオフを解決
Y. Koizumi, N. Harada, and Y. Haneda, “Trainable Adaptive Window Switching for Speech Enhancement,” in Proc. ICASSP 2019
Gumbel-softmaxをうまく使うと、強調の途中
で利用する窓関数やDNNを切り替えれる

二乗誤差最小化学習に最適な完全再構成フィルタバンクの学習
D. Takeuchi, K. Yatabe, Y. Koizumi, Y. Oikawa, and N. Harada, “Data-Driven Design of Perfect Reconstruction Filterbank for DNN-based
Sound Source Enhancement,” in Proc. ICASSP 2019
MMSEでDNNをうまく学習させるためには、誤差分散が全周波数ビンで一定になるよ
うに完全再構成フィルタバンクを設計すればいい
【宣伝】学習可能な時間周波数変換（その２）

目次
33
音源分離?音声強調
音響シーン識別/イベント検知/異常音検知
? 問題設定
? DNNを使った音源分離/音声強調
? 有名な手法とデータセット
1. 位相復元
? 問題設定
? データセット
? 分野としての課題
1. Noisy label
2. Rare sound event detection

音環境理解の技術
34
環境音から有用な情報を取り出す信号処理
音響イベント識別車の走行音
音響シーン識別
異常音検知
道路の近く
正常/異常な走行
なんの音？
どんな場所？
どんな状態？
? アプリケーション：
監視システム, 製品検査, Hearing aid, etc…
時間の関係で今日は割愛

音響イベント検出/シーン識別
35
音響イベント検出音響シーン識別
いつ？何の音が？
を当てるタスク
どんな環境？
を当てるタスク
図は http://dcase.community/ よりダウンロード
https://github.com/toni-heittola/icassp2019-tutorial
? 簡単な baseline system はコードが公開されている

最近とてもホットな分野
36
DCASE challenge & workshop で再熱
http://dcase.community/
? 2013, 2016, 2017, 2018 と開催、2019 は NY で10月に開催予定
? 参加者数はうなぎ登りに増えている
? ICASSPでも、チュートリアルが開かれたり、オーラルで２セッショ
ン組まれたりと、AASPの中でも投稿数?注目度共にトップクラス

大規模データセットも整備されつつある
37
Audio Set [J.F.Gemmeke+, ICASSP 2017]
FreeSound [E.Fonseca+, ISMIR 2017]
https://research.google.com/audioset/
? YouTube から取得された 2,084,320 個の 10 sec のオーディオクリップ
? 632クラスの分類問題
? Wav ファイルの取得方法は（ごにょごにょ）
? 権利の問題状、公式が配布しているのは、どのビデオから取ったかとい
う CSV と、特徴量抽出された結果のみ
= ５千時間以上の音データ
https://freesound.org/
? クリエイティブ?コモンズ?ライセンスのデータセット
（正しくは Webサイトで、そこから音をダウンロードして dataset 化）
? Kaggle のチャレンジでも使われている
? 後述する、ラベルノイズ問題がチャレンジング

とはいえ???研究分野としては未成熟
38
分野独自の手法、というのはほとんど見られない
? 黎明期の分野ではよくあることだが、他の分野で使われている手
法を持ってきて使いました、で ICASSPに通る…
? 理論軽視。とりあえず手を動かして動いたものを発表という状態
（スペクトログラムを RGB の 3ch画像にして入力 etc…）
今年のICASSPから、分野の問題が明確になってきた
? ラベルの問題
? ラベリングコストが非常に高い（Weakly/Semi-supervised）
? ラベルの多義性がある（Noisy label）
? データ不均衡問題
? 銃声や悲鳴など、ほとんど発生しない音の識別（Few-shot）
? 機器の故障音などは、そもそも検知したいデータがない（Zero-shot）

ラベル問題
39
? 音声認識以上のデータ量が必要なのに、ラベルを付けるコストが高すぎる
? 時刻はどこまで正確につけられるの？
? 国によって、サイレンの意味が違う
? 人間ですら、音だけから何の音か聞き分けるのは無理 etc…
図は http://dcase.community/ よりダウンロード

ラベルについての考察発表
40
K.Imoto+, “SOUND EVENT DETECTION USING GRAPH LAPLACIAN REGULARIZATION BASED ON
EVENT CO-OCCURRENCE”
E.Fonseca+, “LEARNING SOUND EVENT CLASSIFIERS FROM WEB AUDIO WITH NOISY LABELS”
A. Jati+, “HIERARCHY-AWARE LOSS FUNCTION ON A TREE STRUCTURED LABEL SPACE FOR
AUDIO EVENT DETECTION”
ラベルの共起関係（車とバイクは一緒になることが多い etc.）を利用した学習法
ラベルの階層構造（鳥?{白鳥、アヒル} etc.）を利用した学習法
ラベルノイズの分類法の提案、ノイズロバストな学習法も同時に提案
オーラルでは、どんなラベルを付けておくと、ラベリングが
簡単かつ効率的に学習できるか？という発表が多い
実際の解き方は Challenge の report 等をご覧ください

データ不均衡問題
41
銃声やガラスが割れる音など、少数しか集まらない音の検知
? Few-shot learning の利用
J.Pons+, “TRAINING NEURAL AUDIO CLASSIFIERS WITH FEW DATA”
GitHub: https://github.com/jordipons/neural-classifiers-with-few-audio
? NIPS 2017 で出た Prototypical networks を利用
? AudioSet で学習しておいて、転移学習も利用
? 半教師付き学習の利用
B.Shi+, “Semi-supervised Acoustic Event Detection based on tri-training”
? 4,000個程度(≒1h)のラベル付きデータと、１万５千時間のAmazon Instant
Video(!!) データを利用して Tri-training
? ３つモデルを学習し、ラベルなしデータに擬似ラベルを作って学習
? ※最近、Amazon から Alexa Guard というサービスが出た

【宣伝】異常音検知について
42
異常音検知の概要は狠狠撸Share にアップしてあります
時間の都合で割愛しましたが。。。
"Theory and Methods for Unsupervised Anomaly
Detection in Sounds Based on Deep Learning," at
University of Surrey, 2019.
SideShare:
/yumakoizumi75/theory-
and-methods-for-unsupervised-anomaly-detection-in-
sounds-based-on-deep-learning
Y. Koizumi, S. Murata, N. Harada, S. Saito, H. Uematsu, “SNIPER: Few-shot Learning for Anomaly Detection to Minimize False-Negative Rate with Ensured
True-Positive Rate,” in Proc. of ICASSP 2019.
M. Yamaguchi, Y. Koizumi, and N. Harada, “AdaFlow: Domain-Adaptive Density Estimator with Application to Anomaly Detection and Unpaired Cross-
Domain Transition,” in Proc. of ICASSP 2019.
Y. Kawachi, Y. Koizumi, S. Murata, and N. Harada, “A Two-Class Hyper-Spherical Autoencoder for Supervised Anomaly Detection,” in Proc. of ICASSP 2019.
我々の異常音検知関連の発表３件の概要も触れています

皆様のご参入お待ちしております！
音
源
分
離
音響イベント
識別
車の
走行音
符号化
復号
局
所
再
生
音の再生
音の符号化
最近レッドオーシャン気味になってきましたが、
まだ、音声以外の分析は研究できる分野！

Thank you!
Q&A

狠狠撸

ICASSP 2019での音響信号処理分野の世界動向

Recommended

More Related Content

What's hot (20)

Similar to ICASSP 2019での音響信号処理分野の世界動向 (20)

ICASSP 2019での音響信号処理分野の世界動向