ICASSP 2019音声&音響論文読み会(https://connpass.com/event/128527/)での発表資料です。
AASP (Audio and Acoustic Signal Processing) 分野の紹介と、ICASSP 2019での動向を紹介しています。#icassp2019jp
1 of 44
Downloaded 51 times
More Related Content
ICASSP 2019での音響信号処理分野の世界動向
1. Copyright?2019 NTT corp. All Rights Reserved.
ICASSP-2019 での
音響信号処理分野の世界動向
2019/06/08 @ ICASSP2019音声&音響論文読み会
1
NTTメディアインテリジェンス研究所
小泉 悠馬
AASP: Audio and Acoustic Signal Processing
28. Copyright?2019 NTT corp. All Rights Reserved. 28
今年のホットな話題(その1)
1. 位相復元 or 複素時間周波数マスク
この後の安藤さんの紹介論文は、これに関する話
ここの回転が考慮されていない!!
? 実数の時間周波数マスクでは、位相(回転)は修正できない
? 複素数の時間周波数マスクを推定
? 後処理的に正しい位相を推定
振幅の二乗誤差最小化
with 実数マスク
複素スペクトルの二乗誤差最小化
with 実数マスク
29. Copyright?2019 NTT corp. All Rights Reserved. 29
【宣伝】Deep Griffin-Lim Iteration
位相復元の代表格 Griffin-Lim法×ニューラルネットワーク
IEEE Xplore: https://ieeexplore.ieee.org/document/8682744
arXiv: https://arxiv.org/abs/1903.03971
Y. Masuyama, K. Yatabe, Y. Koizumi, Y. Oikawa, and N. Harada, “Deep Griffin–Lim Iteration,” in Proc. ICASSP 2019
31. Copyright?2019 NTT corp. All Rights Reserved. 31
【宣伝】学習可能な時間周波数変換(その1)
DNNで分析窓長を制御、時間周波数分解能トレードオフを解決
IEEE Xplore: https://ieeexplore.ieee.org/document/8683642
arXiv: https://arxiv.org/abs/1811.02438
Y. Koizumi, N. Harada, and Y. Haneda, “Trainable Adaptive Window Switching for Speech Enhancement,” in Proc. ICASSP 2019
Gumbel-softmaxをうまく使うと、強調の途中
で利用する窓関数やDNNを切り替えれる
32. Copyright?2019 NTT corp. All Rights Reserved. 32
二乗誤差最小化学習に最適な完全再構成フィルタバンクの学習
IEEE Xplore: https://ieeexplore.ieee.org/document/8683861
arXiv: https://arxiv.org/abs/1903.08876
D. Takeuchi, K. Yatabe, Y. Koizumi, Y. Oikawa, and N. Harada, “Data-Driven Design of Perfect Reconstruction Filterbank for DNN-based
Sound Source Enhancement,” in Proc. ICASSP 2019
MMSEでDNNをうまく学習させるためには、誤差分散が全周波数ビンで一定になるよ
うに完全再構成フィルタバンクを設計すればいい
【宣伝】学習可能な時間周波数変換(その2)
40. Copyright?2019 NTT corp. All Rights Reserved.
ラベルについての考察発表
40
K.Imoto+, “SOUND EVENT DETECTION USING GRAPH LAPLACIAN REGULARIZATION BASED ON
EVENT CO-OCCURRENCE”
E.Fonseca+, “LEARNING SOUND EVENT CLASSIFIERS FROM WEB AUDIO WITH NOISY LABELS”
A. Jati+, “HIERARCHY-AWARE LOSS FUNCTION ON A TREE STRUCTURED LABEL SPACE FOR
AUDIO EVENT DETECTION”
ラベルの共起関係(車とバイクは一緒になることが多い etc.)を利用した学習法
ラベルの階層構造(鳥?{白鳥、アヒル} etc.)を利用した学習法
ラベルノイズの分類法の提案、ノイズロバストな学習法も同時に提案
オーラルでは、どんなラベルを付けておくと、ラベリングが
簡単かつ効率的に学習できるか?という発表が多い
実際の解き方は Challenge の report 等をご覧ください
41. Copyright?2019 NTT corp. All Rights Reserved.
データ不均衡問題
41
銃声やガラスが割れる音など、少数しか集まらない音の検知
? Few-shot learning の利用
J.Pons+, “TRAINING NEURAL AUDIO CLASSIFIERS WITH FEW DATA”
GitHub: https://github.com/jordipons/neural-classifiers-with-few-audio
? NIPS 2017 で出た Prototypical networks を利用
? AudioSet で学習しておいて、転移学習も利用
? 半教師付き学習の利用
B.Shi+, “Semi-supervised Acoustic Event Detection based on tri-training”
? 4,000個程度(≒1h)のラベル付きデータと、1万5千時間のAmazon Instant
Video(!!) データを利用して Tri-training
? 3つモデルを学習し、ラベルなしデータに擬似ラベルを作って学習
? ※最近、Amazon から Alexa Guard というサービスが出た
42. Copyright?2019 NTT corp. All Rights Reserved.
【宣伝】異常音検知について
42
異常音検知の概要は 狠狠撸Share にアップしてあります
時間の都合で割愛しましたが。。。
"Theory and Methods for Unsupervised Anomaly
Detection in Sounds Based on Deep Learning," at
University of Surrey, 2019.
SideShare:
/yumakoizumi75/theory-
and-methods-for-unsupervised-anomaly-detection-in-
sounds-based-on-deep-learning
Y. Koizumi, S. Murata, N. Harada, S. Saito, H. Uematsu, “SNIPER: Few-shot Learning for Anomaly Detection to Minimize False-Negative Rate with Ensured
True-Positive Rate,” in Proc. of ICASSP 2019.
M. Yamaguchi, Y. Koizumi, and N. Harada, “AdaFlow: Domain-Adaptive Density Estimator with Application to Anomaly Detection and Unpaired Cross-
Domain Transition,” in Proc. of ICASSP 2019.
Y. Kawachi, Y. Koizumi, S. Murata, and N. Harada, “A Two-Class Hyper-Spherical Autoencoder for Supervised Anomaly Detection,” in Proc. of ICASSP 2019.
我々の異常音検知関連の発表3件の概要も触れています
43. Copyright?2019 NTT corp. All Rights Reserved. 43
皆様のご参入お待ちしております!
音
源
分
離
音響イベント
識別
車の
走行音
符号化
音の収録 音声以外の分析
復号
局
所
再
生
音の再生
音の符号化
AASP: Audio and Acoustic Signal Processing
最近レッドオーシャン気味になってきましたが、
まだ、音声以外の分析は研究できる分野!