ICASSP 2019音声&音響論文読み会(https://connpass.com/event/128527/)での発表資料です。
AASP (Audio and Acoustic Signal Processing) 分野の紹介と、ICASSP 2019での動向を紹介しています。#icassp2019jp
音源分離における音響モデリング(Acoustic modeling in audio source separation)Daichi Kitamura
?
北村大地, "音源分離における音響モデリング," 日本音響学会 サマーセミナー 招待講演, September 11th, 2017.
Daichi Kitamura, "Acoustic modeling in audio source separation," The Acoustical Society of Japan, Summer Seminar Invited Talk, September 11th, 2017.
Presentation slide for AI seminar at Artificial Intelligence Research Center, The National Institute of Advanced Industrial Science and Technology, Japan.
URL (in Japanese): https://www.airc.aist.go.jp/seminar_detail/seminar_046.html
独立低ランク行列分析に基づく音源分離とその発展(Audio source separation based on independent low-rank...Daichi Kitamura
?
北村大地, "独立低ランク行列分析に基づく音源分離とその発展," IEICE信号処理研究会, 2021年8月24日.
Daichi Kitamura, "Audio source separation based on independent low-rank matrix analysis and its extensions," IEICE Technical Group on Signal Processing, Aug. 24th, 2021.
http://d-kitamura.net
本スライドは、弊社の梅本により弊社内の技術勉強会で使用されたものです。
近年注目を集めるアーキテクチャーである「Transformer」の解説スライドとなっております。
"Arithmer Seminar" is weekly held, where professionals from within and outside our company give lectures on their respective expertise.
The slides are made by the lecturer from outside our company, and shared here with his/her permission.
Arithmer株式会社は東京大学大学院数理科学研究科発の数学の会社です。私達は現代数学を応用して、様々な分野のソリューションに、新しい高度AIシステムを導入しています。AIをいかに上手に使って仕事を効率化するか、そして人々の役に立つ結果を生み出すのか、それを考えるのが私たちの仕事です。
Arithmer began at the University of Tokyo Graduate School of Mathematical Sciences. Today, our research of modern mathematics and AI systems has the capability of providing solutions when dealing with tough complex issues. At Arithmer we believe it is our job to realize the functions of AI through improving work efficiency and producing more useful results for society.
1. The document discusses probabilistic modeling and variational inference. It introduces concepts like Bayes' rule, marginalization, and conditioning.
2. An equation for the evidence lower bound is derived, which decomposes the log likelihood of data into the Kullback-Leibler divergence between an approximate and true posterior plus an expected log likelihood term.
3. Variational autoencoders are discussed, where the approximate posterior is parameterized by a neural network and optimized to maximize the evidence lower bound. Latent variables are modeled as Gaussian distributions.
本スライドは、弊社の梅本により弊社内の技術勉強会で使用されたものです。
近年注目を集めるアーキテクチャーである「Transformer」の解説スライドとなっております。
"Arithmer Seminar" is weekly held, where professionals from within and outside our company give lectures on their respective expertise.
The slides are made by the lecturer from outside our company, and shared here with his/her permission.
Arithmer株式会社は東京大学大学院数理科学研究科発の数学の会社です。私達は現代数学を応用して、様々な分野のソリューションに、新しい高度AIシステムを導入しています。AIをいかに上手に使って仕事を効率化するか、そして人々の役に立つ結果を生み出すのか、それを考えるのが私たちの仕事です。
Arithmer began at the University of Tokyo Graduate School of Mathematical Sciences. Today, our research of modern mathematics and AI systems has the capability of providing solutions when dealing with tough complex issues. At Arithmer we believe it is our job to realize the functions of AI through improving work efficiency and producing more useful results for society.
1. The document discusses probabilistic modeling and variational inference. It introduces concepts like Bayes' rule, marginalization, and conditioning.
2. An equation for the evidence lower bound is derived, which decomposes the log likelihood of data into the Kullback-Leibler divergence between an approximate and true posterior plus an expected log likelihood term.
3. Variational autoencoders are discussed, where the approximate posterior is parameterized by a neural network and optimized to maximize the evidence lower bound. Latent variables are modeled as Gaussian distributions.
K. Yamaoka, N. Ono, S. Makino, and T. Yamada, “Time-frequency-bin-wise switching of minimum variance distortionless response beamformer for underdetermined situations,” in Proc. ICASSP, pp. 7908-7912, 2019
2017年6月24日,ICASSP2017読み会(関東編)@東京大学
AASP-L3: Deep Learning for Source Separation and Enhancement I
東京大学特任助教 北村大地担当分のスライド
私が著者ではないペーパーの紹介スライドですので,再配布等はご遠慮ください.また,このスライドで取り扱っていない詳細な情報に関しては対象となる論文をご参照ください.
28. Copyright?2019 NTT corp. All Rights Reserved. 28
今年のホットな話題(その1)
1. 位相復元 or 複素時間周波数マスク
この後の安藤さんの紹介論文は、これに関する話
ここの回転が考慮されていない!!
? 実数の時間周波数マスクでは、位相(回転)は修正できない
? 複素数の時間周波数マスクを推定
? 後処理的に正しい位相を推定
振幅の二乗誤差最小化
with 実数マスク
複素スペクトルの二乗誤差最小化
with 実数マスク
29. Copyright?2019 NTT corp. All Rights Reserved. 29
【宣伝】Deep Griffin-Lim Iteration
位相復元の代表格 Griffin-Lim法×ニューラルネットワーク
IEEE Xplore: https://ieeexplore.ieee.org/document/8682744
arXiv: https://arxiv.org/abs/1903.03971
Y. Masuyama, K. Yatabe, Y. Koizumi, Y. Oikawa, and N. Harada, “Deep Griffin–Lim Iteration,” in Proc. ICASSP 2019
31. Copyright?2019 NTT corp. All Rights Reserved. 31
【宣伝】学習可能な時間周波数変換(その1)
DNNで分析窓長を制御、時間周波数分解能トレードオフを解決
IEEE Xplore: https://ieeexplore.ieee.org/document/8683642
arXiv: https://arxiv.org/abs/1811.02438
Y. Koizumi, N. Harada, and Y. Haneda, “Trainable Adaptive Window Switching for Speech Enhancement,” in Proc. ICASSP 2019
Gumbel-softmaxをうまく使うと、強調の途中
で利用する窓関数やDNNを切り替えれる
32. Copyright?2019 NTT corp. All Rights Reserved. 32
二乗誤差最小化学習に最適な完全再構成フィルタバンクの学習
IEEE Xplore: https://ieeexplore.ieee.org/document/8683861
arXiv: https://arxiv.org/abs/1903.08876
D. Takeuchi, K. Yatabe, Y. Koizumi, Y. Oikawa, and N. Harada, “Data-Driven Design of Perfect Reconstruction Filterbank for DNN-based
Sound Source Enhancement,” in Proc. ICASSP 2019
MMSEでDNNをうまく学習させるためには、誤差分散が全周波数ビンで一定になるよ
うに完全再構成フィルタバンクを設計すればいい
【宣伝】学習可能な時間周波数変換(その2)
40. Copyright?2019 NTT corp. All Rights Reserved.
ラベルについての考察発表
40
K.Imoto+, “SOUND EVENT DETECTION USING GRAPH LAPLACIAN REGULARIZATION BASED ON
EVENT CO-OCCURRENCE”
E.Fonseca+, “LEARNING SOUND EVENT CLASSIFIERS FROM WEB AUDIO WITH NOISY LABELS”
A. Jati+, “HIERARCHY-AWARE LOSS FUNCTION ON A TREE STRUCTURED LABEL SPACE FOR
AUDIO EVENT DETECTION”
ラベルの共起関係(車とバイクは一緒になることが多い etc.)を利用した学習法
ラベルの階層構造(鳥?{白鳥、アヒル} etc.)を利用した学習法
ラベルノイズの分類法の提案、ノイズロバストな学習法も同時に提案
オーラルでは、どんなラベルを付けておくと、ラベリングが
簡単かつ効率的に学習できるか?という発表が多い
実際の解き方は Challenge の report 等をご覧ください
41. Copyright?2019 NTT corp. All Rights Reserved.
データ不均衡問題
41
銃声やガラスが割れる音など、少数しか集まらない音の検知
? Few-shot learning の利用
J.Pons+, “TRAINING NEURAL AUDIO CLASSIFIERS WITH FEW DATA”
GitHub: https://github.com/jordipons/neural-classifiers-with-few-audio
? NIPS 2017 で出た Prototypical networks を利用
? AudioSet で学習しておいて、転移学習も利用
? 半教師付き学習の利用
B.Shi+, “Semi-supervised Acoustic Event Detection based on tri-training”
? 4,000個程度(≒1h)のラベル付きデータと、1万5千時間のAmazon Instant
Video(!!) データを利用して Tri-training
? 3つモデルを学習し、ラベルなしデータに擬似ラベルを作って学習
? ※最近、Amazon から Alexa Guard というサービスが出た
42. Copyright?2019 NTT corp. All Rights Reserved.
【宣伝】異常音検知について
42
異常音検知の概要は 狠狠撸Share にアップしてあります
時間の都合で割愛しましたが。。。
"Theory and Methods for Unsupervised Anomaly
Detection in Sounds Based on Deep Learning," at
University of Surrey, 2019.
SideShare:
/yumakoizumi75/theory-
and-methods-for-unsupervised-anomaly-detection-in-
sounds-based-on-deep-learning
Y. Koizumi, S. Murata, N. Harada, S. Saito, H. Uematsu, “SNIPER: Few-shot Learning for Anomaly Detection to Minimize False-Negative Rate with Ensured
True-Positive Rate,” in Proc. of ICASSP 2019.
M. Yamaguchi, Y. Koizumi, and N. Harada, “AdaFlow: Domain-Adaptive Density Estimator with Application to Anomaly Detection and Unpaired Cross-
Domain Transition,” in Proc. of ICASSP 2019.
Y. Kawachi, Y. Koizumi, S. Murata, and N. Harada, “A Two-Class Hyper-Spherical Autoencoder for Supervised Anomaly Detection,” in Proc. of ICASSP 2019.
我々の異常音検知関連の発表3件の概要も触れています
43. Copyright?2019 NTT corp. All Rights Reserved. 43
皆様のご参入お待ちしております!
音
源
分
離
音響イベント
識別
車の
走行音
符号化
音の収録 音声以外の分析
復号
局
所
再
生
音の再生
音の符号化
AASP: Audio and Acoustic Signal Processing
最近レッドオーシャン気味になってきましたが、
まだ、音声以外の分析は研究できる分野!