2017年春季研究発表会の発表資料です.
邦題: 形态素解析も辞书も言语モデルもいらない别苍诲-迟辞-别苍诲音声认识
英題: End-to-end Japanese ASR without using morphological analyzer, pronunciation dictionary and language model
ICASSP 2019音声&音響論文読み会(https://connpass.com/event/128527/)での発表資料です。
AASP (Audio and Acoustic Signal Processing) 分野の紹介と、ICASSP 2019での動向を紹介しています。#icassp2019jp
ICASSP 2019音声&音響論文読み会(https://connpass.com/event/128527/)での発表資料です。
AASP (Audio and Acoustic Signal Processing) 分野の紹介と、ICASSP 2019での動向を紹介しています。#icassp2019jp
6. WaveNet関連研究(ICASSP2018分)
6
性能分析 ON THE ANALYSIS OF TRAINING DATA FOR WAVENET-BASED SPEECH
SYNTHESIS
学習データコーパス量と音質、コーパスの汚さと音質、との関係性を評価
A COMPARISON OF RECENT WAVEFORM GENERATION AND ACOUSTIC MODELING
METHODS FOR NEURAL-NETWORK-BASED SPEECH SYNTHESIS
近年のNNベースの音声合成手法(WaveNet含む)を比較
ON THE USE OF WAVENET AS A STATISTICAL VOCODER 異なる特徴量?学習データコーパス量でWaveNet vocoderの品質を評価
品質?
計算コスト
改善
AN INVESTIGATION OF SUBBAND WAVENET VOCODER COVERING ENTIRE
AUDIBLE FREQUENCY RANGE WITH LIMITED ACOUSTIC FEATURES
複数の帯域信号に分割し、それぞれをWaveNetによって予測。並列化可
能
AN INVESTIGATION OF NOISE SHAPING WITH PERCEPTUAL WEIGHTING FOR
WAVENET-BASED SPEECH GENERATION
橘発表分
WaveNetで発生したノイズを、人間の聴覚特性を利用し、聞こえない様に
することで、品質改善
FFTNET: A REAL-TIME SPEAKER-DEPENDENT NEURAL VOCODER 紹介論文 WaveNetの構造にFFTのanalogyを導入することで、大幅な高速化に成
功
応用 NATURAL TTS SYNTHESIS BY CONDITIONING WAVENET ON MEL
SPECTROGRAM PREDICTIONS 紹介論文
End-to-end 音声合成にWaveNetを導入。肉声とほぼ同等の水準を達成。
STATISTICAL VOICE CONVERSION BASED ON WAVENET 音声to音声、ダイレクトな声質変換をWaveNetでモデル化
WAVENET BASED LOW RATE SPEECH CODING 符号化した情報からWaveNetで音声復元
A WAVENET FOR SPEECH DENOISING WaveNet構造を使って、入力音声のノイズ低減を行う
25. 参考文献
[van den Oord+; ’16] Van Den Oord, Aaron, et al. "Wavenet: A generative model for
raw audio." arXiv preprint arXiv:1609.03499 (2016).
[Rethage+; ‘18] Dario Rethage, et al. “A WAVENET FOR SPEECH DENOISING” in Proc
ICASSP (2018).
25