狠狠撸

Copyright (C) 2018 DeNA Co.,Ltd. All Rights Reserved.
ICASSP2018発表参加
報告
紹介論文: FFTNet、Tacotron2
橘健太郎
1

ICASSP2018 概要
● International Conference on Acoustic, Speech and Signal Processing (ICASSP)
○ 音声信号処理のトップカンファレンス
○ 分野は、音声や音楽の認識?生成?分離、音声対話、音声?動画像符号化など
● 会場：カナダ　カルガリー
○ 当初ソウルであったが、北の政治不安の影響で、
急遽変更。
● 計数
○ 発表件数: 1406件 (採択率: 49.7%)
○ 最大8パラレルセッション、5日間開催
○ 音声合成?声質変換が中心の文献：26件
■ 8/26件がWaveNet関連、
他のセッションでも2件の発表
2

アジェンダ
● 導入
○ 音声合成概要
○ WaveNet概要
● WaveNet関連論文紹介 (10件分をざっと)
● 紹介論文 2件
1. FFTNET: A REAL-TIME SPEAKER-DEPENDENT NEURAL VOCODER
2. NATURAL TTS SYNTHESIS BY CONDITIONING WAVENET
ON MEL SPECTROGRAM PREDICTIONS (Tacotron2)
3

導入：音声合成システム概要
4
/f2forest/nips2017-speech-audio-86474213

● 離散記号系列の確率分布を自己回帰モデルで、非常に高精度に表現
○ 入力xは過去のサンプルと補助特徴量に依存
● 特徴
○ 階層的なdilated convolutionで、時系列データを効率的に表現
○ 活性化関数(sigmaとtanh)で、recurrent的に時系列データを考慮
○ 音声波形を直接、cross-entropy基準で予測
導入：WaveNet [van den Oord+; ’16] 概要
5
補助特徴量（音響特徴量、言語特徴量）
図は[Rethage+; ‘18]参照

WaveNet関連研究（ICASSP2018分）
6
性能分析 ON THE ANALYSIS OF TRAINING DATA FOR WAVENET-BASED SPEECH
SYNTHESIS
学習データコーパス量と音質、コーパスの汚さと音質、との関係性を評価
A COMPARISON OF RECENT WAVEFORM GENERATION AND ACOUSTIC MODELING
METHODS FOR NEURAL-NETWORK-BASED SPEECH SYNTHESIS
近年のNNベースの音声合成手法(WaveNet含む)を比較
ON THE USE OF WAVENET AS A STATISTICAL VOCODER 異なる特徴量?学習データコーパス量でWaveNet vocoderの品質を評価
品質?
計算コスト
改善
AN INVESTIGATION OF SUBBAND WAVENET VOCODER COVERING ENTIRE
AUDIBLE FREQUENCY RANGE WITH LIMITED ACOUSTIC FEATURES
複数の帯域信号に分割し、それぞれをWaveNetによって予測。並列化可
能
AN INVESTIGATION OF NOISE SHAPING WITH PERCEPTUAL WEIGHTING FOR
WAVENET-BASED SPEECH GENERATION
橘発表分
WaveNetで発生したノイズを、人間の聴覚特性を利用し、聞こえない様に
することで、品質改善
FFTNET: A REAL-TIME SPEAKER-DEPENDENT NEURAL VOCODER 紹介論文 WaveNetの構造にFFTのanalogyを導入することで、大幅な高速化に成
功
応用 NATURAL TTS SYNTHESIS BY CONDITIONING WAVENET ON MEL
SPECTROGRAM PREDICTIONS 紹介論文
End-to-end 音声合成にWaveNetを導入。肉声とほぼ同等の水準を達成。
STATISTICAL VOICE CONVERSION BASED ON WAVENET 音声to音声、ダイレクトな声質変換をWaveNetでモデル化
WAVENET BASED LOW RATE SPEECH CODING 符号化した情報からWaveNetで音声復元
A WAVENET FOR SPEECH DENOISING WaveNet構造を使って、入力音声のノイズ低減を行う

FFTNET: A REAL-TIME SPEAKER-DEPENDENT NEURAL VOCODER
7

● 貢献
○ FFTのanalogyをWaveNetのアーキテクチャに導入することで、
70倍の高速化に成功し、リアルタイム実行が可能に！
○ WaveNet自体の音質改善にも、取り組む
○ FFTNetで、オリジナルWaveNetを上回る性能を達成！
● アルゴリズム
8
● Dilated convolutionはreverse binary tree構
造と捉えられる
● この構造はwevelet分析に類似している
→ DFTの高速化アルゴリズムColey Turkey
型FFTのanalogyを適用できるのではない
か？
Dilated convolution
自分が聴講した中では、一番盛況だった

補足：Cooley-Turkey型FFTアルゴリズム
● DFT
● 奇数成分、偶数成分に分解
分解数を増やしていき、演算回数を減らす
　　→ N2
がN*(log2
N)回になる
9
N2
回の演算が必要
2*(N2
/4)回の演算に減少

● 処理概要と計算コスト
10
● FFTアルゴリズムのように、入力を前後2分割
して、それぞれにcon1dを適用後、要素ごとに
加算、さらにconv1d
● 1layer分における1x1 conv1d適用回数
○ FFTNet: ∑^(log2
N)_(i=1) (3/2)*2i
○ WaveNet: ∑^log2
N_(i=1) (2*2+1*2)*i
■ Dilated conv.はkernel=2 conv1dと
して、2回分と換算
● N=1024の場合 i.e. i=10
○ FFTNet : (3/2)*1024 = 1536
○ WaveNet: 6*10 = 60
● 層を重ねていくと、FFTNetの方が計算量が増
加
layer1
layer2

FFTNetのネットーワク構造
● WaveNetと比べ、ネットワークを単純化
11
Input
Output
???
Sum
Conv1d
Conv1d
ReLU
ReLU
Div
Softmax
FC
Output
Input
Sum
Conv1d
???
???
sigmoidtanh
Conv
1d
Conv1d
ReLU
Conv1d
ReLU
Concat
Softmax
WaveNet
FFTNet
Conv
1d

WaveNetへの改善策
● Zero-padding
○ Silence区間だと、ノイズやゼロ系列を出力する傾向があった
■ 補助特徴量より、過去の系列が強く働いていることが要因
　　 → 入力に時刻0より前に、N個のzeroをpadding
● Conditional sampling
○ 有声区間：WaveNetで推定された確率分布に
係数(>1)を掛けて、よりピーキーにする
12

WaveNetへの改善策
● Injected noise
○ Clicking artifactが発生する場合がある
■ 個人的な知見だが、ゼロに近い系列が続く、無音区間で発生しやすい
■ 学習時の入力にガウスノイズを付与して、artifactに対し頑健にする
● Post-synthesis denoising
○ 上でノイズを付与したので、生成音声がノイジーなってしまう
○ スペクトル減算を適用
やや行き当たりばったりな印象を受ける
13

2,048 samples
● 実験条件
○ 学習データ: 英語1032文 CMU Arctic
○ 評価：WaveNetとFFT Netのvocoder性能を比較　
■ 補助特徴量はground truth
● ネットワーク構造
○ WaveNet
???
実験的評価
14
Dilation10Dilation10
??????
?1x1 conv1dの適用回数
dilation10はN=1024で、
∑^log2
N_(i=1) 6*i = 330
これが2 block stackされて
いるため、3302
= 108,900
FFTNet
block=11
● FFTNet
?1x1 conv1dの適用回数
i=11となり、∑^(log2
N)_(i=1) (3/2)*2i
= 6,141
計算量を削減できている
2,048 samples

実験的評価
● 実験結果
○ 従来のvocoder(mlsa)よりも、客観
評価は悪化するが、主観評価は上回る
○ mlsaは音響パラメータの誤差を最小化
する様に学習するため、歪みは小さい
● サンプル音声
○ http://gfx.cs.princeton.edu/pubs/Jin_2018_FAR/clips/clips.php
15
客観評価
主観評価
手法
MCD、RMSE: 小さい程、良い

NATURAL TTS SYNTHESIS BY CONDITIONING WAVENET
ON MEL SPECTROGRAM PREDICTIONS (Tacotron2)
16

NATURAL TTS SYNTHESIS BY CONDITIONING WAVENET ON MEL
SPECTROGRAM PREDICTIONS (Tacotron2)
● 貢献
○ 筆者らが提案した end-to-end 音声合成システム(Tacotron)を改善
○ VocoderにWaveNetを用いることで、肉声と遜色ない音質を達成
○ 品質に寄与した要因を分析
● アルゴリズム
○ Step1: テキスト→音響特徴量
seq2seqベース
○ Step2: 音響特徴量→音声波形
WaveNet vocoder
○ Step1と2は繋がっておらず、
別々に学習。生成時はStep1で
推論した結果を、Step2の入力
として、音声波形を生成
17
Step1
Step2

● Tacotronとの差分
○ Encoder-decoderモデルの変更
■ Seq2seq w/ attention [Bahdanau, 2014]
→ Location-sensitive attention [Chorowski, 2015]
● 累積的に時系列を考慮してattention重みを
学習
○ Network architectureの変更
■ Tacotron:
Input text → One hot → Convolution bank → Max pooling → Conv1d →
highway network (3 Conv) → GRU
■ Tacotron2:
Input text → One hot → 3 Conv1d → BLSTM
18
Step1: テキストを音響特徴量に変換 (Encoder)
Encoder
※ 複数のCNNからなるfilter bank (実験では16個)
※

Step1: テキストを音響特徴量に変換 (Decoder)
● Tacotronとの差分
○ 音響特徴量を変更
Spectrogram → Mel spectrogram
■ Mel spectrogram：人間の聴覚特徴を
考慮したスケールに変換したspectrogram
○ Network architectureの変更
■ Tacotron:
→ Pre-Net (FC) → Attention RNN → Decoder RNN → Conv. bank →
Conv1d → highway network → GRU
■ Tacotron2:
→ Pre-Net (FC) → BLSTM → FC → Post-Net (5 Conv) →
19
Decoder

Step2: 音響特徴量を音声波形に変換
● WaveNet vocoderを利用
○ 30層からなる dilated convolution
20
Step2
Dilation10Dilation10Dilation10
256 ms
???
???
???

Step2: 音響特徴量を音声波形に変換
● 混合離散化ロジスティック分布を導入
○ 16bit 24 kHzでの合成が可能に。
21
cf.) /NU_I_TODALAB/wavenet-86493372

評価実験
● 学習データ
○ 英語女性 24.6 hours
● 評価方法
○ Amazon’s Mechanical Turkで
試聴評価 (1-5を0.5刻みの9段階評価)
● 評価結果
○ Ground truthとほぼ変わらない性能
● サンプル音声
○ https://google.github.io/tacotron/publications/tacotron2/
22

要因分析
● 予測音響特徴量 vs. Ground Truth
○ Tacotron2で予測性能を評価
○ 入力と出力が異なると性能が劣化
● システム比較
○ Tacotronの合成方式(Linear-G-L)とTacotron2(Mel-WaveNet)を組み合わせて
評価
23

まとめ
● 数年前に出て来たend-to-endシステムが進化
○ 品質ではground truthと遜色ない
● WaveNetの関連研究が増加
○ 計算量についてもリアルタイム可能な手法も出てきた
○ TTSだけでなく、他の音声分野にも波及
24

参考文献
[van den Oord+; ’16] Van Den Oord, Aaron, et al. "Wavenet: A generative model for
raw audio." arXiv preprint arXiv:1609.03499 (2016).
[Rethage+; ‘18] Dario Rethage, et al. “A WAVENET FOR SPEECH DENOISING” in Proc
ICASSP (2018).
25

狠狠撸

Icassp2018 発表参加報告 FFTNet, Tactron2紹介

Recommended

More Related Content

What's hot (20)

Similar to Icassp2018 発表参加報告 FFTNet, Tactron2紹介 (7)

Icassp2018 発表参加報告 FFTNet, Tactron2紹介