狠狠撸

Copyright (C) 2019 DeNA Co.,Ltd. All Rights Reserved.Copyright (C) 2019 DeNA Co.,Ltd. All Rights Reserved.
Nov. 24, 2019
Kentaro Tachibana
AI System Dept.
DeNA Co., Ltd.
Parrotron: An End-to-End Speech-to-Speech Conversion Model and its
Applications to Hearing-Impaired Speech and Speech Separation

Copyright (C) 2019 DeNA Co.,Ltd. All Rights Reserved.
自己紹介
? 名前：橘健太郎
? 略歴：
● 2008?17年東芝研究開発センター
● 音声合成の技術開発を担当
● 2014?17年9月情報通信研究機構出向
● 音声翻訳アプリVoiceTraの音声合成を担当
● 2017年10月? DeNA入社
● 音声変換、音声合成の技術開発を担当
/KentaroTachibana1狠狠撸Share

取り上げる論文
? Parrotron: An End-to-End Speech-to-Speech Conversion Model and its
Applications to Hearing-Impaired Speech and Speech Separation
? この論文の貢献を一言でいうなら
1. 音声から音声への波形直接変換
2. Many-to-one音声変換を高品質なレベルで実現
3. 従来の音声変換以外にも、他の用途に適用し、フレームワークの有用性を証
明

Parrotronの取り組んだタスク
1. Many-to-one 音声変換（Voice normalization）
? あらゆる話者が、どんな環境で話しても、目標話者の話速?アクセント?声
質となるように変換
2. 聴覚障がい者（hearing-impaired）の音声変換
? 目標話者音声に変換することで、音声明瞭化?自然性向上
3. ノイズ除去?音源分離
? 背景ノイズの除去、対象話者の音声だけの抽出
Parrotonは多様な用途に適用可能！

音声変換のその仕組み
? 音声変換とは？
? 発話内容を変えず、任意の話者?スタイルに変換するシステム
? 音声変換の仕組み
音声分析音声再構成
声質
（スペクトル包絡）
声の高さ
（F0）
かすれ具合
（非周期性指標）
音響パラメータ変換処理
変換先話者
パラメータごとに目標
話者を変更可能
元話者変換先話者

従来の音声変換の技術課題とその対応

技術背景：従来の音声変換の技術課題（1/3）
1. 音響パラメータの変換
音声分析音声再構成
声質
（スペクトル包絡）
声の高さ
（F0）
かすれ具合
（非周期性指標）
音響パラメータ変換処理
おはよう
行ってきます
暑いですね
.
.
.
おはよう
行ってきます
暑いですね
.
.
.
変換モデル
1. 変換モデルが必要 2. 音声ペアから変換モデルを学習
変換モデル
課題：
1. 変換モデルはスペクトル包絡に限定
2. 韻律部分に含まれる話者性は無保証
3. かすれ具合は元話者のまま

2. Alignment問題
? 音声ペアから変換モデルを学習する際に元?目標話者間でalignmentを取る
おはよう
長さが異なる
音
声
分
析
各時刻の特徴量を
動的時間伸縮法で対応づけ
モ
デ
ル
学
習
変換モデル
課題：Alignment精度が変換モデルの精度に影響
音響特徴量系列
???
???

3. Many-to-oneへの対応
? 今回はone-to-one同様、元話者と変換先話者とで音声ペアを用いることを想定
? 話者多様性をカバーするために、非常に多数の元話者が必要
おはよう
行ってきます
暑いですね
.
.
.
おはよう
行ってきます
暑いですね
.
.
.
変換モデル
One-to-oneの場合
Many-to-oneへ拡張
Many-to-oneの場合
???
変換モデル
課題：多数話者で音声ペアを集めることは非常にコストがかかる

技術背景：従来の音声変換の技術課題のまとめ
1. 音響パラメータの変換が限定的
2. 音声ペアのalignment精度が変換品質に影響を与える
3. Many-to-oneへの対応が非常に高コスト

技術背景：音響パラメータ問題の対応
? 近年、WaveNetをはじめとしたneural vocoderの登場
? Mel spectrogramから直接波形生成することが可能に！
? Mel spectrogramを直接変換する手法が登場 [Zhang+, 18]、[提案法]
変換処理
Mcep
F0
Bap
Mel spectrogram
で表現
Neural
vocoder

技術背景：Alignment問題の対応
? Alignment問題
? Sequence-to-sequenceアルゴリズムが提案され、系列同士の学習が可能に！
Seq-to-seqの導入に
よりalignmentを学習
Alignment error
Attention
アルゴリズム
音素アライメント
[Haque+, 18] Additive attention
[Tanaka+, 18] Additive attention
[Zhang+, 18] SCENT 入力に条件付け
提案法 Additive/location
sensitive attention
Multitask学習とし
て利用

技術背景：Many-to-oneへの対応
? 大規模書き起こし音声コーパスにTTSを適用 [提案法]
? 変換先話者をParallel WaveNetで生成
? 大規模音声コーパス：30,000時間 24百万発話 voice search
? 変換先話者にTTSを用いる利点
1. 変換先話者を事前に決めることができる?一定のアクセントになる
2. 背景ノイズや歪みを生じない
3. 大量の音声ペアを作成可能

技術背景: Parrotronの技術的位置付け
? 他手法との比較
Attention
アルゴリズム
音素アライメントタスク入力/出力特徴量音声生成方式
[Haque+, 18] Additive attention Many-to-one Mel spectrogram Griffin-Lim方式
[Tanaka+, 18] Additive attention One-to-one WORLD特徴量 WORLD vocoder
[Zhang+, 18] SCENT 入力に条件付け One-to-one Mel spectrogram WaveNet vocoder
提案法 Additive/local
sensitive attention
Multi-task学習とし
て利用
Many-to-one Mel spectrogram WaveNet vocoder

アルゴリズム（1/4）
? 全体のモデル構造
Source
Target
波形to波形の
直接変換
波形to波形の
直接変換
ASRをmultitask
学習で利用
Neural
vocoder

? Spectrogram encoder
? Network構造
? CLSTM、biLSTMのlayerは実験的評価にて調整
CNN
BN
ReLU
CLSTM
BN
ReLU
BiLSTM
BN
ReLU
FC
Attention
downsample
d80
k3x3
s2x2 d512k1x3 d256

? Spectrogram decoder
? Network構造
? Tacotron2のdecoderと同一構造
? Attention
? Additive attention [Bahdanau+, 15] : Tacotron
? Location sensitive attention [Chorowski+, 15] : Tacotron2
Linear
projection
2 layer
Pre-Net
Linear
projection
2 LSTM
layers
Attention
5 Conv Layer
Post-Net
Neural
vocoder
Stop token

? ASR decoder
? Attention layerの出力と1時刻前の音素予測結果を結合
? 音素予測をmultitaskとして学習
? Encoderがgrapheme or phonemeを保持するように
するのが狙い
Attention
LSTM
layer
d64 phonemes
softmax
このattention構造につ
いては詳細は記述なし
ConcatenationConcatenation

実験的評価1: Many-to-one 音声変換
? 実験条件
? データセット
? 元話者：30,000時間 24百万発話の書き起こし voice searchコーパス
? 変換先話者音声の生成
? 書き起こし文からParallel WaveNet-based TTSで合成音声を生成
? 評価実験
1. Parrotronの合成音声自体の性能評価
2. Many-to-one音声変換を主観評価

実験的評価1: Parrotronの性能評価（1/2）
? 客観評価
? Parrotronが生成した音声の明瞭性を確認するため、ASRのWERを測定
? 評価で用いた音声のWER：8.3 % （upper bound）
? 正解のtranscriptを用いた合成音のWER：7.4 %
ASRのmultitask学習
により改善
Grapheme→phoneme
により改善
以後、このモデルを用いる

実験的評価1: Parrotronの性能評価（2/2）
? 主観?客観評価
? Challengingな音声で評価
? Challenging： heavily accented speech plus background noise
? WERと自然性をMOS5段階評価
Real音声に匹敵する品質を達成！

実験的評価1: Many-to-one 音声変換
? 実験条件
? 被験者：Native speaker 8名
? 評価データ数：ランダムに抽出した20文
? 評価結果
高品質なスコアを達成
※ リアル音声を含め
た比較ではない
Demo: https://google.github.io/tacotron/ publications/parrotron

実験的評価2：聴覚障がい者（hearing-impaired）の音声変換
? 目的
? 聴覚障害者の音声を流暢にできるかを調査
? 実験条件
? データセット：英語non-native speakerロシア人男性1名 15.4時間
? 英語をロシア語音素に変換してデータ作成（e.g. cat → k a T）
? Finetuning用学習:90%、dev:5%、test:5%
原因調査中（原著）
Finetuningにより大幅に
改善

実験的評価3：ノイズ除去?音源分離
? 問題設定
? 音源分離（原信号＋背景ノイズ）タスク
? 背景ノイズの作成
? 1?7名の話者（voice searchコーパス）を混合し、作成
? 評価結果
Deletions (del) : 予測結果が発話より早めに切れてしまう
Insertion (ins) : 背景ノイズ話者を認識してしまう
subject (sub) ：目標話者の音声
Insertionで大幅な改善

まとめ
? End-to-end音声変換 Parrotronを提案
? 直接、波形-to-波形の変換が可能に！
? 高品質なmany-to-one 音声変換を実現
? ASR multitask学習が有効
? 音声変換以外で、Parrotronフレームの有効性を証明
? 障害者音声の明瞭化?ノイズ除去

参考文献
[Haque+, 18] A. Haque, M. Guo, and P. Verma, “Conditional end-to-end audio transforms,” Proc. Interspeech, 2018.
[Zhang+, 19] J. Zhang, Z. Ling, L.-J. Liu, Y. Jiang, and L.-R. Dai, “Sequence-to- sequence acoustic modeling for voice
conversion,” IEEE Transac- tions on Audio, Speech, and Language Processing, 2019.
[Tanaka+, 18] K. Tanaka, H. Kameoka, T. Kaneko, and N. Hojo, “AttS2S-VC: Sequence-to-sequence voice conversion with
attention and context preservation mechanisms,” arXiv:1811.04076, 2018.
[Bahdanau+, 15] D. Bahdanau, K. Cho, and Y. Bengio, “Neural machine translation by jointly learning to align and translate,”
Proc. ICLR, 2015.
[Chorowski+, 15] J. K. Chorowski, D. Bahdanau, D. Serdyuk, K. Cho, and Y. Bengio,
“Attention-based models for speech recognition,” in Advances in Neural Information Processing Systems, 2015, pp. 577–585.

狠狠撸

Interspeech2019読み会音声生成

More Related Content

Interspeech2019読み会音声生成

狠狠撸

Interspeech2019読み会 音声生成

More Related Content

Interspeech2019読み会 音声生成

Interspeech2019読み会音声生成

Interspeech2019読み会音声生成