狠狠撸

狠狠撸Share a Scribd company logo
日本語テキスト音声合成のための
句境界予測モデルの検討
2020/03/16
LINE株式会社
二又 航介, 朴炳宣, 山本龍一, 橘健太郎
D2-3
背景: 句境界予測 (Phrase Break Prediction)
句境界予測はテキスト音声合成 (TTS) システムを構成する
上で音声の自然性に寄与する重要な要因の一つ[1]
? 句境界は連続する句の間に挿入される音声的なポーズとして
定義され、息継ぎやアクセントの変化により発生
? テキスト上に現れる読点の場所以外にも句境界が挿入される
ためルールベースの手法では対応が困難[2]
句境界なし 句境界あり
知らぬ間に自分名義で契約され、
届いたスマホを開封せず詐欺グループに転送
させられる消費者被害が、全国の国民生活
センターに寄せられている
2
知らぬ間に/自分名義で契約され、/
届いたスマホを開封せず/詐欺グループに転
送させられる/消費者被害が、/全国の国民生
活センターに寄せられている
句境界の有無による合成音声の自然性
[1] T. Fujimoto, K. Hashimoto, K. Oura, Y. Nankaku, and K. Tokuda. Impacts of input linguistic feature representation on Japanese end-to-end speech synthesis. In Proc. 10th
ISCA Speech Synthesis Workshop, pp. 166–171, 2019.
[2] P. Taylor and A. W. Black. Assigning phrase breaks frompart-of-speech sequences.Computer Speech & Language,Vol. 12, No. 2, pp. 99 – 117, 1998.
背景: 句境界予測 (Phrase Break Prediction)
日本語句境界予測において深層学習による系列予測モデル
や大規模言語モデルの有用性が検証されておらず
? 日本語句境界予測ではCRFやランダムフォレストなど
従来の統計モデルによる手法が検証[3]
? 英語句境界予測ではRNNやLSTMなど系列モデルによる手法が
検証されているものの大規模言語モデルの効果は未検証[4]
? 品詞タグや構文情報など様々な言語特徴量によって精度改善
? CRFレイヤーや大規模言語モデルの効果は未検証
3
[3] N. Miyazaki H. Mizuno H. Muto, Y. Ijima and S. Sakauchi. Analysis and evaluation of factors relating pause location for natural text-to-speech synthesis. In Transactions of
Information Processing Society of Japan, pp. 993–1002, 2015.
[4] V. Klimkov, A. Nadolski, A. Moinet, B. Putrycz, R. BarraChicote, T. Merritt, and T. Drugman. Phrase break prediction for long-form reading tts: Exploiting text structure
information. In Proc. Interspeech 2017, pp. 1064–1068, 2017.
目的: 深層学習による日本語句境界予測モデルの検討
TTSにより生成される音声の自然性を向上させるため
様々な言語特徴量およびモデル構造の効果を検証
? 品詞タグや構文構造などの言語特徴量
BiLSTMやBERTなどのモデル構造を検証
? 各系列の後に句境界を挿入するか否かラベル付けする
系列ラベリングのタスクとして定式化
? 非句境界 (<NB>) または句境界 (<BR>)としてラベル付け
4
系列ラベリング問題としての句境界予測
知ら ぬ 間 に 自分 名義 で 契約 され 、 届い た スマホ ...
PBP classifier
<NB> <NB> <NB> <BR> <NB> <NB> <NB> <NB> <NB> <BR> <NB> <NB> <NB> …
データセット: 句境界コーパス
```
句境界予測に用いるコーパスとしてCSJ, 独自データを使用
? CSJは複数話者による少数の発話から構成
? 独自コーパスは単一話者による大量の発話から構成
? それぞれ200ミリ秒以上の無音区間を句境界として認定
5
Train Val Test
発話数 157,976 1799 1729
話者数 2463 31 31
平均トークン数 38.86 36.06 34.10
平均句境界数 3.54 3.46 3.22
CSJおよび独自コーパスの統計情報
CSJ(複数話者) 独自コーパス(単一話者)
Train Val Test
発話数 99,807 500 500
話者数 1 - -
平均トークン数 13.34 13.14 13.02
平均句境界数 1.59 1.58 1.53
実験内容
```
TTSの音声に関する自然性を向上させるため様々な
モデル構造および言語特徴量の効果を検証
? 実験 1: 明示的言語特徴量に関する効果検証
? 客観評価実験
? e.g. 品詞タグ、構文構造、word2vec...
? 実験 2: モデル構造比較
? 客観評価実験
? e.g. BiLSTM, CRF, BERT…
? 実験 3: Focal-lossおよびFine-tuningの適用
? 客観評価実験
? データ分布不均衡問題を解決するためのFocal-loss
? 多数話者による学習済みモデル(CSJ)の独自データによるFine-tuning
? 実験 4: MOS評価およびABXテスト
? 客観評価実験
? 句境界予測モデルを適用したTTSにより音声の自然性を評価
6
実験設定: 評価指標
```
句境界の分布は話者毎に大きく異なるため
F-β (β ∈ {1.0, 0.25})スコアを用いて予測性能を評価
? 多数の話者に適用可能な汎用的な句境界予測モデルを作成
? 誤った箇所に句境界を挿入するより何も挿入しない方が
音声自然性が向上することが知られる[5]
? 複数話者から構成されるCSJでは余分な句境界が
挿入されないようF-0.25スコアによりprecision重視で評価
? 単一話者から構成される独自コーパスではF-1スコアで評価
7
F-βスコアによる句境界予測性能の評価
[5] V. Klimkov, A. Nadolski, A. Moinet, B. Putrycz, R. BarraChicote, T. Merritt, and T. Drugman, “Phrase break prediction for long-form reading tts: exploiting text structure
information,” in Proceedings of Interspeech 2017, 2017, pp. 1064–1068.
実験 1: 明示的な言語特徴量の比較検討
```
日本語句境界予測において様々な特徴量の効果を検証
? 英語句境界予測における深層学習による従来手法を
日本語句境界予測へ適用 (2 layers BiLSTM, 512次元)
? 言語特徴量の取得にはSudachi[6]およびGinza[7]を利用
8
特徴量 次元数 詳細
Token 512 単語分割した入力文のみを使用
+ UD 16 universal dependency タグを追加
+ POS 48 品詞タグ(細分類含む)を追加
+ DEP 64 現トークンおよび親トークンの構文タグおよび相対位置を追加
+ CHAR 64 文字単位の埋め込み層を追加
+ W2V 512 Wikipediaによる事前学習済み単語埋め込み層を追加
ALL(UD) - UD以外の特徴量を全て使用
ALL(POS) - POS以外の言語特徴量を全て使用
実験に使用した言語特徴量
[6] K. Takaoka, S. Hisamoto, N. Kawahara, M. Sakamoto, Y. Uchida, and Y. Matsumoto. 2018. Sudachi: a Japanese tokenizer for business. In Proceedings of the Eleventh
International Conference on Language Resources and Evaluation (LREC 2018), Miyazaki, Japan. European Language Resources Association (ELRA).
[7] 松田寛, 大村舞, 浅原正幸. 短単位品詞の用法曖昧性解決と依存関係ラベリングの同時学習, 言語処理学会 第 25 回年次大会 発表論文集, 2019.
実験 1: CSJおよび独自コーパスによる実験結果
```
言語特徴量の追加に応じてF-0.25, F-1スコアが上昇
? CSJではUD, POS, W2Vなどの単一特徴量においても効果的
? 独自コーパスでは単一特徴量の追加による効果なし
? POS含めた全ての特徴量を用いることで予測性能が大きく上昇
9
CSJ(複数話者) 独自コーパス(単一話者)
Precision Recall F-1 Precision Recall
Token 58.5 63.9 24.8 88.9 93.0 85.1
+ UD 61.6 65.8 30.4 89.0 90.8 87.2
+ POS 61.6 65.8 30.5 88.6 90.5 86.8
+ DEP 59.3 64.0 27.1 88.7 91.4 86.0
+ CHAR 60.1 65.0 27.1 89.4 92.1 86.8
+ W2V 60.9 66.9 24.9 87.6 91.4 84.1
ALL(UD) 62.9 67.5 30.3 89.3 91.4 87.4
ALL(POS) 63.5 68.1 30.7 90.5 91.6 89.0
CSJおよび独自コーパスによる実験結果
実験 2: モデル構造の比較実験
```
様々なモデル構造の句境界予測への効果を検証
? 従来手法であるALL(POS)をベースラインモデルとして使用
? 学習済みBERTモデルには’cl-tohoku/bert-base’[8]を使用
? BERTの各層は異なる言語特徴量を暗黙的含むことが知られる[9]
? 最終層のみを利用したBERT lastと全層の加重平均を
利用したBERT mixの二種類で実験
? 以下6つのモデル構造を比較
? BiLSTM
? BiLSTM + CRF
? BERTlast
? BERTlast + CRF
? BERTmix
? BERTmix + CRF
10
[8] https://github.com/cl-tohoku/bert-Japanese.
[9] A. Rogers, O. Kovaleva, and A. Rumshisky. 2020. A primer in bertology: What we know about how bert works. ArXiv, abs/2002.12327.
実験 2: CSJおよび独自コーパスによる実験結果
```
BERTmix ベースのモデルにおいて予測精度が大きく上昇
? CSJおよび独自コーパスの両者においてBiLSTMやBERTlastと
比較して予測性能が大きく上昇
? BERTlastはBiLSTMと性能にほとんど違いなし
? BERTmixを利用することにより構文情報や意味情報など暗黙的に
学習された言語特徴量が有効的に活用
11
CSJ(複数話者) 独自コーパス(単一話者)
Precision Recall F-1 Precision Recall
BiLSTM (Baseline) 63.5 68.1 30.7 90.5 91.9 89.0
BiLSTM + CRF 65.2 70.9 28.7 90.1 91.6 88.5
BERT last 63.9 67.3 35.3 90.8 92.2 89.5
BERT last + CRF 64.2 67.2 37.2 91.7 92.9 90.6
BERT mix 67.4 72.9 30.8 92.0 94.1 90.0
BERT mix + CRF 64.0 68.0 33.1 92.8 94.3 91.4
CSJおよび独自コーパスによる実験結果
実験 3: データ分布の不均衡問題への対処
非句境界と句境界の分布および比率が大きく異なる
? 非句境界の数が句境界の数より圧倒的に多い
? Cross entropy lossでは全サンプルを同等に扱うため非句境界に
対する損失が多く伝搬される傾向
? 分類が難しい句境界(分類確率が0.5に近い例)に対する
予測が非句境界として予測結果が引っ張られる傾向
? Focal-lossを適用することで上記問題を解決
12
非句境界数 句境界数 比率
CSJ 5,072,106 571,458 8.875
独自コーパス 1,185,077 161,072 7.357
非句境界と句境界の数および比率
```
13
Focal-lossの効果および対応する式
データ分布の不均衡問題を解決するためFocal-loss[10]を適用
? Focal-loss (FL) により出力確率の高いサンプルに対する損失が低減
? Balanced cross entropy(BCE)と同様に重みパラメータα
の導入によりデータ不均衡問題を解決(Balanced focal-loss(BFL))
? 実験にはBERTmixモデルを使用
正解ラベルに対する出力確率および損失
Balanced focal-loss(BFL)
Balanced cross entropy(BCE)
実験 3: BERTへのFocal-lossの適用およびCSJによるFine-tuning
[10] T.-Y. Lin, P. Goyal, R. B. Girshick, K. He, and P. Dollár. Focal loss for dense object detection. CoRR, Vol. abs/1708.02002, 2017.
実験 3: CSJおよび独自コーパスによる実験結果
```
Balanced focal-loss (BFL)の導入およびFine-tuning(FT)
により句境界予測の性能が大きく上昇
? BFLのパラメータにはγ=2.0, α=0.4を設定
? BFLによって出力確率の高い非句境界に対するlossが
低減しPrecisionが大きく上昇
? ベースラインと比較してCSJでは5.4ポイント
独自コーパスでは3.5ポイントの性能上昇
14
CSJ(複数話者) 独自コーパス(単一話者)
Precision Recall F-1 Precision Recall
BiLSTM (Baseline) 63.5 68.1 30.7 90.5 91.9 89.0
BERT mix 67.4 72.9 30.8 92.0 72.9 90.0
BERT mix + BFL(γ=2.0, α=0.4) 68.9 78.3 23.5 93.7 75.9 92.5
BERT mix + BFL + FT(γ=2.0, α=0.4) - - - 94.0 94.7 93.7
CSJおよび独自コーパスによる実験結果
```
15
モデル 詳細
Reference テストデータを音声合成した発話
Rule-based 読点の後にのみ句境界を挿入した発話
BiLSTM(Token) トークンのみ使用
BiLSTM(All) POS含む全ての特徴量を使用
BERT mix 全層の加重平均を使用したBERT
BERT mix + BFL + FT BERTmix にBFLとFTを適用
MOS評価およびABXテストの評価対象
ABテスト
Target A Target B
Rule-based BiLSTM (Token)
BiLSTM (Token) BiLSTM (All)
BiLSTM(All) BERT mix
BERT mix BERT mix + BFL + FT
BERT mix + BFL + FT reference
句境界予測モデルを導入したTTSモデルを音声の自然性
に関してMOS評価およびABテストにより評価
? 独自コーパスにより訓練された句境界モデルを対象に評価
? TTSモデルにはFastSpeech2[11] + Parallel WaveGAN[12]を使用
? 25人の被験者が各モデルに対して30発話評価
実験 4: 主観評価実験
[11] Y. Ren, C. Hu, T. Qin, S. Zhao, Z. Zhao, and T.-Y. Liu. FastSpeech 2: Fast and high- quality end-to-end text-to-speech. In Proc. ICLR (in press), 2021.
[12] R. Yamamoto, E. Song, and J.-M. Kim. Parallel WaveGAN: A fast waveform generation model based on generative adversarial net- works with multi-resolution spectrogram.
In Proc. ICASSP, pp. 6199–6203, 2020.
MOS評価の対象モデル ABXテストの対象モデルペア
```
16
モデル 得点
Rule-based 3.72 ± 0.07
BiLSTM(Token) 3.89 ± 0.07
BiLSTM(All) 3.86 ± 0.07
BERT mix 3.91 ± 0.07
BERT mix + BFL + FT 3.95 ± 0.07
Reference 4.06 ± 0.07
MOSテストによる実験結果(95%信頼区間)
提案手法であるBERTmix + BFL + FTにおいてReference
を除く6つのモデルの中で音声の自然性が最も上昇
? 音声の自然性に関して1点から5点で評価
? BERTmixベースのモデルとその他のモデルの間に有意差有り
? BERTmixとBERTmix + BFL + FTの間には有意差無し
実験 4: MOS評価による実験結果
```
17
Target A Target B A B Neutral
Rule-based BiLSTM(Token) 0.173 0.455 0.372
BiLSTM(Token) BiLSTM(All) 0.200 0.211 0.589
BiLSTM(All) BERT mix 0.215 0.221 0.564
BERT mix BERT mix + BFL + FT 0.136 0.112 0.739
BERT mix + BFL + FT reference 0.157 0.260 0.583
ABテストによる実験結果
BERTmix + BFL + FLよりBERTmix を選択する割合高
? 2つの音声のうちどちらの音声がより自然であるか
または同じであるか選択
? BERTmixベースのモデルにおいてその他モデルより自然性上昇
? BERTmixとBERTmix + BFL + FTの間でNeutralを選択する割合高
実験 4: ABテストによる実験結果
実験 4: 主観評価実験に利用したサンプル例1
```
18
Reference
メキシコでは <BR> 麻薬密売組織に殺害された人の <BR> 切断遺体が <BR> 道路
際に置き去りにされることが多い
Rule-based
メキシコでは麻薬密売組織に殺害された人の切断遺体が道路際に置き去りに され
ることが多い
BiLSTM(Token)
メキシコでは <BR> 麻薬密売組織に殺害された人の切断遺体が道路際に <BR> 置
き去りにされることが多い
BiLSTM(All)
メキシコでは <BR> 麻薬密売組織に殺害された人の切断遺体が道路際に置き去りに
されることが多い
BERT mix
メキシコでは <BR> 麻薬密売組織に殺害された <BR> 人の切断遺体が <BR> 道路
際に置き去りにされることが多い
BERT mix + BFL + FT
メキシコでは <BR> 麻薬密売組織に殺害された人の切断遺体が <BR> 道路際に置
き去りにされることが多い
まとめ
```
音声の自然性を向上させるため句境界予測において
様々な言語特徴量およびモデル構造の効果を検証
? BERTベースのモデルを利用することに従来手法より性能上昇
? 句境界予測においてBERTによる暗黙的な言語特徴量が
BiLSTMによる明示的な言語特徴量より効果大
? 最終層のみを利用したBERT lastより全層の加重平均を利用した
BERT mixの方が性能向上に寄与
? 句境界予測モデルの性能向上により音声の自然性も同時に向上
? Focal-lossの導入によりF-βスコアの上昇は確認できたものの
音声の自然性に関しては有意差無
19

More Related Content

What's hot (20)

骋础狈(と强化学习との関係)
骋础狈(と强化学习との関係)骋础狈(と强化学习との関係)
骋础狈(と强化学习との関係)
Masahiro Suzuki
?
ドメイン适応の原理と応用
ドメイン适応の原理と応用ドメイン适応の原理と応用
ドメイン适応の原理と応用
Yoshitaka Ushiku
?
【DL輪読会】"Instant Neural Graphics Primitives with a Multiresolution Hash Encoding"
【DL輪読会】"Instant Neural Graphics Primitives with a Multiresolution Hash Encoding"【DL輪読会】"Instant Neural Graphics Primitives with a Multiresolution Hash Encoding"
【DL輪読会】"Instant Neural Graphics Primitives with a Multiresolution Hash Encoding"
Deep Learning JP
?
【DL輪読会】Learning Physics Constrained Dynamics Using Autoencoders
【DL輪読会】Learning Physics Constrained Dynamics Using Autoencoders【DL輪読会】Learning Physics Constrained Dynamics Using Autoencoders
【DL輪読会】Learning Physics Constrained Dynamics Using Autoencoders
Deep Learning JP
?
【DL輪読会】言語以外でのTransformerのまとめ (ViT, Perceiver, Frozen Pretrained Transformer etc)
【DL輪読会】言語以外でのTransformerのまとめ (ViT, Perceiver, Frozen Pretrained Transformer etc)【DL輪読会】言語以外でのTransformerのまとめ (ViT, Perceiver, Frozen Pretrained Transformer etc)
【DL輪読会】言語以外でのTransformerのまとめ (ViT, Perceiver, Frozen Pretrained Transformer etc)
Deep Learning JP
?
社会心理学者のための时系列分析入门冲小森
社会心理学者のための时系列分析入门冲小森社会心理学者のための时系列分析入门冲小森
社会心理学者のための时系列分析入门冲小森
Masashi Komori
?
これからの Vision & Language ~ Acadexit した4つの理由
これからの Vision & Language ~ Acadexit した4つの理由これからの Vision & Language ~ Acadexit した4つの理由
これからの Vision & Language ~ Acadexit した4つの理由
Yoshitaka Ushiku
?
cvpaper.challenge 研究効率化 Tips
cvpaper.challenge 研究効率化 Tipscvpaper.challenge 研究効率化 Tips
cvpaper.challenge 研究効率化 Tips
cvpaper. challenge
?
第8回Language and Robotics研究会20221010_AkiraTaniguchi
第8回Language and Robotics研究会20221010_AkiraTaniguchi第8回Language and Robotics研究会20221010_AkiraTaniguchi
第8回Language and Robotics研究会20221010_AkiraTaniguchi
Akira Taniguchi
?
优れた问いを见つける(中京大学讲演)
优れた问いを见つける(中京大学讲演)优れた问いを见つける(中京大学讲演)
优れた问いを见つける(中京大学讲演)
cvpaper. challenge
?
動画認識サーベイv1(メタサーベイ )
動画認識サーベイv1(メタサーベイ )動画認識サーベイv1(メタサーベイ )
動画認識サーベイv1(メタサーベイ )
cvpaper. challenge
?
机械学习を用いた异常検知入门
机械学习を用いた异常検知入门机械学习を用いた异常検知入门
机械学习を用いた异常検知入门
michiaki ito
?
ChatGPT 人間のフィードバックから強化学習した対話AI
ChatGPT 人間のフィードバックから強化学習した対話AIChatGPT 人間のフィードバックから強化学習した対話AI
ChatGPT 人間のフィードバックから強化学習した対話AI
Shota Imai
?
勾配ブースティングの基礎と最新の動向 (MIRU2020 Tutorial)
勾配ブースティングの基礎と最新の動向 (MIRU2020 Tutorial)勾配ブースティングの基礎と最新の動向 (MIRU2020 Tutorial)
勾配ブースティングの基礎と最新の動向 (MIRU2020 Tutorial)
RyuichiKanoh
?
Counterfaual Machine Learning(CFML)のサーベイ
Counterfaual Machine Learning(CFML)のサーベイCounterfaual Machine Learning(CFML)のサーベイ
Counterfaual Machine Learning(CFML)のサーベイ
ARISE analytics
?
Domain Adaptation 発展と動向まとめ(サーベイ資料)
Domain Adaptation 発展と動向まとめ(サーベイ資料)Domain Adaptation 発展と動向まとめ(サーベイ資料)
Domain Adaptation 発展と動向まとめ(サーベイ資料)
Yamato OKAMOTO
?
[DL輪読会]Ensemble Distribution Distillation
[DL輪読会]Ensemble Distribution Distillation[DL輪読会]Ensemble Distribution Distillation
[DL輪読会]Ensemble Distribution Distillation
Deep Learning JP
?
論文紹介:Multimodal Learning with Transformers: A Survey
論文紹介:Multimodal Learning with Transformers: A Survey論文紹介:Multimodal Learning with Transformers: A Survey
論文紹介:Multimodal Learning with Transformers: A Survey
Toru Tamaki
?
プロトタイプで终わらせない死の谷を超える机械学习プロジェクトの进め方 #惭尝颁罢4
プロトタイプで终わらせない死の谷を超える机械学习プロジェクトの进め方 #惭尝颁罢4プロトタイプで终わらせない死の谷を超える机械学习プロジェクトの进め方 #惭尝颁罢4
プロトタイプで终わらせない死の谷を超える机械学习プロジェクトの进め方 #惭尝颁罢4
shakezo
?
ECCV2020 オーラル論文完全読破 (2/2)
ECCV2020 オーラル論文完全読破 (2/2) ECCV2020 オーラル論文完全読破 (2/2)
ECCV2020 オーラル論文完全読破 (2/2)
cvpaper. challenge
?
骋础狈(と强化学习との関係)
骋础狈(と强化学习との関係)骋础狈(と强化学习との関係)
骋础狈(と强化学习との関係)
Masahiro Suzuki
?
ドメイン适応の原理と応用
ドメイン适応の原理と応用ドメイン适応の原理と応用
ドメイン适応の原理と応用
Yoshitaka Ushiku
?
【DL輪読会】"Instant Neural Graphics Primitives with a Multiresolution Hash Encoding"
【DL輪読会】"Instant Neural Graphics Primitives with a Multiresolution Hash Encoding"【DL輪読会】"Instant Neural Graphics Primitives with a Multiresolution Hash Encoding"
【DL輪読会】"Instant Neural Graphics Primitives with a Multiresolution Hash Encoding"
Deep Learning JP
?
【DL輪読会】Learning Physics Constrained Dynamics Using Autoencoders
【DL輪読会】Learning Physics Constrained Dynamics Using Autoencoders【DL輪読会】Learning Physics Constrained Dynamics Using Autoencoders
【DL輪読会】Learning Physics Constrained Dynamics Using Autoencoders
Deep Learning JP
?
【DL輪読会】言語以外でのTransformerのまとめ (ViT, Perceiver, Frozen Pretrained Transformer etc)
【DL輪読会】言語以外でのTransformerのまとめ (ViT, Perceiver, Frozen Pretrained Transformer etc)【DL輪読会】言語以外でのTransformerのまとめ (ViT, Perceiver, Frozen Pretrained Transformer etc)
【DL輪読会】言語以外でのTransformerのまとめ (ViT, Perceiver, Frozen Pretrained Transformer etc)
Deep Learning JP
?
社会心理学者のための时系列分析入门冲小森
社会心理学者のための时系列分析入门冲小森社会心理学者のための时系列分析入门冲小森
社会心理学者のための时系列分析入门冲小森
Masashi Komori
?
これからの Vision & Language ~ Acadexit した4つの理由
これからの Vision & Language ~ Acadexit した4つの理由これからの Vision & Language ~ Acadexit した4つの理由
これからの Vision & Language ~ Acadexit した4つの理由
Yoshitaka Ushiku
?
cvpaper.challenge 研究効率化 Tips
cvpaper.challenge 研究効率化 Tipscvpaper.challenge 研究効率化 Tips
cvpaper.challenge 研究効率化 Tips
cvpaper. challenge
?
第8回Language and Robotics研究会20221010_AkiraTaniguchi
第8回Language and Robotics研究会20221010_AkiraTaniguchi第8回Language and Robotics研究会20221010_AkiraTaniguchi
第8回Language and Robotics研究会20221010_AkiraTaniguchi
Akira Taniguchi
?
优れた问いを见つける(中京大学讲演)
优れた问いを见つける(中京大学讲演)优れた问いを见つける(中京大学讲演)
优れた问いを见つける(中京大学讲演)
cvpaper. challenge
?
動画認識サーベイv1(メタサーベイ )
動画認識サーベイv1(メタサーベイ )動画認識サーベイv1(メタサーベイ )
動画認識サーベイv1(メタサーベイ )
cvpaper. challenge
?
机械学习を用いた异常検知入门
机械学习を用いた异常検知入门机械学习を用いた异常検知入门
机械学习を用いた异常検知入门
michiaki ito
?
ChatGPT 人間のフィードバックから強化学習した対話AI
ChatGPT 人間のフィードバックから強化学習した対話AIChatGPT 人間のフィードバックから強化学習した対話AI
ChatGPT 人間のフィードバックから強化学習した対話AI
Shota Imai
?
勾配ブースティングの基礎と最新の動向 (MIRU2020 Tutorial)
勾配ブースティングの基礎と最新の動向 (MIRU2020 Tutorial)勾配ブースティングの基礎と最新の動向 (MIRU2020 Tutorial)
勾配ブースティングの基礎と最新の動向 (MIRU2020 Tutorial)
RyuichiKanoh
?
Counterfaual Machine Learning(CFML)のサーベイ
Counterfaual Machine Learning(CFML)のサーベイCounterfaual Machine Learning(CFML)のサーベイ
Counterfaual Machine Learning(CFML)のサーベイ
ARISE analytics
?
Domain Adaptation 発展と動向まとめ(サーベイ資料)
Domain Adaptation 発展と動向まとめ(サーベイ資料)Domain Adaptation 発展と動向まとめ(サーベイ資料)
Domain Adaptation 発展と動向まとめ(サーベイ資料)
Yamato OKAMOTO
?
[DL輪読会]Ensemble Distribution Distillation
[DL輪読会]Ensemble Distribution Distillation[DL輪読会]Ensemble Distribution Distillation
[DL輪読会]Ensemble Distribution Distillation
Deep Learning JP
?
論文紹介:Multimodal Learning with Transformers: A Survey
論文紹介:Multimodal Learning with Transformers: A Survey論文紹介:Multimodal Learning with Transformers: A Survey
論文紹介:Multimodal Learning with Transformers: A Survey
Toru Tamaki
?
プロトタイプで终わらせない死の谷を超える机械学习プロジェクトの进め方 #惭尝颁罢4
プロトタイプで终わらせない死の谷を超える机械学习プロジェクトの进め方 #惭尝颁罢4プロトタイプで终わらせない死の谷を超える机械学习プロジェクトの进め方 #惭尝颁罢4
プロトタイプで终わらせない死の谷を超える机械学习プロジェクトの进め方 #惭尝颁罢4
shakezo
?
ECCV2020 オーラル論文完全読破 (2/2)
ECCV2020 オーラル論文完全読破 (2/2) ECCV2020 オーラル論文完全読破 (2/2)
ECCV2020 オーラル論文完全読破 (2/2)
cvpaper. challenge
?

Similar to 日本语テキスト音声合成のための句境界予测モデルの検讨 (20)

A scalable probablistic classifier for language modeling: ACL 2011 読み会
A scalable probablistic classifier for language modeling: ACL 2011 読み会A scalable probablistic classifier for language modeling: ACL 2011 読み会
A scalable probablistic classifier for language modeling: ACL 2011 読み会
正志 坪坂
?
Nakai22sp03 presentation
Nakai22sp03 presentationNakai22sp03 presentation
Nakai22sp03 presentation
Yuki Saito
?
形态素解析も辞书も言语モデルもいらない别苍诲-迟辞-别苍诲音声认识
形态素解析も辞书も言语モデルもいらない别苍诲-迟辞-别苍诲音声认识形态素解析も辞书も言语モデルもいらない别苍诲-迟辞-别苍诲音声认识
形态素解析も辞书も言语モデルもいらない别苍诲-迟辞-别苍诲音声认识
Tomoki Hayashi
?
Neural G2Pの最新動向 SIGMORPHON及び関連緩急の紹介
Neural G2Pの最新動向 SIGMORPHON及び関連緩急の紹介Neural G2Pの最新動向 SIGMORPHON及び関連緩急の紹介
Neural G2Pの最新動向 SIGMORPHON及び関連緩急の紹介
Kosuke Futamata
?
CluBERT: A Cluster-Based Approach for Learning Sense Distributions in Multipl...
CluBERT: A Cluster-Based Approach for Learning Sense Distributions in Multipl...CluBERT: A Cluster-Based Approach for Learning Sense Distributions in Multipl...
CluBERT: A Cluster-Based Approach for Learning Sense Distributions in Multipl...
禎晃 山崎
?
滨颁础厂厂笔読み会2020
滨颁础厂厂笔読み会2020滨颁础厂厂笔読み会2020
滨颁础厂厂笔読み会2020
Yuki Saito
?
罢飞颈迟迟别谤ユーザに対するゼロショットタグ付け
罢飞颈迟迟别谤ユーザに対するゼロショットタグ付け罢飞颈迟迟别谤ユーザに対するゼロショットタグ付け
罢飞颈迟迟别谤ユーザに対するゼロショットタグ付け
Kohei Shinden
?
Derivative models from BERT
Derivative models from BERTDerivative models from BERT
Derivative models from BERT
Junya Kamura
?
Interspeech2022 参加報告
Interspeech2022 参加報告Interspeech2022 参加報告
Interspeech2022 参加報告
Yuki Saito
?
ICASSP2019音声&音響論文読み会 論文紹介(認識系)
ICASSP2019音声&音響論文読み会 論文紹介(認識系)ICASSP2019音声&音響論文読み会 論文紹介(認識系)
ICASSP2019音声&音響論文読み会 論文紹介(認識系)
貴史 益子
?
TensorFlow math ja 05 word2vec
TensorFlow math ja 05 word2vecTensorFlow math ja 05 word2vec
TensorFlow math ja 05 word2vec
Shin Asakawa
?
Segmenting Sponteneous Japanese using MDL principle
Segmenting Sponteneous Japanese using MDL principleSegmenting Sponteneous Japanese using MDL principle
Segmenting Sponteneous Japanese using MDL principle
Yusuke Matsubara
?
EMNLP 2015 読み会 @ 小町研 "Morphological Analysis for Unsegmented Languages using ...
EMNLP 2015 読み会 @ 小町研 "Morphological Analysis for Unsegmented Languages using ...EMNLP 2015 読み会 @ 小町研 "Morphological Analysis for Unsegmented Languages using ...
EMNLP 2015 読み会 @ 小町研 "Morphological Analysis for Unsegmented Languages using ...
Yuki Tomo
?
BERT+XLNet+RoBERTa
BERT+XLNet+RoBERTaBERT+XLNet+RoBERTa
BERT+XLNet+RoBERTa
禎晃 山崎
?
miyoshi17sp07
miyoshi17sp07miyoshi17sp07
miyoshi17sp07
Yuki Saito
?
【DeepLearning研修】Transfomerの基礎と応用 --第4回 マルチモーダルへの展開
【DeepLearning研修】Transfomerの基礎と応用 --第4回 マルチモーダルへの展開【DeepLearning研修】Transfomerの基礎と応用 --第4回 マルチモーダルへの展開
【DeepLearning研修】Transfomerの基礎と応用 --第4回 マルチモーダルへの展開
Sony - Neural Network Libraries
?
Machine translation
Machine translationMachine translation
Machine translation
Hiroshi Matsumoto
?
Nl220 Pitman-Yor Hidden Semi Markov Model
Nl220 Pitman-Yor Hidden Semi Markov ModelNl220 Pitman-Yor Hidden Semi Markov Model
Nl220 Pitman-Yor Hidden Semi Markov Model
Kei Uchiumi
?
Bilingual Correspondence Recursive Autoencoders for Statistical Machine Trans...
Bilingual Correspondence Recursive Autoencoders for Statistical Machine Trans...Bilingual Correspondence Recursive Autoencoders for Statistical Machine Trans...
Bilingual Correspondence Recursive Autoencoders for Statistical Machine Trans...
Shin Kanouchi
?
Paper: seq2seq 20190320
Paper: seq2seq 20190320Paper: seq2seq 20190320
Paper: seq2seq 20190320
Yusuke Fujimoto
?
A scalable probablistic classifier for language modeling: ACL 2011 読み会
A scalable probablistic classifier for language modeling: ACL 2011 読み会A scalable probablistic classifier for language modeling: ACL 2011 読み会
A scalable probablistic classifier for language modeling: ACL 2011 読み会
正志 坪坂
?
Nakai22sp03 presentation
Nakai22sp03 presentationNakai22sp03 presentation
Nakai22sp03 presentation
Yuki Saito
?
形态素解析も辞书も言语モデルもいらない别苍诲-迟辞-别苍诲音声认识
形态素解析も辞书も言语モデルもいらない别苍诲-迟辞-别苍诲音声认识形态素解析も辞书も言语モデルもいらない别苍诲-迟辞-别苍诲音声认识
形态素解析も辞书も言语モデルもいらない别苍诲-迟辞-别苍诲音声认识
Tomoki Hayashi
?
Neural G2Pの最新動向 SIGMORPHON及び関連緩急の紹介
Neural G2Pの最新動向 SIGMORPHON及び関連緩急の紹介Neural G2Pの最新動向 SIGMORPHON及び関連緩急の紹介
Neural G2Pの最新動向 SIGMORPHON及び関連緩急の紹介
Kosuke Futamata
?
CluBERT: A Cluster-Based Approach for Learning Sense Distributions in Multipl...
CluBERT: A Cluster-Based Approach for Learning Sense Distributions in Multipl...CluBERT: A Cluster-Based Approach for Learning Sense Distributions in Multipl...
CluBERT: A Cluster-Based Approach for Learning Sense Distributions in Multipl...
禎晃 山崎
?
滨颁础厂厂笔読み会2020
滨颁础厂厂笔読み会2020滨颁础厂厂笔読み会2020
滨颁础厂厂笔読み会2020
Yuki Saito
?
罢飞颈迟迟别谤ユーザに対するゼロショットタグ付け
罢飞颈迟迟别谤ユーザに対するゼロショットタグ付け罢飞颈迟迟别谤ユーザに対するゼロショットタグ付け
罢飞颈迟迟别谤ユーザに対するゼロショットタグ付け
Kohei Shinden
?
Derivative models from BERT
Derivative models from BERTDerivative models from BERT
Derivative models from BERT
Junya Kamura
?
Interspeech2022 参加報告
Interspeech2022 参加報告Interspeech2022 参加報告
Interspeech2022 参加報告
Yuki Saito
?
ICASSP2019音声&音響論文読み会 論文紹介(認識系)
ICASSP2019音声&音響論文読み会 論文紹介(認識系)ICASSP2019音声&音響論文読み会 論文紹介(認識系)
ICASSP2019音声&音響論文読み会 論文紹介(認識系)
貴史 益子
?
TensorFlow math ja 05 word2vec
TensorFlow math ja 05 word2vecTensorFlow math ja 05 word2vec
TensorFlow math ja 05 word2vec
Shin Asakawa
?
Segmenting Sponteneous Japanese using MDL principle
Segmenting Sponteneous Japanese using MDL principleSegmenting Sponteneous Japanese using MDL principle
Segmenting Sponteneous Japanese using MDL principle
Yusuke Matsubara
?
EMNLP 2015 読み会 @ 小町研 "Morphological Analysis for Unsegmented Languages using ...
EMNLP 2015 読み会 @ 小町研 "Morphological Analysis for Unsegmented Languages using ...EMNLP 2015 読み会 @ 小町研 "Morphological Analysis for Unsegmented Languages using ...
EMNLP 2015 読み会 @ 小町研 "Morphological Analysis for Unsegmented Languages using ...
Yuki Tomo
?
【DeepLearning研修】Transfomerの基礎と応用 --第4回 マルチモーダルへの展開
【DeepLearning研修】Transfomerの基礎と応用 --第4回 マルチモーダルへの展開【DeepLearning研修】Transfomerの基礎と応用 --第4回 マルチモーダルへの展開
【DeepLearning研修】Transfomerの基礎と応用 --第4回 マルチモーダルへの展開
Sony - Neural Network Libraries
?
Nl220 Pitman-Yor Hidden Semi Markov Model
Nl220 Pitman-Yor Hidden Semi Markov ModelNl220 Pitman-Yor Hidden Semi Markov Model
Nl220 Pitman-Yor Hidden Semi Markov Model
Kei Uchiumi
?
Bilingual Correspondence Recursive Autoencoders for Statistical Machine Trans...
Bilingual Correspondence Recursive Autoencoders for Statistical Machine Trans...Bilingual Correspondence Recursive Autoencoders for Statistical Machine Trans...
Bilingual Correspondence Recursive Autoencoders for Statistical Machine Trans...
Shin Kanouchi
?

日本语テキスト音声合成のための句境界予测モデルの検讨

  • 2. 背景: 句境界予測 (Phrase Break Prediction) 句境界予測はテキスト音声合成 (TTS) システムを構成する 上で音声の自然性に寄与する重要な要因の一つ[1] ? 句境界は連続する句の間に挿入される音声的なポーズとして 定義され、息継ぎやアクセントの変化により発生 ? テキスト上に現れる読点の場所以外にも句境界が挿入される ためルールベースの手法では対応が困難[2] 句境界なし 句境界あり 知らぬ間に自分名義で契約され、 届いたスマホを開封せず詐欺グループに転送 させられる消費者被害が、全国の国民生活 センターに寄せられている 2 知らぬ間に/自分名義で契約され、/ 届いたスマホを開封せず/詐欺グループに転 送させられる/消費者被害が、/全国の国民生 活センターに寄せられている 句境界の有無による合成音声の自然性 [1] T. Fujimoto, K. Hashimoto, K. Oura, Y. Nankaku, and K. Tokuda. Impacts of input linguistic feature representation on Japanese end-to-end speech synthesis. In Proc. 10th ISCA Speech Synthesis Workshop, pp. 166–171, 2019. [2] P. Taylor and A. W. Black. Assigning phrase breaks frompart-of-speech sequences.Computer Speech & Language,Vol. 12, No. 2, pp. 99 – 117, 1998.
  • 3. 背景: 句境界予測 (Phrase Break Prediction) 日本語句境界予測において深層学習による系列予測モデル や大規模言語モデルの有用性が検証されておらず ? 日本語句境界予測ではCRFやランダムフォレストなど 従来の統計モデルによる手法が検証[3] ? 英語句境界予測ではRNNやLSTMなど系列モデルによる手法が 検証されているものの大規模言語モデルの効果は未検証[4] ? 品詞タグや構文情報など様々な言語特徴量によって精度改善 ? CRFレイヤーや大規模言語モデルの効果は未検証 3 [3] N. Miyazaki H. Mizuno H. Muto, Y. Ijima and S. Sakauchi. Analysis and evaluation of factors relating pause location for natural text-to-speech synthesis. In Transactions of Information Processing Society of Japan, pp. 993–1002, 2015. [4] V. Klimkov, A. Nadolski, A. Moinet, B. Putrycz, R. BarraChicote, T. Merritt, and T. Drugman. Phrase break prediction for long-form reading tts: Exploiting text structure information. In Proc. Interspeech 2017, pp. 1064–1068, 2017.
  • 4. 目的: 深層学習による日本語句境界予測モデルの検討 TTSにより生成される音声の自然性を向上させるため 様々な言語特徴量およびモデル構造の効果を検証 ? 品詞タグや構文構造などの言語特徴量 BiLSTMやBERTなどのモデル構造を検証 ? 各系列の後に句境界を挿入するか否かラベル付けする 系列ラベリングのタスクとして定式化 ? 非句境界 (<NB>) または句境界 (<BR>)としてラベル付け 4 系列ラベリング問題としての句境界予測 知ら ぬ 間 に 自分 名義 で 契約 され 、 届い た スマホ ... PBP classifier <NB> <NB> <NB> <BR> <NB> <NB> <NB> <NB> <NB> <BR> <NB> <NB> <NB> …
  • 5. データセット: 句境界コーパス ``` 句境界予測に用いるコーパスとしてCSJ, 独自データを使用 ? CSJは複数話者による少数の発話から構成 ? 独自コーパスは単一話者による大量の発話から構成 ? それぞれ200ミリ秒以上の無音区間を句境界として認定 5 Train Val Test 発話数 157,976 1799 1729 話者数 2463 31 31 平均トークン数 38.86 36.06 34.10 平均句境界数 3.54 3.46 3.22 CSJおよび独自コーパスの統計情報 CSJ(複数話者) 独自コーパス(単一話者) Train Val Test 発話数 99,807 500 500 話者数 1 - - 平均トークン数 13.34 13.14 13.02 平均句境界数 1.59 1.58 1.53
  • 6. 実験内容 ``` TTSの音声に関する自然性を向上させるため様々な モデル構造および言語特徴量の効果を検証 ? 実験 1: 明示的言語特徴量に関する効果検証 ? 客観評価実験 ? e.g. 品詞タグ、構文構造、word2vec... ? 実験 2: モデル構造比較 ? 客観評価実験 ? e.g. BiLSTM, CRF, BERT… ? 実験 3: Focal-lossおよびFine-tuningの適用 ? 客観評価実験 ? データ分布不均衡問題を解決するためのFocal-loss ? 多数話者による学習済みモデル(CSJ)の独自データによるFine-tuning ? 実験 4: MOS評価およびABXテスト ? 客観評価実験 ? 句境界予測モデルを適用したTTSにより音声の自然性を評価 6
  • 7. 実験設定: 評価指標 ``` 句境界の分布は話者毎に大きく異なるため F-β (β ∈ {1.0, 0.25})スコアを用いて予測性能を評価 ? 多数の話者に適用可能な汎用的な句境界予測モデルを作成 ? 誤った箇所に句境界を挿入するより何も挿入しない方が 音声自然性が向上することが知られる[5] ? 複数話者から構成されるCSJでは余分な句境界が 挿入されないようF-0.25スコアによりprecision重視で評価 ? 単一話者から構成される独自コーパスではF-1スコアで評価 7 F-βスコアによる句境界予測性能の評価 [5] V. Klimkov, A. Nadolski, A. Moinet, B. Putrycz, R. BarraChicote, T. Merritt, and T. Drugman, “Phrase break prediction for long-form reading tts: exploiting text structure information,” in Proceedings of Interspeech 2017, 2017, pp. 1064–1068.
  • 8. 実験 1: 明示的な言語特徴量の比較検討 ``` 日本語句境界予測において様々な特徴量の効果を検証 ? 英語句境界予測における深層学習による従来手法を 日本語句境界予測へ適用 (2 layers BiLSTM, 512次元) ? 言語特徴量の取得にはSudachi[6]およびGinza[7]を利用 8 特徴量 次元数 詳細 Token 512 単語分割した入力文のみを使用 + UD 16 universal dependency タグを追加 + POS 48 品詞タグ(細分類含む)を追加 + DEP 64 現トークンおよび親トークンの構文タグおよび相対位置を追加 + CHAR 64 文字単位の埋め込み層を追加 + W2V 512 Wikipediaによる事前学習済み単語埋め込み層を追加 ALL(UD) - UD以外の特徴量を全て使用 ALL(POS) - POS以外の言語特徴量を全て使用 実験に使用した言語特徴量 [6] K. Takaoka, S. Hisamoto, N. Kawahara, M. Sakamoto, Y. Uchida, and Y. Matsumoto. 2018. Sudachi: a Japanese tokenizer for business. In Proceedings of the Eleventh International Conference on Language Resources and Evaluation (LREC 2018), Miyazaki, Japan. European Language Resources Association (ELRA). [7] 松田寛, 大村舞, 浅原正幸. 短単位品詞の用法曖昧性解決と依存関係ラベリングの同時学習, 言語処理学会 第 25 回年次大会 発表論文集, 2019.
  • 9. 実験 1: CSJおよび独自コーパスによる実験結果 ``` 言語特徴量の追加に応じてF-0.25, F-1スコアが上昇 ? CSJではUD, POS, W2Vなどの単一特徴量においても効果的 ? 独自コーパスでは単一特徴量の追加による効果なし ? POS含めた全ての特徴量を用いることで予測性能が大きく上昇 9 CSJ(複数話者) 独自コーパス(単一話者) Precision Recall F-1 Precision Recall Token 58.5 63.9 24.8 88.9 93.0 85.1 + UD 61.6 65.8 30.4 89.0 90.8 87.2 + POS 61.6 65.8 30.5 88.6 90.5 86.8 + DEP 59.3 64.0 27.1 88.7 91.4 86.0 + CHAR 60.1 65.0 27.1 89.4 92.1 86.8 + W2V 60.9 66.9 24.9 87.6 91.4 84.1 ALL(UD) 62.9 67.5 30.3 89.3 91.4 87.4 ALL(POS) 63.5 68.1 30.7 90.5 91.6 89.0 CSJおよび独自コーパスによる実験結果
  • 10. 実験 2: モデル構造の比較実験 ``` 様々なモデル構造の句境界予測への効果を検証 ? 従来手法であるALL(POS)をベースラインモデルとして使用 ? 学習済みBERTモデルには’cl-tohoku/bert-base’[8]を使用 ? BERTの各層は異なる言語特徴量を暗黙的含むことが知られる[9] ? 最終層のみを利用したBERT lastと全層の加重平均を 利用したBERT mixの二種類で実験 ? 以下6つのモデル構造を比較 ? BiLSTM ? BiLSTM + CRF ? BERTlast ? BERTlast + CRF ? BERTmix ? BERTmix + CRF 10 [8] https://github.com/cl-tohoku/bert-Japanese. [9] A. Rogers, O. Kovaleva, and A. Rumshisky. 2020. A primer in bertology: What we know about how bert works. ArXiv, abs/2002.12327.
  • 11. 実験 2: CSJおよび独自コーパスによる実験結果 ``` BERTmix ベースのモデルにおいて予測精度が大きく上昇 ? CSJおよび独自コーパスの両者においてBiLSTMやBERTlastと 比較して予測性能が大きく上昇 ? BERTlastはBiLSTMと性能にほとんど違いなし ? BERTmixを利用することにより構文情報や意味情報など暗黙的に 学習された言語特徴量が有効的に活用 11 CSJ(複数話者) 独自コーパス(単一話者) Precision Recall F-1 Precision Recall BiLSTM (Baseline) 63.5 68.1 30.7 90.5 91.9 89.0 BiLSTM + CRF 65.2 70.9 28.7 90.1 91.6 88.5 BERT last 63.9 67.3 35.3 90.8 92.2 89.5 BERT last + CRF 64.2 67.2 37.2 91.7 92.9 90.6 BERT mix 67.4 72.9 30.8 92.0 94.1 90.0 BERT mix + CRF 64.0 68.0 33.1 92.8 94.3 91.4 CSJおよび独自コーパスによる実験結果
  • 12. 実験 3: データ分布の不均衡問題への対処 非句境界と句境界の分布および比率が大きく異なる ? 非句境界の数が句境界の数より圧倒的に多い ? Cross entropy lossでは全サンプルを同等に扱うため非句境界に 対する損失が多く伝搬される傾向 ? 分類が難しい句境界(分類確率が0.5に近い例)に対する 予測が非句境界として予測結果が引っ張られる傾向 ? Focal-lossを適用することで上記問題を解決 12 非句境界数 句境界数 比率 CSJ 5,072,106 571,458 8.875 独自コーパス 1,185,077 161,072 7.357 非句境界と句境界の数および比率
  • 13. ``` 13 Focal-lossの効果および対応する式 データ分布の不均衡問題を解決するためFocal-loss[10]を適用 ? Focal-loss (FL) により出力確率の高いサンプルに対する損失が低減 ? Balanced cross entropy(BCE)と同様に重みパラメータα の導入によりデータ不均衡問題を解決(Balanced focal-loss(BFL)) ? 実験にはBERTmixモデルを使用 正解ラベルに対する出力確率および損失 Balanced focal-loss(BFL) Balanced cross entropy(BCE) 実験 3: BERTへのFocal-lossの適用およびCSJによるFine-tuning [10] T.-Y. Lin, P. Goyal, R. B. Girshick, K. He, and P. Dollár. Focal loss for dense object detection. CoRR, Vol. abs/1708.02002, 2017.
  • 14. 実験 3: CSJおよび独自コーパスによる実験結果 ``` Balanced focal-loss (BFL)の導入およびFine-tuning(FT) により句境界予測の性能が大きく上昇 ? BFLのパラメータにはγ=2.0, α=0.4を設定 ? BFLによって出力確率の高い非句境界に対するlossが 低減しPrecisionが大きく上昇 ? ベースラインと比較してCSJでは5.4ポイント 独自コーパスでは3.5ポイントの性能上昇 14 CSJ(複数話者) 独自コーパス(単一話者) Precision Recall F-1 Precision Recall BiLSTM (Baseline) 63.5 68.1 30.7 90.5 91.9 89.0 BERT mix 67.4 72.9 30.8 92.0 72.9 90.0 BERT mix + BFL(γ=2.0, α=0.4) 68.9 78.3 23.5 93.7 75.9 92.5 BERT mix + BFL + FT(γ=2.0, α=0.4) - - - 94.0 94.7 93.7 CSJおよび独自コーパスによる実験結果
  • 15. ``` 15 モデル 詳細 Reference テストデータを音声合成した発話 Rule-based 読点の後にのみ句境界を挿入した発話 BiLSTM(Token) トークンのみ使用 BiLSTM(All) POS含む全ての特徴量を使用 BERT mix 全層の加重平均を使用したBERT BERT mix + BFL + FT BERTmix にBFLとFTを適用 MOS評価およびABXテストの評価対象 ABテスト Target A Target B Rule-based BiLSTM (Token) BiLSTM (Token) BiLSTM (All) BiLSTM(All) BERT mix BERT mix BERT mix + BFL + FT BERT mix + BFL + FT reference 句境界予測モデルを導入したTTSモデルを音声の自然性 に関してMOS評価およびABテストにより評価 ? 独自コーパスにより訓練された句境界モデルを対象に評価 ? TTSモデルにはFastSpeech2[11] + Parallel WaveGAN[12]を使用 ? 25人の被験者が各モデルに対して30発話評価 実験 4: 主観評価実験 [11] Y. Ren, C. Hu, T. Qin, S. Zhao, Z. Zhao, and T.-Y. Liu. FastSpeech 2: Fast and high- quality end-to-end text-to-speech. In Proc. ICLR (in press), 2021. [12] R. Yamamoto, E. Song, and J.-M. Kim. Parallel WaveGAN: A fast waveform generation model based on generative adversarial net- works with multi-resolution spectrogram. In Proc. ICASSP, pp. 6199–6203, 2020. MOS評価の対象モデル ABXテストの対象モデルペア
  • 16. ``` 16 モデル 得点 Rule-based 3.72 ± 0.07 BiLSTM(Token) 3.89 ± 0.07 BiLSTM(All) 3.86 ± 0.07 BERT mix 3.91 ± 0.07 BERT mix + BFL + FT 3.95 ± 0.07 Reference 4.06 ± 0.07 MOSテストによる実験結果(95%信頼区間) 提案手法であるBERTmix + BFL + FTにおいてReference を除く6つのモデルの中で音声の自然性が最も上昇 ? 音声の自然性に関して1点から5点で評価 ? BERTmixベースのモデルとその他のモデルの間に有意差有り ? BERTmixとBERTmix + BFL + FTの間には有意差無し 実験 4: MOS評価による実験結果
  • 17. ``` 17 Target A Target B A B Neutral Rule-based BiLSTM(Token) 0.173 0.455 0.372 BiLSTM(Token) BiLSTM(All) 0.200 0.211 0.589 BiLSTM(All) BERT mix 0.215 0.221 0.564 BERT mix BERT mix + BFL + FT 0.136 0.112 0.739 BERT mix + BFL + FT reference 0.157 0.260 0.583 ABテストによる実験結果 BERTmix + BFL + FLよりBERTmix を選択する割合高 ? 2つの音声のうちどちらの音声がより自然であるか または同じであるか選択 ? BERTmixベースのモデルにおいてその他モデルより自然性上昇 ? BERTmixとBERTmix + BFL + FTの間でNeutralを選択する割合高 実験 4: ABテストによる実験結果
  • 18. 実験 4: 主観評価実験に利用したサンプル例1 ``` 18 Reference メキシコでは <BR> 麻薬密売組織に殺害された人の <BR> 切断遺体が <BR> 道路 際に置き去りにされることが多い Rule-based メキシコでは麻薬密売組織に殺害された人の切断遺体が道路際に置き去りに され ることが多い BiLSTM(Token) メキシコでは <BR> 麻薬密売組織に殺害された人の切断遺体が道路際に <BR> 置 き去りにされることが多い BiLSTM(All) メキシコでは <BR> 麻薬密売組織に殺害された人の切断遺体が道路際に置き去りに されることが多い BERT mix メキシコでは <BR> 麻薬密売組織に殺害された <BR> 人の切断遺体が <BR> 道路 際に置き去りにされることが多い BERT mix + BFL + FT メキシコでは <BR> 麻薬密売組織に殺害された人の切断遺体が <BR> 道路際に置 き去りにされることが多い
  • 19. まとめ ``` 音声の自然性を向上させるため句境界予測において 様々な言語特徴量およびモデル構造の効果を検証 ? BERTベースのモデルを利用することに従来手法より性能上昇 ? 句境界予測においてBERTによる暗黙的な言語特徴量が BiLSTMによる明示的な言語特徴量より効果大 ? 最終層のみを利用したBERT lastより全層の加重平均を利用した BERT mixの方が性能向上に寄与 ? 句境界予測モデルの性能向上により音声の自然性も同時に向上 ? Focal-lossの導入によりF-βスコアの上昇は確認できたものの 音声の自然性に関しては有意差無 19