14. 14
表現豊かな音声合成
? 統計モデルに基づく表現豊かな (様々な発話スタイル) 音声合成
◆ 様々な発話スタイルとは
? 読み上げ調、会話調、感情表現など
◆ 様々な発話スタイルの実現の難しさ
? 様々な発話スタイルの音声データの収録は高コスト
? 市販されている児童書のオーディオブックを利用
? 統計モデルによる平均化
? 各フレーズに固有のIDを割り当て
? 児童書のオーディオブックを用いた学習コーパス
◆ Usborne Publishing Ltd. にて市販されている
児童書のオーディオブック
◆ 様々な発話スタイルのデータを含む
"I'm king of the jungle," roared Lion.
"I'm going to eat you all up."
"No!" cried the jungle animals.
キャラクター1
キャラクター2
地の文
15. 15
フレーズコード
? 学習時
◆ 各フレーズに固有のID (固定次元の正規分布に従う乱数ベクトル)
を割り当て
◆ 言語特徴量にフレーズコードを追加
◆ フレーズごとの発話スタイルを明確に区別したモデル化
言語特徴量
???
学習コーパス
学習フレーズ 1
フレーズコード 1
学習フレーズ 2
フレーズコード 2
?
学習フレーズ N
フレーズコード N音響特徴量
フレーズコード
学習コーパス中のフレーズと自然音声 入力テキスト 合成音声
Come and see the friendly lion!
"I must tell
Hamlet.”
“Who's been sitting in my chair?”
“I must tell the King.”
16. 16
フレーズコード
? 合成時
◆ フレーズのdoc2vecを計算
◆ 全学習フレーズと入力フレーズの類似度を計算
◆ 最も類似度が高いフレーズのフレーズコードを言語特徴量に入力
◆ 類似したフレーズの発話スタイルを再現可能
言語特徴量
???
学習コーパス
学習フレーズ 1
フレーズコード 1
学習フレーズ 2
フレーズコード 2
?
学習フレーズ N
フレーズコード N音響特徴量
フレーズコード
入力フレーズ
Doc2vecを用いた
類似度計算
学習コーパス中のフレーズと自然音声 入力テキスト 合成音声
Come and see the friendly lion!
"I must tell
Hamlet.”
“Who's been sitting in my chair?”
“I must tell the King.” (最も類似度が高いフレーズ)