狠狠撸

狠狠撸Share a Scribd company logo
1
音声合成
Speech Synthesis
2
音声の合成
録音合成
編集合成
パラメータ合成
テキスト音声合成 (Text-to-Speech)
– 物理シミュレーション
– フォルマント合成
– 波形接続合成
– HMM合成
文を全部録音
単語単位で録音
実際の声を元に合成?携帯電話
3
テキスト音声合成 (TTS)
文字列を音声に変換する技術
文字列 形態素解析 音素列
単語列
構文解析
単語アクセン
ト
韻律句 韻律合成 ピッチ系
列
音声合成
エンジン
音声
4
形態素解析
文を単語に分割
– 犬が歩く → 犬/が/歩く
読み?品詞の推定
– 犬 犬 イヌ 名詞-一般
– が が ガ 助詞-格助詞
– 歩く 歩く アルク 動詞-五段
5
単語アクセント
音の強さ vs. 音の高さ
– 音の強さ(stress): 英語など
– 音の高さ(pitch): 日本語など
アクセントの単位
– 音節 vs. モーラ
6
日本語(標準語)のアクセン
ト
モーラごとの音の高さによる
高音から低音に移るモーラ(アクセン
ト核)による分類
– 0型:LHHH.. (端 おすすめ 希望 谷
底)
– 1型:HLLL... (箸 漢方 シュール)
– 2型:LHLL... (橋 ビタミン 坂道)
– 3型:LHHLL.. (宝物 細雪 ハンバー
グ)
– 4型:LHHHL.. (美しい 恐ろしい)
7
単語の接続とアクセント
アクセント型による助詞のアクセント変
化
– 端を駆ける  はしをかける
– 箸を書ける  はしをかける
– 橋を架ける  はしをかける
複合語のアクセント
– ビーフ(1)+ハンバーグ(3)=ビーフハンバーグ
(6)
– 漢方(1)+処方(0)=漢方処方(5)
8
韻律の推定
アクセント句(Intonational phrase)
– 単一のアクセント核を持つ1つ以上の文節
の連接単位
? つめたいこうちゃ (0型)
? ひとりだけのこる (7型)
– 元の単語のアクセント型によって決まるが
,
規則は複雑
9
アクセントからピッチへ
60
80
100
120
140
160
おやゆず り の む て ぽ で こどもの と き から そんばかりし
ている
フレーズ成
分
アクセント成分藤崎モデル
10
音素列から波形へ
ロボットによる発声
物理シミュレーション
– 声帯?声道の振動伝播を計算機で再現
フォルマント合成
– 声道をフィルタでモデル化
波形(素片)接続合成
HMM合成
11
ロボットによる発声
(Talking Head)
ロボットによって人間
の発声器官を模倣する
– 写真は早稲田大学高西
研究室の Waseda
Talker 7RII
– デモビデオあり
12
物理シミュレーション
(Articulatory Synthesis)
声帯の振動,声道の物理的特性をシ
ミュレーション
i
i
i
k
Q
m
=
21
3 2
( ) ( )
g
g
g g
c Uc
Z
A t A t
= +
2
2
1 1
a
b
c
z R j L j
A A
z
Aj C j
c
ω ρ
ω ω
ω ω
ρ
= + = +
= =
iA
gA
( )p t
13
フォルマント合成
(Formant Synthesis)
声帯から出る波と、声道による音色の
変化をマネすることによって音を出す
音の高さ
音の強さ 音の強さ
音の高さ
× =
音の高さ
音の強さ
14
フォルマント合成
音源
フォルマント
フィルタ
formant
DB
各音素
F1~F4の周波数と
そのバンド幅
15
フォルマント合成
デモをどうぞ
利点
– 母音( a, i, u, e, o等)については、どんな
声でも原理的に作れる
欠点
– 自然な声を出すのが難しい
– 子音(p, s, d などの音)の品質が良くない
16
波形(素片)接続合成
(Concatenative Synthesis)
本物の声をたくさん記録しておき、そ
の中から適宜取り出してきてつなぐ
– 編集合成の高度なやつ
– 利点
? (もとが本物なので)自然な声が作りやすい
– 欠点
? 大量の元音声が必要
? 任意の声は作れない
17
波形素片の接続
接続方法
1. 合成するための音素系列?継続時間系列?
ピッチ系列を用意
2.音素系列に対応する素片を選ぶ
3.素片の長さとピッチを調整して接続
基本的な問題点
– 接続点が多いほど不自然
– 素片の変更量(長さ,ピッチ)が多いほど
不自然
18
波形素片
各音素の波形を接続
各音節の波形を接続
o sh k a e
波形素片
o sh i k a k e
i k a k
19
波形素片
2音素の組み合わせ(diphone, CV-VC)
母音の途中で波形を接続(VCV)
o sh-i ei-k k-a a-k k-eo-sh
o eo-sh-i i-k-a a-k-e
20
コーパスベース合成
大量に録音した音声の中から,できる
だけ長い音声を切り出してつなぐ
o-sh-i-k-a a-k-e
音声
コーパス
21
声の高さや長さを変える技術
波形をそのまま利用する方法
– TD-PSOLA法
音声分析合成に基づく方法
– フェーズボコーダ
– 厂罢搁础滨骋贬罢法
22
TD-PSOLA
(Time-Domain Pitch-Synchronous Overlap Add)
基本周期に同期して波形を切り出し,
それを再び重ね合わせる
23
TD-PSOLA
(Time-Domain Pitch-Synchronous Overlap Add)
波形を何度も重ね合わせると音を伸ば
すことができる
24
TD-PSOLA
(Time-Domain Pitch-Synchronous Overlap Add)
重ね合わせの周期を変えるとピッチ変
換が実現できる
25
HMM音声合成
HMMはもともと生成モデル→それを合
成に使う
文に対応するHMM系列
特徴量系列
メルケプストラム?
Δ?ΔΔ
MLSA
フィルタ
音声系列

More Related Content

音声合成の基础