狠狠撸
Submit Search
音声合成の基础
?
Download as ODP, PDF
?
12 likes
?
17,462 views
Akinori Ito
音声合成の基础 東北大学情報科学研究科「学際情報科学論」スライド
Read less
Read more
1 of 25
Download now
Downloaded 57 times
More Related Content
音声合成の基础
1.
1 音声合成 Speech Synthesis
2.
2 音声の合成 録音合成 編集合成 パラメータ合成 テキスト音声合成 (Text-to-Speech) – 物理シミュレーション –
フォルマント合成 – 波形接続合成 – HMM合成 文を全部録音 単語単位で録音 実際の声を元に合成?携帯電話
3.
3 テキスト音声合成 (TTS) 文字列を音声に変換する技術 文字列 形態素解析
音素列 単語列 構文解析 単語アクセン ト 韻律句 韻律合成 ピッチ系 列 音声合成 エンジン 音声
4.
4 形態素解析 文を単語に分割 – 犬が歩く → 犬/が/歩く 読み?品詞の推定 – 犬 犬 イヌ 名詞-一般 –
が が ガ 助詞-格助詞 – 歩く 歩く アルク 動詞-五段
5.
5 単語アクセント 音の強さ vs. 音の高さ –
音の強さ(stress): 英語など – 音の高さ(pitch): 日本語など アクセントの単位 – 音節 vs. モーラ
6.
6 日本語(標準語)のアクセン ト モーラごとの音の高さによる 高音から低音に移るモーラ(アクセン ト核)による分類 – 0型:LHHH.. (端 おすすめ 希望 谷 底) –
1型:HLLL... (箸 漢方 シュール) – 2型:LHLL... (橋 ビタミン 坂道) – 3型:LHHLL.. (宝物 細雪 ハンバー グ) – 4型:LHHHL.. (美しい 恐ろしい)
7.
7 単語の接続とアクセント アクセント型による助詞のアクセント変 化 – 端を駆ける はしをかける – 箸を書ける はしをかける –
橋を架ける はしをかける 複合語のアクセント – ビーフ(1)+ハンバーグ(3)=ビーフハンバーグ (6) – 漢方(1)+処方(0)=漢方処方(5)
8.
8 韻律の推定 アクセント句(Intonational phrase) – 単一のアクセント核を持つ1つ以上の文節 の連接単位 ?
つめたいこうちゃ (0型) ? ひとりだけのこる (7型) – 元の単語のアクセント型によって決まるが , 規則は複雑
9.
9 アクセントからピッチへ 60 80 100 120 140 160 おやゆず り の
む て ぽ で こどもの と き から そんばかりし ている フレーズ成 分 アクセント成分藤崎モデル
10.
10 音素列から波形へ ロボットによる発声 物理シミュレーション – 声帯?声道の振動伝播を計算機で再現 フォルマント合成 – 声道をフィルタでモデル化 波形(素片)接続合成 HMM合成
11.
11 ロボットによる発声 (Talking Head) ロボットによって人間 の発声器官を模倣する – 写真は早稲田大学高西 研究室の
Waseda Talker 7RII – デモビデオあり
12.
12 物理シミュレーション (Articulatory Synthesis) 声帯の振動,声道の物理的特性をシ ミュレーション i i i k Q m = 21 3 2 (
) ( ) g g g g c Uc Z A t A t = + 2 2 1 1 a b c z R j L j A A z Aj C j c ω ρ ω ω ω ω ρ = + = + = = iA gA ( )p t
13.
13 フォルマント合成 (Formant Synthesis) 声帯から出る波と、声道による音色の 変化をマネすることによって音を出す 音の高さ 音の強さ 音の強さ 音の高さ ×
= 音の高さ 音の強さ
14.
14 フォルマント合成 音源 フォルマント フィルタ formant DB 各音素 F1~F4の周波数と そのバンド幅
15.
15 フォルマント合成 デモをどうぞ 利点 – 母音( a,
i, u, e, o等)については、どんな 声でも原理的に作れる 欠点 – 自然な声を出すのが難しい – 子音(p, s, d などの音)の品質が良くない
16.
16 波形(素片)接続合成 (Concatenative Synthesis) 本物の声をたくさん記録しておき、そ の中から適宜取り出してきてつなぐ – 編集合成の高度なやつ –
利点 ? (もとが本物なので)自然な声が作りやすい – 欠点 ? 大量の元音声が必要 ? 任意の声は作れない
17.
17 波形素片の接続 接続方法 1. 合成するための音素系列?継続時間系列? ピッチ系列を用意 2.音素系列に対応する素片を選ぶ 3.素片の長さとピッチを調整して接続 基本的な問題点 – 接続点が多いほど不自然 –
素片の変更量(長さ,ピッチ)が多いほど 不自然
18.
18 波形素片 各音素の波形を接続 各音節の波形を接続 o sh k
a e 波形素片 o sh i k a k e i k a k
19.
19 波形素片 2音素の組み合わせ(diphone, CV-VC) 母音の途中で波形を接続(VCV) o sh-i
ei-k k-a a-k k-eo-sh o eo-sh-i i-k-a a-k-e
20.
20 コーパスベース合成 大量に録音した音声の中から,できる だけ長い音声を切り出してつなぐ o-sh-i-k-a a-k-e 音声 コーパス
21.
21 声の高さや長さを変える技術 波形をそのまま利用する方法 – TD-PSOLA法 音声分析合成に基づく方法 – フェーズボコーダ –
厂罢搁础滨骋贬罢法
22.
22 TD-PSOLA (Time-Domain Pitch-Synchronous Overlap
Add) 基本周期に同期して波形を切り出し, それを再び重ね合わせる
23.
23 TD-PSOLA (Time-Domain Pitch-Synchronous Overlap
Add) 波形を何度も重ね合わせると音を伸ば すことができる
24.
24 TD-PSOLA (Time-Domain Pitch-Synchronous Overlap
Add) 重ね合わせの周期を変えるとピッチ変 換が実現できる
25.
25 HMM音声合成 HMMはもともと生成モデル→それを合 成に使う 文に対応するHMM系列 特徴量系列 メルケプストラム? Δ?ΔΔ MLSA フィルタ 音声系列
Download