狠狠撸

名古屋大学情報基盤センター／ JST，さきがけ
音声信号の分析と加工
音声を自在に変換するには？
戸田智基
2017年3月15日
＋音声変換＝

音声変換とは？
出力音声入力音声
音声変換
? 入力音声に対して，発話内容を保持しつつ，他の所望の情報を意図的に
変換する処理を施す技術
Ｑ１．音声変換はどのように実現されるのか？
Ｑ２．音声変換は一体何の役に立つのか？
はじめに
例えば，他の所望の話者によって
発声されたように変換する！

概説する内容
１．音声変換の仕組みや用途
２．音声変換の要素技術
３．音声変換の応用例
４．技術的課題と将来の展望
目次
音声変換の面白さと奥深さをお伝えできればと思います！

概説する内容
目次
Q１．「どのように実現されるのか？」
Q２．「一体何の役に立つのか？」
こんにちはこんにちはこんにちは
こんにちは！

? 物理的な生成過程
? 音声に埋め込まれる情報
音声の生成
言語情報
パラ言語情報
非言語情報
音声信号意図
音韻成分
声質成分
身体的制約
非言語情報は
限定される．
音源生成調音音声信号
声帯振動による
周期信号の生成
声道形状に応じた
共振特性の付与
１．仕組みや用途：1

共振特性音源信号の特徴
時間
周波数
基本周波数＆有声無声スペクトル包絡
周波数
パワー
Ｑ１．音声変換はどう実現されるのか？
変換
処理
変換音声
パラメータ合成
処理
分析
処理
音声
パラメータ
音声変換＝信号処理＋変換処理

身体的制約を
超えた音源生成
身体的制約を
超えた調音
所望の身体的制約下での
音声生成過程を実現！
Ｑ２．音声変換は何の役に立つのか？
音源生成調音
物理的な生成過程＋音声変換 ? 音声生成機能拡張
音声信号
音声変換
変換音声信号
こんにちはこんにちはこんにちは
こんにちは！
正常な発声器官を仮想的に移植！一部の発声器官の
機能を消失しても???
非言語情報も
意図的に制御可能！

A．音声信号の分析技術
B．音声信号の合成技術
C．音声パラメータの変換技術
変換
処理
変換音声
処理
分析
処理
音声
パラメータ
概説する内容
目次

? 確率的分析法（線形予測分析 [板倉他]，メル一般化ケプストラム分析 [徳田他]）
? 確率的生成モデルのパラメータ推定問題として定式化
? 決定的分析法（STRAIGHT [河原他]，WORLD [森勢他]，aQHM [Stylianou et al.]）
? 音声信号を正確に表現／再現するパラメータを推定
A．音声信号の分析技術
音声信号 ? 音源信号＊共振特性
e[n]：音源信号
（ガウス雑音）
H(z)：共振モデル
（スペクトル包絡）
x[n]：音声信号
（観測データ）
推定
x[n]：音声信号
（観測データ）
基本周波数の抽出
音源信号の
周期成分を除去
共振特性
（スペクトル包絡）
２．要素技術：1

A．音声信号の分析技術の比較
? 確率的分析法
? 利点：音声信号の揺らぎを確率的に表現可能
? 欠点：モデリングによる近似誤差
? 決定的分析法
? 利点：高い表現力を持つ高精度な音声パラメータの抽出可能
? 欠点：音声信号の揺らぎ成分の取り扱いが困難
雑音環境下における性能や分析速度や計算量も重要！

スペクトル包絡
励振源波形
パルス列
白色雑音
再合成音声波形
合成フィルタ
)(zH
励振源生成部共振付与部
][*][][ nenhnx ?
基本周波数&有声無声
音声パラメータ（音声波形から抽出）
][ne
ボコーダ：音源信号＊共振特性 ? 音声波形
B．音声信号の合成技術
歪んだ音声パラメータ
への対応も重要！
? 利点：音声波形の特徴を容易に制御可能
? 欠点：モデリングによる近似誤差

C．音声パラメータの変換法：規則を活用
リアルタイム
音声変換ソフト（Herium）
名城大学坂野秀樹先生作
音源パラメータ（基本周波数）
間隔を短くすると
長くすると
高い声になる！
低い声になる！
時間
時間
時間
周波数軸を
伸ばすと
縮めると
太い声に（声道長が
長く）なる！
周波数
パワー
周波数
パワー
周波数
パワー
共振パラメータ（スペクトル包絡）
子供っぽい声に
（声道長が短く）なる！
入力音声パラメータ
規則に基づく変換処理
（時不変な変換関数）
変換音声パラメータ

C．音声パラメータの変換法：統計的手法
学習データ
入力音声パラメータ
統計的な変換処理
（非線形変換関数）
変換音声パラメータ
? 回帰問題として音声パラメータ変換処理を定式化
? 声質変換（Voice Conversion）技術として進展
フレーム単位の変換 [阿部他]
代表点の対応
付け [阿部他]
確率モデルの
導入 [Stylianou et al.]
高精度化
? DNN/RNN
? 事例ベース
所望の特徴を変換する
変換関数が得られるように
学習データを設計
1990 1995 2000 2005 2010 2015
系列単位の変換 [戸田他]
確率的変動／揺らぎ成分の
モデル化 [戸田他][高道他]
回帰問題ではあるが誤差最小が良いとは限らない！
音声信号の確率的変動／揺らぎ成分を消失させ，
変換音声の音質劣化を招く傾向あり！

C．音声パラメータの変換法の比較
? 規則に基づく変換法
? 利点：高品質な変換処理
? 欠点：変換音声の特徴は限定的
? 統計的手法に基づく変換法
? 利点：所望の特徴を持つ音声へと変換可能
? 欠点：複雑な変換処理による品質劣化
リアルタイム
統計的音声変換ソフト
奈良先端科学技術大学院大学
小林和弘さん作
※ http://licca.takaratomy.co.jp/official/profile/

概説する内容
目次

音声変換の応用例
? 統計的音声変換における学習データを適切に設計することで
様々な変換処理を実現可能
? 例：音声生成機能拡張 [戸田他]
? 音声入力の利点（瞬時性）を活用
? リアルタイム音声変換処理を音声コミュニケーション拡張に適用
身体的制約を
超える発声補助
環境的制約を
超える通話
能力的制約を
超える表現獲得
不可能を可能として未知の体験をもたらす応用例が存在！
発声障碍者
の音声を
より自然な
音声へ
聞きとれないほど
微弱な音声を
より明瞭な
音声へ
現時点での
歌声を
若返った歌声へ
年老いた歌声へ
３．応用例

概説する内容
目次
A．変換音声の品質改善
B．手法の評価
C．人の適応能力の活用

A．変換音声の品質改善
? 音声信号の確率的揺らぎを如何に再現するか？
? DNN/RNNの生成学習 [Chen et al.]や敵対的学習 [齋藤他][金子他]
? 波形合成（ボコーダ）処理による劣化を如何に抑えるか？
? 波形加工処理による脱ボコーダ [小林他]
学習
データ
波形加工
処理
統計的
変換処理
学習データ
分析
処理
音声
パラメータ
加工パラメータ
４．課題と展望：1

A．高品質波形生成モデルの登場
? ニューラルネットワークを用いた非線形自己回帰モデルによる波形生成法
（WaveNet [van den Oord et al., 2016]，Sample RNN [Mehri et al., 2017]）
? 音声波形を離散シンボル系列として表現（＝波形接続型方式）
? 離散シンボル系列の確率分布をモデル化（＝確率的生成モデル方式）
? 音声信号の揺らぎ成分を高精度に表現可能！
? 信号処理と統計的変換処理を統合した統計的波形変換処理の実現へ！
学習
データ
統計的波形変換処理
学習データ
生成された過去の
音声波形シンボル系列
非線形自己回帰
モデル（CNN/RNN）
現時点の音声波形
シンボルをランダム生成
][? nx]1[?],2[?, ?? nxnx?

1 2 3 4 5
0
20
40
60
80
100
MOS on naturalness
Correctrate[%]on
speakersimilarity
Target
Source
Baseline
良い
良い
A
B
C
D
E
F
G
H
I
J
K
LM
N
O
P
Q
? 統計的音声変換手法の性能比較には共通の音声データセットを用いた
評価が必要不可欠
? Voice Conversion Challenge 2016 の開催 [Toda et al., 2016]
? タスク：話者変換（５話者?５話者，162文対で学習，別の54文を評価）
? データセット：DAPS [Mysore, 2015] を利用
? 参加チーム数：17
? 中国：4
? 日本：3
? インド：3
? 英国：2
? 香港：1
? 台湾：1
? シンガポール：1
? スペイン：1
? 米国：1
B．手法の評価

1 2 3 4 5
0
20
40
60
80
100
MOS on naturalness
Correctrate[%]on
speakersimilarity
Target
Source
Baseline
良い
良い
A
B
C
D
E
F
G
H
I
J
K
LM
N
O
P
Q
? 統計的音声変換手法の性能比較には共通の音声データセットを用いた
評価が必要不可欠
? Voice Conversion Challenge 2016 の開催 [Toda et al., 2016]
? タスク：話者変換（５話者?５話者，162文対で学習，別の54文を評価）
? データセット：DAPS [Mysore, 2015] を利用
? 参加チーム数：17
? 中国：4
? 日本：3
? インド：3
? 英国：2
? 香港：1
? 台湾：1
? シンガポール：1
? スペイン：1
? 米国：1
B．手法の評価
正解率 = 75%
MOS = 3.5

ユーザによる入力調整
聴覚フィードバック
C．人の適応能力の活用
統計的
変換処理
学習
データ
変換音声
処理
分析
処理
音声
パラメータ
入力動作
分析
処理
動作
パラメータ
? 人とシステムが協調することでより良い出力音声の生成を実現
? 補助入力情報としてユーザの動作信号を活用する枠組みの構築
? 人が持つ高い適応能力を最大限に活用する枠組みの構築
? 共創的音声生成機能拡張の実現へ（JSTさきがけ 2016.12～2020.03）

まとめ
音声変換の面白さと奥深さを
感じて頂けたら幸いです！
まとめ

まとめ
音声変換の面白さと奥深さを
感じて頂けたら幸いです！
音声変換技術は危険性を含んでいます！
? なりすましの助長
? 変換音声自動検出技術と変換技術はイタチごっこ
音声変換技術の普及に向け正しい社会的認知を得ることが必要です．
音声変換技術を「包丁」として認めてもらうための
研究活動ならびに社会活動が重要な課題となります．
まとめ
＋音声変換＝

狠狠撸

音声信号の分析と加工－音声を自在に変換するには？

More Related Content

音声信号の分析と加工－音声を自在に変換するには？

狠狠撸

音声信号の分析と加工 － 音声を自在に変換するには？

More Related Content

音声信号の分析と加工 － 音声を自在に変換するには？

音声信号の分析と加工－音声を自在に変換するには？

音声信号の分析と加工－音声を自在に変換するには？