狠狠撸

狠狠撸Share a Scribd company logo
高道 慎之介
ケプストラム分析 & 尝笔颁分析
/34
スライドについて
? 音声の特徴とは?
– 基本周波数、声道の特性など
? 何故そんなことをするのか?
– 少ないパラメータで音声波形を表現できる
– 音声を効率的?直感的に扱える
– 複数の特徴を分離できる
– など
2
音声の特徴を分析する手法を理解しよう!
スライドの目的
復習
~音声の生成過程~
3
/34
音声の生成
4
音色の付与
口や舌を動かして,
音色をつける!
声帯を開閉させて,
空気を振動させる!
音源の生成
音声波形
時間
混ぜる
/34
音源?声道伝達関数の周波数特性
5
周波数
パワー
周波数
パワー
基本周波数(F0)
音響管の共振周波数
周波数
パワー
音声の
周波数特性
微細構造
包絡
分析法①
~ケプストラム分析~
6
/34
ケプストラム分析のモチベーション
7
周波数
パワー
音声から、声道の特性と音源の特性を
抽出(分離)できないかな?
(でも、混ざっちゃってるんだよな???)
声道の特性と音源の特性の形に違いはないかな????
よく見ると、声道の特性は緩やかに変動して、
逆に、 音源の特性は激しく変動しているな。
じゃあ、上図の信号を、緩やかに振動する低周波数成分と
激しく振動する高周波数成分に分ければいいんだ!
/34
ケプストラム (Cepstrum)
? 定義: 時間波形のパワースペクトルの対数のフーリエ変換
? 特徴:
– 複数の信号が畳み込まれた信号を分離可能
– 対数パワースペクトルを波として考える方法
? 手順:
8
定義によっては
逆DFTを使用
板橋 他, 音声工学,図4.6から引用
/34
ケプストラムの計算
9
時間
振幅
周波数
パワー
周波数
対数パワー
音声波形から
切り出した時間波形 パワースペクトル 対数パワースペクトル
離散フーリエ変換(DFT) 対数の計算
対数パワースペクトルを時間波形だと思って(逆)DFT
=> ケプストラムが計算される!
声道特性(包絡)と音源特性(微細構造)が
分離されて現れる(はず)!
/34
ケプストラムの例
10
ケフレンシー
ケプストラム
低次のケプストラムは
声道特性(スペクトル包絡)に対応
高次のケプストラムは
音源特性(スペクトル微細構造)に対応
リフタ: ケプストラムに対するフィルタ
リフタを掛けることで低次/高次の情報を分離できる!
/34
包絡成分?基本周波数の抽出
11
板橋 他, 音声工学,図4.5から引用
低次だけを取り出すと
包絡を抽出
高次のピークでF0を抽出
10次
20次
包絡抽出
次数が上がると
より複雑に表現可能
分析法②
~線形予測分析~
12
/34
線形予測分析のモチベーション
13
周波数
パワー
音声の特徴(声道伝達関数など)を
効率よくモデル化できないかな?
じゃあ、声道を音響管だと思って、
その特性を抽出できればいいんじゃない?
人間の声道って、確か、音響管の
連接でモデル化できるんだよな???
そして、音響管の共振で音色が付くんだよね???
/34
線形予測法 (Linear Prediction Coding:LPC)
? 定義: 声道を音響管に見立てた時の特徴量
? 特徴: 声道の特徴を効率よくモデル化できる
14
口からの放射
)(zE )(zA )(zX
音源信号 音声信号
Z変換
音響管の特性A(z)は共振特性を持つと仮定
)(
1
1
)()()( 1
1
zE
zaza
zEzAzX p
p
??
???
??
?
線形予測係数
/34
LPCのパラメータと、その計算
15
周波数
パワー
)(
1
1
)()()( 1
1
zE
zaza
zEzAzX P
P
??
???
??
?
係数の値によって共振の特性
(スペクトルのピーク:フォルマント)が決定
全極モデルと呼ばれる
線形予測係数を求める方法
tx
切り取られた
時間 t の信号
??
?
P
p
ptp xa
0
線形予測係数で求められる
時間 t の信号
この二乗誤差を最小にするように、apを求める!(詳細は省略)
観測信号と、モデルから
生成される信号の差
/34
尝笔颁分析によって求められたスペクトル包絡
16
ケプストラム分析よりもピークを重視した包絡を抽出
= より効率的な特徴量
板橋 他, 音声工学,図4.13から引用
/34
スペクトル包絡と、LPCの発展
17
http://hil.t.u-tokyo.ac.jp/~sagayama/applied-acoustics/2009/C1-LPC.pdf より引用
2次
4次
10次
18次
ケプストラムと同じように、次数が増えるほど細かくモデル化できる
? 上図のように、LPCは特徴を効率よくモデル化できる
– しかし、ノイズ(誤差)に弱いなどの欠点がある
– ノイズに対する頑健性向上や更なる効率化のために、
PARCORやLSPと呼ばれる手法がある

More Related Content

やさしく音声分析法を学ぶ: ケプストラム分析と尝笔颁分析