5. How does UTAU work?
Resampler の役割:
音高をシフト、音の伸びを伸長 / 短縮、フラグ
を適用(例えば g はジェンダー(=性別関数)
をイジる)
wavtool の役割:
各波形の音量を調整、オーバーラップを考えて
波形を接続する。
6. パラメトリック式 / 非パラメトリック式
メソッド
●
resampler の役割を説明しましたが、広義的い
うと音声を処理することです。
●
音声処理は主に二種類の処理メソッドがありま
す。
●
一つは、処理される音声を波形入力し、波形に
対して処理を行い、それを音声として出力する
方式です。
Input
(waveform)
Output
(waveform)
Some speech
processing
going on here
7. パラメトリック式 / 非パラメトリック式
メソッド(続き)
● もう一つは、音声が入力されると、その入力音声に対して分析
をし、様々な「特徴量」を抽出し、その「特徴量」に対して要
求される処理を行い、その「処理をした特徴量」から出力音声
を合成する方式です。
Input
(waveform)
Output
(waveform)
Analysis Features
Synthesis
Some
processing
going on here
Features
(modified)
22. Works Cited
● LLSM は、複数の正弦曲線モデリングテクニックを参考して構
築しました。以下の知見をクレジットさせていただきます。
Pantazis, Yannis, and Yannis Stylianou. "Improving the modeling of the noise part in the harmonic plus noise
model of speech." Acoustics, Speech and Signal Processing, 2008. ICASSP 2008. IEEE International
Conference on. IEEE, 2008.
Quatieri, Thomas F., and Robert J. McAulay. "Shape invariant time-scale and pitch modification of speech."
Signal Processing, IEEE Transactions on 40.3 (1992): 497-510. 1992.
Serra, Xavier. "A system for sound analysis/transformation/synthesis based on a deterministic plus stochastic
decomposition." Diss. Stanford University. 1989.
Stylianou, Yannis. "Harmonic plus noise models for speech, combined with statistical methods, for speech and
speaker modification." Diss. Ecole Nationale Supérieure des Télécommunications. 1996.