狠狠撸

狠狠撸Share a Scribd company logo
音声生成過程を考慮した
WaveNetに基づく音声波形合成法
玉森 聡,林 知樹,戸田 智基,武田 一哉
名古屋大学
研究目標
高品質かつ多様な音声波形合成技術の実現
? 音声による機械との情報伝達
? 音声は最も基本的なコミュニケーションツールの一つ
? 音声対話?音声翻訳,家電,ゲーム など
? 様々な要望
? いつでもどこでも聞き取りやすい音声
? より自然で肉声感のある音声
? 話速や声質を柔軟に制御したい など
代表的な音声波形合成技術
波形接続方式
(ノンパラメトリック)
分析合成方式
(パラメトリック)
概要 :
音声波形の素片を接続して
音声を合成
概要:
音響特徴量(パラメタ)から
音声を合成
利点:
高品質(明瞭性の高さなど)
欠点:
音質が劣化(ボコーダ音)
欠点:
声質制御の柔軟性が低い
(話速や声色) など
利点:
声質制御の柔軟性が高い
など
両方式の良いとこ取りは実現できないか?
深層学習に基づく音声波形合成
? 音声合成分野にも深層学習が進出
例:Feed-Forward [Zen et al., ‘13] , LSTM-RNN [Zen et al., ‘15]
? WaveNet [van den Oord et al., ‘16]
? ニューラルネットワーク自身が音声波形を直接生成
?波形接続方式をも上回る高品質な音声
? 波形合成をサポートする補助特徴量が利用可能
WaveNetのポテンシャルに注目
本研究の概要
? 音響特徴量をWaveNetの補助特徴量として利用
従来の波形接続?分析合成方式の利点を併せ持つ
? 音響特徴量の利用 ? 声質制御の柔軟性を期待
? 既存の分析合成器を介さない ? 高品質な音声を期待
? 客観評価実験
メルケプストラムボコーダと比較して歪み改善
WaveNet
合成音声
音響特徴量
目次
? 研究背景
? 音声の生成過程とソースフィルタモデル
? WaveNet
? 提案法
? 実験
? まとめ
音声の生成過程
肺からの空気
音声
「こんにちは」
テキスト(概念)
「こんにちは」
口やのどの形
声の高さ?大きさ
発声器官を制御
音声の生成過程を模擬
(ディジタルフィルタ)
合成音声
制御パラメータ化して表現
ソースフィルタモデル[Fant, ‘60]
)(nh
)(ne
)(*)()( nenhnx ?
励起信号
パルス列(有声)
白色雑音(無声)
音声
音源の特徴
(声の高さ?大きさ)
声道の特徴
(口やのどの形)
基本周波数
非周期成分付与
有声?無声情報
窓かけ
overlap/shift
ケプストラム係数など
+
線形時不変システム
? 音声の生成過程を音源生成と声道共振(フィルタ)に分離
? 窓かけした音声を分析して音響特徴量を抽出
基本周波数(音源),ケプストラム係数(声道)など
? 音声波形合成系はボコーダ(Vocoder)とも呼ばれる
音質の限界を与える要因
)(nh
)(ne
)(*)()( nenhnx ?
励起信号
パルス列(有声)
白色雑音(無声)
音声
音源の特徴
(声の高さ?大きさ)
声道の特徴
(口やのどの形)
基本周波数
非周期成分付与
有声?無声情報
窓かけ
overlap/shift
ケプストラム係数など
+
線形時不変システム
? 励起信号のモデル化 ? 位相情報の損失
? フィルタのモデル化 ? 数学的仮定の導入(ガウス性など)
? Frame-by-Frameな処理 ? 固定窓長&窓内の線形性
複数要因が組み合わさり音質が劣化
目次
? 研究背景
? 音声の生成過程とソースフィルタモデル
? WaveNet
? 提案法
? 実験
? まとめ
WaveNet [van den Oord et.al, ’16]
音声の自己回帰型の生成モデル
重要な構成要素
? Causal dilated convolution
?非常に長期に渡る依存関係をモデル化
? ゲート付き活性化関数, residual, skip-connection
?強力な非線形性
? 出力層にsoftmax
?回帰問題(連続値)ではなくクラス分類問題(離散値)
:音声波形データ
畳み込みニューラルネットワークでモデル化
:モデルパラメータ
Causal Dilated Convolution
? Causal : 過去の波形サンプルのみを参照して畳み込み
? 層を重ねるごとにdilation(穴あき)を指数的に増やす
?長期の相関を効率よく取り込む
入力
隠れ層1
dilation=1
隠れ層2
dilation=2
隠れ層3
dilation=4
出力
dilation=8
アーキテクチャの全体図
sigm
Dilated
Conv.
1×1
Conv.
tanh tanh sigm
Dilated
Conv.
1×1
Conv.
tanh sigm
Dilated
Conv.
1×1
Conv.
Causal
Conv.
ReLU
Skip-connections
Residual Residual
1×1
Conv.
1×1
Conv.
ReLU
Input
Output
● ● ●
Softmax
Residual
ブロック
Residual
ブロック
Residual
ブロック
アーキテクチャの全体図
Dilated
Conv.
1×1
Conv.
tanh sigm
Dilated
Conv.
1×1
Conv.
tanh sigm
Dilated
Conv.
1×1
Conv.
Causal
Conv.
ReLU
Skip-connections
Residual Residual
1×1
Conv.
1×1
Conv.
ReLU
Input
Output
● ● ●
Softmax
Residual
ブロック
Residual
ブロックGated activation
Causal Dilated Conv.
ゲート付き活性化関数
Residual
Skip-connection
Softmax
? 問題点:振幅値の直接予測はクラス数が過多
例:量子化が16bitならば65,536個の値を取りうる
? 解決策:振幅値の符号化
取りうる値を大幅に削減(16bitから8bit)
? Softmax分布を出力層に設置
? 符号化された波形サンプル値が予測対象
? 予測で得られた値は復号化して振幅値に戻す
WaveNetの学習と合成
? 学習
? 入力側と出力側それぞれに符号化済サンプル列を用意
? クロスエントロピー最小化基準による最適化
? 合成
? 入力側は過去にWaveNet自身が生成したサンプル列
? Softmax分布からのランダムサンプリングを繰り返す
?自己回帰過程からのサンプリング
条件付きWaveNet
? 補助特徴量系列 を導入してモデルを条件づける
? 先行研究では言語情報や基本周波数が補助特徴量
? 言語情報と音声波形の間の対応関係を学習
? テキスト音声合成タスクに適用
目次
? 研究背景
? 音声の生成過程とソースフィルタモデル
? WaveNet
? 提案法
? 実験
? まとめ
条件付きWaveNetと提案法との関係
? 補助特徴量系列 によるモデルの条件づけは同じ
? 提案法は既存のボコーダの音響特徴量が補助特徴量
補助特徴量系列と音声波形系列で時間解像度が不一致
?補助特徴量の時間拡張( → )により対応
?各時刻の補助特徴量を予測分布に埋め込む
音響特徴量の抽出
音声
…… …
分析窓長
フレームシフト
音声分析
特徴量系列長は音声波形長よりも短い
音響
特徴量
音響特徴量の時間拡張
音響特徴量をフレームシフト幅だけ時間方向に複製
?音声と時間的解像度を合わせる
第1フレーム 第2フレーム 第3フレーム 第4フレーム
音声サンプル点
系列
オリジナルの
補助特徴量
系列
コピー
…
…
時間拡張した
補助特徴量
系列 …
補助特徴量の埋め込み
Residual Blockの追加入力として実現
Residual
Block #3
Residual
Block #4
Residual
Block #2
Residual
Block #1
Residual
Block #1
補助特徴量
隠れ層1
dilation=1
隠れ層2
dilation=2
隠れ層3
dilation=4
出力
dilation=8
提案法の特徴
ボコーダの音響特徴量と音声波形の対応関係を学習
? 励起信号のモデル化は不要
?位相情報の損失の軽減,音質劣化を抑える
? 複雑な数学的モデルや仮定は不要
?対応関係をデータドリブンで自動構築
? Sample-by-Sampleかつ非線形な対応関係
?従来はFrame-by-Frameかつ線形な関係
既存のボコーダの代替を期待
目次
? 研究背景
? 音声の生成過程とソースフィルタモデル
? WaveNet
? 提案法
? 実験
? まとめ
実験による性能評価
? 合成音声と元音声の間の歪みによる客観評価
? 実験条件
CMU-ARCTIC データベース
女性話者 SLT
学習データ 1082 文章
評価データ 50 文章
サンプリング周波数 16 kHz
フレーム周期 5 ms
フレーム長 25 ms
窓関数 ハミング窓
0 次?24 次メルケプストラム
基本周波数
データベース
音響特徴量
ネットワークの学習条件
? 最適化アルゴリズムはAdamを利用; 学習率は手動で調整
? Dilationは1, 2, .... , 512を
3回繰り返す
?30層
Dilated
Conv.
1×1
Conv.
tanh sigm
Dilated
Conv.
1×1
Conv.
tanh sigm
Dilated
Conv.
1×1
Conv.
Causal
Conv.
ReLU
Skip-connections
Residual Residual
1×1
Conv.
1×1
Conv.
ReLU
Input
Output
● ● ●
Softmax
Residual
ブロック
Residual
ブロックGated activation
256ch
256ch
30ブロック = Causal dilated convolution 30層
2048ch 2048ch
256ch
2048ch
歪み評価の指標
? フレーム平均SNR(セグメンタルSNR)
?時間領域の歪みを評価
? フレーム平均SDR
?振幅スペクトルの歪みを評価
: フレーム総数 : フレーム長 : 評価用音声 : 合成音声
: 周波数ビンの総数 : 合成音声の
スペクトログラム
: 評価用音声の
スペクトログラム
補助特徴量の違いが歪みに与える影響
補助特徴量のパターン 説明
Nothing 補助特徴量なし
Mcep メルケプストラムのみ
Mcep + F0 メルケプストラム
基本周波数
? 補助特徴量を変えてWaveNetを学習
※メルケプストラムは短時間FFTスペクトルから抽出
実験結果(補助特徴量の違い)
? 縦軸の単位はdB; ノッチは有意水準5%の信頼区間を表す
SNR SDR
McepNothing Mcep+F0Raw
(くぼみ)
実験結果(補助特徴量の違い)
? 基本周波数の軌跡(合成音声を分析して抽出)
Mcepは評価用音声(Test)の軌跡から大きく逸脱
メルケプストラムのみでも致命的な破綻はない
抽出誤り
メルケプストラムボコーダとの歪み比較
比較手法 メルケプストラムの抽出元 波形合成法
Plain-MLSA 短時間FFTスペクトル MLSA フィルタ
STRAIGHT-
MLSA
STRAIGHT分析※1による
スペクトル包絡
MLSA フィルタ
※2
Plain-
WaveNet
短時間FFTスペクトル WaveNet
STRAIGHT-
WaveNet
STRAIGHT分析による
スペクトル包絡
WaveNet
※1 高品質ボコーダSTRAIGHTで行われる音声分析の通称
※2 MLSAフィルタ:メルケプストラムボコーダの合成フィルタ
実験結果(SNR)
提案法の有効性を確認
SNRの改善
STRAIGHT-
WaveNet
実験結果(SNR)
メルケプストラムボコーダからの
有意な歪み改善
STRAIGHT-
WaveNet
実験結果(SNR)
高品質なメルケプストラムが
波形生成に有効に働く
STRAIGHT-
WaveNet
Raw
実験結果(SDR)
STRAIGHT-MLSAと同等の歪みを達成
STRAIGHT-
WaveNet
まとめ
音声の生成過程を考慮したWaveNetに基づく音声波形合成
? 既存のボコーダの音響特徴量を補助特徴量に利用
? 客観評価実験
? メルケプストラムボコーダが対象
? SNRについて有意な歪み改善,SDRはSTRAIGHTと同程度
今後の課題
? 主観評価実験
? 音響特徴量の変化に対する補完?頑健性の調査
? 既存の各種ボコーダの音響特徴量を適用
? データの規模を増減させて有効性を検証
時間領域の歪みを改善した高品質な音声波形の生成

More Related Content

What's hot (20)

音情报処理における特徴表现
音情报処理における特徴表现音情报処理における特徴表现
音情报処理における特徴表现
NU_I_TODALAB
?
音源分離における音響モデリング(Acoustic modeling in audio source separation)
音源分離における音響モデリング(Acoustic modeling in audio source separation)音源分離における音響モデリング(Acoustic modeling in audio source separation)
音源分離における音響モデリング(Acoustic modeling in audio source separation)
Daichi Kitamura
?
音源分離 ~DNN音源分離の基礎から最新技術まで~ Tokyo bishbash #3
音源分離 ~DNN音源分離の基礎から最新技術まで~ Tokyo bishbash #3音源分離 ~DNN音源分離の基礎から最新技術まで~ Tokyo bishbash #3
音源分離 ~DNN音源分離の基礎から最新技術まで~ Tokyo bishbash #3
Naoya Takahashi
?
短时间発话を用いた话者照合のための音声加工の効果に関する検讨
短时间発话を用いた话者照合のための音声加工の効果に関する検讨短时间発话を用いた话者照合のための音声加工の効果に関する検讨
短时间発话を用いた话者照合のための音声加工の効果に関する検讨
Shinnosuke Takamichi
?
Interspeech2020 paper reading workshop "Similarity-and-Independence-Aware-Bea...
Interspeech2020 paper reading workshop "Similarity-and-Independence-Aware-Bea...Interspeech2020 paper reading workshop "Similarity-and-Independence-Aware-Bea...
Interspeech2020 paper reading workshop "Similarity-and-Independence-Aware-Bea...
ssuserf54db1
?
深层パーミュテーション解决法の基础的検讨
深层パーミュテーション解决法の基础的検讨深层パーミュテーション解决法の基础的検讨
深层パーミュテーション解决法の基础的検讨
Kitamura Laboratory
?
声质変换の概要と最新手法の绍介
声质変换の概要と最新手法の绍介声质変换の概要と最新手法の绍介
声质変换の概要と最新手法の绍介
Kentaro Tachibana
?
高次アンビソニックスのための マイクロホンアレイ設計の研究
高次アンビソニックスのための マイクロホンアレイ設計の研究高次アンビソニックスのための マイクロホンアレイ設計の研究
高次アンビソニックスのための マイクロホンアレイ設計の研究
horieyuto
?
日本音響学会2017秋 ”Moment-matching networkに基づく一期一会音声合成における発話間変動の評価”
日本音響学会2017秋 ”Moment-matching networkに基づく一期一会音声合成における発話間変動の評価”日本音響学会2017秋 ”Moment-matching networkに基づく一期一会音声合成における発話間変動の評価”
日本音響学会2017秋 ”Moment-matching networkに基づく一期一会音声合成における発話間変動の評価”
Shinnosuke Takamichi
?
[DL輪読会]Wavenet a generative model for raw audio
[DL輪読会]Wavenet a generative model for raw audio[DL輪読会]Wavenet a generative model for raw audio
[DL輪読会]Wavenet a generative model for raw audio
Deep Learning JP
?
音声の声质を変换する技术とその応用
音声の声质を変换する技术とその応用音声の声质を変换する技术とその応用
音声の声质を変换する技术とその応用
NU_I_TODALAB
?
雑音环境下音声を用いた音声合成のための雑音生成モデルの敌対的学习
雑音环境下音声を用いた音声合成のための雑音生成モデルの敌対的学习雑音环境下音声を用いた音声合成のための雑音生成モデルの敌対的学习
雑音环境下音声を用いた音声合成のための雑音生成モデルの敌対的学习
Shinnosuke Takamichi
?
サブバンドフィルタリングに基づくリアルタイム広帯域顿狈狈声质変换の実装と评価
サブバンドフィルタリングに基づくリアルタイム広帯域顿狈狈声质変换の実装と评価サブバンドフィルタリングに基づくリアルタイム広帯域顿狈狈声质変换の実装と评価
サブバンドフィルタリングに基づくリアルタイム広帯域顿狈狈声质変换の実装と评価
Shinnosuke Takamichi
?
顿狈狈テキスト音声合成のための础苍迟颈-蝉辫辞辞蹿颈苍驳に敌対する学习アルゴリズム
顿狈狈テキスト音声合成のための础苍迟颈-蝉辫辞辞蹿颈苍驳に敌対する学习アルゴリズム顿狈狈テキスト音声合成のための础苍迟颈-蝉辫辞辞蹿颈苍驳に敌対する学习アルゴリズム
顿狈狈テキスト音声合成のための础苍迟颈-蝉辫辞辞蹿颈苍驳に敌対する学习アルゴリズム
Shinnosuke Takamichi
?
深层学习を利用した音声强调
深层学习を利用した音声强调深层学习を利用した音声强调
深层学习を利用した音声强调
Yuma Koizumi
?
[チュートリアル講演] 音声波形直接生成モデル「ニューラルボコーダ」の比較
[チュートリアル講演] 音声波形直接生成モデル「ニューラルボコーダ」の比較[チュートリアル講演] 音声波形直接生成モデル「ニューラルボコーダ」の比較
[チュートリアル講演] 音声波形直接生成モデル「ニューラルボコーダ」の比較
Takuma_OKAMOTO
?
基底変形型教師ありNMFによる実楽器信号分離 (in Japanese)
基底変形型教師ありNMFによる実楽器信号分離 (in Japanese)基底変形型教師ありNMFによる実楽器信号分離 (in Japanese)
基底変形型教師ありNMFによる実楽器信号分離 (in Japanese)
Daichi Kitamura
?
奥补惫别狈别迟が音声合成研究に与える影响
奥补惫别狈别迟が音声合成研究に与える影响奥补惫别狈别迟が音声合成研究に与える影响
奥补惫别狈别迟が音声合成研究に与える影响
NU_I_TODALAB
?
音声合成のコーパスをつくろう
音声合成のコーパスをつくろう音声合成のコーパスをつくろう
音声合成のコーパスをつくろう
Shinnosuke Takamichi
?
Kameoka2017 ieice03
Kameoka2017 ieice03Kameoka2017 ieice03
Kameoka2017 ieice03
kame_hirokazu
?
音情报処理における特徴表现
音情报処理における特徴表现音情报処理における特徴表现
音情报処理における特徴表现
NU_I_TODALAB
?
音源分離における音響モデリング(Acoustic modeling in audio source separation)
音源分離における音響モデリング(Acoustic modeling in audio source separation)音源分離における音響モデリング(Acoustic modeling in audio source separation)
音源分離における音響モデリング(Acoustic modeling in audio source separation)
Daichi Kitamura
?
音源分離 ~DNN音源分離の基礎から最新技術まで~ Tokyo bishbash #3
音源分離 ~DNN音源分離の基礎から最新技術まで~ Tokyo bishbash #3音源分離 ~DNN音源分離の基礎から最新技術まで~ Tokyo bishbash #3
音源分離 ~DNN音源分離の基礎から最新技術まで~ Tokyo bishbash #3
Naoya Takahashi
?
短时间発话を用いた话者照合のための音声加工の効果に関する検讨
短时间発话を用いた话者照合のための音声加工の効果に関する検讨短时间発话を用いた话者照合のための音声加工の効果に関する検讨
短时间発话を用いた话者照合のための音声加工の効果に関する検讨
Shinnosuke Takamichi
?
Interspeech2020 paper reading workshop "Similarity-and-Independence-Aware-Bea...
Interspeech2020 paper reading workshop "Similarity-and-Independence-Aware-Bea...Interspeech2020 paper reading workshop "Similarity-and-Independence-Aware-Bea...
Interspeech2020 paper reading workshop "Similarity-and-Independence-Aware-Bea...
ssuserf54db1
?
深层パーミュテーション解决法の基础的検讨
深层パーミュテーション解决法の基础的検讨深层パーミュテーション解决法の基础的検讨
深层パーミュテーション解决法の基础的検讨
Kitamura Laboratory
?
声质変换の概要と最新手法の绍介
声质変换の概要と最新手法の绍介声质変换の概要と最新手法の绍介
声质変换の概要と最新手法の绍介
Kentaro Tachibana
?
高次アンビソニックスのための マイクロホンアレイ設計の研究
高次アンビソニックスのための マイクロホンアレイ設計の研究高次アンビソニックスのための マイクロホンアレイ設計の研究
高次アンビソニックスのための マイクロホンアレイ設計の研究
horieyuto
?
日本音響学会2017秋 ”Moment-matching networkに基づく一期一会音声合成における発話間変動の評価”
日本音響学会2017秋 ”Moment-matching networkに基づく一期一会音声合成における発話間変動の評価”日本音響学会2017秋 ”Moment-matching networkに基づく一期一会音声合成における発話間変動の評価”
日本音響学会2017秋 ”Moment-matching networkに基づく一期一会音声合成における発話間変動の評価”
Shinnosuke Takamichi
?
[DL輪読会]Wavenet a generative model for raw audio
[DL輪読会]Wavenet a generative model for raw audio[DL輪読会]Wavenet a generative model for raw audio
[DL輪読会]Wavenet a generative model for raw audio
Deep Learning JP
?
音声の声质を変换する技术とその応用
音声の声质を変换する技术とその応用音声の声质を変换する技术とその応用
音声の声质を変换する技术とその応用
NU_I_TODALAB
?
雑音环境下音声を用いた音声合成のための雑音生成モデルの敌対的学习
雑音环境下音声を用いた音声合成のための雑音生成モデルの敌対的学习雑音环境下音声を用いた音声合成のための雑音生成モデルの敌対的学习
雑音环境下音声を用いた音声合成のための雑音生成モデルの敌対的学习
Shinnosuke Takamichi
?
サブバンドフィルタリングに基づくリアルタイム広帯域顿狈狈声质変换の実装と评価
サブバンドフィルタリングに基づくリアルタイム広帯域顿狈狈声质変换の実装と评価サブバンドフィルタリングに基づくリアルタイム広帯域顿狈狈声质変换の実装と评価
サブバンドフィルタリングに基づくリアルタイム広帯域顿狈狈声质変换の実装と评価
Shinnosuke Takamichi
?
顿狈狈テキスト音声合成のための础苍迟颈-蝉辫辞辞蹿颈苍驳に敌対する学习アルゴリズム
顿狈狈テキスト音声合成のための础苍迟颈-蝉辫辞辞蹿颈苍驳に敌対する学习アルゴリズム顿狈狈テキスト音声合成のための础苍迟颈-蝉辫辞辞蹿颈苍驳に敌対する学习アルゴリズム
顿狈狈テキスト音声合成のための础苍迟颈-蝉辫辞辞蹿颈苍驳に敌対する学习アルゴリズム
Shinnosuke Takamichi
?
深层学习を利用した音声强调
深层学习を利用した音声强调深层学习を利用した音声强调
深层学习を利用した音声强调
Yuma Koizumi
?
[チュートリアル講演] 音声波形直接生成モデル「ニューラルボコーダ」の比較
[チュートリアル講演] 音声波形直接生成モデル「ニューラルボコーダ」の比較[チュートリアル講演] 音声波形直接生成モデル「ニューラルボコーダ」の比較
[チュートリアル講演] 音声波形直接生成モデル「ニューラルボコーダ」の比較
Takuma_OKAMOTO
?
基底変形型教師ありNMFによる実楽器信号分離 (in Japanese)
基底変形型教師ありNMFによる実楽器信号分離 (in Japanese)基底変形型教師ありNMFによる実楽器信号分離 (in Japanese)
基底変形型教師ありNMFによる実楽器信号分離 (in Japanese)
Daichi Kitamura
?
奥补惫别狈别迟が音声合成研究に与える影响
奥补惫别狈别迟が音声合成研究に与える影响奥补惫别狈别迟が音声合成研究に与える影响
奥补惫别狈别迟が音声合成研究に与える影响
NU_I_TODALAB
?
音声合成のコーパスをつくろう
音声合成のコーパスをつくろう音声合成のコーパスをつくろう
音声合成のコーパスをつくろう
Shinnosuke Takamichi
?

Viewers also liked (19)

恳亲会の余兴スライド
恳亲会の余兴スライド恳亲会の余兴スライド
恳亲会の余兴スライド
Akira Tamamori
?
サポートベクトルマシンを用いた自動人相判別の検討 : A study on automatic physiognomy classification wi...
サポートベクトルマシンを用いた自動人相判別の検討 : A study on automatic physiognomy classification wi...サポートベクトルマシンを用いた自動人相判別の検討 : A study on automatic physiognomy classification wi...
サポートベクトルマシンを用いた自動人相判別の検討 : A study on automatic physiognomy classification wi...
Akira Tamamori
?
2値化CNN on FPGAでGPUとガチンコバトル(公開版)
2値化CNN on FPGAでGPUとガチンコバトル(公開版)2値化CNN on FPGAでGPUとガチンコバトル(公開版)
2値化CNN on FPGAでGPUとガチンコバトル(公開版)
Hiroki Nakahara
?
フォントの选び方?使い方
フォントの选び方?使い方フォントの选び方?使い方
フォントの选び方?使い方
k maztani
?
介護Agent提案書 v20214
介護Agent提案書 v20214介護Agent提案書 v20214
介護Agent提案書 v20214
nakajima19931201
?
An Analysis of Convolution for Inference
An Analysis of Convolution for InferenceAn Analysis of Convolution for Inference
An Analysis of Convolution for Inference
Intel Nervana
?
ELMS:LN - Dreaming the NGDLE into reality
ELMS:LN - Dreaming the NGDLE into realityELMS:LN - Dreaming the NGDLE into reality
ELMS:LN - Dreaming the NGDLE into reality
Bryan Ollendyke
?
Apatía escolarApatía escolar
Apatía escolar
Alejandra Ramírez
?
NTU@TPE intro 2017Spring
NTU@TPE intro 2017SpringNTU@TPE intro 2017Spring
NTU@TPE intro 2017Spring
Shuwei Huang
?
TETRIS AI WITH REINFORCEMENT LEARNING
TETRIS AI WITH REINFORCEMENT LEARNINGTETRIS AI WITH REINFORCEMENT LEARNING
TETRIS AI WITH REINFORCEMENT LEARNING
Jungkyu Lee
?
Tarikh al Hawadits wa al Ahwal an Nabawiyyah (????? ??????? ???????? ???????)
Tarikh al Hawadits wa al Ahwal an Nabawiyyah (????? ??????? ???????? ???????)Tarikh al Hawadits wa al Ahwal an Nabawiyyah (????? ??????? ???????? ???????)
Tarikh al Hawadits wa al Ahwal an Nabawiyyah (????? ??????? ???????? ???????)
Nur Agustin Mufarokhah
?
PreadNet
PreadNetPreadNet
PreadNet
Junya Kuwada
?
Regret Minimization in Multi-objective Submodular Function Maximization
Regret Minimization in Multi-objective Submodular Function MaximizationRegret Minimization in Multi-objective Submodular Function Maximization
Regret Minimization in Multi-objective Submodular Function Maximization
Tasuku Soma
?
笔测迟丑辞苍で実现する4コマ漫画の分析?评论
笔测迟丑辞苍で実现する4コマ漫画の分析?评论笔测迟丑辞苍で実现する4コマ漫画の分析?评论
笔测迟丑辞苍で実现する4コマ漫画の分析?评论
esu ji
?
Standard Assessment Procedure - ATSPACE LTD
Standard Assessment Procedure - ATSPACE LTDStandard Assessment Procedure - ATSPACE LTD
Standard Assessment Procedure - ATSPACE LTD
atspaceltd
?
骋搁鲍-笔谤别诲苍别迟を実装してみた(途中経过)
骋搁鲍-笔谤别诲苍别迟を実装してみた(途中経过)骋搁鲍-笔谤别诲苍别迟を実装してみた(途中経过)
骋搁鲍-笔谤别诲苍别迟を実装してみた(途中経过)
Taichi Iki
?
颁丑补颈苍别谤を使ったらカノシ?ョか?て?きたお话
颁丑补颈苍别谤を使ったらカノシ?ョか?て?きたお话颁丑补颈苍别谤を使ったらカノシ?ョか?て?きたお话
颁丑补颈苍别谤を使ったらカノシ?ョか?て?きたお话
Hiroki Yamamoto
?
My Future Teaching
My Future TeachingMy Future Teaching
My Future Teaching
JIA JIA LIOU
?
Pred net使ってみた
Pred net使ってみたPred net使ってみた
Pred net使ってみた
koji ochiai
?
恳亲会の余兴スライド
恳亲会の余兴スライド恳亲会の余兴スライド
恳亲会の余兴スライド
Akira Tamamori
?
サポートベクトルマシンを用いた自動人相判別の検討 : A study on automatic physiognomy classification wi...
サポートベクトルマシンを用いた自動人相判別の検討 : A study on automatic physiognomy classification wi...サポートベクトルマシンを用いた自動人相判別の検討 : A study on automatic physiognomy classification wi...
サポートベクトルマシンを用いた自動人相判別の検討 : A study on automatic physiognomy classification wi...
Akira Tamamori
?
2値化CNN on FPGAでGPUとガチンコバトル(公開版)
2値化CNN on FPGAでGPUとガチンコバトル(公開版)2値化CNN on FPGAでGPUとガチンコバトル(公開版)
2値化CNN on FPGAでGPUとガチンコバトル(公開版)
Hiroki Nakahara
?
フォントの选び方?使い方
フォントの选び方?使い方フォントの选び方?使い方
フォントの选び方?使い方
k maztani
?
An Analysis of Convolution for Inference
An Analysis of Convolution for InferenceAn Analysis of Convolution for Inference
An Analysis of Convolution for Inference
Intel Nervana
?
ELMS:LN - Dreaming the NGDLE into reality
ELMS:LN - Dreaming the NGDLE into realityELMS:LN - Dreaming the NGDLE into reality
ELMS:LN - Dreaming the NGDLE into reality
Bryan Ollendyke
?
Apatía escolarApatía escolar
Apatía escolar
Alejandra Ramírez
?
NTU@TPE intro 2017Spring
NTU@TPE intro 2017SpringNTU@TPE intro 2017Spring
NTU@TPE intro 2017Spring
Shuwei Huang
?
TETRIS AI WITH REINFORCEMENT LEARNING
TETRIS AI WITH REINFORCEMENT LEARNINGTETRIS AI WITH REINFORCEMENT LEARNING
TETRIS AI WITH REINFORCEMENT LEARNING
Jungkyu Lee
?
Tarikh al Hawadits wa al Ahwal an Nabawiyyah (????? ??????? ???????? ???????)
Tarikh al Hawadits wa al Ahwal an Nabawiyyah (????? ??????? ???????? ???????)Tarikh al Hawadits wa al Ahwal an Nabawiyyah (????? ??????? ???????? ???????)
Tarikh al Hawadits wa al Ahwal an Nabawiyyah (????? ??????? ???????? ???????)
Nur Agustin Mufarokhah
?
Regret Minimization in Multi-objective Submodular Function Maximization
Regret Minimization in Multi-objective Submodular Function MaximizationRegret Minimization in Multi-objective Submodular Function Maximization
Regret Minimization in Multi-objective Submodular Function Maximization
Tasuku Soma
?
笔测迟丑辞苍で実现する4コマ漫画の分析?评论
笔测迟丑辞苍で実现する4コマ漫画の分析?评论笔测迟丑辞苍で実现する4コマ漫画の分析?评论
笔测迟丑辞苍で実现する4コマ漫画の分析?评论
esu ji
?
Standard Assessment Procedure - ATSPACE LTD
Standard Assessment Procedure - ATSPACE LTDStandard Assessment Procedure - ATSPACE LTD
Standard Assessment Procedure - ATSPACE LTD
atspaceltd
?
骋搁鲍-笔谤别诲苍别迟を実装してみた(途中経过)
骋搁鲍-笔谤别诲苍别迟を実装してみた(途中経过)骋搁鲍-笔谤别诲苍别迟を実装してみた(途中経过)
骋搁鲍-笔谤别诲苍别迟を実装してみた(途中経过)
Taichi Iki
?
颁丑补颈苍别谤を使ったらカノシ?ョか?て?きたお话
颁丑补颈苍别谤を使ったらカノシ?ョか?て?きたお话颁丑补颈苍别谤を使ったらカノシ?ョか?て?きたお话
颁丑补颈苍别谤を使ったらカノシ?ョか?て?きたお话
Hiroki Yamamoto
?
Pred net使ってみた
Pred net使ってみたPred net使ってみた
Pred net使ってみた
koji ochiai
?

Similar to A Method of Speech Waveform Synthesis based on WaveNet considering Speech Generation Process (8)

音声を検索するための索引付け方式の绍介(初心者向け)
音声を検索するための索引付け方式の绍介(初心者向け)音声を検索するための索引付け方式の绍介(初心者向け)
音声を検索するための索引付け方式の绍介(初心者向け)
utsuro_lab
?
Kameoka2016 miru08
Kameoka2016 miru08Kameoka2016 miru08
Kameoka2016 miru08
kame_hirokazu
?
深层学习に基づく间引きインジケータ付き周波数帯域补间手法による音源分离処理の高速化
深层学习に基づく间引きインジケータ付き周波数帯域补间手法による音源分离処理の高速化深层学习に基づく间引きインジケータ付き周波数帯域补间手法による音源分离処理の高速化
深层学习に基づく间引きインジケータ付き周波数帯域补间手法による音源分离処理の高速化
Kitamura Laboratory
?
深层学习に基づく音响帯域拡张による音源分离処理の高速化
深层学习に基づく音响帯域拡张による音源分离処理の高速化深层学习に基づく音响帯域拡张による音源分离処理の高速化
深层学习に基づく音响帯域拡张による音源分离処理の高速化
Kitamura Laboratory
?
AnnoTone: 高周波音の映像収録時 埋め込みによる編集支援
AnnoTone: 高周波音の映像収録時埋め込みによる編集支援AnnoTone: 高周波音の映像収録時埋め込みによる編集支援
AnnoTone: 高周波音の映像収録時 埋め込みによる編集支援
Ryohei Suzuki
?
论文绍介惭辞谤辫丑颈苍驳-丑耻颈.辫辫迟虫
论文绍介惭辞谤辫丑颈苍驳-丑耻颈.辫辫迟虫论文绍介惭辞谤辫丑颈苍驳-丑耻颈.辫辫迟虫
论文绍介惭辞谤辫丑颈苍驳-丑耻颈.辫辫迟虫
Natsumi KOBAYASHI
?
WaveNet: A Generative Model for Raw Audio
WaveNet: A Generative Model for Raw AudioWaveNet: A Generative Model for Raw Audio
WaveNet: A Generative Model for Raw Audio
Shunji Kawabata
?
深层生成モデルに基づく音声合成技术
深层生成モデルに基づく音声合成技术深层生成モデルに基づく音声合成技术
深层生成モデルに基づく音声合成技术
NU_I_TODALAB
?
音声を検索するための索引付け方式の绍介(初心者向け)
音声を検索するための索引付け方式の绍介(初心者向け)音声を検索するための索引付け方式の绍介(初心者向け)
音声を検索するための索引付け方式の绍介(初心者向け)
utsuro_lab
?
深层学习に基づく间引きインジケータ付き周波数帯域补间手法による音源分离処理の高速化
深层学习に基づく间引きインジケータ付き周波数帯域补间手法による音源分离処理の高速化深层学习に基づく间引きインジケータ付き周波数帯域补间手法による音源分离処理の高速化
深层学习に基づく间引きインジケータ付き周波数帯域补间手法による音源分离処理の高速化
Kitamura Laboratory
?
深层学习に基づく音响帯域拡张による音源分离処理の高速化
深层学习に基づく音响帯域拡张による音源分离処理の高速化深层学习に基づく音响帯域拡张による音源分离処理の高速化
深层学习に基づく音响帯域拡张による音源分离処理の高速化
Kitamura Laboratory
?
AnnoTone: 高周波音の映像収録時 埋め込みによる編集支援
AnnoTone: 高周波音の映像収録時埋め込みによる編集支援AnnoTone: 高周波音の映像収録時埋め込みによる編集支援
AnnoTone: 高周波音の映像収録時 埋め込みによる編集支援
Ryohei Suzuki
?
论文绍介惭辞谤辫丑颈苍驳-丑耻颈.辫辫迟虫
论文绍介惭辞谤辫丑颈苍驳-丑耻颈.辫辫迟虫论文绍介惭辞谤辫丑颈苍驳-丑耻颈.辫辫迟虫
论文绍介惭辞谤辫丑颈苍驳-丑耻颈.辫辫迟虫
Natsumi KOBAYASHI
?
WaveNet: A Generative Model for Raw Audio
WaveNet: A Generative Model for Raw AudioWaveNet: A Generative Model for Raw Audio
WaveNet: A Generative Model for Raw Audio
Shunji Kawabata
?
深层生成モデルに基づく音声合成技术
深层生成モデルに基づく音声合成技术深层生成モデルに基づく音声合成技术
深层生成モデルに基づく音声合成技术
NU_I_TODALAB
?

A Method of Speech Waveform Synthesis based on WaveNet considering Speech Generation Process