狠狠撸

狠狠撸Share a Scribd company logo
CTCに基づく音響イベントからの
擬音語表現への変換
☆宮﨑晃一,林知樹,戸田智基,武田一哉(名大)
平成29年度秋季音響学会
音声A 1-10-7
はじめに
? 研究背景
– さまざまな音を対象とした音環境理解
? 音環境認識,音響イベント検出
– 環境音は音声言語のような記号表現を持たない
? 応用先が限定的
? 統一的に扱うこと自体が困難
? 研究目的
2018/3/27
2
擬音語に着目した共有可能な表現の獲得
なぜ擬音語を用いるか
? 本研究で扱う擬音語
– もの自体が発している音の文字による書き起こし
? 擬音語で表現することの利点
– 日常生活の中で頻繁に利用されており親密度が高い
– 擬音語を基に音源の情報や状態を推論できる
? 他者と共有可能
2018/3/27
3
本研究の概要
? CTCに基づいた音響イベントから擬音語への変換法を提案
– 既存の音声認識システムはそのまま適用できない
– 単一のネットワークを用いた変換
? 従来手法と比較して前処理の必要なし
? 主観評価実験と客観評価実験により妥当性を評価
2018/3/27
4
既存の音声認識システム 提案法
チヒヒウウウン シャララ
擬音語提案法
擬音語に関連した研究
? 機械の異常音の擬音語表現 [Tanaka+1997]
– 故障の原因や兆候となる異常音を書き起こし
– シソーラス(擬音語類語辞書)としてまとめることで
工場内での意識の統一と作業の効率化
? 環境音を対象とした擬音語自動認識 [Ishihara+2014]
– 波形を音節ごとに分割し,分割した音節ごとに音素単位での認識
– 認識結果を結合し,聴こえ方の個人差を許容する手法を提案
2018/3/27
5
従来手法 [Ishihara+2014]
1. 音響波形から音節に相当する区間を推定
2. 音節区間を単発音をみなし音素認識
3. 認識した音素を連結し擬音語とする
2018/3/27
6
sh a r a r a r a
sh a r a r a r a
音節の分割精度が変換する擬音語へ大きく影響
提案手法
? CTCに基づくEnd-to-End擬音語変換
– 音響波形から抽出した特徴量から擬音語へ変換
– 従来手法にあった音節分割の必要なし
– 明確な音節が表れない定常的な波形にも適用可能
? 処理の流れ
1. 音響波形から特徴量列を抽出
2. CTCを出力層に適用したRNNへ入力
3. 出力を変換された擬音語とする
2018/3/27
7
擬音語
Connectionist Temporal Classification (CTC)
[Graves+2006]
? 入力系列と出力系列の?さの違いを吸収する枠組み
? 出力にブランクシンボル (_) を追加し,RNNの出力に適用
2018/3/27
8
音響波形
特徴抽出
出力系列
推定文字列
概観
RNNに入力
a _ _ _ b
(ab)
CTCによる系列の学習
? 例.対象ラベル(ab),系列?5の場合
– 対象ラベルを表現する系列
? (a _ _ _ b), (a _ _ b b), (a _ b _ _), (_ _ a b b) のように多数存在
2018/3/27
9
a
b
-
-
-
( )
∈ ( )
時刻
出力シンボル?
時刻 での出力
系列の尤度
ラベルの尤度
有効な系列
CTCによる系列の学習
? 例.対象ラベル(ab),系列?5の場合
– 対象ラベルを表現する系列
? (a _ _ _ b), (a _ _ b b), (a _ b _ _), (_ _ a b b) のように多数存在
2018/3/27
10
a
b
-
-
-
( )
∈ ( )
時刻
出力シンボル?
時刻 での出力
系列の尤度
ラベルの尤度
有効な系列
各時刻で独立に
出力が生起
CTCによる系列の学習
? 例.対象ラベル(ab),系列?5の場合
– 対象ラベルを表現する系列
? (a _ _ _ b), (a _ _ b b), (a _ b _ _), (_ _ a b b) のように多数存在
2018/3/27
11
a
b
-
-
-
( )
∈ ( )
時刻
出力シンボル?
時刻 での出力
系列の尤度
ラベルの尤度
有効な系列
(ab)を表す系列
これを最大化
擬音語変換実験
2018/3/27
12
実験概要
? 客観評価実験
– 変換された擬音語が所望の擬音語をどれだけ再現できているか
– 単語誤り率(WER)と音素誤り率(PER)で評価
? 主観評価実験
– 擬音語は受聴者の感性によって聞こえ方が異なる
– 変換された擬音語の妥当性を評価するため,
被験者は音響信号と擬音語を提示し許容可能かどうかを判断する
2018/3/27
13
使用するデータベース
? RWCP実環境音声?音響データベース(RWCP-SSD)
– 100クラスの音響イベントが合計で9720サンプル存在
– 学習:9120サンプル,検証:500サンプル,テスト:100サンプル
? 擬音語ラベルの付与
– RWCP-SSDに含まれる全ての音響イベントサンプルに対して
成人男性1名の主観による擬音語ラベルを付与
2018/3/27
14
ラベル付のルール
? 聞こえたとおりに主観でカタカナに書き起こし
? 歯切れのいい音は~ッ(促音)
? 余韻がある音は~-(?音)
? キリよく終わる音は~ン(撥音)
? ?音の数はひとつで固定連続する音は適当に打ち止め
? 音高の変化は考慮しない
2018/3/27
15
実験条件
? 特徴量:Mel filter bank 40次元
? ネットワーク構成:3層BLSTM
– パラメータはグリッドサーチにより決定
2018/3/27
16
実験条件
フレームサイズ 40 [ms]
フレームシフト 20 [ms]
LSTM unit 512
学習率 0.0001
初期スケール 0.001
Time step 350
Batch size 128
Epochs 20
客観評価実験結果
? 単語誤り率(WER)と音素誤り率(PER)
? CTCを用いた場合の実際の出力例
2018/3/27
17
WER[%] PER[%]
CTC 46.00 20.49
正解ラベル CTC
p i p o N p i p o N
sh a r a r a r a sh a r a r a
k a ch a: k o t a k a N
k o: N k o: N
ch i N ch i N
提案法により擬音語へと変換できることを確認
主観評価実験結果
? 20代男女8名による50サンプルの評価
? 実際の聞こえ方(1: 許容できる,2: 許容できない)
2018/3/27
18
許容できる 許容できない
74.5 [%] 25.5 [%]
CTC 被験者A 被験者B 被験者C 被験者D
ピポン ピンポーン, 1 ピポン, 1 テレン, 2 ピコーン, 1
シャラララ シャラララ, 1 チリリリン, 1 チリンチリン, 2 リンリン, 2
変換結果の妥当性を確認
個人差の影響、一意に定まらない
おわりに
? まとめ
– 颁罢颁に基づく音响イベントからの拟音语表现への変换を提案
– 提案手法により許容可能な擬音語へ変換できることを確認
? 今後の課題
– 幅広い音響イベントを対象とした擬音語変換や精度の向上
– 擬音語表現の曖昧性を考慮した変換処理の検討
? 代表的な擬音語への変換
? 聴取者の感性に沿った擬音語への変換
2018/3/27
19
Ad

Recommended

End-to-End音声認識ためのMulti-Head Decoderネットワーク
End-to-End音声認識ためのMulti-Head Decoderネットワーク
NU_I_TODALAB
?
距离学习を导入した二値分类モデルによる异常音検知
距离学习を导入した二値分类モデルによる异常音検知
NU_I_TODALAB
?
环境音の特徴を活用した音响イベント検出?シーン分类
环境音の特徴を活用した音响イベント検出?シーン分类
Keisuke Imoto
?
深层生成モデルに基づく音声合成技术
深层生成モデルに基づく音声合成技术
NU_I_TODALAB
?
统计的手法に基づく异常音検知の理论と応用
统计的手法に基づく异常音検知の理论と応用
Yuma Koizumi
?
JTubeSpeech: 音声認識と話者照合のために YouTube から構築される日本語音声コーパス
JTubeSpeech: 音声認識と話者照合のために YouTube から構築される日本語音声コーパス
Shinnosuke Takamichi
?
単语?句の分散表现の学习
単语?句の分散表现の学习
Naoaki Okazaki
?
リアルタイム顿狈狈音声変换フィードバックによるキャラクタ性の获得手法
リアルタイム顿狈狈音声変换フィードバックによるキャラクタ性の获得手法
Shinnosuke Takamichi
?
Deep Neural Networkに基づく日常生活行動認識における適応手法
Deep Neural Networkに基づく日常生活行動認識における適応手法
NU_I_TODALAB
?
独立低ランク行列分析に基づく音源分離とその発展(Audio source separation based on independent low-rank...
独立低ランク行列分析に基づく音源分離とその発展(Audio source separation based on independent low-rank...
Daichi Kitamura
?
叠贰搁罢入门
叠贰搁罢入门
Ken'ichi Matsui
?
Neural scene representation and rendering の解説(第3回3D勉強会@関東)
Neural scene representation and rendering の解説(第3回3D勉強会@関東)
Masaya Kaneko
?
【DL輪読会】Bridge-Prompt: Toward Ordinal Action Understanding in Instructional Vi...
【DL輪読会】Bridge-Prompt: Toward Ordinal Action Understanding in Instructional Vi...
Deep Learning JP
?
やさしく音声分析法を学ぶ: ケプストラム分析とLPC分析
やさしく音声分析法を学ぶ: ケプストラム分析とLPC分析
Shinnosuke Takamichi
?
骋社の狈惭罢论文を読んでみた
骋社の狈惭罢论文を読んでみた
Toshiaki Nakazawa
?
深层学习を利用した音声强调
深层学习を利用した音声强调
Yuma Koizumi
?
音響システム特論 第11回 実環境における音響信号処理と機械学習
音響システム特論 第11回 実環境における音響信号処理と機械学習
Yuma Koizumi
?
Neural text-to-speech and voice conversion
Neural text-to-speech and voice conversion
Yuki Saito
?
机械学习モデルの判断根拠の説明(痴别谤.2)
机械学习モデルの判断根拠の説明(痴别谤.2)
Satoshi Hara
?
文献紹介:SlowFast Networks for Video Recognition
文献紹介:SlowFast Networks for Video Recognition
Toru Tamaki
?
SSII2021 [OS2-01] 転移学習の基礎:異なるタスクの知識を利用するための機械学習の方法
SSII2021 [OS2-01] 転移学習の基礎:異なるタスクの知識を利用するための機械学習の方法
SSII
?
ICASSP 2019での音響信号処理分野の世界動向
ICASSP 2019での音響信号処理分野の世界動向
Yuma Koizumi
?
摆顿尝轮読会闭骋蚕狈と関连研究,世界モデルとの関係について
摆顿尝轮読会闭骋蚕狈と関连研究,世界モデルとの関係について
Deep Learning JP
?
A Brief Introduction of Anomalous Sound Detection: Recent Studies and Future...
A Brief Introduction of Anomalous Sound Detection: Recent Studies and Future...
Yuma Koizumi
?
滨颁础厂厂笔読み会2020
滨颁础厂厂笔読み会2020
Yuki Saito
?
【論文読み会】Self-Attention Generative Adversarial Networks
【論文読み会】Self-Attention Generative Adversarial Networks
ARISE analytics
?
Onoma-to-wave: オノマトペを利用した環境音合成手法の提案
Onoma-to-wave: オノマトペを利用した環境音合成手法の提案
Keisuke Imoto
?
マルチモーダル深层学习の研究动向
マルチモーダル深层学习の研究动向
Koichiro Mori
?
テキスト音声合成技術と多様性への挑戦 (名古屋大学 知能システム特論)
テキスト音声合成技術と多様性への挑戦 (名古屋大学 知能システム特論)
Shinnosuke Takamichi
?
キーワード推定を内包したオーディオキャプション法
キーワード推定を内包したオーディオキャプション法
Yuma Koizumi
?

More Related Content

What's hot (20)

Deep Neural Networkに基づく日常生活行動認識における適応手法
Deep Neural Networkに基づく日常生活行動認識における適応手法
NU_I_TODALAB
?
独立低ランク行列分析に基づく音源分離とその発展(Audio source separation based on independent low-rank...
独立低ランク行列分析に基づく音源分離とその発展(Audio source separation based on independent low-rank...
Daichi Kitamura
?
叠贰搁罢入门
叠贰搁罢入门
Ken'ichi Matsui
?
Neural scene representation and rendering の解説(第3回3D勉強会@関東)
Neural scene representation and rendering の解説(第3回3D勉強会@関東)
Masaya Kaneko
?
【DL輪読会】Bridge-Prompt: Toward Ordinal Action Understanding in Instructional Vi...
【DL輪読会】Bridge-Prompt: Toward Ordinal Action Understanding in Instructional Vi...
Deep Learning JP
?
やさしく音声分析法を学ぶ: ケプストラム分析とLPC分析
やさしく音声分析法を学ぶ: ケプストラム分析とLPC分析
Shinnosuke Takamichi
?
骋社の狈惭罢论文を読んでみた
骋社の狈惭罢论文を読んでみた
Toshiaki Nakazawa
?
深层学习を利用した音声强调
深层学习を利用した音声强调
Yuma Koizumi
?
音響システム特論 第11回 実環境における音響信号処理と機械学習
音響システム特論 第11回 実環境における音響信号処理と機械学習
Yuma Koizumi
?
Neural text-to-speech and voice conversion
Neural text-to-speech and voice conversion
Yuki Saito
?
机械学习モデルの判断根拠の説明(痴别谤.2)
机械学习モデルの判断根拠の説明(痴别谤.2)
Satoshi Hara
?
文献紹介:SlowFast Networks for Video Recognition
文献紹介:SlowFast Networks for Video Recognition
Toru Tamaki
?
SSII2021 [OS2-01] 転移学習の基礎:異なるタスクの知識を利用するための機械学習の方法
SSII2021 [OS2-01] 転移学習の基礎:異なるタスクの知識を利用するための機械学習の方法
SSII
?
ICASSP 2019での音響信号処理分野の世界動向
ICASSP 2019での音響信号処理分野の世界動向
Yuma Koizumi
?
摆顿尝轮読会闭骋蚕狈と関连研究,世界モデルとの関係について
摆顿尝轮読会闭骋蚕狈と関连研究,世界モデルとの関係について
Deep Learning JP
?
A Brief Introduction of Anomalous Sound Detection: Recent Studies and Future...
A Brief Introduction of Anomalous Sound Detection: Recent Studies and Future...
Yuma Koizumi
?
滨颁础厂厂笔読み会2020
滨颁础厂厂笔読み会2020
Yuki Saito
?
【論文読み会】Self-Attention Generative Adversarial Networks
【論文読み会】Self-Attention Generative Adversarial Networks
ARISE analytics
?
Onoma-to-wave: オノマトペを利用した環境音合成手法の提案
Onoma-to-wave: オノマトペを利用した環境音合成手法の提案
Keisuke Imoto
?
マルチモーダル深层学习の研究动向
マルチモーダル深层学习の研究动向
Koichiro Mori
?
Deep Neural Networkに基づく日常生活行動認識における適応手法
Deep Neural Networkに基づく日常生活行動認識における適応手法
NU_I_TODALAB
?
独立低ランク行列分析に基づく音源分離とその発展(Audio source separation based on independent low-rank...
独立低ランク行列分析に基づく音源分離とその発展(Audio source separation based on independent low-rank...
Daichi Kitamura
?
Neural scene representation and rendering の解説(第3回3D勉強会@関東)
Neural scene representation and rendering の解説(第3回3D勉強会@関東)
Masaya Kaneko
?
【DL輪読会】Bridge-Prompt: Toward Ordinal Action Understanding in Instructional Vi...
【DL輪読会】Bridge-Prompt: Toward Ordinal Action Understanding in Instructional Vi...
Deep Learning JP
?
やさしく音声分析法を学ぶ: ケプストラム分析とLPC分析
やさしく音声分析法を学ぶ: ケプストラム分析とLPC分析
Shinnosuke Takamichi
?
骋社の狈惭罢论文を読んでみた
骋社の狈惭罢论文を読んでみた
Toshiaki Nakazawa
?
深层学习を利用した音声强调
深层学习を利用した音声强调
Yuma Koizumi
?
音響システム特論 第11回 実環境における音響信号処理と機械学習
音響システム特論 第11回 実環境における音響信号処理と機械学習
Yuma Koizumi
?
Neural text-to-speech and voice conversion
Neural text-to-speech and voice conversion
Yuki Saito
?
机械学习モデルの判断根拠の説明(痴别谤.2)
机械学习モデルの判断根拠の説明(痴别谤.2)
Satoshi Hara
?
文献紹介:SlowFast Networks for Video Recognition
文献紹介:SlowFast Networks for Video Recognition
Toru Tamaki
?
SSII2021 [OS2-01] 転移学習の基礎:異なるタスクの知識を利用するための機械学習の方法
SSII2021 [OS2-01] 転移学習の基礎:異なるタスクの知識を利用するための機械学習の方法
SSII
?
ICASSP 2019での音響信号処理分野の世界動向
ICASSP 2019での音響信号処理分野の世界動向
Yuma Koizumi
?
摆顿尝轮読会闭骋蚕狈と関连研究,世界モデルとの関係について
摆顿尝轮読会闭骋蚕狈と関连研究,世界モデルとの関係について
Deep Learning JP
?
A Brief Introduction of Anomalous Sound Detection: Recent Studies and Future...
A Brief Introduction of Anomalous Sound Detection: Recent Studies and Future...
Yuma Koizumi
?
滨颁础厂厂笔読み会2020
滨颁础厂厂笔読み会2020
Yuki Saito
?
【論文読み会】Self-Attention Generative Adversarial Networks
【論文読み会】Self-Attention Generative Adversarial Networks
ARISE analytics
?
Onoma-to-wave: オノマトペを利用した環境音合成手法の提案
Onoma-to-wave: オノマトペを利用した環境音合成手法の提案
Keisuke Imoto
?
マルチモーダル深层学习の研究动向
マルチモーダル深层学习の研究动向
Koichiro Mori
?

Similar to 颁罢颁に基づく音响イベントからの拟音语表现への変换 (20)

テキスト音声合成技術と多様性への挑戦 (名古屋大学 知能システム特論)
テキスト音声合成技術と多様性への挑戦 (名古屋大学 知能システム特論)
Shinnosuke Takamichi
?
キーワード推定を内包したオーディオキャプション法
キーワード推定を内包したオーディオキャプション法
Yuma Koizumi
?
日本語音声合成のためのsubword内モーラを考慮したProsody-aware subword embedding
日本語音声合成のためのsubword内モーラを考慮したProsody-aware subword embedding
Shinnosuke Takamichi
?
构文情报に基づく机械翻訳のための能动学习手法と人手翻訳による评価
构文情报に基づく机械翻訳のための能动学习手法と人手翻訳による评価
Akiva Miura
?
ICASSP2019 音声&音響読み会 テーマ発表音声生成
ICASSP2019 音声&音響読み会 テーマ発表音声生成
Kentaro Tachibana
?
统计的音声合成変换と近年の発展
统计的音声合成変换と近年の発展
Shinnosuke Takamichi
?
Deep-Learning-Based Environmental Sound Segmentation - Integration of Sound ...
Deep-Learning-Based Environmental Sound Segmentation - Integration of Sound ...
Yui Sudo
?
Saito19asjAutumn_DeNA
Saito19asjAutumn_DeNA
Yuki Saito
?
Icassp2018 発表参加報告 FFTNet, Tactron2紹介
Icassp2018 発表参加報告 FFTNet, Tactron2紹介
Kentaro Tachibana
?
Saito19asj_s
Saito19asj_s
Yuki Saito
?
中間?語モデルを?いた 多?語機械翻訳の精度向上
中間?語モデルを?いた 多?語機械翻訳の精度向上
奈良先端大 情報科学研究科
?
miyoshi17sp07
miyoshi17sp07
Yuki Saito
?
音声认识と深层学习
音声认识と深层学习
Preferred Networks
?
Nakai22sp03 presentation
Nakai22sp03 presentation
Yuki Saito
?
滨颁础厂厂笔2020音声&音响読み会惭别濒濒辞迟谤辞苍
滨颁础厂厂笔2020音声&音响読み会惭别濒濒辞迟谤辞苍
Kentaro Tachibana
?
[DL輪読会]Towards End-to-End Prosody Transfer for Expressive Speech Synthesis wi...
[DL輪読会]Towards End-to-End Prosody Transfer for Expressive Speech Synthesis wi...
Deep Learning JP
?
日本音響学会春季発表会2017 「コンテキスト事後確率のSequence-to-Sequence学習を用いた音声変換」
日本音響学会春季発表会2017 「コンテキスト事後確率のSequence-to-Sequence学習を用いた音声変換」
Hiroyuki Miyoshi
?
miyoshi2017asj
miyoshi2017asj
Yuki Saito
?
Nishimura22slp03 presentation
Nishimura22slp03 presentation
Yuki Saito
?
Interspeech2019読み会 音声生成
Interspeech2019読み会 音声生成
Kentaro Tachibana
?
テキスト音声合成技術と多様性への挑戦 (名古屋大学 知能システム特論)
テキスト音声合成技術と多様性への挑戦 (名古屋大学 知能システム特論)
Shinnosuke Takamichi
?
キーワード推定を内包したオーディオキャプション法
キーワード推定を内包したオーディオキャプション法
Yuma Koizumi
?
日本語音声合成のためのsubword内モーラを考慮したProsody-aware subword embedding
日本語音声合成のためのsubword内モーラを考慮したProsody-aware subword embedding
Shinnosuke Takamichi
?
构文情报に基づく机械翻訳のための能动学习手法と人手翻訳による评価
构文情报に基づく机械翻訳のための能动学习手法と人手翻訳による评価
Akiva Miura
?
ICASSP2019 音声&音響読み会 テーマ発表音声生成
ICASSP2019 音声&音響読み会 テーマ発表音声生成
Kentaro Tachibana
?
统计的音声合成変换と近年の発展
统计的音声合成変换と近年の発展
Shinnosuke Takamichi
?
Deep-Learning-Based Environmental Sound Segmentation - Integration of Sound ...
Deep-Learning-Based Environmental Sound Segmentation - Integration of Sound ...
Yui Sudo
?
Saito19asjAutumn_DeNA
Saito19asjAutumn_DeNA
Yuki Saito
?
Icassp2018 発表参加報告 FFTNet, Tactron2紹介
Icassp2018 発表参加報告 FFTNet, Tactron2紹介
Kentaro Tachibana
?
Nakai22sp03 presentation
Nakai22sp03 presentation
Yuki Saito
?
滨颁础厂厂笔2020音声&音响読み会惭别濒濒辞迟谤辞苍
滨颁础厂厂笔2020音声&音响読み会惭别濒濒辞迟谤辞苍
Kentaro Tachibana
?
[DL輪読会]Towards End-to-End Prosody Transfer for Expressive Speech Synthesis wi...
[DL輪読会]Towards End-to-End Prosody Transfer for Expressive Speech Synthesis wi...
Deep Learning JP
?
日本音響学会春季発表会2017 「コンテキスト事後確率のSequence-to-Sequence学習を用いた音声変換」
日本音響学会春季発表会2017 「コンテキスト事後確率のSequence-to-Sequence学習を用いた音声変換」
Hiroyuki Miyoshi
?
Nishimura22slp03 presentation
Nishimura22slp03 presentation
Yuki Saito
?
Interspeech2019読み会 音声生成
Interspeech2019読み会 音声生成
Kentaro Tachibana
?
Ad

More from NU_I_TODALAB (20)

音学シンポジウム2025「ニューラルボコーダ概説:生成モデルと実用性の観点から」
音学シンポジウム2025「ニューラルボコーダ概説:生成モデルと実用性の観点から」
NU_I_TODALAB
?
2025年3月音楽情报科学研究会「大局的构造生成のための小节特徴量系列モデリングに基づく阶层的自动作曲」
2025年3月音楽情报科学研究会「大局的构造生成のための小节特徴量系列モデリングに基づく阶层的自动作曲」
NU_I_TODALAB
?
2025年5月応用音响研究会「滨颁础厂厂笔2025における音楽情报処理の动向」
2025年5月応用音响研究会「滨颁础厂厂笔2025における音楽情报処理の动向」
NU_I_TODALAB
?
2025年5月応用音响研究会「滨颁础厂厂笔2025における异常音検知の动向」
2025年5月応用音响研究会「滨颁础厂厂笔2025における异常音検知の动向」
NU_I_TODALAB
?
Automatic Quality Assessment for Speech and Beyond
Automatic Quality Assessment for Speech and Beyond
NU_I_TODALAB
?
异常音検知に対する深层学习适用事例
异常音検知に対する深层学习适用事例
NU_I_TODALAB
?
信号の独立性に基づく多チャンネル音源分离
信号の独立性に基づく多チャンネル音源分离
NU_I_TODALAB
?
The VoiceMOS Challenge 2022
The VoiceMOS Challenge 2022
NU_I_TODALAB
?
敌対的学习による统合型ソースフィルタネットワーク
敌対的学习による统合型ソースフィルタネットワーク
NU_I_TODALAB
?
Investigation of Text-to-Speech based Synthetic Parallel Data for Sequence-to...
Investigation of Text-to-Speech based Synthetic Parallel Data for Sequence-to...
NU_I_TODALAB
?
Interactive voice conversion for augmented speech production
Interactive voice conversion for augmented speech production
NU_I_TODALAB
?
颁搁贰厂罢「共生インタラクション」共创型音メディア机能拡张プロジェクト
颁搁贰厂罢「共生インタラクション」共创型音メディア机能拡张プロジェクト
NU_I_TODALAB
?
Recent progress on voice conversion: What is next?
Recent progress on voice conversion: What is next?
NU_I_TODALAB
?
Weakly-Supervised Sound Event Detection with Self-Attention
Weakly-Supervised Sound Event Detection with Self-Attention
NU_I_TODALAB
?
Statistical voice conversion with direct waveform modeling
Statistical voice conversion with direct waveform modeling
NU_I_TODALAB
?
音素事后确率を利用した表现学习に基づく発话感情认识
音素事后确率を利用した表现学习に基づく発话感情认识
NU_I_TODALAB
?
楽曲中歌声加工における声质変换精度向上のための歌声?伴奏分离法
楽曲中歌声加工における声质変换精度向上のための歌声?伴奏分离法
NU_I_TODALAB
?
空気/体内伝导マイクロフォンを用いた雑音环境下における自己発声音强调/抑圧法
空気/体内伝导マイクロフォンを用いた雑音环境下における自己発声音强调/抑圧法
NU_I_TODALAB
?
时间领域低ランクスペクトログラム近似法に基づくマスキング音声の欠损成分復元
时间领域低ランクスペクトログラム近似法に基づくマスキング音声の欠损成分復元
NU_I_TODALAB
?
Hands on Voice Conversion
Hands on Voice Conversion
NU_I_TODALAB
?
音学シンポジウム2025「ニューラルボコーダ概説:生成モデルと実用性の観点から」
音学シンポジウム2025「ニューラルボコーダ概説:生成モデルと実用性の観点から」
NU_I_TODALAB
?
2025年3月音楽情报科学研究会「大局的构造生成のための小节特徴量系列モデリングに基づく阶层的自动作曲」
2025年3月音楽情报科学研究会「大局的构造生成のための小节特徴量系列モデリングに基づく阶层的自动作曲」
NU_I_TODALAB
?
2025年5月応用音响研究会「滨颁础厂厂笔2025における音楽情报処理の动向」
2025年5月応用音响研究会「滨颁础厂厂笔2025における音楽情报処理の动向」
NU_I_TODALAB
?
2025年5月応用音响研究会「滨颁础厂厂笔2025における异常音検知の动向」
2025年5月応用音响研究会「滨颁础厂厂笔2025における异常音検知の动向」
NU_I_TODALAB
?
Automatic Quality Assessment for Speech and Beyond
Automatic Quality Assessment for Speech and Beyond
NU_I_TODALAB
?
异常音検知に対する深层学习适用事例
异常音検知に対する深层学习适用事例
NU_I_TODALAB
?
信号の独立性に基づく多チャンネル音源分离
信号の独立性に基づく多チャンネル音源分离
NU_I_TODALAB
?
The VoiceMOS Challenge 2022
The VoiceMOS Challenge 2022
NU_I_TODALAB
?
敌対的学习による统合型ソースフィルタネットワーク
敌対的学习による统合型ソースフィルタネットワーク
NU_I_TODALAB
?
Investigation of Text-to-Speech based Synthetic Parallel Data for Sequence-to...
Investigation of Text-to-Speech based Synthetic Parallel Data for Sequence-to...
NU_I_TODALAB
?
Interactive voice conversion for augmented speech production
Interactive voice conversion for augmented speech production
NU_I_TODALAB
?
颁搁贰厂罢「共生インタラクション」共创型音メディア机能拡张プロジェクト
颁搁贰厂罢「共生インタラクション」共创型音メディア机能拡张プロジェクト
NU_I_TODALAB
?
Recent progress on voice conversion: What is next?
Recent progress on voice conversion: What is next?
NU_I_TODALAB
?
Weakly-Supervised Sound Event Detection with Self-Attention
Weakly-Supervised Sound Event Detection with Self-Attention
NU_I_TODALAB
?
Statistical voice conversion with direct waveform modeling
Statistical voice conversion with direct waveform modeling
NU_I_TODALAB
?
音素事后确率を利用した表现学习に基づく発话感情认识
音素事后确率を利用した表现学习に基づく発话感情认识
NU_I_TODALAB
?
楽曲中歌声加工における声质変换精度向上のための歌声?伴奏分离法
楽曲中歌声加工における声质変换精度向上のための歌声?伴奏分离法
NU_I_TODALAB
?
空気/体内伝导マイクロフォンを用いた雑音环境下における自己発声音强调/抑圧法
空気/体内伝导マイクロフォンを用いた雑音环境下における自己発声音强调/抑圧法
NU_I_TODALAB
?
时间领域低ランクスペクトログラム近似法に基づくマスキング音声の欠损成分復元
时间领域低ランクスペクトログラム近似法に基づくマスキング音声の欠损成分復元
NU_I_TODALAB
?
Hands on Voice Conversion
Hands on Voice Conversion
NU_I_TODALAB
?
Ad

颁罢颁に基づく音响イベントからの拟音语表现への変换