狠狠撸

狠狠撸Share a Scribd company logo
2017/05/25
実環境下におけるサイレント音声通話の実現に向けた
雑音環境変動に頑健な非可聴つぶやき強調
第3回 サイレント音声認識ワークショップ
10月14日 セッションA 13:45~14:00
○田尻祐介1,亀岡弘和2 ,戸田智基1
1 名古屋大学,2 NTTコミュニケーション科学基礎研究所
空気/体内伝導マイク 実環境収録 in 梅田駅
サイレント音声インタフェースが描く未来
2017/05/25 2
?音声コミュニケーションの問題点
発声を躊躇するような場面が存在
? 人混みの中 ? 秘匿性の高い会話は困難
? 公共スペース ? 周囲にとって迷惑
?サイレント音声インタフェースの登場
周囲に内容を知られることなく音声を入力
いつでも、どこででも音声通話や音声操作が可能に!
非可聴つぶやき(NAM)マイク
2017/05/25 3
?非常に微弱なささやき声を体表から収録
[Nakajima et al., 2006]
声道内の
空気振動
筋肉 皮膚
骨
口腔 振動センサ
遮音カバー
軟シリコン
?使用時のイメージ
ボソボソ
ゲイン調整
or
音声強調
もしもし!
音声に近い信号を扱うため、音声情報の抽出が比較的容易
0
1
2
3
4
5
works in silence
works for
laryngectomy
non-invasive
low cost
market ready
works in noise
メリット: ①小型で安価に製造可能
? 次世代の標準的な音声インタフェースにしたい!
他のインタフェースとの比較
2017/05/25 4
?未完成の技術であり、認識精度等での比較は困難
? 適用性や潜在的な可能性をスコア付け
[Denby et al., 2010]
NAM 超音波画像/口唇画像 顔面筋電位
0
1
2
3
4
5
0
1
2
3
4
5
①②
見や目や装着性は改善済
デメリット: ①発声が必要、②外部雑音の問題が未解決
①
実用化に向けた課題
2017/05/25 5
?実環境には必ず外部雑音が存在
雑音処理
認識
強調NAM
+
外部雑音
NAM
音声通話
音声操作本発表の内容
次発表の内容
音楽
アナウンス
人の声
エンジン音
走行時の
騒音
雑音処理が不可欠
空気伝導マイクによる外部雑音モニタリング
2017/05/25 6
? 放射される音声の微弱性に着目
? 空気伝導マイクをNAMマイク付近に配置
1) NAM信号の漏れ込みを抑制
2) NAMマイクに混入するものと近い雑音を収録
? 空気伝導信号を雑音の参照信号として使用
空気伝導信号=空気伝導NAM+空気伝導外部雑音
≈ 空気伝導外部雑音
NAM
マイク
空気伝導
マイク
体内伝導信号=体内伝導NAM+体内伝導外部雑音
非常に微弱
空気/体内伝導信号間の特性を補正するフィルタを推定
[Tajiri et al., 2016]
本研究で取り組んだ課題
2017/05/25 7
?従来法: セミブラインド信号分離(Semi-BSS)により
線形時不変な補正フィルタを推定
? 周囲環境が変動する中、線形時不変フィルタで
雑音信号間の特性を補正するのは本質的に困難
外部雑音モニタリングの枠組みにおいて
実環境雑音に対しても有効な雑音抑圧法を提案
頭の回転雑音源?ユーザ移動
音源が移動すると?
2017/05/25 8
?観測モデル
観測複素
スペクトログラム
各音源の
複素スペクトログラム
伝達特性
マイク1
マイク2
移動
マイク間距離 ? マイク-音源間距離であれば
振幅成分のみ比較的安定していると仮定するのは妥当
伝達特性が時変に!
振幅情報のみを用いた音源分離法の例
2017/05/25 9
?非負値行列因子分解(NMF)
? 振幅(or パワー)スペクトルに加法性を仮定
※複素スペクトルではないため厳密には不成立
? 観測行列(非負)を低ランク行列(非負)の積で近似
=
観測行列
(音源数=2)
係数行列基底行列
音源2に対応
音源1に対応
スペクトル距離最小化によるパラメータ推定は
観測データの背後に特定の分布を仮定し、最尤推定することに相当
[Lee and Seung, 2001]
提案法およびNMFとの関係
2017/05/25 10
?観測モデル(再記)
時刻に非依存 時刻に依存
振幅成分と位相成分に分解
確率変数として扱う
(位相は周辺化)新たに定義
ここで、各音源のパワースペクトログラム にNMFの構造を仮定すると
パラメータの最尤推定=観測パワースペクトログラムに対する非負値テンソル分解
の分布を と仮定
提案法の概略図
2017/05/25 11
観測パワースペクトログラム 音源パワースペクトログラム
?NMF
(1ch)
1
1
体内伝導雑音
体内伝導NAM体内伝導信号
?提案法
(2ch)
1
?
空気伝導雑音
体内伝導NAM
1
0
体内伝導信号
空気伝導信号
赤: 固定パラメータ 青: 推定パラメータ
実験的評価
2017/05/25 12
? 男性話者1名のNAM(50文)を防音室で収録
? 3種類の雑音を防音室で収録
※雑音は固定した1台のスピーカーから提示
? crowd60dB: 60 dBAの人混み雑音
? booth70dB: 70 dBAの展示場の雑音
? station80dB: 80 dBAの駅構内の雑音
? 4種類の雑音を実環境で収録
? crowd5dB_SNR: 人混み雑音を5 dBで重畳
? traffic5dB_SNR: 高架下の雑音を5 dBで重畳
? restaurant0dB_SNR: 飲食店の雑音を0 dBで重畳
? station0dB_SNR: 駅構内の雑音を0 dBで重畳
? 評価対象
? Semi-BSS (自然勾配法を使用)
? NMF
? 提案法(NTF)
処理前後のSN比を比較
NAM基底は事前に学習(1個抜き交差検証)
板倉齋藤擬距離規準
各音源の基底数20、更新回数50
処理前後のSN比(防音室収録の場合)
2017/05/25 13
?雑音源が一つかつ固定されていればSemi-BSSが有効
雑音の種類
SN比[dB]
-5
0
5
10
15
crowd60dB booth70dB station80dB
未処理 Semi-BSS NMF NTF
悪い
良い
補正フィルタの時不変性が
成立するため!
処理前後のSN比(実環境収録の場合)
2017/05/25 14
?全ての雑音に対してNTFが最も有効
?外部雑音情報の活用により、NMF<NTF
0
2
4
6
8
10
12
crowd_in5dB traffic5dB restaurant0dB station0dB
未処理 Semi-BSS NMF NTF
雑音の種類
SN比[dB]
悪い
良い 推定すべきフィルタが時不変のため
さらなる改善に向けた取り組み
2017/05/25 15
?オンライン化
フレーム毎にパラメータを推定
? リアルタイム化
? 雑音環境変動に追従
? 正則化導入
後段処理で使用する特徴量を補償
? 変換処理?認識処理の性能改善に直結
まとめ
2017/05/25 16
?目的
雑音環境変動に対して頑健な雑音抑圧処理の実現
? 提案法
伝達特性の位相成分を周辺化した観測モデル
観測パワースペクトログラムに対するNTF
? 実験的評価結果
提案法は実環境収録雑音に対しても有効
? 今後の展望
オンライン化、後段処理を考慮した正則化の導入
Ad

Recommended

音学シンポジウム2025「ニューラルボコーダ概説:生成モデルと実用性の観点から」
音学シンポジウム2025「ニューラルボコーダ概説:生成モデルと実用性の観点から」
NU_I_TODALAB
?
2025年3月音楽情报科学研究会「大局的构造生成のための小节特徴量系列モデリングに基づく阶层的自动作曲」
2025年3月音楽情报科学研究会「大局的构造生成のための小节特徴量系列モデリングに基づく阶层的自动作曲」
NU_I_TODALAB
?
2025年5月応用音响研究会「滨颁础厂厂笔2025における音楽情报処理の动向」
2025年5月応用音响研究会「滨颁础厂厂笔2025における音楽情报処理の动向」
NU_I_TODALAB
?
2025年5月応用音响研究会「滨颁础厂厂笔2025における异常音検知の动向」
2025年5月応用音响研究会「滨颁础厂厂笔2025における异常音検知の动向」
NU_I_TODALAB
?
Automatic Quality Assessment for Speech and Beyond
Automatic Quality Assessment for Speech and Beyond
NU_I_TODALAB
?
异常音検知に対する深层学习适用事例
异常音検知に対する深层学习适用事例
NU_I_TODALAB
?
深层生成モデルに基づく音声合成技术
深层生成モデルに基づく音声合成技术
NU_I_TODALAB
?
信号の独立性に基づく多チャンネル音源分离
信号の独立性に基づく多チャンネル音源分离
NU_I_TODALAB
?
The VoiceMOS Challenge 2022
The VoiceMOS Challenge 2022
NU_I_TODALAB
?
敌対的学习による统合型ソースフィルタネットワーク
敌対的学习による统合型ソースフィルタネットワーク
NU_I_TODALAB
?
距离学习を导入した二値分类モデルによる异常音検知
距离学习を导入した二値分类モデルによる异常音検知
NU_I_TODALAB
?
Investigation of Text-to-Speech based Synthetic Parallel Data for Sequence-to...
Investigation of Text-to-Speech based Synthetic Parallel Data for Sequence-to...
NU_I_TODALAB
?
Interactive voice conversion for augmented speech production
Interactive voice conversion for augmented speech production
NU_I_TODALAB
?
颁搁贰厂罢「共生インタラクション」共创型音メディア机能拡张プロジェクト
颁搁贰厂罢「共生インタラクション」共创型音メディア机能拡张プロジェクト
NU_I_TODALAB
?
Recent progress on voice conversion: What is next?
Recent progress on voice conversion: What is next?
NU_I_TODALAB
?
Weakly-Supervised Sound Event Detection with Self-Attention
Weakly-Supervised Sound Event Detection with Self-Attention
NU_I_TODALAB
?
Statistical voice conversion with direct waveform modeling
Statistical voice conversion with direct waveform modeling
NU_I_TODALAB
?
音素事后确率を利用した表现学习に基づく発话感情认识
音素事后确率を利用した表现学习に基づく発话感情认识
NU_I_TODALAB
?
楽曲中歌声加工における声质変换精度向上のための歌声?伴奏分离法
楽曲中歌声加工における声质変换精度向上のための歌声?伴奏分离法
NU_I_TODALAB
?
End-to-End音声認識ためのMulti-Head Decoderネットワーク
End-to-End音声認識ためのMulti-Head Decoderネットワーク
NU_I_TODALAB
?
空気/体内伝导マイクロフォンを用いた雑音环境下における自己発声音强调/抑圧法
空気/体内伝导マイクロフォンを用いた雑音环境下における自己発声音强调/抑圧法
NU_I_TODALAB
?
时间领域低ランクスペクトログラム近似法に基づくマスキング音声の欠损成分復元
时间领域低ランクスペクトログラム近似法に基づくマスキング音声の欠损成分復元
NU_I_TODALAB
?
Hands on Voice Conversion
Hands on Voice Conversion
NU_I_TODALAB
?
Advanced Voice Conversion
Advanced Voice Conversion
NU_I_TODALAB
?
Deep Neural Networkに基づく日常生活行動認識における適応手法
Deep Neural Networkに基づく日常生活行動認識における適応手法
NU_I_TODALAB
?
颁罢颁に基づく音响イベントからの拟音语表现への変换
颁罢颁に基づく音响イベントからの拟音语表现への変换
NU_I_TODALAB
?
奥补惫别狈别迟が音声合成研究に与える影响
奥补惫别狈别迟が音声合成研究に与える影响
NU_I_TODALAB
?
Missing Component Restoration for Masked Speech Signals based on Time-Domain ...
Missing Component Restoration for Masked Speech Signals based on Time-Domain ...
NU_I_TODALAB
?

More Related Content

More from NU_I_TODALAB (20)

The VoiceMOS Challenge 2022
The VoiceMOS Challenge 2022
NU_I_TODALAB
?
敌対的学习による统合型ソースフィルタネットワーク
敌対的学习による统合型ソースフィルタネットワーク
NU_I_TODALAB
?
距离学习を导入した二値分类モデルによる异常音検知
距离学习を导入した二値分类モデルによる异常音検知
NU_I_TODALAB
?
Investigation of Text-to-Speech based Synthetic Parallel Data for Sequence-to...
Investigation of Text-to-Speech based Synthetic Parallel Data for Sequence-to...
NU_I_TODALAB
?
Interactive voice conversion for augmented speech production
Interactive voice conversion for augmented speech production
NU_I_TODALAB
?
颁搁贰厂罢「共生インタラクション」共创型音メディア机能拡张プロジェクト
颁搁贰厂罢「共生インタラクション」共创型音メディア机能拡张プロジェクト
NU_I_TODALAB
?
Recent progress on voice conversion: What is next?
Recent progress on voice conversion: What is next?
NU_I_TODALAB
?
Weakly-Supervised Sound Event Detection with Self-Attention
Weakly-Supervised Sound Event Detection with Self-Attention
NU_I_TODALAB
?
Statistical voice conversion with direct waveform modeling
Statistical voice conversion with direct waveform modeling
NU_I_TODALAB
?
音素事后确率を利用した表现学习に基づく発话感情认识
音素事后确率を利用した表现学习に基づく発话感情认识
NU_I_TODALAB
?
楽曲中歌声加工における声质変换精度向上のための歌声?伴奏分离法
楽曲中歌声加工における声质変换精度向上のための歌声?伴奏分离法
NU_I_TODALAB
?
End-to-End音声認識ためのMulti-Head Decoderネットワーク
End-to-End音声認識ためのMulti-Head Decoderネットワーク
NU_I_TODALAB
?
空気/体内伝导マイクロフォンを用いた雑音环境下における自己発声音强调/抑圧法
空気/体内伝导マイクロフォンを用いた雑音环境下における自己発声音强调/抑圧法
NU_I_TODALAB
?
时间领域低ランクスペクトログラム近似法に基づくマスキング音声の欠损成分復元
时间领域低ランクスペクトログラム近似法に基づくマスキング音声の欠损成分復元
NU_I_TODALAB
?
Hands on Voice Conversion
Hands on Voice Conversion
NU_I_TODALAB
?
Advanced Voice Conversion
Advanced Voice Conversion
NU_I_TODALAB
?
Deep Neural Networkに基づく日常生活行動認識における適応手法
Deep Neural Networkに基づく日常生活行動認識における適応手法
NU_I_TODALAB
?
颁罢颁に基づく音响イベントからの拟音语表现への変换
颁罢颁に基づく音响イベントからの拟音语表现への変换
NU_I_TODALAB
?
奥补惫别狈别迟が音声合成研究に与える影响
奥补惫别狈别迟が音声合成研究に与える影响
NU_I_TODALAB
?
Missing Component Restoration for Masked Speech Signals based on Time-Domain ...
Missing Component Restoration for Masked Speech Signals based on Time-Domain ...
NU_I_TODALAB
?
The VoiceMOS Challenge 2022
The VoiceMOS Challenge 2022
NU_I_TODALAB
?
敌対的学习による统合型ソースフィルタネットワーク
敌対的学习による统合型ソースフィルタネットワーク
NU_I_TODALAB
?
距离学习を导入した二値分类モデルによる异常音検知
距离学习を导入した二値分类モデルによる异常音検知
NU_I_TODALAB
?
Investigation of Text-to-Speech based Synthetic Parallel Data for Sequence-to...
Investigation of Text-to-Speech based Synthetic Parallel Data for Sequence-to...
NU_I_TODALAB
?
Interactive voice conversion for augmented speech production
Interactive voice conversion for augmented speech production
NU_I_TODALAB
?
颁搁贰厂罢「共生インタラクション」共创型音メディア机能拡张プロジェクト
颁搁贰厂罢「共生インタラクション」共创型音メディア机能拡张プロジェクト
NU_I_TODALAB
?
Recent progress on voice conversion: What is next?
Recent progress on voice conversion: What is next?
NU_I_TODALAB
?
Weakly-Supervised Sound Event Detection with Self-Attention
Weakly-Supervised Sound Event Detection with Self-Attention
NU_I_TODALAB
?
Statistical voice conversion with direct waveform modeling
Statistical voice conversion with direct waveform modeling
NU_I_TODALAB
?
音素事后确率を利用した表现学习に基づく発话感情认识
音素事后确率を利用した表现学习に基づく発话感情认识
NU_I_TODALAB
?
楽曲中歌声加工における声质変换精度向上のための歌声?伴奏分离法
楽曲中歌声加工における声质変换精度向上のための歌声?伴奏分离法
NU_I_TODALAB
?
End-to-End音声認識ためのMulti-Head Decoderネットワーク
End-to-End音声認識ためのMulti-Head Decoderネットワーク
NU_I_TODALAB
?
空気/体内伝导マイクロフォンを用いた雑音环境下における自己発声音强调/抑圧法
空気/体内伝导マイクロフォンを用いた雑音环境下における自己発声音强调/抑圧法
NU_I_TODALAB
?
时间领域低ランクスペクトログラム近似法に基づくマスキング音声の欠损成分復元
时间领域低ランクスペクトログラム近似法に基づくマスキング音声の欠损成分復元
NU_I_TODALAB
?
Hands on Voice Conversion
Hands on Voice Conversion
NU_I_TODALAB
?
Advanced Voice Conversion
Advanced Voice Conversion
NU_I_TODALAB
?
Deep Neural Networkに基づく日常生活行動認識における適応手法
Deep Neural Networkに基づく日常生活行動認識における適応手法
NU_I_TODALAB
?
颁罢颁に基づく音响イベントからの拟音语表现への変换
颁罢颁に基づく音响イベントからの拟音语表现への変换
NU_I_TODALAB
?
奥补惫别狈别迟が音声合成研究に与える影响
奥补惫别狈别迟が音声合成研究に与える影响
NU_I_TODALAB
?
Missing Component Restoration for Masked Speech Signals based on Time-Domain ...
Missing Component Restoration for Masked Speech Signals based on Time-Domain ...
NU_I_TODALAB
?

実环境下におけるサイレント音声通话の実现に向けた雑音环境変动に顽健な非可聴つぶやき强调