狠狠撸

Microsoft Imagine Cupと
深層学習を用いた音源分離技術について
佐藤邦彦

1. Microsoft Imagine Cupについて
2. 深層学習を利用して，特定の人物の声を
抽出するソフトウェア「Mediated Ear」

Mediated Ear
? Micorosoftが主催する学生向けITコンテスト．
? 過去に190 を超える国から，延べ 200 万人以上の学生が参加．
? テクノロジーにフォーカス．
? 優勝賞金 8 万 5000 ドル．
Imagine Cupとは

Mediated Ear
Imagine Cup 2018 日本大会決勝（2018年4月16日）に参加
https://tech-camp.in/note/technology/41540/

https://news.microsoft.com/ja-jp/2018/04/17/blog-microsoft-innovation-day-2018/
世界大会進出決定．

Mediated Ear 6
名前：佐藤邦彦
所属：LINE株式会社開発（2018年4月入社）
2016年~2018年
筑波大学情報学群情報メディア創成学類2012年~2016年
東京大学大学院学際情報学府修士課程暦本研究室

Mediated Ear
高校時代未踏2015
Imagine Cup 2017
世界大会SXSW2017

8
Imagine Cup 2017 日本代表选出．

Mediated Ear 9
トランプ大統領
"I have many friends I actually have a large group of people friends
that I have a great people but they do suffer these..."
深層学習を用いて，入力音声を特定の人物の声質に変換するソフトウェア
Imagine Cup 2017 プロダクト「NeuroVoice」

Mediated Ear 10
マイケルジャクソン

Mediated Ear 11
マイケルジャクソン
同時再生

世界大会（2017年）
一回戦で負けてしまいました．

13
Imagine Cup 2018
世界大会（2018年7月頃開催）で
リベンジ！

Mediated Ear特定の人物の声を抽出するソフトウェア

Mediated Ear
補聴器利用者の友人の話

Mediated Ear
聴覚障害者の悩み
人混みでは，
会話相手の声が聞こえない．

Mediated Ear
聴覚障害者の音の聞こえ方
音が小さく聞こえるのではなく，
周りの音すべてが混ざって聞こえる．

深層学習を利用して，
特定の人物の声を抽出するソフトウェア
Mediated Ear

Mediated Ear
聞きたい声が聞こえる「Mediated Ear」
Mediated Ear
雑音や複数話者の声が混ざった入力音源から，特定の人物の声だけを抽出．
入力波形特定の人物の声

20
入力音声（複数の話者が混ざっています）
抽出の対象となる話者
Mediated Earによって対象者の声を抽出
複数話者が重なっている音源からの抽出結果

21
入力音声（背景で音楽が鳴っています）
抽出の対象となる話者
Mediated Earによって対象者の声を抽出
BGMが重なっている音源からの抽出結果

Mediated Ear
https://kakakumag.com/av-kaden/?id=12058http://kodawari-story.com/movie/rion.html http://trendy.nikkeibp.co.jp/atcl/pickup/15/1003590/110901435/?P=2
現在の補聴器?イヤホン
雑音抑制や音声強調機能が搭載．

Mediated Ear
https://kakakumag.com/av-kaden/?id=12058http://kodawari-story.com/movie/rion.html http://trendy.nikkeibp.co.jp/atcl/pickup/15/1003590/110901435/?P=2
現在の補聴器?イヤホン
雑音抑制や音声強調機能が搭載．
複数話者の声を分離することはできない．

Mediated Ear
Mediated Earの働き
抽出対象の人物の声実际の抽出波形

Mediated Ear
Mediated Earの働き
抽出対象の人物の声実际の抽出波形
雑音や対象人物以外の声実际の抽出波形

Mediated Ear
音源分離技術の先行事例
音源分離技術
マルチマイク
（マルチチャンネル）
シングルマイク
（モノラルチャンネル）

Mediated Ear
音源分離技術

Mediated Ear
音源分離技術
雑音除去話者分離

Mediated Ear
雑音除去?話者分離?Mediated Earの違い
雑音除去話者分離 Mediated Ear
雑音と人の声を
分離できる．
短所
長所
話者分離は
できない．

Mediated Ear
雑音除去サンプル
“Deep Clustering and Conventional Networks for Music Separation: Stronger Together”
http://danetapi.com/chimera
Luo, Yi, et al. "Deep clustering and conventional networks for music separation: Stronger together." Acoustics, Speech
and Signal Processing (ICASSP), 2017 IEEE International Conference on. IEEE, 2017.
? 音楽が混ざった入力音声
? フィルター結果

Mediated Ear

Mediated Ear
? 複数話者が含まれる入力音声

Mediated Ear
分離できる．
短所
長所
話者分離は
できない．
複数話者の声を
分離できる．
雑音除去できない．
入力音源に雑音が
含まれると話者分離の
精度が落ちる．

Mediated Ear
分離できる．
短所
長所
話者分離は
できない．
複数話者の声を
分離できる．
雑音除去できない．
入力音源に雑音が
含まれると話者分離の
精度が落ちる．
入力音源に雑音や複数話者の
声が含まれていても，特定の
人物の声を抽出できる．
特定の人物の声しか
抽出できない．

Mediated Ear
Mediated Earの実装方法
対象人物の音声にさまざまな雑音や
他人の声を重畳した音声波形
対象人物の音声のみの波形
抽出対象となる人物の音声だけを抽出するように深層学習を行う．

Mediated Ear
Mediated Earの実装方法
対象人物の音声にさまざまな雑音や
他人の声を重畳した音声波形
対象人物の音声のみの波形
抽出対象となる人物の音声だけを抽出するように深層学習を行う．
振幅のサンプリング値（8bit）をそのまま入出力．

Mediated Ear
Mediated Earの
Deep Neural Network（DNN）構造

Mediated Ear
RNN / LSTMの欠点
“All class-based BLSTMs performed poorly
in non-speaker-dependent settings” [1]
[1] Hershey, John R., et al. "Deep clustering: Discriminative embeddings for segmentation and separation."
Acoustics, Speech and Signal Processing (ICASSP), 2016 IEEE International Conference on. IEEE, 2016.
LSTMを用いたDNNモデルは，
訓練データに含まれない話者同士の分離が難しい．

https://towardsdatascience.com/the-fall-of-rnn-lstm-2d1594c74ce0

https://towardsdatascience.com/the-fall-of-rnn-lstm-2d1594c74ce0
RNNは訓練時も実行時も多くのリソースを
必要とする．
RNNの中間層は逐次実行であり，
計算結果を保持する必要がある．

Mediated Ear
出力層
隠れ層
入力層
時間方向
丸はユニット，赤い色は行列乗算を意味する．
時間方向
Convolutional NN LSTM

Dilated Convolutional Neural Network
(Dilated CNN)
Mediated EarのDNN構造

Mediated Ear
画像処理のために提案されたDNN手法
Yu, Fisher, and Vladlen Koltun. "Multi-scale context aggregation by dilated convolutions." arXiv preprint arXiv:1511.07122 (2015).
Dilated CNN
畳み込みの範囲を拡大する．

Mediated Ear
Dilated CNNを音声に適用した研究「WaveNet」
Van Den Oord, Aaron, et al. "Wavenet: A generative model for raw audio." arXiv preprint arXiv:1609.03499 (2016).
Text to Speech
“Hello”

Mediated Ear
競合との比較
https://research.googleblog.com/2018/04/looking-to-listen-audio-visual-
speech.html
Google Research、複数音から特定の発話者だけの
声を聞こえるようにする深層学習手法（2018年4月12日発表！）

Mediated Ear
競合との比較
speech.html
顔認識 + 音源分離
発話者の顔画像が必要．

Mediated Ear
競合との比較
speech.html
顔認識 + 音源分離
Mediated Ear
音声データのみでよい．
発話者の顔画像が必要．

Q. Mediated Earの訓練データに必要な，
抽出対象人物の音声データ量は？

A. ひとりあたりの必要な音声データ
3分
Q. Mediated Earの訓練データに必要な，
抽出対象人物の音声データ量は？

Q. ユーザーはどのような人を抽出する対象とするか？

A. ユーザーの家族，恋人，仲の良い友人など頻繁に会話する人．
Q. ユーザーはどのような人を抽出する対象とするか？

https://www.weforum.org/agenda/2017/04/treating-hearing-loss-might-be-easier-with-a-familiar-voice
親しみのある声（親，恋人，孫）を聞くことは，
聴覚が低下した人に対して，聴力を向上させる可能性がある．
Cited by World Economic Forum

親しみのある声（親，恋人，孫）を聞くことは，
聴覚が低下した人に対して，聴力を向上させる可能性がある．
親しい人の声をいつでも?
どこでも聞くことが可能に
なるだけで大きな利点．
https://www.weforum.org/agenda/2017/04/treating-hearing-loss-might-be-easier-with-a-familiar-voice
Cited by World Economic Forum

Mediated Ear
ユーザーからのフィードバック
「日常生活では，複数の人が話していると
聞きづらいことが多い．
Mediated Earは，音源に雑音が含まれ
ていても話者分離できるのが良い！」
「Mediated Earで抽出した音は
対象話者の声が聞きやすい．」

Mediated Ear
「日常生活では，複数の人が話していると
聞きづらいことが多い．
Mediated Earは，音源に雑音が含まれ
ていても話者分離できるのが良い！」
ユーザーからのフィードバック
「Imagine Cup世界大会で優勝して早く実用化してくれ．」
「Mediated Earで抽出した音は
対象話者の声が聞きやすい．」

Mediated Ear
Wearableから「Hearable」へ

Mediated Ear
Wearableから「Hearable」へ
Mediated Earを搭載すれば，
イヤホンを介して，周囲の音を
選択的に聞くことが可能になる．

Mediated Ear
冨永健佐藤邦彦
チーム
東京大学大学院暦本研究室
機械設計，ソフトウェア
東京大学大学院暦本研究室
深層学習，Human-Computer Interaction

Mediated Ear
プラン
現在
ソフトウェアとして実装
2017年冬
着手
Hearable端末として発表
Imagine Cup 世界大会

Mediated Ear
Empowering us all.
ありがとうございました．

狠狠撸

Microsoft Imagine Cupと深層学習を用いた音源分離技術について_言語音声ナイト

More Related Content

Microsoft Imagine Cupと深層学習を用いた音源分離技術について_言語音声ナイト