狠狠撸

AI semi
Keio Univ.
Imai Lab.
M1
Keisuke Takiguchi
AI Seminar 2018/10/17

話すこと
? インターンのすすめ
? インターンでやってたこと１
? インターンでやってたこと２
? おまけ（研究進捗）
2

インターンに行きましょう．
3

インターンのすすめ
なぜインターンに行った方が良い？
? 技術，スキルを学べる
? 将来どんな分野で働きたいかのイメージを掴む
? （特に情報工学科は）暇なので
? 研究するか，開発するかの判断材料として
どんなところに行くべき？
? 将来行きたい所（雰囲気調査，あわよくば内定）
? 時給が良い所（責任も大きい→より学べる）
行くならどの時期が良い？
? 夏休み，時間があれば長期インターンを平日に
? B3やM1，時間があるなら他学年でも
4

声質変換
声質変換とは？
→話者の声を別の話者の声へと変換すること
通常，音響特徴抽出を行う
8
[6]

メルケプストラム次数による違い
11
original 25 15 5 1

従来研究(1/3)
音響特徴量抽出＋音声波形予測
? パラレルデータを用いて学習
? Bidirectional RNNベースのモデルなど
12
DBLSTM-RNN based model

従来研究(2/3)
13
WaveNet
? パラレルデータを用いて学習
? 波形を直接扱う
? 生成が非常に遅い

従来研究(3/3)
14
? フーリエ変換＋位相推定による手法
? GAN[1]を用いる手法などがある
? 時系列データである音声特徴を画像として扱うことで
効率よくデータを利用できる．

問題点
WaveNet
? 学習に大量のデータが必要，用意が困難
? 処理が重く，リアルタイムな変換が不可能
STFT+位相推定
? 位相推定に時間を要する
普遍的な問題
? パラレルデータを用意するのが困難
15

CycleGAN[2] (1/2)
16
[2]CycleGAN

CycleGAN[2] (2/2)
17
[2]CycleGAN

CycleGAN-VC
Introduction&Samples
http://www.kecl.ntt.co.jp/people/kaneko.takuhiro/projects/cy
clegan-vc/
18

結果
21
M to F
original converted
F to M
original converted

GANを用いた三次元位置推定
画像から，三次元の座標を推定する手法
? OpenPoseなどがある
? リアルタイム向きではない（らしい）
24
OpenPose

やりたかったこと
手が写った画像を入力して，手の三次元座標を推定したい
シミュレータで手のモデルを作って，
座標と画像のペアデータを作成，教師データにできる
生成した手の画像が，実世界のものとかけ離れている
手の画像をリアルな質感に変換できれば
精度向上できるのでは
25

GANerated Hands for Real-Time 3D Hand
Tracking from Monocular RGB
26
教師画像生成三次元位置推定モデルに適用
処理の流れ

おまけ
29
? 階層的な構造を持つ強化学習フレームワークの提案
? 複数の異なる抽象目的を階層的に持つことで
タスクを分解して解釈可能
? サブサンプションアーキテクチャ的な制御

参考文献
[1] Ian J. Goodfellow, Jean Pouget-Abadie, Mehdi Mirza, Bing Xu, David Warde-Farley, Sherjil Ozair, Aaron Courville, Yoshua
Bengio, “Generative Adversarial Networks”, Jun 2014
[2] Jun-Yan Zhu, Taesung Park, Phillip Isola, Alexei A. Efros, ”Unpaired Image-to-Image Translation using Cycle-Consistent
Adversarial Networks”, ICCV 2017.
[3] S M. Ali Eslami, Danilo Jimenez Rezende, et.al. “Neural scene representation and rendering”, Science 15 Jun 2018
[4] Takuhiro Kaneko, Hirokazu Kameoka ,“PARALLEL-DATA-FREE VOICE CONVERSION USING CYCLE-CONSISTENT
ADVERSARIAL NETWORKS”, NTT Corporation
[5] Lifa Sun, Kun Li, Hao Wang, Shiyin Kang and Helen Meng, “PHONETIC POSTERIORGRAMS FOR MANY-TO-ONE VOICE
CONVERSION WITHOUT PARALLEL DATA TRAINING “
[6] 統計的声質変換を行うための知識と手法
https://nico-opendata.jp/ja/casestudy/2stack_voice_conversion/report.html#[4]
[7] 人工知能に関する断創録
http://aidiary.hatenablog.com/
[8]スペクトログラムとメル周波数スペクトログラムの可視化
http://r9y9.github.io/blog/2013/11/16/mel-spectrogram/
30

狠狠撸

機械学習ゼミ 2018/10/17

Recommended

More Related Content

What's hot (6)

Similar to 機械学習ゼミ 2018/10/17 (20)

More from KCS Keio Computer Society (20)

機械学習ゼミ 2018/10/17

Editor's Notes