狠狠撸

狠狠撸Share a Scribd company logo
AI semi
Keio Univ.
Imai Lab.
M1
Keisuke Takiguchi
AI Seminar 2018/10/17
話すこと
? インターンのすすめ
? インターンでやってたこと1
? インターンでやってたこと2
? おまけ(研究進捗)
2
インターンに行きましょう.
3
インターンのすすめ
なぜインターンに行った方が良い?
? 技術,スキルを学べる
? 将来どんな分野で働きたいかのイメージを掴む
? (特に情報工学科は)暇なので
? 研究するか,開発するかの判断材料として
どんなところに行くべき?
? 将来行きたい所(雰囲気調査,あわよくば内定)
? 時給が良い所(責任も大きい→より学べる)
行くならどの時期が良い?
? 夏休み,時間があれば長期インターンを平日に
? B3やM1,時間があるなら他学年でも
4
CycleGAN-
VC
7
声質変換
声質変換とは?
→話者の声を別の話者の声へと変換すること
通常,音響特徴抽出を行う
8
[6]
処理の流れ
9
10
100 25
15 5
メルケプストラム次数による違い
11
original 25 15 5 1
従来研究(1/3)
音響特徴量抽出+音声波形予測
? パラレルデータを用いて学習
? Bidirectional RNNベースのモデルなど
12
DBLSTM-RNN based model
従来研究(2/3)
13
WaveNet
? パラレルデータを用いて学習
? 波形を直接扱う
? 生成が非常に遅い
従来研究(3/3)
14
? フーリエ変換+位相推定による手法
? GAN[1]を用いる手法などがある
? 時系列データである音声特徴を画像として扱うことで
効率よくデータを利用できる.
問題点
WaveNet
? 学習に大量のデータが必要,用意が困難
? 処理が重く,リアルタイムな変換が不可能
STFT+位相推定
? 位相推定に時間を要する
普遍的な問題
? パラレルデータを用意するのが困難
15
CycleGAN[2] (1/2)
16
[2]CycleGAN
CycleGAN[2] (2/2)
17
[2]CycleGAN
CycleGAN-VC
Introduction&Samples
http://www.kecl.ntt.co.jp/people/kaneko.takuhiro/projects/cy
clegan-vc/
18
Architecture
19[4]CycleGAN-VC
1D CNN
20
mfcc
Frame size
結果
21
M to F
original converted
F to M
original converted
GANerated
22
23
GANを用いた三次元位置推定
画像から,三次元の座標を推定する手法
? OpenPoseなどがある
? リアルタイム向きではない(らしい)
24
OpenPose
やりたかったこと
手が写った画像を入力して,手の三次元座標を推定したい
シミュレータで手のモデルを作って,
座標と画像のペアデータを作成,教師データにできる
生成した手の画像が,実世界のものとかけ離れている
手の画像をリアルな質感に変換できれば
精度向上できるのでは
25
GANerated Hands for Real-Time 3D Hand
Tracking from Monocular RGB
26
教師画像生成 三次元位置推定 モデルに適用
処理の流れ
Architecture
27
Result(論文中)
28
おまけ
29
? 階層的な構造を持つ強化学習フレームワークの提案
? 複数の異なる抽象目的を階層的に持つことで
タスクを分解して解釈可能
? サブサンプションアーキテクチャ的な制御
参考文献
[1] Ian J. Goodfellow, Jean Pouget-Abadie, Mehdi Mirza, Bing Xu, David Warde-Farley, Sherjil Ozair, Aaron Courville, Yoshua
Bengio, “Generative Adversarial Networks”, Jun 2014
[2] Jun-Yan Zhu, Taesung Park, Phillip Isola, Alexei A. Efros, ”Unpaired Image-to-Image Translation using Cycle-Consistent
Adversarial Networks”, ICCV 2017.
[3] S M. Ali Eslami, Danilo Jimenez Rezende, et.al. “Neural scene representation and rendering”, Science 15 Jun 2018
[4] Takuhiro Kaneko, Hirokazu Kameoka ,“PARALLEL-DATA-FREE VOICE CONVERSION USING CYCLE-CONSISTENT
ADVERSARIAL NETWORKS”, NTT Corporation
[5] Lifa Sun, Kun Li, Hao Wang, Shiyin Kang and Helen Meng, “PHONETIC POSTERIORGRAMS FOR MANY-TO-ONE VOICE
CONVERSION WITHOUT PARALLEL DATA TRAINING “
[6] 統計的声質変換を行うための知識と手法
https://nico-opendata.jp/ja/casestudy/2stack_voice_conversion/report.html#[4]
[7] 人工知能に関する断創録
http://aidiary.hatenablog.com/
[8]スペクトログラムとメル周波数スペクトログラムの可視化
http://r9y9.github.io/blog/2013/11/16/mel-spectrogram/
30

More Related Content

機械学習ゼミ 2018/10/17

Editor's Notes

  • #5: 质疑応答,机械学习のことだけじゃなくて,インターンのことでも大丈夫です.础滨ゼミ的に大丈夫かは知らないです.
  • #7: こっから本题.
  • #13: パラレルデータとは,入力話者と出力話者について同時に同じ内容を発話した音声データのことをいう Bidirectional RNN 音響特徴量(基本周波数、スペクトラム、非周期信号
  • #14: 大量の計算資源と大量の学習データが必要 16-bitの整数値で保存される. つまり取りうる値を生成するために, 1タイムステップあたり65,536個の確率をアウトプット データを用意するのが困難.
  • #15: 音质わるわる