1. Copyright (C) 2018 DeNA Co.,Ltd. All Rights Reserved.
マルチモーダル深层学习の研究动向
株式会社ディー?エヌ?エー
AIシステム部
森紘一郎
Copyright (C) 2018 DeNA Co.,Ltd. All Rights Reserved.
2. Copyright (C) 2018 DeNA Co.,Ltd. All Rights Reserved.
自己紹介
? 森 紘一郎
? 経歴
? 2005年 株式会社東芝 研究開発センター
機械学習?データ(テキスト)マイニング(5年)
音声合成(7年)
? 2017年 株式会社ディー?エヌ?エー
DEEP LEARNING(音声、コンピュータビジョン)
? プライベート
? Twitter: aidiary(@sylvan5)
? ブログ: 人工知能に関する断創録(2002?)
? 最近は生成系(音声?画像)と
マルチモーダルなDEEP LEARNINGに興味あり
2
3. Copyright (C) 2018 DeNA Co.,Ltd. All Rights Reserved.
目次
? マルチモーダルDEEP LEARNINGとは?
? どんなアプリケーションがある?
? 研究上のチャレンジは?
? マルチモーダルタスクとアーキテクチャ
? まとめ
? この発表は以下の資料をベースに独自の調査内容を追加
? [Baltrusaitis 2017] Baltrusaitis, T. et al., Multimodal Machine Learning:
A Survey and Taxonomy, arXiv:1705.09406.
? [Morency 2017] Morency, L-P. and Baltrusaitis, T., Tutorial on Multimodal
Machine Learning, ACL 2017.
3
5. Copyright (C) 2018 DeNA Co.,Ltd. All Rights Reserved.
マルチモーダル深層学習とは
? マルチモーダル深層学習
? 複数のモダリティからの情報を統合的に処理し、それらを関連付けるモデル
を構築することを目的とする
? 深層学習を使わないアプローチもあるが、本発表では深層学習に的を絞る
? それぞれのモダリティに関する研究分野が独自に進展してきたが、Deep
Learningの登場により分野間の障壁が薄くなってきている
? マルチモーダルの重要性
? 人は単一のモダリティに基づいて思考?記憶?判断していない
? 人工知能のさらなる進展にはマルチモーダル信号を統合する技術が必要!
? 実は昔から研究自体はあった(例)記号とパターンの統合
5
6. Copyright (C) 2018 DeNA Co.,Ltd. All Rights Reserved.
マルチモーダル深層学習は学際的な領域
6
非常に学際的で強力なポテンシャルを秘めた分野
だと確信してるが儲かるビジネスがあまり思い浮かばないのが現状???
? 心理学(Psychology)
? 医療(Medical)
? 音声(Speech)
? 画像(Vision)
? 言語(Language)
? マルチメディア(Multimedia)
? ロボティクス(Robotics)
? 機械学習(Machine Learning)
7. Copyright (C) 2018 DeNA Co.,Ltd. All Rights Reserved.
3V: Verbal Vocal Visual
7
現在の研究で対象となる主なモダリティ
言語情報
書く?話す
音?音楽
パラ言語情報
画像?ビデオ
[Morency 2017]
8. Copyright (C) 2018 DeNA Co.,Ltd. All Rights Reserved.
マルチモーダルアプリケーション (1) Audio-Visual Speech Recognition
? 音声と画像(主に唇の動き)の両方の情報を用いて音声認識する
? Lip Reading: 唇の画像のみからテキストに変換する
? マルチモーダル処理の最初期の研究(1986年)
? Deep Learningのマルチモーダル化もこのタスクから(ICML2011)
8
[Potamianos 2003]
9. Copyright (C) 2018 DeNA Co.,Ltd. All Rights Reserved.
マルチモーダルアプリケーション (2) Glove-Talk
? 人間の腕の動き(行動?センサー)を音声に変換する
? 最近では手話を音声に変換する研究もある
9
Glove Talk II
https://www.youtube.com/watch?v=hJpGkroFP3o&t=100s
10. Copyright (C) 2018 DeNA Co.,Ltd. All Rights Reserved.
マルチモーダルアプリケーション (3) Talking Head
? テキスト情報を音声と顔画像に変換する
10
2013 Expressive Visual Text to Speech - Talking Head
https://www.youtube.com/watch?v=x8B7OxjB05k
11. Copyright (C) 2018 DeNA Co.,Ltd. All Rights Reserved.
マルチモーダルアプリケーション (4) Audio-Visual Emotion Recognition
? 音声と画像の両方の情報を使って人の感情を認識する
11
[Morency 2017]
12. Copyright (C) 2018 DeNA Co.,Ltd. All Rights Reserved.
マルチモーダルアプリケーション (5) Multimedia Content Analysis
? 画像や映像をテキストに変換する(Image captioning)
? テキストを画像?映像に変換する(Text2Image)
? 画像や映像に関する質問や対話を自然言語で行う(VQA, Visual Dialog)
12
[Morency 2017]
17. Copyright (C) 2018 DeNA Co.,Ltd. All Rights Reserved.
(例1)Multimodal Sentiment Analysis (Emotion Recognition)
? 複数のモーダルの情報を用いて感情(喜び?怒り?悲しみなど)を認識する
? 顔画像、音声、音声認識したテキストの全てを用いる
? それぞれのモダリティからの情報は独自のニューラルネットを用いる
? マルチモーダル表現空間は中間表現をconcat
? その表現を用いて感情を分類
17
[Morency 2017]
18. Copyright (C) 2018 DeNA Co.,Ltd. All Rights Reserved.
(例2)Visual Question Answering
? 画像に対する質問をテキストですると回答してくれるシステム
? 画像を処理するCNNの出力とテキストを処理するLSTMの出力を掛け合わせてマ
ルチモーダル表現空間を形成
18
[Agrawal 2015]
19. Copyright (C) 2018 DeNA Co.,Ltd. All Rights Reserved.
(例3)Audio-Visual Speech Recognition
? 音声と唇の画像の両方を用いて音声を認識する
? 出力は音素
? Audioのみ PER (Phone Error Rate) 41%
? Imageを加えると PER 35.83% と改善
? 特に音声のノイズが大きい環境では画像が有益
19
[Mroueh 2015]
20. Copyright (C) 2018 DeNA Co.,Ltd. All Rights Reserved.
(例4)SoundNet
? 音の深層表現を学習済の画像分類モデルを用いて学習する
? 画像と音がペアであるビデオを使って学習
? 画像ネットワークをTeacher Model、音のネットワークをStudent Model
として音の深層表現を学習する
20
Image Networkの出力分布と
Sound Networkの出力分布が
近くなるようにSoundNetの
パラメータを学習
[Aytar 2016]
21. Copyright (C) 2018 DeNA Co.,Ltd. All Rights Reserved.
(例5)See, Hear, and Read: Deep Aligned Representations
? 画像、音声、言語の3つのモダリティを統合する深層表現を学習
? ペアとなるプールの画像、プールの音、プールに関する文章の深層表現ベク
トルが互いに近くなる
? クロスモーダル検索やモダリティ間の分類器の転移などのタスクに有効
21
Teacher Loss + Pair Lossが最小になるように学習
[Aytar 2017]
22. Copyright (C) 2018 DeNA Co.,Ltd. All Rights Reserved.
(例6)Object Picking with Spoken Language
22
ロボットのピッキング対象を自然言語で指示する
画像とテキストを入力としてロボット制御の対象となるオブジェクトと移動先を特定する
ロボットの制御自体は学習対象ではない
[Hatori 2017]
自然言語で指示した物体がSSDで
切り出した物体のどれかを当てる
タスク
自然言語で指示した物体の
移動先がどこか当てるタスク
24. Copyright (C) 2018 DeNA Co.,Ltd. All Rights Reserved.
2つのアプローチ
? Example-based ≒ ノンパラメトリックモデル
? 辞書ベースの変換(と言うよりもマルチモーダル検索)
? SOURCEともっとも類似するTARGETを検索して返す
? SOURCEとTARGETの変換にDEEP LEARNINGを活用する研究も
? Model-driven ≒ パラメトリックモデル
? SOURCEとTARGETの組みから変換モデルを学習
? SOURCEをモデルに入力してTARGETに変換する
? DEEP LEARNINGの登場とテキスト?画像?音声の生成モデルの
発明以降はこちらが研究の中心に
24
(例)Imaginary Soundscape
(例)Visual-to-sound
[Morency 2017]
25. Copyright (C) 2018 DeNA Co.,Ltd. All Rights Reserved.
(例)Imaginary Soundscape vs. Visual-to-sound
? どちらの研究も風景画像からその風景にあった音声を再生するタスク
25
? 画像と音声を同一のマルチモーダル空間に写像
? マルチモーダル空間は、画像とそれに対応する音声間の距離が
近くなるように学習される
? 入力した画像と最も距離が近い音声を検索して再生する
Imaginary Soundscape Visual-to-sound
? Encoder-decoderモデル(seq2seq)
? ビデオを符号化するencoder
? 符号から音声を生成するdecoder(SampleRNN)
? 画像を入力すると音声波形を生成して再生する
[Zhou 2017]
[Kajihara 2017]
26. Copyright (C) 2018 DeNA Co.,Ltd. All Rights Reserved.
Model-drivenアプローチ
? Deep Learningによる生成モデルの活用
? 画像 GAN, PixelRNN
? 音声 WaveNet, SampleRNN
? テキスト LSTM
? 変換モデルはEncoder-decoderモデルが最も一般的
? ソースモダリティのデータをEncoderでベクトルに変換
? Decoderでターゲットモダリティのデータを生成
? Encoderはモダリティ特有のものが使われる(画像ならCNN、音声ならRNN)
? DecoderはEncoderの出力ベクトルを初期の隠れ状態としたRNN
? Attentionが効果的
26
27. Copyright (C) 2018 DeNA Co.,Ltd. All Rights Reserved.
Image-to-Text: Image Captioning
27
画像を入力するとその画像の内容を表す
テキストを出力する
GoogLeNet
などのCNN
入力は画像
FC層の直前の
画像特徴量を
LSTMの隠れ状態の
初期値とする
LSTMで単語系列を生成
[Vinyals 2014]
28. Copyright (C) 2018 DeNA Co.,Ltd. All Rights Reserved.
Text-to-Image Synthesis
28
テキストを入力するとそのテキストにあった画像が生成される
テキストをエンコード
テキスト符号はGeneratorの入力で
あるノイズに条件として付与
Conditional GANで画像を生成
Discriminatorにもテキスト符号は
入力してテキストと画像のミスマッチ
も識別する
[Reed 2016]
29. Copyright (C) 2018 DeNA Co.,Ltd. All Rights Reserved.
Text-to-Speech: Tacotron
29
テキストを入力すると音声が生成される
いわゆる音声合成
Tacotronの場合は入力は文字の系列
音響パラメータの系列を出力
=> ボコーダーで音声を合成
Conv1D + RNN
でエンコード
RNNでデコード
https://google.github.io/tacotron/publications/tacotron/index.html[Wang 2017]
30. Copyright (C) 2018 DeNA Co.,Ltd. All Rights Reserved.
Image-to-Sound: Visually Indicated Sounds
30
http://vis.csail.mit.edu/
画像はグレースケールに変換後、
前後1フレーム分をチャネルとして
3チャンネルで入力する
画像特徴量の系列はLSTMで
処理して音響特徴量系列を生成
音響特徴量から音声に変換
または生成した音響特徴量と最も
類似する音声をDBから検索して
貼り付ける
画像(ビデオ)を入力として音声を生成する
ものをドラムスティックで叩いた時の音を生成している
[Owens 2015]
31. Copyright (C) 2018 DeNA Co.,Ltd. All Rights Reserved.
Text-to-Video: Video Generation From Text
31
Gist Generator
gistと呼ばれる色と物体レイアウトを
大まかに記した画像を生成するCVAE
Video Generator
gistとテキストからビデオの
4Dテンソルを生成
Video Discriminator
本物のビデオと偽物を見分ける
テキストにマッチするか見分ける
ビデオの1フレーム目の画像とテキストの
両方を条件としてGistを生成
推論時はdecoderのみ使う
テキストからビデオを生成する
ビデオのシードとなる粗い画像(Gist)をテキストを条件として生成するのがポイント
ビデオはGistとテキストを条件として生成される
[Li 2017]
32. Copyright (C) 2018 DeNA Co.,Ltd. All Rights Reserved.
Image-to-Control: DQN
32
https://leonardoaraujosantos.gitbooks.io/artificial-inteligence/deep_q_learning.html
ゲームの過去4フレーム分の画像から行動を生成
入力は4フレーム分の画像 入力の状態における各行動の
行動価値を出力
[Mnih 2013]
33. Copyright (C) 2018 DeNA Co.,Ltd. All Rights Reserved.
Text-to-Control: Language Guided RL
33
自然言語による人の指示をもとに行動を出力
サブタスクを自然言語で与えるイメージ
1. 自然言語コマンドと状態の関連付け
2. 自然言語コマンドを達成するための最適行動の学習
入力は4フレーム分の画像と
自然言語による指示
画像はCNNで符号化 MLPで行動にマッピング
画像とテキストのマルチモーダル符号化
自然言語で指示されたコマンドが
満たされたら追加報酬が与えられる
34. Copyright (C) 2018 DeNA Co.,Ltd. All Rights Reserved.
例えばこんなアイデアは?
? 手話の動画から音声を生成する
? 顔写真やアニメイラストからもっともらしい声質を生成する
? 画像から音楽を生成する
? ダンスの動画からビートを生成する
? 歌詞のテキストからメロディを生成する
? サイレント映画に音をつける
? 料理のレシピから味を生成する
? 料理の写真から匂いを生成する
? 物体の写真から触覚を生成する
34
35. Copyright (C) 2018 DeNA Co.,Ltd. All Rights Reserved.
まとめ
? この資料ではマルチモーダル深層学習に関する研究を主にRepresentation /
Translation タスクを中心にまとめた
? 動物の知能は本質的にマルチモーダルであるため人工知能のさらなる進歩には必要不可
欠な技術(例)マルチモーダル連想記憶
? 深層学習は複数のモダリティを結びつける非常に強力な方法
? 現在の研究はテキスト、画像、音声の3つのモダリティが中心
? 嗅覚、味覚、触覚を加えることでさらに面白い可能性が広がるのでは?
? 複数のモダリティにまたがるアプリケーションは(まだ)ブルーオーシャン
35
36. Copyright (C) 2018 DeNA Co.,Ltd. All Rights Reserved.
マルチモーダル深層学習
36
画像
音 テキスト
制御
Talking Head
SoundNet
Imageinary Soundscape
Visual-to-Sound
Image
Captioning
Text-to-Image
Synthesis
Text-to-Speech
Speech Recognition
Visual QA
Language Guided RL
See Here and Read
DQN
Audio-visual Speech Recognition
37. Copyright (C) 2018 DeNA Co.,Ltd. All Rights Reserved.
参考文献
? [Baltrusaitis 2017] Baltrusaitis, T. et al., Multimodal Machine Learning: A Survey and Taxonomy, arXiv:1705.09406.
? [Morency 2017] Morency, L-P. and Baltrusaitis, T., Tutorial on Multimodal Machine Learning, ACL 2017.
? [Potamianos 2003] Potamianos, G. et al., Recent Advances in the Automatic Recognition of Audiovisual Speech, Proc. of
IEEE, 91 (9), pp.1306-1326, 2003.
? [Agrawal 2015] Agrawal, A. et al., VQA: Visual Question Answering, arXiv:1505.00468.
? [Mroueh 2015] Mroueh, Y. et al., Deep Multimodal Learning for Audio-Visual Speech Recognition, arXiv:1501.05396.
? [Aytar 2016] Aytar, Y. et al., SoundNet: Learning Sound Representations from Unlabeled Video, arXiv:1610.09001.
? [Aytar 2017] Aytar, Y. et al., See, Hear, and Read: Deep Aligned Representations, arXiv:1706.00932.
? [Hatori 2017] Hatori, J. et al., Interactively Picking Real-World Objects with Unconstrained Spoken Language Instructions,
arXiv:1710.06280.
? [Kajihara 2017] Kajihara, Y. et al., Imaginary Soundscape : Cross-Modal Approach to Generate Pseudo Sound Environments,
Workshop on ML for Creativity and Design (NIPS 2017)
? [Zhou 2017] Zhou, Y. et al., Visual to Sound: Generating Natural Sound for Videos in the Wild, arXiv: 1712.01393.
? [Vinyals 2014] Vinyals, O. et al., Show and Tell: A Neural Image Caption Generator, arXiv:1411.4555.
? [Reed 2016] Reed, S. et al., Generative Adversarial Text to Image Synthesis, arXiv:1605.05396.
? [Wang 2017] Wang, Y. et al., Tacotron: Toward End-to-End Speech Synthesis, arXiv:1703.10135.
? [Owens 2015] Owens, A. et al., Visually Indicated Sounds, arXiv:1512.08512.
? [Li 2017] Li, Y. et al., Video Generation from Text, arXiv:1710.00421.
? [Mnih 2013] Mnih, V. et al., Playing Atari with Deep Reinforcement Learning, arXiv:1312.5602.
? [Kaplan 2017] Kaplan, R. et al., Beating Atari with Natural Language Guided Reinforcement Learning, arXiv:1704.05539
37