13. 13
Deep Learning事例:Visual Question Answering
画像と、画像に対する質問の2つの入力を元に、質問に対する答えを推定する問題
入力1
画像
入力2
質問文
Sunny
What is the
weather like?
出力
質問に対する答え
入力と出力のペアからなる教示のみを元にニューラルネットワークを学習することで、
(ルールも知識表現もなく)相当複雑な機能を獲得できる
論文:「Multimodal Compact Bilinear Pooling for Visual
Question Answering and Visual Grounding」
Akira Fukui, Dong Huk Park, Daylen Yang, Anna Rohrbach,
Trevor Darrell, Marcus Rohrbach
https://arxiv.org/abs/1606.01847
…
ニューラルネットワーク