3. 論文概要
Towards Diverse and Natural Image Descriptions via a Conditional GAN
● 著者:Bo Dai et al.
● The Chinese University of Hong KongとUniversity of Torontoの研究
概要
● キャプション生成向けの新しいGANベースのワークフローを提案
● 生成される文章の自然さ、バリエーションが増す
3
4. キャプション生成
入力画像に対して、その画像を適切に表現する文章を生成する
● Grey cow walking in a large green field in front of house
● A cow in a large open field with a house in the background
● A cow standing in a large open grass field
● A train pulling into a station outside during the day
● A passenger train moving through a rail yard
● A long passenger train pulling up to a station
4
6. 先行研究:Caption生成
● LSTMとCNNを組み合わせることで、Caption生成は飛躍的に進歩
● Encoder-Decoderモデルが主流
○ 画像をCNN等で特徴量に一度エンコードする
○ 特徴量を入力として、文章をデコードしていく
● 最尤推定ベース Show and tell: A neural image caption generator[Vinyals+ 2015]
単語のone-hot vector
次の単語の
確率分布
学習データ
より近づくように
学習する
6
● Grey cow walking in a large
green field in front of house
● A cow in a large open field with
a house in the background
● A cow standing in a large open
grass field
A cow standing in a
field next to houses
7. 先行研究:Caption生成における目的関数/評価手法
● 「生成文」と「教師文」との間のn-gramの一致度を比較する手法が主流
○ BLEU, ROUGE, METEOR, CIDEr …
○ 教師の文とよりn-gramが一致しているほど、点数が上がる
○ 2gramの例
■ 教師文1:This is a building on the corner of Trinity and 4th Street.
→”This is”, “is a”, “a building”, “building on”, “on the”, “the corner”, “corner of”, “of Trinity”,
“Trinity and”, “and 4th”, “4th Street”
■ 教師文2:A street sign on a street and a building with many windows behind it.
→”A street”, “street sign”, “sign on”, “on a”, “a street”, “street and”, “and a”, “a building”,
“building with”, “with many”, “many windows”, “windows behind”, “behind it”
■ 生成文: A street sign in front of a building
→”A street”, “street sign”, “sign in”, “in front”, “front of”, “of a”, “a building”
■ Pn
= 一致するn-gram/生成文のn-gramの長さ=3/7
7