狠狠撸

From Textual Entailment in BERT to
Visual Entailment in GPT-4V
-テキスト含意関係から
画像の含意関係へ-
2023年10月20日(金)
@羽田空港
太田博三

本LTでは１）画像の含意関係認識と２）画像の常識推
論を取り上げます。
目次：
1.テキストの含意関係認識とは
2.画像の含意関係認識とは
3.マーケティングのへの応用
：お店画像とクチコミの相性
4.考察/まとめ
5.補足：画像の常識推論
(“Visual Commonsense reasoning”)
4.3 Multimodal
Knowledge and
Commonsense
6 Temporal and Video
Understanding を参照

1.テキストの含意関係認識とは
Text:昨日、祇園
で京料理を満喫
した。
Hypothesis:
昨日、京都にい
た。
含意関係の判断
(Recognition of
Textual Entailment) YES/NO

前提(Premise)
画像
仮説
(Hypothesis)
文
＋＝
結果：
1)含意である
2)中立である
3)反駁している

前提(Premise)
画像
仮説
(Hypothesis)
文
＋＝
結果：
1)含意である
2)中立である
3)反駁している
結果：
このHypothesisは
画像との関係で「1.
Entailment（含
意）」に当たります。
仮説：
2 人の女性が
荷物を持って
います。
＋
＝

仮説：
2 人の女性が
荷物を持って
います。
＋
＝
結果：
このHypothesisは
Entailment（含
仮説：
2 人の女性
が荷物を
持っていま
す。
＋＝
結果：
このHypothesisは
Entailment（含
仮説：
市内の路上で心からの抱擁を
交わす2人の女性。1人は白い
容器を持ち、もう1人はフォル
ダーを握り締めている。その後
ろでは建設機械やバイクなど
の街の喧騒が続いている。

仮説：
2 人の女性が
荷物を持って
います。
＋
＝
結果：
このHypothesisは
Entailment（含
仮説：
2 人の女性
が荷物を
持っていま
す。
＋＝
結果：
このHypothesisは
Entailment（含
仮説：
市内の路上で心からの抱擁を
交わす2人の女性。1人は白い
容器を持ち、もう1人はフォル
ダーを握り締めている。その後
ろでは建設機械やバイクなど
の街の喧騒が続いている。
理由: 画像には2人の女性が写っており、少なくとも1
人の女性が赤い袋を持っていて、もう1人の女性も何
かの容器を持っていることが確認できる。この情報に
基づいて、提供されたHypothesisは画像の内容と一致
しており、画像がHypothesisを含意していると言えます。

姉妹たちは昼食
を食べたばかり
で、持ち帰り用
の荷物を持ちな
がらハグをしな
がら別れを告げ
ている。
＋
＝
結果：
このHypothesisは
Neutral（中立）」に
当たります。

ている。
＋
＝
結果：
このHypothesisは
当たります。
理由: 画像から確認できるのは、2人の女性が何かの容器や袋を持ってハグをし
ていることです。彼女たちが姉妹であるか、昼食を食べたばかりであるか、また
持ち帰り用の荷物を持っている理由は画像からは分かりません。したがって、
Hypothesisが真であるかどうかを画像の情報だけで確定することはできません。
このため、中立のカテゴリに分類されます。

男たちはデリの
外で争っている。
＋
＝
結果：
このHypothesisは
画像との関係で
「「3. Contradiction
（矛盾）」に当たり
ます。

男たちはデリの
外で争っている。
＋
＝
結果：
このHypothesisは
画像との関係で
「「3. Contradiction
（矛盾）」に当たり
ます。
理由:画像には2人の女性が写っており、彼女たちはハグをしている様子です。
画像に男性は写っておらず、また争っている様子も見受けられません。また、画
像の背景にはデリ（食料品店）のような場所も見受けられません。このため、提
供されたHypothesisは画像の内容と矛盾していると言えます。

3.マーケティングのへの応用：お店画像とクチコミの相性
? お店が提供するイメージとお客様の受取る印象が一致しているとよいと考えます。
お店が提供するイメージ
(画像) お客様のクチコミ(文章)

お客様のクチコミ(文章)
お店が提供するイメージ
(画像)

4.考察/まとめ
? 画像と文章の含意関係のタスク(Visual Entailment(VE))の
フレームワークを応用すると、例えば、飲食店のクチコミ
の評価に適用できそうです。
? 画像のキャプションも、前後の文脈が示されないと、網羅
的な回答になりそうです。
→網羅的な回答は常識的に考えておかしいと言えることが
ありました。
→ [課題]”Visual Commonsense reasoning”等で、除外や修正
できると実用的に有用になるかもです。

補足：画像の常識推論
? Hypothesis自体のキャプション文章は日常的
にありうると考えられる。
Hypothesis(仮説)
ている。
＋
＝
結果：
このHypothesisは
当たります。

? Hypothesis自体のキャプション文章はありうる
と考えられる。
Hypothesis(仮説)
市内の路上で心からの抱擁を交わす
2人の女性。1人は白い容器を持ち、
もう1人はフォルダーを握り締めてい
る。その後ろでは建設機械やバイク
などの街の喧騒が続いている。

アインシュタインがスマートフォンを持っている
?
アインシュタインは１９５５年になくなっている。
スマートフォンは２００７年に発明された。
※ “Breaking Common Sense: WHOOPS!”より引用

参考文献?URL一覧
1. Breaking Common Sense: WHOOPS! A Vision-and-Language Benchmark of Synthetic and
Compositional Images
https://arxiv.org/abs/2303.07274
2.祇園京料理花咲口コミ - 楽天ぐるなびhttps://r.gnavi.co.jp/k290600/review/
3. The Dawn of LMMs:
Preliminary Explorations with GPT-4V(ision)
https://arxiv.org/pdf/2309.17421.pdf
4. Visual Entailment: A Novel Task for Fine-Grained Image Understanding
5. The Dawn of LMMs:
Preliminary Explorations with GPT-4V(ision)
※1 [ChatGPT部特別企画] GPT-4Vのポテンシャルを探る！
LT大会@東京?羽田空港会場 - connpass
https://chatgptclub.connpass.com/event/298703/
※2 github otanet
https://github.com/otanet/LT_GPT-4V_VE_20231021

狠狠撸

LT_Visual_Entailment_GPT-4V_20231021.pdf

More Related Content

LT_Visual_Entailment_GPT-4V_20231021.pdf