狠狠撸

狠狠撸Share a Scribd company logo
Image-to-Image Retrieval by Learning
Similarity between Scene Graphs
Sangwoong Yoon, Woo Young Kang, Sungwook Jeon, SeongEun Lee, Changjin Han, Jonghun Park, and Eun-Sol Kim
1
社内論文読み会 Paper Friday 20210510
Kazuhiro Ota
Image-to-Image retrieval: 画像から画像を検索するタスク
2
Image-to-Image retrieval: 画像から画像を検索するタスク
3
クエリ画像
Image-to-Image retrieval: 画像から画像を検索するタスク
4
ResNet特徴量の
Cosine類似度で検索
縦線が入ってたりグレスケな
のはあってるけど、テニスして
なかったりスケボー乗ってな
かったり???
Image-to-Image retrieval: 画像から画像を検索するタスク
5
提案手法
より画像のコンテキストに
即した検索を可能に
複雑なコンテキストを持つ画像を検索するために
画像内の物体やその関連性を利用するためにScene Graph [Johnson et al. 2015] に着目
6
既存研究(Scene Graphの提案と検索応用)
検索対象画像中の物体のBBoxに対してクエリ
SceneGraphをCRFによって対応付けてその尤度
からMAP
● 大規模な画像検索には不向き
● 事前にBBoxを検出しておく必要あり
7
Image Retrieval using Scene Graphs [Johnson et al. 2015]
提案手法: Image Retrieval with Scene Graph Similarity (IRSGS)
画像のScene GraphをGraph Neural NetworkでEmbeddingに変換しその類似度に基づいて検索
このGNNを学習することが提案手法の学習となる
8
Query Image Scene Graph
Graph Embedding
Similarity
Target Image
Graph Embedding
Scene Graph
提案手法: Image Retrieval with Scene Graph Similarity (IRSGS)
画像のScene GraphをGraph Neural NetworkでEmbeddingに変換しその類似度に基づいて検索
このGNNを学習することが提案手法の学習となる
9
Query Image Scene Graph
Graph Embedding
Similarity
Target Image
Graph Embedding
Scene Graph
GNNには下記の2種を利用
● Graph Convolutional Network [Kipf, 2016] (IRSGS-GCN)
● Graph Isomorphism Network [Xu, 2018] (IRSGS-GIN)
提案手法: Image Retrieval with Scene Graph Similarity (IRSGS)
画像のScene GraphをGraph Neural NetworkでEmbeddingに変換しその類似度に基づいて検索
このGNNを学習することが提案手法の学習となる
10
Query Image Scene Graph
Graph Embedding
Similarity
Target Image
Graph Embedding
Scene Graph
Scene Graph生成には下記の手法( pretrained)を利用
Bottom-up and top-down attention for image captioning
and visual question answering [Anderson et al. 2016]
GNNの学習には画像キャプション類似度を利用
大規模な画像データセットに対して類似度ラベルを人手
でアノテーションするのは大変(N2
)
画像に付与されているキャプションの類似度を画像類似
度の代わりとする(キャプションが似ていれば画像のコン
テキストも似ているだろう)
11
MS COCOデータセット キャプション例
IRSGS Training Overview
12
画像に付与されているキャプションの SBERT特徴量の類似度を教師情報として Graph Neural Networkを学習
SceneGraph生成とSBERTはpre-trained
: trainable path
Experiments: Training Data
● VG-COCO
○ 下記のデータセットにおいて共通する画像 Train: 35,017枚, Test: 13,203枚
■ Visual Genome
■ MS-COCO
○ ラベル
■ Scene Graph(Visual Genomから)
■ キャプション(MS-COCOから)
● Flickr30k
○ Train: 30,000枚, Test: 1,000枚
○ ラベルはキャプションのみ
13
Experiments: Similarity Baselines for Retrieval
● 画像特徴量
○ ResNet-152
○ ResNet-152 (キャプション類似度で Fine Tune)
● キャプション生成
○ Soft attention model [Xu et al. 2015]
● 物体カウント
○ Scene Graphから物体数だけをカウントしてベクトル化
● Scene Graphの類似度
○ Gromov-Wasserstein Learning [Xu et al. 2019] [Xie et al. 2018]
○ Graph Matching Networks [Li et al. 2019]
14
Experiments: Evaluation Metrics
● nDCG
○ 各比較手法で検索した際の DCG / 画像キャプション類似度で検索した際の DCG
● Human Agreement
○ 各比較手法による類似度判定と人間による類似判定との一致度合いを計算
○ 全29名
○ 詳しくは次ページから
15
Human Agreement
16
Query
Image 1 Image 2
1. the first image is more similar to the query
2. the second image is more similar to the query
3. all three images are identical
4. the candidates as irrelevant
それぞれを選択したアノテータの人数
各検索手法によって類似度が高いと選択
された画像の番号
アノテータの回答をもとに下式で Human
Agreement Scoreを計算
アノテーション画面(イメージ)
Results on VG-COCO w/ human-annotated scene graphs
17
提案手法
(シーングラフ生成なし)
ベースライン
Results on VG-COCO w/ machine-generated scene graphs
18
ベースライン
提案手法
(シーングラフ生成あり)
Results on Flicker30k w/ machine-generated scene graphs
19
ベースライン
提案手法
(シーングラフ生成あり)
Qualitative Results
20
提案手法 提案手法
ObjectCount
窓の数だけで検索されてきた
ResNet
相変わらず画像の表面的な特
徴しか捉えられてない
Ablation Study
21
Conclusion
● 複雑なコンテキストを持つ画像を検索するための、Scene Graph間の類似度を算出す
るGraph Neural Networkに基づく手法を提案
● 代理類似度として画像キャプション類似度を使って学習する手法も提案
22

More Related Content

社内論文読み会資料 Image-to-Image Retrieval by Learning Similarity between Scene Graphs