【DLゼミ】XFeat: Accelerated Features for Lightweight Image Matchingharmonylab
?
公開URL:https://arxiv.org/pdf/2404.19174
出典:Guilherme Potje, Felipe Cadar, Andre Araujo, Renato Martins, Erickson R. ascimento: XFeat: Accelerated Features for Lightweight Image Matching, Proceedings of the 2024 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR) (2023)
概要:リソース効率に優れた特徴点マッチングのための軽量なアーキテクチャ「XFeat(Accelerated Features)」を提案します。手法は、局所的な特徴点の検出、抽出、マッチングのための畳み込みニューラルネットワークの基本的な設計を再検討します。特に、リソースが限られたデバイス向けに迅速かつ堅牢なアルゴリズムが必要とされるため、解像度を可能な限り高く保ちながら、ネットワークのチャネル数を制限します。さらに、スパース下でのマッチングを選択できる設計となっており、ナビゲーションやARなどのアプリケーションに適しています。XFeatは、高速かつ同等以上の精度を実現し、一般的なラップトップのCPU上でリアルタイムで動作します。
- The document discusses topic modeling and describes several steps in the process: removing common words, calculating term frequencies, normalizing term frequencies, and calculating the similarity between documents and topics based on term frequency-inverse document frequency.
- Key algorithms and calculations mentioned include removing common words, calculating tf-idf to measure how important a term is to a document, and using tf-idf scores to determine the similarity between documents and topics.
- The goal is to automatically organize large text corpuses by categorizing documents into topics based on the terms they contain and how common or rare those terms are.
Semi-convolutional Operators for Instance SegmentationKento Doi
?
The document discusses various topics including:
- Different mathematical equations and symbols
- Mentions of vectors, matrices, and linear algebra concepts
- References to physics concepts like energy and momentum
- Details on chemical reactions and molecular structures
The document contains technical information from multiple domains in a condensed format.
Le document semble contenir des informations techniques complexes et des données chiffrées. Ses contenus peuvent concerner des analyses ou des résultats d'études, mais la lisibilité est fortement entravée par des symboles et un format peu clair. En raison de cette opacité, il est difficile d'en extraire des conclusions précises.
Le document semble contenir une série de données désorganisées et de symboles sans contexte clair. Les éléments sauf leur structure et répétition ne révèlent pas d'information spécifique discernable. En conséquence, aucune synthèse informative nette n'est possible.
The document discusses various methods for semantic segmentation of urban scenes, focusing on reality-oriented adaptation techniques. It highlights important methods such as target guided distillation and spatial-aware adaptation, along with existing literature on domain adaptation for object detection. The references include significant works from conferences like CVPR and ECCV, addressing both supervised and unsupervised approaches.
“Domain Adaptive Faster R-CNN for Object Detection in theWild (CVPR 2018) 他Kento Doi
?
The document discusses advancements in object detection using domain adaptation techniques, focusing on a method called domain adaptive faster R-CNN introduced at CVPR 2018. It highlights various approaches for unsupervised domain adaptation, such as asymmetric tri-training. Additionally, it includes references to related studies and implementation details using tools like Caffe.
28. 関連研究
? Geometry-Aware Recurrent Neural Networks for Active Visual Recognition
? NeurIPS 2018に採択
? 同じ研究グループの論?
? 同様のシステムを動的に観測位置を変化させるエージェントに適?
? よりinformativeな?向を視点を動かす?策を学習できた
R. Cheng et al. “Geometry-Aware Recurrent Neural Networks for Active
Visual Recognition”, NeurIPS, 2018.
R. Cheng et al. Supplemental materials of “Geometry-Aware Recurrent
Neural Networks for Active Visual Recognition”, NeurIPS, 2018.
30. View Synthesis by Appearance Flow
? Novel view synthesis のタスクを, 2D画像からのフロウを推定することにより解
いた。
? フレームワーク全体は下図のようになる。これは?気通貫に学習することができ
る。
T. Zou et al. “View Synthesis by Appearance Flow”, in ECCV, 2016.
31. Transformation-Grounded Image Generation
Network for Novel 3D View Synthesis
? NovelViewSynthesisのタスクにおいて、新規視点でのオブジェクトのうちソー
ス画像で?えている部分はそれをコピーして?い、残りの部分はGANで?成する
ような枠組みを提案した。ネットワークはdisocclusion-aware appearance flow
network (DOAFN) とcompletion networkから構成される。
? 先?研究のAppearance Flow Network (AFN) よりもよい結果を得た。
E. Park et al. “Transformation-Grounded Image Generation Network for Novel 3D View Synthesis”, in CVPR, 2017.
32. Visual Object Networks: Image Generation with
Disentangled 3D Representations
? 3Dを考慮した画像?成を?う?法の提案
? 3D shapeの?成→ターゲット視点に対応した深度画像とマスクに変換→
テクスチャコードを与えて画像にCNNでレンダリング
J. Zhu et al. “Visual Object Networks: Image Generation with Disentangled 3D Representations”, in NeurIPS, 2018.
33. Multi-view to Novel view: Synthesizing novel views
with Self-Learned Confidence
? 複数視点の画像から、新規視点の画像を?成する?法の提案。フレームワークはFlowPredictorと
Recurrent Pixel Generatorからなり、前者はソース画像からターゲット画像へのフロウを推定し、
後者は??から直接画像を復元することを試みる。最後にこれらを確信度で重み付けをして統合す
る。
? 3DCGのオブジェクトを?いて実験を?い当時のSOTAとなった。
S. Sun et al. “Multi-view to Novel view:
Synthesizing novel views with Self-Learned
Confidence”, in ECCV, 2018.
34. Transformable Bottleneck Networks
? 2D画像をCNNにより3Dの編集ができるようにする?法の提案。
? 画像から3D featureを抽出し、そこにターゲットポーズに関する変形を?れたのち2Dへ
の投影を?い、画像の再構成など後段のタスクを?う。
? これにより剛体変換にとどまらない3Dを考慮した画像編集を?うことができる。
K. Olszewski et al. “Transformable Bottleneck Networks”, 2019.
35. DeepVoxels: Learning Persistent 3D Feature
Embeddings
? 画像シーケンスを1つのボクセル表現に落とし込む?法の提案。
? 提案?法のフレームワークは以下の順で処理を?う。
? 画像から2D featureを抽出→2D featureを3D featureに再投影→これらを画像シーケンスについて?いGRUで統合
→3D featureをターゲットの視点へ投影し画像を再構成
? この再構成誤差により全体のフレームワークの学習を?う。
? 提案?法はnovel view synthesisの性能が良い。
V. Sitzmann et al. “DeepVoxels: Learning Persistent 3D Feature Embeddings”, in CVPR, 2019.
36. DeepVoxels: Learning Persistent 3D Feature
Embeddings
V. Sitzmann et al. “DeepVoxels: Learning Persistent 3D Feature Embeddings”, in CVPR, 2019.
37. 参考?献
? S. Eslami et al. Neural Scene Representation and Rendering, Science, 2018.
? T. Zou et al. “View Synthesis by Appearance Flow”, in ECCV, 2016.
? E. Park et al. “Transformation-Grounded Image Generation Network for Novel 3D View Synthesis”, in CVPR,
2017.
? J. Zhu et al. “Visual Object Networks: Image Generation with Disentangled 3D Representations”, in NeurIPS,
2018.
? S. Sun et al. “Multi-view to Novel view: Synthesizing novel views with Self-Learned Confidence”, in ECCV,
2018.
? K. Olszewski et al. “Transformable Bottleneck Networks”, 2019.
? V. Sitzmann et al. “DeepVoxels: Learning Persistent 3D Feature Embeddings”, in CVPR, 2019.
? R. Cheng et al. “Geometry-Aware Recurrent Neural Networks for Active Visual Recognition”, NeurIPS, 2018.
? H. Tung et al. “Learning Spatial Common Sense with Geometry-Aware Recurrent Networks”, in CVPR, 2019.