论文阅读《LoFTR: Detector-Free Local Feature Matching with Transformers》

2023年5月26日下午2:07 • 人工智能 • 阅读 76

论文地址：https://arxiv.org/pdf/2104.00680.pdf
代码地址：https://github.com/zju3dv/LoFTR

背景

本文提出了一种新的局部图像特征匹配方法，通过先在粗层次上建立像素级密集匹配，然后在更细的层次上进行细化，并利用transformer的自注意层和交叉注意力层来获取基于两幅图像的特征描述符。本文的创新点在于Transformer提供的全局感受野使得该方法能够在低纹理区域产生密集匹配。

模型结构

论文阅读《LoFTR: Detector-Free Local Feature Matching with Transformers》

基于特征检测器的检测方法可以减少进行匹配时的搜索空间，而在无纹理或重复纹理地区，特征检测器难以检测出有效的特征，这回极大影响后续的匹配过程的效率；

无检测器（Detector free）的方法通过建立像素级别的密集匹配来解决这个问题，通过从密集匹配中保留置信度较高的匹配来避免特征检测。然而使用CNN来提取的密集特征的感受野有限，在无纹理区域的效果较差。而人类在这些区域会同时考虑局部信息与全局信息；
基于此，本文提出一个Local Feature Transformer（LoFTR）：先在低分辨率的特征图上进行密集匹配，然后保留置信度较高的匹配，然后将其细化到高分率的密集匹配；同时使用自注意力与交叉注意力来得到更加具有特异性的匹配特征；LoFTR可以在弱纹理、运动模糊与重复纹理区域产生较高质量的匹配；

; 局部特征提取

使用权值共享的FPN结构的CNN特征提取模块从两幅图像中得到 1 8 \frac{1}{8}8 1 原图大小的低分辨率的特征图 F ~ A 与 F ~ B \tilde{F}^{A} 与 \tilde{F}^{B}F ~A 与F ~B，同时得到 1 2 \frac{1}{2}2 1 原图大小的高分辨率的特征图 F ^ A 与 F ^ B \hat{F}^{A} 与 \hat{F}^{B}F ^A 与F ^B ;CNN的局部空间不变性较适合用于局部特征提取；

局部特征转换（LoFTR）模块

得到低分辨率的特征图 F ~ A 与 F ~ B \tilde{F}^{A} 与 \tilde{F}^{B}F ~A 与F ~B 后，将其与位置送进局部特征转换模块得到具有特异性的匹配特征F ~ t r A 与 F ~ t r B \tilde{F}{t r}^{A} 与\tilde{F}{t r}^{B}F ~t r A 与F ~t r B ，局部特征转换模块包含 位置编码模块、 自注意力与交叉注意力特征增强模块；

位置编码模块

受到DETR的启发，采用sin函数进行位置编码，将位置信息编码成特定的向量，与输入的 F ~ A 与 F ~ B \tilde{F}^{A} 与 \tilde{F}^{B}F ~A 与F ~B 展开后的特征进行融合，融合后的特征既同时包含位置信息与深度特征信息；

自注意力模块与交叉注意力模块

此处不再赘述，可以参考博主上一篇博客“论文阅读《SuperGlue: Learning Feature Matching with Graph Neural Networks》”中的GNN模块的解读，此处简单讲讲Transformer；

Transformer：

Transformer 由顺序连接的注意力层组成，其核心是注意力模块的使用，Transformer的输入为query、key、value，与数据检索的过程类似，数据库的的数据为value，对于每一条数据 V 其对应的索引键值为向量K，先由查询向量与键值向量求相似度，再由相似矩阵来对value中的V向量加权求和，得到最后的输出，这个过程也被称为图神经网络中的”消息传递”。如式1所示：
Attention ⁡ ( Q , K , V ) = softmax ⁡ ( Q K T ) V (1) \operatorname{Attention}(Q, K, V)=\operatorname{softmax}\left(Q K^{T}\right) V\tag{1}A t t e n t i o n (Q ,K ,V )=s o f t m a x (Q K T )V (1 )

Linear Transformer：
若查询向量 Q 与键值 K 均拥有N条，且每个特征的长度为 D ，则求相似性矩阵时候的计算复杂度为 O ( N 2 ) O(N^{2})O (N 2 )，这时候需要使用Linear Transformer来降低计算相似度，将计算复杂度降低到了 O ( N ) O(N)O (N )，其中 e l u ( . ) elu(.)e l u (.) 表示核函数：
s i m ( Q , K ) = ϕ ( Q ) ⋅ ϕ ( K ) T ϕ ( . ) = e l u ( . ) + 1 (2) sim(Q, K) = \phi(Q) \cdot \phi(K)^{T}\ \ \ \phi(.)=elu(.)+1 \tag{2}s i m (Q ,K )=ϕ(Q )⋅ϕ(K )T ϕ(.)=e l u (.)+1 (2 )

; 粗粒度（低分辨率）匹配

经过L层自注意力模块与交叉注意力模迭代特征增强，得到的输出匹配特征可以用于匹配，可以参考SuperGlue中的将其转换为可微的最优传输问题来处理，也可以使用dual-softmax来处理，由输出向量计算匹配得分矩阵：
S ( i , j ) = 1 τ ⋅ ⟨ F ~ t r A ( i ) , F ~ t r B ( j ) ⟩ (3) \mathcal{S}(i, j)=\frac{1}{\tau} \cdot\left\langle\tilde{F}{t r}^{A}(i), \tilde{F}{t r}^{B}(j)\right\rangle\tag{3}S (i ,j )=τ1 ⋅⟨F ~t r A (i ),F ~t r B (j )⟩(3 )
若采用求解最优传输的方式来进行匹配，则依然参考博主上一篇博客“论文阅读《SuperGlue: Learning Feature Matching with Graph Neural Networks》”中的 最优匹配模块的解读，再次不再赘述；
此外，还可以在得分矩阵 S 的两个维度上进行softmax得到匹配概率矩阵 P c \mathcal{P}{c}P c
P c ( i , j ) = softmax ⁡ ( S ( i , ⋅ ) ) j ⋅ softmax ⁡ ( S ( ⋅ , j ) ) i (4) \mathcal{P}{c}(i, j)=\operatorname{softmax}(\mathcal{S}(i, \cdot)){j} \cdot \operatorname{softmax}(\mathcal{S}(\cdot, j)){i}\tag{4}P c (i ,j )=s o f t m a x (S (i ,⋅))j ⋅s o f t m a x (S (⋅,j ))i (4 )
筛选匹配对：
基于置信度来筛选置信度高于 θ c \theta_{c}θc 的匹配点，并使用相互最近邻准则（左右一致性检查+最优与次优有一定距离）来剔除外点，如式5所示：
M c = { ( i ~ , j ~ ) ∣ ∀ ( i ~ , j ~ ) ∈ MNN ⁡ ( P c ) , P c ( i ~ , j ~ ) ≥ θ c } (5) \mathcal{M}{c}=\left{(\tilde{i}, \tilde{j}) \mid \forall(\tilde{i}, \tilde{j}) \in \operatorname{MNN}\left(\mathcal{P}{c}\right), \mathcal{P}{c}(\tilde{i}, \tilde{j}) \geq \theta{c}\right}\tag{5}M c ={(i ~,j ~)∣∀(i ~,j ~)∈M N N (P c ),P c (i ~,j ~)≥θc }(5 )

从粗糙到精细的优化模块

在建立了粗粒度的匹配后，使用一种基于相关性的方法来完成从粗粒度到细粒度的转换；

首先将粗匹配点对i ~ 与 j ~ \tilde{i} 与 \tilde{j}i ~与j ~ 投影回细粒度的特征图上F ^ A \hat{F}^{A}F ^A 得到点i ^ \hat{i}i ^ 与F ^ B \hat{F}^{B}F ^B 上得到点j ^ \hat{j}j ^；
在细粒度特征图的特征点处裁剪一个w × w w\times w w ×w 的局部窗口；再将这个局部窗口输入到LOFTR模块（位置编码+自注意力+交叉注意力）中得到一对局部特征图F ^ t r A ( i ^ ) 与 F ^ t r B ( j ^ ) \hat{F}{t r}^{A}(\hat{i}) 与 \hat{F}{t r}^{B}(\hat{j})F ^t r A (i ^)与F ^t r B (j ^)；
计算局部窗口特征图F ^ t r A ( i ^ ) 与 F ^ t r B ( j ^ ) \hat{F}{t r}^{A}(\hat{i}) 与 \hat{F}{t r}^{B}(\hat{j})F ^t r A (i ^)与F ^t r B (j ^) 的相关性得分矩阵；
通过计算概率分布上的期望，得到i ^ \hat{i}i ^ 在图I B I_{B}I B 上亚像素精度的匹配特征点的位置j ^ ′ \hat{j}^{\prime}j ^′。

; 损失函数

损失函数包含粗粒度损失与细粒度损失：
L = L c + L f (6) \mathcal{L}=\mathcal{L}{c}+\mathcal{L}{f}\tag{6}L =L c +L f (6 )
其中粗粒度损失对匹配概率矩阵求负对数似然：L c = − 1 ∣ M c g t ∣ ∑ ( i ~ , j ~ ) ∈ M c g t log ⁡ P c ( i ~ , j ~ ) (7) \mathcal{L}{c}=-\frac{1}{\left|\mathcal{M}{c}^{g t}\right|} \sum_{(\tilde{i}, \tilde{j}) \in \mathcal{M}{c}^{g t}} \log \mathcal{P}{c}(\tilde{i}, \tilde{j})\tag{7}L c =−∣∣M c g t ∣∣1 (i ~,j ~)∈M c g t ∑lo g P c (i ~,j ~)(7 )
细粒度损失采用 L 2 L_{2}L 2 损失，对于每个点 i ^ \hat{i}i ^ 在局部窗口的方差 σ 2 ( i ^ ) \sigma^{2}(\hat{i})σ2 (i ^) 来对每个匹配点进行加权，从而得到损失函数：
L f = 1 ∣ M f ∣ ∑ ( i ^ , j ^ ′ ) ∈ M f 1 σ 2 ( i ^ ) ∥ j ^ ′ − j ^ g t ′ ∥ 2 (8) \mathcal{L}{f}=\frac{1}{\left|\mathcal{M}{f}\right|} \sum_{\left(\hat{i}, \hat{j}^{\prime}\right) \in \mathcal{M}{f}} \frac{1}{\sigma^{2}(\hat{i})}\left\|\hat{j}^{\prime}-\hat{j}{g t}^{\prime}\right\|{2}\tag{8}L f =∣M f ∣1 (i ^,j ^′)∈M f ∑σ2 (i ^)1 ∥∥∥j ^′−j ^g t ′∥∥∥2 (8 )
其中 j ^ g t ′ \hat{j}{g t}^{\prime}j ^g t ′ 是通过使用相机内外参与深度图，将 I A I_{A}I A 的 i ^ \hat{i}i ^ 点的特征warp到 I B I_{B}I B 的 j ^ g t ′ \hat{j}{g t}^{\prime}j ^g t ′ 点，与 j ^ ′ \hat{j}^{\prime}j ^′ 点的特征向量求 L 2 L{2}L 2 损失；

实验结果

Original: https://blog.csdn.net/weixin_40957452/article/details/123759483
Author: CV科研随想录
Title: 论文阅读《LoFTR: Detector-Free Local Feature Matching with Transformers》

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/519965/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

Transformer Attention is all you need 部分解析

这里记录的是我本人对Transformer 也就是 Attention is all you need 这篇文章的部分解析，这里仅为个人的看法和意见，欢迎纠正和改错。首先为什么要…

人工智能 2023年5月31日
0072
变量之间的相关性：协方差、相关系数

协方差方差和标准差衡量的是一个变量（一组数据）的离散程度，也就是变量和均值之间的偏离程度。协方差衡量的是两个变量之间的相关性，如：正相关：两个变量具有相同的变化趋势（也称同方…

人工智能 2023年6月18日
0085
数字信号处理–加窗

1. 数字信号处理为什么要加窗？防止频谱泄漏现象快速傅里叶变换(FFT)实现了时域到频域的转换，是信号分析中最常用的基本功能之一。FFT变换时，总是从离散数据中选取一部分处理，将…

人工智能 2023年5月27日
00109
一文读懂PnP问题及opencv solvePnP、solvePnPRansac函数

solvePnP——Perspective-n-Point 参考资料：一文了解PnP算法 PnP问题一、位姿求解方法对极约束：2D-2D，通过二维图像点的对应关系，恢复两帧之间…

人工智能 2023年7月28日
00153
【pandas】数据分析

基本数据结构对象类型含义用途DataFrame 对象按组织的表格数据Series 对象单一（时间）数据序列 Series相当于是特殊的DataFrame数据 *DataFram…

人工智能 2023年7月8日
0083
C++函数知识点（增强版）

目录一、函数的默认参数 1.函数无默认参数情况 2.函数有默认参数的情况 2.1函数参数全是默认参数的情况 2.2函数部分有默认参数的情况 3.注意事项 3.1从左至右，起始位置…

人工智能 2023年6月28日
0067
蚁群算法讲解python

简介蚁群算法（Ant Clony Optimization， ACO）作为一个启发式群智能算法，它是由一群无智能或有轻微智能的个体通过相互协作而表现出智能行为，从而为求解复杂问题…

人工智能 2023年7月5日
00106
一元非线性回归方程（matplotlib)

一元非线性回归模型通用表达式： y = a n x n + a n − 1 x n − 1 + . . . . . . + a 0 x 0 y = a_nx^n + a_{n-1}…

人工智能 2023年6月17日
0087
LeNet模型详解以及代码实现

LeNet模型详解以及代码实现一、卷积神经网络的构成 * 输入层卷积层激活函数池化层（Pooling）全连接层二、 LeNet-5详解及代码实现 * 1. LeNet模…

人工智能 2023年6月17日
00101
一文读懂常用机器学习解释性算法：特征权重，feature_importance, lime，shap

目录 1.线性回归中的特征权重β： 2. 树模型中的feature_importance： 3. lime: 4. shap: 5. 各种算法对比： 1.线性回归中的特征权重β： …

人工智能 2023年6月16日
0079
Deepstream6.0-python 入门 – Yolov5客制化

Deepstream6.0-python 入门 – Yolov5客制化前言中文网上关于deepstream-python api 的文章实在太少了，因此想力所能及分…

人工智能 2023年5月28日
0090
Pytorch中更改预训练权重文件的下载位置

目录 1. 参考链接 2. 更改方法 3. 一个小技巧参考链接 Pytorch更改预训练权重下载位置 pytorch———修改预训练模型下载路径更改方法在线加载的预训练权重 …

人工智能 2023年7月23日
00202
元数据管理平台

元数据管理平台可分为数据源层、元数据采集层、元数据管理层、元数据应用层四层架构，数据源层企业的元数据来自多个方面： ● 业务系统中的元数据，例如ERP、CRM、SCM、OA等；…

人工智能 2023年7月17日
0051
OpenCV数字图像处理基于C++：图像形态学处理

OpenCV数字图像处理基于C++：图像形态学处理 1、图像腐蚀原理：腐蚀用来收缩或细化二值图像中的前景，借此实现去噪声、元素分割等功能。和所有形态学滤波器一样，腐蚀和膨胀这…

人工智能 2023年6月28日
00109
视觉SLAM十四讲第5讲相机与图像

三维世界中的一个物体反射或发出的光线，穿过相机光心后，投影在相机的成像平面上。相机的感光器件接收到光线后，产生测量值，就得到了像素，形成了我们见到的照片。相机将三维世界中的坐标点…

人工智能 2023年6月22日
0084
深度学习修炼（五）——基于pytorch神经网络模型进行气温预测

文章目录 5 基于pytorch神经网络模型进行气温预测 * 5.1 实现前的知识补充 – 5.1.1 神经网络的表示 5.1.2 隐藏层 5.1.3 线性模型出错 5…

人工智能 2023年7月25日
0095

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31