领先现有顶级算法，无地图也能实现高性能视觉重定位--技术前沿--论文--机器视觉网

本文介绍了一种基于实例知识和深度知识的无地图重定位方法。通过利用基于实例的匹配信息来改善全局匹配结果，大大降低了不同物体之间匹配错误的可能性。同时，我们使用单张图像的估计深度来减少度量误差，并提高尺度恢复精度。通过整合专门用于减轻大位移和旋转误差的方法，所提方法在无地图重定位技术中展现出卓越的性能。

本文核心内容

视觉重定位作为一种关键技术，在增强现实（AR）和机器人导航等领域展现出众多令人瞩目的应用。基于此项技术，我们能够于复杂环境中达成更精准的位置感知与导航，显著增强技术表现与用户体验。

目前，视觉重定位技术有传统的基于地图的重定位方法，还有不依赖地图的无地图重定位方法。

传统的基于地图的视觉重定位技术需借助大量图像及尺度校准，以构建场景的详尽3D地图。然而，构建详尽3D地图这一必要条件却对其应用形成了限制，尤其在对内存资源需求颇高的场景中。

无地图重定位主要依据参考图像来明确查询图像的相机姿态，且无地图方法所需图像数量更少，不需要事先构建3D地图，相较于传统方法的局限性，无地图重定位方法正越来越被人们所关注。不过需要注意的是，多视图约束的缺失也会产生一定局限，因其在计算和重定位时完全依赖于从两张图像中提取的特征，这带来了巨大挑战。常见的应对策略是运用各种类型的技术以获取更优的匹配性能。然而，实现无地图重定位更优性能的底层机制仍需进一步探索。

为了更深入地了解现有的无地图模型的性能，我们对《无地图视觉重定位》中提到的现有方法进行了详细分析。这些方法由三个组件组成：特征匹配、姿态估计模块和深度估计。我们在图1中展示了其中一些结果。基于这些实验结果，我们得出以下结论：

360截图20241119141047809.jpg

360截图20241119141055098.jpg

首先，如图1中的蓝色点所示，不同的特征点匹配方法会导致在平移和旋转误差上出现差异，这凸显了精确的特征点匹配的重要性。这是因为本质矩阵是从匹配的特征点坐标计算得出的。决定视觉重定位性能的旋转矩阵和平移向量直接从本质矩阵中导出。

其次，如图1中的红色点所示，深度估计方法的差异会导致显著的平移误差变化，而旋转误差几乎不变。这是因为深度估计模块将2D特征点投影到3D空间中，使用的是深度估计结果。通过估计3D空间中特征点之间的距离，可以精确地恢复上一步中获得的平移向量的尺度。在无地图模型中，对特征匹配和深度估计之间相互作用的全面研究为提高整体性能提供了洞见。

为提升无地图重定位的精度，我们构建了一种全新的框架，此框架不但提升了匹配精度，而且能够有效应对深度估计所面临的挑战。这种全方位的方法通过系统性地降低旋转和平移误差，极大地增强了视觉重定位的性能，这对于在没有预先存在的地图的情形下达成可靠定位具有关键意义。

就旋转误差而言，我们的方法在实例对象内部提取匹配点加以利用。通过引导特征点匹配模型聚焦于特定的实例匹配，我们能够切实地减少通常出现在不同实例之间的错误匹配。这种具有针对性的方式不但降低了错误率，还增进了匹配过程的整体精确性和可靠性。

针对平移误差，我们的框架运用了先进的深度估计技术。该技术借助标准的相机变换以及联合深度-法向量优化，从单张图像中处理深度估计问题。在此种状况下，精确的尺度恢复极其重要，因为它直接运用深度估计结果来计算尺度并恢复平移向量尺度。虽然该方法较为简便，然而在与《无地图视觉重定位》中提及的所有方法进行对比时，该方法于无地图验证集上取得了最优结果。更为关键的是，与提交给无地图视觉重定位挑战的其他方法相较，我们的模型在具有挑战性的测试集上展现出了相当的性能。这些指标充分显示了我们的方法在应对无地图视觉定位难题的有效性。

主要贡献

我们提出了一种层次化匹配方法，将实例级和特征级方法相结合。该方法有效地结合了全局实例级实例匹配与局部特征点匹配的优点，从而提高了无地图环境下的重定位精度。

我们在Mapfree数据集上对复杂场景进行了广泛的实验，其中包括空间和时间差异、不同摄像头之间的差异以及显著的视差。这些实验表明，我们的方法具有出色的泛化性能，优于现有的顶级算法。

方法架构

方法的整体框架如图2所示。给定两个输入图像和，我们的方法首先利用特征点匹配建立一组对应点，以说明2D图像之间的关系。为了提高匹配精度，我们将实例分割知识融入其中，从图像中提取主要物体。具体来说，我们的特征点匹配算法在该掩码的范围内运行。接下来，我们使用本质矩阵从匹配的2D特征点计算旋转矩阵R和无尺度单位平移向量。最后，使用深度估计网络Metric3D估计输入图像的深度信息，并将其用于将2D匹配点投影到3D空间中，从而促进最终平移量的恢复。

360截图20241119141111466.jpg

实验

4.1数据集与指标

我们使用MapFree-Reloc数据集对本方法进行了评估，该数据集包含36,998帧用于验证和14,778帧用于测试。该数据集中的图像来自65个验证场景和130个测试场景，涵盖了各种地理位置。该数据集呈现了动态环境条件、显著的视点变化、显著的地理位置差异以及与参考图像的极小或无视觉重叠等困难场景。

此外，在无地图的场景中，要求在由单个参考图像表示的场景中进行重定位，这使得任务更加具有挑战性。参照MapfreeRelocalization，我们使用以下指标来评估性能：平均姿态误差（平均中位旋转误差、平均中位平移误差）、AUC@VCRE<90px等等。

4.2性能比较

我们使用三个组件构建比较方法：特征匹配方法（SIFT、LoFTR和SuperGlue）、深度估计（PWC-Net、DepthFlow和DORN）和图像配准（FeatureNet、FeatureNet-Flow和FeatureNet-Flow-Net）。我们对DPT进行了微调，使用了KITTI和NYUv2的数据集，并进行了姿态估计（使用5点解算器，结合MAGSAC++、PNP和Procrustes）。

此外，我们比较了各种端到端的方法，包括3D-3DRPR。通过结合这些组件和端到端方法，我们获得了13种比较方法。由于我们没有测试集的真值，我们在验证集上实现了这些方法。结果如表1所示。

4.3主要成果

定量评估如表1所示，我们首先与现有方法进行了比较，我们的方法在平均中位姿态误差方面比当前的顶级方法有显著的降低。例如，在现有方法中表现最好的RPR[3D-3D]方法，其平均中位旋转误差为22.6°，而我们的方法为9.0°。这种改进归因于我们优越的特征点匹配技术。具体来说，我们保留全局匹配信息，同时利用实例知识将模型集中在实例内的匹配上。这种策略不仅减轻了显著匹配误差的影响，还允许进行更精确的局部匹配。

此外，RPR[3D-3D]方法的平均中位平移误差为1.667米，而我们的方法为0.596米。这种改进归因于我们有效的特征点匹配和我们精确的深度估计。具体来说，我们的方法涵盖了对原始图像深度的精准预测与处理，这对于从无尺度平移向量恢复平移矩阵而言至关重要。这不但证实了我们深度估计方法的有效性，还凸显出我们的方法在特征点匹配和深度估计方面优于现有方法。我们的方法不仅验证了自身深度估计方法的有效性，还着重强调了精确深度估计对于准确恢复尺度的重要意义。此外，在平均中位投影误差（综合衡量旋转和平移精度的指标）方面，我们的方法显著优于所有基准方法，进一步佐证了我们方法的稳健性和有效性。

通过计算所有场景下的姿态估计误差的累积分布函数（CDF）来评估我们的方法相对于基准的有效性（图4）。CDF通过按升序排序并确定每个阈值以下的比例来量化误差值的累积概率。性能良好的CDF在较低的误差幅度下迅速上升到1，表明低误差占主导地位。比较CDF曲线显示，我们的方法在较低的误差水平下表现更好，我们的曲线上升得更快。这表明我们的方法在各种场景下具有更一致的较低姿态估计误差，具有鲁棒性和准确性。

360截图20241119141126207.jpg

我们还将我们的方法与提交给Mapfree Visual Relocalization Challenge的闭源模型进行了比较，如表2所示。我们的方法在Median Reprojection、Median Translation和Median Rotation Error等方面表现优于大多数其他方法，这表明了我们方法的优越性。此外，我们的方法的性能与MASt3R（Ess.Mat + D.Scale）等当前最先进的方法相当，这凸显了我们方法的巨大潜力。

360截图20241119141133883.jpg

定性评价。我们将特定场景中某些帧的相机姿态在Mapfree验证集上以三角形的形式可视化出来，如图5所示。在这个可视化图中，水平轴表示x轴方向的位移，垂直轴表示y轴方向的位移。绿色三角形表示真实的值，蓝色三角形表示我们方法估计的相机姿态，红色三角形表示基线方法LoFTR(Ess.Mat+D.Scale)的估计值。与基线方法相比，我们的方法的估计值更接近真实值，说明在相机姿态估计方面具有更准确和可靠的表现。

我们还可视化了同一场景中的相机轨迹。具体来说，我们将提交结果、基线方法LoFTR(Ess.Mat+D.Scale)和真实值在同一三维空间中进行展示，其中每个点代表提交结果中的一帧。在这些可视化图中，绿色圆圈表示真实值，蓝色三角形表示我们的方法，红色方块表示LoFTR(Ess.Mat+D.Scale)方法。

360截图20241119141140826.jpg

360截图20241119141154111.jpg

如图5所示，LoFTR(Ess.Mat +D.Scale)方法在某些情况下经常出现异常离群值，甚至完全失败。我们的方法在多个场景中始终优于基准方法，在各种条件下都表现出了应用的精度和鲁棒性。

360截图20241119141201786.jpg

总结

我们提出了一种新颖的无地图重定位方法，该方法通过参考和查询图像来估计查询帧的相对姿态。通过使用实例分割结果引导特征点匹配模型专注于实例对象内的匹配，我们的方法显著减少了错误匹配并提高了准确性。此外，我们通过深度估计优化三维空间点坐标以改善尺度恢复。广泛的实验证明了我们协同优化的有效性，为未来提高无地图重定位精度奠定了基础。

文章：Map-Free Visual Relocalization Enhanced by Instance Knowledge and Depth Knowledge

作者：Mingyu Xiao, Runze Chen, Haiyong Luo, Fang Zhao, Juan Wang, Xuepeng Ma

论文链接：https://arxiv.org/pdf/2408.13085

编译：INDEMIND