日期
02/20
2024
咨询
  • QQ扫一扫

  • Vision小助手
    (CMVU)

NGEL-SLAM:精度最高、速度超快的SLAM系统
收藏
2024-02-20 16:11:38来源: 中国机器视觉网

导语:

本文提出了一种基于神经隐式表示的全局一致的低延迟的SLAM系统,名为NGEL-SLAM。该系统能够实现高精度的定位和高保真的场景重建,同时保证全局一致性和低延迟。这个系统使用了多个神经隐式场来表示场景,每个神经隐式场对应一个局部区域,利用了闭环检测来调整闭环,使用了神经辐射场的渲染方法来生成RGB-D图像和表面网格。这个系统在合成和真实世界的数据集上,与其他最先进的SLAM系统进行了比较,表现出了更好的性能。

微信图片_20240220161621.png

渲染和定位结果。与NICE-SLAM相比,我们的方法渲染了更高保真的图像,提供了更精确的相机定位结果。此外,我们的方法实现了快速收敛,并在环路闭合后启用低延迟地图更新,使其比NICE-SLAM快10倍。真实相机轨迹以黑色显示,估计的轨迹以红色显示

背景介绍

SLAM是计算机视觉中一个基础而又具有挑战性的问题,它涉及在更新一个未知环境的地图的同时,定位一个智能体的位置。在交互式应用中,如增强现实/虚拟现实(AR/VR)和机器人,SLAM系统不仅需要具有精确的定位和地图构建能力,还需要全局一致性和低延迟。传统的SLAM系统,如ORB-SLAM3,具有低延迟、高精度的定位,并利用闭环检测来保证全局一致性。但是,这些系统只能构建稀疏的点云地图,缺乏密集的几何和纹理信息。近年来,神经隐式表示的进展使得能够进行精确和密集的三维表面重建。因此,一些基于神经隐式表示的SLAM系统被提出。作为这一方向的先驱工作,iMAP和NICE-SLAM基于神经表示实现了定位和地图构建,从而实现了高保真的场景重建。然而,基于神经表示的定位缺乏闭环检测的支持,导致在大场景中由于缺乏全局一致性而表现不佳。即使将闭环检测集成到他们的系统中,也很难快速地调整神经表示以适应闭环,从而导致较高的延迟。

方案提出

为了解决上述问题,本文提出NGEL-SLAM。为保证全局一致性,我们的系统利用传统基于特征的定位模块结合环路闭合。另外,我们通过表示场景为多个神经隐式子图,实现对环路闭合的快速调整。此外,我们的系统通过使用基于八叉树的隐式表示实现快速收敛。环路闭合响应快速和收敛快的结合使我们的系统成为真正低延迟的系统,同时保证全局一致性。我们的系统实现高保真RGB-D图像渲染,以及提取稠密完整表面。在各种合成和真实环境数据集上的实验表明,与基准方法相比,我们的系统在定位与制图精度上处于领先地位,同时保持低延迟。

技术细节

微信图片_20240220161638.png

NGEL-SLAM系统流程图

本文提出的系统包含两个主要模块:定位模块和制图模块。它们可以进一步分为三个过程:定位、动态局部制图和环路闭合。这三个过程协同工作以确保我们系统中的全局一致性和低延迟。定位过程以RGB-D流为输入,实时定位相机姿态。如果一帧被选为关键帧,则被传递到动态局部制图过程。在这个过程中,定位模块执行局部BA,而制图模块训练相应的局部地图。检测到环路时,环路闭合过程优化相机姿态使用全局BA,并更新场景表示。所有过程并行执行。三个过程具体展开如下:

定位过程使用了ORB-SLAM3的定位方法,利用RGB-D图像中的特征点进行相机位姿的估计。定位模块还负责进行闭环检测,通过比较当前帧和历史帧的特征点,找出可能的闭环候选帧,并通过全局姿态图优化来消除累积误差。

动态局部制图过程使用了多个神经隐式场来表示场景,每个神经隐式场对应一个局部区域。神经隐式场是一个基于八叉树的隐式表示,它使用一个多层感知机(MLP)来预测给定空间位置的几何和纹理信息。地图构建模块根据当前帧的位姿和深度,更新对应的神经隐式场的参数,从而实现实时的场景重建。

微信图片_20240220161640.png

制图网络。制图网络采用稀疏的八叉树结构存储多级特征,以及两个单独的MLP

环路闭合过程在指检测到闭环时,会触发一个闭环调整的过程,即将闭环帧对应的神经隐式场与当前帧对应的神经隐式场进行融合,从而保证全局一致性。闭环调整的过程是快速的,因为只需要调整少量的神经隐式场的参数,而不需要重新优化整个场景的表示。

实验验证

本文的实验方法包括了在合成和真实世界的数据集上,对定位和地图构建的精度和效率进行评估,并与其他最先进的SLAM系统进行比较。实验数据集包括了ICL-NUIM,TUM-RGBD,ScanNet,SUN3D和7-Scenes。实验结果表明,NGEL-SLAM在保持低延迟的同时,实现了最先进的定位和地图构建的精度。

微信图片_20240220161645.png

在Replica数据集上制图的定量比较。数据来自8个场景的平均值。GT pose和Est pose分别表示使用真实姿态和估计姿态渲染

微信图片_20240220161648.png

在TUM RGB-D上定位的定量比较。使用指标ATE-RMSE [cm]

微信图片_20240220161651.png

在ScanNet上的定位定量比较。使用指标ATE-RMSE [cm]

微信图片_20240220161654.png

在Replica数据集上的渲染结果

微信图片_20240220161657.png

在ScanNet数据集上的渲染结果

总结

NGEL-SLAM结合了传统SLAM系统ORB-SLAM3的定位精度高,以及神经隐式表示提取密集网格和生成高保真图像的能力。为了保证全局一致性,我们的系统利用了一个传统的基于特征的定位模块,其中包含了闭环检测。我们通过使用多个神经隐式场来表示场景,维护了一个全局一致的地图,从而能够快速地调整闭环。此外,我们的系统通过使用基于八叉树的隐式表示,实现了快速的收敛。闭环检测的快速响应和快速的收敛的结合,使得我们的系统成为一个真正的低延迟的系统,实现了全局一致性。我们的系统能够渲染高保真的RGB-D图像,以及提取密集和完整的表面。在合成和真实世界的数据集上的实验表明,我们的系统在保持低延迟的同时,实现了最先进的定位和地图构建的精度。

(原文链接:https://arxiv.org/abs/2311.09525)