利用事件相机实现低延迟汽车视觉--机器视觉网

目前高级驾驶辅助系统中使用的计算机视觉算法依赖基于图像的 RGB 摄像头，因此在提供安全驾驶体验方面，需要在带宽和延迟之间进行重要权衡。为了解决这个问题，事件相机作为视觉传感器的替代品应运而生。事件相机以异步方式测量强度变化，具有较高的时间分辨率和稀疏性，可显著降低带宽和延迟要求。

尽管有这些优势，但基于事件相机的算法要么效率很高但在准确性方面落后于基于图像的算法，要么牺牲事件的稀疏性和效率来实现可比结果。为了解决这个问题，我们提出了一种基于事件和帧的混合物体检测器，它保留了每种模态的优点，不会受到这种权衡的影响。我们的方法利用事件的高时间分辨率和稀疏性以及标准图像中丰富但时间分辨率低的信息来生成高效、高速率的物体检测，从而减少感知和计算延迟。

研究表明，使用 20 帧/秒 (fps)的 RGB 相机和事件相机，可以在不影响精度的情况下实现与 5,000 fps 相机相同的延迟、与45 fps相机相同的带宽。我们的方法通过发掘事件相机的潜力，为在边缘情况下实现高效、稳健的感知铺平了道路。

基于帧的传感器（例如 RGB 相机）面临着带宽-延迟权衡：更高的帧速率可减少感知延迟，但会增加带宽需求，而较低的帧速率可节省带宽，但代价是因感知延迟增加而丢失重要的场景动态（图 1a）。感知延迟测量的是视觉刺激开始到传感器读数之间的时间。

微信图片_20240822120847.png

带宽-延迟权衡：a、与基于帧的传感器不同，事件摄像机不受带宽-延迟权衡的影响：高速摄像机（左上）捕获低延迟但高带宽的数据，而低速摄像机（右下）捕获低带宽但高延迟的数据。相反， 20 fps相机加事件相机的混合设置（左下，黄色矩形中的红点和蓝点表示事件相机的测量值）可以捕获低延迟和低带宽数据。这相当于5,000 fps相机的延迟和45 fps相机的带宽。b、应用场景：利用此设置进行低延迟、低带宽的交通参与者检测（下行，绿色矩形为检测结果），与标准摄像机（上行和中行）相比，提高了下游系统的安全性。c、检测结果3D可视化：为此，我们的方法使用图像盲区时间内的事件（红点和蓝点）来检测物体（绿色矩形），然后它们才会在下一张图像中可见（红色矩形）。

这种权衡在汽车安全领域尤为明显，因为汽车安全中反应时间很重要。高级驾驶辅助系统以每秒 30-45 帧（fps）的速度记录，导致盲区时间为 22-33 毫秒。这些盲区在高速场景中至关重要，例如检测快速移动的行人、车辆或丢失的货物。此外，当存在高不确定性时，例如交通参与者被部分遮挡或因恶劣天气条件而光线不足时，这些帧速率会人为地将决策时间延长 0.1-0.5 秒。在此期间，突然出现的行人（图1）。1b）以 12 公里/小时的速度行驶时，将移动 0.3-1.7 米，而以 50 公里/小时的速度行驶的汽车将行驶 1.4-6.9 米。

减少盲区时间对安全至关重要。为了解决这个问题，业界正在转向帧率更高的传感器，从而大幅增加数据量。目前的无人驾驶汽车每小时可收集多达11 TB的数据，预计这一数字将增至 40 TB。虽然云计算提供了一些解决方案，但这会带来较高的网络延迟。

事件相机是一种很有前途的替代方案，它捕捉每个像素的强度变化，而不是固定的间隔帧。它们具有低运动模糊、高动态范围、时空稀疏性和微秒级分辨率，同时带宽和功耗更低。它们适应场景动态，具有低延迟和低带宽的优势。然而，由于传感器无法捕捉到缓慢变化的信号，以及将事件转换为类似帧的表征以便使用卷积神经网络（CNN）进行分析的处理方法效率低下，基于事件的方法的准确性目前受到限制。这会导致冗余计算、更高的功耗和更高的计算延迟。计算延迟是指从读出测量值到产生输出的时间。

我们提出了一种基于事件和帧的新型混合检测器，结合了用于图像的标准 CNN 和用于事件的高效异步图神经网络 (GNN)（图 2）。GNN 以递归方式处理事件，最大限度地减少了冗余计算，并利用关键的架构创新，如专门的卷积层、有针对性地跳过事件和专门的有向事件图结构，以提高计算效率。

微信图片_20240822120851.png

方法概述：我们的方法处理密集图像和异步事件（蓝点和红点，顶部时间线），以生成高速对象检测（绿色矩形，底部时间线）。它共享在低速率图像（蓝色箭头）上运行的密集 CNN 的功能，以提高在事件上运行的异步 GNN 的性能。GNN 可以有效地处理每个新事件，重复使用 CNN 功能，并稀疏更新先前步骤中的 GNN 激活。

我们的方法利用了基于事件和帧的传感器的优势，利用图像中的丰富上下文信息和来自事件的稀疏且高频率的事件信息，实现高效、高速率的物体检测，减少了感知延迟。在汽车环境中，它覆盖了基于图像的传感器的盲区时间间隔，同时保持较低带宽。在此过程中，它提供了额外的可认证的现实快照，显示在下一个图像中变得可见之前的对象（图1c）或捕获编码交通参与者意图或轨迹的物体运动。

研究结果表明，将 20 fps RGB 相机与事件相机配对可以实现5,000 fps 相机的延迟和 45 fps 相机的带宽，显着提高平均精度（mAP）。这种方法利用事件摄像机尚未开发的潜力，在边缘情况下进行高效、准确和快速的物体检测。

（文章来源于互联网，如有侵权，请联系删文）