- 06/11
- 2021
-
QQ扫一扫
-
Vision小助手
(CMVU)
图像采集卡
利用新型的处理硬件架构,以10至100 Gbit/s或更高的速度处理视频流。
1.背景
诸如sD成像,虚拟现实和广播之类的高级视觉系统依赖一个或多个高分辨率,高速相机。这些摄像头系统每秒捕获并传输多个千兆像素,这些像素需要实时处理或压缩。尽管摄像头传感器技术和支持接口正在迅速发展,但是传统的基于PCIe/CPU/Pu的Pc体系结构却缺乏以这种数据速率捕获,处理和存储图像所需的性能。
基于高端FPGA的图像采集卡具有超快的收发器和巨大的板载内存带宽,为实时处理和压缩提供了必要的基础设施。开放式FPGA架构允许开发人员定制其采集路径,并嵌入自己的图像处理算法和压缩块。有了Gidel的ProcVision IDE这样的支持生态环境和开发工具,FPGA代码开发被大大简化和加速,不再需要深厚的FPGA专业知识。因此,视觉系统设计者现在可以以前所未有的性能实现定制的、具有成本效益的千兆像素解决方案。
2.像传感器正在引领潮流
CMOS图像传感器技术的进步使多百万像素的成像器能够以具有成本效益的价格获得数百至数千FPS的帧率。Gpixel、Luxima Technology、Teledyne e2v、AMSICMOSIS、安森美和索尼等公司正在为这一发展做出重大贡献(见图1)。
图1:在通用视频接口标准的有效带宽上的高端图像传感器的分辨率和帧速率。
下一代图像传感器将产生每秒160千兆比特(Gbps)及以上的数据速率。此外,多摄像头的应用已经变得无处不在,特别是在从虚拟现实到广播、监控、医疗成像以及三维或高分辨率的质量检测等领域。例如,一个三维体育广播系统,可能包括3o0多个摄像头,每个摄像头的分辨率为65MP,速度为30fps。最新的高端图像传感器和多摄像头应用分别提供每秒几千兆像素和几百兆比特的数据。这些巨大的数据速率需要被实时捕获、预处理、分析,而且往往还需要以高精度同步和低延迟的方式进行压缩和存储--这一要求远远超过了基于CPu架构的能力。相反,这种需求只能通过利用FPGA、GPU和/或cPu的独特能力的新型异构处理解决方案来满足。
3.带宽挑战
对于超过20Cbps的传感器数据传输速率,在标准化的相机接口中只有少数选择:25、50或100GigE、多链路CoaXPress v2和PCIe。在20+Gbps时,光缆取代铜缆,将传输距离从25米延长到40公里。
高带宽成像的另一个挑战在于将视频流传输到主机的高性能处理器,无论是GPU、FPGA还是cPU。视频采集卡的主板接口通常是PCIe Gen.3 x8,有效带宽仅为48Gbps。此外,在主机处理系统中,cPu/GPu和显卡与主存储器之间的RAm桥必须运行得足够快,以避免帧丢失。智能网卡成功地分配了PCIe上的峰值负载,并大大减少了主机cPu上的工作量,但这往往是以处理能力不足导致的图像帧丢失为代价的。
4.秒千兆像素实时处理解决方案
想要达到几十上百Gbps的数据速率,除了昂贵的ASIC之外,只有基于高端FPG&的图像采集卡架构才能提供必要的处理性能来克服上述挑战。这些采集卡拥有远甚于传统的预顶处理步骤,以执行复杂的成像算法,从小波变换一直到深度学习推理和实时压缩。压缩是克服PCTe和主机内存带宽瓶颈的一个强制性功能。
这种高端图像采集卡的设计本身就是一个挑战,特别是在涉及利用来自多个图像区域或多个传感器的数据的算法的实现时。为了规避可能的瓶颈并实现分布式处理的灵活性,图像采集卡必须包括功能强大的收发器,足够的FPGA资源,高机载内存访问权限和快速DML卸载引擎。这样的图像采集卡通常包括访问速度为TB/s的FPGA内部存储器,以及访问速度为数百GB/s的10+ GB DDR4板载存储器。
FPGA上实现机器视觉算法通常需要在FPGA编程方面有深入的专业知识。此外,在单个FPGA上实现多摄像机采集和处理需要集成多接口,摄像机协议,多源处理算法,存储器控制器,I/0端口控制和主机桥。除了性能优化的架构之外,至关重要的是,图像采集卡还应由集成开发环境〈IDE)支持,该集成开发环境使非FPGA专家能够开发成像算法并集成多个FPGA功能块。
5.高带宽优化的开放式FPGA采集卡
以色列技术领导者吉德尔(Gidel)拥有近三十年的经验,创建了一个针对超高带宽和多传感器采集而优化的现成图像采集生态系统,使开发人员可以将自己的专有算法代码添加到现有的采集流水线。得益于专用的开发套件,添加图像处理算法和定制采集路径非常简单,甚至可以由非FPGA专家执行。Gidel的开发套件可在不影响性能的情况下极大地加速系统开发。
Gidel的PCIe图像采集卡,模块和载板使视觉系统设计人员可以利用FPGA技术的最新进展,例如Intel的Stratix 10和Arria 10系列。Gidel的最新Proc10N模块能够同时捕获和处理多达4 x 100 GigE摄像机或16 x 10 GigE摄像机,并具有精确的低延迟同步。通过以300 GB/s的速度访问DRAM,Proc10甚至可以在带宽要求最高的应用中实现实时处理。Stratix 10 N具有出色的矩阵计算功能,带有专用的Tensor块,是高性能推理计算(包括复杂的深度学习网络)的理想选择。
- 上一条:SICK 3D视觉在动力电池行业的应用
- 下一条:研华助您通往智能工厂之路