日期
08/23
2021
咨询
  • QQ扫一扫

  • Vision小助手
    (CMVU)

如何解决AI计算平台部署在边缘端的挑战
收藏
2021-08-23 10:49:49来源: 中国视觉网

近年来,随着人工智能技术的快速发展,许多行业在机器学习的帮助下,不仅提升了效率与准确度,同时也节省了人力需求,这些行业包括医学影像分析、机器视觉(Machine Vision)、智能制造、智能监控、智慧零售,以及智慧交通等各种智慧城市(Smart Cities)的应用。

根据Gartner针对2021年十大数据和分析趋势的报告中提到,数据和分析正在向边缘移动(Data and analytics at the edge),也就是原本仅存在于传统数据中心或云端的数据分析技术,正在向边缘(Edge)端靠近。如此一来,能够减少或杜绝以集中远程位置的数据为中心的解决方案所产生的延迟并增加实时价值。通过将数据和分析转移到边缘,数据团队将有机会扩展自身的能力并将其延伸到业务的不同部分,同时也解决了因法律或监管原因而无法从特定地域移动数据的问题。

因此,为满足边缘计算需求,对于工业计算平台的定位也趋向硬件小型化、高密度化;提供高算力的同时,又要能保持长时间的稳定运行,这些都考验着解决方案提供者或是系统集成商在部署边缘计算平台上的能力。

综上所述,如何在应用场景的环境条件、发热功率,以及所需的效能之间取得平衡成为边缘计算人工智能应用中的一大难题,诸如极端温度、振动、粉尘、电力不稳等任一因素都会影响平台的运作与效能。因此,如何选择一个能满足方案所需算力且能长时间稳定运行又易于维护的计算平台,主要需从以下三个方面来考虑:

·电源设计

·散热

·环境因素(振动∕防尘∕防水)

电源设计与散热密切相关

板载电源DC-DC电源转换会有无法避免的效率损失,而这些损失的效率会转成热损耗,热量越多,温度就越高。

要避免这个问题,在主板设计之初,电源与机构散热需有详尽的研究及规划,将电源分布放置及发热组件做严谨处理,并优化设计提高转换效率降低损耗产生的废热,并且使主板上的电源寿命更加持久。

此外,由于主板上的集成电路(Integrated Circuit,简称IC)众多,在边缘计算人工智能应用上往往需要克服严峻环境或极端温度的考验,电源的稳定性更显重要。

电源安全设计

电源安全设计方面,电源的输出输入保护也是需要特别注意的。

由于工业计算平台的使用环境严苛,外部供电时常不稳定,所以在电源设计时应提供完善的输入保护,如过电压保护、过电流保护、浪涌保护等,让计算平台不因输入电源而有所损伤。

随着技术发展,许多GPU卡/ AI计算卡或外接模块的性能越来越强大,功耗也越高,这也使得电源设计上的供给需求更具挑战——例如为了能应对高阶GPU卡/ AI计算卡严苛的电源供给需求,或两张以上的GPU卡/ AI计算卡运算时大量的电能需求。

因此,机器上稳定的电源设计或另外购买的外接电源供应选择,已成为近年来边缘计算人工智能平台使用上的一个重要课题。在电源设计上,研发团队详细验证了在不同环境温度、不同输入电压等严苛条件下的高负载运行,以确保产品的稳定及安全。

散热成效影响工业计算平台的运作稳定性

具备良好的散热设计,是成为强固可靠的工业计算平台的必备条件。有别于一般商规计算机,工业计算平台的任务就是能够长时间地在各种严苛环境下,频繁而顺畅地进行运算,稳定运行。
在此条件下,计算平台运转过程中所产生的热量,如无法有效地消除,使得热量累积于机箱内,将可能导致中央处理器(CPU)过热,性能下降,甚至可能导致计算平台发生热当机,进而影响系统运行和外围装置。因此,如何通过散热设计消除热量对于工业计算平台效能稳定性与可靠性是非常重要的。

工业计算平台的散热设计主要可分为被动式散热与主动式散热:被动式散热是靠风扇来协助散热,通常用于一般商用/家庭计算机散热设计;主动式散热是采用高度热传导材料,通过传导扩散的设计,热量可以有效发散在空气中而避免累积于机箱内。

其中,主动式散热设计因采用整片散热材料(散热鳍片)设计,可以加强计算平台整体的强固性,且无风扇不会产生风流使得空气中的灰尘进入机箱内,让计算平台在“强固性”与“可靠性”方面达到更显著的效果。

工业计算平台的散热解决方案

主动式散热解决方案是着眼于主板的设计:将主板上可能会产生热量的电子元件,如中央处理器(CPU)、芯片组、以太网控制器(Ethernet Controller) ,和电源控制组件等,依据优化的方式分散在电路板的同一侧,可以与外部散热器直接贴合;该设计方式可以让各个发热元件有效地透过散热片,将热量传导至空气中,从而减少机箱内的热量积累。

独特的风流设计

为有效排出GPU/ AI计算卡造成的热源,较为有效的方式是利用显卡自带的风扇,在机箱内形成向外排出的风流,避免机箱内产生热节流。通过特殊的卡槽及风道设计,外部的冷空气被引导通过GPU散热片,将GPU产生的热量非常有效地排出而不会产生热节流。

此外,还可以借助机箱内设置的智能风扇,依据温度控制风扇转速,加速带走热量。得益于独特的机构和风流设计,边缘计算人工智能平台可承受-25℃至60℃宽温工作范围,以适应恶劣的工业环境。

环境因素

边缘计算人工智能平台(Edge AI computing)需具备高效能、强固,以及稳定等特性。过去因技术限制,高效能与强固稳定性无法取得一个很好的平衡来实现新兴应用,特别是边缘计算人工智能平台需要部署在各种严峻环境中,其环境中的各种挑战对于工业计算平台的性能表现更是有着很大的影响。

振动

在工业应用中,除了环境温度外,振动也是一项棘手的问题。

由于边缘计算人工智能平台的小型化趋势,扩大了应用范畴,甚至可安装至各种终端环境或装置上,如自动驾驶车辆上、邻近引擎或马达设备旁等。这些环境中的高/低频振动将会造成扩展卡松动或毁坏,或连接线与电源线松脱,可能导致系统突然无法正常运行,长期而言更可能因此缩短使用年限。

在有限的工业计算平台尺寸内,要达到有效的抗振设计是非常具有挑战性的。

对于环境中的高/低频振动问题,首先通过专门的阻尼支架,有效吸收高/低频振动,以减少振动经由连接件而传递至计算平台,影响内部受振动损坏的风险。这一减震架设计通过IEC60068-2-24验证规范,可在3 Grms、5-500 Hz、3 Axes条件下持续运行30分钟以上。

其次,针对扩展卡,特别是GPU卡,抗振更加困难。

GPU卡重量不轻(逾三公斤),更需要加以固定以避免振动造成图形卡内的芯片毁损,或是造成图形卡与主板的脱离与金手指损坏等。 

通过GPU卡固定器(card holder)增加机身及图形卡之间的强固性,这一GPU卡固定器具备可调节功能,可将图形卡有效固定在适当位置;图形卡安装在机箱内,GPU卡固定器锁附于机箱上,从两侧固定图形卡,可有效避免图形卡摇晃,即使图形卡的长度不一,也能通过调整夹具的夹持宽度,将图形卡稳妥地固定在机箱内,增加整体机构及扩展卡的强固型,大幅改善振动对于扩展卡的影响。

防尘/防水/抗酸碱/抗盐雾

工业级边缘计算人工智能平台很大概率上将被部署在严峻的环境中,防水防尘的功能是常见的需求,甚至会需要具有IP67防护等级。

防尘可以通过整机无风扇设计与接口防尘套的方式达成,但防水则更为复杂和更具挑战性。

许多工业计算平台的防水隔离,采用方案是设计一个防水机壳,并将线缆引出至I/O接口。这种设计的确可以达到防水功能,且成本可以被控制。然而,以工业计算平台而言,散热、振动等因素若未被考虑,其可靠性与强固性也势必被影响。因此,具有防水防尘的工业计算平台,需从主板设计初期将这些因素都一并考虑和规划。

针对抗酸碱、盐雾部分,采用不锈钢机构是一种新兴的做法。

不锈钢是一种常见的合金钢,其因强度高、具柔韧性且耐环境和气候腐蚀而受到青睐,并广泛使用于各个行业。然而,采用不锈钢和铝来加固计算平台的外壳在工业计算平台中并不常见,大多数工业计算平台的机构都是用传统阳极氧化金属底盘来达到所需的强固性。为了增加其防水、抗酸碱与抗盐雾的功能,则可改用不锈钢铝制机箱以增强和抵御严苛环境或化学影响;螺丝也可采用不锈钢的材质来达到更好的强固性。

整体而言,IP67等级边缘计算人工智能平台整机采用无风扇设计,并使用不锈钢铝制机箱,抵御环境因素/气候腐蚀;同时采用市售现货(Commercial off-the-shelf,简称COTS) M12 X编码连接器做为USB、PoE等I/O连接端口,从而达到防水、防尘效果,且大大改善了以往接口会松动的情况。

此外为了强化气密性,在不锈钢单体间通过特制的模制O型防水垫圈(O-ring)连接成为主要的架构;O-ring的材质上使用不同配方的橡胶成分可抵御不同的液体特性,延长计算平台的使用寿命。

边缘计算人工智能平台与GPU的选择

近年来,NVIDIA®发布了一系列针对各种目标市场需求的GPU,加速了边缘计算人工智能应用。因此,选择上可依照应用所需的GPU算力、环境需求(如温度、振动等)、其他外接装置等因素进行全面评估。

常见的GPU选择上有:

·NVIDIA® Jetson系列——仅30W低功耗,却拥有相当于120W GPU算力,可以通过主动散热无风扇设计进行散热;

·NVIDIA® Quadro系列——功耗为75W,可提供高达3.8 TFLOPS的GPU算力;

·NVIDIA® Tesla T4系列——功耗约70W,提供了接近200W GPU的算力,兼具了高性能和较低功耗的优势,通过铝挤散热片和先进的机构设计能够有效地吸收并带走热量。

另外可以参考GPU执行频率在工业计算平台运作上的实际测试报告。

根据计算台上的电源、机构、散热设计等不同,GPU能承受的环境温度与效能也有显著差异。GPU执行频率可能因总功耗限制(Limited by total power limit)、温度限制(Limited by temperature limit)、可靠性电压限制(Limited by reliability voltage)等造成降频(throttling)而影响实际运算成效。

结论

作为能部署在严苛环境中的边缘计算人工智能平台,在搭载GPU/ AI计算卡的需求下,除了必须具备长时间运作的稳定性,还要考虑计算平台的电源设计、散热与如何排除或减少环境因素对于工业计算平台性能的影响。通过上述解决方案,可大幅减少计算平台部署的困难度。

(编辑:中国机器视觉网 姜楠)