- 03/13
- 2020
-
QQ扫一扫
-
Vision小助手
(CMVU)
近日,百度智能云容器引擎CCE正式上线支持构建昆仑XPU集群,为百度自研昆仑芯片的高性能AI计算简化运维、降本增效,快速实现场景落地与行业赋能。
01、CCE助力昆仑AI算力高速运转
当下,人工智能已成为各行各业的热点和趋势,市场对AI算力的需求也迎来了爆发式的增长。
为此,百度智能云于去年底正式推出百度昆仑云服务器,基于百度自主研发的中国首款云端全功能AI芯片“昆仑”,以及百度智能云成熟的虚拟化技术,在云服务器BCC产品中对昆仑AI加速芯片进行深入的适配和兼容。
依托于昆仑芯片高性能、低成本、通用灵活的特点,百度昆仑云服务器在云服务器本身具有的安全可靠、高性价比、弹性灵活的优势上,实现了更快、更强、更易用、更通用。
随着容器技术的快速发展和云原生的日益普及,企业和开发者在追求更快更强的AI算力的同时,也在不断追求各类AI计算场景下高可用、免运维、低成本、高效率的极致体验。容器技术以其独特的优势,已经成为业界主流AI计算框架的核心引擎。
百度智能云容器引擎(Cloud Container Engine,以下简称CCE)就是在这样的背景下推出的,其采用Kubernetes作为容器集群管理系统,依托于百度智能云BCC、BLB等技术提供的稳定基础架构,借助主流的Kubernetes开源工具,能够向客户提供弹性、高可用、高效便捷的Container as a Services,助力系统架构微服务化、DevOps高效运维、AI应用深度学习容器化等业务场景。
随着昆仑云服务器上线,CCE基于Kubernetes支持对昆仑XPU资源集群的管理和调度,能最大化昆仑AI加速芯片算力的使用效率,进一步提高底层计算能力。
02、CCE如何支持昆仑降本增效?
CCE对昆仑性能的提升毋庸置疑,具体是如何做到的呢?
Kubernetes作为新一代的AI开发基础,一直在不断提高对GPU等硬件加速设备进行统一管理和调度的能力,主要通过Kubernetes支持的extended-resource特性和device-plugin的通用设备插件机制,以Daemonset方式部署,完成对新资源的注册、调度和分配。
extended-resource是一种自定义扩展资源的方式。扩展资源类似于CPU和内存资源,一个节点可具有一定数量的扩展资源,供该节点上的容器使用,开发人员可创建请求一定数量该资源的pod。扩展资源的名称和总量(必须指定为整数)需上报给api server,scheduler则根据该资源pod的创建和删除计算资源可用量,进而在调度时刻判断是否有满足资源条件的节点。
device-plugin是用于提供通用设备插件机制和标准的设备API接口,设备厂商只需要实现相应的API接口,即可在不更改Kubernetes主干代码的情况下,向Kubernetes提供GPU、FPGA、高性能 NIC、InfiniBand等各种资源的统计信息和使用预备工作。使用该特性需要通过feature gate打开, 即配置:
--feature-gates=DevicePlugins=true
CCE支持昆仑的实现流程
03、CCE能在哪些场景下支持昆仑?
CCE作为一款成熟的容器引擎产品,能在包括深度学习模型训练、高密度高性能计算、简化训练环境的搭建运维、简化AI应用的边缘化部署等多场景下支持昆仑。
深度学习模型训练:CCE已支持在Kubernetes集群基础上一键集成百度开源PaddlePaddle深度学习框架,客户以百度昆仑云服务器为计算资源、以CCE服务为集群管理工具、以PaddlePaddle为深度学习框架,能够很好地解决AI开发中的两大核心难题:利用Kubernetes解决大规模计算资源的管理和调度难题,屏蔽底层基础设施的差异性;利用PaddlePaddle框架解决复杂算法研发和训练的难题,打造开发、训练、预测全套方案。
高密度高性能计算:很多AI场景下,客户需要快速、多次计算进行迭代。CCE通过优化k8s容器调度引擎,能够为容器中的AI计算任务分配更细粒度的昆仑XPU资源,实现多个AI计算任务共享昆仑XPU资源,大幅提升资源利用率、降低AI计算成本。同时,CCE提供秒级计费、按需付费,大大降低了客户进行AI计算的成本。
简化训练环境的搭建运维:自主搭建深度学习训练环境,需要准备资源、安装软件驱动等,并需要花很大精力保证开发、测试、生产环境的一致性。通过CCE构建昆仑XPU集群,在保证计算性能的同时,还能利用容器的标准化封装能力极大降低安装部署的复杂度,利用容器的隔离性实现多训练框架的并行和独立升级。通过降低研发运维的难度和复杂度,客户可以更专注于AI训练。
简化AI应用的边缘化部署:随着5G、IoT技术的快速发展,AI应用部署的本地化、边缘化也逐渐成为解决很多行业问题的关键。容器化是一种用于应用程序部署的行业标准化设计模式,借助于Kubernetes提供的统一部署平台,其可以跨边缘、数据中心、云和混合环境部署。 通过CCE实现AI应用的容器化,并运行于昆仑XPU集群上,可以简化AI应用边缘化部署工作。
超强、极速的算力及其使用过程的高效率、低成本、易用易获取,是AI产业发展的关键。
作为百度AI生态中的一环,CCE远远不止是一个容器集群管理工具,而是致力于为客户解决从底层架构到AI开发中的各项难题,最大程度降低客户使用的门槛和成本,为客户提供一个高度自由的AI开发环境,从而将百度强大的AI能力赋予到客户的实际应用中,加速AI计算的落地与发展。
- 上一条:人脸识别技术升级 戴着口罩也能认出你
- 下一条:工业革命影响下发展的互联网技术