国内首颗28纳米NPU芯片已经实现量产--机器视觉网

　　单颗NPU由28纳米工艺制造，能耗仅为400mW，可广泛应用于高清视频监控、智能驾驶辅助、无人机、机器人等嵌入式机器视觉领域。
　　日前，中国领先的视频监控芯片供货商中星微电子发布，中国首款嵌入式神经网络处理器（NPU）“星光智能一号”的最新成果，该芯片已于实现量产。
　　单颗NPU由28纳米工艺制造，能耗仅为400mW，可广泛应用于高清视频监控、智能驾驶辅助、无人机、机器人等嵌入式机器视觉领域。
　　国家重点实验室执行主任张韵东介绍说，NPU采用了“数据驱动并行计算”的架构，彻底颠覆了传统的冯诺依曼架构。这种数据流（Dataflow）类型的处理器，极大地提升了计算能力与功耗的比例，特别擅长处理视频、图像类的海量多媒体数据，使得人工智能在嵌入式机器视觉应用中可以大显身手。
　　在不久前的人机大战中，AlphaGo依靠模仿人脑生物机理的深度学习算法而击败人类。深度学习，是源于对生物人脑机理的仿生学研究而形成的一种人工智能算法。
　　作为深度学习神经网络的一种，卷积神经网络CNN（Convolutional Neural Network）算法，已成为当前人工智能机器视觉领域的研究热点。CNN算法模型的特性可以概括为海量的输入数据、大规模的MAC运算、稀疏的权值矩阵、灵活的数据位宽和多样的网络拓扑等特性。
　　张韵东介绍，NPU是针对CNN的算法模型特性而专门设计的一款神经网络处理器。每个NPU处理器具有4个内核（NPU Core），每个内核有两个数据流处理器（Dataflow Processor），每个数据流处理器具有8个长位宽或16个短位宽的SIMD（单指令多数据）运算单元。在一个时钟周期内可同时完成64个长位宽MAC运算或者128个短位宽MAC运算。每个NPU核具有38G Ops的长位宽处理能力或者76G Ops的短位宽处理能力。NPU的处理性能可以组成多核阵列来提升，也可以通过多芯片级联的方式进一步扩展，以满足更复杂的CNN网络运算的性能需求。
　　“每个NPU核还具有256KB Level-2 Cache，以及整块数据搬移（Block Data Access），片内数据共享（Data-sharing Between Processor Units），提升数据流的吞吐效率。” 张韵东表示，在软件方面，利用了稀疏数据优化（Optimization for Sparse Data）等特性提高计算效率。“NPU支持Caffe、TensorFlow等多种神经网络框架，支持AlexNet、GoogleNet等各类神经网络。”
　　与传统CPU处理器相比，这种NPU处理器的信息处理能力要高出100倍甚至1000倍，能让摄像头变成“带大脑的眼睛”，推动机器视觉等人工智能技术从高大上的科学实验室走进寻常百姓家。