清华造人工神经网络芯片，忆阻器阵列效能高过GPU两个数量级--机器视觉网

近日，清华大学微电子所、未来芯片技术高精尖创新中心钱鹤、吴华强教授团队与合作者在《自然》在线发表了题为“Fully hardware-implemented memristor convolutional neural network”的研究论文，报道了基于忆阻器阵列芯片卷积网络的完整硬件实现。

该存算一体系统在办理卷积神经网络（CNN）时能效比前沿的图形办理器芯片（GPU）高两个数质级，可以说在一定程度上冲破了“冯诺依曼瓶颈”的限造：大幅提升算力的同时，实现了以更小的功耗和更低的硬件成本完成复杂的计算。

基于忆阻器芯片的存算一体系统

什么是忆阻器？

忆阻器，全称记忆电阻器（Memristor），是继电阻、电容、电感之后的第四种电路基本元件，表示磁通与电荷之间的关系，最早由加州大学伯克利分校教授蔡少棠在1971年预言存在，惠普公司在2008年研制成功。

简单来说，这种组件的的电阻会随着通过的电流量而改变，而且就算电流停止了，它的电阻仍然会停留在之前的值，直到接受到反向的电流它才会被推回去，等于说能“记住”之前的电流量。

这种奇妙的效果，其实和神经元突触有相仿之处。再加上忆阻器还具有尺寸小、操作功耗低、可大规模集成（三维集成）等优点，难怪计算机科学家们在忆阻器身上看到了存算一体、低能耗类脑计算的前景。

人工神经网络近年来大放异彩，如果用忆阻器连接成阵列，作为人工神经网络的硬件，会有什么效果？

忆阻器阵列

当前国际上的相关研究还停留在简单网络结构的验证，或者基于少量器件数据进行的仿真，基于忆阻器阵列的完整硬件实现仍然有很多挑战：器件方面，制备高一致、可靠的多值忆阻器阵列仍是挑战；系统方面，受忆阻器的阻变机理制约，器件固有的非理想特性（如器件间波动，器件电导卡滞，电导状态漂移等）会导致计算准确率降低；架构方面，忆阻器阵列实现卷积功能需要以串行滑动的方式连续采样、计算多个输入块，无法匹配全连接结构的计算效率。

钱鹤、吴华强教授团队通过优化材料和器件结构，成功制备出了高性能的忆阻器阵列。2017年5月，该课题组就曾在《自然通讯》报告称，首次实现了基于1024个氧化物忆阻器阵列的类脑计算，将氧化物忆阻器的集成规模提高了一个数量级。这使芯片更加高效地完成人脸识别计算任务，将能耗降低到原来的千分之一以下。

忆阻器神经网络

为解决器件非理想特性造成的系统识别准确率下降问题，他们提出一种新型的混合训练算法，仅需用较少的图像样本训练神经网络，并通过微调最后一层网络的部分权重，使存算一体架构在手写数字集上的识别准确率达到96.19%，与软件的识别准确率相当。与此同时，提出了空间并行的机制，将相同卷积核编程到多组忆阻器阵列中，各组忆阻器阵列可并行处理不同的卷积输入块，提高并行度来加速卷积计算。

在此基础上，该团队搭建了全硬件构成的完整存算一体系统，在系统里集成了8个包括2048个忆阻器的阵列，以提高并行计算的效率，并在该系统上高效运行了卷积神经网络算法，成功验证了图像识别功能，证明了存算一体架构全硬件实现的可行性。

存算一体系统架构

近年来，钱鹤、吴华强教授团队长期致力于面向人工智能的存算一体技术研究，从器件性能优化、工艺集成、电路设计及架构与算法等多层次实现创新突破，先后在《自然通讯》（Nature Communications）、《自然电子》（Nature Electronics）、《先进材料》（Advanced Materials）等期刊以及国际电子器件会议（IEDM）、国际固态半导体电路大会（ISSCC）等顶级学术会议上发表多篇论文。（本文转载自网络）