新的视觉系统可以在传感器内计算，无需将信息转换成数字格式--机器视觉网

视觉是我们最重要的感官之一。在过去的十年中，受生物启发的机器视觉得到了迅速的发展，以至于人工系统可以从图像和视频中“看到”有价值的信息，尽管人类的视觉仍然有效得多。Mennel等人在《自然》杂志上发表的文章报道了一种视觉系统的设计，该视觉系统与大脑一样，可以训练以纳秒为单位对简单图像进行分类。

现代图像传感器，如数码相机中的图像传感器，是基于半导体（固态）技术，在20世纪70年代初发展起来的；它们分为两种主要类型，即电荷耦合器件和有源像素传感器。这些传感器可以忠实地从环境中捕获视觉信息，但会生成大量冗余数据。通常将大量的光学信息转换为数字电子格式，然后传递到计算单元进行图像处理。

在传感器和处理单元之间产生的大量数据移动导致延迟（延迟）和高功耗。随着成像速度和像素数量的增长，带宽限制使得很难将所有信息迅速地发送回中央或基于云的计算机，以便进行实时处理和决策，这对于诸如无人驾驶汽车、机器人或工业制造等延迟敏感应用尤其重要。

一个更好的解决方案是将一些计算任务转移到计算机系统外部边缘的感知设备上，减少不必要的数据移动。而且，由于传感器通常会产生模拟（连续变化）输出，模拟处理比数字处理更可取：众所周知，模拟-数字转换非常耗时耗力。

为了模仿大脑对信息的有效处理，受到生物学启发的神经形态工程采用了一种计算架构，该架构具有高度互连的元素（神经元，通过突触连接），可以进行并行计算（图1a）。这些人工神经网络可以通过迭代从周围的环境中学习，例如：学习在显示已知示例后对事物进行分类（监督学习），或从输入数据中识别对象的特征结构而无需额外信息（监督学习）。在学习过程中，算法会反复进行预测，并增强或削弱网络中的每个突触，直到达到最佳设置。

微信图片_20200305153523.jpg

图1 |在视觉传感器内进行计算，实现智能，高效的预处理。a，在传统的人工智能（AI）视觉传感器中，从光响应传感器收集信号，将其从模拟形式转换为数字形式（ADC，模数转换器），放大后作为输入提供给外部人工神经网络（ANN）-互连计算单元（圆圈）的层，可以调整其连接，从而可以训练网络执行诸如图像分类之类的任务。ANN的输入层接收编码简单物理元素（此处由点和线表示）的信号；在随后的层中，这些被优化为中级特征（简单形状）；并在输出层（3D形状）上形成精细的图像。总体响应可能很慢且耗能。b，Mennel等人[3]报告了一种系统，其中芯片上的互连传感器（正方形）不仅可以收集信号，而且还可以作为ANN来识别简单特征，从而减少了传感器和外部电路之间的冗余数据移动。

Mennel和同事直接在他们的图像传感器中实现了一个人工神经网络。在芯片上，他们构建了一个光电二极管网络——微小的光敏元件，每一个都由几个钨二硒化物原子层组成。这种半导体对光的响应可以通过改变外加电压来增加或减少，因此每个二极管的灵敏度可以单独调谐。实际上，这将使光传感器网络变成一个神经网络（图1b），并允许它执行简单的计算任务。改变光电二极管的光响应度会改变网络中的连接强度——突触重量。因此，该设备结合了光学传感和神经形态计算。

作者将光电二极管排列成9个像素的正方形阵列，每个像素有3个二极管。当图像投射到芯片上时，产生、组合和读取各种二极管电流。硬件阵列提供了一种模拟计算形式：每个光电二极管产生一个与入射光强度成比例的输出电流，根据基尔霍夫定律（电路中电流的一个基本规则），所得电流沿行或列求和。

然后训练阵列执行任务。芯片外分析阵列产生的电流与预测电流（如果阵列对图像做出正确响应，对于给定任务，将产生的电流）之间的差异，并用于调整下一个训练周期的突触重量。这个学习阶段占用了时间和计算资源，但是，一旦训练好，芯片就会快速地执行设定的任务。

使用不同的神经网络算法，作者证明了两个神经形态函数。第一种是分类：他们的3 × 3像素数组可以将图像分类为对应于三个简化字母的三个类中的一个，从而以纳秒为单位确定它是哪一个字母。这个相对简单的任务只是一个概念的证明，如果阵列尺寸增大，可以扩展到识别更复杂的图像。

第二个功能是自动编码：即使在存在信号噪声的情况下，传感器阵列中的计算也可以通过学习图像的关键特征来生成处理图像的简化表示。编码版本只包含最基本的信息，但可以解码以重建接近原始的图像。

这项前沿技术可以用于实际应用之前，还有许多工作要做。用于自动驾驶车辆和机器人的神经形态视觉系统将需要捕获具有三个维度并具有广阔视野的动态图像和视频。当前使用的图像捕获技术通常将3D现实世界转换为2D信息，从而丢失运动信息和深度。现有图像传感器阵列的平面形状也限制了广角相机的发展。

作者描述的设备很难在昏暗的光线下成像。需要重新设计以改善薄半导体中的光吸收并增加可以检测到的光强度范围。此外，所报道的设计需要高电压并消耗大量功率。相比之下，在生物神经网络中，每项操作的能耗为亚飞焦耳级（10-15至10-13焦耳）。扩展对紫外线和红外光的响应，以捕获可见光谱中不可用的信息也是有用的。

所使用的薄半导体难以在大面积上均匀地生产，并且难以加工，因此它们可以与硅电子器件集成在一起，例如用于读出或反馈控制的外部电路。使用这些传感器的设备的速度和能源效率将不取决于图像捕获过程，而是取决于传感器和外部电路之间的数据移动。而且，尽管传感器计算单元在模拟域中收集和计算数据，减少了模数转换，但是外围电路仍然遭受其他固有延迟的困扰。传感器和外部电路将需要共同开发，以减少整个系统的等待时间。

Mennel及其同事的“传感器中计算”系统应激发对人工智能（AI）硬件的进一步研究。几家公司已经开发了基于硅电子产品的AI视觉芯片，但是这些芯片的固有数字架构会导致延迟和电源效率问题。

更广泛地讲，作者的策略不仅限于视觉系统。它可以扩展到用于听觉，触觉，热感或嗅觉的其他物理输入。此类智能系统的开发以及5G快速无线网络的到来，应会在将来允许进行实时边缘（低延迟）计算。