- 03/25
- 2020
-
QQ扫一扫
-
Vision小助手
(CMVU)
近日,维也纳大学研发出了一种新型的图像传感器设备,它自带人工神经网络,可以同时捕获和识别光学图像,无需再将信息转换成数字格式即可快速处理信息。
视觉是我们最重要的感官之一。在过去的十年中,受生物学启发的机器视觉得到了迅速的发展,人工系统可以通过传感机器从图像和视频中获得有价值的信息,进而有了“看到”的能力,虽然这种能力比人类的视觉能力还是差了很远。Mennel 等人在 《自然》杂志上刊登 了一种新的视觉系统研究成果,该系统设计模仿了人脑对信息的处理方式,只用纳秒级的时间就能对简单图像进行分类。
现代图像传感器,如数码相机中的图像传感器,是基于半导体 (固态) 技术,于上世纪 70 年代初发明的;它们主要分为两种类型,即电荷耦合器件和有源像素传感器。这些传感器可以从环境中准确地捕获视觉信息,但同时也会产生大量冗余数据。这些海量的光学信息通常被转换成数字电子格式,然后再传递给计算单元进行图像处理。
传感器和处理单元之间大量数据的移动往往会导致延迟和高功耗问题。随着成像速率和像素数量的增长,再加上带宽限制,把所有数据都发送到云端,让云计算机集中处理又不能满足实时快速处理和决策的需要。这恰恰也是现在无人驾驶汽车、机器人、工业制造等对延迟敏感的领域所不能接受的。
优化之后的解决方案是将一些计算任务转移到计算机系统外部边缘的感知设备上,这样可以减少不必要的数据移动。由于传感器通常产生的都是模拟输出,而模拟到数字的转换既耗时又耗能,因此模拟处理比数字处理更可取。
Nature新论文:研究人员研发出新AI芯片,可在纳秒内完成图像识别任务
图 1 输入信息在视觉传感器内进行计算,实现智能、高效的预处理
传统的人工智能 (AI) 视觉传感器如图(a)所示,信号在光响应传感器上进行收集,通过模数转换器(ADC)将模拟信号转换为数字信号,放大后作为输入提供给外部的人工神经网络 (ANN),再经过参数调优训练神经网络,可以用来执行诸如图像分类等任务。
神经网络的输入层接收编码简单物理元素的信号 (这里用点和线表示),在随后的层中,这些信号被优化为中级特征 (简单的形状),最后在输出层 (3D 形状) 形成精细的图像。整体的响应可能是比较缓慢和耗能的。
Mennel 等人研发的视觉系统如图(b)所示,在这个系统中,芯片上的相互连接的传感器 (正方形) 不仅可以收集信号,而且还可以作为一个神经网络来识别简单的特征,从而减少传感器和外部电路之间冗余数据的移动。
Mennel 和同事们在他们的图像传感器中直接实现了一个人工神经网络。在芯片上,他们构建了一个光二极管网络,这些光二极管是微小的光敏元件,每一个都由几层二硒化钨原子组成。二硒化钨对光的响应可以通过改变施加的电压来增加或减少,因此每个二极管的灵敏度可以单独调整。这就将光敏传感器网络转变为了一个神经网络 (图 1b),并使其能够执行简单的计算任务。改变光电二极管的光响应度,也就会改变网络中的连接权重。因此,该装置其实是结合了光学传感和神经形态计算。
作者将光电二极管排列成一个 9 像素的正方形阵列,每个像素有 3 个二极管。当一个图像被投射到芯片上时,各种二极管电流被产生、合并和读取。硬件阵列提供了一种模拟计算形式:每个光电二极管都会产生与入射光强度成比例的输出电流,并且根据基尔霍夫定律 (电路中电流的基本规则),将沿行或列得出的电流相加。
然后就可以训练该阵列来执行相应任务了。阵列产生的电流和预测的电流之间的差异 (如果阵列对给定任务的图像做出正确的响应,就会产生电流) 将在芯片外进行分析,并用于调整下一个训练周期的权重。这个学习阶段会消耗时间和计算资源,但是一旦经过训练,芯片就能快速完成设定的任务。
利用不同的神经网络算法,作者演示了两种神经形态功能。第一个是分类:他们用 3×3 像素阵列,将一幅图像分成三个类中的一个,这三个类对应于三个简化的字母,从而在纳秒内识别出它是哪个字母。这个相对简单的任务只是一个概念的证明,如果按比例增加阵列的大小,它可以扩展到识别更复杂的图像。
第二个例子是自动编码:即使在存在信号噪声的情况下,传感器内的计算阵列也可以通过学习图像的关键特征,来生成经过处理的图像的简化表示。编码后的版本只包含最基本的信息,但可以通过解码来重建接近原始的图像。
但在这项技术实际落地应用之前,还有很多工作要做。首先,用于自动驾驶汽车和机器人的神经形态视觉系统,需要在三维空间和广阔的视野中捕捉动态图像和视频。而目前使用的图像捕获技术通常是将三维现实世界转换为二维信息,丢失掉运动信息和深度。现有图像传感器阵列的平面形状也制约着广角相机的发展。
其次,该系统的传感器设备很难在昏暗的光线下成像,需要重新设计,以改善半导体的光吸收能力,并增加可检测到的光强范围。此外,该设计要求高电压,功耗大;相比之下,在生物神经网络中,每次操作的能量消耗在亚焦耳级(10 -15 至 10 -13 焦耳)。充分扩大对紫外线和红外光的响应范围,捕捉可见光光谱中得不到的信息,对后续技术优化也会很有帮助。
还有一点,研究使用的薄半导体很难在大范围内均匀生产,而且很难加工处理,因此它们很难与硅电子器件集成,比如用于读出或反馈控制的外部电路。使用这些传感器的设备的速度和能源效率将不是由图像捕获过程决定的,而是由传感器和外部电路之间的数据移动决定的。此外,虽然传感器内的计算单元在模拟域收集和计算数据,减少了模拟到数字的转换,但外围电路仍然受到其他固有延迟的影响。传感器和外部电路将需要协同开发,以减少整个系统的延迟。
Mennel 及其同事的“传感器内计算系统”应该会激发业内对人工智能 (AI) 硬件的进一步研究。一些公司已经开发了基于硅电子的人工智能视觉芯片,但这些芯片固有的数字体系架构往往带有延迟和电力效率问题。
从更广泛意义来讲,该研究团队的策略并不局限于视觉系统。它可以扩展到其他物理输入,如听觉、触觉、热感或嗅觉感知等。这种智能系统的发展,加上 5G 高速无线网络的到来,应该会让未来的实时 (低延迟) 边缘计算成为可能。