光子芯片以光速进行图像识别，每秒对 20 亿张图像进行分类--机器视觉网

模仿人脑工作的深度神经网络现在通常为计算机视觉、语音识别等提供支持。然而，它们越来越受到用于实现它们的硬件的限制。现在，科学家们已经在光子微芯片上开发了一种深度神经网络，可以在不到一纳秒的时间内对图像进行分类，这与最先进的电子设备中的时钟的单个滴答时间大致相同。

微信图片_20220916144941.png

该芯片使用小于一平方厘米的光波导深度神经网络。该网络可以在不到一纳秒的时间内检测和分类图像，而无需单独的处理器或内存单元。

在人工神经网络中，被称为“神经元”的组件被输入数据并合作解决问题，例如识别人脸。神经网络反复调整其神经元之间的联系，并查看由此产生的行为模式是否能更好地找到解决方案。随着时间的推移，网络会发现哪些模式最适合计算结果。然后它采用这些作为默认值，模仿人脑中的学习过程。如果一个神经网络拥有多层神经元，它就被称为“深度”。

尽管这些人工智能系统越来越多地找到现实世界的应用程序，但鉴于运行它们的硬件，它们面临着许多重大挑战。首先，它们通常使用基于数字时钟的平台来实现，例如图形处理单元(GPU)，这将它们的计算速度限制在时钟频率上——对于大多数最先进的 GPU 来说小于 3 GHz。其次，与可以计算和存储数据的生物神经元不同，传统电子设备将内存和处理单元分开。在这些组件之间来回穿梭数据会浪费时间和精力。

此外，原始视觉数据通常需要转换为数字电子信号，耗时较长。此外，通常需要大内存单元来存储图像和视频，从而引发潜在的隐私问题。

在一项新研究中，研究人员开发了一种光子深度神经网络，可以直接分析图像，而无需时钟、传感器或大内存模块。它可以在不到 570 皮秒的时间内对图像进行分类，这与最先进的微芯片中的单个时钟周期相当。

“它每秒可以对近 20 亿张图像进行分类，”该研究的资深作者、费城宾夕法尼亚大学的电气工程师Firooz Aflatouni说。“作为参考，传统的视频帧速率为每秒 24 到 120 帧。”

新设备标志着第一个完全在集成光子设备上以可扩展方式实现的深度神经网络。整个芯片的大小只有 9.3 平方毫米。

感兴趣的图像被投影到 5×6 像素阵列上，并分为四个重叠的 3×4 像素子图像。然后，光通道或波导将每个子图像的像素路由到设备的九个神经元。

当微芯片接受训练以识别图像时，例如，将其识别为一个字母或另一个字母，一个电控设备会调整每个神经元如何修改入射光信号的功率。通过分析图像中的光线在穿过微芯片的神经元层后如何被修改，人们可以读取微芯片的结果。

“通过传播计算，计算发生在波通过介质传播时，可以以光速执行计算，”Aflatouni 说。

科学家们让他们的微芯片识别手写字母。在一组测试中，它必须将 216 个字母分类为p或d，而在另一组测试中，它必须将 432 个字母分类为p、d、a或t。该芯片的精度分别高于 93.8% 和 89.8%。相比之下，使用Keras库在 Python 中实现的 190 个神经元的传统深度神经网络在相同图像上实现了 96% 的准确率。

研究人员现在正在尝试使用这些设备对视频和 3D 对象进行分类，并使用具有更多像素和神经元的更大芯片对更高分辨率的图像进行分类。此外，这项技术的应用“不仅限于图像和视频分类，”Aflatouni 说。“任何可以转换为光域的信号，例如音频和语音，都可以使用这项技术几乎瞬间进行分类。”

(文章来源于网络，如有侵权，请联系删文)