结合3D视觉技术与深度学习实现自动水果识别--机器视觉网

Basler与总部位于柏林的Data Spree公司合作开发了一个适用于水果识别和分类的深度学习应用程序。该视觉系统是基于Basler blaze ToF (Time-of-Flight)相机和Data Spree的深度学习平台。

概述

深度学习的方法不仅精度高，而且它的即用型系统可以缩短开发时间，因此比传统的图像处理方法更具优势。在识别物体时，训练有素的神经网络不仅能应对各类变体，还可以在系统的完整生命周期内不断改进功能，从而在边界条件不断变化的情况下产生始终如一的结果。

农产品的分类和加工就是一个很好的例子。这些农产品的形状和颜色可能存在很大差异，这对已广泛使用的图像处理方法提出了巨大的挑战。

解决方案

Basler与软件提供商Data Spree开展密切合作，共同开发了一个适用于检测和分类水果的视觉解决方案。将3D ToF (Time-of-Flight)技术的优势与易于使用的深度学习算法相结合，可以为水果分拣应用提供可靠的高精度实时解决方案。

水果的3D点云图

硬件

这个深度学习视觉系统由标准PC和Basler blaze ToF相机组成。

借助Sony DepthSense™ IMX556PLR芯片技术，Basler blaze相机能提供精度可达毫米级的高分辨率3D图像。这台3D相机不仅通过ToF (Time-of-Flight)方法来生成灰度图作为强度图像，还能使用近红外区域(NIR)范围的光脉冲ToF方法来测量到每个像素的距离。然后，生成的图像可用作3D点云图，并提供有关所描绘场景的其他信息。与2D RGB图像相比，3D点云图的颜色信息被形状信息所取代，不仅具有能同时检测红苹果和绿苹果的优点，还支持物体的精确定位和测量等其他应用。

软件

Basler blaze相机

Basler blaze相机拍摄的图像会由Data Spree的“深度学习DS”软件进行评估，该软件解决方案是以深度学习为基础。Data Spree解决方案非常简单易用，无需任何专业经验也可以轻松开发深度学习模型。

设置时需要完成以下步骤：

1、数据采集

每个神经网络都需要大量样本图像，以供后续进行分类。例如，由Basler blaze相机首先采集大约500张各种水果（香蕉、苹果和梨子）的图像。然后，相机软件会通过灰度图和深度图来生成2通道图像数据，其中包含每个像素到物体的距离信息（精确到毫米）。此图像数据会被加载到深度学习DS平台中。

2、标注

然后，要使用元数据来改进图像数据。因此，需要在每个水果周围手动绘制框，并分配相应的类别（苹果、梨子等）。这样可以定义在后续步骤中要“教导”神经网络学习什么内容。手动标注大约100张图像后，就能加快这个费时费力的初始过程，因为已成雏形的初步深度学习模型可以为后续的图像生成建议，只需要进行更正即可。

3、训练

全部500张图像都标注完毕之后，只需单击几下鼠标即可创建另一个模型，并将会自动对深度神经网络(DNN)进行训练。在训练期间，系统会使用测试数据集来定期评估识别的精度。

4、在目标硬件上配置（部署）和应用（推理）已受训练的网络

训练完毕后，已完成的模型将被加载到目标硬件上，就可以使用Inference DS Data Spree执行软件来直接执行。Basler blaze ToF相机（包括预处理功能）已经完全实现集成，可以直接启动深度学习应用程序。

标注：这样可以定义在后续步骤中要“教导”神经网络学习什么内容。

解决方案的优势

■ 通过3D相机 (Time-of-Flight) 将空间信息集成到神经网络的学习中，可以更精确、更可靠地对物体进行识别和分类

■ 可降低应用的复杂性，因为在许多应用中不再需要补充的芯片技术

■ 借助简单方便的Data Spree软件解决方案，即使不具备编程和深度学习知识，也可以创建深度学习应用程序

■ 即使在弱光、自然光和无对比度的情况下，也能获得精确的测量结果

结论

在上述的水果分类示例应用中，Basler证明了通过与Data Spree合作，将功能强大的3D相机与深度学习模型相结合，可以帮助用户轻松解决复杂的任务，节省宝贵的时间和成本。Basler blaze ToF (Time-of-Flight)相机可提供额外的深度信息，有助于在各种应用中分析物体的体积、形状或位置。