深度学习能否达到工业精度要求，完成工业视觉任务？--机器视觉网

2012年，多伦多大学首次使用深度学习训练的卷积神经网络模型在ImageNet的测试表现中取得突破性进展，并引发了一连串的基于卷积神经网络的优化并不断大幅提升ImageNet的测试表现。在2015年，通过深度学习训练的卷积神经网络模型，在ImageNet的测试表现中，错误率已经降到了2．3％，超越了人类的识别准确率，就此推动了在图像识别领域进行深度学习的大规模产业化应用的热潮。

以2012年为起点，各大互联网巨头开始落地深度学习技术。2013年，Google通过深度学习来进行街景地图的门牌号OCR识别；2014年，Facebook将其基于卷积神经网络模型的人脸识别技术DeepFace大规模地应用于其照片应用之中，识别准确率达到97．3％。目前深度学习被大规模应用于人脸识别、自动驾驶汽车等领域，取得了非常瞩目的成绩。作为一种首先在消费互联网领域广泛应用的技术，是否可以有效融入到工业视觉领域呢？

工业机器视觉需要处理什么任务

机器视觉作为一种基于2D或者3D相机传感器的工业自动化技术，在工业视觉领域具有广泛而成熟的应用。3C、半导体、汽车等行业大量使用机器视觉技术进行异常识别、标签识别等、物料定位等工作。

工业自动化离不开感知技术和运动控制技术，就像人离不开眼和手。而人体所获得的信息，80％来自于视觉，可想而知，视觉感知技术一定是工业自动化领域最重要的技术之一，而传统机器视觉，是存在明显局限的。

传统机器视觉存在什么局限

传统机器视觉的图像处理系统，其工作原理简单理解起来是这样：

1、在图像中找到边、角等人为定义的目标特征；

2、基于目标特征在图像中存在与否、多个目标特征之间的距离的数值进行逻辑判断来完成视觉任务。

使用这套技术，需要由视觉工程师基于视觉任务的特定需求，进行目标特征的定义以及数值判断的阀值定义，设计好了之后形成程序由机器执行。

而传统机器视觉逻辑简单的局限性，则体现在无法适用于随机性强、特征复杂的工作任务。

由于只能从有限的特征中进行排列组合，视觉工程师无法通过”边“、”角”来表达“密集的点状凹凸不平”这种综合的、复杂的判断目标。或者表达能力很差，导致识别准确度不好。因此，传统机器视觉是无法解决以上问题的，而这样的复杂特征问题，恰恰是深度学习技术最擅长解决的问题。

深度学习如何解决复杂特征问题

相比传统机器视觉通过视觉工程师来设计算法模型，深度学习技术最大的不同在于，程序能够自主发现需要用什么特征，通过什么样的逻辑关系来完成图像分析任务，实现由程序来设计算法模型。

以乐高积木来类比的话，在传统机器视觉里，人类的工作是从100个乐高元素里挑出数十个，组装起来执行人类设计好的逻辑动作，完成相关任务；而深度学习里，人类告诉机器需要完成的任务，由机器从1亿个乐高元素里，挑出数万个，组装起来并选择需要执行的逻辑动作来完成该任务。其表达能力远远高于人类专家。

由于深度学习可以从更多的特征可能性中进行选择，并自行决定特征之间的逻辑关系，深度学习就具备了通过从海量像素点中，选择一组特征，并通过这组特征表达‘密集的点状凹凸不平’的能力。

在实际应用中，使用深度学习训练的模型可以准确地对图片中的随机缺陷进行识别，并可以准确地将指定的缺陷有效地标识出来，真正实现了随机性强、特征复杂的随机缺陷的检测。

通过深度学习可以识别并标识图像中的随机缺陷

正是由于具备了处理这种随机性强、特征复杂的图像识别问题的能力，深度学习就具备了突破传统机器视觉技术的局限的可能性。

深度学习能否达到工业精度要求

我们通常会认为，工业应用对于技术精度和稳定性的要求要高于民用技术。所以，在消费领域火热的深度学习技术，是否能够满足工业指标呢？我们以外观缺陷检测为例，看看工业检测具体需要考虑哪些指标。漏判率：漏判会直接造成不良品流向终端客户。所以漏判率要求通常低于 100 PPM。

误判率：误判会直接对工业企业的良率造成影响，会造成物料的浪费。企业对误判率的要求通常要求在1％－5％之间。在漏判率达标的前提下，只有大幅降低误判率，才能达到减人的目标。

节拍：不同行业有较大差异，如电子行业的节拍要求在5秒以内，机械加工行业的节拍要求在几十秒以内。

一方面，深度学习目前的行业普遍技术水平已经能够达到95％以上的判定准确率。通过平衡漏判率和误判率，更加严格地控制漏判，可以让漏判率降到100PPM以下，而误判率降到5％以下。

另一方面，针对节拍的要求，由于目前GPU显卡可以达成每秒80祯的图像处理速度，5秒内可以完成400张图片的判定。而一般3C行业的产品较小，只需要10张以内的照片就可以完成产品的覆盖，比如大的机加工产品，也只需不到100张图片进行产品表面的全覆盖。图像处理的速度完成可以满足节拍的要求。

所以总体来看，我们认为深度学习技术已经成熟到可以完成复杂工业视觉任务。