万千字符 1个对策——深度学习OCR--机器视觉网

OCR知多少

OCR（Optical Character Recognition）是指光学字符识别，通过光学技术和计算机技术将印在物体表面的字符转换成计算机可以识别的信息。

在工业领域，OCR技术被普遍应用在食药品包装、3C电子、汽车零配件生产、烟草等行业，实现生产日期、批号、产品编号等信息的自动识别。

OCR的应用行业

微信图片_20191104165847.jpg

在工业生产中，对OCR的识别率要求较高，一般识别率需大于99.9%。大部分工业应用场景环境固定，产品一致性较好，字体规范，识别率较高。但是，面对并不理想环境或复杂字符，业内的综合识别率只有90%甚至更低。这样的识别率远远达不到实际应用的需求。

在以上场景中，深度学习OCR以其泛化能力强，在复杂场景下表现更好的特点，从机器视觉众多方案中脱颖而出，开始应用于各种行业中。

产品与方案

海康威视深度学习OCR技术在2017年3月刷新了ICDARRobustReading竞赛数据集的全球最好成绩。

其基本的技术原理为：通过设计一个数十层的卷积神经网络来完成待识别字符图像的信息编码，然后使用启发式的注意力模型，实现从特征到字符的解码。其中，专为字符识别设计的启发式机制，模拟人脑的思维模式对注意力模型提取的特征进行合理性评估，使注意力模型在复杂场景中具有的强大适应性，可实现大于99.9%的极高字符识别率。

微信图片_20191104174749.png

原理架构图

在产品方案中，我们通常使用PC-Base+VM算法平台的方式搭建视觉检测系统，主要有以下几个部分组成：

微信图片_20191104174759.png