什么是 Deep OCR--机器视觉网

在工业生产和物流过程中，OCR在物品识别方面起着重要作用。MVTec 现今提供一种全新的机器视觉功能，借助深度学习算法改善字符识别效果。用户由此可通过改善的可用性和更加稳定的识别率获益。

光学字符识别 (Optical Character Recognition / OCR) 不仅用于办公室通信，例如识别扫描文件中的文本，该技术在工业领域同样也发挥着重要作用。例如可以检测和自动读取盖印的序列号，从而在物流过程中可靠识别和跟踪产品。

OCR 软件必须能够在恶劣的工业条件下精确读取数字或字母代码，以便可以明确分配物品。例如，必须能够可靠识别难以辨认、走样、模糊、不清晰或歪斜的字符，即便是在强烈反光的背景下，也不能出错。

借助先进的机器视觉技术，这些严苛要求均不在话下。集成有基于人工智能的各项功能，可轻松达到符合要求的识别率。在此过程中，深度学习尤其有助于完成要求严苛的 OCR 任务。

通过借助于大量图像数据的综合训练，软件算法可以独立学习在不同的条件下可靠识别各种各样的字符。OCR 分类器用于确保精确读取大量预训练的字体，如点阵字体、SEMI 字体、工业字体和基于文档的字体。

微信图片_20210716091658.png

图 1：借助 OCR 可以读取工业应用中的各种不同字型

传统方法中各种不同的参数需要进行繁琐的调整

传统的基于规则的光学字符识别技术存在一些缺陷。例如需要大量的参数，主要用于根据实际应用调整各个字母的切分。

在后续过程中，必须将已找出的逐个读取的字母拼凑成特定的单词–当待读取文本没有上下文参考时，这并不是一件轻而易举的事情。因此，传统解决方案无法提供令人满意的识别效果，但人工智能可以做到这一点。

MVTec 就此探索出一种全新的途径：通过集成在最新的 20.11 版 MVTec HALCON 机器视觉标准软件中的“Deep OCR”功能，现在无需切分各个字符。该项技术利用两个经过专门预训练的深度学习网络：一个深度学习网络用于在图像中找出完整的单词，而非单个字母。

最后用一个矩形框（限位框）标识单词的准确位置。而第二个深度学习网络专门就读取单词接受过训练。与传统方法的本质性差异在于，字符识别的两个步骤（即找出以及读取单词）基于深度学习算法，并且是读取整个单词，而非单个字母。

与字型和旋转无关的字符识别图片

这种对偶法的主要优势在于：只需根据实际应用调整少量参数。例如该项技术的工作原理与字型完全无关，不论是点阵字体、斜体，还是标题数字。

图像中文本的旋转和对齐以及对立性（是白底黑字还是黑底白字）也同样与该项技术的工作原理无关。由于深度学习网络已针对这些参数接受过训练，因此无需再手动执行相应的设置。

微信图片_20210716091808.png

图 2：Deep OCR 自动读取点阵字体，并自动对相关联的字符进行分组

两个深度学习网络也可以彼此独立使用。例如当已知单词在图像中的准确位置时，这一点尤其具有现实意义。在这种情况下，深度学习只能用于读取文本。人工智能技术性能极高，因而可以大幅精简计算机容量。

在低性能的硬件上运行 Deep OCR 时，这一优势尤为突出。如果可以凭借先验信息而无需找出文本，则可以在标准 CPU 上实现约十毫秒的运行时间。在中端 GPU 上，运行时间甚至只有五毫秒，这对于深度学习应用而言非常快速。

总结

借助 Deep OCR，MVTec HALCON 首次提供了一种完全基于深度学习的 OCR 方法，从而将字符识别提升到一个全新的水平。OCR 应用也因此变得更加简单、易用、稳定。此外，还可通过字符的自动分组识别整个单词，从而从根本上提高字符识别效率，同时避免错误解读相似字符。