光学字符检测与识别技术（1）

发表于 2019-09-06 更新于 2024-04-05

OCR（Optical Character Recognition，光学字符识别）是计算机视觉研究领域的分支，在人们的日常生活中有着广泛的应用。

一、OCR的概念和发展

OCR是一种能够把图像中的形状、符号翻译成数字文本的技术，早在20世纪20年代就被人提出，但是直到21世纪初才逐渐成熟。

根据OCR的应用场景而言，我们可以大致分成识别特定场景的专用OCR以及识别多种场景下的通用OCR。

书刊文字识别：可以对图书馆、报社、博物馆、档案馆等的纸质版图书、报纸、杂志、历史文献档案资料等进行电子化管理，方便查询和归档。

票据文字识别：可以对增值税发票、报销单、车票等不同格式的票据进行文字识别，避免手动输入大量票据信息，如今已广泛应用于财务管理、银行、金融等众多领域。。

证件识别：可以对身份证、银行卡、驾驶证等卡证类进行文字识别，高效完成对相关人员的身份核验，大大提高工作效率。

车牌识别：可以对车牌进行文字识别实现停车场收费管理、车辆定位、高速公路超速自动化监管等功能。

通用OCR是指在大部分场景下表现都较好的OCR，其实现难度远大于专用OCR。

典型的OCR技术路线如下图所示：

其中识别的关键便在于文字检测和文本识别部分，这也是深度学习技术可以充分发挥功效的地方。

常用的文字检测框架：DBNet、CTPN、EAST
常用的文本识别框架：CRNN+CTC、CRNN+Attention