光学字符检测与识别技术(1)

一、OCR的概念和发展

OCR是一种能够把图像中的形状、符号翻译成数字文本的技术,早在20世纪20年代就被人提出,但是直到21世纪初才逐渐成熟。

二、OCR的应用场景

根据OCR的应用场景而言,我们可以大致分成识别特定场景的专用OCR以及识别多种场景下的通用OCR。

1、专用OCR

书刊文字识别:可以对图书馆、报社、博物馆、档案馆等的纸质版图书、报纸、杂志、历史文献档案资料等进行电子化管理,方便查询和归档。

票据文字识别:可以对增值税发票、报销单、车票等不同格式的票据进行文字识别,避免手动输入大量票据信息,如今已广泛应用于财务管理、银行、金融等众多领域。。

证件识别:可以对身份证、银行卡、驾驶证等卡证类进行文字识别,高效完成对相关人员的身份核验,大大提高工作效率。

车牌识别:可以对车牌进行文字识别实现停车场收费管理、车辆定位、高速公路超速自动化监管等功能。

2、通用OCR

通用OCR是指在大部分场景下表现都较好的OCR,其实现难度远大于专用OCR。

三、OCR的技术路线

典型的OCR技术路线如下图所示:

其中识别的关键便在于文字检测和文本识别部分,这也是深度学习技术可以充分发挥功效的地方。

常用的文字检测框架:DBNet、CTPN、EAST
常用的文本识别框架:CRNN+CTC、CRNN+Attention