OCR文字识别技术

OCR全称是optical character recognition，中文光学字符识别。

主要技术是：把图像形状转变为文本字符。

简单来说，OCR技术就是通过图像处理和模式识别技术对光学的字符进行识别，即，对文本资料进行扫描，然后对图像文件进行分析处理，获取文字及版面信息的过程。

OCR 支持各类纸质文件、证件识别、名片识别、车牌识别、票据类等印刷体识别，可以有效解决人工手动录入信息。

文档文字识别：可以将图书馆、报社、博物馆、档案馆等的纸质版图书、报纸、杂志、历史文献档案资料等进行电子化管理，实现精准地保存文献资料。

自然场景文字识别：识别自然场景图像中的文字信息如车牌、广告干词、路牌等信息。对车辆进行识别可以实现停车场收费管理、交通流量控制指标测量、车辆定位、防盗、高速公路超速自动化监管等功能。

票据文字识别：可以对增值税发票、报销单、车票等不同格式的票据进行文字识别，可以避免财务人员手动输入大量票据信息，如今已广泛应用于财务管理、银行、金融等众多领域。

证件识别：可以快速识别身份证、银行卡、驾驶证、名片等卡证类信息，将证件文字信息直接转换为可编辑文本，可以大大提高工作效率、减少人工成本、还可以实时进行相关人员的身份核验，以便安全管理。

OCR技术路线图总体上可分为五步：

图像预处理、切割字符、识别字符、恢复版面、后处理文字。

OCR技术需要识别成结构化（图片、文字、公式、表格并形成可独立提取出来的数据），识别结果需要形成Word或Excel文件。

在进行OCR之前，是需要对图像进行预处理（进行彩色图像灰度化、二值化处理、图像变化角度检测、矫正处理等），因为，待识别的图像千奇百怪，来源复杂，各式各样，有拍照、有扫描、有截图。

图像预处理：对包含文字的图像进行处理以便后续进行特征提取、学习。单拿扫描文件来说，扫描文件有的歪的、出现光影、或者皱巴巴等，如果不进行预处理，OCR也会感到很为难，所以需要前期进行预处理。

切割字符：字符切割则是将图像中的文字分割成单个文字——识别的时候是一个字一个字识别的。为什么要把每个字符都切割出来呢？因为OCR最终是对单个字符进行识别的，并且还需要对每个字符做好标记，因为识别完了，还得还原回去。

识别字符：OCR通过学习一些样本之后，对字符进行正确的识别。

恢复版面：OCR识别出了字符后，在进行有效地连接起来。

后处理文字：OCR识别的最终目的，是要获得一份准确的、结构化的文本内容。比如对汉字的识别，由于汉字中形近字的存在，很容易将一个字识别成其形近字。后处理中可以去解决这个问题，比如通过语言模型来进行校正。或识别完后出现个别文字不正确，到这一步OCR进行智能校正，根据结合语境来帮你纠正。

文章出处登录后可见！

已经登录？立即刷新