1 文档图像智能分析技术

文档图像智能分析是指使用计算机视觉和机器学习技术对文档图像进行自动化处理和分析的过程。这项技术能够将纸质文档、电子文档和图像转换成可编辑、可搜索、可索引的数字化文档，并能够自动识别文档中的各种元素，例如文字、图片、表格、图形等。

文档图像在日常生活中非常常见，例如金融票据、商业规划、技术规范、财务报表、会议记录、法律协议、合同、简历、采购订单、发票等等。因此文档图像智能处理的前景非常广阔，应用场景也会不断拓展。举例来说

电子博物馆：将大量历史文献、照片等材料进行数字化处理，并进行元数据标注和索引，从而创建电子博物馆，方便文化遗产的保护和传承。合合信息在这方面已有应用：焕新古文化传承之路，AI为古彝文识别赋能
法律文书处理：通过自动识别和提取法律文书中的各种信息，例如案号、法院名称、当事人姓名、判决结果等，从而方便进行法律文书的管理和查询；
财务报表处理：通过自动识别和提取财务报表中的各种信息，例如收入、支出、资产、负债等，从而方便进行财务报表的分析和管理
…

总之，随着人工智能技术的飞速发展，文档图像智能处理将应用到医疗、教育、金融等诸多领域，为各行各业提供更加高效、智能的文档管理和数据分析解决方案。

2 大咖齐聚CCIG@2023

文档图像智能分析与处理是一个重要且极具挑战性的研究问题。其中的难点在于文档的多样性和复杂性：文档类型和格式繁多，包括报告、合同、发票、证明、证件等等。不同类型的文档有不同的格式和布局，例如文档中常常包含图片、表格、图形等各种图像，难以用统一的方法处理。而且智能文档处理受到图像质量、文字字体、文字大小、文字颜色等噪声因素的影响，容易出现误识别。此外，还有图像质量不一、文档获取繁琐等诸多问题

为了促进文档图像分析与处理领域的技术交流及发展，探讨文档图像处理及光学文字识别（OCR）相关前沿技术进展和产业应用，2023年5月13日，中国图象图形学学会文档图像分析与识别专业委员会与上海合合信息科技有限公司联合打造《文档图像智能分析与处理》高峰论坛。论坛特别邀请了来自中科院自动化研究所、北京大学、中科大的学术专家与华为等知名企业的研究者们，围绕文档图像处理及OCR领域的前沿技术展开“头脑风暴”，共同交流文档图像分析与处理的前沿学术进展、在典型行业的规模化应用情况，并探讨未来技术及产业发展趋势。

3 议题介绍

3.1 从模式识别到类脑研究

我们知道，在模式识别和人工智能领域，监督学习、半监督学习和无监督学习是三种不同的学习方式，它们在数据集标签的不同情况下对数据进行学习。目前不管是神经结构模拟还是学习行为模拟都是比较粗浅的，主要还是基于监督学习完成各种任务，也就是在训练数据集中已经标记好了正确答案或目标输出值。训练阶段，算法根据输入的特征和相应的目标值之间的关系进行学习，以便在未来对新数据进行准确预测。监督学习的例子包括分类和回归问题，例如图像分类、情感分析和价格预测等。

生成式模型就是人工智能的未来发展趋势之一，相比判别式模型的独特优势，使之可以应对更多的任务，例如推动内容开发、视觉艺术创作、数字孪生、自动编程，甚至为科学研究提供AI视角、Al直觉…

项目	判别式模型	生成式模型
特点	寻找最优决策边界，反映不同模式数据间的差异性	寻找各模式边界，反映数据全体的统计全貌及不同模式间的相似度
联系	由生成式模型可推导判别式模型，反之不成立
本质	对后验概率建模	对联合概率建模
实例	线性回归、Logistic回归、支持向量机、决策树、神经网络等	贝叶斯网络、贝叶斯分类器、隐马尔科夫模型等
性能	学习过程更简单，但不能反映数据本身特性	模型信息量更丰富、灵活，但学习过程较复杂
应用	图像文本分类、时间序列预测等	自然语言处理等

随着未来类脑智能研究在结构类脑和行为类人方面的深入，人工智能应用将不再局限于这类判别式模型。动物和人类表现出的学习能力和对世界的理解，远远超出了 AI 和机器学习系统。一个青少年可以在大约 20 小时的练习中学会开车，小朋友可以在只需要很少的交流后就学会语言沟通，人类可以在他们从未遇到过的情况下采取行动。

相比之下，传统的判别式模型需要花费比人类大几个量级的试验进行训练，以便在训练期间可以覆盖最意外的情况。这表明人脑的学习具有很强的灵活性，从小样本开始，不断地随环境自适应。这种学习灵活性应该是未来机器学习的一个主要研究目标。比如近期图灵奖得住LeCun提出的全新自主智能架构，最关键的一点是让机器了解世界是如何运转的，掌握广泛的现实知识，并依据此进行推理。

图源网络，侵删

3.2 视觉-语言预训练模型演进及应用

2022年12 月 1 日，OpenAI的联合创始人山姆·奥特曼在推特上公布ChatGPT并邀请人们免费试用

图源网络，侵删

ChatGPT可以与人类进行谈话般的交互，可以回答追问，连续性的问题，承认其回答中的错误，指出人类提问时的不正确前提，拒绝回答不适当的问题，其性能大大超乎人们对弱人工智能的想象。目前其影响已经席卷各行各业。ChatGPT是基于GPT-3开发的，具有强大的对话能力，能够理解语言上下文，并能够生成富有表现力和连贯的响应。所谓GPT，全称是Generative Pre-trained Transformer，本质上这是一种基于Transformer的语言模型。

语言是一个显式存在的东西，但大脑是如何将语言进行理解、转化、存储的，则是一个目前仍未探明的东西。因此，大脑理解语言这个过程，就是大脑将语言编码成一种可理解、可存储形式的过程，这个过程就叫做语言的编码。相应的，把大脑中想要表达的内容，使用语言表达出来，就叫做语言的解码。在语言模型中，编码器和解码器都是由一个个的Transformer组件拼接在一起形成的

Transformer又是什么呢？它是一种用于自然语言处理和其他序列到序列（sequence-to-sequence）任务的神经网络架构。它于2017年由谷歌的研究人员提出，被认为是自然语言处理领域的一项重大突破。

Transformer基于注意力机制（Attention Mechanism）构建，其核心思想是在序列中进行全局信息的交互和捕捉，而不是像以往的循环神经网络（RNN）一样在序列中逐个位置处理信息。Transformer通过多个自注意力层（Self-Attention Layer）进行信息的交互和表示，而每个自注意力层包含了注意力机制的三个部分：查询（query）、键（key）和值（value）。

图源网络，侵删

具体来说，对于一个输入序列，Transformer将其转换为多个词向量（word embeddings），然后通过自注意力层进行特征提取。在自注意力层中，查询向量通过与所有键向量的相似度计算来计算注意力分数，这些分数用于加权求和值向量，最终得到每个位置的输出向量。然后，这些输出向量被馈送到下一个自注意力层或全连接层进行后续处理。

相比于传统的序列模型，Transformer的优点在于可以并行处理输入序列，从而加速模型的训练和推断。此外，Transformer还能够有效地处理长序列，因为它可以在不受时间限制的情况下一次性处理整个序列，而不需要像RNN那样进行逐个位置的处理。

但是，目前关于ChatGPT这类大规模预训练模型还有一些争议，主要的争论点在于：

超大模型学到了什么？如何验证？
如何从超大模型迁移“知识”，提升下游任务的性能？
更好的预训练任务设计、模型架构设计和训练方法？
选择单模态预训练模型还是多模态训练模型？

预训练模型、跨模态预训练模型方面的研究是非常值得探索的，无论是模型结构、训练策略还是预训练任务的设计都尚有非常大的潜力。例如2021年10月份Facebook发布的Video CLIP相关工作，从这个模型可以看出，Video CLIP颇具野心，期待对于下游任务不需要任务相关训练数据集，不需要进行微调，直接基于Video CLIP进行零样本迁移。这对于提升大模型的训练效率和训练效果具有非常重大的意义。

3.3 篡改文本图像的生成和检测

篡改文本检测(TTD，tampered text detection)作为多媒体信息安全领域的一个新兴研究方向，是指通过对文本图像中纹理特征的分析，捕捉真实文本和篡改文本之间的纹理差异性，以确定文本图像中文字区域的真伪性。

[1]王裕鑫,张博强,谢洪涛等.基于空域与频域关系建模的篡改文本图像检测[J].网络与信息安全学报,2022,8(03):29-40.

篡改文本检测任务有两个主要挑战。

局部纹理差异性捕捉困难。篡改文本与真实文本仅存在局部纹理差异；
真实和篡改文本检测精度平衡困难。

相较传统的文本检测任务，篡改文本检测任务需要进一步区分篡改和真实文本。由于真实和篡改文本分类难度不一致，训练过程中网络无法平衡两类的学习过程，导致在测试过程中两类检测精度差异较大。上述挑战极大地限制了篡改文本检测方法的性能。因此，如何准确地捕捉局部纹理差异性，同时平衡篡改和真实类别学习难度，是目前篡改文本检测研究的重要方向。

这次CCIG高峰论坛谢洪涛教授将介绍一种可以在真实场景文本图像上训练的文本生成算法和基于并行空域与频域特征感知的篡改文本检测算法，这种算法创新性地在篡改文本检测任务中引入频域信息增强篡改纹理特征，通过同时捕捉空域和频域的信息提升网络对局部纹理差异性的鉴别能力。算法设计的全局空频域关系模块提供了一种简洁、有效的平衡篡改和真实类别学习难度的方法，通过建模全局文本实例之间的空频域特征关系，借助其他文本实例空频域信息来辅助鉴别当前文本实例的真伪性，帮助网络更好地平衡真实和篡改文本的学习难度，提升检测精度。

这里重点介绍一下很新颖的全局空频域关系模块。设想一下：若简单地根据当前文本候选框内的特征进行纹理真伪性鉴别，由于缺乏全局信息的感知能力，将导致网络无法平衡真实和篡改文本类别的学习难度，从而在测试过程中两类的检测精度差异较大，造成检测精度不平衡的问题。全局空频域关系模块正是为了捕获全局信息辅助当前文本候选框的真伪性鉴别，通过感知当前文本候选框与其他文本候选框的空频域特征相似性，平衡真实和篡改类别的学习难度。

该算法分别选取了最具代表性的方法EAST和ATRR进行性能对比。实验结果表示，该算法在真实文本和篡改文本上都展现了领先的检测水平。相较同为两阶段的检测算法，基于空频域关系建模的篡改文本检测方法在真实文本和篡改文本检测精度上都取得了更好的效果，同时可以有效解决检测精度不平衡问题，防止篡改检测网络实现对单一类文本的准确检测。

总之，这次报告介绍的基于空频域关系建模的篡改文本检测方法可以扩展到其他篡改文本检测算法中，通过直接使用或者简单修改文中的模块，可以实现篡改文本检测精度的显著提升，这为篡改文本检测技术的相关研究提供了新的方向和思路。从事相关方面研究的同学可以关注一下~

3.4 智能文档处理在工业界的应用与挑战

说到光学字符识别大家可能比较陌生，但或多或少都应该听说过OCR，通俗来讲，OCR技术采用电子设备（例如扫描仪或数码相机）检查纸上打印的字符，然后用字符识别方法将形状翻译成计算机文字。随着技术的不断发展，OCR技术在工业界中的应用也从最开始的简单的光学字符识别拓展到涵盖图像预处理、文字识别、版面分析、文档理解等多项技术的智能文档处理领域。

然而，在实际的工业界场景中仍然面临着大量的问题和挑战。举例来说，文档图像中可能存在形变和弯曲现象，这是因为相机硬件不符合理论上透视相机模型针孔无限小的假设，所以真实图像会产生明显的径向失真——场景中的线条在图像中显示为曲线。径向畸变(Radial Distortion)有两种类型：筒体畸变(Barrel Distortion)与枕形失真(Pincushion Distortion)。此外由于相机组装过程中，透镜不能和成像面严格平行，会引入切向畸变(Tangential Distortion)，再加上视觉文档图像的拍摄视角一般不垂直于文档平面，产生文档图像的变形和扭曲。

再比如非常常见的图像摩尔纹现象，因为相机拍摄电子屏幕时，显示设备的发光点阵与相机传感器阵列发生混叠，产生了摩尔纹现象。屏幕图像摩尔纹表现为叠加在图像上的条纹，颜色和形态多变。图像中的摩尔纹在大范围的空域和频域内与原始图像信号混合，通常覆盖整张图像。摩尔纹图案不仅随着图像的不同而变化，而且在同一图像中随着空间位置的变化而呈现不同的色彩和形态。如果拍摄距离或拍摄角度略有变化，摩尔纹图案可能会有很大差异。

除此之外，光照影响、文档篡改检测、复杂文档图像的版式还原，以及各种复杂场景都造成文档识别与理解的困难。本报告主要介绍了合合信息依托自研的TextIn智能文字识别服务平台，在解决工业界中面临的各类问题中所做一些相关工作进展和研究成果，并探讨当前工业界中面临的一些关键技术难题和挑战。

对上述议题感兴趣的欢迎参加本次CCIG高峰论坛，观看入口如下

4 观看入口&议程

合合信息视频号13号下午13：30直播，欢迎感兴趣的同学来交流

议程

时间	议题	发言人
13:30-14:10	《人工智能大模型时代的文档识别与理解》	中科院自动化研究所副所长刘成林
14:10-14:45	《视觉-语言预训练模型及迁移学习方法》	北京大学邹月娴教授
14:45-15:20	《篡改文本图像的生成与检测》	中国科学大学谢洪涛教授
15:20-15:30	茶歇
15:35-16:00	《华为云OCR技术进展与行业实践》	华为云AI算法研究元廖明辉
16:00-16:25	《智能文档处理技术在工业界的应用与挑战》	合合信息高级工程师丁凯
16:30-17:30	圆桌讨论	金连文、刘成林、邹月谢、谢洪涛、廖明辉、丁凯

文章出处登录后可见！

已经登录？立即刷新

原力计划

目录

1 文档图像智能分析技术

2 大咖齐聚CCIG@2023

3 议题介绍

3.1 从模式识别到类脑研究

3.2 视觉-语言预训练模型演进及应用

3.3 篡改文本图像的生成和检测

3.4 智能文档处理在工业界的应用与挑战

4 观看入口&议程

原力计划

目录

1 文档图像智能分析技术

2 大咖齐聚CCIG@2023

3 议题介绍

3.1 从模式识别到类脑研究

3.2 视觉-语言预训练模型演进及应用

3.3 篡改文本图像的生成和检测

3.4 智能文档处理在工业界的应用与挑战

4 观看入口&议程

相关推荐