探索AI图像安全，助力可信AI发展

Table of Contents

探索AI图像安全，助力可信AI发展

0. 前言

随着人工智能( Artificial Intelligence, AI )技术的发展，已经逐渐成为生活中不可或缺的一部分，为我们的生活带来了诸多便利和创新，但与此同时也带来了一系列的安全挑战，例如恶意篡改、图像造假等。在追求技术进步和拓展人工智能应用边界的同时，我们必须高度关注人工智能的安全性，解决人工智能发展过程中的各种安全挑战，以实现人工智能的持续健康发展。
图像作为信息传递的主要媒介之一，需要重点解决在人工智能的发展过程中利用 AI 进行图像造假的问题。针对这一问题，中国信息通信研究院(中国信通院) 2023 世界人工智能大会( WAIC 2023 )上举办了专门论坛，围绕着“多模态基础大模型的可信AI”主题进行讨论。在该论坛上，合合信息关于 AI 图像内容安全的技术方案引起了广泛的关注。本文将对人工智能发展及其面对的安全挑战进行简要介绍，并回顾在 WAIC 2023 合合信息关于 AI 图像安全的相关分享。

1. 人工智能发展与安全挑战

1.1 人工智能及其发展

人工智能( Artificial Intelligence, AI )是一门研究如何使计算机能够模拟和执行人类智能活动的学科，其目标是使计算机能够像人类一样执行认知任务。通过模拟人类的思维过程和行为模式，人工智能可以进行复杂的问题求解和智能决策。它涵盖了多个领域，包括机器学习、计算机视觉、自然语言处理和专家系统等。
人工智能的发展可以追溯到 20 世纪 50 年代，当时的研究人员开始思考如何让计算机具备智能。随着计算机技术和算法的不断改进，人工智能在 20 世纪 70 年代和 80 年代经历了爆发性的发展。专家系统成为当时的主要研究方向，通过将专家的知识编码为规则和推理机制，使计算机能够模拟专家在特定领域的决策和问题解决能力。
然而，在 20 世纪 80 年代末到 90 年代初，人工智能陷入了低谷，被称为“AI寒冬”。这是由于计算能力的限制、算法的不成熟以及投资的不足等因素造成的。
随着互联网的兴起和计算能力的快速提升，人工智能在 21 世纪得以再度崛起。大数据的出现为机器学习提供了更多的训练数据，图形处理单元( Graphics Processing Unit, GPU )的使用和并行计算的发展，深度学习模型的提出和优化使得计算机可以更好地处理图像、语音和自然语言等非结构化数据也推动了人工智能的发展，深度学习的兴起引领了一系列重大突破，例如图像识别、语音识别和自然语言处理等。
目前，人工智能正持续快速发展中，涌现出各种新技术和应用。例如，特别是随着 GPT3.5、GPT4 等大模型和 ChatGPT 等大模型产品，自动驾驶技术正在实现智能化的交通系统，物联网和智能家居正在改变我们的生活方式，机器人技术正在扩大应用范围，人工智能助手如语音助手和聊天机器人逐渐融入我们的日常生活。

ChatGPT

1.2 人工智能安全挑战

虽然人工智能算法在许多应用领域已经取得了巨大进步，但在为人们带来巨大便利的同时,也暴露出许多安全问题。一般说来,对人工智能模型的攻击方式包括破坏模型的机密性 (Confidentiality) 、完整性 (Integrity) 和可用性 (Availability)。通常可以将常见的针对人工智能模型的攻击分为三类：隐私攻击、针对训练数据的攻击以及针对算法模型的攻击：

隐私攻击：在大数据时代，人们的每个行为都是一种新型数据，对这些行为数据进行训练，人工智能算法就可以推断出人们的下一步动作，这引发了人们对于人工智能算法的安全性担忧，这种安全性问题即针对隐私数据的攻击。攻击者利用人工智能模型预测某些敏感信息,或者通过已有的部分数据来恢复数据集中的敏感数据。
针对训练数据的攻击：训练数据集的质量和信息量对于人工智能算法算法至关重要，它们决定了神经网络在训练过程中各层参数的变化方式。正因为如此，许多攻击是针对训练数据的。攻击者可以通过修改现有数据或注入特制的恶意数据来破坏系统的完整性，这种攻击被称为投毒攻击。许多系统需要不断迭代更新模型以适应环境变化，就可能遭到投毒攻击。例如，在面部识别系统的模型迭代更新期间进行投毒攻击，攻击者通过注入恶意数据来使模型中的识别特征中心值发生偏移，从而使攻击者提供的图像可以通过系统验证。
针对算法模型的攻击：尽管投毒攻击可以使模型出错，但攻击者必须找到如何注入恶意数据的方式。实际应用中，通过在机器学习模型推理阶段对输入数据进行细微修改，就可以在短时间内导致模型产生错误的结果，这些经过细微修改的数据称为对抗样本 (Adversarial Examples)，具体而言，通过故意在数据集中添加微小的扰动形成的输入样本会对模型造成干扰，从而迫使模型以高置信度输出错误的结果。例如在图像分类中，攻击者通过添加微小扰动(即时这些扰动对于人眼而言并不可见)就可以增加模型的预测误差，使本来被正确分类的样本被错误分类到另一种类别中。

对抗攻击

2. WAIC 2023 多模态基础大模型的可信 AI

为了应对人工智能的安全性问题，在 WAIC 2023 上中国信息通信研究院围绕“多模态基础大模型的可信AI”主题举办了专项论坛。在论坛上，合合信息分享了 AI 图像安全技术方案，为 AI 可信化发展提供有力支持。

2.1 WAIC 2023 专题论坛

随着人工智能生成内容 (Artificial Intelligence Generated Content, AIGC)爆火出圈，人们对技术革新带来的美好生活倍感期待的同时，也增加了对于人工智能安全问题的担忧，例如，有诈骗分子通过生成伪造内容欺骗受害者，如何有效破解信息安全难题、构筑可信AI生态体系成为当前的重要议题，素有“科技风向标、产业加速器”之称的 WAIC 敏锐的把握到构建可信AI的重要性，在大会期间，中国信息通信研究院主办了“聚焦大模型时代AIGC新浪潮”论坛，围绕“多模态基础大模型的可信AI”这一热门议题开设专场分享。
多模态基础大模型是指能够处理多种输入模态(如图像、文本、语音等)的强大 AI 模型。这种模型通过融合不同模态的信息，可以实现更全面和准确的理解和推理能力。

多模态大模型
可信 AI 是指具备高度可信性和可靠性的人工智能系统。对于多模态基础大模型而言，其可信性体现在以下几个方面：

训练数据：模型的训练数据应当充分、多样且具有代表性，以避免偏见和不公平性的问题；同时，应当严格遵守法律法规并避免包含不当或敏感内容
模型鲁棒性：模型应当经过充分的测试和验证，能够在各种场景下保持稳定性和准确性；尤其对于多模态输入，模型应当能够处理各种不同类型的数据，并对异常情况具有较好的容错性
透明性和可解释性：可信的模型需要提供对其决策和推理过程的解释能力，以便用户和开发者能够理解其工作原理和判断依据
安全和隐私保护：模型应当具备一定的安全性，能够防御针对模型的攻击和欺骗；同时，对于用户的输入数据和个人隐私应当严格保护

多模态基础大模型的可信 AI 需要综合考虑训练数据的质量、模型的鲁棒性、透明度和解释性，以及安全与隐私保护等方面的要求，这样的可信 AI 才能够为用户提供可靠的多模态智能服务。

2.2 走进合合信息

合合信息是行业领先的人工智能及大数据科技企业，深耕智能文字识别、图像处理、自然语言处理和大数据挖掘等领域，其提供高精准度的智能文字识别引擎及场景化产品，支持多种部署方式，提升文档处理流程的效率，例如光学字符识别 (Optical Character Recognition, OCR)、图像切边增强、PS 篡改检测以及图像矫正等，相关黑科技的体验可以登录合合信息官网。

为了推动 AI 图像安全，合合信息积极参与中国信通院的测评，在中国信通院 OCR 智能化服务评测中，合合信息智能文字识别产品顺利通过全部 7 项基础类功能指标测试以及 9 项增强类功能指标测试，获得“增强级”最高评级，其智能文字识别产品展现出良好的性能和服务成熟度。

OCR智能化服务评测
在智能文档处理系统评测中，评估结果显示，合合信息智能文档处理产品在通用能力及 AI 核心能力方面均表现优异，获得“5级”最高评级，在信息抽取、表格文字识别、版面分析等方面均获得 5 分评分。

智能文档处理系统评测

3. AI 图像安全

在 WAIC 2023 上，合合信息主要分享了 AI 图像安全技术方案的三项重点技术，包括 AI 图像篡改检测、AIGC 判别和 OCR 对抗攻击技术，以应对日益频发的恶意 P 图、生成式造假和个人信息非法提取等现象。

3.1 图像篡改检测

图像篡改检测是指，给定一张图片，输入到篡改检测模型中，能够判别这张图像是否被篡改，并且定位出篡改图像的篡改区域。
在 2022 年的人工智能大会上，合合信息展示了其在文档图像篡改检测方面的研究进展，融合 SRM、BayarConv、ELA 等方法提升 CNN Tamper Detector 性能，检测 RGB 域和噪声域存在痕迹的篡改，能够在像素级识别证件、票据等各类重要的商业材料中的 PS 痕迹，网络架构如下所示：

篡改检测模型今年在 PS 检测“黑科技”的基础上，合合信息进一步优化了 AI 图像篡改检测，拓展了截图篡改检测可检测包括转账记录、交易记录、聊天记录等多种截图。截图篡改主要分为四种类型：

复制移动：图像中的某个区域从一个地方复制到另一个地方
拼接：两张毫不相干的图像拼接成为一张新图像
擦除：擦除文档图像中的某些关键信息
重打印：在擦除的基础上编辑上新的文本内容

与证照篡改检测相比，截图的背景没有纹路和底色，整个截图没有光照差异，难以通过拍照时产生的成像差异进行篡改痕迹判断，现有的视觉模型通常难以充分发掘原始图像和篡改图像的细粒度差异特征。尽管视觉模型在处理普通图像上表现出色，但当面临具有细粒度差异的原始图像和篡改图像时，它们往往难以有效地进行区分。这是因为篡改操作可能只会对截图进行轻微的修改，这些细节变化对于传统的视觉模型而言很难捕捉到。
针对这一问题，合合信息在传统卷积神经网络后引入两种不同解码器，包括基于降维的解码器 LightHam 和基于注意力的解码器 EANet，不同形式的解码器的引入令模型可以较好的解决各种场景下的篡改形式，从而捕捉到细粒度的视觉差异，增强模型泛化能力。
应用合合信息的图像篡改检测系统，不仅能够保障信息的真实性，截图篡改检测可防止信息被篡改或伪造，确保信息的真实性和完整性；同时也可以防止欺诈行为，截图篡改可以防止诈骗行为的发生，保障用户的合法权益。

3.2 生成式图像鉴别

随着 AIGC 技术的发展，大模型所生成的内容已经越来越智能化、人性化，其所引发的可信度问题成为广泛讨论的话题。不法分子通过 AIGC 伪造图像用以规避版权、身份验证，非法获取利益，引发了诸多社会问题。如何检测此类伪造内容已成为研究热点，并提出了许多伪造检测方法。大多数模型将伪造内容检测建模为一个普通的二元分类问题，即首先使用主干网络提取全局特征，然后将其输入到二元分类器(真/假)中。但由于此任务中真假图像之间的差异通常是细微的和局部的，这种普通的解决方案并不能很好的应用于实际生产环境中。
针对这些问题，合合信息研发了关于 AI 生成图片鉴别技术，用于鉴别图像是否为AI生成的。以 AI 生成人脸为例，合合信息研发的人脸伪造鉴别模型能够很好的鉴别人脸相关的短视频和图像是否是由 AIGC 生成的。
为了解决AI生成图像场景繁多(无法通过细分训练解决)和生成图片和真实图片的相似度较高(真伪判定较难)的问题，合合信息将图像伪造检测表述为细粒度分类问题，基于空域与频域关系建模，并提出了一种新的多注意图片伪造检测网络，利用多维度特征来分辨真实图片和生成式图片的细微差异，其主要包含三个关键组件：

多个空间注意力头，使网络关注不同的局部部分
纹理特征增强模块放大浅层特征中的细微伪影
聚合由注意力图提取的低级纹理特征和高级语义特征

生成式图像鉴别模型由于视频生成具有连续性的特征，因此会在人脸周围生成细微的伪影，所以在特征提取器的浅层引入了纹理增强模块，令模型能够更好的关注这些伪影，由于不同的 AIGC 模型会在模型的不同层次留下不同的特征行为，通过引入空间注意力机制令模型可以较好的关注神经网络不同层级的特征，从而增强不同 AIGC 模型生成的人脸相关的图像的辨别和感知能力。
合合信息的 AIGC 人脸伪造检测系统可以在多个领域得到广泛应用：

身份验证和访问控制：能够防止攻击者使用 AIGC 伪造人脸进行身份验证，阻止攻击者非法获得系统访问权限
金融反欺诈：在银行和金融行业中，可以用于身份验证和客户识别，防止信用卡诈骗、账户盗窃和身份冒用等欺诈行为
移动设备的安全检测：能够防止攻击者伪造人脸入侵用户手机等移动设备的人脸解锁功能
数字图像取证：能够鉴别图像和视频中是否存在 AIGC 伪造人脸
数字娱乐行业：在游戏、影视制作等领域，合合信息的 AIGC 人脸伪造检测系统可以确保内容的版权和真实性，防止盗版和恶意篡改
视频会议远程认证：能够确保参会人员使用真实人脸进行身份验证

3.3 OCR 对抗攻击技术

为满足人们在拍摄和发送相关证件、文件时对个人信息保密的需求，防止不法分子使用 OCR 技术对发送的图片中的个人信息进行识别和提取，防范个人隐私泄露和信息被滥用的风险。合合信息开展了创新技术研究，并研发了 OCR 对抗攻击技术，用于对文档图片进行”加密”，可以干扰和混淆 OCR 算法，使其无法有效地识别和提取图片中的敏感信息。这样一来，即使文档图片在传输过程中被窃取，也无法通过 OCR 算法获取到有用的个人信息。
OCR 对抗攻击是指给定一张测试的文本图片并指定目标文本，输入到系统中进行对抗攻击并输出结果图片，使得结果图片中先前指定的目标文本无法被 OCR 系统识别而不影响人眼对目标文本的识别。根据攻击者对 OCR 系统的了解程度，可以将 OCR 对抗攻击分为两类：

白盒攻击：已知 OCR 系统的全部结构和参数，通过计算输入图片关于 OCR 目标函数的梯度，逐步添加噪声降低目标文本在正确类别上的预测得分，从而使系统产生错误的预测结果
黑盒攻击：未知 OCR 系统的结构和参数，直接对其进行攻击，通过输入输出与模型进行交互，根据模型的输出反馈调整输入数据

合合信息所提出的 OCR 对抗攻击模型属于黑盒攻击，输入图片后，模型首先通过已知的默认 OCR 系统(也称替代模型)检测图片中的文本位置和内容位置，指定目标文本后系统在目标文本的周围区域迭代的添加特定的高斯噪声、亮度变换等攻击方式，通过默认 OCR 系统的识别结果作为反馈调整迭代次数，将对默认 OCR 系统攻击成功时的图片作为最终结果送入目标 OCR 系统中进行验证。

OCR 对抗攻击技术
该技术可在不影响人类阅读的基础上，对场景文本或者文档内文本进行扰动，避免第三方 OCR 工具提取其中重要的隐私信息，降低数据泄露的风险，以此达到保护信息的目的。
合合信息提出的 OCR 对抗攻击技术，能够有效的解决隐私保护和数据加密问题，在网络上传播包含个人信息的图片时，能够对其中的敏感信息进行 OCR 对抗攻击从而防止个人信息被网络中的第三方所截获，防止第三方 OCR 系统读取图片内文本内容，保护数据隐私，降低数据泄露风险。

4. 可信 AI 技术标准

随着 AI 技术的发展，AI 图像篡改已经引发了大量社会问题，AI 图像安全问题亟待解决，图像安全的重要性与日俱增，标准规范的出台迫在眉睫。合合信息结合自身业务特点，积极推进图像篡改检测、AIGC 判别和 OCR 对抗攻击的研究，助力行业发展，同时积极参加中国信通院牵头的《文档图像篡改检测标准》的制定。
《文档图像篡改检测标准》的制定意味着中国在机器视觉和图像处理领域的“可信AI”体系建设迈出了重要的一步，并为其提供了有力的支持。该标准将帮助确保文档图像的安全性和完整性，进而增强人们对 AI 系统、产品和服务的信任感。通过遵循这一标准，我们可以更好地评估和验证机器视觉和图像处理技术的可靠性和可信赖程度，推动该领域的发展和应用。
硬科技实力是合合信息等科技公司突破领域难题、培育创新技术的关键。 AI 图像安全新技术的实现，得益于合合信息在文档图像领域深耕十余年的雄厚科技实力，在文档图像领域取得了卓越的成果。展望未来，我们需要持续关注图像领域新需求、新动态，用“过硬”的AI为相关领域的发展注入安全感。

小结

AI 图像安全是保障可信 AI 发展的重要环节之一。首先，需要深入研究对抗性攻击方法，了解模型在处理图像时的脆弱性，以及如何生成对抗样本来评估模型的鲁棒性。其次，建立健全的数据集审查机制，避免训练数据中包含不当或有潜在危害的内容，对公开数据集进行净化，确保用户隐私得到妥善保护。最后，隐私保护和数据安全必不可少，AI 图像处理涉及大量的个人数据，保护用户隐私和确保数据安全至关重要，合规使用数据、采用加密技术等手段，可以有效保障图像数据的安全性。提高 AI 模型在处理图像时的鲁棒性和可信度，进一步推动可信 AI 的应用和发展。

探索AI图像安全，助力可信AI发展

探索AI图像安全，助力可信AI发展

0. 前言

1. 人工智能发展与安全挑战

1.1 人工智能及其发展

1.2 人工智能安全挑战

2. WAIC 2023 多模态基础大模型的可信 AI

2.1 WAIC 2023 专题论坛

2.2 走进合合信息

3. AI 图像安全

3.1 图像篡改检测

3.2 生成式图像鉴别

3.3 OCR 对抗攻击技术

4. 可信 AI 技术标准

小结

相关链接

相关推荐