ChatGPT研究(三)——AIGC多模态交互功能,奠定多场景商用基础

✏️写作:个人博客InfoQ掘金知乎CSDN

📧公众号:进击的Matrix

🚫特别声明:创作不易,未经授权不得转载或抄袭,如需转载可联系小编授权。

前言

最近ChatGPT,想必大家已经是耳熟能详了,一度认为ChatGPT的到来是人工智能的奇点到来,那么到底ChatGPT是什么?为什么ChatGPT为代表的人工智能技术不仅受到平民用户的喜爱,还受到资本市场追捧呢?

上篇文章《ChatGPT研究(二)——AI平民化的里程碑》中从技术角度,解读ChatGPT的AI发展和应用,本篇文章将会更多的从商业场景使用中来介绍ChatGPT的应用。

AIGC多模态交互功能持续演化,奠定多场景商用基础

AIGC:利用人工智能产生内容,提升生产力曲线

  • AIGC: Artificial Intelligence Generated Context,即可以利用人工智能技术自动产生内容,常见如代码生成,文本问答等

AIGC应用功能简单如图所示

ChatGPT已成为AIGC功能矩阵中的重要板块

  • ChatGPT是AIGC“数字内容智能编辑”功能中的重要组成部分,ChatGPT模型的出现对于文字/语音模态的AIGC应用具有重要意义

✔️ 随着深度学习技术的快速突破以及数字内容的海量增长,AIGC领域相关技术打破了预定义规则的局限性,使得快速便捷且智慧地输出多模态的数字内容成为可能。
✔️ 在技术创新以及多模态模型的持续突破下,AIGC根据功能和对象的不同,按顺序可包括三种主要实用功能: 数字内容孪生,数字内容的智能编辑、数字内容的智能创作
这三种功能相互嵌套与结合,可以让AIGC产品具备超越人类的创作潜力。而ChatGPT正是AIGC的数字内容编辑这一大功能领域中的重要组成部分

ChatGPT是AIGC的产品应用框架中大型语言模型的重要板块

AIGC相关技术包含了三大前沿能力

  • 数字内容孪生能力构建现实世界-虚拟世界映射

孪生能力包括智能增强与转译技术,其中增强技术弥补内容数字化过程中的信息损失,转译技术在理解基础上对内容进行多种形式的呈现

  • 数字编辑能力打通现实世界虚拟世界交互通道

编辑能力包括智能语义理解与属性控制,语义理解帮助实现数字内容各属性的分离解耦,属性控制则在理解基础上对属性进行精确修改、编辑与二次
生成,最终反馈于现实世界,形成孪生-反馈闭环

  • 数字创作能力从数据理解走向数据创作

创作能力可分为基于模仿的创作与基于概念的创作,前者基于对某一类作品数据分布进行创作,而后者从海量数据中学习抽象概念,并基于概念创作出现实世界不存在的内容

AIGC三大前沿技术能力架构如图所示

AIGC行业发展经历了三个主要时期

AIGC发展经历了早期萌芽、沉淀积累和2014年之后的快速发展阶段

AIGC经历了大致三个阶段的演化发展

从分析式AI到生成式AI逐步演化,生成式AI赋予AIGC创新力

  • 生成式AI起源于分析式AI,分析式AI发展过程汇总的技术积累为生成式AI的产生奠定基础

分析式AI其学习的知识局限于数据本身;生成式AI在总结归纳数据知识的基础上可生成数据中不存在的样本
最新生成式AI技术如GAN,Diffusion等,催生多款AIGC产品如:OpenAI系列、DALL·E2(Diffusion),Starry A.I.(基于GAN)等

AIGC是在分析式AI的基础上,学习数据产生模式,实现新样本内容的创造

AIGC:学习范式更新奠定基础,模型结构升级助力腾飞

  • 人工智能技术推动AIGC行业不断发展,其中学习范式的更新赋予AI模型主动学习能力,模型结构升级提升AI模型学习,归纳与创新能力

AI模型的升级迭代为AIGC性能跨越式发展奠定基础

AIGC产业链涵盖了从硬件到多类终端应用的广泛领域

  • AIGC关联产业可分为应用层、模型层、云计算平台与计算硬件层

计算硬件层结合云计算平台为AIGC提供机器学习训练与推理算力,其 中GPU与TPU为硬件核心,主要参与厂商包括英伟达(GPU)与谷歌 (TPU);
云平台参与厂商则包含AWS,GCP,Azure以及 Coreweave;计算硬件层中云计算平台厂商分布稳定,竞争出现于模型 层面与应用层面

模型层面,闭源基础模型提供商如OpenAI通过API向用户提供服务, 而开源基础模型则通过在托管平台如Hugging Face、Replica公开模 型权重。
模型训练其高计算力需求推动了模型层厂商与云计算厂商建 立合作关系(如 OpenAI+Azure,GCP+DeepMind。模型层面闭源 模型较为普遍,各厂商依靠模型建立技术壁垒。

在应用层面,MidJourney,Runway等自主研发、持有模型;而 Jasper,Github Copilot则通过调用闭源模型商提供的API或采用托管 平台共享的模型。

AIGC市场框架可由基础设置层、模型层、托管平台以及应用层来进行划分

AIGC产业链上下游玩家百家齐放

  • AIGC上游主要包括数据供给方、算法机构、创作者生态以及底层配合工具等,中游主要是文字、图像、音频和视频处理厂商,其中玩家众多;下游主要是各类内容创作及分发平台以及内容服务机构等

AIGC产业链上下游参与者分类如图所示

AIGC厂商之间的竞争在于模型层面竞争

  • 追根溯源,AIGC依赖于底层机器学习模型产生内容,因此模型为AIGC行业厂商真正竞争力所在

文本生成产品多依赖GPT系列模型,自己训练的模型在图像/视频模态产品中较为普遍(图像/视频模态产品通常拥有自己训练的模型,而不是如文本模态调用OpenAI提供的模型服务)

  • 比较而言,OpenAI依靠模型建立先发竞争优势,技术到产品转化相对亮眼

AIGC模型产品之间存在激烈竞争

AIGC取长补短,有望成为主流内容生产模式

  • AIGC所属内容生产生态的发展经历了专家生产内容(PGC)、用户生成内容(UGC)、AI辅助生产内容、AI生产内容 (AIGC)四个阶段,目前处于一、二阶段为主,第三阶段为辅的境况
  • AIGC克服PGC与UGC存在的 质量、产量 无法兼具的缺点,其有望成为未来主流的内容生产模式

AIGC生态内容生产模式理论上会经历四个发展阶段

AIGC生成技术可按模态进行分类

  • AIGC根据其内容模态不同可分为文本、视频、图像,音频与跨模态生成

AIGC应用功能简单如图所示

AIGC不同模态对应着各种生成技术及应用场景

  • AIGC不同模态对应的技术应用场景也有着各自的细分品类

AIGC各技术应用场景对应的特征及细分品类如图所示

AIGC文本生成技术场景可分为交互式和非交互式

  • AIGC非交互式文本生成技术中,结构化写作其形式相对固定,生成难度较小,商业化应用较为广泛;而创作型写作开放性 较大,在长文本生成中难度较大,仍需技术进一步发展
  • 随着通信互联网技术发展,线上社交需求快速增长,如闲聊机器人等交互式文本产品将迎来快速发展

文本内容生产领域相关细分特征如下架构图所述

AIGC文本生成技术商业化落地有望优势先发

  • 文本领域预训练大模型技术成熟,文本领域细分垂类较多,产品数量居首位,模型数量发展超过其他模态技术
  • 数字内容中,文字模态数据远大于图片/视频/音频等,发展前景相对较大
  • 基于GPT-3的文字生成功能已嵌入如Writesonic、Conversion.ai、Copysmith等软件中,商业化前景相对清晰

文本生成技术商业化落地有比较优势

AIGC文本模态技术(包括文本与代码)商业化领跑视频/图像模态技术

AIGC图像生成技术随着模型结构的优化而明显提升

  • 模型结构不断进化提高了AIGC生产图像的多样性,但要求较高的功能实现还有待于技术的进一步提升

“图像编辑” 难度低于“图像生成” 与“2D-3D” 转换,目前已存在多款产品支持“图像编辑” ,而对于“图像生成”任务,由于图片相
较包含更多元素,其生成效果仍存在不稳定性,对于要求较高的功能类图像生成仍需要技术上的提升

图像生成技术具体实现包括图像编辑、2D-3D转换以及自主生成

AIGC音频生成技术正朝更富情感等人类特征演化

  • 文本到语音任务已比较成熟,语音质量已达到自然的标准,未来将朝更富情感、富韵律的语音合成以及小样本语音学习方向发展

音乐生成任务中仍需解决音乐数据难以标注的问题,数据标注其颗粒度大小影响音乐生成任务的可控性。若可控性得以解决,则可指定风格、
情绪等因素的音乐生成任务有希望在影视、游戏等场景下的到大量应用。

AIGC音频细分生成技术特点如图所示

视频生成 为AIGC应用生态中的高潜力场景

  • 视频生成本质上与图片生成类似,通过对视频进行帧数级别的切割,实现对每一帧的处理

视频生成过程包括三个阶段:数据的提取、训练和转换,当前技术正在着重提升视频修改精准度和实时性两个维度。鉴于视频本身的文本、图像和音频的综合属性,
视频生成也是跨模态生成领域的重要应用场景。

视频生成技术具体包括视频属性编辑、 视频自动剪辑、 视频部分编辑

跨模态生成技术是真正实现认知和决策智能的转折点

  • 现实世界的信息是文本、音频、视觉、传感器以及人类各种触觉的综合体系,要更为精准地模拟现实世界,就需要将各种 模态能力之间打通,例如文字-图像、文字-视频等跨模态生成能力

大型预训练模型的发展使得跨模态逐步成熟,“文本-图像” 生成正在快速落地,“文字-视频”的实验效果也已较为理想(视频时长、 清 晰程度、 逻辑等还有较大提升空间)。

跨模态生成 领域当前的主要功能类型如图所示

AIGC改变数字内容生产模式

  • AIGC作为新的内容生产模式,其具有内容多样,可控性强与生产效率高的优点,符合传媒,电商,影视,娱乐等行业对内容数字化程度高、内容多样以及内容更新快的要求,AIGC在以上行业逐渐替代传统内容生产模式的趋势十分显著

AIGC对各大行业的影响维度如图

AIGC渗透传媒领域各个环节

  • AIGC技术逐渐渗透传媒领域包括采集、编辑、传播等环节,有助于加快内容生产效率,提高内容质量,扩宽内容影响力

AIGC对传媒领域的赋能如下图所述

AIGC化2D为3D,拓展电商展示维度

  • AIGC 2D图像生成3D模型技术为传统电商提供多维度的展示空间
  • 虚拟合成主播为客户提供更及时、可靠、亲和的服务体验

AIGC对有助于为电商行业降本增效

AIGC打破传统娱乐体验边界

  • AIGC技术打破物理边界,使粉丝可与偶像亲密互动,并形成新的发展点
  • AIGC为用户打开虚拟世界入口,通过趣味方式体验虚拟世界

AIGC在娱乐领域也有诸多赋能点,有助于进一步提升产业空间

AIGC拓宽影视行业创意边际

  • AIGC技术以其内容多样性为作品内容带来更多灵感
  • AIGC技术帮助拍摄突破物理限制,还原剧本效果,提高作品质量

AIGC在剧本创作、拍摄过程以及后期制作方面均有助益

AIGC促进各行业转型升级

AIGC技术在各行业数字内容相关领域均有发挥空间

AIGC在教育、金融、工业、医疗领域的应用优势如图所示

最后欢迎大家点赞、收藏、评论,转发!

欢迎大家关注我的微信公众号!随机分享无用的计算机知识,

微信搜索:进击的Matrix

文章出处登录后可见!

已经登录?立即刷新

共计人评分,平均

到目前为止还没有投票!成为第一位评论此文章。

(0)
扎眼的阳光的头像扎眼的阳光普通用户
上一篇 2023年12月21日
下一篇 2023年12月21日

相关推荐