AIGC大模型之——以文生图介绍

一、什么是以文生图？

以文生图是AIGC ( AI Generated Content ）框架中的一个关键技术，通过文字描述，将文字转化为图像并展示出来。以文生图具有白动化程度高、精度高、可扩展性强、可定制化等优势，具有广泛的应用前景，可以为人们提供更便捷高效的绘图解决方案。

文生图的功能：
（1）文字转图像：将输入的文字转化为图像效果，使文本更加生动。
（2）图像定制：用户可以选择不用的颜色，字体，背景，作画风格等，定制自己喜欢的图像。

二、文生圈大模型的原理是什么？

目前，最火热的文本转图像横型主要是Compvis、Stability和LAION等公司研发的Stable
diffusion模型，一个完全开源的模型（代码，数据，模型全部开源）。
Stable diffusion模型是基于Latent Diffusion Models（潜在扩散模型，LDMs）的文生图模型，在UNet中引入了text condition来实现基于文本生成图像的功能。Stable diffusion模型的主体结构如图1所示，主要包括三个模块：

（1）autoencoder :encoder将图像压缩到 latent空间，而 decoder将 latent解码为图像；

（2）CLP text encoder：该 CLIP的text encoder是一个 transformer模型，提取输入的 text的text embeddings，通过 cross attention方式送入扩散模型 UNet中作为 condition；

（3）UNet：扩散横型的主体，用来实现文本引导下的latent生成。

图1：Stable diffusion模型主体结构

如图2所示为对应的Stable diffusion模型网络结构图。

图2：Stable diffusion模型网络结构图

根据上述模型结构图可以看出，Stable diffusion模型在生成图片的过程中，主要包括两个输入一是提示词（prompt），二是种子（作用是生成噪声图），固定的种子和固定的分辦率生成的噪声图是固定的，模型以这个为基础进行图片生成。菲中噪声图并不是一张图片，而是在潜在空间中的一种表示。为了便于理解，绘制为如图3所示的示意图。

预处理潜空间

图3：图像生成过程

三、应用场景

文生圈（AI作图）技术的发展对各个行业都产生了深远的影响，具有众多的应用场景。

（1）艺术生成：快速高效地生成绘画作品、服装纹理、艺术素材等，为各行业提供灵感和创意。
（2）广告创意：快速生成各种类型的广告和宜传素材，也可以根据用户的需求生成个性化的广告，缩短制作成本和时间。
（3）游戏和影视：快速制作出各种类型的场景特效、和角色模型。
（4）专业设计：将AI作画与专业领域的知识相结合，如3D建模、医疗、工业设计、建筑设计、教育等，先由Al根据提示制作粗略的草图，再由专业人员完成后续工作。

四、已落地

发挥以文生图优势进行海报设计，用于营销海报、宣传推广，提升了一线运营人员的工作效率，有助于深化数字化转型，加速剋赋能经营。

文章出处登录后可见！

已经登录？立即刷新

AIGC大模型之——以文生图介绍

相关推荐