(二) AIGC—Stable Difussion （1）

乘风 • 2023年12月27日下午5:56 • IT • 阅读 33

目录

1. 前置知识

目前通用的图像生成模型一般包含三个组件：

Text Encoder 根据文字生成向量
生成模型根据向量和Noise 生成缩小版本的图像
Image Decoder 根据小分辨率图像生成大分辨率图像

2. Text Encoder

文字的Encoder对于结果的影响很大，增大Diffusion Model对结果的影响比较有限。

FID : 衡量一个图像好坏的一个标准,需要sample很多的Image进行标准衡量
CLIP-Score : 也是一个衡量标准，如下图，两个encoder生成出来的向量距离远近

3. Decoder

额外的Decoder不需要piar的资料，只需要图像就可以把Decoder训练出来

4. Generative Model

Midjourney 生图的时候，从模糊到清楚，其原理就是把每次Denoise的中间产物经过Decoder再次加工，所以可以看到比较清楚，而不是噪声

文章出处登录后可见！

已经登录？立即刷新

AIGC 人工智能计算机视觉

赞 (0)

乘风管理团队

0

C语言——字符函数和字符串函数（三）【strtok，strerror，perror】

上一篇 2023年12月27日

linux下如何查看hosts文件

下一篇 2023年12月27日