对于噪声的估计和去除，最常使用的是 U-Net。该神经网络的架构看起来像字母 U，由此得名。U-Net 是一个全连接卷积神经网络，这使得它对图像处理非常有用。U-Net的特点在于它能够将图像作为入口，并通过减少采样来找到该图像的低维表示，这使得它更适合处理和查找重要属性，然后通过增加采样将图像恢复回来。

一个典型的U-Net架构实例

具体的说，所谓去除噪声就是从时间帧 Stable Diffusion原理详解向时间帧的变换，其中是（没有噪声）到（完全噪声）之间的任意时间帧。变换规则为：

输入时间帧的图像，并且在该时间帧上图像存在特定噪声；
使用 U-Net 预测总噪声量；
然后在时间帧的图像中去除总噪声的“一部分”，得到噪声较少的时间帧的图像。

Stable Diffusion原理详解

向图片逐步增加/删除噪声

从数学上讲，执行此上述方法 Stable Diffusion原理详解次比尝试消除整个噪声更有意义。通过重复这个过程，噪声会逐渐被去除，我们会得到一个更“干净”的图像。比如对于带有噪声的图，我们通过在初始图像上添加完全噪声，然后再迭代地去除它来生成没有噪声的图像，效果比直接在原图上去除噪声要好。

近几年，扩散模型在图像生成任务中表现出突出的性能，并在图像合成等多个任务中取代了GAN。由于扩散模型能够保持数据的语义结构，因此不会受到模式崩溃的影响。

然而，实现扩散模型存在一些困难。因为所有马尔可夫状态都需要一直在内存中进行预测，这意味着内存中要一直保存多个大型深度网络的实例，从而导致扩散模型非常吃内存。此外，扩散模型可能会陷入图像数据中难以察觉的细粒度复杂性中，导致训练时间变得太长（几天到几个月）。矛盾的是，细粒度图像生成是扩散模型的主要优势之一，我们无法避免这个“甜蜜的烦恼”。由于扩散模型对计算要求非常高，训练需要非常大的内存和电量，这使得早前大多数研究人员无法在现实中实现该模型。

利用卷积神经网络提取最重要的属性

Latent Diffusion

“潜在扩散模型”（Latent Diffusion Model）将GAN的感知能力、扩散模型的细节保存能力和Transformer的语义能力三者结合，创造出比上述所有模型更稳健和高效的生成模型。与其他方法相比，Latent Diffusion不仅节省了内存，而且生成的图像保持了多样性和高细节度，同时图像还保留了数据的语义结构。

任何生成性学习方法都有两个主要阶段：感知压缩和语义压缩。

感知压缩

在感知压缩学习阶段，学习方法必须去除高频细节将数据封装到抽象表示中。此步骤对构建一个稳定、鲁棒的环境表示是必要的。GAN 擅长感知压缩，通过将高维冗余数据从像素空间投影到潜在空间的超空间来实现这一点。潜在空间中的潜在向量是原始像素图像的压缩形式，可以有效地代替原始图像。

更具体地说，用自动编码器 (Auto Encoder) 结构捕获感知压缩。自动编码器中的编码器将高维数据投影到潜在空间，解码器从潜在空间恢复图像。

自动编码器和解码器构成感知压缩

将公式(2)写成条件损失函数，得到公式(3)：

其中 Stable Diffusion原理详解是条件下的领域专用编码器（比如Transformer）。

上图中表示输入图像，表示生成的图像；是编码器，是解码器，二者共同构成了感知压缩；是潜在向量；是增加噪声后的潜在向量；是文本/图像的编码器（比如Transformer或CLIP），实现了语义压缩。

总结

本文向大家介绍了图像生成领域最前沿的Stable Diffusion模型。本质上Stable Diffusion属于潜在扩散模型(Latent Diffusion Model)。潜在扩散模型在生成细节丰富的不同背景的高分辨率图像方面非常稳健，同时还保留了图像的语义结构。因此，潜在扩散模型是图像生成即深度学习领域的一项重大进步。 Stable Diffusion只是将潜在扩散模型应用于高分辨率图像，同时使用 CLIP 作为文本编码器。

说了这么多理论，想必大家已经迫不及待跃跃欲试了。别着急，后面我会手把手教大家搭建Stable Diffusion本地环境，让大家可以亲手体验Stable Diffusion的威力。
Stable Diffusion原理详解

Jonathan Ho, Ajay Jain, Pieter Abbeel, “Denoising Diffusion Probabilistic Models”, 2020 ↩︎
Ashish Vaswani, Noam Shazeer, Niki Parmar, Jakob Uszkoreit, Llion Jones, Aidan N. Gomez, Lukasz Kaiser, Illia Polosukhin, “Attention Is All You Need”, 2017 ↩︎
Alec Radford, Jong Wook Kim, Chris Hallacy, Aditya Ramesh, Gabriel Goh, Sandhini Agarwal, Girish Sastry, Amanda Askell, Pamela Mishkin, Jack Clark, Gretchen Krueger, Ilya Sutskever, “Learning Transferable Visual Models From Natural Language Supervision”, 2021 ↩︎

文章出处登录后可见！

已经登录？立即刷新

Stable Diffusion原理详解

Stable Diffusion原理详解

文章目录

图像生成的发展

扩散模型

Transformer