迈向生成式几何 AI

AI 生成 360° 图像。[原始图像由作者使用 CopernicAI 生成。

Table of Contents

一、说明

近年来，能动人工智能取得了显著的进步，使机器能够生成图像、文本甚至音乐。然而，仍然缺少一些数据模式。那就是几何事物的生成。本篇注意这个事情并给出观点。

二、AI生成模式概说

一些最著名的生成模型包括 GPT-4，一种可以生成类似人类文本的语言模型，以及 DALL-E 2，一种可以从文本描述创建高质量图像的图像生成模型。Stable Diffusion 在生成高质量图像方面取得了重大进展。随着研究的不断进步，生成式人工智能的可能性似乎几乎是无限的。

宇航员骑马的照片，由Stable DIffusion生成。[图片来自Wikimedia Commons。

三、生成模型的局限性

然而，大多数生成式 AI 模型都是针对欧几里得域上定义的数据量身定制的，例如 2D 图像或 1D 音频信号。然而，在许多领域中，数据通常是在非欧几里得几何上定义的，从而产生了几何深度学习领域（参见几何深度学习简介）。

几何深度学习的方法很广泛，但最常见的情况之一是群设置（请参阅群上的几何深度学习），例如在球体上定义的观测值。球形数据出现在许多领域，从对地球的观测到虚拟现实中的全景 360° 照片和视频，再到对在天球上观测到的大爆炸遗迹光的天文观测。

球面数据示例。[原图由作者创作。
为了将生成式 AI 的优势带给这些数据和其他具有复杂几何形状的数据，我们需要合并几何和生成式 AI。

四、生成式 AI 架构

现代生成式 AI 模型通常采用以下方法之一。

GAN（生成对抗网络）使用生成器和判别器网络，通过在零和博弈中将两者相互对抗来生成新的数据样本。
VAE（变分自动编码器）是一种生成模型，用于学习输入数据的压缩表示并使用它来生成新样本。
归一化流是一类生成模型，它使用一系列可逆变换来对数据的概率分布进行建模。
扩散模型使用去噪扩散过程来生成高质量的图像。
就生成的图像质量而言，目前最先进的技术通常是通过GAN或扩散模型来实现的。因此，我们专注于这些方法，并探索如何将它们扩展到几何设置。

五、面向 360° 图像的生成式几何 AI

为了具体起见，让我们关注球面数据的常见情况，特别是 360° 全景图像。

360°全景图像的小行星视图。[图片来自Wikimedia Commons。
虽然在最近的开创性研究论文[1,2]中，归一化流动和扩散模型都已扩展到球面设置，但这些方法侧重于球面坐标上的密度场，而在这里，我们对球体上的像素化图像感兴趣。

为了将 GAN 和扩散模型扩展到球形数据，必须扩展这些方法的底层架构，以对底层球形几何进行本机建模。为了实现这一点，我们需要将构成此架构构建块的底层扩展到球体。过去，这种球形层一直受到计算限制的困扰。然而，最近，这些计算限制在混合离散-连续（DISCO）框架[3]中得到了克服，该框架提供了既高效又计算高效的球面层（参见我们最近关于混合离散-连续几何深度学习的文章）。

GAN建立在判别器（即分类器）和支持密集预测的生成器之上，通常它们本身建立在图像数据的CNN层上（有关详细信息，请参阅GAN的简要介绍）。所有这些组件都已经扩展到球体[3,4];因此，我们拥有将 GAN 扩展到球形数据所需的所有构建块。

扩散模型需要学习分数，或者等效的降噪器，通常基于 U-Net 风格的架构（有关详细信息，请参阅稳定扩散简介）。同样，用于高分辨率图像的U-Net已经扩展到球体[3]，因此我们恰好拥有了需要处理的构建块。

六、与此同时，我们在进行什么研究？

在CopernicAI，我们正在研究这些类型的架构，以将生成式AI引入几何数据，例如360°图像。

然而，在这些新模型准备就绪之前，我们已经对 Stable Diffusion 进行了改造，以支持 360° 图像的生成。

Stable Diffusion 无法正确模拟 360° 数据的基本球面性质，因此通过改造所能实现的目标在某种程度上受到限制，并且生成图像的质量会受到一些影响。尽管如此，我们已经可以生成相当不错的 360° 图像。

AI 生成的 360° 图像显示为小行星。[作者使用CopernicAI生成的原始图像。
CopernicAI 刚刚发布了一个提示，因此现在任何人都可以创建 AI 生成的 360° 图像供他们使用。

如上所述，随着球体的基本几何形状是正确的模型的未来发展，生成的 360° 图像的质量只会提高。

引用
[1] Rezende、Papamakarios、Racanière、Albergo、Kanwar、Shanahan、Cranmer，Tori 和 Spheres 上的归一化流动，ICML （2020），arXiv：2002.02428

[2] De Bortoli、Mathieu、Hutchinson、Thornton、Teh、Doucet、基于黎曼分数的生成建模，NeurIPS （2022），arXiv：2202.02763

[3] Ocampo、Price、McEwen，通过离散连续（DISCO）卷积进行可扩展和等变球形 CNN，ICLR （2023），arXiv：2209.13603

[4] McEwen、Wallis、Mavor-Parker，用于可扩展和旋转等变球形 CNN 的球体上的散射网络，ICLR （2022），arXiv：2102.02828

原文链接：https://blog.csdn.net/gongdiwudu/article/details/136808958