迈向生成式几何 AI


AI 生成 360° 图像。[原始图像由作者使用 CopernicAI 生成。

一、说明

   近年来,能动人工智能取得了显著的进步,使机器能够生成图像、文本甚至音乐。然而,仍然缺少一些数据模式。那就是几何事物的生成。本篇注意这个事情并给出观点。

二、AI生成模式概说

   一些最著名的生成模型包括 GPT-4,一种可以生成类似人类文本的语言模型,以及 DALL-E 2,一种可以从文本描述创建高质量图像的图像生成模型。Stable Diffusion 在生成高质量图像方面取得了重大进展。随着研究的不断进步,生成式人工智能的可能性似乎几乎是无限的。

宇航员骑马的照片,由Stable DIffusion生成。[图片来自Wikimedia Commons。

三、生成模型的局限性

   然而,大多数生成式 AI 模型都是针对欧几里得域上定义的数据量身定制的,例如 2D 图像或 1D 音频信号。然而,在许多领域中,数据通常是在非欧几里得几何上定义的,从而产生了几何深度学习领域(参见几何深度学习简介)。

   几何深度学习的方法很广泛,但最常见的情况之一是群设置(请参阅群上的几何深度学习),例如在球体上定义的观测值。球形数据出现在许多领域,从对地球的观测到虚拟现实中的全景 360° 照片和视频,再到对在天球上观测到的大爆炸遗迹光的天文观测。

   球面数据示例。[原图由作者创作。
   为了将生成式 AI 的优势带给这些数据和其他具有复杂几何形状的数据,我们需要合并几何和生成式 AI。

四、生成式 AI 架构

   现代生成式 AI 模型通常采用以下方法之一。

   GAN(生成对抗网络)使用生成器和判别器网络,通过在零和博弈中将两者相互对抗来生成新的数据样本。
VAE(变分自动编码器)是一种生成模型,用于学习输入数据的压缩表示并使用它来生成新样本。
归一化流是一类生成模型,它使用一系列可逆变换来对数据的概率分布进行建模。
   扩散模型使用去噪扩散过程来生成高质量的图像。
   就生成的图像质量而言,目前最先进的技术通常是通过GAN或扩散模型来实现的。因此,我们专注于这些方法,并探索如何将它们扩展到几何设置。

五、面向 360° 图像的生成式几何 AI

   为了具体起见,让我们关注球面数据的常见情况,特别是 360° 全景图像。

   360°全景图像的小行星视图。[图片来自Wikimedia Commons。
   虽然在最近的开创性研究论文[1,2]中,归一化流动和扩散模型都已扩展到球面设置,但这些方法侧重于球面坐标上的密度场,而在这里,我们对球体上的像素化图像感兴趣。

   为了将 GAN 和扩散模型扩展到球形数据,必须扩展这些方法的底层架构,以对底层球形几何进行本机建模。为了实现这一点,我们需要将构成此架构构建块的底层扩展到球体。过去,这种球形层一直受到计算限制的困扰。然而,最近,这些计算限制在混合离散-连续(DISCO)框架[3]中得到了克服,该框架提供了既高效又计算高效的球面层(参见我们最近关于混合离散-连续几何深度学习的文章)。

   GAN建立在判别器(即分类器)和支持密集预测的生成器之上,通常它们本身建立在图像数据的CNN层上(有关详细信息,请参阅GAN的简要介绍)。所有这些组件都已经扩展到球体[3,4];因此,我们拥有将 GAN 扩展到球形数据所需的所有构建块。

   扩散模型需要学习分数,或者等效的降噪器,通常基于 U-Net 风格的架构(有关详细信息,请参阅稳定扩散简介)。同样,用于高分辨率图像的U-Net已经扩展到球体[3],因此我们恰好拥有了需要处理的构建块。

六、与此同时,我们在进行什么研究?

   在CopernicAI,我们正在研究这些类型的架构,以将生成式AI引入几何数据,例如360°图像。

   然而,在这些新模型准备就绪之前,我们已经对 Stable Diffusion 进行了改造,以支持 360° 图像的生成。

   Stable Diffusion 无法正确模拟 360° 数据的基本球面性质,因此通过改造所能实现的目标在某种程度上受到限制,并且生成图像的质量会受到一些影响。尽管如此,我们已经可以生成相当不错的 360° 图像。

   AI 生成的 360° 图像显示为小行星。[作者使用CopernicAI生成的原始图像。
CopernicAI 刚刚发布了一个提示,因此现在任何人都可以创建 AI 生成的 360° 图像供他们使用。

   如上所述,随着球体的基本几何形状是正确的模型的未来发展,生成的 360° 图像的质量只会提高。

引用
[1] Rezende、Papamakarios、Racanière、Albergo、Kanwar、Shanahan、Cranmer,Tori 和 Spheres 上的归一化流动,ICML (2020),arXiv:2002.02428

[2] De Bortoli、Mathieu、Hutchinson、Thornton、Teh、Doucet、基于黎曼分数的生成建模,NeurIPS (2022),arXiv:2202.02763

[3] Ocampo、Price、McEwen,通过离散连续 (DISCO) 卷积进行可扩展和等变球形 CNN,ICLR (2023),arXiv:2209.13603

[4] McEwen、Wallis、Mavor-Parker,用于可扩展和旋转等变球形 CNN 的球体上的散射网络,ICLR (2022),arXiv:2102.02828

版权声明:本文为博主作者:无水先生原创文章,版权归属原作者,如果侵权,请联系我们删除!

原文链接:https://blog.csdn.net/gongdiwudu/article/details/136808958

共计人评分,平均

到目前为止还没有投票!成为第一位评论此文章。

(0)
扎眼的阳光的头像扎眼的阳光普通用户
上一篇 2024年4月16日
下一篇 2024年4月16日

相关推荐