前言:AIGC全称为AI-Generated Content,直译为人工智能内容生成。即采用人工智能技术来自动生产内容。AIGC在2022年的爆发,主要是得益于深度学习模型方面的技术创新。不断涌现的生成算法、预训练模型以及多模态等技术的融合引发了AIGC的技术变革,使得AI模型成为了自动化内容生产的“工厂”和“流水线”。下面对AIGC使用的主要模型进行介绍。
目录
一、生成模型
1. 变分自编码器(Variational AutoEncoder,VAE)
变分自编码器[1]由Kingma和Welling于2014年提出,与传统的自编码器通过数值方式描述潜空间不同,它以概率方式对潜在空间进行观察。VAE分为编码器与解码器两部分,其中,编码器将原始高维输入数据转换为潜在空间的概率分布描述;解码器从采样的数据进行重建生成新数据。
假设一张人脸图片通过编码器生成了“微笑”、“肤色”、“性别”、“胡须”、“眼镜”、“发色”等多种特征,传统的自编码器对输入图像编码后生成的潜在特征为具体的数值,比如,微笑=0.5,肤色=0.8等,将这些数值送入解码器解码得到与输入接近的图像,即该张人脸的信息已经被存储至网络中,输入此人脸,就会输出一张固定的与该人脸相似的图像。然而,上述方法无法生成多样化的与输入近似的图像,因此,VAE将每个特征都由概率分布来表示,假设“微笑”的取值范围为0~5,“肤色”的取值范围为0~10,在此范围内进行数值采样可得到生成图像的潜在特征表示,同时,通过解码器生成的潜在特征解码得到生成图像。
2. 生成对抗网络(Generative Adversarial Network,GAN)
生成对抗网络[2]于2014年由Ian GoodFellow等人提出,使用零和博弈策略学习,在图像生成中应用广泛。GAN包含两个部分:
- 生成器:学习生成合理的数据。对于图像生成来说是给定一个向量,生成一张图片。其生成的数据作为判别器的负样本,真实数据作为判别器的负样本。
- 判别器:判别输入是生成数据还是真实数据。网络输出越接近于0,生成数据可能性越大;反之,真实数据可能性越大。
生成器与判别器相互对立。在不断迭代训练中,双方能力不断加强,最终的理想结果是:对于生成器生成的数据,判别器无法判别真是假。
3. 流模型(Flow)
流模型[3]于2014年被Yoshua Bengio等人提出,它和VAE、GAN属于同时期的成果。但流模型由于整体偏数学化,加上早期效果没有特别好但计算量特别大,直到OpenAI发布基于流模型的Glow模型[4],关于Flow模型的研究才逐渐被重视。Flow模型的目标是通过直面生成模型的概率计算,找到输入样本的分布。Flow模型的转换通常是可逆的。整体上来说,流模型是为了对复杂的高维数据进行非线性变换,将高维数据映射到潜在空间,产生独立的潜在变量。这个过程是可逆的,即可以从高维数据映射到潜在空间,也可以从潜在空间反过来映射到高维数据。
4. 扩散模型(Diffusion Model)
扩散是受到非平衡热力学的启发,定义一个扩散步骤的马尔科夫链,并逐渐向数据中添加噪声,然后学习逆扩散过程,从噪声中构建出所需的样本。扩散模型[5]的最初设计是用于去除图像中的噪声。随着降噪系统的训练时间越来越长且越来越好,可以从纯噪声作为唯一输入,生成逼真的图片。扩散模型的工作原理是通过添加噪声来破坏训练数据,然后使模型学习如何学去除噪声从而恢复数据。然后,该模型将此去噪过程应用于随机种子以生成逼真的图像。
一个标准的扩散模型分为两个过程:(1)前向扩散:向原图中逐步加入噪声,直到图像成为完全随机噪声;(1)反向扩散:在每个时间步逐步去除预测噪声,从而从高斯噪声中恢复原数据。
Stable diffusion是一个基于Latent Diffusion Models(LDMs)的以文生图模型的实现,因此掌握LDMs,就掌握了Stable Diffusion的原理。为了降低训练扩散模型的算力,LDMs使用一个Autoencoder去学习能尽量表达原始image space的低维空间表达(latent embedding),这样可以大大减少需要的算力。
5. Transformer
Transformer[6]于2017年由谷歌提出,最初用来完成不同语言之间的翻译。其主体包括Encoder与Decoder,前者对源语言进行编码,后者将编码信息转换为目标语言文本。Transformer采用注意力机制对输入数据各部分重要性的不同而分配不同权重,其并行化处理的优势能够使其在更大的数据集训练,加速了GPT等预训练大模型的发展。
6. Vision Transformer(ViT)
ViT[7]于2020年由谷歌团队提出,是将Transformer应用至图像分类任务的成功案例。ViT将图像分为14*14的patch,并对每个patch进行线性变换得到固定长度的向量送入Transformer,后续与标准的Transformer处理方式相同。
7. GPT系列
GPT[8]的全称为Generative Pre-trained Transformer,其结构基于Transformer模型,它能够通过预测单词序列中的下一个单词来生成类似人类的文本。GPT-2[9]和GPT-3[10]相较于GPT主要是在模型规模、训练数据、生成控制和生成质量等方面进行改进。GPT-3.5加入了新的训练方法,包括元学习(Meta Learning)和基于人类反馈的强化学习(Reward Learning from Human Feedback,RLHF)。RLHF技术可以帮助模型从人类反馈中学习,不断提高自己的生成质量。同时,这种技术还可以避免模型生成不合适或有害的内容,保证生成的文本符合人类价值观和道德标准。
ChatGPT与InstructGPT[11]是兄弟模型,它在GPT-3.5的基础上引入了一些新的训练数据和Fine-tuning技术,如对话历史的建模和多轮对话的处理等,以提高模型在对话生成任务中的表现和效果。同时,ChatGPT还采用了一些人工干预和交互式学习的方法,以进一步提高模型的可控性和自然度。
2023年3月,OpenAI推出了GPT-4[12],GPT-4在事实性、可控性和避免超出限制等方面取得了迄今为止最好的结果。
二、预训练大模型
虽然过去各种模型层出不穷,但是生成的内容偏简单且质量不高,远不能够满足现实场景中灵活多变以高质量内容生成的要求。预训练大模型的出现使AIGC发生质变,诸多问题得以解决。大模型在CV/NLP/多模态领域成果颇丰,如CV领域:微软Florence(SwinTransformer),NLP领域:谷歌的Bert&LaMDA&PaLM、OpenAI的GPT-3&ChatGPT,以及多模态领域:OpenAI的CLIP[13]&DALL-E、微软的GLIP以及Stability AI的Stable Diffusion.
三、AIGC相关产品
文本生成:JasperAI、copy.AI、ChatGPT、Bard、AI dungeon、文心一言等;
图像生成:EditGAN,Deepfake,DALL-E 2[14](文生图&图生图)、Imagen[15](文生图)、Midjourney、Stable Diffusion[16](文生图&文图生图),文心一格等;
音频生成:DeepMusic、WaveNet、Deep Voice、MusicAutoBot等;
视频生成:Deepfake,videoGPT,Gliacloud、Make-A-Video、Imagen video等。
参考资料
参考文献
- DP Kingma and Max Welling. Auto-Encoding Variational Bayes. ICLR, 2014.
- Ian J. Goodfellow, Jean Pouget-Abadie, Mehdi Mirza, et al. Generative Adversarial Nets. NIPS, 2014.
- Laurent Dinh, David Krueger, Yoshua Bengio. NICE: Non-linear Independent Components Estimation. ICLR (Workshop), 2015.
- Diederik P. Kingma and Prafulla Dhariwal. Glow: Generative Flow with Invertible 1×1 Convolutions. NeurIPS, 2018.
- Jascha Sohl-Dickstein, Eric A. Weiss, Niru Maheswaranathan, et al. Deep Unsupervised Learning using Nonequilibrium Thermodynamics. ICML 2015: 2256-2265.
- Ashish Vaswani, Noam Shazeer, Niki Parmar, et al. Attention Is All You Need. NIPS, 2017.
- Alexey Dosovitskiy, Lucas Beyer, Alexander Kolesnikov, et al. An Image is Worth 16×16 Words: Transformers for Image Recognition at Scale. ICLR, 2021.
- Radford Alec, Karthik Narasimhan, Tim Salimans, et al. Improving language understanding by generative pre-training. 2018.
- Radford Alec, Jeffrey Wu, Rewon Child, et al. Language models are unsupervised multitask learners. OpenAI blog 1, no. 8, 2019.
- Brown, Tom, Benjamin Mann, Nick Ryder, et al. Language models are few-shot learners. NIPS, 2020.
- Long Ouyang, Jeffrey Wu, Xu Jiang, et al. Training language models to follow instructions with human feedback. NeurIPS, 2022.
- https://openai.com/research/gpt-4
- Alec Radford, Jong Wook Kim, Chris Hallacy, et al. Learning Transferable Visual Models From Natural Language Supervision. ICML, 2021.
- Aditya Ramesh, Prafulla Dhariwal, Alex Nichol, et al. Hierarchical Text-Conditional Image Generation with CLIP Latents. arXiv, 2022.
- Chitwan Saharia, William Chan, Saurabh Saxena, et al. Photorealistic Text-to-Image Diffusion Models with Deep Language Understanding. NeurIPS, 2022.
- Robin Rombach, Andreas Blattmann, Dominik Lorenz, et al. High-Resolution Image Synthesis with Latent Diffusion Models. CVPR, 2021.
版权声明:本文为博主作者:_Meilinger_原创文章,版权归属原作者,如果侵权,请联系我们删除!
原文链接:https://blog.csdn.net/qq_36332660/article/details/133438496