AIGC领域优秀的资源汇总(应用、论文、开源项目)

AIGC领域介绍，及一些比较优秀的应用，和论文，开源项目汇总。

AIGC大纲

一、AIGC概念

AIGC，全名“AI generated content”，又称生成式AI，意为人工智能生成内容。例如AI文本续写，文字转图像的AI图、AI主持人等，都属于AIGC的应用。

AIGC也被认为是继PGC（Professionally Generated Content，专业生产内容）和UGC（User Generated Content，用户生产内容）之后的新型内容生产方式，AI绘画、AI写作等都属于AIGC的具体形式。

二、AIGC发展过程

AIGC的发展历程可以分为三个阶段：早期萌芽阶段（上世纪50年代至90年代中期），沉淀累积阶段（上世纪90年代至本世纪10年代中期），快速发展阶段（本世纪10年代中期至今）。

在早期萌芽阶段（1950s~1990s）

由于技术限制，AIGC仅限于小范围实验与应用，例如1957年出现首支电脑创作的音乐作品《依利亚克组曲（Illiac Suite）》，80年代末至90年代中由于高成本及难以商业化，因此资本投入有限导致AIGC无较多较大成绩。

在沉淀累积阶段（1990s~2010s）

AIGC从实验性转向实用性，2006年深度学习算法取得进展，同时GPU,CPU等算力设备日益精进，互联网快速发展，为各类人工智能算法提供海量数据进行训练。2007年首部人工智能装置完成的小说《I The Road》（《在路上》）问世，2012年微软展示全自动同声传译系统，主要基于“深度神经网络”（Deep Neural Network，DNN）自动将英文讲话内容通过语音识别等技术生成中文。

在快速发展阶段（2010s~至今）

2014年深度学习算法“生成式对抗网络”（Generative Adversarial Network, GAN）推出并迭代更新，助力AIGC新发展。2017年微软人工智能少年“小冰”推出世界首部由人工智能写作的诗集《阳光失了玻璃窗》，2018年NVIDIA (英伟达)发布StyleGAN模型可自动生成图片，2019年DeepMind发布DVD-GAN模型可生成连续视频。2021年Open AI推出DALL-E并更新迭代版本DALL-E-2，主要用于文本、图像的交互生成内容。

2023年

而2023年更像是AIGC入世元年，AIGC相关的话题爆炸式的出现在了朋友圈、微博、抖音等社交媒体，正式被大众所关注。其中令人印象深刻的是微软全系融入AI创作和OpenAI GPT-4的发布：

2023年1月，微软必应搜索（Microsoft Bing Search）推出了一项创新的功能，即聊天模式（Chat Mode）。这项功能允许用户通过聊天框与必应搜索进行交互，获取信息、娱乐、创意等各种内容。必应搜索利用了先进的自然语言处理（NLP）和生成技术，能够理解和回答用户的各种问题和请求，同时提供相关的网页搜索结果、建议、广告等。必应搜索还能够根据用户的选择，切换不同的模式，如平衡模式（Balanced Mode）、创意模式（Creative Mode）和精确模式（Precise Mode），以满足用户的不同需求和偏好。必应搜索的聊天模式是AIGC领域的一个突破，展示了人工智能与人类交流的可能性和潜力。

OpenAI在2023年3月发布了GPT-4模型：基于GPT-3改进的新一代预训练语言模型，参数达到2000亿，能够生成高质量的文本内容，支持多种语言和任务。GPT-4模型通过OpenAI Playground和OpenAI Codex等平台向公众开放，也通过受控API向企业提供服务。

三、AIGC应用

(这一代AIGC的应用)

AIGC通过让机器模仿人类的思维和创造力，使用自然语言处理、深度学习、图像处理等技术生成具有一定逻辑性和创意性的内容。相比于人工创作，AIGC具有自动化、高效、大规模生产、可定制等优势，可以应用于新闻报道、广告、文案撰写、音乐创作、影视制作等领域。在新闻报道领域，AIGC可以自动生成新闻摘要、事件报道、体育赛事等内容。在广告营销领域，AIGC可以根据用户画像和需求，自动生成广告文案、海报、短视频等广告素材。在音乐创作领域，AIGC可以自动生成音乐曲谱、和声、旋律等，也可以将不同的音乐元素组合起来生成新的音乐作品。在文学创作领域，AIGC可以自动生成诗歌、小说、散文等文学作品，甚至可以生成对话、情节、人物等元素。在视觉艺术领域，AIGC可以自动生成图像、视频、动画等作品。

举例一些应用功能：

应用技术的成熟度：

我们使用技术准备水平(TRL)来评估每种技术的成熟度。它的定义接近NASA的TRL概念。从1到9，其中9是最成熟的技术。

报告的基本原则
制定技术概念和/或应用
关键功能概念证明
可用的研究工作
研究原型验证
样机由专业用户操作
由最终用户操作的原型
由最终用户完成并验证的实际产品
经过大量终端用户日常验证的实际产品

这个列表中的大多数技术应该属于4或以上

文本生成（nlp）

文本-文本

Name	TRL	More Links
Brad	5-6
ChatGPT	8-9	[API] [Paper]
Claude	5-6	[Paper]
Copilot (Code only)	8-9
GPT-4	7-8	[API] [Paper]
LLaMA	6-7	[Paper] [Code]
New Bing	7-8
StableLM	5-6	[Code]

文本-图片

Name	TRL	More Links
DALL·E 2	7-8	[API] [Paper]
MidJourney	8-9
Stable Diffusion	7-8	[Paper] [Code]
TEXTure (Texture only)	4-5	[Paper] [Code] [Demo]

文本-视频

Name	TRL	More Links
Fliki	8-9	[API]
Make-A-Video	4-5	[Paper]
Phenaki	4-5	[Paper]

文本-网格（3D）

Name	TRL	More Links
DreamFusion	4-5	[Paper] [3rd Party Code]
DreamFields	4-5	[Paper] [Code]
Magic3D	4-5	[Paper]
Text2Mesh	4-5	[Paper] [Code]

文本-语音

Name	TRL	More Links
Murf	7-8	[API]

文本-音乐

Name	TRL	More Links
Mubert	8-9	[API]

图片生成

图片-文本

Name	TRL	More Links
BLIP-2	4-5	[Paper] [Code]

图片-图片

Name	TRL	More Links
img2img	6-7	[Paper] [Code]

图片-网格（3D）

Name	TRL	More Links
GET3D	4-5	[Paper] [Code]
nvdiffrec	5-6	[Paper] [Code]
pix2pix3D	5-6	[Paper] [Code]

图片-视频

Name	TRL	More Links
Make-A-Video	4-5	[Paper]

表格来源：

git-hub: awesone-aigc
感兴趣的可以点击查看

文章出处登录后可见！

已经登录？立即刷新