当下最强的 AI art 生成模型 Stable Diffusion 最全面介绍

目录

  1. 模型生成效果展示(prompt 全公开)

  2. 如何注册 Stable Diffusion 使用

  3. SD(dreamstudio.ai )的收费标注如何

  4. SD 提供哪些参数可以设置

  5. 如何使用种子来改进一张作品

  6. 我用 SD 创作的图片著作权如何归属,可以拿来商用吗?

  7. Stable Diffusion 背后的研发团队

  8. SD 是如何训练出来的?

  9. SD 是开源的吗?

  10. SD 未来有哪些可期待的亮点

    附录:一些有用的资源

从本月初开始拿到 Stable Diffusion 的内测资格,我就再也没有打开过沉迷许久的 Disco Diffusion。

五天前,被视为当下最强的 AI 图像生成器的 Stable Diffusion 正式对公众开放,通过网站注册即可使用,提供了简洁、友好的 UI 交互,相比 DD 大大降低了 AI 图像创作工具的使用门槛和难度。而且生成速度快,生成的图形各方面表现都非常优秀。除了要花钱,简直没缺点啦。

不想花钱?还有好消息:SD 同时正式开源了代码、模型和权重参数库,部署到自己本地的 GPU上就等于免费啦。

先看效果。以下图像都是 Stable Diffusion 直出,无任何后期。Prompt 在图的下方。其中 7 张作品由某不愿意透露姓名的高手提供,感谢他授权并愿意分享宝贵的 prompt。

PS. 如所有的 AI 生成模型的效果演示,下列图像都经过了 cheery pick,从同一个 prompt 的 4~10 次生成结果中挑选出了最令我满意的一张。

先来看几种常见的艺术媒介:

黑白版画,无论是主题的准确性、氛围感、生物体和建筑体结构,还是构图、笔触肌理、光影对比,都接近完美。

0dcd798a4440e9ef685b6686cad57a3a.png

black and white illustration of bloodborne, close-up street view of a victorian town at night, horrible, moon rising, by bernie wrightson, by dan mumford, by aaron horkey, cross hatching, high contrast, super detailed, minimalist composition, 4k

22033d0bf3db997e5031c059a00de75d.png

illustration print of horse head sculpture, super detailed, by dan mumford, by aaron horkey, high contrast, low poly style

266f8ba98ba769b0361475a7e9bdf5df.png

a bear stealing food from a cooler beside camping fire, black and white engraving printmaking, cross hatching

水彩cold pressed 水彩纸的纹理也还原得很清楚。

40a1248024d8afb00f1049a3ffef8d9a.png

fine watercolor painting portrait of beautiful girl holding a lazy cat, neat, elegant, by ilya kuvshinov, by ben quilty, by hikari shimoda

厚涂油画

26d908f5d2c08418efff2c8ac10861fd.png

thick coated oil painting close-up portrait of sad boy, by ben quilty, by hikari shimoda

艺术家,用 SD 创作的《席勒的自画像》,prompt 只用了 5 个词,第一次就跑出了颇为惊人的成果。跟年轻时的席勒颇为相像,也继承了其油画作品中标志性的笔触和用色,除了缺失一些表现主义的扭曲与癫狂感。

fe6e64ffb188e2533e43530d01003a72.png

Self-Portrait by Egon Schiele

4b612aaaffe72c80e1f947df75f26bf6.png

席勒及其原作

艺术风格

Stable Diffusion 生成荷兰黄金时代的静物油画——公牛头骨。

f13fd716c51671635f099bd0df39380b.png

a bull skull, Dutch Age, oil on canvas, super detailed, high saturation, Golden ratio, centered and symmetrical composition

c62106f315bdb93e1fd285685633f094.png

1628 年荷兰黄金时代的静物画,大都会博物馆馆藏
Pieter Claesz, Still Life with a Skull and a Writing Quill

风光摄影类作品的生成,(低分辨率)糖水片随便出啦。

d3a3c080d6bd5ac11c46f9c8f1db0187.png

e659feae5a023d7909cac1392884200f.png

a beautiful landscape photography of snow covered Rocky mountains, a dead intricate tree in the foreground, sunset, dramatic lighting, by Marc Adamus

建筑和风景画题材无论是哥特小镇的夜景,还是中国古建筑的雪景,都能驾驭。

a65c8b87dcb7926dfe848d1be7e54a14.png

illustration of close-up street view of gothic town, night, by peter mohrbacher, by alex andreev, by jacek yerka, large depth of field, super detailed, digital art, trending on artstation, minimalism

58593d2bb7e1857c1b7db36985e6d3b6.png

winter winter winter winter a chinese temple building on hill and cliff with many peach trees blossoms, on himalayas, fantasy scene, fairy particle, illustration comic manga painting of road environment : 6 fantasy environment, digital painting, volumetric lighting by feng zhu, 3d alejandro alvarez alena aenami artworks in 4 k beeple, by thomas kinkade hearstone league of legends dofus overwatch(匿名高手作品)

宏大场景的渲染

2b89c8e7ef927c4b6549ad022e2640e1.png

military base,cybernetic baroque centipede cyborg urban epic scene + wall is berlin iron, inside organic robotic tubes and parts + translucent surface, German Third Reich army cyberpunk 2077+ Intricate Details, Hyperrealism, Wet, unreal engine, 3d, reflections + by Arsen Asyrankulov and Liudmila Kirdiashkina (匿名高手作品)

afb56dff2ddbd6996dbd7c9630e69247.png

Hyper detailed painting of a cyberpunk cyberpunk cyberpunk TRAIN STATION, epic angle , ribcage skeleton symmetrical artwork, Hell of fire,3d with depth of field, blurred background, translucent, nautilus, energy flows of water and fire. a highly detailed epic cinematic concept art CG render. made in Maya, Blender and Photoshop, octane render, excellent composition, cinematic dystopian brutalist atmosphere, dynamic dramatic cinematic lighting, aesthetic, very inspirational, arthouse. y Greg Rutkowski, Ilya Kuvshinov, by James Jean and dan mumford (匿名高手作品)

3D 渲染类浮雕徽章,皇冠,珠宝,水中的烟雾状蓝色墨水

b605985f1ab14f48b5cd16dbaefe65ab.png

fine silver badge, baroque pattern, relief angry cat, medieval, merchandise display, photorealistic, hyper realistic, octane render

b1a00e429cb9565233e6f045090f42ed.png

fine golden crown, baroque pattern, merchandise display, photorealistic, hyper realistic, dramatic and epic, octane render

8bca95005b909bc5d9d1c12ac1ab284c.png

close-up maximalist rendering of lizard shape jewelry, rubies, gold, diamonds, obsidian, sapphires, by makoto shinkai, akihiko yoshida, yoshitaka amano, super detailed, fluid dark metal

122af4dc2bca49d8075a7000075acb76.png

full display of baroque style jewelry design, a pair of earrings, blue gemstones with different saturation winged butterflies and pear shaped diamonds, roses sharp, highly detailed vray render, flash (匿名高手作品)

27622c96779837a5439f0b86b785cab9.png

rendering of blue ink in clear transparent water, smoke

数字插画类

f5ece5ee9431693c5e2b5dd06289665b.png

the last spaceship passing through the dark wormhole, dark and deathful, by kilian eng

913d594b0e53619cbd4db78ac70025d1.png

the last supergigantic spaceship floating across the gate of wormhole, dark and deathful, by kilian eng

3215ab76175a049c4bacaa1384d5738c.png

close-up maximalist illustration of panther, by makoto shinkai, akihiko yoshida, yoshitaka amano, super detailed, hd wallpaper, digital art

0e0d10e0aca981f320e0b3ecbbab51db.png

close-up maximalist illustration of black panther, by makoto shinkai, akihiko yoshida, yoshitaka amano, super detailed

b57cc91abbef6427061f039547b41920.png

maximalist close-up illustration cat portrait like nobility, royal cat queen portrait, aristocratic dress, by makoto shinkai, by akihiko yoshida, by james jean, super detailed, fluid dark metal

6ea1c8fecf57f6faad5dad7f2b22f834.png

close-up maximalist illustration of lion, by makoto shinkai, akihiko yoshida, yoshitaka amano, super detailed

14cd8d3178426ea67bb8e1eafa419fab.png

close-up maximalist illustration of lion, by makoto shinkai, akihiko yoshida, yoshitaka amano, super detailed

被视为 AI 图像生成之皇冠明珠的肖像画,Stable Diffusion 也充分胜任。无论侧视,¾ 视图还是正面肖像,无论插画、动漫、水彩等手绘抽象风格,还是照片类高仿真度的光影渲染,无论男女老幼,无不游刃有余,且在艺术感和风格多样性上远超 DALL·E。

7ecdf55185d96e5d53f47db642661df7.png

maximalist close-up illustration side – view portrait of a beautiful elegant graceful girl, nautilus, long curls hairstyle, dressing with blue sea wave, art by james jean, bexquisite details, undersea background, golden ratio composition

602383efbfe4abe87004d32d42abff71.png

maximalist close-up portrait illustration of a beautiful elegant cool siren, long curly hairstyle, dressing with blue sea wave and golden fish, art by james jean, by makoto shinkai, by agnes lawrence pelton, golden ratio composition,super detailed

28233ec35ace18126eb8b811fd6ea8dc.png

maximalist close-up watercolor of a cool youth queen portrait with vintage golden crown, long curly hairstyles, with death rose and sea wave background, by makoto shinkai, art by james jean, by agnes lawrence pelton, exquisite details,golden ratio composition

653cc181f31c6ed6e9f7865614783a18.png

close-up side view portrait of cyborg geisha, super intricate ornaments artwork by tooth wu and wlop, by alena aenami, by alphonse mucha, by brian froud, by pablo amaringo, super detailed, large depth of field

1f69af435f5c14417b0f42be9f3e8d2d.png

portrait of anime feminine long hair silver hair young man in suit, pen and ink, intricate line drawings, by craig mullins, ruan jia, kentaro miura, greg rutkowski, loundraw and dan mumford (匿名高手作品)

f31d8332da768907d824557ebcae71fa.png

portrait of anime feminine long silver hair young man in suit, epic pose, pen and ink, intricate line drawings, by craig mullins, ruan jia, kentaro miura, greg rutkowski, loundraw and dan mumford (匿名高手作品)

aa584f3212164d9b3a95572910337bc5.png

portrait of anime muscular young man in armor, epic pose, pen and ink, intricate line drawings, by craig mullins, ruan jia, kentaro miura, greg rutkowski, loundraw and dan mumford (匿名高手作品)

名人肖像生成是颇有争议的功能,DALL·E 等大厂都对人名设置了输入过滤器。但 stability.ai 对此秉承一个开放的态度。在 prompt 里输入名人,如神奇女侠 Gal Gadot,SD 能够准确生成对应的脸部。

b9f9463538cdc8497724f7912b47ad8b.png

bb98ae9fc3d3d6e69c74a9e8fcc1a661.png

6c97e574a83d894f4dd67381fd72df5b.png

portrait painting of beautiful Gal Gadot as a Mermaid, undersea, super real, highly detailed face, realistic face, beautiful detailed eyes, fantasy art, sharp focus, front light

如何注册 Stable Diffusion 使用

从 7 月 30 日开始,Stability.ai 通过 waitlist 申请名单,共分 4 波邀请了 15000 名用户参与了内测。

内测持续了约三周时间,在一个 Discord 群组中进行,跟 Midjournet 的服务模式一样。群组中共有 50 个创建通道。所有人只要输入 !dream + prompt + 参数 就发起了一次图片生成请求(免费的),几秒钟内 discord bot 就会将结果图片呈现给你。没有跟 bot 的私有对话通道,这意味着所有人的 prompt 及对应结果都是公开的。你可以看到所有参与测试用户进行的创作实验。

8 月 9 日,内测用户达到一万人时,SD 发布了discord 内的活跃数据:每秒钟有 20 张图片生成,每天一千七百万张,平均每人每天生成了 170 张图片,相当疯狂。

8 月 13 日,第一阶段内测 (使用 discord bot 功能)关闭,不再接受新的申请。

8 月 20 日,Stability.ai 宣布第一阶段内测正式结束,discord bot 服务关闭。Stable Diffusion 的服务转移到网页,正式对公众开放。当然,免费午餐也结束了。

现在,所有人注册账号就可以在网页上使用。既然是网页服务,在手机、平板、任何操作系统都可以使用哦

https://beta.dreamstudio.ai/ 

6b15196c1c9ef64d8479da7157b30fb1.png


Stable Diffusion (dreamstudio.ai )的收费标注如何

所有新注册的用户都能免费获赠价值两英镑的 200 个点数。每次标准生成耗费 1 个点数。

1 次标准生成指的是生成单张 尺寸为 512*512,Steps 为 50 的图片。如果你想要提高步数和尺寸,所消耗的点数将成倍增加。

6c4b5b9e21ab7732497553e2750b8e8a.png

参考官网给出的下表可见,最小尺寸 512*512 的图像,如把 steps 设为 150,消耗的点数为 3,价值 0.03 英镑。而最大尺寸最高步数的单张图片生成将消耗 28.2 点数,价值为 0.28 英镑。

f5ce5210e87494be8947d2d8c5e6cc22.png

相比同类服务的收费

DALL·E 的定价是 美元 15 刀,115 次生成。每次生成请求会返回 3~4 张 1024*1204 尺寸的结果图片,每次耗费 0.13 美元,约等于 0.11 英镑。

Midjournet 则为按月订阅收费,个人用户有每月 10 美元和 30 美元两档,分别对应 200 和 900 次标准生成或放大请求(1 次标准生成请求对应 1 GPU minute,在 fast 模式下。每次生成会获得四张 256*256 的初始结果,你可以选择放大,每次放大也耗费 1 GPU min)。超过限额后,每 60 GPU min 售价 4 美元。但使用这两档订阅服务,你的 prompt 和结果图片都将暴露在十分混乱的公共频道中,除非你每月再画上个 20 美元才能享有私密的服务通道。

有人可能会认为生成大尺寸图片,Stable Diffusion 的定价看起来太贵。但这三种生成模型的结果图片尺寸并不能简单换算,也并不完全等同于画质。

我的实验经验表明,对于 Stable Diffusion,想要生成大尺寸图片,将图片高度和宽度的设置拉到最高 1024px 并非一个好的选择。如 512*768 的尺寸生成的人像,很可能出现上下两张脸。768*512 的横幅尺寸生成的景观画,也一定概率会在地平线上横排出两个主题对象。目前我大部分较好构图的结果都是使用默认尺寸 512*512 生成的,这跟模型的算法相关。

6c9b9cb1792157f516e8cb3e2226b48f.png

beautiful portrait by Karol Bak, sci-fi, digital art

00a9122358628d8340f416dbbd7ef61f.png

a beautiful landscape photography of mountains, a dead intricate tree in the foreground, sunset, dramatic lighting, by Marc Adamu

从画质和细节丰富程度上比较,Stable Diffusion 的 512*512 毫不逊色于 DALL·E 2 的 1024*1024。而 Midjournet 的画质和噪点问题则一直是社区诟病的 (新算法版本中已有很大改善)。

Stable Diffusion 提供哪些参数可以设置

不像 Disco Diffusion 需要掌握对 20~30 个参数的学习和实践运用,SD 只提供了 7 个可设置的参数,非常简单。

3a0f4e6039b253a745225968acfd01a6.png

长宽尺寸:并不是数值越大效果越好,长宽的理想范围都是在 512~768 px 之间,除非你想要的生成效果不在乎主题对象的重复出现。希望获得更高分辨率的图片,最好还是先用 SD 生成以后,再寻找合适的模型进行 upscale。

CFG scale类似 DD 里的 CGS 参数。越高的数值会让生成结果跟 prompt 匹配度更高,同时也会让结果图片的饱和度和对比度更高,颜色更平滑,纹理更少。但高于 20 后会出现不良效果。

b8f2d2bf59af0b8cc1075834fc1e7df3.png

Steps:diffusion model 生成图片的迭代步数,每多一次迭代都会给 AI 更多的机会去比对 prompt 和 当前结果,去调整图片。更高的步数需要花费更多的计算时间,也相对更贵。但不一定意味着更好的结果。当然迭代步数不足(少于 50)肯定会降低结果的图像质量。

Number of images: 每次 prompt 指令生成多少张图片结果供选择。4 张是一个比较理想的选择,因为 stable diffsuion 的种子随机性很强,同一批返回结果里可能有好有坏,差距很大。当然选择生成的数量越多,计算时间就越长,每多一张就要多花一张的 credit。

21338ea5d029d5b016ddeb36f0ad616e.png

black and white pen illustration a running cat, super detailed, by dan mumford, by aaron horkey, high contrast

Sampler:扩散去噪算法的采样模式。两个带 _ancestral 的,可能会带来不一样的效果,ddim 和 plms 的结果差异会很大,其它留给你们自己去实验咯。

共有如下几种可供选择:ddim, plms, k_euler, k_euler_ancestral, k_heun, k_dpm_2, k_dpm_2_ancestral, k_lms

推友 @Erblicken 给出了他的实验结果

9dc6cd0b08ecbbb8896aff8657d47757.png

Seed:生成每张图片时的随机种子,这个种子是用来作为确定扩散初始状态的基础。所以同样的 prompt + 同样的参数设置 + 同样的种子,每次生成都会得到几乎一模一样的结果图像。如何运用种子,对于当前可玩参数较少的 SD 而言,成了最有意思的部分。

如何使用种子来改进一张作品

@bartman081523 使用同一个种子 14586 生成的一组图片,每张轻微替换了 prompt 中的一两个关键字。实验结果很明显,锁定一个种子后再调整 prompt,可以保持构图、布局大致相同,在细节和色调上带来变化。

prompt: countryside in japan, sunrise, foggy | midday | evening, cloudy | night,trees, mountains, watercolor-wash

e4f6e1407e5f0ed9ed736c6a8ba4ba53.png

胖手AI艺术家和菜头使用同一个种子,每次更换 prompt 中的年龄,得到了一个女人从半岁到 200 岁,各个年龄段的照片,合成的 gif(最后一张 3934… 岁,一个非常大的数字,和菜头表示 “SD 证明了人类有轮回”……)。

53ef0c9cb48e3a067880636d93c1de23.gif

@WeirdStableAI 用同一个种子做了 47 次生成,每次更换了 prompt 艺术风格/流派 修饰词,得到了有趣的结果对照。

dfa410437a45699300c96e728b4a0210.png

https://pbs.twimg.com/media/FZrVDVaXEAwnTYG?format=jpg&name=4096×4096 高清原图

所以如果你从一次 prompt 里得到了一个布局、构图和主题都很满意的结果,可以把种子 copy 下来,用于下一次生成。

1e2cdc02011930739b96b9fcffc14589.png

关闭 Random Seed 随机种子按钮,在输入框里粘贴种子,再根据需要调整 prompt 或参数,这样就能对结果图片进行持续的调整或优化。

3f65929d36e97a29bce2d92cf1937d1f.png

经过测试,可以对结果有影响的 prompt 调整,除了替换部分关键字,还包括:更改关键词的排序,修改分隔逗号,改变修饰词(例如,把 by xx艺术家 改为 in the style of 或 art by) 等,都是值得尝试的技巧。

还有一个比较 hack 的技巧,是在你想强调的关键词上加多组小括号,括号越多,对这个关键词的强调越重。不一定对所有 prompt 都有效。下面是我做的一个实验:锁定种子后,使用同一个 prompt :

Close-up side view portrait of Cyborg Geisha, rotobic, Machina, super intricate ornaments artwork, by Tooth Wu and wlop, by Alena Aenami, by Alphonse Mucha, by Brian Froud, by Pablo Amaringo, super detailed, large depth of field

从上到下,图 1~4,我分别给 Geisha (艺妓) 这个关键字添加了 0、2、4、7 组小括号,像这样写:

Close-up side view portrait of Cyborg (((((((Geisha)))))))) , rotobic, Machina, super intricate ornaments artwork ……

明显可见,图4 呈现了更多的人脸,更多更准确的五官细节,而 Cyborg, rotobic, Machina 这些修饰词的比重下降了。

除了小括号之外,你还可以试试对关键词添加多组单引号或双引号。

dbc70aeab3ee61debb4f8eaadf77bc77.png

d3a3dc8fb296c090c246ae74c1c77120.png

a42a85e22e2c36ffa61d6d5b844aa063.png

5d06300bb69765d33a89b33c727d0183.png

在使用锁定种子这一技巧时需要注意,种子确定噪音的初始状态,所以对尺寸设置做任何改变后,同一个种子就无法重复了。

如果 SD 运行的版本有所不同,种子也可能失效。

我用 Stable Diffusion 创作的图片著作权如何归属,我可以拿来商用吗?

取决于你运行 Stable Diffusion 时是通过哪种服务:

1,自己部署已经开源的 Stable Diffusion,也就是说用的是自己的 GPU 资源,所生成图片(Output)的著作权,Licensor(Stability.ai)claims no rights。

我理解得没错的话,就是结果图片著作权和如何对外授权都归你自行定义,Stability.ai 不做约束,也不会共享你的著作权和收益。

f25e2fc47fd9ddbc7c85b2a66797b999.png

开源模型的授权协议全文请访问下面链接, 对 Output 的声明在第6章。

https://huggingface.co/spaces/CompVis/stable-diffusion-license

2,使用 dreamstudio 网站、官方 discord bot 或 其它 Stability.ai 直接提供的生成服务, 作品著作权归属就需要注意了。TOS 里明确了,你拥有生成作品的著作权,但同时也强制你将作品以 CC0 1.0 授权给 Stability.ai 和 通用公共领域。

通俗点解释,你可以商用或非商用自己创作的图像,但你的图像只要是通过上述服务生成的,就自动变成了 CC0 1.0  授权。成为通用公共领域 royalty-free 的图片资源。服务提供商 Stability.ai 和该服务上其它用户(包括爬虫)跟你享有同等的,对你作品进行分发、复制、改编、修改 等权益,无需经过你同意,也无需付费,包含商用目的。

这也意味着你使用上述服务生成的图像以后也会进入训练数据集哦

TOS 全文:https://beta.dreamstudio.ai/terms-of-service

3. 使用其它接入 Stable Diffusion API 的服务,例如 Nightcafe,需要参考对应服务提供商的协议。


Stable Diffusion 背后的研发团队

Stable Diffusion 所属的 Stability.AI 是一家创始于英国伦敦的年轻的人工智能解决方案提供商。公司 slogan 就是 AI by the people, for the people ,显示其愿景中对开放的承诺及开源协作的重视。

其官网简介上也提到 We are unafraid to go against established norms and explore creativity. “在探索创新的道路上并不惧于挑战已有规则”。

在 Stability.AI 官网上列出的他们资助的诸多 AI 研究团队或项目中,有两个跟AI 图像生成领域 密切相关:

EleutherAI:去中心化组织的 AI 开源研发团队。虽然他们自称草根,但在大型语言模型 (GPT-NeoX-20B)、机器学习图像生成这两个领域已经是开源团队中的翘楚。

EleutherAI 的核心成员 Katherine Crowson @RiversHaveWings(数据科学家)和 Ryan Murdoch @advadnoun(Adobe的机器学习算法工程师)开始实验一种之前没有人想到过的做法,将两种不同的神经网络模型 CLIP 和 GAN 连接起来。2021年1月,其成果作为 notebook 发布,瞬间引爆了上千的业界转发。这个 notebook 就是 CLIP + VQGAN ,第一个 CLIP guided text-to-image 模型的实现:通过输入一小段 prompt,让深度学习网络为你生成对应的图片。

而后来我们熟知的 Disco Diffusion 就是 CLIP + VQGAN 的下一代进化,CLIP + Diffusion 生成模型。

VQGAN + CLIP 引领了全新一代 AI 图像生成技术的风潮,你会在几乎所有开源 TTI 模型的简介都里看见对 Katherine Crowson 的致谢,她被称之为是这一代模型的奠基者是当之无愧的。

EleutherAI 正计划训练可以比拼当下最大规模的 GPT-3 模型(175B 参数)的语言模型。再加上当前正热的 Stable Diffusion 的成功,EleutherAI 显然是 OpenAI 不可小觑的开源世界挑战者。

LAION 是一个跨全球的非营利 ML 研究机构,今年 3 月开放了当前最大规模的开源跨模态数据库,包含 5.85 Billion 个的 CLIP-filtered 图片-文本对,是它上一个版本 LAION-400M 的十四倍大。可以被用来训练类似 DALL·E、DD、SD 这样的 图像/文本生成模型(image/text generative models),也可以用于训练 CLIP(Contrastive Language-Image Pre-Training model)这样可用于给文本和图像的匹配程度打分的模型,这两者都是现在 AI 图像生成模型的核心部分。

除了提供 5B 这样的海量语料库,LAION 还训练 AI 根据艺术感视觉美感(Aesthetics),给LAION-5B 里图片打分。把高分图片归进了一个叫 LAION-Aesthetics 的子集。

https://github.com/LAION-AI/laion-datasets/blob/main/laion-aesthetic.md

LAION-5B 数据集里搜索 cat 的结果

f6b90009da6e20c77e0d3391b3c1650e.png

LAION-Aesthetics 数据集里搜索 cat 的结果

9c4cfeed504b1f2c126b988aff594bbf.png

Aesthetics score 从 0~10 一共 10 个分数等级,8 分以上的 800 万张,7 分以上的 1.2 亿张。使用高美感分数的数据集训练出来的 TTI 模型,当然能更大概率生成符合人类审美的结果。这也是为什么相较其它模型,Stable Diffusion 更有艺术感艺术感,对风格和流派的把握更准确,更多样。


Stable Diffusion 是如何训练出来的?

、SD 的基础是 Latent Diffusion 这个生成速度快、对计算资源和内存消耗需求小的扩散模型。再结合已在 DALL·E 2 和 Imagen 取得惊人进展的 conditional diffusion model 相关的论文及实践成果。

其训练模型的核心数据集则是前文介绍过的 LAION-high-resolution 和 LAION-Aesthetics。使用 AWS 提供的 4000 块 A100 显卡组成的强力计算集群,花费约 15 万小时的训练完成了第一个版本。

慕尼黑大学机器学习研究小组(前海德堡大学 CompVis Lab)的 Robin Rombach 领导研发的 使用 Latent Diffsuion 合成高分辨率图像合成的模型架构,视频编辑软件 Runway 开发者 Patrick Esser 一起做的研发,加上 ELeutherAI 团队的 Katherine Crowson、JDP 和 LAION 项目团队在模型训练上的集体努力。Stability.ai 提供计算资源训练模型和产品开发。

  • 具体技术细节请移步

https://huggingface.co/blog/stable_diffusion

  • 训练过程中的 3 个 checkpoint:

https://huggingface.co/CompVis/stable-diffusion-v-1-4-original

  • 论文 《High-Resolution Image Synthesis with Latent Diffusion Models 》

https://arxiv.org/abs/2112.10752

612c077cd8125b96b3081bbd9ffc1458.png

Stable Diffusion 的开源

Stability.ai 动作非常迅速地践行了它们之前所作的开源承诺。8 月 22 日,所有代码、模型和权重参数库已经在 Huggingface 的 Github 上开放:

https://github.com/huggingface/diffusers/releases/tag/v0.2.3

https://huggingface.co/CompVis/stable-diffusion

这也就意味着你可以在自己本地部署并免费运行 Stable Diffusion 啦。

Stability.ai 的发布公告中称 Stability Diffusion 可以部署在 10G 显存的消费级显卡上使用,生成 512*512 尺寸的图片只需要几秒。当下开源模型中推荐 v1.4 470K, 显存消耗约为 6.9 G,对比DD 动辄需要 3090 这一的高端显卡和数十分钟的等待时间,大大降低了当前开源 TTI 模型的使用门槛。

SD 开源模型的授权协议是 Creative ML OpenRAIL-M license,在 非有害目的 的条件下,允许商用和非商用。

你还可以试试 Huggingface 的 Diffuser library (强烈推荐), 将 Stable Diffusion 作为 pipeline 中的模型运行,使用和安装说明的详情参考访问这个 colab notebook :

https://colab.research.google.com/github/huggingface/notebooks/blob/main/diffusers/stable_diffusion.ipynb

huggingface 的 space 上也可以直接体验 SD demo:

https://huggingface.co/spaces/stabilityai/stable-diffusion

Stable Diffusion API

  • A reference Python client that can be installed via pip using pip3 install stability-sdk 

https://github.com/Stability-AI/stability-sdk

  • A ipynb notebook that shows how to use it from ipython or Collab

https://github.com/Stability-AI/stability-sdk/blob/main/nbs/demo_colab.ipynb 

  • A .proto file that can be used to generate gRPC (https://grpc.io/) stubs for your favorite language! We have internally used this to generate stubs for Python, Golang, and TypeScript/JavaScript

https://github.com/Stability-AI/stability-sdk/blob/main/src/proto/generation.proto 

Stable Diffusion 未来有哪些可期待的亮点

功能上,根据各渠道泄露的消息 和 当下AI图像生成常见 pipeline 的实现可行性,大家都非常期待的 init image 和 mask 功能,应该很快就会支持。

Init Image:基于一张你上传的底图,配合 prompt 生成底图的变体,或对底图进行风格或材质的渲染,还可以精确控制 底图 和 text prompt 两者的对生成结果的影响比重。

Mask: 在 DALL·E 也被称为 inpaint 或 outpaint。

在原始图片上你想修改的地方标记出 mask 蒙版(比如用笔刷涂抹,或橡皮擦除), 配合prompt,AI 可以在蒙版标记区域补上新的内容,或重新生成局部完成对原图的修补,这就是 inpaint。

例如,左图由 SD 生成,我用蒙版遮盖了不太完美的右眼和牙齿的右边部分,再重新生成,得到修补结果如右图。只是目前右图现在是转移到 DALL·E 里实现的。

63e5e6c7ff16cafaeb57150d3b8a37f6.png

蒙版的标记可以是在画面内(inpaint),也可以是画面外(outpaint)。

左图是 SD 生成的原图,将原图放在一张较大的空白画布中,再补充上 prompt (添加了修饰词 with blue sea wave and golden fish background)再次生成,就完成了右图,等于把图像外接了一圈。这种功能可以用于修补不完美的构图,或从一个很小的画面通过多次生成,构建出一个很大的场景。

6dbc7fa525de6d3a94fe073fb2a414a7.png

模型的更新方面,Stability.ai 承诺会在接下来的一段时间里,将发布当前 v1.4 模型的优化版本以及其他变体和架构,以提高性能和质量。甚至有望支持其在 AMD、Macbook M1/M2 和其他芯片组上运行。目前还是只推荐使用 NVIDIA 芯片。

接口和应用: AI 图像生成应用中的前辈 NightCafe.studio 刚刚已经接入了 Stable Diffuion ,用户可以在 DD、SD、VQGAN 和 风格迁移 这几大类模型中四选一。

基于已经 Stability.ai 已经开放的 API,相信你很快可以在大部分 AI 图像生成应用或 APP 里都用上 SD。

4edb82342b224cbead27c05721076005.png

专精于 AI 人脸生成的应用 Artbreeder 刚刚发布了 跟 Stable Diffusion 合作的应用 collage.artbreeder.com

957c3450ec9d3ac6208eccca92b07373.png

这个应用很有意思,你可以在空白画布上画一些形状,用纯色或噪点填充,或添加一些现成的元素(比如上图中的月亮),然后 写好 prompt 引导 AI 生成,下面那个 AI 的滑条可以设置画布上底图对结果的影响比重。然后生成……

645d4f4c4b0e0f692605c51685eee202.png

一看就明白,这个应用基本就是我前文说过的 init image 功能啦。只是这个底图是在网页上画出来的。

此外,Stability.ai 在发布 SDK 的时候也承诺会尽快发布支持多语言的模型,还有使用 Golang 开发的高性能 Discord bot,也是开源的哦。这也就意味着你可以在自己建的 discord group 里接入 SD 生成 bot,当然,如果像使用 SAAS 服务那样,直接使用它家的 API,需要按次支付成本哦。

我们也有理由展望,未来会有越来越多的 IM、SNS 或游戏中接入 SD 或类似 SD 这样快速易用的 AI 图像生成模型。

而图像生成的下一步就是 视频、可交互动视、虚拟实境 和 3D。

想象一下,在 游戏 或 元宇宙 开发里,用语音说出几个修饰词,就能即时生成真正独一无二的装备、道具、服装、建筑,随意根据自己的想象去设计 场景、NPC 和 敌人。就连对白,也可以用 GPT 生成的。

在生产力工具方面,图像、视频、动画、3D 编辑创作工具中,应该也会很快看见更多同 AI 图像生成模型的结合,比如辅助构建概念草图、修补图像,创建贴图或关键帧。

对于 2022 年的人工智能领域,图像生成模型 text-to-image generator 无疑已成为最大的主角。从 3 月 Disco Diffusion 的火爆出圈,4 月 DALL·E 2Midjourney 开始邀请制内测,5 月和 6 月 Google 发布了两大 TTI 模型 Imagen Parti(仅论文,无内测)。7 月底,Stable Diffusion 的内测和开源又占尽了风头。TTI 这个领域的变化之快,是以天而计的。

2022 年还剩 1/3,不知道还有多少惊喜等待着我们。

当然所有新技术都是双刃的,会赋予一部分人新的力量,也会打翻一部分人盘子里的蛋糕。下一篇我会写写 AI 图像生成当下面临的最大争议:”AI 艺术家” 们是不是在窃取其它艺术家的劳动成果?

附录:一些有用的资源

Stable Diffusion prompt 搜索引擎 —— 抓取了大量  SD 的 prompt 对应的生成结果。对于不知道该怎么写 prompt 的新手是很好的参考。

3119e0a2272bbe8a87e9f7a8c665fdf1.png

https://lexica.art/ 

用 Stable Diffusion 生成的艺术家风格参考库

9b14a8b52da65d51d1fe06585ed937f5.png

https://proximacentaurib.notion.site/e2537cbf42c34b7e9a9a4126f81dfd0d?v=7b4a3c03fb654045be324eb71acc57e6 

CLIP Ranked Artists —— ProgRockDiffusion 的开发者 Jason Hough @LowFuel 的项目,列出了各艺术家在 CLIP 各模型里的的感应度评分,以及相似艺术家。

b35245ffd03cbee38412bbe9ed8eb1a4.png

https://f000.backblazeb2.com/file/clip-artists/index.html#by_jim_burns

Prompt 构建器 —— 写 prompt 词汇量不够?想不出来更具体地描述一个对象?这个应用把多个维度的修饰词做成了一个个带 demo 效果图的可点按钮,只需点点点,就能自如组合出一个花样繁多的 prompt 了,非常直观。

443a6bfd95ef00937a1605c337a2ff13.png

203df8c3967c9ada31b3f3faf3b92268.png

https://promptomania.com/stable-diffusion-prompt-builder/

点击阅读原文,访问 beta.dreamstudio.ai, 开始创造吧

文章出处登录后可见!

已经登录?立即刷新

共计人评分,平均

到目前为止还没有投票!成为第一位评论此文章。

(0)
青葱年少的头像青葱年少普通用户
上一篇 2023年2月17日
下一篇 2023年2月17日

相关推荐