Stable Diffusion的结构要被淘汰了吗?详细解读谷歌最新大杀器VideoPoet

Diffusion Models视频生成-博客汇总

前言:视频生成领域长期被Stable Diffusion统治,大部分的方式都是在预训练的图片Stable Diffusion的基础上加入时间层,学习动态信息。虽然有CoDi《【NeurIPS 2023】多模态联合视频生成大模型CoDi》等模型尝试过突破这一结构的局限,但是都没有对业界带来特别有影响力的工作。最近谷歌出手了,拿出了Decoder-Only结构视频生成模型,堪称王炸!华为曾经出过Decoder-Only的模型(还被群嘲过),但是事实逐渐证明这种能够把文本、音频、视频等各种模态通过编码成tokens组合在一起是多么具有想象力的事情!明年的ChatGPT-5也会是这样的形态吗?

目录

版权声明:本文为博主作者:沉迷单车的追风少年原创文章,版权归属原作者,如果侵权,请联系我们删除!

原文链接:https://blog.csdn.net/qq_41895747/article/details/135211141

共计人评分,平均

到目前为止还没有投票!成为第一位评论此文章。

(0)
乘风的头像乘风管理团队
上一篇 2023年12月29日
下一篇 2023年12月29日

相关推荐