T2I
-
文本生成图像工作简述4–扩散模型、自回归模型、生成对抗网络的对比调研
基于近年来图像处理和语言理解方面的技术突破,融合图像和文本处理的多模态任务获得了广泛的关注并取得了显著成功。 文本生成图像(text-to-image)是图像和文本处理的多模态任务…
-
Text to image论文精读GigaGAN: 生成对抗网络仍然是文本生成图像的可行选择
GigaGAN是Adobe和卡内基梅隆大学学者们提出的一种新的GAN架构,作者设计了一种新的GAN架构,推理速度、合成高分辨率、扩展性都极其有优势,其证明GAN仍然是文本生成图像的…
-
三种能有效融合文本和图像信息的方法——特征拼接、跨模态注意、条件批量归一化
当前T2I模型的一大限制就是如何有效地融合文本和图像信息? 目前常用的有特征拼接(features concatenation)、跨模态注意(cross-modal attenti…
-
Text to image论文精读RAT-GAN:文本到图像合成中的递归仿射变换 Recurrent Affine Transformation for Text-to-image Synthesis
RAT-GAN提出了一种用于生成对抗网络的递归仿射变换 (RAT),将所有融合块与递归神经网络连接起来,以模拟它们的长期依赖关系,跟DF-GAN很类似。文章发表于2022年4月。 …
-
FID指标复现踩坑避坑 文本生成图像FID定量实验全流程复现(Fréchet Inception Distance )定量评价实验踩坑避坑流程
一、FID分数简介 FID全称为:Fréchet Inception Distance。 FID分数用于根据预训练网络提取的特征,测量真实图像分布和生成图像分布之间的距离。真实图像…
-
Text to Image 文本生成图像定量评价指标分析笔记 Metric Value总结 IS、FID、R-prec等
内容 一、简介 二、inception score(IS) 2.1、原理 2.2、复现 2.3、排行榜 2.4、不足 三、FID(Fréchet Inception Distanc…