What the DAAM: Interpreting Stable Diffusion Using Cross Attention

论文链接:https://arxiv.org/pdf/2210.04885.pdf

Background
在读本篇文章之前先来了解深度学习的可解释性,可解释性方法有类激活映射CAM、基于梯度的方法、反卷积等,在diffusion模型出来之后,本篇文章就对扩散模型中的交叉注意力做了探究,主要做的工作是用交叉注意力来解释扩散模型学习到的特征,针对的具体任务是文本生成,探究不同词性、语义的单词和图像特征之间的关系。
不同的解释方法对应的可视化
不同的解释方法对应的可视化


可以看到,不同语义的单词,对应图片的注意力区域也会有所不同。

本篇文章的研究内容有两方面,一个是研究语法关系如何转化为视觉交互,另一个是扩散模型中的视觉语言现象。用到的研究方法是对
归一化的Cross attention分别进行定量评估: 语义分割和定性评估:归因分析。

Pipline

Stable Diffusion模型
这个模型是另一篇论文主要的工作,作者直接把这个模型拿过来用了,没有做什么改进。
在这里也简单介绍一下Stable Diffusion,这是一个生成扩散模型,可以做的任务有文本生成图像、图像生成图像、分割生成图像等等。模型分为三个部分,左侧为编码解码结构,中间为隐空间 生成扩散结构、右侧为条件指导结构。
图像X经过编码器生成离散的向量(目的是为了可以进行离散的加噪去噪),再经过一个加噪过程(可以是高斯噪声)得到一个各向同性的噪声分布,再经过去噪过程,恢复为图像编码,经过解码器就可以得到生成的图像。去噪的模型是一个由N个交叉注意力块组成的Unet模型
,模型学习到噪声的分布与条件的关系,将条件输入训练后的模型就可以生成目标图像。
作者在这里的去噪逆扩散过程中选择其稍微靠后的step,进行可解释性研究。

Diffusion Attentive Attribution Maps
以往的归因分析通过梯度进行计算,但在扩散模型中无法进行梯度计算,因此我i们选用词汇和特征图的得分的方式进行分析。
下图中的A展示了一些词汇的注意扩散归因图,B表示双三次线性插值,用了三次插值法得到了A右面那张图,经扩展映射得到C,对各层热力图进行求和得到D,最后尺度归一化(归一化值求和保持线性尺度),将其可视化为一个软热图,较高的值具有更大的归因。经过一个阈值计算,得到E。

结果分析
下面这张图表示了专家对图注意力与词汇匹配的一些得分判断,横坐标分别表示差 中 亮 优,可以看到名词和比例的评价较好,说明模型对这两种特征学习的很好。

广义分析
coco数据集可解释的词(含语义分析)与其对应的热力图展示如下

句法分析
对比了具有上下文关系 句法关系的热图表示。

形容词分析
当改变形容词时会发现生成物体的特征也随之改变,但当关键词去掉的时候,比如汽车,会发现后面的大楼也会被识别为关键目标,说明也还是有一定的误差。

Conclusions
本文通过解释词-像素交叉注意图,研究了扩散模型中的视觉语言学现象。通过定量语义分割任务和定性广义归因研究,证明了归因方法DAAM的正确性。作者应用DAAM来评估句法关系如何转化为视觉互动,发现某些注意力头的适当的包含了它们的从属特征。作者用这些发现来形成关于特征纠缠的假设,表明词是混杂的,形容词出现太广泛。

文章出处登录后可见!

已经登录?立即刷新

共计人评分,平均

到目前为止还没有投票!成为第一位评论此文章。

(0)
乘风的头像乘风管理团队
上一篇 2023年12月27日
下一篇 2023年12月27日

相关推荐