《Bi-modal progressive mask attention for fine-grained recognition》论文翻译解读和代码复现

Bi-modal progressive mask attention for fine-grained recognition
用于细粒度识别的双峰渐进式掩模注意

摘要传统的细粒度图像识别需要根据原始图像下的视觉线索来区分不同的下属类别（如鸟类物种）。由于小的类间变化和大的类内变化，最好能捕捉到这些子类别之间的细微差别，这对五线谱识别来说是至关重要但又具有挑战性的。最近，语言模式聚合已经被证明是一种成功的技术，可以改善经验中的视觉识别。在本文中，我们引入了一个端到端的可训练的渐进式掩码注意（PMA）模型，通过利用视觉和语言模态来实现五维识别。我们的双模态PMA模型不仅可以通过我们基于面具的方式分阶段捕捉视觉模态中最具辨别力的部分，而且还可以在交互式对齐范式中探索来自语言模态的视觉以外的领域知识。具体来说，在每个阶段，我们提出了一个自我注意模块，以关注图像或文本描述中的关键片段。此外，还设计了一个查询关系模块，以抓住文本的关键词/短语，并进一步建立两种模式之间的联系。后来，从多个阶段学到的双模态表征被汇总为识别的最终特征。我们的双模态PMA模型只需要原始图像和原始文本描述，不需要图像中的边界框/部分注释或文本中的关键词注释。通过在五级基准数据集上进行全面的实验，我们证明了所提出的方法在视觉和语言双模态或单一视觉模态上都取得了优于比较基线的性能。
关键词细粒度视觉识别、多模态分析、深度神经网络、语言模态。

1 引言

细粒度图像识别的任务是通过挖掘原始图像下的视觉线索来识别鸟类[1]、花[2]、汽车[3]和飞机[4]的种类。它已应用于多种现实场景，如生物保护[5]、[6]、车辆识别[7]、产品识别[8]等。由于从属类别都彼此相似，不同的子类别只能通过细微的差异来区分，这使得细粒度识别成为一个具有挑战性的问题。与一般的目标识别任务中相比，细粒度识别更有利于学习目标的关键部分，这有助于区分不同的子类别，并对齐同一子类别[9]、[10]、[11]的对象。

在本文中，我们提出了一种新的细粒度方法，称为渐进掩模注意(PMA)，它探索了细粒度识别的双模态分析。PMA统一了一种渐进式掩模策略，可以同时友好地应用于视觉和语言模式，揭示了其灵活性和可扩展性。此外，与细粒度图像的强监督（如边界框和部分注释）相比，文本描述（如句子和短语）是弱监督，它们还可以提供视觉域无法显示的语义。此外，文本描述可以由普通人而不是领域专家相对准确地返回。为了应用我们的渐进掩模策略来解决细粒度识别问题，我们还提出了双模态渐进掩模注意(双模态PMA)模型。它可以从视觉流和文本流中获取关键信息。更具体地说，原始图像和文本首先由卷积神经网络和长-短期记忆网络分别处理为深度视觉描述符和名词短语嵌入。然后，将处理后的双模态表示输入到我们的双模态PMA中，以产生一个联合表示。在我们的双模态PMA中，一个自注意模块被设计用来从视觉或语言模态中提取语义。通过使用各种掩模模板，自我注意机制收集的语义可以用来定位视觉模态中的关键部分，或捕获语言模态中的视觉域外知识。此外，还设计了一个查询关系模块来连接从语言模态的关键字/短语到视觉模态的关键部分的连接。此外，由于所提出的注意方法，我们可以对齐两个模态的表示并获得更有区别和丰富的连接特征。然后，我们可以同时获得全局级图像特征、部分级图像表示、全局级文本特征和对齐的部分级文本表示。

除此之外，通过引入我们提出的渐进掩码策略，我们可以以逐阶段的方式堆叠多个PMA模块。我们的PMA是为细粒度识别量身定制的，它可以逐步参与一组不同的和不重叠的部分。它将显著提高最终的细粒度识别精度。具体地说，在PMA输出上一阶段的双模态的参与部分后，这些部分信息被视为下一阶段的输入。我们提出了一种基于面具的策略，即丢弃视觉中对象的定位部分，并同时过滤掉语言中定位部分的相关名词短语。由于最重要的图像区域和名词短语被省略了，PMA在那个阶段可以集中在视觉和语言的次要重要部分。在这种模式下，被丢弃的区域/短语将逐步扩展。因此，我们的方法可以以多阶段的方式迭代工作，这有利于细粒度识别。

此外，有时，我们可能会在下游任务中遇到一些没有任何文本级数据（即单模态）的场景。为了在这种情况下利用我们的模型（即，在没有文本信息的情况下进行模型推断），我们进一步开发了一种知识蒸馏方法，将我们的双模态PMA对双模态的泛化能力提炼为只能处理图像数据作为输入的学生模型。多亏了我们的蒸馏器，我们的学生模型能够仅用测试图像做出准确的预测，并且通过使用视觉和语言模式，几乎与我们的模型的准确性相匹配。

本文的主要贡献如下：

我们引入了一个统一的框架，称为渐进式掩模注意力，通过结合来自视觉和语言模式的判别线索来处理细粒度的识别任务。
我们专门为每种模态设计了一种基于注意力的方法，以捕获重要的对象部分以形成部分级表示。此外，开发了一种基于阶段掩码的策略来堆叠这些注意力单元。因此，整个模型可以逐步定位一组独特但独特的关键部分，或利用文本描述来提供视觉域之外的知识。
我们进一步开发了一个知识蒸馏器，将视觉和语言模式的知识压缩到一个对象级模型中，这允许模型仅使用图像数据进行预测。
我们对四个细粒度的基准数据集进行了全面的实验，我们提出的模型在双模式或单视觉模式上的性能优于竞争解决方案。

本文的其余部分组织如下：第二节回顾了以前关于细粒度识别、多模态分析和注意机制的工作。第三节详细阐述了我们的视觉和语言模型的详细设计。第四部分介绍了我们的实验设置，第五部分报告了四个公共数据集的结果以及消融研究。最后，我们在第六节总结了我们的工作。

2 相关工作

3 实现

在本节中，我们将通过阐述我们的双模态渐进掩模注意(双模态PMA)框架，详细介绍其两个关键模块，即基于视觉的PMA模块和基于语言的PMA模块。具体来说，双模态PMA是为了融合视觉和语言模式的信息在每个阶段都以一种互动的方式进行研究。而我们使用PMA逐步迭代地定位双模态的顶级判别部分和相关短语。图1显示了我们的双模态PMA模型的体系结构。

图1我们的双模态PMA模块的详细架构。左边的图是我们定义的组件“SAM”和“QRM”。“是加权和运算，“”是加法运算，是非线性激活函数。子模块“参与并定位部分”是指根据最大注意权重来定位特征图中最具区别性的部分。红色虚线表示使用来自定位部分的压缩输出来查询语言模态，而语言模态的是短语嵌入的向量。在这里，我们展示了该特征图中的四个块，作为一个简单而清晰的例子。

A.符号标记

在引言的开始，我们首先给出一些预定义的组件，它们将在下面的部分中使用。图1还说明了这些组件。

1)自我注意模块(SAM)

SAM是一个用于从单一模态中收集语义的组件。假设为输入，则SAM的公式表示为

其中 $W_1%5Cin%20R%5E%7Bd%5Ctimes%20%5Cfrac%7Bd%7D%7Br%7D%7D$ 和 $W_2%E2%88%88R%5E%7B%5Cfrac%7Bd%7D%7Br%7D%5Ctimes%201%7D$ 是可学习矩阵，是采样比。分别是指ReLU的激活函数（在视觉中）和tanh的激活函数（在语言中）

2)查询关系模块(QRM)

QRM用于建立视觉和语言模式之间的联系。它能够引导视觉功能在语言模态中查询相关的键。设以为关键向量，为查询向量，则QRM的公式为：

其中表示点积，是可学习矩阵。

3)掩模模板

我们假设作为掩模模板，这将被我们的渐进掩模策略所采用。这里的与输入向量的数量和一致，其中在每个训练步骤中初始化时为0。我们将视觉模态和语言模态的掩模模板定义为和。它的元素将通过逐阶段的方式逐步更新，并将在下面的小节中详细阐述。

B.视觉模态中的渐进掩模注意

识别部分定位是视觉领域中细粒度识别的一种常用技术和核心技术。在本节中，我们设计了一种自注意力机制来定位从原始图像中最有区别的部分。更重要的是，我们将渐进掩模策略应用到注意模块中，逐步关注一组不同的非重叠部分，而现有的基于注意的多区分部分定位方法只重复关注几个重要部分。具体来说，对于每个被参加的阶段，我们使用一个掩模来丢弃上一阶段的定位部分。因此，我们的PMA可以在不同的阶段定位有区别但不同的部分。为了提高细粒度识别性能，我们还将由注意权重和判别部分特征计算出的全局图像语义聚合为单个阶段的最终状态。此外，本阶段区分部分的特征向量将用于语言形态中进行文本指导。

1)输入准备

给定一个图像，我们使用传统的CNN对其进行编码，并从最后一个卷积层(如VGG-16中的conv5_3)获得输出。让它是。对于细粒度识别，大的图像分辨率可以用于捕获有区别但细微的对象的部分，但也会由于深度描述符数量的增加而增加计算负担。我们在此使用一个额外的最大池操作符来收集更紧凑的信息，这也可以减少最终描述符的数量，而不影响被大分辨率捕获的细微细节。同时，额外的池化可以改善这些集合描述符的接受域。因此，我们将看作是块的集合，其中和 $n%3D%5Cfrac%7Bh%5Ctimes%20w%7D%7B4%7D$ 。表示包含四个维深度描述符的第个块。然后，我们在上附加一个最大池，使每个特征映射包含更紧凑的信息。因此，输出表示为，其中是聚合的局部特征向量。然后，使用作为我们的注意模块在视觉形态中的输入，同时收集全局信息和局部信息（即区分部分线索）。

2)视觉表达

给定一张图片，经过以上准备，我们可以得到。然后，我们引入自注意力，并使用以下视觉掩码模板来评估每个局部特征向量对应的注意力权重：
$a%5Ei_v%20%3D%20%5Cfrac%7B%5Cexp%28%5Ctext%7BSAM%7D%28%5Ctilde%7Bx_i%7D%29%2Bm_i%5Ev%29%7D%20%7B%5Csum_%7Bj%3D1%7D%5En%20%5Cexp%28%5Ctext%7BSAM%7D%28%5Ctilde%7Bx_j%7D%29%2Bm_j%5Ev%29%7D%20%5Ctag%7B3%7D$
等于公式(1)以及是的第个元素。然后，我们计算每个局部特征向量的加权和作为内容向量接着可以看作是全局视觉流的表示，以反映图像级的全局视觉信息。

为了进一步提高细粒度识别精度，需要找到和定位具有鉴别信息的关键对象部分，以区分不同的子类别。由于注意权重可以反映相应部分对类别预测的重要性，因此我们可以根据这些注意权重的得分来定位关键部分。最大的应该是最重要的一个，它对应的块应该是我们想要定位的关键部分。我们把它表示为。在此基础上，我们使用和上的全局平均池化操作来获得一个紧凑的部位级特征。我们将该部分级特征表示为局部视觉流的局部特征。请注意，收集了当前视觉特征中最具代表性的语义。此外，我们将使用fv本地来连接到语言模态的连接。

最后，我们将上述全局特征和局部特征局部特征连接为，形成视觉模态的最终表示：

其中代表连接操作。

3)渐进掩模策略：

基于公式（3），我们知道可以反映出区块应该注意的程度。为了实现多个不同部分的定位，我们设计了一种视觉掩模模板的掩模策略，迫使堆叠的模块以逐阶段的方式捕获不同的区分视觉部分。如果我们将当前阶段返回的最大注意权重表示为。然后，在每个阶段结束时，我们将把掩码模板的元素更新为，如果。在接下来的阶段，我们的注意力模块将根据更新的掩模定位另一个重要部分。受益于我们的渐进式掩模注意策略，我们捕获了多个判别部位，而没有部分部位。

语言模式中的渐进式掩码注意

学习从视觉特征中对齐文本信息是跨不同模式的联合表示学习的常用方法。为了在任务中利用语言模式，我们采用基于查询的注意力来捕获与每个本地化部分相关的细粒度名词短语。这些捕获的名词短语可以被认为是视觉域中的文本表示。但是，语言描述通常有一些原始图像无法表达的信息。因此，我们还应用自我注意机制和具有渐进掩码策略的自我注意机制从语言模式中收集视觉域之外的知识。具体来说，我们在每个查询阶段之后丢弃定位部分中的一些相关名词短语，并收集剩余的短语以形成全局特征。基于查询的（局部）特征和全局特征都将在当前阶段融合到最终状态。

1)输入准备

给定描述图像中细粒度对象特征的原始文本，我们首先采用一系列自然语言处理[34]中常用的技术（即单词标记化、词性标记和名词短语分块）从中进行提取每个名词短语，我们使用单词嵌入和长-短期记忆(LSTM)[35]来提取短语级嵌入。我们表示这些短语嵌入为，其中是名词短语的数量，是短语嵌入的向量。因此，采用从语言形态中的注意模块中生成局部层次和全局层次的文本语义。

2)语言表示

对于局部部分级特征和转换后的短语嵌入，设计了一种基于查询的文本掩码模板的注意机制，以生成相应的文本表示。每个名词短语的注意力权重计算如下：
$a%5Ei_v%20%3D%20%5Cfrac%7B%5Cexp%28%5Ctext%7BQRM%7D%28f_%7B%5Ctext%7Blocal%7D%7D%5Ev%2Cz_i%20%29%2Bm_i%5Et%29%7D%20%7B%5Csum_%7Bj%3D1%7D%5Em%20%5Cexp%28%5Ctext%7BQRM%7D%28f_%7B%5Ctext%7Blocal%7D%7D%5Ev%2Cz_i%20%29%2Bm_i%5Et%29%7D$
其中等于公式(2)，并且是的第个元素。我们将内容向量形成为。更重要的是，可以被认为是一个本地语言流，它为当前的视觉输出聚合了最典型的文本语义。
除了由局部局部特征引导的文本特征外，我们还想挖掘一些视觉域之外的文本知识。因此，我们丢弃与本地化部分高度相关的短语，并对剩余的短语采用自注意力机制来生成文本表示，从而收集视觉域之外的特征。每个短语的注意力权重为：
$a%5Ei_v%20%3D%20%5Cfrac%7B%5Cexp%28%5Ctext%7BSAM%7D%28%5Ctilde%7Bz_i%7D%29%2Bm_i%5Et%29%7D%20%7B%5Csum_%7Bj%3D1%7D%5Em%20%5Cexp%28%5Ctext%7BSAM%7D%28%5Ctilde%7Bz_j%7D%29%2Bm_i%5Et%29%7D%20%5Ctag%7B6%7D$

其中等于公式(1)，我们计算每个名词短语的加权和作为内容向量。因此，将语言视为收集视觉域外的信息的全局语言流。

最后，我们将全局特征和局部特征连接为，形成语言模态的最终表示：

3)渐进掩模策略

渐进式掩模策略：基于公式(5)，反映了短语与定位部分特征的相关性。由于我们希望捕获更多可能在图像中不存在的文本描述符，因此我们为文本掩码模板设计了一种掩码策略，以强制后续阶段探索更多的视觉域外特征。在本地流（语言模式）中进行基于查询的关注之后，我们将元素更新为，因为它的权重排名前三，并且高于。请注意，在当前阶段完成本地流后，将操作此掩码策略。受益于我们的渐进掩模策略，我们可以同时收集在视觉域和视觉域之外的文本表示

D.阶段性特征聚合

如前所述，我们分别为视觉和语言模式设计了两个渐进式掩模注意模块，一个用于关键部分本地化，另一个用于获取文本关键字。对于每个阶段，我们将视觉表示和文本表示连接起来作为最终输出。之后，我们在每个阶段的输出之后添加一个共享的全连接层来进行降维：

其中，表示连接，表示完全连接的层。为了发挥多阶段集成的优势，我们还将这些输出状态汇总为预测的最终表示。在这里，我们在我们的方法中将阶段的数量限制为3。首先，我们通过对特征图X进行全局平均池化来提取对象级的表示对象，以获取图像级的视觉信息。然后，我们将对象级表示和多个阶段的输出连接起来，形成最终的表示:

在这里，我们使用三个阶段作为一个示例。然后，在最终表示法上附加一个带有softmax函数的全连接层，进行最终分类。利用传统的交叉熵损失来驱动整个网络的训练，我们的模型可以进行端到端进行训练。图2显示了我们的多阶段双模态渐进掩模注意模型的整个框架。

E. 双模态PMA的知识精馏技术

为了支持我们的双模态模型在单模态环境中进行预测（例如，仅使用图像数据），我们进一步执行了一个知识蒸馏方法[36]，将视觉和语言模态的知识压缩到学生模型中。在这里，我们使用双模态PMA模型作为教师模型，以及一个标准网络（即，只采用原始图像作为输入）作为学生模型。
对于教师模型，我们将训练语料定义为，其中代表一对图像和文本数据，代表一个标签。我们使用标准交叉熵作为模型的损失函数，如下所示：

其中，和为训练样本和类的数量，为我们的教师模型(即双模态PMA模型)的参数。

对于学生模型，我们将训练语料库定义为，其中是图像数据。我们的蒸馏器不使用图像的标签，而是强制学生模型学习教师模型的输出概率来进行预测。因此，知识蒸馏的损失函数可以用作

其中，为学生模型的参数。基于公式(11)，我们可以将两种模态的知识提取到视觉模态中，从而允许模型在推理过程中即使没有文本数据也能返回预测。

评价

缺失模态问题的解决方案是模型提炼出一个子网络进行推理
…

代码

这篇论文特别坑。模型不清楚。使用的数学公式无法让人理解具体的操作是什么。血压已经上来了。

原文链接：https://blog.csdn.net/qq_44930937/article/details/123152274

《Bi-modal progressive mask attention for fine-grained recognition》论文翻译解读和代码复现

1 引言

2 相关工作

3 实现

A.符号标记

1)自我注意模块(SAM)

2)查询关系模块(QRM)

3)掩模模板

B.视觉模态中的渐进掩模注意

1)输入准备

2)视觉表达

3)渐进掩模策略：

语言模式中的渐进式掩码注意

1)输入准备

2)语言表示

3)渐进掩模策略

D.阶段性特征聚合

E. 双模态PMA的知识精馏技术

评价

代码

相关推荐