【论文笔记_视觉识别_2022】Unified Contrastive Learning in Image-Text-Label Space

请添加图片描述

Table of Contents

Summary

视觉识别最近是通过对人类注释的图像标签数据进行监督学习，或者通过网络抓取的图像-文本对进行语言-图像对比学习。虽然监督学习可能会产生一个更具辨别力的表征，但语言-图像预训练显示出前所未有的零距离识别能力，这主要是由于数据源和学习目标的不同特性。在这项工作中，我们通过将两个数据源合并到一个共同的图像-文本-标签空间，引入一个新的表述。在这个空间中，我们提出了一种新的学习范式，称为统一对比学习（UniCL），它具有单一的学习目标，可以无缝地促使两种数据类型的协同作用。广泛的实验表明，我们的UniCL是一种学习语义丰富而又有辨别力的表征的有效方式，普遍适用于零点拍摄、线性探测、完全微调和转移学习场景下的图像识别。特别是，在零照识别基准上，它比语言-图像对比学习和监督学习方法分别获得了高达9.2%和14.5%的平均收益。在线性探测设置中，它也比这两种方法分别提高了7.3%和3.4%的性能。我们的研究还表明，UniCL在纯图像标签数据上是一个很好的学习者，在三个图像分类数据集和两种类型的视觉骨干–ResNet和Swin Transformer中，它可以与监督学习方法相媲美。
代码地址：https://github.com/microsoft/UniCL

1.介绍

学习识别图像中的视觉概念一直是一个基本的和长期的研究问题。通常，这可以通过对人类注释的图像-标签对的监督学习[10]或对网络抓取的图像-文本对的对比学习[29, 48]来解决。在干净和大规模的人类注释图像标签数据的推动下，例如ImageNet[10]，监督学习可以在给定的类别上获得体面的视觉识别能力[23, 35, 55]和强大的迁移学习能力[14, 33]。然而，收集精确的图像标签数据是一个费力和昂贵的过程，更不用说它难以扩展到许多视觉概念1。另一方面，语言-图像对比学习最近作为一种很有前途的方法出现，它利用了大量的网络抓取的图像-文本对。这些对通常是嘈杂的、自由的，但涵盖了很多视觉概念。正如CLIP[48]和ALIGN[29]所展示的，从数以亿计的图像-文本对中学习的模型可以在广泛的视觉理解场景中获得令人印象深刻的低照度识别性能。尽管这些图像-文本模型显示了对视觉概念的广泛覆盖，但我们在实验中发现，它们通常缺乏迁移学习所需的强大的辨别能力。一个很自然的问题是：我们能不能用一个模型同时实现鉴别性表征和广泛的视觉概念覆盖？

在这项工作中，我们迈出了回答这个问题的第一步。我们从一个新的角度出发，如图1所示。我们定义了一个图像-文本-标签空间，而不是孤立的图像-标签和图像-文本数据，并展示了我们如何能够消除两种数据类型之间的界限。如图1左部所示，图像-标签数据的监督学习[30]通常旨在将图像映射到离散的标签，在训练过程中完全忽略了与每个标签相关的文本概念。相比之下，文本-图像对比学习[48]旨在学习一对视觉和文本编码器，使图像和文本保持一致，如图1右部所示。这种学习方法隐含地假设每个图像-文本对有一个独特的标签。将这两种学习范式并排比较，我们可以看到它们实际上都位于共同的图像-文本-标签空间中，该空间的构建是通过将每个标签映射到文本概念进行监督学习，并为每个文本描述分配一个独特的标签进行文本-图像预训练，如图1底部所示。基于这个新的视角，我们可以简单地使用视觉编码器和语言编码器对图像和文本进行编码，并令视觉和文本特征与标签（图像-文本对的唯一标签和图像-标签数据的人工标签）的指导相一致。然而，现有的监督学习和语言-图像对比学习范式不能支持从这些组合标签中学习。为此，我们提出了一个统一的对比学习方法，称为UniCL，以无缝容纳两种数据类型的视觉-语义表示学习。它将图像和文本作为输入，用从标签中得到的软化目标计算损失。通过UniCL，我们将图像-标签和图像-文本数据结合在一起，以学习有辨别力的、富含语义的表征，这对各种下游任务是有益的。总的来说，我们的主要贡献是：
1.我们引入了图像-文本-标签空间的新视角，它可以将常用的图像标签和图像-文本数据无缝统一起来。
2.我们提出了一种在图像-文本-标签空间中的统一的对比学习方法，称为UniCL，它可以从图像标签和图像文本数据中的任何一种学习，也可以从两者中学习。
3.广泛的实验表明，我们的UniCL可以有效地利用这两种类型的数据，并在标准的zero-shot、线性探测、完全微调和转移学习设置上普遍取得优异的性能。

2.相关工作

监督学习。用于图像分类的监督学习有很长的历史。如前所述，监督学习的一个典型方式是将图像映射到人工标签。在这个目标下，许多工作从不同的方向推动了图像识别的性能，比如数据规模从MNIST[37]到ImageNet1K[10]，模型架构从卷积神经网络（CNN）[23, 26, 35, 36, 41, 54, 55]到Transformer变形器[15, 44, 59, 64, 67, 71, 76]，学习目标从最初的交叉熵[47]到边缘损失[11, 43, 52] 以及最近的监督对比损失[30]。在本文中，我们开发了一个统一的对比学习方法，将图像-标签视为图像-文本-标签数据来学习一个通用的视觉语义空间。它唤回了标签背后的文本概念，并将其作为一种特殊的语言格式。在这个意义上，我们的工作也与传统的零点分类有关[9, 28, 46, 65, 69, 70]。这些工作大多注意在小范围内识别细粒度的类别。我们的工作超越了这样的限制，旨在从图像-标签和图像-文本的组合中学习一个好的和丰富的视觉-语义表征。

语言-图像对比学习。视觉与语言是一个快速发展的领域。现有的工作可以大致分为两类。(i) 受BERT[13]的成功启发，第一类研究集中在学习通用的多模态融合层，这些融合层是基于遮蔽标记预测和/或图像-文本匹配，给定预先从视觉和文本编码器提取的特征[17, 31, 39, 40, 45, 53, 66, 77]。他们的目的是改善下游任务，如视觉问题回答[2, 27]、图像说明[1, 42]、视觉常识推理[74]。(ii) 另一个研究方向侧重于从自然语言监督中学习可转移的视觉表征，包括生成性方法[12, 50]和对比性方法[16,29,48,62,63,78]。最近，对比性学习在CLIP[48]和ALIGN[29]等代表性作品中得到了扩展，通过对数以亿计的网络抓取的图像-文本对进行预训练。我们的工作与这些作品接近，因为我们也使用图像-文本数据作为主要数据源之一。然而，在这些工作中，图像标签数据被忽略了。我们的工作提出了第一个统一的对比学习方法，可以无缝地利用两者。

自我监督学习。视觉的自我监督学习（SSL）旨在从原始像素中学习通用的视觉表征，而无需标签或文本的监督[19]。对比学习已经为表现最好的SSL模型奠定了基础[3, 6, 8, 21, 24, 57, 58]。它最大限度地提高了同一图像的不同增强视图之间的学习表征的一致性，并最小化了不同图像的视图的一致性。这种基于增强视图的范式也被扩展到非对比性方法[4,7,20,38]，其中在学习中只考虑正面图像视图对。尽管图像SSL在利用训练中几乎无限量的无标签图像数据方面有很大的前景[18]，但由于缺乏语言关联，它几乎不适用于zero-shot识别。尽管如此，对比性学习在SSL中的成功激发了这种方法在更大范围内的普及，例如在图像-文本设置中的CLIP[48]和我们在图像-文本-标签设置中的UniCL，其中图像和语言描述可以被认为是同一基本概念的多模式视图。

3.方法

3.1前期准备
问题设置：我们定义一个三联体数据格式S={(xn, tn, yn)}Nn=1，其中x∈X是图像，t∈T是其相应的语言描述（从简单的标记如类别名称到自由格式的文本序列），y∈Y是一个标签，表示数据集中分组或唯一的语言描述的索引。正如我们前面所讨论的，这种三联体数据表示是广泛存在的图像数据的一般格式，包括常用的图像-文本和图像-标签数据。一方面，来自网络的图像-文本对{(xn, tn)}Nn=1通常有一个一对一的映射，因此每个图像-文本对都有唯一的标签，S简化为{(xn, tn, yn≡n)}Nn=1。另一方面，虽然图像分类问题经常使用简单的类别标签或指数，但每个标签都是由其任务定义中的概念的相似性诱导出来的[10]。因此，对于图像标签数据，S简化为{(xn, tn≡C[yn], yn)Nn=1，其中C为以yn为索引的概念名称集合。基于这个定义，我们可以将图像-标签对表示为有标签的图像-文本对，而将图像-文本对表示为有唯一标签的图像-文本。图2显示了它们是如何统一的一个例子。这项工作的目标是从联合数据S中学习，相信语言描述中的丰富语义t和标签的结构化组织y一起有利于学习语义丰富和有辨识度的图像x的视觉表征。

3.2统一图像-文本-标签的对比度
对于每一幅图像x，一个以θ为参数的图像编码器模型fθ首先将x表示为一个视觉特征向量，对于每个语言描述t∈T，我们用一个参数为φ的文本编码器fφ(t)对其进行编码，得到它的特征向量。对于批次B中的第i幅图像xi和第j种语言描述t j，我们用将其特征向量归一化为hyper-sphere，而它们的相似性计算为s i j = uTi vj。我们考虑图像和语言之间的双向学习目标：
请添加图片描述

请添加图片描述
图2. 在图像-文本-标签空间中覆盖图像-标签和图像-文本数据的图示。对于图像-标签数据，我们为每个标签关联一个文本概念，图像和文本概念根据注释的标签（蓝色瓦片）进行匹配。对于图像-文本数据，每一对都有唯一的标签索引，因此只在对角线条目（绿色瓷砖）上进行匹配。在右边，我们可以简单地将它们合并为图像-文本-标签三联体，红色瓦片意味着正数对，而空白瓦片是负数对。

包括两个对比项（一个温度超参数τ控制对hard 负样本的惩罚力度）。
图像到文本的对比损失，将一批匹配的图像与给定的文本对齐：
请添加图片描述
其中 k ∈ P(i) = {k|k ∈ B, yk = yi}.

文本到图像的对比损失，使匹配的文本与给定的图像保持一致：
请添加图片描述
其中 k ∈ P(j) = {k|k ∈ B, yk = yj}.

以图2右侧为例，每行计算L i2t，每列计算L t2i。红色瓦片表示正数对，空白瓦片表示负数对，都是根据标签分配的。

3.3讨论&性质
我们讨论了我们提出的UniCL的独特性质，并与以前常用的学习范式建立了联系。图3是一个说明性的比较，下面有更详细的分析。
与交叉熵的联系[47] ：我们注意到（1）中提出的LBiC与监督图像分类中使用的标准交叉熵损失密切相关。具体来说，当满足以下条件时，（3）中的文本-图像对比项作为一个特例恢复了交叉熵。

请添加图片描述
图3. 不同学习范式之间的说明性比较。对于一个大小的批次B，所有图像特征U、U‘和文本特征V的维度都是P，而K是类的数量。在每一种方法中给定一个相似性矩阵，标签起着定义正数对的作用，其元素为橙色，负数为白色；CLIP对图像-文本对有一对一的假设，这隐含地将对角线元素定义为正数。

(i) 文本编码器fφ被表示为一个偏置为b的简单的线性嵌入层W
(ii)这个batchsize B足够大，所以当随机抽样用于训练时，所有的类嵌入向量都被用于对比学习。
(iii) τ = 1，并且排除L2的归一化，因此，˜u = u，˜v = v。等式(3)变成：
请添加图片描述
其中，y是该批次中第j幅图像的真实标签。在此基础上，我们认为L BiC比L CE更具有普遍性，这体现在两个方面。(i) L i2t的增强。L BiC中额外的文本-图像术语L i2t起到了规范化的作用。给定一个语言描述tj，批次中所有具有相同tj的图像特征都会向文本特征聚类，否则它们会被推开。这有助于防止过度拟合，正如我们后面的实验所证明的那样；（二）文本编码器fφ。文本编码器可以被指定为更强大的形式，如12层转换器或预训练的BERT编码器，并采取超越类别名称集的自由格式文本输入。

与SupCon[30]的联系：我们的UniCL和SupCon的一个共同属性是，这两种方法都利用了标签引导的对比学习。对于任何查询，这两种方法都利用具有相同标签的样本作为正数贡献给分母。请注意，SupCon是在图像-标签环境下提出的，其中每个图像都有两个不同的视图。UniCL和SupCon在两个方面有所不同。(i) 查询-对-密钥模式。在SupCon中，对比学习中的查询和关键都来自同一模态：图像和图像对；在UniCL中，查询和关键是不同的模态：图像和语言对。(ii) 编码器。在SupCon中，只有一个共享的图像编码器用于查询和密钥。在UniCL中，两个不同的编码器用于不同的模态，如图3所示。

与CLIP的联系[48]：对于图像-文本对，在一个批次中，图像和其配对的文本之间只有一对一的映射。换句话说，对于公式（2）和公式（3）来说，P（i）={i}和P（j）={j}。那么，L BiC就变成了：
（1）图像与文字的对比性损失
请添加图片描述
（2）文字与图像的对比性损失

这意味着，当只采用图像-文本数据时，LBiC降低到CLIP训练目标。与（5）相比，（2）的主要结构变化是，对于每一种语言描述，任何具有相同标签的图像样本都被认为是一个批次的positive，对分子有贡献。通过比较（3）和（6），可以得出类似的结论。

3.4模型训练和适应
算法1中总结了UniCL的训练过程。请注意，这个伪代码与我们的数据加载器结构有关：所有图像-文本对都有一个初始标签索引y = 0，而所有图像-标签对都有一个初始标签索引y∈ [1, …, K]。TargetM函数确保批次中每个独特的语言描述都有一个独特的标签索引。在训练中，τ是一个初始化为1的可训练变量。训练结束后，学到的视觉和文本编码器{fθ, fφ}可以联合用于开放词汇的图像识别，即识别训练期间看到的类别或注释类别之外的新类别。另外，视觉骨干fθ可以独立使用，要么用于线性探测中的特征提取，要么用于物体检测中的全模型微调。

请添加图片描述

4.实验

在本节中，我们对UniCL进行研究，以回答两个研究问题。
Q1 学习目标–与CE和SupCon相比，我们的UniCL在图像分类上的表现如何？
Q2 预训练数据–在图像-文本-标签联合数据上应用UniCL的独特优势是什么？
数据集。我们根据公开的数据集来研究我们的模型，统计结果见表1。对于分类数据（前四行），视觉概念的数量与类别的数量是相同的。对于图像-文本数据（底部三行），我们使用Spacy[25]来提取名词短语，然后计算出现5次以上的独特名词实体的数量。考虑到概念库，我们再计算出独特的词的数量，并将其作为词汇量进行报告。…

5.结论

我们提出了UniCL，一个用于通用多模态表征学习的新的对比性学习范式。它建立在图像-文本-标签空间中，并由我们的统一对比学习方法所支持。这样一个统一的范式促使图像-标签和图像-文本对之间的无缝协同，以进行辨别性和语义丰富的表征学习，这带来了对零点射击、线性探测、微调基准的普遍改进。此外，我们还讨论了它与现有学习方法的联系，并通过经验证明，我们的学习方法在纯图像-标签数据上是一个很好的替代学习者。
讨论：在我们的提交过程中，我们主要关注视觉任务，如图像识别和物体检测，并将我们的模型建立在公共数据集上。然而，我们向读者推荐Florence[72]的大规模预训练以及对包括VQA和视频理解在内的一系列任务的评估。我们注意到Florence使用了大量的私人数据，因此推荐本文中的这套实验作为未来学术研究的基线。

文章出处登录后可见！

已经登录？立即刷新