Vision Transformer

还是关于 Transformer的搬运啊~~ 勿怪其实大佬们已经推出一阵了发点有点晚了

一个简单、渐进、但必须知道的基线：用于Vision Transformer的自监督学习。尽管标准卷积网络的训练方法已经非常成熟且鲁棒，然而ViT的训练方案仍有待于构建，特别是自监督场景下的训练极具挑战。

何恺明团队新推出的自监督学习+Transformer=MoCoV3之前，我想和大家分享下最近我看到一篇目标检测文章，最近因为一直推送目标检测类的，觉得这篇是个不错的idea。

什么是开放世界中的目标检测呢？

Vision Transformer

A model is tasked to:

这个与以前提出的Open Set和Open World image classification的最大不同在于：在目标检测器的训练过程中，将那些未知的目标当做背景。

深度学习加快了目标检测的研究进展，但目前现有方法都在一个强假设下进行：所有要被检测的种类都需要在训练阶段提供。当我们放宽这一假设，就会出现两个具有挑战性的问题：

论文奉上

论文：https://arxiv.org/pdf/2103.02603.pdf

代码：https://github.com/JosephKJ/OWOD

Vision Transformer

第一行：在每个增量学习步骤中，模型识别未知对象（用“？”表示），这些对象被逐步标记（蓝色圆圈）并添加到现有知识库（绿色圆圈）中。

第二行：开放世界目标检测模型使用基于能量的分类头和未知感知RPN识别潜在的未知对象。此外，在特征空间中执行对比学习来学习判别集群，并且可以以连续的方式灵活地添加新类而不会忘记以前的类。

对比聚类

Vision Transformer

基于RPN自动标记机制

框架的核心就是利用RPN的建议框类别无关特性，将RPN提取的置信度最高的前K个背景建议框作为位置对象的建议框位置向后传递。

Vision Transformer

基于能量的分类头

首先是基于前面提到的对比聚类将不同类别的特征表征尽量的拉开了，研究者选择对不同类别的概率密度函数进行建模，作为不同类别的区分，作者用图进行了说明。

Vision Transformer

如上所示，已知和未知数据点的能量值表现出明显的分离。研究者在每个样本上拟合Weibull分布，并使用这些分布来识别未知的已知和未知样本。 whaosoft aiot http://143ai.com

Alleviating Forgetting

在识别未知数之后，开放世界检测器的一个重要要求是能够学习新的类，当提供一些感兴趣的未知类的标记示例时。重要的是，在此阶段将不存在先前任务的训练数据，因为从头开始重新训练不是可行的解决方案。

仅使用新类实例进行训练将导致灾难性地遗忘之前的类。研究者注意到已经开发了许多涉及的方法来减轻这种遗忘，包括基于参数正则化的方法，示例重放（exemplar replay），动态扩展网络（dynamically expanding networks）和元学习。

检测效果分析

Vision Transformer

仅在任务 1 上训练的ORE在上图(a)中成功地将风筝定位为未知对象，而在任务3中了解风筝后，它逐渐学习检测上图(b)中的风筝和飞机。

Vision Transformer

在任务1上训练后来自ORE的预测。“大象”、“苹果”、“香蕉”、“斑马”和“长颈鹿”尚未引入模型，因此成功归类为“未知”。该方法将其中一只“长颈鹿”错误分类为“马”，显示了ORE的局限性。

有关对比聚类的更多详细信息

使用对比聚类来确保潜在空间分离的动机有两个：1）它使模型能够将未知实例与已知实例分开，从而促进未知识别；2）它确保每个类的实例与其他类很好地分离，缓解遗忘问题。

Vision Transformer

对比损失被添加到Faster R-CNN 损失中，整个网络被端到端的训练。因此，在 Faster R-CNN管道中RoI Head中的残差块之前和包括网络的所有部分都将使用来自对比聚类损失的梯度进行更新。
Vision Transformer

在学习任务1后，桌子顶部笔记本电脑旁边的几个项目被识别为未知。笔记本电脑、书和鼠标作为任务4的一部分被引入。external-storage和walkman（两者都没有介绍过）最初被识别为未知，但学习任务4后没有被检测到，是ORE的失败案例之一。

Vision Transformer

最终在任务2中学习到被识别为未知的手提箱，以及对椅子的误报检测。 Vision Transformer

上图(a)是ORE学习Task 2后产生的结果。由于没有引入Task 3类，如apple和Orange，ORE识别出来并正确标注为unknown。在学习Task 3之后，这些实例在上图(b)中被正确标记。一个未识别的类实例仍然存在，ORE成功地将其检测为未知。

Vision Transformer

文章出处登录后可见！

已经登录？立即刷新