提示：文章写完后，可以自动生成目录。生成方法请参考右侧帮助文档

facebook Detic解读

前言

第一次接触这种基于弱监督学习的object detection，如果有不对的地方欢迎大家批评指正。

提示：以下是本篇文章正文内容，下面案例可供参考

一、Detic基本原理及构成

传统的目标检测将分类和定位耦合在一起，对训练的数据集有较高的要求，数据集需要包括物体的种类，以及bbox位置信息，这就导致了要检测多少类就需要多少类的数据标注。而detic将分类与定位解耦成两个问题，在定位时不再那么依赖标注数据。Detic的数据集分为两类，一种是传统目标检测数据集，一种是label-image数据（可以类比为图像分类的数据，没有bbox信息）。对于第一种数据来说，训练时就按照传统目标检测的流程进行，得到分类权重W以及bbox预测分支B，对于第二种数据来说，只是进行分类任务，仍可使用权重W。使用者两种数据可以训练种类更多的分类器（跟传统的目标检测相比降低了数据获取的成本）。
对于采用第二种数据如何定位，文中没有细说（文中的重点是分类），但是提到了用的是弱监督学习的思想，目前在弱监督学习的定位中采用最多的方法是gard-cam（detic可能不是用的这个，但是感觉应该是一样的思想）。Gard-cam起初是用来可视化CNN任务的，稍作修改即可用来定位。

二、Grad-CAM

参考https://blog.csdn.net/qq_37541097/article/details/123089851?ops_request_misc=%257B%2522request%255Fid%2522%253A%2522164879685516780269822305%2522%252C%2522scm%2522%253A%252220140713.130102334.pc%255Fblog.%2522%257D&request_id=164879685516780269822305&biz_id=0&utm_medium=distribute.pc_search_result.none-task-blog-2blogfirst_rank_ecpm_v1~rank_v31_ecpm-1-123089851.nonecase&utm_term=grad+cam&spm=1018.2226.3001.4450

任务，首先网络进行正向传播，得到特征层A（一般指的是最后一个卷积层的输出）和网络预测值y（注意，这里指的是softmax激活之前的数值）。假设我们想看下网络针对Tiger Cat这个类别的感兴趣区域，假设网络针对Tiger Cat类别的预测值为y c。接着对y c 进行反向传播，能够得到反传回特征层A1 ，通过计算得到针对特征层A每个通道的重要程度，然后进行加权求和通过ReLU就行了，最终得到的结果即是Grad-CAM。

三、基于clip的分类

CLIP（Contrastive Language-Image Pre-Training）是一个在各种（图像、文本）对上训练的神经网络。可以用自然语言指示给定图像来预测最相关的文本片段，而无需直接针对任务进行优化。
Clip的思想是用文本作为监督来指导图像，采用的是对比学习的方法。

图片和对应的文本描述分别送入image encoder（可以是resnet可以是vit）和text encoder（transformer）。各自得到的结果做一次联合编码。从行的角度看是图像分类器，从列的角度看是图像分配。从图中可以看出，编码完之后的任务应该最大化对角线的值并且抑制非对角线上的值。Clip采用了4亿对图像-文本进行训练。

Clip以及学习了一个图像和文本之间的映射（word embedding是非常大的可以涵盖很多词语），在输入一张模型没有见过的图片时，经过image encoder输出一个结果，这个结果映射到语义向量的嵌入空间里，最终得到分类结果。

总结

Detic解决的问题：对于传统目标检测任务，数据标注比较麻烦；但对于完全的弱监督学习来说，定位依赖于检测结果。（以下为原文部分）Unfortunately, this assignment requires good initial detections which leads to a chicken-and-egg problem–we need a good detector for good label assignment, but we need many boxes to train a good detector. Our method completely side steps the label assignment process by supervising the classification sub-problem alone when using classification data.（所以detic采取了一个中合的办法）

我自己的看法：这篇文章更多的是在叙述如何定义分类损失和做实验论证这种分类方法的有效性，其他的定位以及zero shot分类都是直接用的现有的模型。第一次看还以为是提出了一个全新的模型，然后通篇没有找到这个模型的一个结构，多看了两遍才发现不是这回事==。

文章出处登录后可见！

已经登录？立即刷新

facebook Detic解读

facebook Detic解读

前言

一、Detic基本原理及构成

二、Grad-CAM

三、基于clip的分类

总结

相关推荐