A Normalized Gaussian Wasserstein Distance for Tiny Object Detection

Abstract

检测微小物体是一个非常具有挑战性的问题，因为微小物体仅包含几个像素大小。我们证明，由于缺乏外观信息，最先进的检测器无法在微小物体上产生令人满意的结果**。我们的主要观察结果是，基于联合交集 (IoU) 的指标（例如 IoU 本身及其扩展）对微小物体的位置偏差非常敏感，并且在用于基于锚点的检测器中时会大大降低检测性能。为了缓解这种情况，我们提出了一种使用 Wasserstein 距离进行微小物体检测的新评估指标**。具体来说，我们首先将边界框建模为 2D 高斯分布，然后提出一个称为归一化 Wasserstein 距离 (NWD) 的新度量，以通过它们对应的高斯分布来计算它们之间的相似性。所提出的 NWD 度量可以很容易地嵌入到任何基于锚的检测器的分配、非最大抑制和损失函数中，以取代常用的 IoU 度量。我们在用于微小物体检测 (AI-TOD) 的新数据集上评估我们的指标，其中平均物体大小远小于现有物体检测数据集。广泛的实验表明，当配备 NWD 指标时，我们的方法产生的性能比标准的fine-tuning 基线高 6.7 AP 点，比最先进的竞争对手高 6.0 AP 点。代码位于：https://github.com/jwwangchn/NWD。

1 Introduction

微小物体在许多现实世界的应用中无处不在，包括驾驶辅助、大规模监控和海上救援。尽管由于深度神经网络 [21, 15, 27] 的发展，目标检测取得了重大进展，但它们中的大多数都致力于检测正常大小的目标。虽然微小物体（在 AI-TOD 数据集中小于 16×16 像素[29]）通常表现出极其有限的外观信息，这增加了学习判别特征的难度，导致在检测微小物体时出现大量失败案例 [25， 29, 35]。

微小物体检测 (TOD) 的最新进展主要集中在改进特征鉴别 [14、37、20、12、1、19]。一些努力致力于标准化输入图像的比例，以提高小物体和相应特征的分辨率 [24、25]。而生成对抗网络 (GAN) 被提议直接为小物体生成超分辨率表示 [12, 1, 19]。此外，还提出了特征金字塔网络 (FPN) 来学习多尺度特征以实现尺度不变检测器 [14,37,20]。事实上，现有方法在一定程度上提高了 TOD 性能，但精度提升通常需要额外成本才能实现。

除了学习判别特征外，训练样本选择的质量对于基于锚点的微小物体检测器 [36] 也起着重要作用，其中正负 (pos/neg) 标签的分配至关重要。然而，对于微小物体，像素少的特性会增加训练样本选择的难度。如图1所示，我们可以观察到IoU对不同尺度物体的敏感性差异很大。具体来说，对于具有 6×6 像素的微小物体，微小的位置偏差将导致 IoU 显着下降（从 0.53 到 0.06），从而导致标签分配不准确。然而，对于具有 36×36 像素的正常对象，IoU 在相同的位置偏差下略有变化（从 0.90 到 0.65）。此外，图2显示了四种不同物体尺度的IoU-Deviation曲线，随着物体尺寸变小，曲线下降得更快。值得注意的是，IoU 的敏感性源于边界框位置只能离散变化的特殊性。

图 1：IoU 对微小和正常尺度物体的敏感性分析。请注意，每个网格表示一个像素，方框 A表示 ground truth 边界框，方框 B、C 分别表示具有 1 个像素和 4 个像素对角线偏差的预测边界框。

图 2：两种不同场景下 IoU-偏差曲线和 NWD-偏差曲线的比较。横坐标值表示A和B中心点之间的像素偏差个数，纵坐标值表示对应的度量值。请注意，边界框的位置只能离散地变化，Value-Deviation 曲线以散点图的形式呈现。

这一现象意味着IoU度量在离散化的位置偏差下对对象尺度不再不变，最终导致标签分配中存在以下两个缺陷。具体来说，IoU阈值(θp， θn)用于在基于锚点的检测器中分配pos/neg训练样本，(0.7,0.3)用于区域建议网络(RPN)[7]。首先，IoU对微小物体的敏感性使得微小的位置偏差会翻转锚标，导致pos/ neg样本特征的相似性和网络的收敛困难。其次，我们发现AI-TOD数据集[29]中每个ground-truth (gt)的平均正样本数小于1，因为某些gt与任何锚点之间的IoU小于最小正阈值。因此，训练微小物体探测器的监管信息会不足。虽然动态分配策略如ATSS[36]可以根据对象的统计特征自适应获得IoU的阈值来分配pos/忽略值，但IoU的敏感性使得很难找到一个好的阈值并为微小物体探测器提供高质量的pos/负样本。

鉴于IoU对于微小物体并不是一个很好的度量标准，本文提出了一种新的度量标准，用Wasserstein距离来度量边界盒的相似度，以取代标准IoU。具体来说，我们首先将边界框建模为2-D高斯分布，然后使用我们提出的归一化Wasserstein距离(NWD)来度量导出的高斯分布的相似性。Wasserstein距离的主要优点是即使没有重叠或重叠可以忽略不计，它也可以测量分布的相似性。此外，NWD对不同尺度的物体不敏感，因此更适合测量微小物体之间的相似性。

该方法可应用于单级和多级锚基探测器。此外，NWD不仅可以在标签分配中替代IoU，而且可以在非最大抑制(NMS)和回归损失函数中替代IoU。在新的TOD数据集AI-TOD[29]上的大量实验表明，我们提出的NWD可以持续提高所有实验探测器的检测性能。本文的贡献总结如下。

•我们分析了IoU对微小物体位置偏差的敏感性，并提出了NWD作为衡量两个边界框之间相似性的更好指标。
•我们设计了一个强大的微小物体检测器，将NWD应用于标签分配、NMS和基于锚点的检测器中的损失函数。
•我们提出的NWD可以显著提高流行的基于锚点的检测器的TOD性能，在AI-TOD数据集上，它在Faster R-CNN上实现了11.1%到17.6%的性能提升。

2 Related Work

2.1 Tiny Object Detection

以往的大多数小/微小物体检测方法大致可以分为三类:多尺度特征学习、设计更好的训练策略和基于GAN的检测[28]。

多尺度特征学习: 一种简单而经典的方法是将输入图像调整为不同尺度，训练不同的检测器，每个检测器都能在一定尺度范围内达到最佳性能。为了降低计算成本，一些文献[18,14,37]尝试构建不同尺度的特征级金字塔。例如SSD[18]从不同分辨率的特征图中检测对象。特征金字塔网络(Feature Pyramid Network, FPN)[14]通过横向连接构造自顶向下的结构，将不同尺度的特征信息结合起来，提高目标检测性能。在此基础上，提出了许多进一步提高FPN性能的方法，包括PANet [17]， BiFPN[26]，Recursive-FPN [[20]。此外，TridentNet[13]构建了具有不同接收域的并行多分支架构，以生成比例尺特定的特征映射。

设计更好的训练策略:Singh等人观察到很难同时检测到小物体和大物体，受此启发，提出了SNIP[24]和SNIPER[25]，对一定尺度范围内的物体进行选择性训练。此外，Kim et al.[10]引入了尺度感知网络(scale- aware Network, SAN)，将从不同空间提取的特征映射到尺度不变子空间，使探测器对尺度变化更加稳健。

基于GAN的检测:感知GAN[12]是第一个尝试将GAN应用于小目标检测的方法，它通过缩小小目标与大目标的表示差异来改进小目标检测。此外，Bai等人[1]提出了一种MT-GAN来训练图像级超分辨率模型，以增强小RoIs的特征。此外，[19]中的工作提出了一种特征级超分辨率方法，以提高基于提议的探测器的小目标检测性能。

2.2 Evaluation Metric in Object Detection

IoU是用于衡量边界框之间相似性的最广泛使用的度量标准。但是，只有当边界框有重叠时，IoU才能生效。为解决这一问题，提出了广义借据(GIoU)[22]，通过增加最小框转换包围框的罚项。然而，当一个包围框包含另一个包围框时，GIoU将降级为IoU。因此，通过考虑重叠面积、中心点距离和纵横比三个几何性质，提出了DIoU[38]和CIoU[38]，克服了IoU和GIoU的局限性。GIoU、CIoU和DIoU主要应用于NMS和损失函数中取代IoU以提高一般对象检测性能，但在标签分配中的应用很少讨论。在目前的工作中，Yang等人[32]还提出了一种高斯沃瑟斯坦距离(GWD)损失，通过测量定向包围盒的位置关系来检测定向目标。然而，GWD的动机是解决定向目标检测中的边界不连续和类方形问题。我们的动机是降低IoU对微小物体位置偏差的敏感性，我们提出的方法可以取代IoU在基于锚点的物体探测器的所有部分。

2.3 Label Assignment Strategies

将高质量的锚定位到大量的微小物体上是一项具有挑战性的任务。一个简单的方法是在选择正样本时降低IOU阈值。虽然它可以使微小的物体匹配更多的锚，但训练样本的整体质量会下降。此外，许多最近的工作试图使标签分配过程更具自适应，旨在提高检测性能[6]。例如，Zhang et al.[36]提出了一种自适应训练样本选择(Adaptive Training Sample Selection, ATSS)，通过一组锚点的IoU的统计值自动计算出每个gt的pos/neg阈值。Kang等人[9]通过假设pos/neg样本的关节损失分布服从高斯分布，引入了概率锚点分配(PAA)。此外，最优传输分配(OTA)[6]从全局角度将标签分配过程描述为最优传输问题。但是，这些方法都使用IoU度量来度量两个边界框之间的相似度，并且主要集中在标签分配中的阈值设置上，不适合TOD。相比之下，我们的方法主要侧重于设计一个更好的评估度量，可以用来取代IoU度量在微小物体探测器中。

3 Methodology

IoU实际上是计算两个有限样本集相似度的Jaccard相似系数，受这一事实的启发，我们基于Wasserstein距离设计了一个更好的微小对象度量，因为它可以一致反映分布之间的距离，即使它们没有重叠。因此，在测量微小物体之间的相似性时，新度量比IoU具有更好的性能。具体情况如下。

3.1 Gaussian Distribution Modeling for Bounding Box

对于小物体，在它们的包围框中往往会有一些背景像素，因为大多数真实物体都不是严格的矩形。在这些包围框中，前景像素和背景像素分别集中在包围框的中心和边界上[30]。为了更好地描述包围框中不同像素的权重，可以将包围框建模为二维高斯分布，其中包围框中心像素的权重最高，像素的重要性从中心到边界逐渐降低。具体来说，对于水平包围框R = (cx, cy, w, h)，其中(cx, cy)， w和h分别表示中心坐标，宽度和高度。其内切椭圆的方程可以表示为

3.2 Normalized Gaussian Wasserstein Distance

与IoU相比，NWD在微小物体检测方面具有以下优势:
(1)尺度不变性，
(2)对位置偏差的平滑性，
(3)能够测量不重叠或相互包容的包围盒之间的相似性。
如图2所示，在不失一般性的前提下，我们讨论了以下两种情况下度量值的变化。在图2的第一行中，我们保持盒子A和B的尺度不变，沿着A的对角线移开B。可以看到，NWD的四条曲线完全重合，说明NWD对盒子的尺度方差不敏感。此外，我们可以观察到IoU对微小的位置偏差过于敏感，而位置偏差导致的NWD变化更为平滑。对位置偏差的平滑度表明，与IoU相比，pos/ negative样本之间可能有更好的区别相同的阈值。在图2的第二行中，我们将B的边长设置为A边长的一半，并沿着A的对角线移开B，与IoU相比，即使|A∩B| = A或B和|A∩B| = 0, NWD曲线也要平滑得多，能够一致地反映A与B的相似性。

3.3 NWD-based Detectors

所提出的NWD可以很容易地集成到任何基于锚点的检测器中，以取代IoU。在不失一般性的前提下，本文采用具有代表性的基于锚点的Faster R-CNN来描述NWD的使用。具体来说，所有的修改都是在原本使用的pos/neg标签分配、NMS和回归损失函数这三个部分进行的。具体情况如下。

基于NWD的标签分配。Faster R-CNN[21]由两个网络组成:RPN用于生成区域建议，R-CNN[7]用于基于这些建议检测目标。RPN和R-CNN都包含标签分配过程。对于RPN，首先生成不同规模和比例的锚点，然后为锚点分配二进制标签，用于训练分类和回归头。R-CNN的标签分配过程与RPN相似，不同之处在于R-CNN的输入是RPN的输出。为了克服上述借据在微小物体检测方面的不足，我们设计了基于NWD的标签分配策略，利用NWD进行标签分配。具体来说，对于训练RPN，正标签将被分配给两种锚:
(1)带有gt框且NWD值大于θn的NWD值最高的锚或
(2)带有任何gt的NWD值高于正阈值θp的锚。
因此，如果锚的NWD值低于所有gt框的负阈值θn，则将给锚分配负标签。此外，既没有被贴上积极标签，也没有被贴上消极标签的主播不参与训练过程。请注意，为了将NWD直接应用于锚定探测器，实验中使用了θp和θn作为原始探测器。

NWD-based NMS。NMS是对象检测管道中不可分割的一部分，用于抑制冗余预测边界框，其中应用IoU度量。首先，它根据分数对所有预测框进行排序。选择得分最高的预测框M，并抑制与M有显著重叠(使用预定义阈值Nt)的所有其他预测框。这个过程递归地应用于其余的盒子。但是，由于IoU对微小物体的敏感性，使得很多预测框的IoU值低于Nt，从而导致了假阳性预测。为了解决这一问题，我们认为在微小目标检测中，NWD是一种更好的NMS准则，因为NWD克服了尺度敏感性问题。此外，基于nwd的NMS可以灵活地集成到任何微小对象检测器中，只需少量代码。

基于NWD的回归损失。引入IoU-Loss[34]是为了消除训练和测试[22]之间的性能差距。但在以下两种情况下，IoU-Loss无法提供优化网络的梯度:
(1)预测的边界框P与地真框G没有重叠(即|P∩G| = 0)或
(2)框P完全包含框G或反之(即|P∩G| = P或G)。
此外，这两种情况在微小物体中非常常见。具体来说，一方面，P中几个像素的偏差会导致P与G之间没有重叠，另一方面，微小物体容易被错误预测，导致|P∩G| = P或G。因此，IoU-Loss不适合用于微小物体检测器。虽然CIoU和DIoU可以处理以上两种情况，但由于它们都是基于IoU，所以对微小物体的位置偏差非常敏感。为解决上述问题，我们将NWD度量设计为损失函数:

其中Np为预测框P的高斯分布模型，Ng为预测框G的高斯分布模型。根据3.2节的介绍，基于nwd的损失在|P∩G| = 0和|P∩G| = P或G两种情况下都可以提供梯度。

4 Experiments

我们在AI-TOD[29]和VisDrone2019[4]数据集上评估了所提出的方法。消融研究是在AI-TOD上进行的，这是一个具有挑战性的数据集，用于微小物体检测。它有8个类别，700,621个对象实例，涵盖28,036张800 × 800像素的航空图像。AI-TOD的平均绝对大小只有12.8像素，这比其他物体检测数据集如PASCAL VOC(156.6像素)[5]，MS COCO(99.5像素)[16]和DOTA(55.3像素)VisDrone2019[4]是用于目标检测的无人机数据集。它由10个类别的10209张图片组成。VisDrone2019有很多复杂的场景和大量的微小物体，因为图像是在不同的地方、不同的高度拍摄的。

我们采用与AI-TOD[29]数据集相同的评价指标，包括AP、AP0.5、AP0.75、APvt、APt、AP和APm。其中，AP为不同IoU阈值下的平均AP IoU={0.5, 0.55，····，0.95}，AP0.5和AP0.75分别为IoU阈值为0.5和0.75时的AP。此外，在AI-TOD[29]中，APvt、APt、ap和APm分别用于非常微小(2-8像素)、微小(8-16像素)、小(16-32像素)和中(32-64像素)尺度的评估。

我们在一台拥有4个NVIDIA Titan X gpu的计算机上进行了所有的实验，我们实验所用的代码是基于MMdetection[3]代码库的。ImageNet[23]预训练的ResNet-50[8]与FPN[14]被用作骨干，除非另有指定。所有模型都使用SGD优化器进行了12个阶段的训练，动量为0.9，重量衰减为0.0001，批次大小为8。我们将初始学习率设为0.01，并在第8和11个纪元将其衰减0.1倍。RPN和Fast R-CNN的批次大小分别设置为256和512，正负样本的抽样比设置为1/3。RPN生成的提案数设置为3000。在推理阶段，我们使用预设得分0.05过滤背景边界框，使用NMS, IoU阈值为0.5。除另有说明外，所有实验均使用上述训练和推断参数。

4.1 Comparison with Other Metrics based IoU

有一些基于借据的度量标准可以用来衡量第2节中提到的边界框之间的相似性。在这项工作中，我们在相同的基本网络(即faster R-CNN)上重新实现了上述四个指标(即iou, GIoU, CIoU和DIoU)和我们提出的NWD，以比较它们在微小对象上的性能。具体来说，它们分别应用于标签分配、NMS和损失函数。AI-TOD数据集实验结果如表1所示。

标签分配中的比较。请注意，RPN和R-CNN分配模块中的度量都被修改了。可以看出，与IoU度量相比，NWD的AP最高达到16.1%，在Apt上提高了9.6%，这表明基于NWD的标签分配可以为微小物体提供更多高质量的训练样本。此外，为了分析改进的实质，我们进行了一组统计实验。具体而言，我们分别计算了IoU、GIoU、DIoU、CIoU和NWD在相同默认阈值下，每个gt盒匹配的正锚的平均数量，分别为0.72、0.71、0.19、0.19和1.05。可以发现，只有NWD才能保证相当数量的正训练样本。此外，虽然简单降低基于IOU的度量的阈值可以为训练提供更多的正锚点，但阈值微调后基于欠条的小目标检测器的性能并不比基于NWD的检测器更好，这将在补充材料中进一步讨论。这是由于NWD能够解决IOU对微小物体位置偏差的敏感性问题。

NMS 中的比较。在本实验中，我们只修改了RPN的NMS模块，因为只有RPN中的NMS才能直接影响检测器的训练处理。可以看出，在训练过程中使用不同的指标来过滤冗余预测也会影响检测性能。具体而言，NWD的最佳AP为11.9%，比常用的IoU高出0.8%。这意味着在检测微小物体时，NWD是过滤冗余包围框的更好指标。

损失函数的比较。注意，我们在RPN和R-CNN中都修改了损失函数，这都会影响检测器的收敛性。可以看出，基于nwd的损失函数AP最高，为12.1%。

4.2 Ablation Study

在本节中，使用Faster R-CNN[21]作为基线，它包括两个阶段:RPN和R-CNN。我们提出的方法可以同时应用于RPN和R-CNN的标签分配、NMS、损失函数模块，因此总共有六个模块可以从IoU度量转换为NWD度量。为了验证我们提出的方法在不同模块中的有效性，我们进行了以下两组消融研究:
RPN或R-CNN中六个模块中的一个模块应用NWD的比较和所有模块应用NWD的比较。

将 NWD 应用到单个模块中。实验结果如表2所示。与基线方法相比，RPN和R-CNN中基于nwd的分配模块AP提高率最高，分别为6.2%和3.2%，说明IoU导致的小对象训练标签分配问题最为明显，我们提出的基于nwd的分配策略极大地提高了分配质量。我们还可以观察到，我们提出的方法在6个模块中的5个模块中提高了性能，这极大地验证了我们基于nwd的方法的有效性。R-CNN的NMS性能下降可能是由于默认的NMS阈值是次优的，需要进行微调以提高性能。

将 NWD 应用于多个模块。实验结果如表3所示。在训练12 epoch时，RPN、R-CNN或所有模块中使用NWD时，检测性能都有显著提高。当我们将NWD应用于RPN的三个模块时，可以获得17.8%的最佳性能。然而，我们发现，当在所有六个模块中使用NWD时，AP与仅在RPN中使用NWD相比下降了2.6%。为了分析性能下降的原因，我们增加了一组实验，对网络进行了24个epoch的训练。可以看到，性能差距从2.6%减小到0.9%，这表明在R-CNN中使用NWD时，网络需要更多的时间收敛。因此，在接下来的实验中，我们只在RPN中使用了NWD，从而在较短的时间内实现了相当大的性能提升。

损失函数的比较。请注意，我们修改了 RPN 和 R-CNN 中的损失函数，这都会影响检测器的收敛性。还可以看出，基于 NWD 的损失函数实现了 12.1% 的最高 AP。

4.3 Main Results

为了揭示NWD对TOD的有效性，我们在微小物体检测数据集AI-TOD[29]和VisDrone2019[4]上进行了实验。

AI-TOD的主要结果。为了验证NWD可以应用于任何基于锚点的探测器并提高TOD性能，我们选择了5个基线探测器，包括一级锚点探测器(即RetinaNet [15]， ATSS[36])和多级锚定检测器(即Faster R-CNN [21]， Cascade R-CNN [2]， detectors[20])。实验结果如表4所示。可以看出，目前最先进的探测器APvt极低，接近于零，这意味着它们在微小物体上不能产生令人满意的结果。此外，我们提出的基于nwd的检测器将RetinaNet、ATSS、Faster R-CNN、Cascade R-CNN和detectors的AP度量分别提高了4.5%、0.7%、6.7%、4.9%和6.0%。当对象非常小时，性能的提高更加明显。值得注意的是，基于nwd的DetectoRS在AI-TOD上实现了最先进的性能(20.8% AP)。在AI-TOD数据集上使用基于欠条的检测器(第一行)和基于nwd的检测器(第二行)的可视化结果如图3所示。我们可以观察到，与IoU相比，NWD可以显著降低假阴性(FN)。

Visdrone上的主要结果。除了AI-TOD之外，我们还使用了VisDrone2019[4]，其中包含了许多不同场景的微小物体，来验证基于nwd的检测器的泛化性。结果如表5所示。可以看到，基于nwd的基于锚点的检测器在基线上都取得了相当大的改进。

5 Conclusion

本文观察到，基于IOU的度量对微小物体的位置偏差非常敏感，这大大降低了微小物体的检测性能。为了解决这一问题，我们提出了一种新的度量方法，称为归一化瓦瑟斯坦距离(NWD)，用来度量微小物体边界框之间的相似性。在此基础上，我们进一步提出了一种新的基于NWD的微小物体检测器，将NWD嵌入到基于锚定的检测器的标签分配、非最大抑制和损失函数中，以取代原有的IoU度量。实验结果表明，该方法能大幅度提高AI-TOD数据集上的微小目标检测性能，达到最先进水平。

References

文章出处登录后可见！

已经登录？立即刷新

NWD（2022）