SuperYOLO 论文阅读笔记

感谢本文作者的开源，遥感多模态目标检测这一领域的开源代码太少了！！！！

Table of Contents

标题

SuperYOLO: Super Resolution Assisted Object Detection in Multimodal Remote Sensing Imagery

来源

IEEE TRANSACTIONS ON GEOSCIENCE AND REMOTE SENSING
(TGRS)

摘要

准确、及时地从遥感图像（RSI）中检测出包含几十个像素的多尺度小目标仍然具有挑战性。现有的大多数解决方案主要是设计复杂的深度神经网络来学习从背景中分离出来的物体的强特征表示，这往往会导致沉重的计算负担。在本文中，我们提出了一种准确而快速的遥感图像目标检测方法 SuperYOLO，它融合了多模态数据，并利用辅助的超分辨率（SR）学习对多尺度目标进行高分辨率（HR）目标检测，同时考虑了检测精度和计算成本。首先，我们利用对称紧凑的多模态融合（Multimodal Fusion，MF）从各种数据中提取补充信息，以改进 RSI 中的小目标检测。此外，我们设计了一个简单灵活的 SR 分支来学习 HR 特征表示，可以在低分辨率（LR）输入下从广阔的背景中区分小目标，从而进一步提高检测精度。此外，为了避免引入额外的计算量，在推理阶段丢弃 SR 分支，由于 LR 输入，减少了网络模型的计算量。实验结果表明，在广泛使用的 VEDAI 数据集上，SuperYOLO取得了75.09% (以mAP50计) 的准确率，比 SOTA 大型模型，如 YOLOv5l、YOLOv5x 和 RS 设计的 YOLOrs 提高了10%以上。同时，Super YOLO 的参数大小和GFLOPs 比 YOLOv5x 少约18倍和3.8倍。我们提出的模型与最先进的模型相比，显示出良好的精度-速度权衡。

模型结构

Overview of the proposed SuperYOLO framework.

低分辨率（LR）输入。
移除Focus模块：移除YOLOv5s中的Focus模块（YOLOv5的V6.0版本已经移除了它），因为 Focus 模块可能会牺牲目标检测精度，特别是对于易受分辨率影响的小目标
多模态融合(MF)：对称紧凑的像素级多模态融合模块。
超分辨率（SR）辅助分支：学习高分辨（HR）率特征表示。
推理阶段移除了 SR 分支：避免引入额外的消耗。

多模态融合（MF）

对于像素级融合，我们首先将输入的 RGB 图像和输入的 IR 图像归一化为 [0, 1] 的两个区间。将输入模态 , $\in $ 下采样到 , $\in $ ，再馈送到 SE 模块（一种通道注意力机制）中提取通道域中的内部信息，生成, ：
然后，将揭示不同模态在空间域中内在关系的注意图定义为：

其中和分别表示 RGB 和 IR 模态的卷积。
不同模态之间的内部空间信息由下式产生：
为了融合内部视图信息和空间纹理信息，将特征添加到原始输入模态中，然后输入到卷积中。完整的特征如下：

其中和表示卷积。
最后，对特征进行融合：

其中表示沿通道轴的连接操作。然后将结果馈送到主干以产生多级特征。注意，被下采样到原始图像的大小，以完成 SR 模块，并加速训练过程。其中表示 RGB 或 IR 模态，将采样图像记为，由下式产生：

其中表示采用双线性插值的次下采样操作。