SuperYOLO 论文阅读笔记

论文地址
代码地址

感谢本文作者的开源,遥感多模态目标检测这一领域的开源代码太少了!!!!

标题

SuperYOLO: Super Resolution Assisted Object Detection in Multimodal Remote Sensing Imagery

来源

IEEE TRANSACTIONS ON GEOSCIENCE AND REMOTE SENSING
(TGRS)

摘要

准确、及时地从遥感图像(RSI)中检测出包含几十个像素的多尺度小目标仍然具有挑战性。现有的大多数解决方案主要是设计复杂的深度神经网络来学习从背景中分离出来的物体的强特征表示,这往往会导致沉重的计算负担。在本文中,我们提出了一种准确而快速的遥感图像目标检测方法 SuperYOLO,它融合了多模态数据,并利用辅助的超分辨率(SR)学习对多尺度目标进行高分辨率(HR)目标检测,同时考虑了检测精度和计算成本。首先,我们利用对称紧凑的多模态融合(Multimodal Fusion,MF)从各种数据中提取补充信息,以改进 RSI 中的小目标检测。此外,我们设计了一个简单灵活的 SR 分支来学习 HR 特征表示,可以在低分辨率(LR)输入下从广阔的背景中区分小目标,从而进一步提高检测精度。此外,为了避免引入额外的计算量,在推理阶段丢弃 SR 分支,由于 LR 输入,减少了网络模型的计算量。实验结果表明,在广泛使用的 VEDAI 数据集上,SuperYOLO取得了75.09% (以mAP50计) 的准确率,比 SOTA 大型模型,如 YOLOv5l、YOLOv5x 和 RS 设计的 YOLOrs 提高了10%以上。同时,Super YOLO 的参数大小和GFLOPs 比 YOLOv5x 少约18倍和3.8倍。我们提出的模型与最先进的模型相比,显示出良好的精度-速度权衡。

模型结构

Overview of the proposed SuperYOLO framework.

  1. 低分辨率(LR)输入。
  2. 移除Focus模块:移除YOLOv5s中的Focus模块(YOLOv5的V6.0版本已经移除了它),因为 Focus 模块可能会牺牲目标检测精度,特别是对于易受分辨率影响的小目标
  3. 多模态融合(MF):对称紧凑的像素级多模态融合模块。
  4. 超分辨率(SR)辅助分支:学习高分辨(HR)率特征表示。
  5. 推理阶段移除了 SR 分支:避免引入额外的消耗。

多模态融合(MF)

MF

  1. 对于像素级融合,我们首先将输入的 RGB 图像和输入的 IR 图像归一化为 [0, 1] 的两个区间。将输入模态 SuperYOLO 论文阅读笔记, SuperYOLO 论文阅读笔记 $\in $ SuperYOLO 论文阅读笔记下采样到 SuperYOLO 论文阅读笔记, SuperYOLO 论文阅读笔记 $\in $ SuperYOLO 论文阅读笔记,再馈送到 SE 模块(一种通道注意力机制)中提取通道域中的内部信息,生成SuperYOLO 论文阅读笔记, SuperYOLO 论文阅读笔记
    SuperYOLO 论文阅读笔记
  2. 然后,将揭示不同模态在空间域中内在关系的注意图定义为:
    SuperYOLO 论文阅读笔记
    其中 SuperYOLO 论文阅读笔记SuperYOLO 论文阅读笔记 分别表示 RGB 和 IR 模态的 SuperYOLO 论文阅读笔记 卷积。
  3. 不同模态之间的内部空间信息由下式产生:
    SuperYOLO 论文阅读笔记
  4. 为了融合内部视图信息和空间纹理信息,将特征添加到原始输入模态中,然后输入到 SuperYOLO 论文阅读笔记 卷积中。完整的特征如下:
    SuperYOLO 论文阅读笔记
    其中 SuperYOLO 论文阅读笔记SuperYOLO 论文阅读笔记 表示 SuperYOLO 论文阅读笔记 卷积。
  5. 最后,对特征进行融合:
    SuperYOLO 论文阅读笔记
    其中 SuperYOLO 论文阅读笔记 表示沿通道轴的连接操作。然后将结果馈送到主干以产生多级特征。注意,SuperYOLO 论文阅读笔记 被下采样到原始图像的 SuperYOLO 论文阅读笔记 大小,以完成 SR 模块,并加速训练过程。其中 SuperYOLO 论文阅读笔记 表示 RGB 或 IR 模态,将采样图像记为 SuperYOLO 论文阅读笔记,由下式产生:
    SuperYOLO 论文阅读笔记
    其中 SuperYOLO 论文阅读笔记 表示采用双线性插值的 SuperYOLO 论文阅读笔记 次下采样操作。

超分辨率辅助分支(SR)

Backbone

  1. 编码器——解码器结构
  2. 选择第四个和第九个模块的结果作为低级特征(局部纹理模式)和高级特征(语义信息)
  3. 编码器:
    1. 使用上采样操作来匹配低级特征的空间大小
    2. 使用 Concat 操作和两个 CR 模块来合并低级特征和高级特征
  4. 解码器:LR 特征被放大到 HR 空间,SR 的输出比输入大两倍
    1. 使用三个 Deconv(反卷积层)实现
    2. 引入 EDSR 探索 SR 性能

损失函数

  1. SuperYOLO 论文阅读笔记 (检测损失 SuperYOLO 论文阅读笔记,SR 重建损失 SuperYOLO 论文阅读笔记)。
  2. SuperYOLO 论文阅读笔记 (L1 损失被用于计算输入图像 SuperYOLO 论文阅读笔记 与 SR 结果 SuperYOLO 论文阅读笔记 之间的 SR 重建损失 SuperYOLO 论文阅读笔记)。
  3. SuperYOLO 论文阅读笔记(SuperYOLO 论文阅读笔记 表示头部输出层,SuperYOLO 论文阅读笔记, SuperYOLO 论文阅读笔记SuperYOLO 论文阅读笔记是三个损失函数不同层的权重; 权重 SuperYOLO 论文阅读笔记, SuperYOLO 论文阅读笔记,以及 SuperYOLO 论文阅读笔记 调节框坐标、框维度、对象性、无对象性和分类之间的误差强调。)

总结

本文应该是目前遥感多模态目标检测领域 Github 收藏量最高的项目了,代码可读性很高,作者也在 lssues 上积极交流,感谢作者对遥感多模态目标检测的贡献!!!

版权声明:本文为博主作者:喜欢听风原创文章,版权归属原作者,如果侵权,请联系我们删除!

原文链接:https://blog.csdn.net/wfuckfuck/article/details/136579926

共计人评分,平均

到目前为止还没有投票!成为第一位评论此文章。

(0)
乘风的头像乘风管理团队
上一篇 2024年5月6日
下一篇 2024年5月6日

相关推荐