Depth Quality-Inspired Feature Manipulation for Efficient RGB-D Salient Object Detection

Depth Quality-Inspired Feature Manipulation for Efficient RGB-D Salient Object Detection

用于高效 RGB-D 显著目标检测的深度质量启发特征操作

目录

1 Motivation

1. 深度质量是影响精度的关键因素。然而,很少有现有模型明确考虑到这个问题。

2. 仅根据深度图很难确定深度质量,因为很难判断深度图中的显著区域是属于噪声还是属于目标对象

如何去判断深度图的质量?

“边界对齐”(BA): 高质量的 depth 图通常具有与相应 RGB 图像良好对齐的一些边界。 为了确定边界对齐,使用现成的边缘检测器分别从 RGB 和  depth 获取两个边缘图。

2 Solution

1. depth quality-inspired feature manipulation (DQFM) process,深度质量启发的特征操作过程

如果深度质量不好,则为 depth 特征分配较低的权重,

作用:有效避免注入噪声或误导性深度特征,以提高高效模型的检测精度

2. 通过 depth 整体 Attention 来增强DQFM,当深度质量为好时,增强深度特征

作用:控制和增强了深度特征在跨模态融合中的作用。

3. 将 DQFM嵌入到编码器-解码器中,得到 DFM-Net (Depth Feature Manipation Network) 深度特征操作网络,该模型具有定制的深度主干网和两级解码器,进一步提高效率。

3 DFM-Net

Depth Quality-Inspired Feature Manipulation for Efficient RGB-D Salient Object Detection

3.1  Overview

RGB depth 两个分支都导致五个特征层次结构,每个层次结构的输出步幅为2,最后一个层次结构的输出步幅为1。

(1)RGB branch :(1) RGB 特征提取 (2) RGB 特征 与 depth 特征跨模态融合

(2)depth branch:depth 特征提取

(3)DQFM:提取的特定层次的depth特征通过简单的元素加法融合到 RGB 分支中,然后发送到下一个层次。DQFM 门包含两个连续的操作,即深度质量启发加权DQW)和深度整体注意力DHA)。

3.2  Depth Quality-Inspired Feature Manipulation (DQFM) (深度质量启发特征操作)

Depth Quality-Inspired Feature Manipulation for Efficient RGB-D Salient Object Detection其中Depth Quality-Inspired Feature Manipulation for Efficient RGB-D Salient Object DetectionDQWDHA计算,来操纵要融合的深度特征

Depth Quality-Inspired Feature Manipulation for Efficient RGB-D Salient Object Detection是一个标量,决定“多少”深度特征被涉及, 而Depth Quality-Inspired Feature Manipulation for Efficient RGB-D Salient Object Detection(是层次结构上的特征大小)是一个空间注意力图,决定在深度特征中聚焦“什么区域”。 

 DQW和DHA的内部结构

 Depth Quality-Inspired Weighting (DQW).

Depth Quality-Inspired Feature Manipulation for Efficient RGB-D Salient Object Detection
图3

  Depth Quality-Inspired Feature Manipulation for Efficient RGB-D Salient Object Detection

 Depth Quality-Inspired Feature Manipulation for Efficient RGB-D Salient Object Detection

GAP(·)表示全局平均池化操作 

 为了对轻微的边缘移动具有鲁棒性,我们提出了在多尺度下进行计算对其特征向量 VBA,VBA1,VBA2,并将计算结果级联(通道拼接)生成增强向量 。

Depth Quality-Inspired Feature Manipulation for Efficient RGB-D Salient Object Detection

 应用两个完全连接的层从Depth Quality-Inspired Feature Manipulation for Efficient RGB-D Salient Object Detection导出Depth Quality-Inspired Feature Manipulation for Efficient RGB-D Salient Object Detection: 

 Depth Quality-Inspired Feature Manipulation for Efficient RGB-D Salient Object Detection

MLP(·)表示末端为sigmoid 激活函数 的两层感知器。 因此,所得到的Depth Quality-Inspired Feature Manipulation for Efficient RGB-D Salient Object Detection向量包含作为其元素的Depth Quality-Inspired Feature Manipulation for Efficient RGB-D Salient Object Detection(0,1)(i=1,2…,5)。

值得注意的是,这里我们对不同的层次结构采用不同的加权项,而不是相同的。

 Depth Holistic Attention (DHA).

 深度整体注意力(DHA)通过从depth流中提取整体注意力图Depth Quality-Inspired Feature Manipulation for Efficient RGB-D Salient Object Detection来增强深度特征。 

 Depth Quality-Inspired Feature Manipulation for Efficient RGB-D Salient Object Detection

图4,首先利用来自深度流的最高层特征Depth Quality-Inspired Feature Manipulation for Efficient RGB-D Salient Object Detection来定位粗糙的显著区域(如图2所示施加监督信号)。为了方便后续的像素操作,我们将Depth Quality-Inspired Feature Manipulation for Efficient RGB-D Salient Object Detection压缩并向上采样为Depth Quality-Inspired Feature Manipulation for Efficient RGB-D Salient Object Detection,与Depth Quality-Inspired Feature Manipulation for Efficient RGB-D Salient Object Detection维度​​​相同,表示为:  Depth Quality-Inspired Feature Manipulation for Efficient RGB-D Salient Object Detection

 然后结合低层RGB和depth特征对Depth Quality-Inspired Feature Manipulation for Efficient RGB-D Salient Object Detection进行重新校准,和Depth Quality-Inspired Feature Manipulation for Efficient RGB-D Salient Object Detection计算类似,首先将Depth Quality-Inspired Feature Manipulation for Efficient RGB-D Salient Object Detection转变为Depth Quality-Inspired Feature Manipulation for Efficient RGB-D Salient Object Detection

重新校准过程定义为: Depth Quality-Inspired Feature Manipulation for Efficient RGB-D Salient Object Detection

两次校准Depth Quality-Inspired Feature Manipulation for Efficient RGB-D Salient Object Detection 

3.3  Tailored Depth Backbone (TDB) (定制深度骨干网络)

 Depth Quality-Inspired Feature Manipulation for Efficient RGB-D Salient Object Detection

Depth Quality-Inspired Feature Manipulation for Efficient RGB-D Salient Object Detection

  从 TDB 得到的粗略预测结果表示为:Depth Quality-Inspired Feature Manipulation for Efficient RGB-D Salient Object Detection

 F𝑑𝑝 (·) 表示一个预测头,由一个 1 × 1 卷积组成,后跟一个 BatchNorm 层和 Sigmoid 激活,以及 16 倍双线性上采样以恢复原始输入大小。

3.4 Two-Stage Decoder(两阶段解码器)

Depth Quality-Inspired Feature Manipulation for Efficient RGB-D Salient Object Detection

  阶段1(预融合):减少特征通道和层次结构,在图中表示为 “CP”(通道压缩统一) 和 “G”(层次分组)。

 阶段2(全融合):基于预融合的输出,全融合进一步聚合低级高级层次结构以生成最终的显着图。

 Depth Quality-Inspired Feature Manipulation for Efficient RGB-D Salient Object Detection

 Depth Quality-Inspired Feature Manipulation for Efficient RGB-D Salient Object Detection

 Depth Quality-Inspired Feature Manipulation for Efficient RGB-D Salient Object Detection

3.5 Loss Function(损失函数)

整体损失 L 由最终损失 L𝑐 和深度监督的深度分支损失 L𝑑 组成,对 L𝑐 和 L𝑑 使用标准的交叉熵损失,公式为:

Depth Quality-Inspired Feature Manipulation for Efficient RGB-D Salient Object Detection

文章出处登录后可见!

已经登录?立即刷新

共计人评分,平均

到目前为止还没有投票!成为第一位评论此文章。

(0)
扎眼的阳光的头像扎眼的阳光普通用户
上一篇 2022年6月1日
下一篇 2022年6月1日

相关推荐