Depth Quality-Inspired Feature Manipulation for Efficient RGB-D Salient Object Detection

扎眼的阳光 • 2022年6月1日上午11:36 • 技术文章 • 阅读 218

Depth Quality-Inspired Feature Manipulation for Efficient RGB-D Salient Object Detection

用于高效 RGB-D 显著目标检测的深度质量启发特征操作

目录

目录

1　Motivation

1. 深度质量是影响精度的关键因素。然而，很少有现有模型明确考虑到这个问题。

2. 仅根据深度图很难确定深度质量，因为很难判断深度图中的显著区域是属于噪声还是属于目标对象

如何去判断深度图的质量？
“边界对齐”（BA）：高质量的 depth 图通常具有与相应 RGB 图像良好对齐的一些边界。为了确定边界对齐，使用现成的边缘检测器分别从 RGB 和 depth 获取两个边缘图。

2　Solution

1. depth quality-inspired feature manipulation (DQFM) process,深度质量启发的特征操作过程
如果深度质量不好，则为 depth 特征分配较低的权重，
作用：有效避免注入噪声或误导性深度特征，以提高高效模型的检测精度

2. 通过 depth 整体 Attention 来增强DQFM，当深度质量为好时，增强深度特征
作用：控制和增强了深度特征在跨模态融合中的作用。

3. 将 DQFM嵌入到编码器-解码器中，得到 DFM-Net (Depth Feature Manipation Network) 深度特征操作网络，该模型具有定制的深度主干网和两级解码器，进一步提高效率。

3　DFM-Net

Depth Quality-Inspired Feature Manipulation for Efficient RGB-D Salient Object Detection

3.1　 Overview

RGB　depth　两个分支都导致五个特征层次结构，每个层次结构的输出步幅为2，最后一个层次结构的输出步幅为1。

（１）RGB branch ：(1) RGB 特征提取 (2) RGB 特征与 depth 特征跨模态融合

（２）depth　branch：depth 特征提取

（３）DQFM：提取的特定层次的depth特征通过简单的元素加法融合到 RGB 分支中，然后发送到下一个层次。DQFM 门包含两个连续的操作，即深度质量启发加权（DQW）和深度整体注意力（DHA）。

3.2 　Depth Quality-Inspired Feature Manipulation (DQFM)　（深度质量启发特征操作）

其中由DQW和DHA计算，来操纵要融合的深度特征

是一个标量，决定“多少”深度特征被涉及，而（是层次结构上的特征大小）是一个空间注意力图，决定在深度特征中聚焦“什么区域”。

DQW和DHA的内部结构

Depth Quality-Inspired Weighting (DQW).

Depth Quality-Inspired Feature Manipulation for Efficient RGB-D Salient Object Detection — 图3

Depth Quality-Inspired Feature Manipulation for Efficient RGB-D Salient Object Detection

GAP(·)表示全局平均池化操作

为了对轻微的边缘移动具有鲁棒性，我们提出了在多尺度下进行计算对其特征向量　VBA，VBA１，VBA２，并将计算结果级联（通道拼接）生成增强向量 。

应用两个完全连接的层从导出：

MLP(·)表示末端为sigmoid　激活函数　的两层感知器。因此，所得到的向量包含作为其元素的(0,1)(ｉ=1,2…,5）。

值得注意的是，这里我们对不同的层次结构采用不同的加权项，而不是相同的。

Depth Holistic Attention (DHA).

深度整体注意力(DHA)通过从depth流中提取整体注意力图来增强深度特征。

Depth Quality-Inspired Feature Manipulation for Efficient RGB-D Salient Object Detection

图４，首先利用来自深度流的最高层特征来定位粗糙的显著区域（如图2所示施加监督信号）。为了方便后续的像素操作，我们将压缩并向上采样为，与维度相同，表示为：

然后结合低层RGB和depth特征对进行重新校准，和计算类似，首先将转变为。

重新校准过程定义为：

两次校准

3.3 　Tailored Depth Backbone (TDB) （定制深度骨干网络）

Depth Quality-Inspired Feature Manipulation for Efficient RGB-D Salient Object Detection

Depth Quality-Inspired Feature Manipulation for Efficient RGB-D Salient Object Detection

从 TDB 得到的粗略预测结果表示为：

F𝑑𝑝 (·) 表示一个预测头，由一个 1 × 1 卷积组成，后跟一个 BatchNorm 层和 Sigmoid 激活，以及 16 倍双线性上采样以恢复原始输入大小。

3.4　Two-Stage Decoder（两阶段解码器）

Depth Quality-Inspired Feature Manipulation for Efficient RGB-D Salient Object Detection

阶段１（预融合）：减少特征通道和层次结构，在图中表示为 “CP”（通道压缩统一）和 “G”（层次分组）。

阶段２（全融合）：基于预融合的输出，全融合进一步聚合低级和高级层次结构以生成最终的显着图。

Depth Quality-Inspired Feature Manipulation for Efficient RGB-D Salient Object Detection

Depth Quality-Inspired Feature Manipulation for Efficient RGB-D Salient Object Detection

3.5　Loss Function（损失函数）

整体损失 L 由最终损失 L𝑐 和深度监督的深度分支损失 L𝑑 组成，对 L𝑐 和 L𝑑 使用标准的交叉熵损失，公式为：

文章出处登录后可见！

已经登录？立即刷新

深度学习目标检测计算机视觉

赞 (0)

扎眼的阳光普通用户

0

层次化文本分类Hierarchical Multi-Label Classification Networks

上一篇 2022年6月1日

嵌入式学习资料和项目汇总

下一篇 2022年6月1日