前言

本文对OpenMMLab在Monocular 3D detection领域做的两项工作FCOS3D和PGD（也被称作FCOS3D++）进行介绍。

在此之前，建议大家通过这篇博客：“3Dfy” A General 2D Detector: 纯视觉 3D 检测再思考，来回顾单目3D目标检测的更多细节。

FCOS3D

Wang, T, Zhu, X, Pang, J, et al. Fcos3d: Fully convolutional one-stage monocular 3d object detection[C]. In Proceedings of the IEEE/CVF International Conference on Computer Vision. 2021: 913-922.
论文
 代码

概述

3D检测由于其固有的不适定性，比传统的2D情况更具挑战性，这主要体现在深度信息的缺乏。在本文中，我们通过建立在全卷积单级检测器上的实践来研究这个问题，并提出了一个通用框架FCOS3D。具体而言，我们首先将通常定义的7-DoF 3D位置投影到2D图像上，并获得投影的中心点，与之前的2D中心相比，我们将其命名为3D中心。利用该投影，3D中心包含2.5D信息，即2D位置及其相应深度。2D位置可以进一步减少到从图像上的某个点的2D偏移，这用作可以在不同特征级别之间归一化的唯一2D属性。相比之下，深度、3D尺寸和方向被视为解耦后的3D属性。然后，考虑到对象的2D比例，将对象分布到不同的特征级别，并仅根据训练过程的投影3D中心进行分配。此外，基于3D中心用2D高斯分布重新定义中心度，以拟合3D目标公式。所有这些都使该框架简单而有效，消除了任何2D检测或2D-3D对应先验。

主要创新点

将7-DoF三维属性解耦为2.5D（位置偏移+深度）和3D属性（尺寸和旋转角等）
考虑目标的2D比例，将目标分布到不同的特征级别，并仅根据训练过程的投影三维中心进行分配
使用基于3D中心的2D高斯分布来表示3D Center-ness（来确定哪些点更靠近中心，并抑制远离目标中心的低质量预测）

在这里插入图片描述

主要框架结构

全卷积一阶段检测器通常由三个部件组成：用于特征提取的Backbone、用于多级分支构造的Neck和用于密集预测的Head

Backbone：使用预训练的ResNet101以及可变形卷积DCN进行特征提取，为了避免更多的内存开销，固定第一个卷积块参数
Neck：生成特征层 P3-P7（按照原始 FCOS 获得P3到P5，然后使用两个卷积块对P5进行下采样，以获得P6和P7），每个特征层用于检测不同尺度的目标
Head：要处理两个关键问题：
- 如何将目标分布到不同的特征级别和不同的点？也就是2D引导的多层3D预测
- 如何设计架构？本文遵循 RetinaNet 和 FCOS，每个包含4个共享参数的卷积层和 small heads 用于不同的 targets 预测，回归分支需要较高的解耦程度，即每个子 targets 都设置一个 head