边界框回归 Bounding-Box Regression

xiaoxingxing

12 月前

Table of Contents

文章目录

边界框回归（Bounding-Box Regression）

边界框回归（Bounding-Box Regression）

本篇博客实际上参考了CSDN另一篇博客写的这是链接。但那篇博客的排版和语言表达实在是太烂了，公式错误也很多，以至于我花了很多时间才看明白。我将自己的思考结果记录下来，供大家参考。

一、边界框回归简介

那么边界框回归所要做的就是利用某种映射关系，使得候选目标框（region proposal）边界框回归 Bounding-Box Regression 的映射目标框无限接近于真实目标框（ground-truth）。将上述原理利用数学符号表示如下：在给定一组候选目标框，寻找到一个映射，使得。其中表示真实值，表示预测值。

图1 边界框回归过程

边界框回归过程图像表示如图1所示。在图1中红色框代表候选目标框，绿色框代表真实目标框，蓝色框代表边界框回归算法预测目标框。红色圆圈代表选候选目标框的中心点，绿色圆圈代表选真实目标框的中心点，蓝色圆圈代表选边界框回归算法预测目标框的中心点。

二、边界框回归细节

RCNN论文里指出，边界框回归是利用平移变换和尺度变换来实现映射。平移变换的计算公式如下：

尺度变换的计算公式如下：

其中（代表），是基于的四个线性函数。在这里，我们将特征记作，那么。因此，我们可以利用最小二乘法或者梯度下降算法进行求解，RCNN论文中给出了的求解表达式：

其中：

、是中心点的平移移动，、是尺度放缩量。

可以看出，上述模型就是一个Ridge回归模型。在RCNN中，边界框回归要设计4个不同的Ridge回归模型分别求解。

回归模型的输入是什么？是这个四维张量吗？

真正的输入是这个窗口对应的 CNN 特征，也就是 R-CNN 中的（特征向量）。训练阶段也会用到Ground Truth的坐标数据，也就是式提到的。

三、相关问题思考

1. 为什么使用相对坐标差?

在式中，那么为什么要将真实框的中心坐标与候选框的中心坐标的差值分别除以宽高呢？

图2 尺寸不同的图片

接下来的讨论中，我们假设边界框的回归使用绝对坐标。

首先我们假设两张尺寸不同，但内容相同的图像，图像如图2所示。我们假设经过CNN提取的特征分别为和。同时，我们假设为第个真实目标框的坐标，为第个候选目标框的坐标，边界框回归坐标的映射关系为。那么我们可以得出：

理论上来说，CNN得出的特征和是相似的，那么线性函数映射的结果也应该是接近的。但显然。由于尺寸的变化，候选目标框和真实目标框坐标之间的偏移量也随着尺寸而成比例缩放，即这个值不是恒定不变的。但是归一化的比例值可以认为是近似相同的。

关于CNN是否有尺度不变性，这篇论文有说明过Object Detection in 20 Years: A Survey

因此，我们必须对坐标的偏移量除以候选目标框的宽，坐标的偏移量除以候选目标框的高。只有这样才能得到候选目标框与真实目标框之间坐标偏移量值的相对值。同时使用相对偏移量的好处可以自由选择输入图像的尺寸，使得模型灵活多变。也就说，对坐标偏移量除以宽高就是在做尺度归一化，即尺寸较大的目标框的坐标偏移量较大，尺寸较小的目标框的坐标偏移量较小。