最近又开始看了一点detectron2框架中的maskrcnn，因此我这里回忆记录一下maskrcnn的基本原理。

一、基础网络架构

maskrcnn简单解析

以上两个结构图就非常清晰地展示了maskrcnn网络模型的大致情况！

一、backbone

Backbone采用的是ResNet-50或者ResNet-101，作为特征提取器提取特征，我们将输入图像（大小为 $H\times W$ ）通过ResNet后，会得到五层特征图，其尺寸大小依次为：

( maskrcnn简单解析 )

我们知道，低层特征往往含有较多的细节信息（颜色、轮廓、纹理），但包含许多的噪声以及无关信息。而高层特征包含有充分的语义信息（类别、属性等），但空间分辨率却很小，从而导致高层特征上信息丢失较为严重。因此maskrcnn采用了FPN（特征金字塔网络）的结构，来进行特征的融合。

maskrcnn简单解析

FPN结构中包括自下而上，自上而下和横向连接三个部分。FPN可以同时利用低层特征图的空间信息和高层特征图的语义信息，它的原理很简单，就是把分辨率较小的高层特征首先通过1×1卷积降维（减少计算量），然后上采样至前一个特征图的相同尺寸，再进行逐元素相加，就能得到融合后的特征。

注：

1）自下而上：从下到上的路径，可以明显看出，其实就是简单的特征提取过程，和传统的没有区别。具体就是将ResNet作为骨架网络，根据feature map的大小分为5个stage。stage2，stage3，stage4和stage5各自最后一层输出conv2，conv3，conv4和conv5分别定义为 $C2,C3,C4,C5$ ,他们相当于原始图片的stride是{4, 8, 16, 32}。需要注意的是，考虑到内存原因，stage1的conv1并没有使用。

2）自上而下和横向连接：自上而下是从最高层开始进行上采样，这里的上采样直接使用的是最近邻上采样，而不是使用反卷积操作，一方面简单，另外一方面可以减少训练参数。横向连接则是将上采样的结果和自底向上生成的相同大小的feature map进行融合。具体就是对 $C2,C3,C4,C5$

中的每一层经过一个conv 1×1操作（1×1卷积用于降低通道数），无激活函数操作，输出通道全部设置为相同的256通道，然后和上采样的feature map进行加和操作。在融合之后还会再采用3*3的卷积核对已经融合的特征进行处理，目的是消除上采样的混叠效应（aliasing effect）。

实际上，上图少绘制了一个分支：M5经过步长为2的max pooling下采样得到 P6，作者指出使用P6是想得到更大的anchor尺度512×512。但P6是只用在 RPN中用来得到region proposal的，并不会作为后续Fast RCNN的输入。

总结一下，ResNet-FPN作为RPN输入的feature map是 maskrcnn简单解析

，而作为后续Fast RCNN的输入则是 maskrcnn简单解析。

二、RPN

在得到增强后的特征后，下面要讲的就是我们的RPN（Region Proposal Network）。

首先我们得明白什么叫做RPN？顾名思义，RPN就是区域推荐的网络，用于帮助网络推荐感兴趣的区域。

在说这个之前，我们得清楚什么叫做锚点？其实锚点也就是框，我们知道实例分割是要完成对物体的检测、分类、分割三个任务，而检测需要定位，也就是要得到目标的位置。Maskrcnn与fasterrcnn一样都是先生成一系列锚点，然后通过一定的规则来筛选。

各个框的大小由scale和ratio这两个参数来确定的，比如scale =[64]，ratio=[0.5,1,1.5] ，则每个像素点可以产生3个不同大小的框。这个三个框是由保持框的面积不变，来通过ratio的值来改变其长宽比，从而产生不同大小的框。

我们在前面通过backbone和fpn得到了增强后的特征，现在就需要在这个特征上来使用我们的RPN结构。

这里需要说明一点，我们要在这几层特征图之间根据region proposal切出ROI进行后续的分类和回归预测。选择哪个feature map来切出这些ROI区域：我们会选择最合适的尺度的feature map来切ROI。具体来说，我们通过一个公式来决定宽w和高h的ROI到底要从哪个特征图来切：

maskrcnn简单解析

RPN其原理如下:

maskrcnn简单解析

注：为何是9个框呢？应该是3个ratio，那应该是3个框才对。后面我们讨论认为他这里面应该是scale给了3个，所以才会是九个

maskrcnn简单解析

注意：上面各层特征图（p2至p6）之间根据region proposal切出ROI进行后续的分类和回归预测。选择哪个feature map来切出这些ROI区域：我们会选择最合适的尺度的feature map来切ROI。具体来说，我们通过一个公式来决定宽w和高h的ROI到底要从哪个特征图来切。

三、ROI Align

Mask RCNN的构建很简单，只是在ROI pooling（实际上用到的是ROIAlign，后面会讲到）之后添加卷积层，进行mask预测的任务。

通过ROI Align（或者说ROI Pooling）可以将输入的各个不同size的ROI进行fixed，官方是fixed大小为7×7。

3.1 原始ROI Pooling的问题

在Faster-RCNN中ROI Pooling的过程如下图所示：

maskrcnn简单解析

注意：可以看到上图有两次量化误差，第一次是从图像坐标系转到特征图坐标系：665/32=20.78，取整20的时候出现量化误差；第二次是从特征图坐标系转到特征图中的ROI坐标系：20/7=2.86，取整到2则出现量化误差。

输入图片的大小为800×800，其中狗这个目标框的大小为665×665，经过VGG16网络之后获得的特征图尺寸为800/32 x 800/32 = 25 x 25,其中32代表VGG16中的5次下采样（步长为2）。同样地，对于狗这个目标我们将其对应到特征图上得到的结果是：

$665/32 \times 665/32 = 20.78\times 20.78 = 20 \times 20$

，因为坐标要保留整数所以这里引入了第一个量化误差即舍弃了目标框在特征图上对应长宽的浮点数部分。

然后我们需要将这个 $20\times 20$ 的ROI区域映射为7×7的ROI特征图，根据ROI Pooling的计算方式，其结果就是：

$20/7 \times 20/7 = 2.86\times 2.86 = 2 \times 2$

即同样执行取整操作后ROI特征区域的尺寸为2×2，这里引入了第二次量化误差！

注意：这里表达的“整操作后ROI特征区域的尺寸为2×2”可能很多人会误会最后经过roi pooling的特征图大小是2×2，其实这是误会的，最后经过roi pooling的特征图大小是7×7大小的。而这个2×2是我们的池化区域视野！即每次在这2×2区域大小进行池化，直至扫描完整个20×20的区域！

从上面的分析可以看出，这两次量化误差会导致原始图像中的像素和特征图中的像素进行对应时出现偏差，例如上面将2.86量化为2的时候就引入了0.86的偏差，这个偏差映射回原图就是：

$0.86\times 32 = 27.52$ ，可以看到这个像素偏差是很大的！

3.2 ROIAlign

引自：（链接）为了缓解ROI pooling的量化误差过大的问题，hekaiming等人提出了ROIAlign，ROIAligin没有使用量化操作，而是使用了双线性插值。它充分的利用原图中的虚拟像素值如27.52四周的四个真实存在的像素值来共同决定目标图中的一个像素值，即可以将27.52和类似的非整数坐标值像素对应的输出像素值估计出来。这一过程如下图所示：

maskrcnn简单解析

其中feat.map就是VGG16或者其他Backbone网络获得的特征图。黑色实线表示的是ROI划分方式，(最后输出的特征图大小为 $2\times 2$ )，然后就使用双线性插值的方式来估计这些蓝色点的像素值，最后得到输出，然后再在橘红色的区域中执行Pooling操作最后得到 $2\times 2$ 的输出特征图。可以看到这个过程相对于ROI Pooling没有引入任何量化操作即原图中的像素和特征图中的像素是完全对齐的，没有偏差，这不仅会提高检测的精度，同时也会有利于实例分割。

详细地讲解ROI Align操作。虚线部分表示feature map，实线表示ROI，这里将ROI切分成2×2的单元格。如果采样点数是4，那我们首先将每个单元格子均分成四个小方格（如红色线所示），每个小方格中心就是采样点。这些采样点的坐标通常是浮点数，所以需要对采样点像素进行双线性插值（如四个箭头所示），就可以得到该像素点的值了。然后对每个单元格内的四个采样点进行maxpooling，就可以得到最终的ROIAlign的结果。

在未引入RoIAlign前，网络中采用的是ROIPooling，采用它的目的是将不同尺寸的ROI特征图转换为相同尺寸的特征图，然后与后续的全连接层连接，但是这里因为使用了两次量化操作，因此会引入两次的量化误差，而RoIAlign是采用了双线性插值算法，因此不会引入量化误差，这样映射到原始图片中像素点对应的原始位置时就不会引入偏差。

为了得到为了得到固定大小（7X7）的feature map，ROIAlign不使用量化操作，然后对于浮点数，采用“双线性插值”算法进行计算，这样可以规避量化误差。双线性插值是一种图像缩放算法，它充分的利用了原图中虚拟点（比如20.56这个浮点数，像素位置都是整数值，没有浮点值）四周的四个真实存在的像素值来共同决定目标图中的一个像素值，即可以将20.56这个虚拟的位置点对应的像素值估计出来。

其中双线性插值的图示和公式如下。

maskrcnn简单解析

双线性插值计算（x1,y1），（x2,y2）两点间任意一点的公式，这里可以看做是R1的表达式：

maskrcnn简单解析

同理利用双线性插值计算出R1和R2这两个点的表达式：

maskrcnn简单解析

然后对于R1和R2两点又可以继续使用双线性插值计算它们中间P点的表达式：

maskrcnn简单解析

最终用双线性插值计算出的P点的表达公式如下，它是利用周边四个已知的坐标点值计算而来：

maskrcnn简单解析

双线性插值的物理意义如下图所示：

maskrcnn简单解析

由上图可知可以得到，双线性插值本质上是目标像素所相邻的四个像素，分别以像素对应的对角像素与目标像素的构成的矩形区域为权重，像素大小为值的加权和。

四、网络结构

引自：【从零开始学Mask RCNN】一，原理回顾&&项目文档翻译 – 知乎

4.1 概述

为了证明次网络的通用性，论文构造了多种不同结构的Mask R-CNN，具体为使用不同的Backbone网络以及是否将用于边框识别和Mask预测的上层网络分别应用于每个ROI。对于Backbone网络，Mask R-CNN基本使用了之前提出的架构，同时添加了一个全卷积的Mask(掩膜)预测分支。Figure3展示了两种典型的Mask R-CNN网络结构，左边的是采用ResNet或者ResNext做网络的backbone提取特征，右边的网络采用FPN网络做Backbone提取特征，最终作者发现使用ResNet-FPN作为特征提取的backbone具有更高的精度和更快的运行速度，所以实际工作时大多采用右图的完全并行的mask/分类回归。

maskrcnn简单解析

4.2 ResNet-FPN (Feature Pyramid Network )

（1）FPN

FPN结构中包括自下而上，自上而下和横向连接三个部分，如下图所示。这种结构可以将各个层级的特征进行融合，使其同时具有强语义信息和强空间信息。

maskrcnn简单解析

(2) ResNet-FPN

FPN实际上是一种通用架构，可以结合各种骨架网络使用，比如VGG，ResNet等。（这里用的就是ResNet-FPN）

maskrcnn简单解析

1）自下而上：从下到上路径。可以明显看出，其实就是简单的特征提取过程，和传统的没有区别。具体就是将ResNet作为骨架网络，根据feature map的大小分为5个stage。stage2，stage3，stage4和stage5各自最后一层输出conv2，conv3，conv4和conv5分别定义为C2,C3,C4,C5,他们相对于原始图片的stride是{4,8,16,32}。需要注意的是，考虑到内存原因，stage1的conv1并没有使用。

2）自上而下和横向连接：自上而下是从最高层开始进行上采样，这里的上采样直接使用的是最近邻上采样，而不是使用反卷积操作，一方面简单，另外一方面可以减少训练参数。横向连接则是将上采样的结果和自底向上生成的相同大小的feature map进行融合。具体就是对C2,C3,C4,C5中的每一层经过一个conv 1×1操作（1×1卷积用于降低通道数），无激活函数操作，输出通道全部设置为相同的256通道，然后和上采样的feature map进行加和操作。在融合之后还会再采用3*3的卷积核对已经融合的特征进行处理，目的是消除上采样的混叠效应（aliasing effect）。

实际上，上图少绘制了一个分支：M5经过步长为2的max pooling下采样得到 P6，使用P6是想得到更大的anchor尺度512×512。但P6是只用在 RPN中用来得到region proposal的，并不会作为后续Fast RCNN的输入。
总结一下，ResNet-FPN作为RPN输入的feature map是[P2,P3,P4,P5,P6]，而作为后续Fast RCNN的输入则是 [P2,P3,P4,P5] 。

（3）ResNet-FPN+Fast RCNN

maskrcnn简单解析

将ResNet-FPN和Fast RCNN进行结合，实际上就是Faster RCNN的了，但与最初的Faster RCNN不同的是，FPN产生了特征金字塔[P2,P3,P4,P5,P6]，而并非只是一个feature map。金字塔经过RPN之后会产生很多region proposal。这些region proposal是分别由P2,P3,P4,P5,P6经过RPN产生的，但用于输入到Fast RCNN中的是[P2,P3,P4,P5]，也就是说要在[P2,P3,P4,P5]中根据region proposal切出ROI进行后续的分类和回归预测。选择哪个feature map来切出这些ROI区域：我们会选择最合适的尺度的feature map来切ROI。具体来说，我们通过一个公式来决定宽w和高h的ROI到底要从哪个Pk来切：
maskrcnn简单解析

这里224表示用于预训练的ImageNet图片的大小。k0 表示面积为w*h=224*224的ROI所应该在的层级。作者将 k0设置为4，也就是说w*h=224*224的ROI应该从 P4中切出来。假设ROI的scale小于224（比如说是112 * 112)，k=k0-1=4-1=3，就意味着要从更高分辨率的P3中产生。另外，k值会做取整处理，防止结果不是整数。

（4）ResNet-FPN+Fast RCNN+mask （得到了最终的Mask RCNN）

总结: (1).骨干网络ResNet-FPN，用于特征提取，另外，ResNet还可以是：ResNet-50,ResNet-101,ResNeXt-50,ResNeXt-101；
(2).头部网络，包括边界框识别（分类和回归）+mask预测。头部结构见下图：

maskrcnn简单解析

Mask R-CNN中的改进：Faster R-CNN存在的问题是：特征图与原始图像是不对准的（mis-alignment），所以会影响检测精度。而Mask R-CNN提出了RoIAlign的方法来取代ROI pooling，RoIAlign可以保留大致的空间位置。

五、损失函数

Mask分支针对每个ROI区域产生一个 $K\times m\times m$ 的输出特征图，即 $K\times m\times m$ 的二值掩模图像，其中 $K$ 代表目标种类数。Mask-RCNN在Faster-RCNN的基础上多了一个ROIAligin和Mask预测分支，因此Mask R-CNN的损失也是多任务损失，可以表示为如下公式：

$L = L_{cls} + L_{box} + L_{mask}$

其中 $L_{cls}$ 表示预测框的分类损失， $L_{box}$ 表示预测框的回归损失， $L_{mask}$ 表示Mask部分的损失。

对于预测的二值掩膜输出，论文对每一个像素点应用sigmoid函数，整体损失定义为平均二值交叉损失熵。引入预测K个输出的机制，允许每个类都生成独立的掩膜，避免类间竞争。这样做解耦了掩膜和种类预测。不像FCN的做法，在每个像素点上应用softmax函数，整体采用的多任务交叉熵，这样会导致类间竞争，最终导致分割效果差。

下图更清晰的展示了Mask-RCNN的Mask预测部分的损失计算，来自知乎用户vision：

maskrcnn简单解析

六、训练

在Faster-RCNN中，如果ROI区域和GT框的IOU>0.5，则ROI是正样本，否则为负样本。

$L_{mask}$ 只在正样本上定义，而Mask的标签是ROI和它对应的Ground Truth Mask的交集。其他的一些训练细节如下：

采用image-centric方式训练，将图片的长宽较小的一边缩放到800像素。
每个GPU的mini-batch=2，每张图片有 $N$ 个采样ROIs，其中正负样本比例为1:3。
在8个gpu上进行训练，batch_size=2，迭代160k次，初始学习率0.02，在第120k次迭代时衰减10倍，weight_decay=0.0001,momentum=0.9。