EfficientPS网络

实现了全景分割，即语义分割+实例分割。

全景分割：全景分割任务（Panoptic Segmentation）要求图像中的每个像素点都必须被分配给一个语义标签和一个实例id。其中，语义标签指的是物体的类别，而实例id则对应同类物体的不同编号。

语义分割：在语义分割中我们需要将视觉输入分为不同的语义可解释类别，「语义的可解释性」即分类类别在真实世界中是有意义的。例如，我们可能需要区分图像中属于汽车的所有像素，并把这些像素涂成蓝色。

实例分割：实例分割为属于同一对象类的不同对象实例提供了不同的标签。因此，实例分割可以定义为寻找目标检测的任务同时解决语义分割。将每个分割后的对象分解为各自的子成分。

语义分割会为图像中的每个像素分配一个类别，但是同一类别之间的对象不会区分。而实例分割，只对特定的物体进行分类。这看起来与目标检测相似，不同的是目标检测输出目标的边界框和类别，实例分割输出的是目标的Mask和类别。

主要包括语义分割头，实例分割头以及一个将两者融合的模块。

语义分割头为作者自己设计的。

作者提出的语义分割头由三个部分组成，每个部分都针对其中一个关键需求。

实例分割头作者使用了Mask-RCNN的变体。

Mask-RCNN：Mask R-CNN是一个两阶段的框架，第一个阶段扫描图像并生成提议(proposals，即有可能包含一个目标的区域)，第二阶段分类提议并生成边界框和掩码。Mask R-CNN 扩展自 Faster R-CNN。

网络的backbone使用EfficientNet的变体以及双路FPN。

EfficientNet：该论文提出了一种新的模型缩放方法，它使用一个简单而高效的复合系数来从depth, width, resolution 三个维度放大网络，不会像传统的方法那样任意缩放网络的维度，基于神经结构搜索技术可以获得最优的一组参数(复合系数)。EfficientNet不仅比别的网络快很多，而且精度也更高。为了追求更好的精度和效率，在ConvNet缩放过程中平衡网络宽度、深度和分辨率的所有维度是至关重要的。

FPN：特征金字塔网络(FPN)，FPN能够实现底层到高层的feature map的融合，从而充分利用了提取到的各阶段的特征。FPN采用了top-down的结构和横向连接，以此融合具有高分辨率的浅层layer和具有丰富语义信息的深层layer，从而实现了从单尺度的输入图像上，快速构建在所有尺度上都具有强语义信息的特征金字塔，同时并不产生明显的开销。同时FPN是一个窗口大小固定的滑动窗口检测器，在不同的层滑动可以增加其对尺度变化的鲁棒性。

RPN：区域建议网络(RPN) RPN是一个轻量的神经网络，它用滑动窗口来扫描图像，并寻找存在目标的区域，RPN扫描的矩形区域被称为anchor，这些anchor相互重叠尽可能地覆盖图像。滑动窗口是由 RPN的卷积过程实现的，可以使用GPU并行地扫描所有区域。此外，RPN并不会直接扫描图像，而是扫描主干特征图，使得RPN可以有效地复用提取的特征，并避免重复计算。RPN为每个anchor生成两个输出：用于区分前景和背景的anchor类别以及更好拟合目标的边框精度。通过使用RPN的预测，可以选出最好地包含了目标的anchor，并对其位置和尺寸进行精调，如果有多个 anchor 互相重叠，通过非极大值抑制，保留拥有最高前景分数的anchor。

文章出处登录后可见！

已经登录？立即刷新

EfficientPS网络

相关推荐