深度学习之图像分割—— SegNet基本思想和网络结构以及论文补充

原文链接：SegNet

文章目录

- SegNet的引入

SegNet的引入

SegNet是2016年cvpr由Cambridge提出旨在解决自动驾驶或者智能机器人的图像语义分割深度网络，开放源码，基于caffe框架。SegNet基于FCN，修改VGG-16网络得到的语义分割网络，有两种版本的SegNet，分别为SegNet与Bayesian SegNet，同时SegNet作者根据网络的深度提供了一个basic版（浅网络）。

1.SegNet的创新点

SegNet与U-net网络相似，主要的区别是提出了记录池化的位置，反池化时恢复。不再进行拼接操作，直接进行反卷积。
作用：
为了更好的保留边界特征信息。采用了索引的方式进行上采样。即在进行池化操作时，记录池化所取值的位置，在上采样时直接用当时记录的位置进行UpPool（反池化）

2.SegNet的模型特点

1. backbone: vgg16

2. encoder-decoder，左右网络层对称。

Encoder过程中，通过卷积提取特征，SegNet使用的卷积为same卷积，即卷积后保持图像原始尺寸；在Decoder过程中，同样使用same卷积，不过卷积的作用是为upsampling变大的图像丰富信息，使得在Pooling过程丢失的信息可以通过学习在Decoder得到。bn层对训练图像进行批标准化（BatchNormalization），加速模型的学习。

decoder中，对缩小后的特征图进行上采样，然后对上采样后的图像进行卷积处理，来完善图像中物体的几何形状，将encoder中获得的特征还原到原来图像的具体的像素点上。

3. 带索引的最大池化上采样。

3.如何记录池化的位置？

Pooling在CNN中是使得图片缩小一半的手段，通常有max与mean两种Pooling方式，下图所示的是max Pooling。max Pooling是使用一个2×2的filter，取出这4个权重最大的一个，原图大小为4×4，Pooling之后大小为2×2，原图左上角粉色的四个数，最后只剩最大的6，这就是max的意思。

在SegNet中的Pooling与其他Pooling多了一个index功能（该文章亮点之一），也就是每次Pooling，都会保存通过max选出的权值在2×2 filter中的相对位置，对于上图的6来说，6在粉色2×2 filter中的位置为(1，1)(index从0开始），黄色的3的index为(0，0)。同时，从网络框架图可以看到绿色的pooling与红色的upsampling通过pool indices相连，实际上是pooling后的indices输出到对应的upsampling（因为网络是对称的，所以第1次的pooling对应最后1次的upsamping，如此类推）。

Upsamping就是Pooling的逆过程（index在Upsampling过程中发挥作用），Upsamping使得图片变大2倍。我们清楚的知道Pooling之后，每个filter会丢失了3个权重，这些权重是无法复原的，但是在Upsamping层中可以得到在Pooling中相对Pooling filter的位置。所以Upsampling中先对输入的特征图放大两倍，然后把输入特征图的数据根据Pooling indices放入，下图所示，Unpooling对应上述的Upsampling，switch variables对应Pooling indices。

对比FCN可以发现SegNet在Unpooling时用index信息，直接将数据放回对应位置，后面再接Conv训练学习。这个上采样不需要训练学习(只是占用了一些存储空间)。反观FCN则是用transposed convolution策略，即将feature 反卷积后得到upsampling，这一过程需要学习，同时将encoder阶段对应的feature做通道降维，使得通道维度和upsampling相同，这样就能做像素相加得到最终的decoder输出.

1.Deconvolution

pooling&Upsampling示意图中右边的Upsampling可以知道，2×2的输入，变成4×4的图，但是除了被记住位置的Pooling indices，其他位置的权值为0，因为数据已经被pooling走了。因此，SegNet使用的反卷积在这里用于填充缺失的内容，因此这里的反卷积与卷积是一模一样，在网络框架图中跟随Upsampling层后面的是也是卷积层。

2.Output

在网络框架中，SegNet，最后一个卷积层会输出所有的类别（包括other类），网络最后加上一个softmax层，由于是end to end，所以softmax需要求出所有每一个像素在所有类别最大的概率，最为该像素的label，最终完成图像像素级别的分类。

3.Bayesian SegNet

可以知道，在SeNet中最后每个像素都会对每一类的概率进行计算，再通过Softmat输出概率最大的一个，然后这个像素点就认为是这一类别，对应的概率就是这一像素属于该类的概率。这种由原因到结果的推导，可以称为先验概率，任何先验概率使用都会出现一个问题，不能知道这一结果的可靠性，即便先验概率非常大，但是对于不同的样本，先验概率无法保证一定正确。正是如此，才需要有从结果寻找原因的贝叶斯概率，即后验概率，它能给出结果的可信程度，即置信度。Bayesian SegNet正是通过后验概率，告诉我们图像语义分割结果的置信度是多少。Bayesian SegNet如下图所示。

对比两框架图，并没有发现Bayesian SegNet与SegNet的差别，事实上，从网络变化的角度看，Bayesian SegNet只是在卷积层中多加了一个DropOut层，其作用后面解释。最右边的两个图Segmentation与Model Uncertainty，就是像素点语义分割输出与其不确定度（颜色越深代表不确定性越大，即置信度越低）。

4.DropOut

在传统神经网络中DropOut层的主要作用是防止权值过度拟合，增强学习能力。DropOut层的原理是，输入经过DropOut层之后，随机使部分神经元不工作（权值为0），即只激活部分神经元，结果是这次迭代的向前和向后传播只有部分权值得到学习，即改变权值。

因此，DropOut层服从二项分布，结果不是0，就是1，在CNN中可以设定其为0或1的概率来到达每次只让百分之几的神经元参与训练或者测试。在Bayesian SegNet中，SegNet作者把概率设置为0.5，即每次只有一半的神经元在工作。因为每次只训练部分权值，可以很清楚地知道，DropOut层会导致学习速度减慢。

5.Use Bayesian SegNet

在Bayesian SegNet中通过DropOut层实现多次采样，多次采样的样本值为最后输出，方差最为其不确定度，方差越大不确定度越大。所以在使用Bayesian SegNet预测时，需要多次向前传播采样才能够得到关于分类不确定度的灰度图，Bayesian SegNet预测如下图所示。

第一行为输入图像，第二行为ground truth，第三行为Bayesian SegNet语义分割输出，第四行为不确定灰度图。可以看到，
1.对于分类的边界位置，不确定性较大，即其置信度较低。
2.对于图像语义分割错误的地方，置信度也较低。
3.对于难以区分的类别，例如人与自行车，road与pavement，两者如果有相互重叠，不确定度会增加。

文章出处登录后可见！

已经登录？立即刷新