SPP-Net 中的 SPP 算法的学习

https://arxiv.org/pdf/1406.4729.pdf https://github.com/ShaoqingRen/SPP_net http://www.dengfanxin.cn/?p=403 https://github.com/yhenon/keras-spp https://github.com/peace195/sppnet

浅学一下SPP吧。SPP-Net 中的 SPP 算法的学习

背景

在CNN已经在视觉检测领域表现出明显的性能提升的时候,CNN网络却有一个地方困扰着研究者和一些使用者,那就是当时的CNN网络只能以固定大小的图片进行输入(比如224×224),这限制了输入图像的长宽比和缩放尺度。

那么有人可能会提出建议,在前面加上一些手段,比如裁剪和变形等,这样图片输入就可以任意了,但是最终入网的大小是不固定的。建议很好,下次不允许再建议。让我们深入了解为什么这种方法不起作用。
原因:
1、裁剪会导致信息的丢失;
2、变形会导致位置信息的扭曲;
上面具体的示例论文中给出了下面两张非常直观的图片;
SPP-Net 中的 SPP 算法的学习

虽然图片的裁剪和变形有点激进,但在现实世界中可能会比这更好,但事实证明这样做会极大地影响准确性。此外,当对象是可缩放和可变的时,使用预定义的大小。不再适用。

谈完了裁剪和变形对于改变CNN固定输入不行的情况下,我们很自然的想到,那CNN为什么又是非要固定输入呢?
哎,那是因为后面全连接层的权重矩阵是固定大小的(这个权重矩阵中的值可以随着训练而改变,但是权重矩阵的大小是不允许的),导致了一个全连接层connected 输入也是固定的(因为是全连接的,可以理解为一个输入对应的权重)。
实际上,全连接层之前的卷积层不需要固定的图像大小,它可以生成任意大小的特征图。问题的症结在于它输入到全连接层的特征图需要是固定大小的,这就导致了输入到卷积层的大小是固定的(卷积层是一个输入可以是任意大小,意思是什么输入可以打滚,但是输入影响输出,180磅的英国大力士敢碰,结果不一样)

综上所述, CNN固定尺寸的问题来源于全连接层,也是网络的最后阶段,传统的裁剪和变形也不行。我们需要一种新的算法改进这种情况,哒哒,空间金字塔池化( spatial pyramid pooling,SPP)出现了。

SPP算法原理

一个简短的结论

一句话先来总结一下算法的原理:SPP层对特征进行池化,并产生固定长度的输出,这个输出再喂给全连接层。
白话文为:SPP可以接受任意大小的输入的特征图,但是SPP的输出统统的给你变成一样大小的特征图。

具体方法

输入一个任意大小的特征图,SPP将特征图均匀的分成不同大小的均分块,也就是用不同大小的n*n的块来对输入的特征图进行提取,具体的做法论文给出了如下的图:
SPP-Net 中的 SPP 算法的学习
图中分别使用1%2A12%2A24%2A4块来对输入特征进行提取,也可以理解为分别将输入的特征图分成1%2A12%2A24%2A4的不同大小的块,但是每一块最终的描述子都是一样大小的,将这些分割好的块,再拼接在一起,就形成了全连接层的输入。图上采用的为1%2A12%2A24%2A4的不同大小的块提取,那么最终拼接在一起的大小为1%2A1%2B2%2A2%2B4%2A4%3D21,在此情况下啊,无论你输入的特征图的多大的,经过SPP之后输出的特征大小都是固定的,假定你就使用1%2A12%2A24%2A4的不同大小的块提取,那么任何大小的特征图输入进来,输出的大小都是21.当然我们这里说的是通道数为1的情况下,真实情况下,还要乘上输入的通道数。

SPP算法的优点

1)SPP能在输入尺寸任意的情况下产生固定大小的输出,而在SPP出现之前在深度网络中的使用的较为先进滑窗池化(sliding window pooling)则不能;
2)SPP使用了多级别的空间箱(bin),也就是使用不同大小的块对特征图进行提起,而滑窗池化则只用了一个窗口尺寸。多级池化对于物体的变形十分鲁棒;
3)由于其对输入的灵活性,SPP可以池化从各种尺度抽取出来的特征。

SPP的代码实现

具体代码实现可以参考上面的链接。

文章出处登录后可见!

已经登录?立即刷新

共计人评分,平均

到目前为止还没有投票!成为第一位评论此文章。

(1)
乘风的头像乘风管理团队
上一篇 2022年3月15日
下一篇 2022年3月15日

相关推荐