站点图标 AI技术聚合

SKnet论文解读

SKnet论文解读

本文讲述sknet的核心部分:自适应性的注意力编码机制

SKNet对不同输入使用的卷积核感受野不同,参数权重也不同,可以自适应的对输出进行处理

注:本人天赋和知识很少,文章难免有疏漏。仅供初学者阅读和交流。

开始前的题外话

说来也算有趣,最近读了几个关于CV领域的paper,有的号称其idea来源于神经科学,比如SIM-AM的三维特征推断(这个其实没怎么看懂),言归正传,我们看一看sknet吧

1.神经科学背景

比如说inception模型的’宽度’

于是提出了sknet,不同大小的感受视野(卷积核)对于不同尺度的目标会有不同的效果。尽管 Inception 这样的增加了多个卷积核来适应不同尺度图像,但是卷积核权重相同,参数就是被计算好的了.SKNet对不同输入使用的卷积核感受野不同,参数权重也不同,可以自适应的对输出进行处理

sknet网络主要由 Split、Fuse、Select 三部分组成。

原文:’为了使神经元能够自适应地调整它们的 RF 大小,我们提出了一种自动选择操作,即“选择性内核”(SK)卷积,在具有不同内核大小的多个内核中。具体来说,我们通过三个运算符实现 SK 卷积——Split、Fuse 和 Select,如图 1 所示,其中显示了两个分支的情况。因此在这个例子中,只有两个内核大小不同的内核,但是很容易扩展到多个分支的情况。’

1.SPILT部分

‘拆分:对于任何给定的特征图 X ∈ C H W,默认情况下,我们首先进行两个变换(其实就是卷积,对应图中的X到两个U)

细节:内核大小为 3和 5,分别。请注意,这里的卷积是有效的分组/深度卷积、批量归一化 和 ReLU 函数依次组成。为了进一步提高效率,具有 5×5 内核的传统卷积被替换为具有 3×3 内核和扩张大小 2 的扩张卷积。’

什么意思?

很简单,看代码:

无非就是在两个支路上运用了深度卷积和分组卷积,以及一个支路是3*3核,另一个是5*5核,不过被用了空洞卷积的3*3核代替了

注意:Atrous 卷积,相同的参数,更大的感受野

2.FUSE:特征融合

也就是说X.SHAPE = U.SHAPE

逐元素加法

再次经过一个GAP,对channels嵌入空间信息

此外,还创建了一个紧凑的特征 z ∈ d×1,以实现精确和自适应选择的指导。这是通过一个简单的全连接 (fc) 层实现的,通过降低维度来提高效率:

这里的d是这样求出来的

(这里有点像bottleneck结构)

什么是bottleneck结构?

这里解释得很好:

轻量级网络:Bottleneck结构(沙漏型结构)_那年聪聪-CSDN博客_bottleneck结构

3.SELECT

Select 部分是根据不同卷积核计算后 得到的新的feature map的perocess

应该足够清楚

最后附上代码截图

版权声明:本文为博主吃小花的魔王原创文章,版权归属原作者,如果侵权,请联系我们删除!

原文链接:https://blog.csdn.net/m0_51622811/article/details/123240060

退出移动版