论文阅读_模型剪枝_彩票假设

英文题目：The Lottery Tickets Hypothesis for Supervised and Self-supervised Pre-training in Computer Vision Models
中文题目：用基于彩票假设方法裁剪视觉模型
论文地址：https://arxiv.org/pdf/2012.06908.pdf
领域：机器视觉，深度学习，模型剪枝
发表时间：2021
作者：Tianlong Chen等，德克萨斯大学
出处：CVPR
被引量：26
代码和数据：https: //github.com/VITA-Group/CV_LTH_Pre-training
阅读时间：22.10.06

读后感

文章介绍了一种针对图像处理的剪枝算法，不同与以往先训练后剪枝的方法，它的目标是直接训练出一个稀疏的子网络，并使子网络性能与稠密网络性能相当。

介绍

预训练模型提升了计算机视觉的效果，目前主流的方法是有监督学习和半监督学习。作者提出：可否在不影响下游任务性能的同时，降低预训练模型的复杂度？
文中提出基于彩票假设的方法（lottery ticket hypothesis：LTH），LTH能在海量的稠密网络中，识别出高度稀疏的匹配子网络，同时实现完整模型的性能。

文中提出从两个角度结合预训练模型和LTH：(1) 把正常预训练出的模型权重作为LTH的初始化参数；(2) 寻找匹配的子网络常需要多轮修剪和重新训练，因此尽量让子网络能被各种下游任务重用，如图-1所示：

论文阅读_模型剪枝_彩票假设

剪枝算法一般分为非结构化剪枝和结构化剪枝，前者根据权重大小进行稀疏化；后者使用移除通道等方式，适用于更多硬件。

LTH与传统的先训练后剪枝方法不同，它致力于训练与稠密网络性能相当的稀疏的子网络。

方法

数据

把ResNet-50作为基础模型，将分类、目标检测和分割作为下游任务，不修剪第一个卷积层和与具体任务相关的最后层。定义f(x; θ, γ)，其中x是输入的图像，θ是模型参数，γ是与具体任务相关的参数。

有监督预训练使用ImageNet训练ResNet-50模型；半监督训练使用基于ResNet-50的simCLR和MoCov2模型。

所有预训练都使用ImageNet数据，下游任务使用Fashion-MNIST，SVHN，CIFAR-10，Pascal VOC等数据集，这些任务在分辨率，数据源，类别，颜色空间都有差异，具体如表-1所示：

论文阅读_模型剪枝_彩票假设

子网络

子网络：f (x; m⊙θ, ·)，其中m是用于剪枝的二值 mask，⊙是元素层面的乘积，设A为针对具体任务T的算法，t为迭代次数。θp为预训练的权重；θ0为随机初始化的权重；θi为第i轮训练后的权重。E为评价函数。定义如下：

可达子网络
可达子网络需要满足如下条件：

论文阅读_模型剪枝_彩票假设

即：在使用相同的算法A和评价函数E的条件下，可达子网络的表现不比稠密网络差。

中奖奖券
如果 f(x; m⊙θ, r) 在 θ=θp 的条件下是可达子网络，此时的算法A就是中奖的奖券。
普适子网络
子网络 f(x; m⊙θ, γTi ) 用于适配指定任务γTi，适用于所有任务的方法叫作普适子网络。

剪枝方法

具体实现使用经典的迭代权值剪枝方法(IMP)，首先训练未修剪的密集网络用以完成任务T，然后删除部分具有全局最小值的权重，以修剪网络，使用该方法多次迭代。具体如算法-1所示：

论文阅读_模型剪枝_彩票假设

预训练中奖奖券的迁移

图-2展示了不同预训练模型稀疏参数的性能：

论文阅读_模型剪枝_彩票假设

下面将在不同任务中，从三个角度讨论：(1) 中奖彩票在下游任务中表现如何？(2) 有监督和无监督模型哪个更好？(3) 普适模型和任务相关的模型有啥差异？

迁移到分类任务

结果如图-3所示：

论文阅读_模型剪枝_彩票假设

普适子网络(mP， θp)可迁移到不同的下游分类任务。可以看到三种模型，只要不修剪得太厉害，其精度在修剪后差异不大。
不同的预训练方式（有监督和自监督），对于不同数据集，表现不同。
针对具体任务训练的模型 f(x; mT⊙θp, ·) 只在极度修剪时优于普适模型 f(x; mp⊙θp, ·)。使用预训练模型参数作为修剪模型的初始参数时效果最好，使用随机初始化和少量迭代初始化的模型（粉色和灰色）在所有任务中都更差。

迁移到目标检测和分割

效果如图-5所示：

论文阅读_模型剪枝_彩票假设

普适子网络(mP， θp)可成功地迁移到不同的下游任务中。
不同于分类任务，在目标检测和分割任务中表现一致：MoCo都表现最好，有监督模型一般，Sim模型最差。
针对具体任务训练的模型明显优于普适模型。

文章出处登录后可见！

已经登录？立即刷新

论文阅读_模型剪枝_彩票假设

读后感

介绍

方法

数据

子网络

剪枝方法

预训练中奖奖券的迁移

迁移到分类任务

迁移到目标检测和分割

相关推荐