Dataset Distillation by Matching Training Trajectories

2022.3.28 第11篇 CVPR2022 精读
本文已授权发表于我爱计算机视觉公众号
论文链接:Dataset Distillation by Matching Training Trajectories
代码链接:Dataset Distillation by Matching Training Trajectories

Introduction

数据集蒸馏旨在构建一个合成数据集,其数据大小远小于原始数据集,但它使在其上训练的模型能够达到与原始数据集相似的精度。数据集蒸馏的核心思想如下:
Dataset Distillation by Matching Training Trajectories
合成数据集可视化:
Dataset Distillation by Matching Training Trajectories
一些现有的数据集蒸馏方法考虑使用端到端训练,但这通常是计算和内存密集型的,并且由于执行多次迭代而导致松弛不准确或训练不稳定。为了降低优化难度,其他方法侧重于短程行为,侧重于将蒸馏数据与真实数据的一步训练相匹配。但是,由于提取的数据会被多次迭代,因此在验证过程中可能会累积错误。

Contributions

基于此,作者直接在真实数据集上模拟训练模型的长程训练动态。大量实验表明,所提出的方法优于现有的数据集蒸馏方法和标准数据集上的核心子集选择方法。

Approach

首先定义文章中使用的符号:
合成数据集:%5Cmathcal%7BD_%7Bsyn%7D%7D
真实训练集:%5Cmathcal%7BD_%7Breal%7D%7D
Dataset Distillation by Matching Training Trajectories
上图说明了本文数据集蒸馏的核心思想。

Expert Trajectories

本文核心在于引入了expert trajectories%5Ctau%5E%2A

Long-Range Parameter Matching Experiment

本文所提数据集蒸馏方式从expert trajectories中学习学习参数,对于每一步,先从expert trajectories中采样一条作为初始化学生参数%5Chat%7B%5Ctheta%7D_tt%5Chat%7B%5Ctheta%7D_%7Bt%2Bn%2B1%7D%3D%5Chat%7B%5Ctheta%7D_%7Bt%2Bn%7D-%5Calpha%5Cnabla%5Cmathcal%7Bl%7D%28%5Cmathcal%7BA%28%5Cmathcal%7BD_%7Bsyn%7D%7D%29%7D%3B%5Chat%7B%5Ctheta%7D_%7Bt%2Bn%7D%29%5Cmathcal%7BA%7D%5Calpha
%5Cmathcal%7BL%7D%3D%5Cfrac%7B%7C%7C%5Chat%7B%5Ctheta%7D_%7Bt%2BN%7D-%5Ctheta%5E%2A_%7Bt%2BM%7D%7C%7C_2%5E2%7D%7B%7C%7C%5Ctheta%5E%2A_%7Bt%7D-%5Ctheta%5E%2A_%7Bt%2BM%7D%7C%7C_2%5E2%7D%5Cmathcal%7BL%7D%5Cmathcal%7BD_%7Bsyn%7D%7D%5Calpha
Dataset Distillation by Matching Training Trajectories

Memory Constraints

点评%5Chat%7B%5Ctheta%7D_%7Bt%2Bn%2B1%7D%3D%5Chat%7B%5Ctheta%7D_%7Bt%2Bn%7D-%5Calpha%5Cnabla%5Cmathcal%7Bl%7D%28%5Cmathcal%7BA%28%5Cmathcal%7BD_%7Bsyn%7D%7D%29%7D%3B%5Chat%7B%5Ctheta%7D_%7Bt%2Bn%7D%29%5Cmathcal%7BD_%7Bsyn%7D%7D%5Cmathcal%7BD_%7Bsyn%7D%7D
b_%7Bt%2Bn%7D%5Csim%5Cmathcal%7BD_%7Bsyn%7D%7D%5Chat%7B%5Ctheta%7D_%7Bt%2Bn%2B1%7D%3D%5Chat%7B%5Ctheta%7D_%7Bt%2Bn%7D-%5Calpha%5Cnabla%5Cmathcal%7Bl%7D%28%5Cmathcal%7BA%28b_%7Bt%2Bn%7D%29%7D%3B%5Chat%7B%5Ctheta%7D_%7Bt%2Bn%7D%29

Experiments

本文的实验在CIFAR-10,CIFAR-100(32%5Ctimes%5Ctimes%5Ctimes
Dataset Distillation by Matching Training Trajectories
上图展示了本文所提方法与核心子集选择方法和之前的数据集蒸馏的baseline比较。可以看出在数据集压缩率相同的条件下,本文所提方法性能明显优于其他方法。下图是在CIFAR-10上蒸馏得到的图像,上边是一类一张图像,下边是一类各十张:
Dataset Distillation by Matching Training Trajectories
接着作者又与一种最近的数据蒸馏方式KIP[1]比较,可以发现在相同模型宽度的情况下所提方法明显优于KIP,甚至部分优于KIP使用更宽的模型。
Dataset Distillation by Matching Training Trajectories
由于所提方法是在一个特定模型上训练的,因此作者在不同模型结构上进行验证,可以发现也都优于baseline,这说明了合成的数据集不是对训练模型overfitting的。
Dataset Distillation by Matching Training Trajectories
接下来作者探索了long-range匹配和short-range匹配的效果。从下图的左边可以看出long-range的性能明显优于short-range(较小的 M 和 N表示short-range行为)。右边则展示了long-range行为更好的估逼近了真实数据的训练(距离目标参数空间越近)。
Dataset Distillation by Matching Training Trajectories
在64%5Ctimes
第一行:African Elephant, Jellyfish, Kimono, Lamp-shade, Monarch.
第二行: Organ, Pizza, Pretzel, Teapot, Teddy.
Dataset Distillation by Matching Training Trajectories
接着作者又在128%5Ctimes
Dataset Distillation by Matching Training Trajectories
合成的效果如下图所示,对于所有类都有的任务类似的结构但独特的纹理(ImageSquawk)和颜色(ImageYellow)。
Dataset Distillation by Matching Training Trajectories

References

[1]Dataset distillation with infinitely wide convolutional
networks

文章出处登录后可见!

已经登录?立即刷新

共计人评分,平均

到目前为止还没有投票!成为第一位评论此文章。

(0)
乘风的头像乘风管理团队
上一篇 2022年3月29日 下午2:53
下一篇 2022年3月29日 下午3:13

相关推荐