原文标题 ：Four Deep Learning Papers to Read in September 2021

THOUGHTS AND THEORY[0]

2021 年 9 月要阅读的四篇深度学习论文

从 Auto-ML 到 Vision Transformer 训练和表示以及灾难性的 Fisher 爆炸

欢迎来到“机器学习拼贴”系列的 9 月版，我将在其中概述不同的深度学习研究流。那么什么是 ML 拼贴画？简而言之，我为我最近最喜欢的一篇论文起草了一张幻灯片的视觉摘要。每个星期。在月底，所有由此产生的视觉拼贴画都收集在一篇摘要博客文章中。因此，我希望让您直观地深入了解一些最酷的趋势。因此，事不宜迟：以下是我在 2021 年 8 月阅读的四篇最喜欢的论文，以及为什么我认为它们对深度学习的未来很重要。[0]

“Auto-Sklearn 2.0：通过元学习实现免提 AutoML”

作者：Feurer 等人。 (2021) | 📝 纸 | 🤖 代码[0][1]

一段总结：Auto-ML 有望消除繁琐的超参数手动调整和模型选择。一个例子是 Auto-Sklearn API，它提供了一个简单的高级接口来自动评估多个预处理和模型拟合管道。以前的 Auto-ML 系统的一个关键要素是使用所谓的元特征，这些元特征最初是为手头的数据集计算的。然后使用这些特征来选择一个“策略”，以便在解决方案空间中进行顺序搜索。策略选择基于与代表性数据集的元数据集的元特征距离。如果您的数据集与元数据集有很大不同，有时这可能会导致泛化问题。此外，很难设计有代表性的元特征并调整 Auto-ML 算法本身的超参数。 Auto-Sklearn 2.0 旨在通过引入两项修改来克服这两个挑战：首先，他们不依赖元特征，而是使用初始管道的元学习组合。最初，评估这些候选投资组合以热启动贝叶斯优化内部循环。其次，他们引入了一个元学习策略选择器，它规定了一个模型选择策略（例如交叉验证与简单的保留评估）和一个预算分配策略（完全预算与更积极的连续减半）基于样本数量和特征考虑的数据集。因此，该系统更接近于分层元元方法。作者在 OpenML 基准上验证了他们提出的修改，并为 10 分钟和 60 分钟的时间预算提供了新的最新技术。[0][1]

‘如何训练你的 ViT？ Vision Transformers 中的数据、增强和正则化

作者：施泰纳等人。 (2021) | 📝 纸 | 🤖 代码[0][1]

一段总结：虽然 Vision Transformer (ViT) 模型很灵活，并且不需要预先支持的归纳偏差（例如卷积的平移等效性），但它们的训练协议可以相当精细，最终结果可能是超参数敏感的。施泰纳等人。旨在研究计算预算、模型大小、增强/正则化和训练数据量之间的权衡。该论文为从业者提供了宝贵的见解，并展示了超过 5 万次 ViT 训练运行的结果。具体来说，他们表明，通过使用数据增强（例如 MixUp 和 RandAug）和模型正则化（例如权重衰减和 dropout）的正确组合，可以实现与在 10 倍数据上训练的模型相当的模型性能。在大数据上预训练的 ViT 也会产生更适合下游传输的表示。此外，作者表明，仅微调单个最佳转换器（在预训练数据集上评估）通常会产生与基于微调数据选择的模型相当的模型。因此，微调单个 ViT 以便为您的传输应用程序获得良好的模型可能更具成本效益。最后，作者比较了不同的增强和正则化技术。他们发现数据增强在更多情况下似乎比模型正则化更有效。总的来说，论文的主要优势在于他们使用标准化的培训设置，这使他们能够提出有证据支持的主张。

“灾难性的 Fisher 爆炸：早期 Fisher 矩阵影响泛化”

作者：Jastrzebski 等人。 (2021) | 📝 纸[0]

一段总结：经常有人读到深度学习中随机梯度下降的“隐式正则化”。但这实际上指的是什么？ Jastrzebski 等人。研究一种使用大学习率产生的正则化。他们表明，在训练早期，较小的学习率会导致 Fisher 信息矩阵的轨迹强烈振荡。这种“爆炸”似乎会导致更差的最终泛化，并且可以通过提高学习率的训练来规避。基于这一见解，作者定义了一个显式正则化器，它促进了一个小的 Fisher 轨迹。他们表明，这种正则化器可以缩小学习率较小的训练运行的性能差距，并提供证据表明正则化项在训练早期使用时特别有效。作者认为，这种效果可能是由于记忆有限，并表明 Fisher 矩阵的轨迹与噪声示例的梯度成正比。通过惩罚跟踪，可以降低这些示例的学习速度并减少过度拟合。最后，他们表明，Fisher 惩罚导致平坦的最小值（由 Hessian 的轨迹测量的低曲率），这已被证明可以更好地概括。因此，本文的主要贡献在于将早期训练阶段的不稳定性与观察到的 Fisher 信息行为联系起来。

“视觉转换器看起来像卷积神经网络吗？”

作者：Raghu 等人。 (2021) | 📝 纸[0]

一段总结：视觉变形金刚如何解决任务？它们的表示结构是否与传统的 CNN 相似或完全不同？研究这个问题的一个强大工具是代表性相似性分析 (RSA)。 RSA 使用 Centered Kernel Alignment 比较不同输入的两个网络层的激活。生成的数值度量告诉您这些表示的相似程度。 Kornblith 等人。 (2019) 之前使用这种方法来阐明 ResNets 的计算力学。那么与ViT相比有什么区别？令人惊讶的是，ViT 层在所有层中具有更统一的相似性。这意味着信息通过架构传播得更强。拉古等人。表明这是由于两个原因：首先，自注意力机制允许在比局部卷积更早的阶段聚合全局信息。其次，ViT 中的跳过连接允许通过数十层传递早期聚合信息。如果一个人在某个区块训练一个禁用跳过连接的 ViT，这将在所有先前和所有后续区块之间强制执行“通信”分区。另一个发现是 ResNets 需要更多的早期层来获得可以用很少的 ViT 层获得的表示。这可能又是由于注意力机制能够在早期整合全局信息。最后，作者表明，ViT 需要在大量数据上进行训练才能学习局部性的归纳偏差。甚至 ImageNet-1k 似乎都不够用，只有 Google 内部的 JFT-300 数据集。[0]

这是本月的内容🤗 让我知道你最喜欢的论文是什么。如果您想获得每周一次的 ML 拼贴输入，请查看 Twitter 上的主题标签 #mlcollage。您还可以查看最后总结📖博文中的拼贴画：[0]

文章出处登录后可见！

已经登录？立即刷新

2021 年 9 月要阅读的四篇深度学习论文

THOUGHTS AND THEORY[0]

2021 年 9 月要阅读的四篇深度学习论文

从 Auto-ML 到 Vision Transformer 训练和表示以及灾难性的 Fisher 爆炸

“Auto-Sklearn 2.0：通过元学习实现免提 AutoML”

‘如何训练你的 ViT？ Vision Transformers 中的数据、增强和正则化

“灾难性的 Fisher 爆炸：早期 Fisher 矩阵影响泛化”

“视觉转换器看起来像卷积神经网络吗？”

相关推荐