原文标题 ：Four Deep Learning Papers to Read in December 2021

2021 年 12 月要阅读的四篇深度学习论文

从感官替代到决策转换器、持续进化策略和锐度感知最小化

欢迎来到“机器学习拼贴”系列的 12 月版，我将在其中概述不同的深度学习研究流。那么什么是 ML 拼贴画？简而言之，我为我最近最喜欢的一篇论文起草了一张幻灯片的视觉摘要。每个星期。在月底，所有由此产生的视觉拼贴画都收集在一篇摘要博客文章中。因此，我希望让您直观地深入了解一些最酷的趋势。因此，事不宜迟：以下是我在 2021 年 11 月阅读的四篇最喜欢的论文，以及为什么我认为它们对深度学习的未来很重要。[0]

“作为变压器的感觉神经元：用于强化学习的置换不变神经网络”

作者：唐* & Ha* | 📝 纸 | 🗣 谈话 | 🤖万维网[0][1][2]

一段摘要：人类具有难以置信的塑料适应能力。我们可以从少量数据中学习，交换完全独立的感官模式的信息流。例如，人类能够使用电极阵列学习用舌头看东西。这种现象通常被称为感觉替代。另一方面，众所周知，神经网络对输入空间的变化很脆弱。例如，DQN 很难处理颜色变化或噪声扰动 (Lake et al., 2016)。那么我们怎样才能让神经网络更加健壮呢？他们甚至可以比我们人类制造更多的塑料吗？ Tang & Ha (2021) 在这个方向上迈出了第一步，提出了一个受 Set Transformer 启发的代理，它将本地信息组合成一个全局代码。该架构在设计上是位置不变的，并且在不同的输入维度上共享参数。因此，网络处理一组任意排序的输入维度或补丁。此外，它是循环的，因此甚至可以捕获在线发生的排列。如果需要，这可以允许网络恢复。作者使用进化策略来训练网络，并表明它能够处理低维控制和高维视觉任务的混杂、嘈杂和遮挡的输入。此外，当输入被打乱时，潜在代码没有改变，这表明模型确实学习了输入不变性。最后，他们提出了一种简单的行为克隆方法，该方法使用非排列不变的专家来有效地教授排列不变的学生。[0][1]

“决策转换器：通过序列建模进行强化学习”

作者：陈*、卢*等。 (2021) | 📝 纸 | 🗣 谈话 | 🤖 代码[0][1][2]

一段总结：强化学习问题从根本上来说是困难的。一个空白的智能体必须处理探索问题，面对不断变化的数据分布，并且必须从嘈杂且通常稀疏的奖励信号中学习。常见的 RL 算法试图通过利用引导的概念来求助于近似动态规划：代理根据环境奖励信号和未来回报的另一个估计的组合来改进自己的估计。这已经成功，例如但由于预测目标的性质不断变化，DQN 也会破坏学习动态的稳定性。决策转换器 (Chen et al., 2021) 将 RL 问题颠倒过来，并将其视为条件轨迹生成问题。更具体地说，Transformer 被训练为在屏蔽序列中的未来轨迹后自动回归预测动作。 Transformer 以先前的状态和动作序列以及观察到的返回为条件。因此，可以“引导”网络以实现观察到的情节的其余部分。它在长度为 K 序列的离线轨迹缓冲区上进行训练。作者表明，这种生成建模方法优于传统的行为克隆和标准离线 RL 基线。此外，Transformer 有效地学习对回报分布进行建模。这意味着可以为网络提供目标回报作为输入，并且代理实际上设法生成实现它的轨迹。这意味着网络不仅学会了模仿，而且还泛化了期望的回报。此外，决策转换器可以很好地处理稀疏奖励，并学会根据观察到的轨迹不断更新其奖励概率。

“具有持续进化策略的展开计算图中的无偏梯度估计”

作者：Vicol 等人。 (2021) | 📝 纸[0]

一段总结：现代深度学习充满了展开的优化问题：例如训练循环网络、基于梯度的元学习（如 MAML）、通过动态模型进行区分或训练学习的优化器。最终，这需要通过一个动态系统传播梯度，这可能导致梯度消失或爆炸。为了克服这种不稳定性，研究人员经常求助于进化策略，它绕过了分析梯度的显式计算。相反，他们依赖于对一组网络参数化的评估，并根据观察到的适应度度量构建“进化梯度”。生成的梯度是无偏的（与截断的时间反向传播 TBPTT 相比），但不能从截断的 rollout 带来的内存优势中受益。维科尔等人。 (2021) 引入了持久进化策略 (PES)，它允许通过一系列截断展开进行无偏梯度估计。它通过累积与用于生成网络种群的噪声相关的校正项来实现。作者推导出了一个二次损失的理论结果，并提供了一个可以利用分析梯度知识的版本。该算法为标准 Open NES 算法提供了一个易于实现的附加功能，作者表明它在一组基准任务上表现良好：这些任务包括优化超参数以训练神经网络、训练学习优化器，甚至训练 RL 代理更多数据有效率的。与传统的 ES 梯度相比，PES 梯度导致更低的损失并且表现出的方差要小得多。[0]

“用于有效提高泛化的锐度感知最小化”

作者：Foret 等人。 (2021) | 📝 纸 | 🤖 代码 (JAX) | 🤖 代码 (PyTorch)[0][1][2]

一段总结：“平面最小值假设”（Hochreiter & Schmidhuber，1997）将损失曲面的几何形状与神经网络的泛化特性联系起来。低曲率网络通常可以实现更好的测试性能。直观地说，参数空间的稳健性隐含着输入空间的稳健性。如果我们可以摆动 W，我们就可以摆动 X。 Foret 等人的 Sharpness-Aware Minimization (SAM)。（2021）直接将这种直觉表述为目标函数。更具体地说，作者建议联合最小化训练损失值及其锐度。因此，优化过程在具有一致低损失的邻域中寻找参数。这样做需要解决一个最小-最大优化问题：最小化参数的损失，同时在固定半径邻域内最大化它。作者为最大化问题提供了一种有效的近似，它基于一阶泰勒级数近似和对偶范数问题的解决方案。最终，这归结为另一个反向传递的额外计算成本。他们表明，在从头开始训练时，这种简单的修改可以提高许多数据集、增强和模型的测试性能。在许多情况下，使用 SAM 对预训练网络进行微调也得到了改进。此外，该模型对标签噪声下的训练更加稳健。在嘈杂的 CIFAR-10 版本上，他们表明 SAM 与为此类情况设计的专用数据增强技术相比非常具有竞争力。最后，他们凭经验分析了找到的最小值的曲率，并表明与没有 SAM 训练的模型相比，它的曲率更小。[0]

这是本月的内容🤗 让我知道你最喜欢的论文是什么。如果您想获得每周一次的 ML 拼贴输入，请查看 Twitter 上的主题标签 #mlcollage。您还可以查看最后总结📖博文中的拼贴画：[0]

文章出处登录后可见！

已经登录？立即刷新

2021 年 12 月要阅读的四篇深度学习论文

2021 年 12 月要阅读的四篇深度学习论文

从感官替代到决策转换器、持续进化策略和锐度感知最小化

“作为变压器的感觉神经元：用于强化学习的置换不变神经网络”

“决策转换器：通过序列建模进行强化学习”

“具有持续进化策略的展开计算图中的无偏梯度估计”

“用于有效提高泛化的锐度感知最小化”

相关推荐