Balanced Multimodal Learning via On-the-fly Gradient Modulation论文笔记

Balanced Multimodal Learning via On-the-fly Gradient Modulation论文笔记

引言

多输入模态有望提高模型性能,但我们实际上发现即使多模态模型优于其单模态模型,它们也没有得到充分利用。 具体来说,在本文中,我们指出现有的多模态判别模型(其中为所有模态设计了统一的目标)可能仍然存在欠优化的单模态表示,这是由某些场景中的另一种主导模态引起的,例如,吹风事件中的声音 ,绘图事件中的视觉等。为了缓解这种优化不平衡,我们提出了动态梯度调制,通过监控它们对学习目标的贡献的差异来自适应地控制每种模态的优化。 此外,引入了动态变化的额外高斯噪声,以避免梯度调制引起的泛化下降。 因此,我们在不同的多模态任务上比常见的融合方法取得了相当大的改进,而且这种简单的策略也可以提升现有的多模态方法,这说明了它的有效性和多功能性

在某些情况下,使用联合训练策略优化所有模态的统一学习目标的多模态模型可能不如单模态模型。 这种现象违背了通过整合来自多种模式的信息来提高模型性能的意图。 有研究人员称,各种模式倾向于以不同的速率收敛,导致不协调的收敛问题 。 为了解决这个问题,一些方法在额外的单模态分类器或预训练模型的帮助下帮助训练多模态模型。 因此,它们不可避免地会在训练额外的神经模块方面付出额外的努力。

然而,我们进一步发现,即使多模态模型优于单模态模型,它们仍然无法充分发挥多模态的潜力。 如图 1 所示,联合多模态模型在 VGGSound [7] 上实现了最佳的事件分类性能,但其中的视觉和音频模态的性能明显比仅视觉模型和纯音频模型的性能差1。 这一有趣的观察表明,两种模式中的表示都没有得到优化。 我们认为原因可能是,在某些多模态场景中,具有更好性能的主导模态 [31](例如,风声、踢足球的视觉等)会抑制对另一种模态的优化。 此外,如图 1(a) 和 (b) 所示,与音频案例相比,视觉模态的准确度下降得更明显,这与 VGGSound 作为一个精心策划的面向声音的数据集的事实是一致的 ,更喜欢音频模式,即使是声源也保证可见。 一般来说,这样的数据集偏好通常会导致一种模态占主导地位,从而导致这种优化不平衡的现象。
图1
为了解决上述问题,我们首先从优化的角度分析了不平衡现象,发现性能更好的模态有助于降低联合判别损失,然后通过传播有限梯度优于其他模态来主导优化过程,从而导致 优化不足的情况。 然后,为了缓解这种情况,我们建议通过 On-thefly Gradient Modulation (OGM) 策略来控制每种模态的优化过程。 具体来说,在训练过程中动态监控不同模态对学习目标的贡献差异,然后利用它来自适应地调节梯度,为欠优化的模态提供更多的努力。 然而,调制梯度可能会降低随机梯度噪声的强度,这已被证明与泛化能力正相关[21]。 因此,我们进一步引入了动态变化的额外高斯噪声以实现泛化增强(GE)。 在将我们的 OGMGE 方法应用于图 1 中 VGGSound 的多模态学习任务后,我们获得了针对欠优化的单模态表示的一致性能提升,即图 1(a) 和 (b) 中的蓝色曲线。 不仅如此,视觉形态也得到了更多的改善。 因此,我们的方法在多模式学习设置中明显优于传统方法,如图 1© 所示。 为了全面展示 OGM-GE 的有效性,我们在不同数据集上的各种多模式任务中对其进行了测试,这带来了一致的改进,同时使用了 vanilla 融合策略和现有的多模式方法。

总而言之,我们的贡献如下:

  • 我们发现了优化不平衡现象,即联合多模态模型的性能由于欠优化表示而受到限制,然后从优化的角度对其进行分析。
  • 提出OGM-GE 方法,通过动态控制各模态的优化过程,增强泛化能力,解决优化不平衡问题。
  • 提议的OGM-GE 不仅可以插入普通融合策略,还可以插入现有的多模式框架,并带来持续的改进,表明其具有广阔的多功能性。

相关工作

多模态学习

多模态学习是机器学习社区中一种复杂的学习范式,由于多模态数据的数量不断增加,自然包含丰富的相关性,因此受到越来越多的关注。 根据具体应用有不同的研究方向。 例如,一些研究人员以无监督的方式探索了多模态数据之间的对应关系,以学习下游任务的有意义的表示 [1,4,17,18,25]。 此外,与单模态框架相比,有许多研究致力于利用多模态信息来提高模型在特定任务上的性能,例如动作识别 [10, 23, 29],视听语音识别 [16, 33] 和 视觉问答 [2, 19]。 然而,大多数利用联合训练策略的多模态方法无法充分利用所有模态并产生优化不足的单模态表示,这使得多模态模型的性能无法达到预期的水平,尽管它们有时确实优于单模态模型 同行。

不平衡的多模态学习

前述视听学习方法的缺陷促使研究人员探索其背后的原因。 一些研究指出,即使有更多的信息,大多数多模态学习方法也无法有效地提高性能[8,35,39,40],这是由模态之间的差异造成的。 王等人。 [39] 发现不同的模态具有不同的收敛速度,使得联合训练的多模态模型无法匹配或优于其单模态模型。 温特伯顿等人。 [40] 证明了 TVQA 数据集对文本字幕模式的固有偏见。 最近,出现了几种试图解决这些问题的方法 [8, 35, 39]。 王等人。 [39] 提出 GradientBlending 以基于其过拟合行为获得模态的最佳混合。 此外,杜等人。 [8] 通过从训练有素的单模模型中提取知识来训练多模模型,以加强单模编码器。 这些方法确实可以在一定程度上带来改进,但需要额外的努力来引入额外的神经模块,这会使训练过程复杂化。 在这项工作中,从优化的角度来看,我们通过自适应控制每个模态的优化来解决这个问题,而不需要额外的模块。

随机梯度噪声

梯度噪声SGD被认为有必要的相关深度模型的泛化能力[42 6日,13日,44岁的48]。这种随机梯度噪声是由随机mini-batch抽样,认为作为正则化模型,帮助摆脱鞍点或局部最优(42 6日,21日,44)。周et al。[47]进一步提供理论证明了随机梯度算法,结合适当的高斯噪声,保证收敛到全局最优多项式时间的随机初始化。在这工作,提高发电能力的多通道模型,我们引入额外的高斯噪声梯度,实现可观的改善。

方法

优化不平衡分析

我们引入了对优化不平衡现象的分析,发现多模态模型的优化过程由性能更好的模态主导,导致另一种模态被欠优化。

当多模态模型的训练即将收敛时,其他模态仍然可能存在欠优化表示,需要进一步训练。

OGM

如前所述,多模态判别模型的优化过程通常由具有更好性能的模态主导,从而导致限制模型性能的欠优化表示。 为了解决这个问题,我们的目标是通过 OGM 策略修改每个模态的优化过程,如图 2 所示。
图2

定义差异比率
差异比

  • softmax括号里的直接就是单模态模型的logits输出

调制比:
调制比
α是超参数

于是最终的单模型的梯度就是:
梯度更新公式
通过调制比k_t可以具有更好性能(p_t > 1)的模态优化得到缓解,而其他模态不受影响,能够摆脱有限的优化工作,获得足够的训练。 使用带有OGM策略的SGD优化方法,分别控制各模态的优化过程,缓解不平衡问题

算法流程

文章出处登录后可见!

已经登录?立即刷新

共计人评分,平均

到目前为止还没有投票!成为第一位评论此文章。

(0)
心中带点小风骚的头像心中带点小风骚普通用户
上一篇 2022年5月11日
下一篇 2022年5月11日

相关推荐