多模态情感识别-MISA: baseline解读

零. 背景

1. Introduction

多模态情感分析是一个活跃的研究领域，它利用多模态信号对用户生成的视频进行情感理解。解决这一任务的主要方法是开发复杂的融合技术。

（1）然而，信号的异质性造成了分布模式的差距，这带来了重大挑战。

https://blog.csdn.net/qq_40943760

2. My idea

（1）进行互注意力的特征表示学习

（2）引入预训练模块加强特征表示和特征泛化

一. MISA：多模态情感分析的模态不变和特定表示 ACMMM2020

1 Abstract

1.1 Motivation

（1）信号的异质性造成了分布模式的差距，这带来了重大挑战。

（2）在本文中，我们的目标是学习有效的模态表示来帮助融合过程。

1.2 Method

我们提出了一个新颖的框架 MISA，它将每个模态投射到两个不同的子空间。

第一个子空间是模态不变的，其中跨模态的表示学习它们的共性并减少模态差距。

第二个子空间是模态特定的，它对每个模态都是私有的，并捕获它们的特征。这些表示提供了多模态数据的整体视图，用于进行任务预测的融合。

图1 通过模态不变和特定子空间学习多模态表示。这些特征后来用于融合和随后的视频影响预测

1.3 Results

流行的情绪分析基准 MOSI 和 MOSEI 上进行的实验表明，与最先进的模型相比有显着的进步。

我们还考虑了多模态幽默检测的任务，并在最近提出的 UR_FUNNY 数据集上进行了实验。在这里，我们的模型也比强大的基线表现更好

2. Related Work

2.1 多模态情感分析

（1）Utterance-level

话语级：侧重于使用复杂的融合机制学习跨模态动力学

（2）Inter-utterance context

话语间语境：这些模型利用目标话语周围话语的上下文。设计为分层网络，它们在较低级别对单个话语进行建模，在第二级别对话语间顺序信息进行建模。

（3）Different

行·不使用上下文信息，也不关注复杂的融合机制。相反，我们强调融合前表征学习的重要性。尽管如此，如果需要，MISA 可以灵活地合并上述这些组件

2.2 多模态表示学习

（1）公共子空间表示

尝试学习跨模态公共子空间的作品可大致分为：（a）基于翻译的模型，使用序列到序列 [40]、循环翻译 [39] 和对抗性等方法将一种模态转换为另一种模态自动编码器；（b）基于相关性的模型 [50]，使用典型相关分析 [3] 学习跨模态相关性；（c）使用对抗性学习等技术学习一个新的共享子空间，其中所有模态都被同时映射 [35, 37]。

（3）Different

与第三类类似，我们也学习了公共模态不变子空间。但是，我们不使用对抗性鉴别器来学习共享映射。此外，我们结合了正交模态特定的表示：一种在多模态学习任务中较少探索的特征

（2）分解表示

在子空间学习机制中，我们将注意力转向因式分解表示。虽然一项工作试图学习多模态数据的生成判别因素 [51]，但我们的重点是学习模态不变和特定表示。为实现这一目标，我们从有关共享-私有表示的相关文献中汲取灵感。共享-私有 [5] 学习的起源可以在多视图组件分析 [48] 中找到。这些早期作品设计了具有单独的共享和私有潜在变量的潜在变量模型 (LVM) [9]。

（3）Different

与这些模型不同，我们的提议涉及一种判别式深度神经架构，它避免了对近似推理的需要。我们的框架与域分离网络 (DSN) [5] 密切相关，它提出了用于域适应的共享-私有模型。 DSN 在多任务文本分类等领域的类似模型的开发中具有影响力 [25]。尽管我们从 DSN 中获得灵感，但 MISA 包含关键区别：（a）与 DSN 不同，我们使用更高级的分布相似性度量——CMD（参见第 3.5 节），而不是对抗训练或 MMD；（b）我们在特定于模态的（私有）表示中合并了额外的正交损失（参见第 3.5.2 节）；（c）最后，虽然 DSN 仅使用共享表示进行任务预测，但 MISA 结合了不变和特定表示以进行融合，然后进行任务预测。

我们假设利用这两种模态表示有助于通过提供多模态数据的整体视图来帮助融合。