图-文多模态，大模型，预训练

参考老师的无敌课程
多模态任务是指需要同时处理两种或多种不同类型的数据（如图像、文本、音频等）的任务。例如，图像描述（image captioning）就是一种典型的多模态任务，它需要根据给定的图像生成相应的文本描述。多模态任务在人工智能领域具有重要的意义和应用价值，因为它们可以模拟人类在日常生活中处理多种信息源的能力。

近年来，随着深度学习技术的发展，多模态任务取得了显著的进步。特别是VIT（Vision Transformer）和CLIP（Contrastive Language–Image Pre-training）这两种基于Transformer模型的方法，极大地推动了多模态研究的发展。相比于传统的基于CNN（Convolutional Neural Network)的方法，Transformer能够对不同模态的数据进行统一建模，包括参数共享和特征融合。这极大地降低了多模态任务的复杂性和计算成本。

图-文任务是指需要同时处理图像和文本数据的任务，如图像描述、图像检索（image retrieval）、视觉问答（visual question answering）等。就图-文任务而言，ViLT首先使用Transformer移除了任务中目标检测模块，参照VIT将多模态任务更加优雅地解决。随后学术界就如何解决多模态任务，进行了不断地探究。网络结构也进行一系列变化，其中，单塔模型使用一个Transformer对图像，文本进行特征抽取；双塔模型则使用两个对应网络进行特征抽取；最近也逐步展现出统一的模型结构，即网络参数共享，可根据任务不同选择合适的模块进行解决。

参考: ViLT，多模态串讲上，多模态串讲下，albef与blip的高集成库（LAVIS）

Table of Contents

ViLT: Vision-and-Language Transformer Without Convolution or Region Supervision (ICML 2021)

突出贡献： 在Image-Text对齐过程中，移除了目标检测。

算法流程：

首先使用Word Embedding对文本编码得到，使用Linear Projection对图像块进行编码得到。并且在两个头部分别加入分类token。
随后向文本编码与图像编码中，加入位置编码与模块编码，分别提供位置信息与属于哪个模态信息。
将与拼接，得到最终输入序列。
（4）输入到Transformer Encoder中进行信息计算交互。

损失函数：

Image Text Matching: 训练中，会人为创造一些不匹配的image和text，然后选取序列头部的token来判断图文是否匹配。
Masked Language Model: BERT的目标函数，随机mask一些单词，然后使用多模态信息进行预测。
Word Patch Aligment：保证word的特征分布与image的特征分布一致。

Align before Fuse: Vision and Language Representation Learning with Momentum Distillation (NeurIPS 2021)

突出贡献： （1）将Language model劈成两半，并且在多模态融合前首先进行image-text对齐。（2）使用Momentum Model作为‘老师网络’来缓解噪声数据的影响 （one-hot可能存在偏差，Momentum Model可以引入soft-label）。

算法流程：

模型包括一个image encoder与一个BERT，并且将BERT对半劈开，分别进行文本特征提取（text encoder）与多模态融合（multimodal encoder）。
image输入到image encoder（12层）提取特征，文本输入text encoder（6层）提取特征。
得到的文本与图像特征输入到multimodal encoder进行多模态融合。

损失函数：

Image-Text Contrastive loss: 使用对比损失来约束image与text的特征，positive靠近，negative远离。
Image-Text Matching(ITM): 选取对比计算中的hard negative，要求网络计算其是否匹配，赋予网络具有挑战的任务。
Masked Language Modeling(MLM): BERT的预训练函数。
Momentum Model（参考MOCO）: 拷贝自原有模型，其参数移动平均更新的很慢:，模型会使用KL损失来约束原有网络与Momentum Model的输出。