一、理解多模态BERT的两种预训练任务
二、多模态在工业上的实战应用
三、多模态融合方法
- 【attention系列】使用attention模块来做多模态融合
- 最近一些多模态工作的个人理解(三)
- 多模态数据的表示、融合方法简述
- 面向深度学习的多模态融合技术研究综述
- 多模态融合fusion的各种操作
四、不同模态之间的差异和模态缺失问题
五、多模态预训练论文
- UNIMO详解:基于跨模态对比学习的统一模态理解和生成
- 论文解读|CVPR2022: Collaborative Two-Stream Vision-Language Pre-Training Model for Cross-Modal Retrieval
- CPD: 通过视频-文本对匹配的视频预训练模型
- FAIR和VGG论文:多模态自监督学习
- 【新文速递】多模态领域的prompt工作来了!
- ViLT:最简单的多模态Transformer
- 多模态(图文)预训练及实践
- 多模态预训练模型最新综述
- Vision and language pre-training(Image/Video Bert)
- 如何看待多模态transformer,是否会成为多模态领域的主流?
- 如何看待NLP领域最近比较火的prompt,能否借鉴到CV领域?
- 多模态论文综述(持续更新)
六、多模态相关的其他方法的论文
- [论文阅读]Deep Cross-Modal Hashing
- 【论文分享】Deep Multimodal Fusion by Channel Exchanging
- CVPR2021 跨模态检索-Learning the Best Pooling Strategy for Visual Semantic Embedding(GPO)
- 对比学习在NLP和多模态领域的应用
- 论文分享 | ACL 2021 中的多模态任务与方法
- 从顶会论文看多模态预训练研究进展
七、多模态仓库 & 资源
文章出处登录后可见!
已经登录?立即刷新