多模态
-
在Kaggle上使用Stable Diffusion进行AI绘图
前言 因为使用Stable Diffusion进行AI绘图需要GPU,这让其应用得到了限制 本文介绍如何在Kaggle中部署Stable Diffusion,并使用免费的P100 …
-
多模态技术综述
当我们谈到人类感知的多样性时,我们会意识到不同的感官信息对我们的认知和理解是至关重要的。例如,我们在观看一部电影时,不仅仅是通过视觉来理解其中的情节,还可以通过声音、配乐、文字等多…
-
首个大规模图文多模态数据集LAION-400M介绍
前言 openAI的图文多模态模型CLIP证明了图文多模态在多个领域都具有着巨大潜力,随之而来掀起了一股图文对比学习的风潮。 就在前几天(2022年12月),连Kaiming都入手…
-
推荐一个最近刚出的比较全面的多模态综述:Multimodal Deep Learning
简介 标题:Multimodal Deep Learning 网址:https://arxiv.org/abs/2301.04856 收录于:arxiv 2023 与其说这是一…
-
各种文字生成图片的AIGC模型(openAI、谷歌、stable、Midjourney等)
1 前言 AIGC,全名“AI generated content”,又称生成式AI,意为人工智能生成内容。例如AI文本续写,文字转图像的AI图、视频等。 本文主要描述文字生成图片…
-
【人工智能 | 多模态】几种常见的多模态任务
一、什么是多模态 多模态(multimodal)是指涉及到多种模态(如视觉、语音、文本等)的数据或信息。在计算机科学和人工智能领域中,多模态通常指将多种类型的数据或信息相结合,来解…
-
【AI理论学习】多模态介绍及当前研究方向
多模态介绍及当前研究方向 什么是多模态? 多模态的任务和数据集有哪些? 多种模态融合的方式有哪些? 多模态任务的研究方向有哪些? 参考资料 什么是多模态? 什么是多模态?多模态指的…
-
VirTex: Learning Visual Representations from Textual Annotations
基本信息 论文:VirTex: Learning Visual Representations from Textual Annotations 作者:Karan Desai、Ju…
-
【自然语言处理】【多模态】UniT:基于统一Transformer的多模态多任务学习
UniT:基于统一Transformer的多模态多任务学习《UniT:Multimodal Multitask Learning with a Unified Transforme…
-
新的跨模态融合策略:correlation-fusion
简单介绍一下自己最近发表在TIP上的一个工作: Learning Discriminative Cross-modality Features for RGB-D Saliency…