Visual Instruction Tuning: 用LLaVA近似多模态GPT-4

85f0e78d188637c4961a62393a6a84b7.gif

©Paperweekly 原创 · 作者 | Chunyuan Li

使用 GPT-4 进行视觉指令学习!Visual Instruction Tuning with GPT-4!

ebd2fcdb8d616b50c8c7199d3387c42b.jpeg

▲ Generated by GLIGEN (https://gligen.github.io/): A cute lava llama and glasses

我们分享了 LLaVA (Language-and-Vision Assistant),一款展示了某些近似多模态 GPT-4 水平能力的语言和视觉助手:

  • 视觉聊天 (Visual Chat):相对得分达到了 GPT-4 的 85%

  • 多模态推理任务的科学问答 (Science QA):达到了新的 SoTA 92.53%,超过了之前的最先进的方法:多模态思维链技术 (multimodal chain-of-thoughts)

c5285aae30741d53c0c44808e00edfdf.png

▲ 构建一个包含30张未见图像的评估数据集,其中每个图像都关联着三种类型的指令:对话、详细描述和复杂推理。这样总共有90个新的语言-图像指令,我们进行了LLaVA和GPT-4的评测,并使用GPT-4将它们的结果从1到10进行评分。每种类型的总分和相对分数都被报告。LLaVA相对于GPT-4达到了85.1%的相对分数

b8ec994fe7c907fafc41ec78fe6ef756.png

项目主页 Project Page:

https://llava-vl.github.io/

论文 Paper:

https://arxiv.org/abs/2304.08485

代码 GitHub:

https://github.com/haotian-liu/LLaVA

演示 Demo:

https://llava.hliu.cc/

数据 Data (158K unique language-image instruction-following samples):

https://huggingface.co/datasets/liuhaotian/LLaVA-Instruct-150K

模型 Model (LLaVA-13B):

https://huggingface.co/liuhaotian/LLaVA-13b-delta-v0

ee2da94544c8c61f9636aa0d93ecb19f.png

学习总结

我总结目前为止的项目主要体验:

1. 多模态指令跟踪数据(Multimodal Instruction-following Data) 

毫无疑问,数据质量是这个项目的关键。我们大部分时间都在迭代新的指令数据。在这个数据为中心(Data-Centric)的项目中,需要考虑以下因素:图像的符号化表示(包括 Caption & Boxes)、ChatGPT vs GPT-4、提示工程(Prompt Engineering)等。 

看到学术圈一直以来没有这类数据,我们开源了我们最新一个版本的数据,希望能启发更多人沿着这个道路去探索。

2. 视觉对话(Visual Chat)

LLaVA 在涉及面向用户应用的聊天过程中表现出非常强的泛化能力,尽管只是在不到 1M CC/COCO 数据的训练下进行的。 

(a) 强大的多模态推理能力:GPT-4技术报告中的两个基于图像的推理示例,一度以为难以企及,利用LLaVA现在可以轻松复现。

c10cf9a755675e7bd8a65906ee349ff7.png

360e23b0ebfdb25e92b1a6cc3cadc6ba.png

(b) 强大的 OCR 文字识别能力:请看我刚刚制作的一些示例。它能识别 CVPR、我们的举办的 Computer Vision in the Wild (CVinW) Workshop 的标志的图片,和 LLaVA 本身相关的照片。

CVinW Workshop:

https://github.com/Computer-Vision-in-the-Wild

2781ed6162df63c794cb04daffe10240.png

a7551e5d402fd17589734fb3bb5888e5.png

7a2470936e2850812f3afff9d6354b81.png

3. 科学问答(Science QA)

单独使用 LLaVA 实现了 90.92% 的准确率。我们使用仅文本的 GPT-4 作为评判者,根据其自身先前的答案和 LLaVA 的答案预测最终答案。这种“GPT-4 作为评判者”的方案产生了新的 SOTA 92.53%。令人惊讶的是,GPT-4 可以作为一种有效的模型集成方法!这些结果希望启发大家以后刷榜的时候,可以利用 GPT-4 这个神奇来集成不同方法。

df98d2257e482ea0a817b812e84dc50f.png

总的来说,LLaVA 展示了一种非常有前途的方法,启发大家复现且超越 GPT-4 的多模态能力。

更多阅读

ed7c3bd7fb88492514eb05fbad24cc8d.png

4daa040579cb58f8e3396f1131d353dd.png

492074845d605afe084a85bb68d9c99f.png

🔍

现在,在「知乎」也能找到我们了

进入知乎首页搜索「PaperWeekly」

点击「关注」订阅我们的专栏吧

·

·

·

a63155a435ee027c0060e725c8b61fc3.jpeg

文章出处登录后可见!

已经登录?立即刷新

共计人评分,平均

到目前为止还没有投票!成为第一位评论此文章。

(0)
乘风的头像乘风管理团队
上一篇 2023年6月25日
下一篇 2023年6月25日

相关推荐