赞
踩
LLaVA(视觉指令微调)
论文名称:Visual Instruction Tuning
论文链接:https://arxiv.org/pdf/2304.08485
论文发布时间:2023年4月初版,2023年12月更新。
名字来源:Large Language and Vision Assistant,大型视觉语言助手。
Vision Encoder:pre-trained CLIP visual encoder ViT-L/14
LLM:Vicuna
Projection:简单的线性投射。
相比于Flamingo更简单,对训练数据要求更少,适合迭代做实验。
此阶段冻结ViT和LLM,只训练Proj层。
通过这一步,视觉编码器输出的图像特征可以和预训练的LLM的词向量对齐。
epoch 1
lr 2e-3
bs 128
此阶段冻结ViT,训练Proj和LLM。
epoch 3
lr 2e-5
bs 32
使用机器生成的指令跟随数据对大型语言模型(llm)进行指令调优已被证明可以提高新任务的zero-shot能力,但该想法在多模态领域的探索较少。
社区出现了很多语言增强的视觉模型,具有强大的开放世界视觉理解能力。然而,每个任务由一个单一的大视觉模型独立解决,而且仅使用描述图片的语言(例如Grounding SAM),交互性较差,泛用性差。
LLM则被证实了具有较强的泛化能力,通常能解决多种任务,且能遵循人类指令,出现了很多开源LLM如LLaMA、Qwen。
本文提出了visual instruction-tuning,第一次将visual instruction-tuning扩展到多模态视觉领域。
使用ChatGPT/GPT-4将图文对转换为instruction-following数据。
图中上半部分为两种处理前的图文对,分别是caption(图像内容描述)和box(标签对应的坐标框)。
容易想到的一种构造格式是:给定图像 I和caption c,构造一组问题q,得到如下对话:
Human:I+q_i
GPT: c
但这样的数据缺乏多样性和深度推理。
所以,作者得到了如图下半部分,使用GPT4这种LLM来构造的更丰富更深度的数据。
包括三类问答,仅第一种是多轮,其他为单轮:
具体如何提示GPT4:
向GPT4输入如上内容后,输出如下格式 数据:
{“role”:“user”, “content”:sample[‘context’]}
({“role”:“assistant”, “content”:sample[‘response’]}
公式:
keypoints中已经讲过了。
因为一张图对应了多种问答,因此每轮问答t是如下构造方式:
第一个instruct是输入图像,和q1(你是一个ai blabla),哪个在前是随机的。
后面的就是正常是一问一答。训练LLaVA的数据格式如下:
目标函数采取和LLM相同的自回归损失
小xi是模型预测输出token,绿色的tokens用于计算自回归损失。θ是模型参数。
训练分两阶段:
对keypoints的补充:数据是过滤CC3M to 595K。然后按照Sec3中一开始提到的简单粗暴的方式构造对话,回答就是caption。单论对话。对每张图片随机选择一个对应的对话。
对keypoints的补充:这阶段的数据采用Sec3中描述的三类构建方法,构建了一个基准数据集Science QA。
通过两个主要的实验设置分别评估了LLaVA在指令跟随和视觉推理能力方面的性能: 多模态聊天机器人和ScienceQA数据集。
使用8× a100训练所有模型,遵循Vicuna的超参数。
demo示例,和与其他大模型的对比:
值得注意的是:LLaVA使用的训练集很小(只有80k+的图像),但能在域外数据上根据问题给出合理的推理。
定量评估模型在多模态数据上的指令跟随能力:
给定图像、基本事实文本描述和问题组成的三元组,候选模型(例如,LLaVA)根据问题和图像预测答案。
为了提供一个近似的理论上限,使用纯文本GPT-4,基于问题和基本事实文本描述创建了一个参考预测。
在获得两个模型的响应后,我们将问题、视觉信息(以文本描述的格式)和两个助手生成的响应馈送给裁判(即纯文本GPT-4)。它评估助手回答的有用性、相关性、准确性和详细程度,并给出1到10分的总分,分数越高表明整体表现越好。以下表格中的分数都是相对于GPT-4输出的相对分数。
LLaVA-Bench (COCO).
从COCO-Val-2014中随机抽选30张图像,生成共90个问题,该基准测试研究模型的对齐行为和具有一致视觉输入的功能,进行训练数据的消融,结果如下:
LLaVA-Bench (In-the-Wild)
为了评估模型在更具挑战性的任务中的能力和对新领域的可泛化性,收集了24张不同的图像,总共有60个问题,包括室内和室外场景、模因、绘画、草图等,
模型架构对比:
如下图两个问题,模型仍然欠缺;
ScienceQA[34]包含21k个多模态选择题,具有丰富的领域多样性,涉及3个学科、26个主题、127个类别和379个技能。基准数据集分为训练、验证和测试部分,分别有12726、4241和4241个示例。我们考虑了两种具有代表性的方法,包括具有和不具有思维链(CoT)的GPT-3.5模型(text- davincici -002)、LLaMA-Adapter[59]以及多模态思维链(MM-CoT)。
结果如表7所示。对于LLaVA,使用最后一层之前的视觉特征,要求模型先预测原因再预测答案,并进行12次epoch的训练。它的准确率为90.92%,与SoTA的91.68%相当接近。为了探索LLM的局限性,还使用2次上下文学习提示GPT-4,并实现了82.69%的准确率,与GPT-3.5的75.17%相比,这是7.52%的绝对增益。对于大量的问题,我们注意到GPT-4失败仅仅是因为它报告没有足够的背景,如图像或情节。我们考虑了两种方案来结合我们的模型和GPT-4的结果。
(i) GPT-4补充。每当GPT-4无法提供答案时,我们就使用我们方法中的预测。该方案的精度为90.97%,与单独应用我们的方法几乎相同。
(ii) GPT-4作为裁判。每当GPT-4和LLaVA给出不同的答案时,我们会再次提示GPT-4,要求它根据问题和两个结果提供自己的最终答案。这种精神与CoT相似,但具有来自其他模型的外部知识。令人惊讶的是,该方案能够在所有问题类上提供一致的改进,并达到了92.53%的新的SoTA准确率。
这可能是首次使用GPT-4做ensample。
消融
后边会再读LLaVA1.6和LLaVA-grounded。
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。