小舞很执着

这个屌丝很懒，什么也没留下！

热门标签

Aligning Large Multi-Modal Model with Robust Instruction Tuning将大型多模态模型与稳健的指令调整相结合_lrv-instruction

作者：小舞很执着 | 2024-08-04 15:28:18

踩

lrv-instruction

Abstract

尽管多模态任务取得了有希望的进展，但当前的大型多模态模型（LMM）很容易产生与相关图像和人类指令不一致的描述的幻觉。本文通过引入第一个大型且多样化的视觉指令调整数据集来解决这个问题，该数据集名为大规模鲁棒视觉（LRV）指令。我们的数据集由 GPT4 生成的 120k 视觉指令组成，涵盖 16 个具有开放式指令和答案的视觉和语言任务。与主要关注正面指令样本的现有研究不同，我们设计的LRV-Instruction包含正面和负面指令，以实现更稳健的视觉指令调整。我们的否定指令是在两个语义级别设计的：（i）不存在的元素操作和（ii）存在的元素操作。为了有效测量 LMM 产生的幻觉，我们提出了GPT4 辅助视觉指令评估（GAVIE），这是一种评估视觉指令调整的新方法，无需人工注释的真实答案，并且可以适应不同的指令格式。我们进行了全面的实验来研究 LMM 的幻觉。我们的结果表明，现有的 LMM 在收到我们的负面指令（尤其是现有元素操作指令）时表现出明显的幻觉。此外，通过对LRV-Instruction上的 MiniGPT4 进行微调，与最先进的方法相比，我们使用更少的训练数据成功地减轻了幻觉，同时提高了公共数据集的性能。此外，我们观察到训练数据中正例和负例的平衡比例可以产生更稳健的模型。我们的项目链接可以在此链接中找到。

1介绍

图1：给定图像和人类指令作为输入，我们引入GPT4 辅助视觉指令评估 (GAVIE)来评估当前 LMM（例如MiniGPT4 和 LLaVA）的输出。蓝色代表 LMM 无法准确遵循人类指令，而红色代表它们存在幻觉问题。在我们提出的LRV 指令数据集上微调 MiniGPT4 后，我们可以生成更稳健的答案。

自然语言处理领域已经取得了重大进展，导致了能够理解和遵循给定自然语言输入的指令的模型的开发。36;10;26;5]。这些模型利用大型语言模型 (LLM) 的强大功能并依赖于高质量的指令数据。同样，我们也努力将类似的功能引入多模式模型。GPT4 [27]在与人类的多模式对话中表现出了令人印象深刻的性能，但促成其非凡能力的技术仍然不透明。因此，最近出现了几个大型多模态模型（LMM）[39;23;10;8]，例如 MiniGPT4 [39]和 LLaVA [23]，两者都利用骆马毛[7]作为语言生成器，但具有不同的视觉编码器[28;16]。指导BLIP [8]从预训练的 BLIP-2 初始化[15]而多式联运-GPT (MMGPT) [10]是建立在 Flamingo [1;3]。

最近的一项研究 [14】透露LLM的幻觉问题虽然不是所希望的，但却被这些LMM遗传了[39;23;10;8]。幻觉，与法学硕士相关的一个主要道德问题 [4]，可能会导致有害的后果，特别是当没有足够领域知识的用户过度依赖这些越来越令人信服的语言模型时。在 LMM 幻觉的背景下，该模型可以生成与给定图像相冲突的信息的描述。例如，如图1 （以红色突出显示）所示，现有的 LMM [39;23;8;10]倾向于描述不存在的物体，例如“狗”从事不存在的活动，例如“玩球”。此外，该模型可能会在不遵循人类指令的情况下生成长图像描述（以蓝色突出显示）。

这些幻觉的可能原因是什么？由于当前的 LMM 建立在强大的 LLM 之上，因此它们可能会过度依赖语言先验，并生成更有可能与指令文本结合在一起的单词，而不管图像内容如何。更重要的是，LMM，例如 MiniGPT4 [39]和 LLaVA [23]，采用合成指令数据进行训练，这些数据通常很长并且涉及图像中不存在的对象、活动或关系。

为什么 LMM 不能准确遵循人类指令？我们推测这是由于他们的训练数据缺乏多样性。例如，MiniGPT4 [39]仅使用专为图像字幕任务设计的四个指令模板来指导调整。虽然 MMGPT [10]和指导BLIP [8]结合了几个数据集作为指令调优数据，它们的指令和答案仍然基于几个模板。

为了应对这些挑战，我们推出了LRV-Instruction，这是一个大型且多样化的视觉教学基准。我们的基准测试由 GPT4 生成的 120k 视觉指令组成，其灵感来自于最近 GPT 模型在文本注释任务中的成功 [24]。与之前的研究不同，之前的研究侧重于有限的任务和由人类专家创建的预定义模板 [39;8;10]，LRV-Instruction涵盖了16个视觉语言任务，具有开放式指令和答案，如图 3和表2所示。 1(a) . 正如观察到的[18]，当前的 LMM 倾向于对向模型提供的任何指令回答“是” ，即使正确的答案应该是“否”。有些模型甚至在评估过程中对超过 90% 的负面测试示例回答“是” 。我们的调查表明，大多数 LMM 在仅包含正向指令的不平衡数据集上进行了微调（表1）。为了使 LMM 能够更忠实地响应人类指令，我们设计了LRV-Instruction，以包含负指令和正指令，以实现稳健的指令调整。我们的否定指令是在两个语义级别生成的（图2）：（i）不存在的元素操作和（ii）存在的元素操作以两种不同的格式（声明式和疑问式）。为了提高视觉指令调整评估的稳健性和灵活性，我们提出了GPT4 辅助视觉指令评估（GAVIE），从两个不同的方面评估 LMM 输出：评估指令跟随性能的相关性和测量幻视的准确性在 LMM 输出中。GAVIE不需要人工注释的真实答案[29]并且可以轻松适应不同的指令格式，而不是[中的特定设计18]。

我们根据经验评估了四个公开可用的 LMM [39;23;8;10]在我们的基准上，发现现有的 LMM 在收到我们的负面指令提示时会产生严重的幻觉。我们通过微调 MiniGPT4 进一步验证了LRV-Instruction的有效性[39]关于这个更平衡的数据。与原始 MiniGPT4、LLaVA 相比，我们经过指令调整的 MiniGPT4 受到的幻觉影响要小得多，并且实现了最先进的性能[23] , 指示BLP [8]和 MMGPT [10]我们的评估集和公共基准[18;11]。我们还观察到，对于 LMM，存在的元素操作指令比不存在的元素操作指令更具挑战性。此外，稳健的模型性能需要正负实例之间的平衡比例。总而言之，我们的贡献有三方面：

•

我们构建了LRV-Instruction，这是一个包含 120k 视觉指令的大型且多样化的数据集，其中包含 16 个视觉和语言任务以及不同语义级别和风格的负面指令。
•

我们提出了GAVIE，一种评估视觉指令调整的新颖方法，无需真实答案和预先设计的指令格式。
•

我们进行了全面的实验来研究当前 LMM 的幻觉。实证研究验证了LRV-Instruction对于鲁棒视觉指令调整的有效性。

图2：我们的LRV 指令数据集中的负指令示例以及当前 LMM 和我们模型的输出。红色表示否定指令中不一致的元素。

2Related Works

早期探索[35;16;17 号;32]视觉和语言预训练模型倾向于使用基于 Bert 的[25;12]模型作为语言解码器。受到大型语言模型最近成功的启发[33;9;38]和数据集[19;6;13;21;30;31;20]，许多研究[1;15;14]一直致力于通过将强大的法学硕士与上下文或少量学习能力相结合来改进视觉语言预训练模型。最近，一些视觉指令调整的 LMM [39;23;10;8]已经出现，在未见过的 VL 任务中表现出了出色的泛化性能。具体来说，LLaVA [23]将视觉编码器的输出投影为 LLaMA 的输入[33]并在合成数据上训练对齐网络和法学硕士。迷你GPT4 [39]基于 BLIP-2 构建，但使用 Vicuna [7]作为语言解码器。它仅在来自 ChatGPT 的较长图像标题上微调跨模式对齐网络。研究方法[10;8]是在 VL 数据集集合上进行指令调整的，但是 InstructBLIP [8]使用 BLIP2 [15]作为骨干，而[10]从 Flamingo [初始化1]。mPLUG-owl [37]微调 LLaMA [33]使用来自 LLaVA 的文本指令数据和视觉语言指令数据的模型[23]。相比之下，我们提出了一个大型且多样化的视觉指令数据集，其中包含 16 个视觉和语言任务以及不同语义级别和风格的负面指令。这有助于提高当前 LMM 的鲁棒性。

尽管 LMM 在解决 VL 任务方面很强大，但它们也遭受着 LLM 继承的幻觉。流行的图像字幕指标，例如 CIDEr [34]香料[2]不对幻觉进行适当的惩罚。椅子，[29]，不稳定，需要复杂的人为解析规则才能精确匹配。或者，[18]将幻觉转化为二元分类问题。然而，它要求输入问题遵循特定的模板，例如“图像中是否有<object>？” 。相比之下，我们提出的 GAVIE 可以以开放式的方式评估模型幻觉，而不需要人工注释的真实答案。

图3：我们的LRV-指令数据集中的积极指令示例。每个实例都会显示带有相应任务和说明的图像。更多示例在附录中。

3LRV-指令

3.1自动视觉指令生成

注释大规模视觉指令数据可能具有挑战性且耗时[36]。它涉及针对不同任务的专业编写的详细说明和特定标签。受到 GPT4 在文本注释任务中成功的启发[9]，我们利用 GPT4，而不是人类工作者，来构建LRV-Instruction。LRV-Instruction旨在涵盖各种 VL 任务（图3 ），具有不同语言风格的开放式正向和负向指令（图2、3 ）（表 1 (b)）。

下面我们详细介绍一下施工过程。

提示设计。灵感来自[36]，我们利用 GPT4 的上下文小样本学习能力来自动生成各种 VL 任务的指令数据。我们手动过滤输出任务并选择 16 个带有文本答案的任务（表1(a) ）。与...对比[23]使用一些场景标题来表示图像作为纯文本 GPT4 的输入，我们利用了 Visual Genome 数据集[13]，其中包含详细的视觉信息，例如图像大小、边界框和密集标题。具体来说，每个图像通常有 21 个对象区域及其相应的标题。我们利用 GPT4 创建指令跟踪数据，将图像大小、边界框和密集标题作为“视觉”输入，就好像它可以“看到”图像一样。图4示出了一个例子。可以有多个标题描述具有不同属性的同一对象（图4），例如“穿长裙的女人”和“穿黄色裙子的女人”。尽管我们将每个标题的边界框坐标呈现给 GPT4，但很容易混淆，将它们视为两个实例，一个穿着长裙，另一个穿着黄色连衣裙。为了缓解这个问题，我们在提示中添加了“高度重叠的边界框可能引用同一对象”，以帮助 GPT4 更好地理解“视觉”输入。对于每张图像，我们随机选择 10 个任务。为了丰富指令，我们要求 GPT4 生成声明式和疑问式格式的实例。[的限制23;39] 的缺点是合成视觉指令通常较长，并且可能涉及与图像不一致的意外描述信息。因此，我们明确对GPT4提出“答案应少于30个字”的要求，以减少训练数据中产生额外的无关信息的机会，这也可以改善用户的阅读体验。

负指令生成。如图所示[18]，当前的 LMM 倾向于通过遵循向模型提供的任何指令来回答“是” ，而不是预测忠实的答案。教授 LMM [39;23;10;8]为了忠实地回答指令中的问题，我们引入了两类否定指令：（1）Neg1：“不存在的元素操纵”，通过向如上所述的“视觉”输入引入不存在的对象、活动、属性和交互。 （2）Neg2：“存在元素操纵”，通过操纵属性不一致的存在对象（图2）。至于Neg1的详细提示，我们利用与图4所示的“视觉”输入相同的格式。此外，我们向 GPT4 提供以下说明：

“提出 6 条误导性指令不存在的元素（不存在的对象，不存在的活动、不存在的属性、不存在的交互）在不同语言风格的图像中。说明应包含疑问句和陈述句。还请解释一下原因。”

	我们的	迷你GPT4	拉瓦	指导BLIP	MMGPT
硬否定指令？	✔	✘	✘	✘	✘
自生成指令？	✔	✘	✔	✘	✘
解决幻觉？	✔	✘	✘	✘	✘
不是模板指令？	✔	✘	✔	✘	✘
实例数	12万	3k	15万	>1M	>50万
VL 任务数量	16	1	3	11	5

表格1：LRV-Instruction与当前 LMM 使用的数据集的比较。InstructBLIP 和 MMGPT 只是组合现有的 VQA 数据集，而我们通过 GPT4 创建新的数据集。

图4：举一个例子来说明我们用GPT4生成视觉指令数据的提示。我们使用边界框坐标和密集标题来表示图像内容。更多示例可以在附录中找到。

我们将上面带下划线的文字替换为“存在对象但属性错误”作为Neg2的提示。我们在附录中提供了完整的提示和示例说明。

质量控制。 对于多选择 VQA 任务，我们观察到生成的指令有时可能不包含任何选择，因此我们删除了此类不完整的数据。我们还会删除答案长度超过 30 个单词的实例。为了检查数据集的质量，我们随机抽取了 500 个实例，并询问 10 名专家注释者来确定 GPT4 的输出答案在指令和图像内容方面是否正确。我们发现 91% 的指令适用于图像输入。此外，85% 的输出是对指令的可接受的响应。尽管某些响应可能包含错误，但大多数代都符合正确的结构，作为适用的视觉指令调整指南。

3.2数据统计

标签。图1(b)显示了生成数据的统计。经过过滤后，我们总共创建了超过 12 万条视觉指令。标签。图 1显示了LRV-Instruction和当前 LMM 使用的其他数据集的比较。LRV-Instruction比现有的视觉指令调整数据集涵盖更多的 VL 任务。LRV-Instruction不仅仅使用正指令，还包括不同语义级别的负指令，以实现稳健的指令调整。此外， LRV-Instruction采用GPT4辅助生成，具有更多开放式指令，而不是遵循一些模板。与相关数据集相比，这些比较证明了LRV-Instruction的优势。

4视觉指令调整

我们构建了一个基于MiniGPT4的视觉指令调优模型[39]，由视觉变压器[22]骨干作为图像编码器，Vicuna [7]作为文本解码器和一个预先训练的 Q-Former 来连接它们。Vicuna 建立在 LLaMA 之上[33]具有更强的跟随能力。下列的[39]，Q-Former 旨在从冻结图像编码器中提取视觉特征。在将冷冻的骆驼毛作为视觉提示输入之前，我们使用可学习的线性投影层来缩小提取的视觉特征与骆驼毛嵌入之间的差距。详细提示如下：

“给出以下图片：<Img>ImageContent</Img>。一旦我提供给您，您就可以看到该图片。请回答我的问题。###Human：<Img><ImageHere></Img>指令###助理：回答”，

其中“<Img>ImageContent</Img>”是一个模板，让 Vicuna 知道图像特征将被放置在两个特殊标记“<Img>”、“</Img>”中。“<ImageHere>”是图像特征的实际槽。“指令”和“答案”分别代表人类指令和模型输出文本。

5评价设置

LRV-指令的任务

\pbox 7cm图像字幕、对象检测、图像情感分析、图像质量评估、对象交互分析、图像异常检测、参考表达接地、OCR、VCR、对象属性检测、多选 VQA、语义分割、密集字幕、视觉蕴涵、风格图像标题、活动识别、面部表情检测

（A）我们数据集中的 VL 任务。

统计
指令数量	12万
图片数量	6.5k
疑问指令数量	70k
声明性指令的数量	5万
每个图像的平均指令数	17.7
平均答案长度	15.2
平均指令长度	12.1
否定指令数	35k
平均指令长度（Neg1）	18.1
平均指令长度（Neg2）	11.2
疑问句的百分比 (Neg1)	47%
疑问句 (Neg2) 的百分比	81%

(二)LRV-指令 的统计。

表2：(a) 拟议的LRV 指令涵盖了一系列不同的视觉语言任务。(b) 我们构建的数据集的详细统计。负指令中，Neg1 表示不存在的元素操作，Neg2 表示存在的元素操作。

椅子[29]被引入来评估图像字幕任务中的物体幻觉。然而，它通常需要复杂的人为规则。或者，[18]将物体幻觉的评估制定为二元分类任务，提示 LMM 输出“是”或“否”。然而，很难以开放式的方式评估 LMM 的输出。此外，这两种方法都高度依赖于人类注释的真实答案。

为此，我们引入了GPT4 辅助视觉指令评估 (GAVIE)作为一种更灵活、更强大的方法。我们使用的一般提示如附录所示。GPT4 将带有边界框坐标的密集标题作为图像内容，并比较人类指令和模型响应。然后，我们要求 GPT4 充当智能老师，并根据两个标准对学生的答案进行评分（0-10）。(1)准确性：对于图像内容的响应是否准确。(2)相关性：响应是否直接遵循指令。评估结果如图1所示，成功指出“dog，ball”与图像不一致，并且第一个LMM的响应没有解决该指令。与以往的评价方法不同[23;18;29]，GAVIE不需要人工注释的groundtruth答案，可以自由适应不同的指令格式。

	我们的	迷你GPT4	拉瓦	指导BLIP	MMGPT
准确度(GPT4)	6.58	4.14	4.36	5.93	0.91
相关性(GPT4)	8.46	5.81	6.11	7.34	1.79

表3： 在GAVIE 评估的我们的评估集上进行对比实验。准确性 (GPT4)和相关性 (GPT4)的指标分数范围为 0 到 10。

模型	准确性	F1分数
拉瓦	0.45	0.59
迷你GPT4	0.44	0.52
指导BLIP	0.74	0.81
我们的	0.79	0.84

表 4：[引入的幻觉评估数据集对比实验18]。

6实验

6.1实施设置

基线。我们评估了 4 个最近发布的 LMM 的零样本性能：(1) MiniGPT4 (7B) [39] ; (2) 拉瓦 (7B) [23] ; (3) 指示BLIP (7B) [8] ; (4) 多式联运-GPT (7B) (MMGPT) [10]。上述所有模型都根据自己收集的视觉指令数据进行了调整。

培训细节。我们从 MiniGPT4 的第一个预训练阶段检查点初始化模型。然后，我们使用线性投影层作为唯一的可学习模块，在数据集上指导调整模型。至于超参数，我们采用批量大小为 1、在最初 200 个步骤期间学习速率为 1e-6 的线性预热以及权重衰减为 0.05 的权重衰减。我们在 NVIDIA Quadro RTX 8000 GPU 上训练模型，最大 epoch 为 20。我们从数据集中随机选择 1000 个实例进行评估，其他实例用于微调。

6.2主要结果

LMM 在 LRV 指令上的表现如何？我们在选项卡中显示了数据集的评估结果。 3 . 在基线中，InstructBLIP 比其他 LMM 基线取得了更好的结果，因为它的视觉指令是从各种公开可用的数据集中收集的。拉瓦[23]利用GPT辅助的方法来生成视觉指令，但其性能要差得多。这可能是因为 GPT4 的合成答案通常较长，并且可能涉及不相关的信息。作为比较，我们的模型大大优于现有的 LMM 基线，这得益于我们数据集的丰富组成和更好的提示设计。

表 5：GQA 的结果 [ 11]。我们评估了 LMM 在一般 VQA 场景中的性能。

模型	训练规模	准确性
指导BLIP	>1M	0.62
拉瓦	15万	0.48
迷你GPT4	3k	0.44
我们的	12万	0.61

比率	��	��
所有位置	0.97	0.05
正:负=2:1	0.95	0.50
正:负=1:1	0.92	0.85
正:负=1:2	0.87	0.86
全阴性	0.10	0.98

表 5：GQA 的结果 [ 11]。我们评估了 LMM 在一般 VQA 场景中的性能。表 6：视觉指令调整中不同组成比例的结果。

类别	公制	我们的	迷你GPT4	拉瓦	指导BLIP	MMGPT
负1	准确度(GPT4)	8.90	3.72	2.09	5.50	1.13
负1	相关性(GPT4)	8.96	5.94	4.83	7.22	2.24
负2	准确度(GPT4)	6.50	2.57	1.42	2.18	0.96
负2	相关性(GPT4)	8.46	2.53	1.82	2.73	1.19

表 7： GAVIE对 Neg1指令和 Neg2指令的评估结果。准确性 (GPT4)和相关性 (GPT4)的指标分数范围为 0 到 10。

LMM 在不同数据集上的表现如何？我们将我们的模型与 POPE 最近引入的幻觉评估数据集上的基线模型进行比较 [18]，从 COCO 中随机选择 500 张图像[19]。由于 POPE 的作者 [18]在我们提交论文时尚未发布他们的数据集，我们采用 GPT4 辅助方法来生成开放式负面指令。此外，我们指示模型产生“是”或“否”，并根据[18]。如表所示。如图 4所示，我们观察到 MiniGPT4、LLaVA 和 InstructBLIP 可能无法很好地处理开放式负指令。相比之下，我们模型的最高得分表明我们的数据集更适合稳健的视觉指令调整。尽管 InstructBLIP 产生幻觉的倾向较少，但它的训练集比我们的大得多（120k vs 1M）。此外，我们的模型是基于 MiniGPT4 构建的，它仅指示调整线性投影仪层。为了进一步探索 LMM 在视觉问答 (VQA) 常见场景中的表现，我们遵循[18]在 GQA 数据集上评估 LMM [11]在零次设置中。值得注意的是，GQA 由开放式 VQA 问题组成。如表所示。如图 6 所示，结果表明我们的方法在通用 VQA 设置中实现了与 InstructBLIP 相当的性能，并且我们的方法需要更少的训练数据。

6.3详细分析

LMM 在正面指令还是负面指令上表现更好？我们的评估集由正面和负面实例组成。我们将其分为两组并分析每组的模型性能。如图 5所示，包括MiniGPT4、LLaVa和InstructBLIP在内的基线模型在正实例上的表现优于负实例，因为这些模型采用的训练数据不包含负指令。由于响应中存在许多重复短语，MMGPT 在两组上的性能都很低。此外，我们发现LLaVA的降解最为严重。我们假设 LLaVA 中指令调整的综合答案通常更长并且涉及更多不相关的信息。相比之下，我们的模型在两组中都表现最好。由于其指令感知视觉编码器提取图像信息的有效性，InstructBLIP 的得分高于其他 LMM。

LMM 在不同语义层面的幻觉中表现如何？如表7所示，所有基线在Neg1上的表现均优于Neg2。从视觉角度来看，Neg2中具有错误属性的现有对象操作比将图像中不存在的对象添加到Neg1中的指令更具挑战性。例如，在选项卡中。参照图2，可以很容易地发现“热气球”没有出现在图像中。然而，“女人”确实存在于图 5的第二个例子中，但她并不穿着蓝色裤子和粉色衬衫，这需要对视觉内容进行细粒度的理解。因此，未来的 LMM 需要更强大的视觉编码器。相比之下，我们的模型在两个语义级别上都有很大改进，这得益于我们多样化的指令调整数据。在附录中，我们展示了Neg1和Neg2示例的模型预测的更多可视化。

LMM 在训练数据的不同组成比例下表现如何？我们的模型受益于具有正面和负面指令的数据集。在选项卡中。如图6所示，我们研究了它如何解决训练集中不同比例的正负样本的幻觉问题。灵感来自[18]，我们指示模型产生“是”或“否”，并使用分类精度进行评估。 $ACC_{p}$ 是正指令集上的准确性，而 $ACC_{n}$ 是负指令集上的准确度。从选项卡。6、我们发现 $ACC_{n}$ 随着负样本的增加而增加，这验证了我们的假设，即当前 LMM 的幻觉问题[39;23;10;8]是由于缺乏负面指示。此外，通过平衡比例（pos:neg=1:1），该模型在正集和负集上都表现最佳。我们还发现，设置pos:neg=1:2可以获得与pos:neg=1:1类似的结果。这可能是因为我们的模型（MiniGPT4）的主干是在大量图像标题对数据集上进行训练的，这些数据集是正样本。

LMM 在不同格式和长度的指令上表现更好吗？从表8可以看出，LMM 在疑问指令上的得分高于陈述指令，但差异相对较小。尽管最近的视觉指令调整数据集缺乏多样化的声明性指令，但基于 LLM 构建的 LMM 足够强大，可以理解并遵循声明性指令。从图6中可以看出，当前的 LMM 在短指令中比在长指令中取得更好的结果，因为较长的指令包含更多信息，使其更难以理解。

（A）准确性性能。

(二)相关性表现

图5：GAVIE对正面和负面指令的评估结果

参见标题

（A）准确性性能。

参见标题

(二)相关性表现。

图6：GAVIE对不同指令长度的评估结果。

类别	公制	我们的	迷你GPT4	拉瓦	指导BLIP	MMGPT
疑问	准确度(GPT4)	6.61	4.14	4.60	5.95	1.01
疑问	相关性(GPT4)	8.46	6.20	5.88	7.67	2.00
声明式	准确度(GPT4)	6.50	3.98	3.82	5.47	0.90
声明式	相关性(GPT4)	8.21	5.39	5.84	6.64	1.62

表8：GAVIE 对疑问指令和陈述指令的评估结果。准确性 (GPT4)和相关性 (GPT4)的指标分数范围为 0 到 10。

7结论

在这项工作中，我们构建了LRV-Instruction，这是一个包含 120k 视觉指令的大型且多样化的数据集，涵盖 16 个视觉和语言任务，具有不同语义级别和风格的正面和负面指令。通过LRV-Instruction，我们全面研究了现有 LMM 的幻觉，并凭经验验证了其在更稳健的视觉指令调整中的有效性。此外，我们提出了GAVIE，这是一种评估视觉指令调整的新颖方法，无需人工标记的真实答案，并且可以轻松适应不同的指令格式。我们希望我们的工作能够帮助解决 LMM 的意外幻觉问题。未来的方向包括用更强大的视觉模型替换当前 LMM 中的视觉编码器，以匹配多模态 GPT4 的功能，并研究 LMM 的其他偏差以开发更强大的模型。

参考

[1]Jean-Baptiste Alayrac、Jeff Donahue、Pauline Luc、Antoine Miech、Iain Barr、Yana Hasson、Karel Lenc、Arthur Mensch、Katherine Millican、Malcolm Reynolds 等。Flamingo：用于小样本学习的视觉语言模型。神经信息处理系统的进展，35：23716–23736，2022。
[2]彼得·安德森、巴苏拉·费尔南多、马克·约翰逊和斯蒂芬·古尔德。Spice：语义命题图像标题评估。计算机视觉 - ECCV 2016：第 14 届欧洲会议，荷兰阿姆斯特丹，2016 年 10 月 11-14 日，会议记录，第 V 部分 14，第 382-398 页。施普林格，2016。
[3]Anas Awadalla、Irena Taka、Joshua Gardner、Jack Hessel、Yusuf Hanafy、朱万荣、Kalyani Marathe、Yonatan Bitton、Samir Gadre、Jenia Jitsev、Simon Kornblith、Pang Wei Koh、Gabriel Ilharco、Mitchell Wortsman 和 Ludwig Schmidt。火烈鸟公开赛，2023 年 3 月。
[4]Yejin Bang、Samuel Cahyawijaya、Nayeon Lee、Wenliang Dai、Dan Su、Bryan Wilie、Holy Lovenia、Ziwei Ji、Tiezheng Yu、Willy Chung 等。对 chatgpt 的推理、幻觉和交互性进行多任务、多语言、多模式评估。arXiv 预印本 arXiv:2302.04023，2023年。
[5]汤姆·布朗、本杰明·曼、尼克·莱德、梅兰妮·苏比亚、贾里德·D·卡普兰、普拉富拉·达里瓦尔、阿文德·尼拉坎坦、普拉纳夫·希亚姆、吉里什·萨斯特里、阿曼达·阿斯克尔等。语言模型是小样本学习者。神经信息处理系统的进展，33：1877-1901，2020。
[6]Soravit Changpinyo、Piyush Sharma、Nan Ding 和 Radu Soricut。Conceptual 12m：推动网络规模的图像文本预训练以识别长尾视觉概念。IEEE/CVF 计算机视觉和模式识别会议论文集，第 3558-3568 页，2021 年。
[7]蒋伟林、李卓涵、林子、盛颖、吴张浩、张浩、郑连民、庄思源、庄永浩、Joseph E Gonzalez 等。Vicuna：一款开源聊天机器人，2023 年以 90%* 的 chatgpt 质量给 gpt-4 留下深刻印象。
[8]戴文亮、李俊楠、李东旭、孟发忠、赵俊奇、王伟胜、李博阳、冯帕斯卡尔和史蒂文·许。Instructblip：通过指令调整实现通用视觉语言模型。arXiv 预印本 arXiv:2305.06500 , 2023。
[9]法布里奇奥·吉拉迪、梅萨姆·阿利扎德和梅尔·库布里。Chatgpt 在文本注释任务上的表现优于众包。arXiv 预印本 arXiv:2303.15056 , 2023。
[10]龚涛、吕成琪、张世龙、王玉栋、郑苗、赵倩、刘奎坤、张文伟、罗平和陈凯。Multimodal-gpt：与人类对话的视觉和语言模型。arXiv 预印本 arXiv:2305.04790 , 2023。
[11]德鲁·A·哈德森和克里斯托弗·D·曼宁。Gqa：用于现实世界视觉推理和组合问答的新数据集。IEEE/CVF 计算机视觉和模式识别会议论文集，第 6700-6709 页，2019 年。
[12]MV 科罗捷耶夫。Bert：自然语言处理和理解应用综述。arXiv 预印本 arXiv:2103.11943，2021年。
[13]Ranjay Krishna、Yuke Zhu、Oliver Groth、Justin Johnson、Kenji Hata、Joshua Kravitz、Stephanie Chen、Yannis Kalantidis、Li-Jia Li、David A Shamma 等。视觉基因组：使用众包密集图像注释连接语言和视觉。国际计算机视觉杂志，123：32-73，2017。
[14]李波、张远涵、陈良宇、王靖浩、杨靖康和刘紫薇。Otter：具有上下文指令调整的多模态模型。arXiv 预印本 arXiv:2305.03726，2023年。
[15]李俊楠、李东旭、西尔维奥·萨瓦雷斯和史蒂文·海。Blip-2：使用冻结图像编码器和大型语言模型引导语言图像预训练。arXiv 预印本 arXiv:2301.12597，2023年。
[16]李俊楠、李东旭、熊彩明和史蒂文·霍伊。Blip：引导语言图像预训练，以实现统一的视觉语言理解和生成。国际机器学习会议，第 12888-12900 页。PMLR，2022 年。
[17]Liunian Harold Li、Mark Yatskar、Da Yin、Cho-Jui Hsieh 和 Kai-Wei Chang。Visualbert：一个简单且高性能的视觉和语言基线。arXiv 预印本 arXiv:1908.03557，2019。
[18]李一凡、杜一凡、周昆、王金鹏、赵鑫、温继荣。评估大型视觉语言模型中的物体幻觉。arXiv 预印本 arXiv:2305.10355 , 2023。
[19]Tsung-Yi Lin、Michael Maire、Serge Belongie、James Hays、Pietro Perona、Deva Ramanan、Piotr Dollár 和 C Lawrence Zitnick。Microsoft coco：上下文中的常见对象。计算机视觉 - ECCV 2014：第 13 届欧洲会议，瑞士苏黎世，2014 年 9 月 6-12 日，会议记录，第 V 部分 13，第 740-755 页。施普林格，2014。
[20]刘福晓、谭浩和克里斯·滕斯梅尔。Documentclip：链接重排文档中的图形和主体文本。arXiv 预印本 arXiv:2306.06306 , 2023。
[21]刘福晓、王英瀚、王天禄和维森特·奥多涅斯。视觉新闻：新闻图像字幕的基准和挑战。arXiv 预印本 arXiv:2010.03743，2020。
[22]刘福晓、Yaser Yacoob 和 Abhinav Shrivastava。Covid-vts：短视频平台上的事实提取和验证。计算语言学协会欧洲分会第 17 届会议记录，第 178-188 页，2023 年。
[23]刘昊天、李春元、吴庆阳、李勇杰。视觉指令调整。arXiv 预印本 arXiv:2304.08485 , 2023。
[24]刘阳、丹·伊特尔、徐一冲、王硕航、徐若晨和朱晨光。Gpteval：使用 gpt-4 进行 Nlg 评估，具有更好的人体对齐能力。arXiv 预印本 arXiv:2303.16634，2023年。
[25]Yinhan Liu、Myle Ott、Naman Goyal、Jingfei Du、Mandar Joshi、Danqi Chen、Omer Levy、Mike Lewis、Luke Zettlemoyer 和 Veselin Stoyanov。Roberta：一种稳健优化的 bert 预训练方法。arXiv 预印本 arXiv:1907.11692，2019。
[26]欧阳龙、吴杰弗里、徐江、迪奥戈·阿尔梅达、卡罗尔·温赖特、帕梅拉·米什金、张冲、桑迪尼·阿加瓦尔、卡塔琳娜·斯拉玛、亚历克斯·雷等。训练语言模型遵循人类反馈的指令。神经信息处理系统的进展，35：27730–27744，2022。
[27]彭宝林、李春园、何鹏程、米歇尔·加利和高剑峰。使用 gpt-4 进行指令调整。arXiv 预印本 arXiv:2304.03277，2023年。
[28]亚历克·雷德福、金钟旭、克里斯·哈拉西、阿迪亚·拉梅什、加布里埃尔·吴、桑迪尼·阿加瓦尔、吉里什·萨斯特里、阿曼达·阿斯克尔、帕梅拉·米什金、杰克·克拉克等。从自然语言监督中学习可迁移的视觉模型。国际机器学习会议，第 8748–8763 页。PMLR，2021。
[29]安娜·罗尔巴赫、丽莎·安妮·亨德里克斯、凯莉·伯恩斯、特雷弗·达雷尔和凯特·萨恩科。图像字幕中的物体幻觉。arXiv 预印本 arXiv:1809.02156，2018。
[30]Piyush Sharma、Nan Ding、Sebastian Goodman 和 Radu Soricut。概念字幕：用于自动图像字幕的经过清理的上位词图像替代文本数据集。计算语言学协会第 56 届年会论文集（第一卷：长论文），第 2556-2565 页，2018 年。
[31]Krishna Srinivasan、Karthik Raman、Jiecao Chen、Michael Bendersky 和 Marc Najork。Wit：基于维基百科的图像文本数据集，用于多模式多语言机器学习。第 44 届国际 ACM SIGIR 信息检索研究与开发会议论文集，第 2443-2449 页，2021 年。
[32]孙晨、奥斯汀·迈尔斯、卡尔·冯德里克、凯文·墨菲和科迪莉亚·施密德。Videobert：视频和语言表示学习的联合模型。IEEE/CVF 国际计算机视觉会议论文集，第 7464-7473 页，2019 年。
[33]雨果·图夫龙、蒂博·拉夫里尔、戈蒂埃·伊扎卡尔、泽维尔·马丁内、玛丽-安妮·拉乔、蒂莫西·拉克鲁瓦、巴蒂斯特·罗齐埃、纳曼·戈亚尔、埃里克·汉布罗、费萨尔·阿扎尔等。Llama：开放高效的基础语言模型。arXiv 预印本 arXiv:2302.13971，2023年。
[34]Ramakrishna Vedantam、C Lawrence Zitnick 和 Devi Parikh。Cider：基于共识的图像描述评估。IEEE 计算机视觉和模式识别会议论文集，第 4566-4575 页，2015 年。
[35]王剑锋、杨正元、胡小伟、李林杰、林凯文、甘哲、刘子成、刘策和王丽娟。Git：用于视觉和语言的生成图像到文本转换器。arXiv 预印本 arXiv:2205.14100，2022年。
[36]王一中、Yeganeh Kordi、Swaroop Mishra、Alisa Liu、Noah A Smith、Daniel Khashabi 和 Hannaneh Hajishirzi。自指导：将语言模型与自生成的指令对齐。arXiv 预印本 arXiv:2212.10560，2022年。
[37]叶庆浩、徐海洋、徐国海、叶家波、严明、周一阳、王俊阳、胡安文、施鹏程、施亚亚等。mplug-owl：模块化使大型语言模型具有多模态性。arXiv 预印本 arXiv:2304.14178，2023年。
[38]赵鑫、周昆、李俊毅、唐天一、王晓蕾、侯玉鹏、敏前谦、张北辰、张俊杰、董子灿等。大型语言模型的调查。arXiv 预印本 arXiv:2303.18223 , 2023。
[39]朱德耀、陈军、沉小倩、李翔和穆罕默德·埃尔霍赛尼。Minigpt-4：通过先进的大语言模型增强视觉语言理解。arXiv 预印本 arXiv:2304.10592 , 2023。

附录A附录

A.1及时设计

A.1.1正例生成

我们在（i）图7、8、9和（ii ）图10、11、12中展示了输入提示的两个完整示例。在图7和图10中，我们首先展示了两个示例的图像，但它们不包含在GPT4的文本提示中。至于文本输入，我们利用真实边界框和密集标题来表示视觉内容，就好像 GPT4 可以看到图像一样。之后，我们从 16 个种子中随机选择 10 个任务，并要求 GPT4 为这些任务生成 20 个实例。另外，可以存在多个描述具有不同属性的同一对象的标题，例如图7中的“穿着长裙的女人”和“穿着黄色裙子的女人” 。尽管我们将每个标题的边界框坐标呈现给 GPT4，但很容易混淆，将它们视为两个实例，一个穿着长裙，另一个穿着黄色连衣裙。为了缓解这个问题，我们在提示中添加了“高度重叠的边界框可能引用同一对象”，以帮助 GPT4 更好地理解“视觉”输入。为了丰富指令，我们要求 GPT4 生成声明式和疑问式格式的实例。我们还明确指示 GPT4 “答案应少于 30 个单词”作为要求，以减少在训练数据中生成额外的不相关信息的机会。为了使GPT4的输出具有良好的格式，我们还要求GPT4在提示符末尾按顺序生成指令、答案和任务名称（图7和图10）。指令和答案的完整输出如图8、9和图11、12所示。我们还在图25、26、27中展示了来自不同LMM的输出的更多正面实例。

A.1.2负实例生成

我们在 (i) 图 13、14 和 (ii) 图 15、16 中展示了输入提示的两个完整示例。在图13和图15中，我们展示了图像以帮助读者更好地理解密集的字幕，但它们不包含在GPT4的文本提示中。我们利用边界框和密集的标题作为“视觉”输入。至于13中的不存在元素操作，我们要求GPT4生成6条不存在元素的指令（不存在的对象、不存在的活动、不存在的属性、不存在的交互）。至于15中的Existent Element Manipulation，我们要求GPT4生成6条属性错误的现有对象的指令。在文本提示的最后，我们要求 GPT4 生成一条指令和一个原因，解释该指令与图像顺序不一致的原因。原因被视为我们训练数据中指令的答案。图14和图16显示了 GPT4 的完整输出。我们还在图23、24中展示了来自不同 LMM 的输出的更多负面实例。。

A.1.3GAVIE Evaluation

我们在 (i)图17、18、19和( ii) 图20、21、22 中展示了GAVIE文本提示的两个完整示例。我们首先利用边界框和密集的标题作为“视觉”输入。我们在图18和图21中提供了来自不同模型的人类指令和响应。此外，我们要求 GPT4 假装成一位聪明的老师，根据图像内容和说明对答案进行评分（0-10）。有两个标准。(1)准确性：对于图像内容的响应是否准确。(2)相关性：响应是否直接遵循指令。之后需要GPT4按顺序生成一个分数和一个原因。图19和图22显示了 GAVIE 的完整评估输出。

A2GPT4 辅助视觉指令评估 (GAVIE)与人类评估

在本节中，我们通过人工评估深入了解GAVIE。在这里，我们从评估集中随机选择 40 个图像指令实例。人类评估由三位专门从事 NLP 领域的专家进行。调查问卷由 40 个问题组成，每个问题都是随机排列的。完成问卷平均需要 20 分钟左右。每个问题都包含一条说明、一张图像以及 4 个不同 LMM 的回答。我们为专家提供的说明如下：

“每一个问题都有一条指令、一张图像和几个答案。假设你是一位聪明的老师，请根据两个标准对答案进行评分。 (1)准确性：对于图像内容的回答是否准确。（2）相关性：回答是否直接遵循指令，没有不相关的答案。分数有四个选项（1）非常差，（2）差，（3）好，（4）优秀。

评估员	我们的	迷你GPT4	拉瓦	指导BLIP	MMGPT
专家1(1-4)	3.48	2.61	2.87	3.00	1.90
专家2(1-4)	3.58	2.23	2.07	2.48	1.05
专家3(1-4)	3.33	2.58	2.92	2.89	1.38
GAVIE-准确度 (0-10)	6.58	4.14	4.36	5.93	0.91
GAVIE-相关性 (0-10)	8.46	5.81	6.11	7.34	1.79

表 9：GAVIE 与人类评估。GAVIE 分数与专家评分大致一致。用红色、橙色、绿色、蓝色和洋红色突出显示的数字表示等级 1 到 5。

可以在此链接中找到调查问卷样本。为了定量评估结果，我们为选项分配不同的分数：非常差=1，差=2，好=3，优秀=4。从选项卡。如图 9 所示，所有专家都认为我们模型的输出是最好的，其次是 InstructBLIP，而 MMGPT 表现最差。该观察结果与GAVIE评估结果相似。尽管专家给出的 MiniGPT4 和 LLaVA 的排名顺序并不总是与GAVIE相同，但分配给它们的分数相当接近。一个可能的原因是 MiniGPT4 和 LLaVA 的答案往往更长，这使得人类评估它们更具挑战性。

参见标题