当前位置:   article > 正文

CharXiv:揭示多模态大语言模型在真实图表理解中的差距

charxiv

引言

图表理解在将多模态大语言模型(MLLMs)应用于实际任务中扮演着关键角色,如分析科学论文或财务报告。然而,现有的数据集往往专注于过于简化和同质化的图表,并采用模板化的问题,导致对进展的衡量过于乐观。研究表明,尽管开源模型在这些基准测试中似乎可以超越强大的专有模型,但对稍有不同的图表或问题进行简单的压力测试就可能使性能下降高达34.5%。

针对这一问题,本文提出了CharXiv,这是一个全面的评估套件,涉及2,323个来自arXiv论文的自然、具有挑战性和多样化的图表。CharXiv包括两类问题:

  1. 描述性问题:考察基本图表元素
  2. 推理问题:需要综合图表中复杂视觉元素的信息

为确保质量,所有图表和问题都经过人工专家的精心挑选、策划和验证。

研究结果揭示了一个重大的、此前被低估的差距:最强大的专有模型(即GPT-4o)在推理问题上达到47.1%的准确率,而最强大的开源模型(即InternVL Chat V1.5)仅达到29.2%。所有模型都远远落后于80.5%的人类表现,凸显了现有MLLMs在图表理解能力方面的不足。

CharXiv旨在通过提供更现实和可靠的进展衡量标准,促进未来MLLM图表理解的研究。

现有基准测试高估了图表理解能力

相关工作

现有的基准测试如FigureQA、DVQA、PlotQA等由于其人工合成的性质,无法完全捕捉到现实世界图表的复杂性和多样性,而ChartQA中的图表则缺乏视觉多样性。更近期的基准测试如MMC、ChartBench和ChartX也存在图表来源或多样性的问题。

这些基准测试在图表来源、问题类型、答案和验证方面都存在局限性:

  • 图表来源:多采用绘图软件合成或来自有限网站,缺乏视觉多样性
  • 问题类型:多采用固定模板生成问答对,缺乏变化
  • 答案与验证:部分仅评估是/否问题的表现,无法真实反映模型在自由形式问答中的表现

开源MLLMs对扰动敏感

许多开源模型已经适应了现有基准测试的训练集进行视觉指令微调,并在各自的评估集上表现出良好的性能。然而,由于这些基准测试缺乏多样性,评估数据与训练数据过于相似。因此,评估分数往往无法准确反映MLLMs的一般图表理解能力。

为验证这一点,我们对评估组件进行了简单修改,结果显示模型性能出现显著变化:

  • 在修改问题的情况下,SPHINX V2的性能从原始集的63.2%下降到28.7%,降幅高达34.5%
  • 在修改图表的情况下,大多数开源模型表现出明显的性能下降,而专有模型则保持相对稳定

这些发现表明,现有基准测试的设计策略导致了对开源模型图表理解能力的高估。我们推测,训练和评估数据集过于相似,使得模型看似具有良好的泛化能力,但实际上对简单修改并不稳健。

CharXiv:一个真实世界和具有挑战性的图表理解基准

CharXiv是一个全面而具有挑战性的图表理解基准,完全源自真实世界的图表。我们从arXiv预印本中选择多样化、自然出现且复杂的图表,并手动构建需要密集视觉和数值分析的描述性和推理问题。

CharXiv包含2,323个图表,每个图表配有多个问题,总共超过10,000个问题-答案对。我们随机抽取1,000个图表作为验证集,其余作为测试集。

图表策划

图表来源:我们下载了从2020年1月到2023年9月期间发表在arXiv上的八个学科领域的所有预印本,并从源文件中提取图片。所有图片都被重新渲染为高分辨率JPEG格式,图片的较长边重新调整为1024像素。

图表选择:我们定义图表为任何视觉化展示数据的图形。我们采用四步选择流程来识别图表并促进视觉多样性:

  1. 利用预训练的SigLIP视觉编码器识别候选图片
  2. 招募有经验的研究生手动从候选集中选择图表
  3. 移除与其他候选图表具有高相似度的图表
  4. 移除标记不清晰或模糊的图表

经过这个四步流程,我们最终获得了2,323个图表。

问题构建

我们构建了两类问题:描述性问题和推理问题。

描述性问题:我们设计了19个模板来评估模型提取和汇总图表基本信息的能力,包括:

  • 识别基本信息(如标题、轴标签、图例标签、刻度标签等)
  • 汇总图表信息(如计数刻度、识别数据模式、枚举标签等)

这些问题分为五组:信息提取、枚举、模式识别、计数和组合性。

尽管描述性问题旨在比推理问题更容易,但由于图表的复杂性,它们仍然可能具有挑战性。例如,回答有多个子图的图表的描述性问题需要模型首先识别相关子图,然后理解子图之间的关系以提取正确信息。

我们为每个图表配对四个描述性问题,其中一个故意设计为无法回答的问题,即请求的信息不存在或不适用于图表中的目标子图。

推理问题:我们为每个图表手工制作一个推理问题,以评估模型进行视觉和数值推理的能力。为确保数据质量,我们招募研究生作为注释者。注释者根据GPT-4V生成的样例问题进行选择、修改或创建新问题。

推理问题必须有明确和明确的答案,并严格遵守以下四种类型之一:

  • 图表中的文本:答案是图表中找到的一段文字
  • 一般文本:答案是一个易于验证的短语,不一定在图表中
  • 图表中的数字:答案是图表上写的数值
  • 一般数字:答案需要一个精确的数值,不一定在图表中找到,但要指定精度

值得注意的是,我们的推理问题设计只需要视觉和数值推理,无需高级领域特定知识或访问图表说明和引用段落。这使CharXiv与其他需要额外专业知识的数据集有所不同。

评估指标

由于CharXiv的答案性质明确,因此适合自动评分。考虑到许多图表包含可以用不同方式输入的希腊符号和数学符号,我们选择使用GPT-4o提取答案并根据正确性分配二元分数,而不是采用精确匹配。这种GPT辅助评估已在许多成熟的基准测试中得到广泛应用。

实验

实验设置

模型:我们评估了一系列通用多模态大语言模型(MLLMs),这些模型能够处理分辨率不低于448×448的输入,并在MathVista的testmini集上获得至少36分。我们测试了13个开源模型和11个专有模型。

基线:我们提供了一个仅文本的基线(Random (GPT-4o)),其中我们提示GPT-4o在不看图表的情况下合理猜测答案。我们还招募了内部人员参与者,并报告了他们在CharXiv上的表现(Human)。

实验结果

所有模型在推理问题上都存在困难:

  • 表现最好的模型GPT-4o仅正确回答了47.1%的推理问题,与人类表现80.5%相比存在33.4%的差距
  • 最强大的开源模型InternVL Chat V1.5仅正确回答了29.2%的推理问题,突显了领先专有模型和开源模型之间的巨大差距
  • 其他开源模型正确回答推理问题的比例均不超过25%

开源模型在描述性问题上仍然存在困难:

  • 领先的专有模型GPT-4o在回答描述性问题方面表现出色,仅落后人类表现7.65%
  • 表现最好的开源模型InternVL Chat V1.5与GPT-4o相比下降了25.95%
  • 大多数开源模型正确回答描述性问题的比例不到50%

分析

描述能力是推理的先决条件:

  • 具有强大推理能力的模型也展现出强大的描述能力,但反之则不成立
  • 一些模型利用零样本思维链(CoT)推理来回答推理问题,但当模型无法准确描述图表时,这种CoT可能无效
  • 量化分析表明,对于描述性问题准确率低的模型,更长的回答(可能包含更多CoT痕迹)可能会对推理问题的表现产生负面影响

模型在人类容易完成的组合任务上存在困难:

  • 计算x轴和y轴上标记刻度的数量是区分领先开源模型、表现最好的专有模型和人类能力最显著的描述性任务
  • 虽然计数对人类来说很容易,但在这项特定任务上,24个模型中有20个的准确率低于10%(随机基线为5.35%)

弱模型无法识别无法回答的问题:

  • CharXiv首次在图表理解中引入了无法回答的问题
  • 25%的描述性问题被设计为无法回答
  • 准确率低于80%的模型在识别和适当回应无法回答的问题时表现出独特的失败模式

描述能力随子图数量增加而下降:

  • 开源和专有模型在回答包含更多子图的图表的描述性问题时都存在困难
  • 当子图数量达到6个或更多时,开源模型的性能下降30%-50%,而专有模型仅下降10%-30%
  • 这表明所有MLLMs在处理具有更多子图的图表的描述性查询方面较弱,且这种性能下降在开源模型中更为明显

模型在不同学科领域的表现各不相同:

  • 所有模型在物理相关图表上的描述能力一致较弱,而在包含电气工程和系统科学、量化金融和经济数据的图表上表现更强
  • 模型在不同学科领域的推理能力表现出独特的模式,没有明显的规律
  • 最强大的开源模型InternVL Chat V1.5在数学领域的图表推理问题上与GPT-4V相匹配,但在其他领域明显落后

结论

图表理解是MLLMs的一项关键视觉推理技能,但我们的简单压力测试揭示,现有基准测试的设计缺陷导致了对图表理解能力的高估。CharXiv通过提供更自然、更具挑战性的基准测试,揭示了人类、专有模型和开源模型之间明显的性能差距。

尽管CharXiv不需要高级领域特定知识,但人类在推理和描述性问题上的准确率仅为80.5%和92.1%。这可能是由于自动评分问题或人类评估研究中参与者的错误。然而,考虑到现有MLLMs与人类之间的巨大性能差距,我们相信CharXiv是衡量图表理解能力的一个有洞察力的指标。

CharXiv作为一个全面的评估套件,旨在促进MLLM图表理解的未来研究,提供更现实和可靠的进展衡量标准。通过揭示现有模型在处理复杂、多样化图表时的局限性,CharXiv为改进MLLMs的图表理解能力指明了方向。

参考文献

[1] OpenAI. GPT-4 Technical Report. 2023.

[9] Wang, L., et al. InternVL: Scaling up Vision-Language Pre-training for Universal Visual Understanding. 2023.

[25] Kafle, K., et al. DVQA: Understanding Data Visualizations via Question Answering. CVPR, 2018.

[26] Kahou, S.E., et al. FigureQA: An Annotated Figure Dataset for Visual Reasoning. ICLR Workshop, 2018.

[37] Zheng, C., et al. MiniGPT-4: Enhancing Vision-Language Understanding with Advanced Large Language Models. 2023.

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/一键难忘520/article/detail/888571
推荐阅读
相关标签
  

闽ICP备14008679号