赞
踩
图表理解在将多模态大语言模型(MLLMs)应用于实际任务中扮演着关键角色,如分析科学论文或财务报告。然而,现有的数据集往往专注于过于简化和同质化的图表,并采用模板化的问题,导致对进展的衡量过于乐观。研究表明,尽管开源模型在这些基准测试中似乎可以超越强大的专有模型,但对稍有不同的图表或问题进行简单的压力测试就可能使性能下降高达34.5%。
针对这一问题,本文提出了CharXiv,这是一个全面的评估套件,涉及2,323个来自arXiv论文的自然、具有挑战性和多样化的图表。CharXiv包括两类问题:
为确保质量,所有图表和问题都经过人工专家的精心挑选、策划和验证。
研究结果揭示了一个重大的、此前被低估的差距:最强大的专有模型(即GPT-4o)在推理问题上达到47.1%的准确率,而最强大的开源模型(即InternVL Chat V1.5)仅达到29.2%。所有模型都远远落后于80.5%的人类表现,凸显了现有MLLMs在图表理解能力方面的不足。
CharXiv旨在通过提供更现实和可靠的进展衡量标准,促进未来MLLM图表理解的研究。
现有的基准测试如FigureQA、DVQA、PlotQA等由于其人工合成的性质,无法完全捕捉到现实世界图表的复杂性和多样性,而ChartQA中的图表则缺乏视觉多样性。更近期的基准测试如MMC、ChartBench和ChartX也存在图表来源或多样性的问题。
这些基准测试在图表来源、问题类型、答案和验证方面都存在局限性:
许多开源模型已经适应了现有基准测试的训练集进行视觉指令微调,并在各自的评估集上表现出良好的性能。然而,由于这些基准测试缺乏多样性,评估数据与训练数据过于相似。因此,评估分数往往无法准确反映MLLMs的一般图表理解能力。
为验证这一点,我们对评估组件进行了简单修改,结果显示模型性能出现显著变化:
这些发现表明,现有基准测试的设计策略导致了对开源模型图表理解能力的高估。我们推测,训练和评估数据集过于相似,使得模型看似具有良好的泛化能力,但实际上对简单修改并不稳健。
CharXiv是一个全面而具有挑战性的图表理解基准,完全源自真实世界的图表。我们从arXiv预印本中选择多样化、自然出现且复杂的图表,并手动构建需要密集视觉和数值分析的描述性和推理问题。
CharXiv包含2,323个图表,每个图表配有多个问题,总共超过10,000个问题-答案对。我们随机抽取1,000个图表作为验证集,其余作为测试集。
图表来源:我们下载了从2020年1月到2023年9月期间发表在arXiv上的八个学科领域的所有预印本,并从源文件中提取图片。所有图片都被重新渲染为高分辨率JPEG格式,图片的较长边重新调整为1024像素。
图表选择:我们定义图表为任何视觉化展示数据的图形。我们采用四步选择流程来识别图表并促进视觉多样性:
经过这个四步流程,我们最终获得了2,323个图表。
我们构建了两类问题:描述性问题和推理问题。
描述性问题:我们设计了19个模板来评估模型提取和汇总图表基本信息的能力,包括:
这些问题分为五组:信息提取、枚举、模式识别、计数和组合性。
尽管描述性问题旨在比推理问题更容易,但由于图表的复杂性,它们仍然可能具有挑战性。例如,回答有多个子图的图表的描述性问题需要模型首先识别相关子图,然后理解子图之间的关系以提取正确信息。
我们为每个图表配对四个描述性问题,其中一个故意设计为无法回答的问题,即请求的信息不存在或不适用于图表中的目标子图。
推理问题:我们为每个图表手工制作一个推理问题,以评估模型进行视觉和数值推理的能力。为确保数据质量,我们招募研究生作为注释者。注释者根据GPT-4V生成的样例问题进行选择、修改或创建新问题。
推理问题必须有明确和明确的答案,并严格遵守以下四种类型之一:
值得注意的是,我们的推理问题设计只需要视觉和数值推理,无需高级领域特定知识或访问图表说明和引用段落。这使CharXiv与其他需要额外专业知识的数据集有所不同。
由于CharXiv的答案性质明确,因此适合自动评分。考虑到许多图表包含可以用不同方式输入的希腊符号和数学符号,我们选择使用GPT-4o提取答案并根据正确性分配二元分数,而不是采用精确匹配。这种GPT辅助评估已在许多成熟的基准测试中得到广泛应用。
模型:我们评估了一系列通用多模态大语言模型(MLLMs),这些模型能够处理分辨率不低于448×448的输入,并在MathVista的testmini集上获得至少36分。我们测试了13个开源模型和11个专有模型。
基线:我们提供了一个仅文本的基线(Random (GPT-4o)),其中我们提示GPT-4o在不看图表的情况下合理猜测答案。我们还招募了内部人员参与者,并报告了他们在CharXiv上的表现(Human)。
所有模型在推理问题上都存在困难:
开源模型在描述性问题上仍然存在困难:
描述能力是推理的先决条件:
模型在人类容易完成的组合任务上存在困难:
弱模型无法识别无法回答的问题:
描述能力随子图数量增加而下降:
模型在不同学科领域的表现各不相同:
图表理解是MLLMs的一项关键视觉推理技能,但我们的简单压力测试揭示,现有基准测试的设计缺陷导致了对图表理解能力的高估。CharXiv通过提供更自然、更具挑战性的基准测试,揭示了人类、专有模型和开源模型之间明显的性能差距。
尽管CharXiv不需要高级领域特定知识,但人类在推理和描述性问题上的准确率仅为80.5%和92.1%。这可能是由于自动评分问题或人类评估研究中参与者的错误。然而,考虑到现有MLLMs与人类之间的巨大性能差距,我们相信CharXiv是衡量图表理解能力的一个有洞察力的指标。
CharXiv作为一个全面的评估套件,旨在促进MLLM图表理解的未来研究,提供更现实和可靠的进展衡量标准。通过揭示现有模型在处理复杂、多样化图表时的局限性,CharXiv为改进MLLMs的图表理解能力指明了方向。
[1] OpenAI. GPT-4 Technical Report. 2023.
[9] Wang, L., et al. InternVL: Scaling up Vision-Language Pre-training for Universal Visual Understanding. 2023.
[25] Kafle, K., et al. DVQA: Understanding Data Visualizations via Question Answering. CVPR, 2018.
[26] Kahou, S.E., et al. FigureQA: An Annotated Figure Dataset for Visual Reasoning. ICLR Workshop, 2018.
[37] Zheng, C., et al. MiniGPT-4: Enhancing Vision-Language Understanding with Advanced Large Language Models. 2023.
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。