当前位置:   article > 正文

BigCodeBench: 继 HumanEval 之后的新一代代码生成测试基准

BigCodeBench: 继 HumanEval 之后的新一代代码生成测试基准

HumanEval是一个用于评估大型语言模型 (LLM) 在代码生成任务中的参考基准,因为它使得对紧凑的函数级代码片段的评估变得容易。然而,关于其在评估 LLM 编程能力方面的有效性越来越多的担忧,主要问题是 HumanEval 中的任务太简单,可能不能代表真实世界的编程任务。相比于 HumanEval 中的算法导向任务,真实世界的软件开发通常涉及多样的库和函数调用。此外,LLM 在 HumanEval 上的表现还受污染和过拟合问题的影响,这使得其在评估 LLM 的泛化能力方面不够可靠。

  • HumanEvalhttps://github.com/openai/human-eval

  • 污染和过拟合问题https://arxiv.org/abs/2403.07974

虽然已经有一些努力来解决这些问题,但它们要么是特定领域的、确定性的,要么是以大模型代理为中心的 (抱歉,DS-1000、ODEX和SWE-bench声明:本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:【wpsshop博客】

推荐阅读
相关标签