BigCodeBench: 继 HumanEval 之后的新一代代码生成测试基准

作者：繁依Fanyi0 | 2024-07-18 11:16:51

踩

HumanEval是一个用于评估大型语言模型 (LLM) 在代码生成任务中的参考基准，因为它使得对紧凑的函数级代码片段的评估变得容易。然而，关于其在评估 LLM 编程能力方面的有效性越来越多的担忧，主要问题是 HumanEval 中的任务太简单，可能不能代表真实世界的编程任务。相比于 HumanEval 中的算法导向任务，真实世界的软件开发通常涉及多样的库和函数调用。此外，LLM 在 HumanEval 上的表现还受污染和过拟合问题的影响，这使得其在评估 LLM 的泛化能力方面不够可靠。

HumanEvalhttps://github.com/openai/human-eval
污染和过拟合问题https://arxiv.org/abs/2403.07974

虽然已经有一些努力来解决这些问题，但它们要么是特定领域的、确定性的，要么是以大模型代理为中心的 (抱歉，DS-1000、ODEX和SWE-bench声明：本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有侵权的内容，请联系我们。转载请注明出处：【wpsshop博客】