OpenAI宣布不再使用SWE-bench Verified评估前沿编码能力,认为其无法准确衡量先进AI性能。这一决定反映了当前AI基准测试的局限性,并可能影响未来的评估方法发展。
背景
SWE-bench是用于评估AI系统在软件工程任务上表现的基准测试,特别关注代码生成和问题解决能力。随着AI技术快速发展,现有基准测试常常无法准确衡量最先进的性能水平。
- 来源
- Hacker News (RSS)
- 发布时间
- 2026年4月26日 21:58
- 评分
- 6.0 / 10
OpenAI宣布不再使用SWE-bench Verified评估前沿编码能力,认为其无法准确衡量先进AI性能。这一决定反映了当前AI基准测试的局限性,并可能影响未来的评估方法发展。
SWE-bench是用于评估AI系统在软件工程任务上表现的基准测试,特别关注代码生成和问题解决能力。随着AI技术快速发展,现有基准测试常常无法准确衡量最先进的性能水平。