E-Ink 新闻日报

返回列表

SWE-bench Verified不再衡量前沿编码能力

OpenAI宣布不再使用SWE-bench Verified评估前沿编码能力,认为其无法准确衡量先进AI性能。这一决定反映了当前AI基准测试的局限性,并可能影响未来的评估方法发展。

背景

SWE-bench是用于评估AI系统在软件工程任务上表现的基准测试,特别关注代码生成和问题解决能力。随着AI技术快速发展,现有基准测试常常无法准确衡量最先进的性能水平。

来源
Hacker News (RSS)
发布时间
2026年4月26日 21:58
评分
6.0 / 10