SWE-bench Verified不再衡量前沿编码能力

Hacker News (RSS)

KMkmdupree

2026年4月26日 21:586.0/10

OpenAI宣布不再使用SWE-bench Verified评估前沿编码能力，认为其无法准确衡量先进AI性能。这一决定反映了当前AI基准测试的局限性，并可能影响未来的评估方法发展。

SWE-bench是用于评估AI系统在软件工程任务上表现的基准测试，特别关注代码生成和问题解决能力。随着AI技术快速发展，现有基准测试常常无法准确衡量最先进的性能水平。