开源CLI代理Dirac在TerminalBench基准测试中以65.2%的得分获得第一名,超越了谷歌官方代理(47.8%)和之前的闭源领先者Junie CLI(64.3%)。开发者强调实现完全合规且没有任何作弊机制,凸显了正确基准测试框架设计的重要性。这一成就展示了终端AI代理和开源AI能力的显著进步。
背景
TerminalBench是评估AI代理在终端环境中性能的基准测试,近期存在关于排行榜提交作弊的担忧。AI代理领域正在快速发展,开源和专有解决方案在性能上展开竞争。
- 来源
- Hacker News (RSS)
- 发布时间
- 2026年4月27日 20:35
- 评分
- 7.0 / 10