E-Ink 新闻日报

返回列表

开源代理Dirac在Gemini-3-flash-preview的TerminalBench测试中夺冠

开源CLI代理Dirac在TerminalBench基准测试中以65.2%的得分获得第一名,超越了谷歌官方代理(47.8%)和之前的闭源领先者Junie CLI(64.3%)。开发者强调实现完全合规且没有任何作弊机制,凸显了正确基准测试框架设计的重要性。这一成就展示了终端AI代理和开源AI能力的显著进步。

背景

TerminalBench是评估AI代理在终端环境中性能的基准测试,近期存在关于排行榜提交作弊的担忧。AI代理领域正在快速发展,开源和专有解决方案在性能上展开竞争。

来源
Hacker News (RSS)
发布时间
2026年4月27日 20:35
评分
7.0 / 10