General Reasoning的一项新研究测试了八款顶级AI模型在模拟英超投注场景中的表现,发现所有模型在一个赛季中均亏损,其中xAI的Grok表现最差。该研究突显了AI在现实世界长期预测任务中的局限性,尽管在其他领域有进步。Claude Opus平均亏损最小为11%,而Grok在一次尝试中破产。
背景
OpenAI和Google等公司的AI模型在代码生成等任务中表现出色,但它们在现实世界动态场景中的性能仍较少被测试。体育投注需要分析随时间变化的复杂数据,这对当前AI系统构成挑战。
- 来源
- Ars Technica
- 发布时间
- 2026年4月11日 19:15
- 评分
- 5.0 / 10