文章总结了大型语言模型(LLM)在过去六个月的关键发展,重点介绍了OpenAI、Anthropic和谷歌等主要AI提供商之间的激烈竞争。文章聚焦于2025年11月的'转折点',当时模型的编码能力显著提升,GPT-5.1、Gemini 3和Claude Opus 4.5等模型快速迭代超越。作者使用独特的'鹈鹕骑自行车'测试来说明模型差异,并指出通过'可验证奖励的强化学习',编码代理能力有了显著提升。
背景
大型语言模型正在快速发展,各大科技公司竞相开发最具能力的模型,特别是在编码等专业领域。该领域频繁出现模型更新和能力提升。
- 来源
- Simon Willison
- 发布时间
- 2026年5月19日 09:09
- 评分
- 6.0 / 10