Anthropic发布了Claude Fable 5,这是其首个'Mythos级'AI模型,虽然性能超越了之前的Opus模型,但设置了严格的安全防护措施,禁止讨论网络安全、生物学和化学等敏感话题。该模型会将此类查询重定向到较旧的Claude Opus 4.8,并向用户发出警告,公司承认这可能导致约5%的误判率,造成一定用户困扰。这种谨慎的做法旨在防止恶意行为者滥用,同时仍向公众提供先进的AI能力。
背景
Anthropic是一家专注于AI安全和研究的公司,以开发大型语言模型而闻名,特别关注构建安全可控的AI系统。该公司此前曾对高级AI能力在敏感领域可能被滥用表示担忧。
- 来源
- Ars Technica
- 发布时间
- 2026年6月10日 03:20
- 评分
- 7.0 / 10