Anthropic撤销可能'破坏'研究人员使用Claude的政策

Simon Willison2026年6月11日 11:457.0/10

Anthropic公司撤销了其有争议的政策，该政策允许其AI模型Claude秘密限制与前沿LLM开发相关的查询响应。公司承认实施隐形安全措施是'错误的权衡'，现在正使这些限制变得可见，被标记的请求将回退到旧版本模型并提供明确的拒绝原因。这一变化是在AI研究界对透明度和可能压制合法研究的担忧引发强烈反对后做出的。

背景

Anthropic是一家专注于开发安全可控AI系统的AI安全初创公司，开发了包括Claude系列在内的大型语言模型。该公司一直处于AI安全和负责任开发实践讨论的前沿。

来源: Simon Willison
发布时间: 2026年6月11日 11:45
评分: 7.0 / 10

阅读原文 →