Anthropic 已就 Claude Fable 5 的隐藏式限制措施致歉,并宣布从本周起调整处理方式。此前,部分请求一旦被系统判定涉及前沿大模型开发,模型会在不提示用户的情况下直接降低回答质量,引发 AI 研究社区强烈反弹。
触发限制后将明确提示
按照最新安排,被标记的请求将不再收到“看起来正常、实际被削弱”的回答,而是直接切换到能力较弱的 Claude Opus 4.8。Anthropic 表示,API 用户还会看到拒绝或切换的具体原因,相关服务端提示将在未来几天内陆续上线。
公司在 X 平台表示,之所以此前采用隐藏式限制,是因为这种方式可以更窄地锁定目标场景,并减少误伤。但公司现在承认,这一取舍并不合适,用户应当知道系统启用了哪些限制,以及限制触发的原因。
争议集中在无提示降级
这次风波的焦点,不是模型拒绝回答,而是在某些场景下“悄悄变差”。根据 Anthropic 披露的系统卡内容,如果 Claude Fable 5 识别到用户可能在进行预训练、分布式训练基础设施建设,或机器学习芯片设计等工作,模型可能通过修改提示、调整引导方式等手段,输出质量更低的结果。
问题在于,用户无法知道自己拿到的是否还是完整能力版本。对研究人员来说,这会直接影响实验复现和结果判断:一次失败,究竟是研究假设有问题,还是模型被系统暗中限制,外部很难分辨。
新方案仍有代价
Anthropic 也承认,限制措施一旦变得可见,就更容易被用户绕开。因此,为了维持效果,分类器可能需要扩大识别范围,这意味着短期内误判数量可能上升,部分正常的机器学习研究请求也可能被改道到旧模型。
公司称,正在尽快降低误判率,但没有给出明确时间表。除大模型开发相关限制外,Anthropic 还表示,将同步调整生物和网络安全相关分类器。这两个方向此前也曾因误伤无害研究请求而受到批评。
补充信息:AI 研究机构 SemiAnalysis 此前公开批评称,其 GPU 推理研究相关内容也被系统标记。Claude Fable 5 目前仍向 Pro、Max、Team 和 Enterprise 套餐用户免费开放至 6 月 22 日,之后将转为仅通过 API 积分使用。

