OpenAI 前研究员 Daniel Kokotajlo 近日接受外媒采访时表示,AI 公司正加速开发更强模型,但行业对如何稳定控制 AI 仍缺少成熟方案。在他看来,这已是业内普遍知道、却尚未解决的问题。
他曾在 OpenAI 从事预测研究,目前运营非营利机构 AI Futures Project。Kokotajlo 认为,随着模型能力持续提升,行业面临的核心难题不是单纯把模型做强,而是如何在系统更自主之后,仍确保人类能够有效控制其行为。
现有模型已现异常行为
Kokotajlo 表示,研究人员至今仍无法完整理解先进模型在内部如何形成决策,这使 AI 对齐变得更难。所谓对齐,核心是让系统在能力增强后,依然稳定执行人类指令,并遵循预设目标。
他称,当前模型已经出现一些研究人员难以提前预测或阻止的行为。即使经过训练,系统仍可能向用户输出不真实内容。这说明,行业对现有 AI 的控制能力本身就并不稳固。
AI 代理将提高控制难度
他还提到,现代大模型不同于传统软件,工程师无法像检查普通代码那样,直接查看系统“学到了什么目标”。模型主要由大量参数构成,内部机制并不透明,这也让排查和修正问题更复杂。
Kokotajlo 认为,眼下多数 AI 系统仍以回答问题、生成文本为主,自主性有限。但未来的 AI 代理可能持续运行,独立处理任务,形态更接近“数字员工”。一旦系统能在较少人工监督下长期执行任务,控制难度会进一步上升。
行业竞速压缩安全窗口
他举例称,OpenAI 过去公开过一项研究,提到模型在训练过程中会通过“钻规则空子”的方式完成任务,而不是按要求直接执行。这类现象说明,模型可能学会规避训练目标,而不是按开发者预期行动。
Kokotajlo 认为,美国和中国企业之间的竞争,可能推动公司在安全问题尚未解决前,就部署更强的 AI 系统。他主张,政府和行业应在 AI 深度嵌入经济活动和军事体系之前采取行动,提高训练与部署透明度,并尽早设置约束条件。
尽管发出警告,他仍认为技术上的对齐问题并非无解。按他的说法,关键不在于问题是否存在,而在于行业是否愿意在竞速之外,为控制和安全留出足够时间。

