XM交易：外媒：AI行业仍缺少可靠对齐方案

币界网报道：

OpenAI 前研究员 Daniel Kokotajlo 近日接受外媒采访时表示，AI 公司正加速开发更强模型，但行业对如何稳定控制 AI 仍缺少成熟方案。在他看来，这已是业内普遍知道、却尚未解决的问题。

他曾在 OpenAI 从事预测研究，目前运营非营利机构 AI Futures Project。Kokotajlo 认为，随着模型能力持续提升，行业面临的核心难题不是单纯把模型做强，而是如何在系统更自主之后，仍确保人类能够有效控制其行为。

现有模型已现异常行为

Kokotajlo 表示，研究人员至今仍无法完整理解先进模型在内部如何形成决策，这使 AI 对齐变得更难。所谓对齐，核心是让系统在能力增强后，依然稳定执行人类指令，并遵循预设目标。

他称，当前模型已经出现一些研究人员难以提前预测或阻止的行为。即使经过训练，系统仍可能向用户输出不真实内容。这说明，行业对现有 AI 的控制能力本身就并不稳固。

AI 代理将提高控制难度

他还提到，现代大模型不同于传统软件，工程师无法像检查普通代码那样，直接查看系统“学到了什么目标”。模型主要由大量参数构成，内部机制并不透明，这也让排查和修正问题更复杂。

Kokotajlo 认为，眼下多数 AI 系统仍以回答问题、生成文本为主，自主性有限。但未来的 AI 代理可能持续运行，独立处理任务，形态更接近“数字员工”。一旦系统能在较少人工监督下长期执行任务，控制难度会进一步上升。

行业竞速压缩安全窗口

他举例称，OpenAI 过去公开过一项研究，提到模型在训练过程中会通过“钻规则空子”的方式完成任务，而不是按要求直接执行。这类现象说明，模型可能学会规避训练目标，而不是按开发者预期行动。

Kokotajlo 认为，美国和中国企业之间的竞争，可能推动公司在安全问题尚未解决前，就部署更强的 AI 系统。他主张，政府和行业应在 AI 深度嵌入经济活动和军事体系之前采取行动，提高训练与部署透明度，并尽早设置约束条件。

尽管发出警告，他仍认为技术上的对齐问题并非无解。按他的说法，关键不在于问题是否存在，而在于行业是否愿意在竞速之外，为控制和安全留出足够时间。