文章详情

XM交易:Datadog基准测试显示:AI仍难替代值班工程师

币界网报道:

Datadog与卡内基梅隆大学联合推出一项真实故障基准,专门测试AI能否在生产事故中接手值班工程师的工作。结果显示,当前领先模型仍未超过人类专家,尤其是在跨指标判断和故障归因上差距明显。

真实故障做成基准

ARFBench全称为 Anomaly Reasoning Framework Benchmark。它基于 63 起真实生产事故整理而成,题目来自工程师在紧急排障时的 Slack 讨论。整个数据集包含 750 道选择题,覆盖 142 项监控指标和 538 万个数据点,且全部经过人工核验。

研究团队表示,这类问题正是事故响应中的核心环节。基准题目分为三层:先判断图表里是否存在异常,再识别异常何时开始、严重程度如何,最后进入最难的跨指标推理,判断一个指标是否在驱动另一个指标的异常。

顶级模型仍落后于人类

在这项测试中,GPT-5 的总准确率为 62.7%,Gemini 3 Pro 为 58.1%,Claude Opus 4.6 为 54.8%,Claude Sonnet 4.5 为 47.2%。其中,Tier III 题目最难,GPT-5 的 F1 只有 47.5%。

人类表现仍然更好。领域专家的准确率达到 72.7%,没有深度运维经验的 Datadog 时间序列研究人员也有 69.7%。这意味着,没有任何 AI 模型跑赢两组人类基线。

人机协作上限更高

榜单第一名并不是通用大模型,而是 Datadog 的内部时间序列模型 Toto 与 Qwen3-VL 32B 的组合。实验版本 Toto-1.0-QA-Experimental 准确率为 63.9%,略高于 GPT-5。它在异常识别任务上的 F1 也领先其他模型至少 8.8 个百分点。

研究团队还指出,模型和人类的错误类型并不相同。AI 更容易出现幻觉、遗漏元数据、丢失上下文;人类则更容易看错时间戳,或在复杂指令上出错。若把两者结合,理论上的“Model-Expert Oracle”可把准确率提升到 87.2%,F1 提升到 82.8%。