XM交易：Datadog基准测试显示：AI仍难替代值班工程师

币界网报道：

Datadog与卡内基梅隆大学联合推出一项真实故障基准，专门测试AI能否在生产事故中接手值班工程师的工作。结果显示，当前领先模型仍未超过人类专家，尤其是在跨指标判断和故障归因上差距明显。

真实故障做成基准

ARFBench全称为 Anomaly Reasoning Framework Benchmark。它基于 63 起真实生产事故整理而成，题目来自工程师在紧急排障时的 Slack 讨论。整个数据集包含 750 道选择题，覆盖 142 项监控指标和 538 万个数据点，且全部经过人工核验。

研究团队表示，这类问题正是事故响应中的核心环节。基准题目分为三层：先判断图表里是否存在异常，再识别异常何时开始、严重程度如何，最后进入最难的跨指标推理，判断一个指标是否在驱动另一个指标的异常。

顶级模型仍落后于人类

在这项测试中，GPT-5 的总准确率为 62.7%，Gemini 3 Pro 为 58.1%，Claude Opus 4.6 为 54.8%，Claude Sonnet 4.5 为 47.2%。其中，Tier III 题目最难，GPT-5 的 F1 只有 47.5%。

人类表现仍然更好。领域专家的准确率达到 72.7%，没有深度运维经验的 Datadog 时间序列研究人员也有 69.7%。这意味着，没有任何 AI 模型跑赢两组人类基线。

人机协作上限更高

榜单第一名并不是通用大模型，而是 Datadog 的内部时间序列模型 Toto 与 Qwen3-VL 32B 的组合。实验版本 Toto-1.0-QA-Experimental 准确率为 63.9%，略高于 GPT-5。它在异常识别任务上的 F1 也领先其他模型至少 8.8 个百分点。

研究团队还指出，模型和人类的错误类型并不相同。AI 更容易出现幻觉、遗漏元数据、丢失上下文；人类则更容易看错时间戳，或在复杂指令上出错。若把两者结合，理论上的“Model-Expert Oracle”可把准确率提升到 87.2%，F1 提升到 82.8%。