LLM 委托工作会毁掉你的文档：DELEGATE-52 基准测试揭示 AI 编码 Agent 的隐藏风险

May 10, 2026 8 min read

如果你正在把文档编辑交给 AI 代理，有一个坏消息：它可能在无声地破坏你的内容。

一项涵盖 52 个专业领域的大规模研究发现，即使是最先进的 LLM（如 Gemini 3.1 Pro、Claude 4.6 Opus 和 GPT 5.4），在长委托工作流中也会平均损坏约 25% 的文档内容。更令人担忧的是：这些错误是稀疏的、严重的，而且会静默累积。

这篇论文 "LLMs Corrupt Your Documents When You Delegate" 由 Philippe Laban 等人撰写，刚刚登上 Hacker News 热榜（272 分，103 条评论），在 AI 开发社区引发激烈讨论。

DELEGATE-52：模拟真实的委托场景

研究团队创建了一个名为 DELEGATE-52 的基准测试，用来模拟我们日常使用 AI 的方式——不是问一个问题就走，而是把任务委托给 AI 让它自己完成。

基准测试覆盖了 52 个专业领域，包括：

软件开发：代码重构、文档更新、API 迁移
科学研究：论文修改、实验记录整理
创作与设计：音乐编辑、剧本修改、设计文档
商业与金融：合同审核、财务报表调整
晶体学：结构数据格式维护

每个任务都模拟了一个长委托工作流：AI 需要对一份文档进行一系列连续的编辑操作，类似真实场景中的人类工作方式。

关键发现：AI 不可靠的真相

1. 前沿模型的惊人失败率

研究团队测试了 19 个模型，结果令人担忧：

Gemini 3.1 Pro：约 25% 内容在长工作流后被损坏
Claude 4.6 Opus：同样约 25% 的内容出错
GPT 5.4：结果类似，部分情况下更差
较小模型：失败率更高，有些超过 50%

这不是小问题。如果 AI 在 4 个编辑步骤中搞砸了 1 个，而你恰好没检查那个部分——文档就坏了，而且你可能很久以后才发现。

2. 工具调用解决不了问题

一个反直觉的发现：启用 agentic tool use（让 AI 使用工具完成操作）并没有改善 DELEGATE-52 上的表现。这意味着问题不在于"AI 不会用工具"，而在于核心的语言理解和生成能力存在局限。

这对"给 AI 配上 MCP 工具链就能解决一切问题"的说法是个沉重打击。工具可以扩展能力，但不能弥补可靠性。

3. 出错率随工作增长而恶化

研究揭示了三个会加剧文档损坏的因素：

文档越大，损坏越多——长文档中 AI 出错的概率显著增加
交互越长，问题越多——多轮编辑后错误会不断累积
干扰文件越多，AI 越困惑——工作环境中无关文件的存在会放大错误率

这意味着你越依赖 AI 处理大型文档，犯错的概率就越高。

4. 删除 vs 破坏：两者的不同

论文进一步分析了 AI 出错的方式：

较弱模型倾向于删除内容——直接丢失信息
前沿模型的损伤更多是破坏——内容还在，但被改了，可能改成错误的了

删除是可见的，你容易发现。但破坏更难察觉——文档看起来正常，但具体数字被改了，逻辑被扭曲了，专业术语被替换了。这在代码场景中尤其危险：代码语法正确，但逻辑错误。

与"vibe coding"热潮的关联

这篇论文紧密关联 2026 年席卷开发者社区的"vibe coding"趋势。越来越多的开发者让 AI Agent 直接修改代码库，而自己只做高层面审查。

如果你的 AI 编码 Agent 在不知不觉中破坏了 25% 的文件——这在代码库中可能意味着：

函数签名被改但调用处没更新
类型注解被删除或改错
配置文件的值被意外修改
注释和文档与实际代码不同步

更可怕的是，大多数 CI/CD 流水线不会检查这些——它们只检查语法和测试是否通过。

你的测试覆盖了"文档损坏"的检查吗？这是一个值得思考的问题。传统软件工程中，文档不正确只是"麻烦"。但在 vibe coding 范式下，AI 可能同时修改代码和文档——如果两边都坏了，你就没有参考基准了。

实践建议：如何降低 AI 文档委托的风险

1. 使用版本控制 + 差异审查

无论用 AI 修改什么，确保所有变更都在 Git 版本控制下。提交前用 git diff 仔细审查每一处修改。让 AI 一次只改一个小部分，然后审查，而不是一次改完整个文件。

2. 分步委托，不要全权委托

把大任务分解成小步骤。每委托一步就检查一下结果。如果发现错误，立即纠正并重新调整提示。

3. 建立自动化检查

对文档设置额外的验证步骤：

对代码文件：确保编译通过、lint 检查通过
对配置文件：使用 schema 验证
对文档：使用 diff 工具比较改动范围
对 JSON/YAML 数据：验证格式和完整性

4. 让 AI 解释它改了什么

不要只让 AI 改文档，还要让它输出一份变更摘要："我修改了文件 X 的第 Y 行，把 Z 改成了 W，原因是..."。这份摘要有助于审查。

5. 关键工作仍需要人工验证

某些文档不值得让其经过 AI：

生产环境配置——一个错误数字可能导致灾难
财务数据——准确率必须 100%
法律文件——错误的措辞可能有法律责任
加密和安全凭证——AI 不应该改动这些

论文的方法论亮点

DELEGATE-52 引入了一个新颖的评估方法——回译（backtranslation）。核心思路很简单：给 AI 一份文档和一个编辑任务，让它执行。然后，独立地让另一个模型尝试反转这个编辑。如果能完美恢复到原始文档，说明编辑没出问题。如果恢复失败，说明文档被破坏了。

这种参考标准无关的评估方式比传统的"跟标准答案对比"更接近真实场景——因为在现实中，我们并没有一个"正确答案"可以对照。

对 AI 开发者的启示

这项研究对 LLM 开发者来说也是一个警钟：

需要更好的"执行保真度"评估——目前的评估大多侧重"一次回答的质量"，而不是"长时间委托中的可靠性"
上下文范围管理和注意力机制可能需要改进——模型似乎在面对更大上下文时更容易出错
需要内置的"事实检查"——模型在执行任务时应该有能力自检发现自身引入的错误

结论

DELEGATE-52 研究提醒我们一个被"vibe coding"热潮掩盖的事实：当前的 AI 系统还远未达到可以完全信任委托工作的水平。虽然它们在单轮问答中表现惊艳，但在需要长时间、多步骤编辑的委托场景中，它们会静默地犯下严重错误。

这并不意味着我们不该使用 AI 辅助文档工作——而是意味着我们需要更好的流程、更多的检查和更清醒的风险认识。

不要让 AI 在你没看的时候弄坏了你的文档。

论文链接：LLMs Corrupt Your Documents When You Delegate（arXiv:2604.15597）
HN 讨论：272 分热帖