AI Computer Use 比结构化 API 贵 45 倍:实测数据与工程决策指南 2026

TL;DR Reflex 团队用同一个管理后台做了基准测试:Vision Agent(截图+点击)完成任务平均耗时 17 分钟、消耗 55 万输入 Token;API Agent 调用同一业务逻辑的 HTTP 端点只用 20 秒、1.2 万 Token。AI Computer Use 这种视觉方案的成本是结构化 API 的 45 倍,且方差极大(3 次运行 Token 消耗 40 万-75 万不等)。如果你的应用能暴露结构化接口,永远不该让 AI 去看屏幕。

为什么突然在讨论 Computer Use 的成本

当 AI Agent 需要操作一个没有 API 的网页应用时,默认方案成了 Vision Agent——让 AI 看截图、点按钮。这是 Anthropic Computer Use、OpenAI CUA、Browser-Use 等工具正在推广的范式。

但 Reflex 团队最近发布了一篇基准测试引发热议(Hacker News 154 点热帖),他们用同一个管理后台对比了两条路径的成本——结论是 Vision 方案的 Token 消耗是 API 方案的 45 倍,时间消耗是 50 倍

这个差距不是模型能力的问题,而是架构层面的结构性成本。

基准测试是怎么做的

测试应用是一个管理后台,管理客户、订单和评论。目标任务是:找到下单最多的 "Smith" 客户、定位他最近的待处理订单、通过所有待审核评论、标记订单为已发货。涉及三个数据实体,需要筛选、翻页、跨实体查询和写入。

两条路径针对同一个运行中的应用:

两边的底层业务逻辑完全一样,唯一变量是交互界面。

直接测试的结果

API Agent 一次完成——8 次调用搞定全部操作。Vision Agent 找到了 1 个待审核评论就停了,剩下的 3 个在页面折叠区域以下,AI 根本不知道还有内容没渲染出来

这不是模型的问题。Vision Agent 在推理渲染后的像素图像,而页面只展示了第一页的 50 条结果中的一部分。API Agent 直接读取的 Handler 返回值包含完整的 "第 1 页/共 4 页,每页 50 条",不需要猜。

加入 14 步引导后

为了公平对比,研究人员把 Prompt 改成了 14 个编号的 UI 操作步骤,明确告诉 Vision Agent 先点侧边栏的哪里、再切哪个 Tab、最后点哪个按钮。

加了引导后 Vision Agent 终于完成了任务。但代价是:

核心数据对比

指标 Vision Agent (Sonnet) API Agent (Sonnet) API Agent (Haiku)
步骤数 53 ± 13 8 ± 0 8 ± 0
耗时 ~17 分钟 ~20 秒 ~8 秒
输入 Token 550,976 12,151 9,478
输出 Token 37,962 934 819

数据来源:Reflex Blog,n=5 (API) / n=3 (Vision),Vision 下 Haiku 直接失败,无法通过 Browser-Use 的结构化输出 Schema。

换算成成本: 以 Claude Sonnet 的 Input $3/M Token、Output $15/M Token 计算:

成本差距背后的结构性原因

Vision Agent 每一轮交互的固定开销是整页截图。截图天然是像素级的大文件,转换成 Base64 编码后 Token 成本巨大。一个 1080p 的截图经过压缩后仍然会消耗数千 Token 作为视觉输入。

更关键的是:Vision Agent 的步骤数不随模型进步而减少。 因为步骤数由界面结构决定——翻几页、点几次、填多少个表单,这些操作不因模型变得更聪明就能跳过。每个步骤都要截图→推理→点击,每步都是固定的 Token 成本。

API Agent 则截然不同:8 次调用足够完成同样任务。因为结构化响应用一条结果告诉你所有数据,不需要翻页、不需要等渲染、不需要猜折叠区域。

方差问题

Vision Agent 还有一个隐藏成本:不可控的方差。3 次运行中 Token 消耗从 40 万到 75 万不等,耗时从 749 秒到 1257 秒。截图+推理循环的非确定性使单次运行的成本预估几乎不可靠。生产环境中你无法预测一个 Agent 跑一次任务到底要花多少钱。

API Agent 的方差几乎为零——5 次运行 Token 消耗的波动只有 ±27 个 Token。结构化响应让 Agent 没有理由偏离最优路径。

何时该用 Vision Agent

这并不意味着 Computer Use 技术完全没有用。以下是它适合的场景:

适合用 Vision 的场景

绝对不要用 Vision 的场景

工程决策的实践建议

从 Reflex 的测试可以提炼出几条清晰的工程准则:

1. 做 API First 的 Agent 架构

任何你拥有控制权的系统,优先暴露结构化接口给 Agent。可以是 REST API、MCP Server 或者 GraphQL。与写一遍 Prompt 让 AI 看懂你的 UI 相比,写几个端点的工作量可能更少,而且产生的 Agent 成本低两个数量级。

2. 用 MCP 做适配层

如果你有大量的内部工具,MCP (Model Context Protocol) 提供了标准化的接口规范。不需要改每个工具的后端,在代理层包装一下暴露给 Agent,成本收益比极高。

3. 只在终点用 Vision

如果实在需要 Vision,把它放在流程的最后一步——比如用 API 做好全部数据处理,只在需要提交到第三方系统界面的时候让 Vision 去操作。这样 Vision 只承担最小范围的交互,最大程度控制成本。

4. 预算可预测性优先

API Agent 的方差接近零,意味着预算预测是精确的。Vision Agent 的方差可能达到 80% 以上。如果你需要向老板或客户报价,请用 API 方案或为 Vision 方案留出 5x 的预算余量。

总结

Reflex 的这篇基准测试提供了一个宝贵的数据点:让 AI 用眼睛看屏幕是一个非常昂贵的交互模式。这是架构层的结构性成本——每步的操作都是截图+推理,步骤数不会因为模型进步而减少。

最好的方案是让你的系统变得 "Agent-Native"——提供结构化 API 接口给 AI 调用。如果你已经在用 Browser Use 或 Computer Use,花点时间给关键应用写几个 HTTP 端点或 MCP 工具,回报是成本降低 40-50 倍。

用 Vision 操作没有 API 的系统是一种必要的妥协,而不是值得追求的架构模式。