AI Computer Use 比结构化 API 贵 45 倍:实测数据与工程决策指南 2026
TL;DR Reflex 团队用同一个管理后台做了基准测试:Vision Agent(截图+点击)完成任务平均耗时 17 分钟、消耗 55 万输入 Token;API Agent 调用同一业务逻辑的 HTTP 端点只用 20 秒、1.2 万 Token。AI Computer Use 这种视觉方案的成本是结构化 API 的 45 倍,且方差极大(3 次运行 Token 消耗 40 万-75 万不等)。如果你的应用能暴露结构化接口,永远不该让 AI 去看屏幕。为什么突然在讨论 Computer Use 的成本
当 AI Agent 需要操作一个没有 API 的网页应用时,默认方案成了 Vision Agent——让 AI 看截图、点按钮。这是 Anthropic Computer Use、OpenAI CUA、Browser-Use 等工具正在推广的范式。
但 Reflex 团队最近发布了一篇基准测试引发热议(Hacker News 154 点热帖),他们用同一个管理后台对比了两条路径的成本——结论是 Vision 方案的 Token 消耗是 API 方案的 45 倍,时间消耗是 50 倍。
这个差距不是模型能力的问题,而是架构层面的结构性成本。
基准测试是怎么做的
测试应用是一个管理后台,管理客户、订单和评论。目标任务是:找到下单最多的 "Smith" 客户、定位他最近的待处理订单、通过所有待审核评论、标记订单为已发货。涉及三个数据实体,需要筛选、翻页、跨实体查询和写入。
两条路径针对同一个运行中的应用:
- Path A - Vision Agent: Claude Sonnet 驱动 Browser-Use 0.12,截图识别 + 点击操作
- Path B - API Agent: Claude Sonnet 直接调用应用后端的 HTTP 接口,接收结构化 JSON 响应
两边的底层业务逻辑完全一样,唯一变量是交互界面。
直接测试的结果
API Agent 一次完成——8 次调用搞定全部操作。Vision Agent 找到了 1 个待审核评论就停了,剩下的 3 个在页面折叠区域以下,AI 根本不知道还有内容没渲染出来。
这不是模型的问题。Vision Agent 在推理渲染后的像素图像,而页面只展示了第一页的 50 条结果中的一部分。API Agent 直接读取的 Handler 返回值包含完整的 "第 1 页/共 4 页,每页 50 条",不需要猜。
加入 14 步引导后
为了公平对比,研究人员把 Prompt 改成了 14 个编号的 UI 操作步骤,明确告诉 Vision Agent 先点侧边栏的哪里、再切哪个 Tab、最后点哪个按钮。
加了引导后 Vision Agent 终于完成了任务。但代价是:
- 每轮耗时 14-22 分钟
- 每轮消耗 40-75 万输入 Token
- 3 轮运行 Token 消耗方差高达 84%(40万到75万)
核心数据对比
| 指标 | Vision Agent (Sonnet) | API Agent (Sonnet) | API Agent (Haiku) |
|---|---|---|---|
| 步骤数 | 53 ± 13 | 8 ± 0 | 8 ± 0 |
| 耗时 | ~17 分钟 | ~20 秒 | ~8 秒 |
| 输入 Token | 550,976 | 12,151 | 9,478 |
| 输出 Token | 37,962 | 934 | 819 |
数据来源:Reflex Blog,n=5 (API) / n=3 (Vision),Vision 下 Haiku 直接失败,无法通过 Browser-Use 的结构化输出 Schema。
换算成成本: 以 Claude Sonnet 的 Input $3/M Token、Output $15/M Token 计算:
- Vision Agent 一轮成本 ≈ $2.22
- API Agent 一轮成本 ≈ $0.05
- 相差约 44-45 倍
成本差距背后的结构性原因
Vision Agent 每一轮交互的固定开销是整页截图。截图天然是像素级的大文件,转换成 Base64 编码后 Token 成本巨大。一个 1080p 的截图经过压缩后仍然会消耗数千 Token 作为视觉输入。
更关键的是:Vision Agent 的步骤数不随模型进步而减少。 因为步骤数由界面结构决定——翻几页、点几次、填多少个表单,这些操作不因模型变得更聪明就能跳过。每个步骤都要截图→推理→点击,每步都是固定的 Token 成本。
API Agent 则截然不同:8 次调用足够完成同样任务。因为结构化响应用一条结果告诉你所有数据,不需要翻页、不需要等渲染、不需要猜折叠区域。
方差问题
Vision Agent 还有一个隐藏成本:不可控的方差。3 次运行中 Token 消耗从 40 万到 75 万不等,耗时从 749 秒到 1257 秒。截图+推理循环的非确定性使单次运行的成本预估几乎不可靠。生产环境中你无法预测一个 Agent 跑一次任务到底要花多少钱。
API Agent 的方差几乎为零——5 次运行 Token 消耗的波动只有 ±27 个 Token。结构化响应让 Agent 没有理由偏离最优路径。
何时该用 Vision Agent
这并不意味着 Computer Use 技术完全没有用。以下是它适合的场景:
适合用 Vision 的场景
- 零 API 的旧系统: 20 年前的 ERP、没有公开接口的 SaaS、完全无法修改的老系统
- 审批流程自动化: 需要"看到"界面状态的合规审计场景
- UI 测试和自动化: 本身就是测试 UI 的用例,结构化的测试框架已经覆盖不全
- 快速原型和小流量场景: 成本不敏感、用户数极少
绝对不要用 Vision 的场景
- 可暴露结构化 API 的内部工具: 你自己的管理后台、CMS、CRM,写几个端点比让它 Vision 操作便宜两个数量级
- 高频批量处理: 每天操作几万次的任务,Vision 方案的成本会失控
- 对成本敏感的生产环境: 任何需要控制预算的场景
- 需要确定性结果: Vision 的方差可能让同一个输入产生完全不同的成本
工程决策的实践建议
从 Reflex 的测试可以提炼出几条清晰的工程准则:
1. 做 API First 的 Agent 架构
任何你拥有控制权的系统,优先暴露结构化接口给 Agent。可以是 REST API、MCP Server 或者 GraphQL。与写一遍 Prompt 让 AI 看懂你的 UI 相比,写几个端点的工作量可能更少,而且产生的 Agent 成本低两个数量级。
2. 用 MCP 做适配层
如果你有大量的内部工具,MCP (Model Context Protocol) 提供了标准化的接口规范。不需要改每个工具的后端,在代理层包装一下暴露给 Agent,成本收益比极高。
3. 只在终点用 Vision
如果实在需要 Vision,把它放在流程的最后一步——比如用 API 做好全部数据处理,只在需要提交到第三方系统界面的时候让 Vision 去操作。这样 Vision 只承担最小范围的交互,最大程度控制成本。
4. 预算可预测性优先
API Agent 的方差接近零,意味着预算预测是精确的。Vision Agent 的方差可能达到 80% 以上。如果你需要向老板或客户报价,请用 API 方案或为 Vision 方案留出 5x 的预算余量。
总结
Reflex 的这篇基准测试提供了一个宝贵的数据点:让 AI 用眼睛看屏幕是一个非常昂贵的交互模式。这是架构层的结构性成本——每步的操作都是截图+推理,步骤数不会因为模型进步而减少。
最好的方案是让你的系统变得 "Agent-Native"——提供结构化 API 接口给 AI 调用。如果你已经在用 Browser Use 或 Computer Use,花点时间给关键应用写几个 HTTP 端点或 MCP 工具,回报是成本降低 40-50 倍。
用 Vision 操作没有 API 的系统是一种必要的妥协,而不是值得追求的架构模式。