AI Computer Use 比结构化 API 贵 45 倍：实测数据与工程决策指南 2026

2026 年 5 月 6 日阅读时间约 8 分钟

TL;DR Reflex 团队用同一个管理后台做了基准测试：Vision Agent（截图+点击）完成任务平均耗时 17 分钟、消耗 55 万输入 Token；API Agent 调用同一业务逻辑的 HTTP 端点只用 20 秒、1.2 万 Token。AI Computer Use 这种视觉方案的成本是结构化 API 的 45 倍，且方差极大（3 次运行 Token 消耗 40 万-75 万不等）。如果你的应用能暴露结构化接口，永远不该让 AI 去看屏幕。

为什么突然在讨论 Computer Use 的成本

当 AI Agent 需要操作一个没有 API 的网页应用时，默认方案成了 Vision Agent——让 AI 看截图、点按钮。这是 Anthropic Computer Use、OpenAI CUA、Browser-Use 等工具正在推广的范式。

但 Reflex 团队最近发布了一篇基准测试引发热议（Hacker News 154 点热帖），他们用同一个管理后台对比了两条路径的成本——结论是 Vision 方案的 Token 消耗是 API 方案的 45 倍，时间消耗是 50 倍。

这个差距不是模型能力的问题，而是架构层面的结构性成本。

基准测试是怎么做的

测试应用是一个管理后台，管理客户、订单和评论。目标任务是：找到下单最多的 "Smith" 客户、定位他最近的待处理订单、通过所有待审核评论、标记订单为已发货。涉及三个数据实体，需要筛选、翻页、跨实体查询和写入。

两条路径针对同一个运行中的应用：

Path A - Vision Agent： Claude Sonnet 驱动 Browser-Use 0.12，截图识别 + 点击操作
Path B - API Agent： Claude Sonnet 直接调用应用后端的 HTTP 接口，接收结构化 JSON 响应

两边的底层业务逻辑完全一样，唯一变量是交互界面。

直接测试的结果

API Agent 一次完成——8 次调用搞定全部操作。Vision Agent 找到了 1 个待审核评论就停了，剩下的 3 个在页面折叠区域以下，AI 根本不知道还有内容没渲染出来。

这不是模型的问题。Vision Agent 在推理渲染后的像素图像，而页面只展示了第一页的 50 条结果中的一部分。API Agent 直接读取的 Handler 返回值包含完整的 "第 1 页/共 4 页，每页 50 条"，不需要猜。

加入 14 步引导后

为了公平对比，研究人员把 Prompt 改成了 14 个编号的 UI 操作步骤，明确告诉 Vision Agent 先点侧边栏的哪里、再切哪个 Tab、最后点哪个按钮。

加了引导后 Vision Agent 终于完成了任务。但代价是：

每轮耗时 14-22 分钟
每轮消耗 40-75 万输入 Token
3 轮运行 Token 消耗方差高达 84%（40万到75万）

核心数据对比

指标	Vision Agent (Sonnet)	API Agent (Sonnet)	API Agent (Haiku)
步骤数	53 ± 13	8 ± 0	8 ± 0
耗时	~17 分钟	~20 秒	~8 秒
输入 Token	550,976	12,151	9,478
输出 Token	37,962	934	819

数据来源：Reflex Blog，n=5 (API) / n=3 (Vision)，Vision 下 Haiku 直接失败，无法通过 Browser-Use 的结构化输出 Schema。

换算成成本： 以 Claude Sonnet 的 Input $3/M Token、Output $15/M Token 计算：

Vision Agent 一轮成本 ≈ $2.22
API Agent 一轮成本 ≈ $0.05
相差约 44-45 倍

成本差距背后的结构性原因

Vision Agent 每一轮交互的固定开销是整页截图。截图天然是像素级的大文件，转换成 Base64 编码后 Token 成本巨大。一个 1080p 的截图经过压缩后仍然会消耗数千 Token 作为视觉输入。

更关键的是：Vision Agent 的步骤数不随模型进步而减少。 因为步骤数由界面结构决定——翻几页、点几次、填多少个表单，这些操作不因模型变得更聪明就能跳过。每个步骤都要截图→推理→点击，每步都是固定的 Token 成本。

API Agent 则截然不同：8 次调用足够完成同样任务。因为结构化响应用一条结果告诉你所有数据，不需要翻页、不需要等渲染、不需要猜折叠区域。

方差问题

Vision Agent 还有一个隐藏成本：不可控的方差。3 次运行中 Token 消耗从 40 万到 75 万不等，耗时从 749 秒到 1257 秒。截图+推理循环的非确定性使单次运行的成本预估几乎不可靠。生产环境中你无法预测一个 Agent 跑一次任务到底要花多少钱。

API Agent 的方差几乎为零——5 次运行 Token 消耗的波动只有 ±27 个 Token。结构化响应让 Agent 没有理由偏离最优路径。

何时该用 Vision Agent

这并不意味着 Computer Use 技术完全没有用。以下是它适合的场景：

适合用 Vision 的场景

零 API 的旧系统： 20 年前的 ERP、没有公开接口的 SaaS、完全无法修改的老系统
审批流程自动化： 需要"看到"界面状态的合规审计场景
UI 测试和自动化： 本身就是测试 UI 的用例，结构化的测试框架已经覆盖不全
快速原型和小流量场景： 成本不敏感、用户数极少

绝对不要用 Vision 的场景

可暴露结构化 API 的内部工具： 你自己的管理后台、CMS、CRM，写几个端点比让它 Vision 操作便宜两个数量级
高频批量处理： 每天操作几万次的任务，Vision 方案的成本会失控
对成本敏感的生产环境： 任何需要控制预算的场景
需要确定性结果： Vision 的方差可能让同一个输入产生完全不同的成本

工程决策的实践建议

从 Reflex 的测试可以提炼出几条清晰的工程准则：

1. 做 API First 的 Agent 架构

任何你拥有控制权的系统，优先暴露结构化接口给 Agent。可以是 REST API、MCP Server 或者 GraphQL。与写一遍 Prompt 让 AI 看懂你的 UI 相比，写几个端点的工作量可能更少，而且产生的 Agent 成本低两个数量级。

2. 用 MCP 做适配层

如果你有大量的内部工具，MCP (Model Context Protocol) 提供了标准化的接口规范。不需要改每个工具的后端，在代理层包装一下暴露给 Agent，成本收益比极高。

3. 只在终点用 Vision

如果实在需要 Vision，把它放在流程的最后一步——比如用 API 做好全部数据处理，只在需要提交到第三方系统界面的时候让 Vision 去操作。这样 Vision 只承担最小范围的交互，最大程度控制成本。

4. 预算可预测性优先

API Agent 的方差接近零，意味着预算预测是精确的。Vision Agent 的方差可能达到 80% 以上。如果你需要向老板或客户报价，请用 API 方案或为 Vision 方案留出 5x 的预算余量。

总结

Reflex 的这篇基准测试提供了一个宝贵的数据点：让 AI 用眼睛看屏幕是一个非常昂贵的交互模式。这是架构层的结构性成本——每步的操作都是截图+推理，步骤数不会因为模型进步而减少。

最好的方案是让你的系统变得 "Agent-Native"——提供结构化 API 接口给 AI 调用。如果你已经在用 Browser Use 或 Computer Use，花点时间给关键应用写几个 HTTP 端点或 MCP 工具，回报是成本降低 40-50 倍。

用 Vision 操作没有 API 的系统是一种必要的妥协，而不是值得追求的架构模式。

相关阅读：