OpenAI Responses API Computer Environment 实战:Shell、Container、Compaction 落地清单

OpenAI 在 2026-03-11 发布了 From model to agent: Equipping the Responses API with a computer environment。这篇内容的价值不在“新名词”,而在它把 agent 生产化的关键环节一次讲透了。

1. Shell 工具不是附加功能,而是执行面

官方强调:模型只能提出工具调用,不能自行执行。Responses API 负责把命令送进容器、回传输出、继续下一轮推理。这个闭环让 agent 从“只会回答”变成“能做事”。

  • 支持 Unix 常见工具链,覆盖文件搜索、API 请求、脚本执行。
  • 相比仅 Python 的执行器,Shell 路径更接近真实工程环境。
  • 支持并行会话,适合“查资料 + 执行 + 校验”并发任务。

2. Compaction 解决长任务上下文爆炸

长链路任务最常见的问题是 context window 被日志和中间输出撑爆。官方给出两条实用机制:

  • 命令输出上限:保留头尾并标记截断,避免“日志淹没推理”。
  • 原生 compaction:在窗口临界点自动压缩高价值状态,减少客户端手写摘要系统。

3. 容器上下文的三层模型:文件、数据库、网络

官方的建议非常工程化:不要把全部输入塞进 prompt,而是把资源放进容器。

  1. 文件系统:模型按需读取,避免大段无关内容进入上下文。
  2. 数据库:对结构化数据优先用 SQLite/表描述+查询,不用整表拷贝。
  3. 网络访问:通过策略层控制外呼,保留可观测性。

4. 网络与密钥策略:真正决定能否过审

官方提到 hosted container 使用 sidecar egress proxy,且支持 domain-scoped secret injection。对企业团队来说,这意味着:

  • 可以按域名白名单控制 outbound 请求。
  • 模型上下文可只见占位符,不直接暴露真实密钥。
  • 审计链路可落到“哪个 agent 在什么上下文调用了哪个外部域”。

5. 两周落地方案(建议)

  1. 第 1-3 天:接入单一低风险任务,验证 shell + 容器读写链路。
  2. 第 4-7 天:接入输出截断与 compaction 阈值,压测长任务。
  3. 第 8-10 天:启用网络白名单和密钥注入,补齐审计字段。
  4. 第 11-14 天:做故障演练(网络失败、工具超时、重试幂等)。
如果你的 agent 还在“提示词 + 单次响应”阶段,这次更新给的是升级到可运营系统的路径图。

参考信息(官方)