GenericAgent 完全解读:3000 行自进化 AI Agent,让 LLM 长出专属技能树
发布: 2026-05-11 • 阅读: 10 分钟 • 标签: GenericAgent, AI Agent, 自进化 Agent, 开源, LLM, GitHub Trending
2026 年的 AI Agent 框架生态已经拥挤到让人眼花缭乱——Anthropic 的 Agent 工具集、字节跳动的 UI-TARS、OpenAI 的 Symphony…… 每个框架都在往 Agent 里塞进越来越重的预设技能。
但有一个新项目选择了截然相反的路线:不给 AI 预设任何技能,让它自己长出来。
这就是 GenericAgent——一个核心仅 ~3000 行代码、通过 9 个原子工具 + 约 100 行 Agent Loop 实现系统级控制的自进化 Agent 框架。它正在 GitHub Trending 上快速蹿升,其技术报告也已上线 arXiv 收获社区大量关注。
不一样的设计哲学:不预加载,去进化
几乎所有主流 Agent 框架的思路都是:预配置越多的技能就能做得越多。这导致每个框架都越来越臃肿。
GenericAgent 的理念正好相反——"不要预加载技能,去进化它们"。
你给它的只是一粒"种子"(~3K 行核心代码)。每次它解决一个新任务,就会自动把这次执行的路径"结晶"成一个可复用的技能。用得越久,技能积累越多,最终长成一棵完全属于你自己的个人技能树。
作者做了一个疯狂的证明:整个 GitHub 仓库,从安装 Git、跑 git init、到每条 commit message——全部由 GenericAgent 自动完成。作者从未打开过一次终端。
架构剖析:9 个原子工具 + 100 行 Agent Loop
GenericAgent 的极简架构可以这样拆解:
9 个原子工具
Agent 不依赖预设脚本,而是通过 9 个底层原子操作直接控制计算机:
- 浏览器注入:注入真实浏览器,保留所有登录会话状态
- 终端执行:直接运行 shell 命令,安装依赖、运行脚本
- 文件系统操作:读写文件、遍历目录、编辑源码
- 键盘鼠标模拟:直接操作桌面 GUI
- 屏幕视觉:截屏 + 视觉理解
- ADB 支持:Android 设备控制(通过 ADB)
- 记忆读写:持久化存储和检索
- 代码执行:运行 Python/JS 等脚本
- 网络请求:HTTP 客户端能力
~100 行的核心 Agent Loop
整个编排逻辑不到 100 行。每次任务的大致流程是:
[新任务]
↓
[自主探索] → 安装依赖、写脚本、调试、验证
↓
[结晶为 Skill] → 将执行路径保存到记忆层
↓
[下次类似任务] → 直接调用已有 Skill,一步完成
实战案例:从点奶茶到量化选股
GenericAgent 的 README 列出了几个直观的案例:
🧋 外卖点奶茶
你说"帮我点杯奶茶"→ Agent 第一次需要导航外卖 App、选择商品、完成下单→ 整个过程被结晶为一个 skill → 下次只要一句话
📈 量化选股
你说"找 EXPMA 金叉且换手率 > 5% 的创业板股票"→ Agent 安装 mootdx 库、构建选股流程、配置 cron 定时→ 保存为 skill → 以后每天自动跑
💳 支付宝记账
"查询最近 3 个月超过 2000 元的支出"→ Agent 通过 ADB 操控手机支付宝→ 抓取数据并统计→ 下次直接出结果
Token 效率:6 倍优势的秘密
GenericAgent 最大的技术亮点是巨大的 Token 效率优势。官方技术报告指出,它的设计实现了约 6 倍的 Token 消耗降低。
原理在于 上下文信息密度最大化(Contextual Information Density Maximization):
- 第一次执行时生成完整的探索轨迹 → Token 消耗较高
- 但后续遇到相似任务时,不是重新执行整条轨迹,而是 直接调取已结晶的 skill
- 每条 skill 都是经过 "蒸馏" 的高密度指令,用最少 Token 完成同样的事
- 随着时间推移,复用率持续上升,平均 Token 成本越来越低
相比之下,传统 Agent 框架每次任务都从零开始推理,哪怕已经做过 100 次类似操作。
支持哪些模型?
GenericAgent 的模型兼容性出奇地好:
- Claude(Anthropic)
- Gemini(Google)
- Kimi(月之暗面)
- MiniMax
- 兼容任何 OpenAI API 兼容的 LLM
5 分钟入门教程
GenericAgent 的部署非常轻量,不需要 Docker 或复杂依赖:
方式一:传统 pip 安装
git clone https://github.com/lsdefine/GenericAgent.git cd GenericAgent pip install requests streamlit pywebview # 桌面 GUI pip install requests textual # 终端 TUI cp mykey_template.py mykey.py # 编辑 mykey.py 填入 API Key python launch.pyw
方式二:现代 uv 工作流
git clone https://github.com/lsdefine/GenericAgent.git cd GenericAgent uv venv uv pip install -e ".[ui]" cp mykey_template.py mykey.py python launch.pyw
与主流 Agent 框架对比
| 特性 | GenericAgent | Claude Code | UI-TARS | 传统 Agent 框架 |
|---|---|---|---|---|
| 核心代码量 | ~3K 行 | 闭源 | ~50K+ 行 | ~20-100K+ 行 |
| 技能预加载 | 不需要 | 需要 | 需要 | 需要 |
| 技能自进化 | ✅ 自动 | ❌ | ❌ | ❌ |
| Token 效率 | 6x 优于同类 | 高 | 高 | 中-高 |
| 桌面 GUI 控制 | ✅ | ❌ | ✅ | 部分支持 |
| 移动设备 ADB | ✅ | ❌ | ❌ | ❌ |
| 浏览器会话保留 | ✅ 保留登录态 | ❌ | ✅ | 部分 |
| 模型兼容性 | 多模型 | Claude 专属 | 多模型 | 通常单模型 |
Cron 调度 + 记忆归档
GenericAgent 在最新版本中引入了两项重要的基础设施能力:
- L4 会话归档记忆:长期记忆分为 4 层,从短期缓存到永久归档,自动管理
- 定时任务集成:结合系统 cron,让 Agent 可以定期执行技能(如每天早晨自动选股)
这意味着 GenericAgent 不只是交互式 Agent,也可以作为后台守护进程运行。
谁该试试?
GenericAgent 特别适合以下场景:
- 想让 AI Agent 做重复性工作,但每次都要重新教一遍
- 对 Token 用量敏感,希望长期使用成本可控
- 需要 Agent 操作真实浏览器、桌面或手机,而不仅仅是 API
- 喜欢极简架构,不想被厚重的框架束缚
如果你只想跑一个简单的 LLM 对话或者只做纯 API 调用,GenericAgent 可能不是最合适的选择。但如果你需要的是一个 能持续成长、越来越懂你的个人 AI 助理,它值得一试。
总结
GenericAgent 代表着 AI Agent 框架的一个新方向:不是每件事都教,而是让 Agent 学会学习。3K 行代码的种子,在未来几个月的使用中会为你长出一棵独一无二的技能树。
相比那些越来越臃肿的 Agent 框架,GenericAgent 的极简和自进化理念或许正是社区一直在等待的东西。
🔗 GitHub: github.com/lsdefine/GenericAgent
📄 技术报告 (arXiv): arxiv.org/abs/2604.17091
📘 教程: datawhalechina.github.io/hello-generic-agent