Needle 完全指南：Cactus 开源 26M 参数函数调用模型 — 无 FFN 架构跑在手机手表眼镜上

2026-05-13 · 来源：Hacker News · Show HN 63 分热帖

2026 年 AI 圈都在卷更大的模型但 Cactus Compute 反其道而行给了行业一记耳光

Needle，一个只有 26M 参数的函数调用模型在单次函数调用上正面击败了 FunctionGemma-270M、Qwen-0.6B、Granite-350M 这些大它 10 倍以上的模型这还不是最离谱的

更离谱的是 Needle 的架构里完全没有 FFN（前馈神经网络）整个模型只有 attention 和 gating 这是 Cactus 团队提出的 Simple Attention Networks 一个从底层重新思考"什么才是函数调用真正需要"的架构实验

在手机手表智能眼镜这些消费级设备上 Needle 做到 6000 tok/s prefill 和 1200 tok/s decode 这意味着什么？意味着你的手机就能跑一个比云端 270M 模型更强的函数调用引擎延迟以毫秒计而且数据不出设备

为什么函数调用不需要大模型

Cactus 团队的 Henry 在 HN 上分享了一个颠覆认知的洞察：

Agentic experiences are built upon tool calling, and massive models are overkill for it. Tool calling is fundamentally retrieval-and-assembly (match query to tool name, extract argument values, emit JSON), not reasoning.

翻译过来：函数调用的本质是检索 + 组装 — 匹配查询到工具名提取参数值输出 JSON 这不是推理

这个观察很关键如果工具调用的核心是 "查询 → 匹配 → 输出结构" 那 cross-attention 才是对的算子 FFN 里那些参数在干吗？在记忆事实 — 但函数调用不需要记忆事实事实都在你的 function schema 里

所以 Cactus 的结论是：FFN 参数在工具调用这个任务上是浪费的

Simple Attention Networks：整个架构只用注意力

传统 Transformer 的每一层都包含 Multi-Head Self-Attention + FFN。FFN 占了大半参数量目的是让模型"记住"训练数据中的知识

Needle 把 FFN 彻底砍掉了整个模型由以下组件构成：

只有 Multi-Head Cross-Attention — 在查询和工具 schema 之间做匹配
Gating 机制 — 控制信息流动替代 FFN 的非线性变换
传统的 Query / Key / Value 投影 — 但参数量大幅缩减

结果是 26M 参数里几乎每一个参数都在做"匹配" 没有浪费在记忆上针对函数调用这个特定任务效率极高

这种架构的洞见不止于工具调用 Cactus 团队发现 "无 FFN"的原则可以推广到任何模型能通过输入获取外部结构化知识的任务 — RAG、tool use、检索增强生成只要事实是你喂给模型的 FFN 就是多余的

训练细节：200B tokens 预训练 + 2B tokens 后训练

Needle 的训练流程分为两步：

预训练 — 200B tokens，在 16 块 TPU v6e 上跑了 27 小时
后训练 — 2B tokens 合成函数调用数据，仅 45 分钟

后训练数据是通过 Gemini 合成的覆盖 15 种工具类别：

定时器设置
消息发送
导航指令
智能家居控制
日历管理
音乐播放
闹钟
天气预报
等等

这种数据合成的思路很有意思 — 用大模型（Gemini）教小模型（Needle）做函数调用本质上是知识蒸馏但蒸馏的不是宽泛的"能力" 而是高度聚焦的"匹配精度"

性能数据

Needle 在单次函数调用任务上对比：

FunctionGemma-270M — Needle 胜出
Qwen-0.6B — Needle 胜出
Granite-350M — Needle 胜出
LFM2.5-350M — Needle 胜出

不过 Cactus 也诚实地说这些大模型在多轮对话上更强因为它们有更多容量处理上下文但在单次函数调用这个场景大就是浪费

推理速度方面：

Prefill — 6000 tok/s
Decode — 1200 tok/s

在消费级设备上能跑到这个水平意味着响应时间基本在毫秒级不用联网数据留本地隐私和延迟同时解决

怎么用 Needle

Needle 完全开源 MIT 许可证放手商用：

GitHub — github.com/cactus-compute/needle
模型权重 — Hugging Face: Cactus-Compute/needle
架构文档 — Simple Attention Networks 完整论文
在线 Playground — GitHub repo 中有在线测试链接

你可以直接在你的 Mac 或 PC 上跑推理也可以在本地微调因为模型极小普通消费级 GPU（甚至 M 系列 Mac）都能胜任

和 Cactus 推理引擎的关系

Needle 不是孤立的它是 Cactus 项目的一部分 Cactus 是一个从零构建的推理引擎专为手机、可穿戴设备和定制硬件优化

Cactus 的核心理念：AI 最终要运行在用户手里的设备上不是云端他们之前就上过 HN (Cactus 首次 HN 发布)

Needle 加 Cactus 的组合拳清晰的指向一个未来：你的手机手表眼镜上跑着一个小而精确的 AI Agent 所有工具调用在本地完成只有真正需要联网时才走云端这比什么都丢给 API 的方案更省电更快更私密

为什么这事很重要

2026 年的 AI Agent 热潮有一个根本矛盾：Agent 被设计成无处不在 — 手机、手表、眼镜、车载但大多数 Agent 模型大得只能在云端跑这就产生了延迟、隐私、离线不可用三个致命问题

Needle 用 26M 参数证明了：函数调用这个 Agent 最核心的能力完全可以在终端设备上完成而且做得比大模型更好

从更宏观的角度看 Cactus 的 "无 FFN" 发现可能比 Needle 本身更有价值 — 它提出了一条新思路：不是所有 AI 任务都需要通用智能 把任务拆解开每个子任务用极小的专用模型完成整体上更快更便宜更可靠

这种思路如果推广到其他 Agent 能力（意图识别、状态追踪、输出格式化）可能会出现一整代 10M-50M 参数级的专用模型每个都比大模型的对应能力更强而且跑在用户口袋里

手机手表眼镜上的 AI Agent 不是未来它已经在 GitHub 上了

参考来源：

Needle 完全指南：Cactus 开源 26M 参数函数调用模型 — 无 FFN 架构 跑在手机手表眼镜上