Needle 完全指南:Cactus 开源 26M 参数函数调用模型 — 无 FFN 架构 跑在手机手表眼镜上

2026-05-13 · 来源:Hacker News · Show HN 63 分热帖

2026 年 AI 圈都在卷更大的模型 但 Cactus Compute 反其道而行给了行业一记耳光

Needle,一个只有 26M 参数的函数调用模型 在单次函数调用上正面击败了 FunctionGemma-270M、Qwen-0.6B、Granite-350M 这些大它 10 倍以上的模型 这还不是最离谱的

更离谱的是 Needle 的架构里完全没有 FFN(前馈神经网络) 整个模型只有 attention 和 gating 这是 Cactus 团队提出的 Simple Attention Networks 一个从底层重新思考"什么才是函数调用真正需要"的架构实验

在手机手表智能眼镜这些消费级设备上 Needle 做到 6000 tok/s prefill 和 1200 tok/s decode 这意味着什么?意味着你的手机就能跑一个比云端 270M 模型更强的函数调用引擎 延迟以毫秒计 而且数据不出设备

为什么函数调用不需要大模型

Cactus 团队的 Henry 在 HN 上分享了一个颠覆认知的洞察:

Agentic experiences are built upon tool calling, and massive models are overkill for it. Tool calling is fundamentally retrieval-and-assembly (match query to tool name, extract argument values, emit JSON), not reasoning.

翻译过来:函数调用的本质是检索 + 组装 — 匹配查询到工具名 提取参数值 输出 JSON 这不是推理

这个观察很关键 如果工具调用的核心是 "查询 → 匹配 → 输出结构" 那 cross-attention 才是对的算子 FFN 里那些参数在干吗?在记忆事实 — 但函数调用不需要记忆事实 事实都在你的 function schema 里

所以 Cactus 的结论是:FFN 参数在工具调用这个任务上是浪费的

Simple Attention Networks:整个架构只用注意力

传统 Transformer 的每一层都包含 Multi-Head Self-Attention + FFN。FFN 占了大半参数量 目的是让模型"记住"训练数据中的知识

Needle 把 FFN 彻底砍掉了 整个模型由以下组件构成:

结果是 26M 参数里几乎每一个参数都在做"匹配" 没有浪费在记忆上 针对函数调用这个特定任务 效率极高

这种架构的洞见不止于工具调用 Cactus 团队发现 "无 FFN"的原则可以推广到任何模型能通过输入获取外部结构化知识的任务 — RAG、tool use、检索增强生成 只要事实是你喂给模型的 FFN 就是多余的

训练细节:200B tokens 预训练 + 2B tokens 后训练

Needle 的训练流程分为两步:

后训练数据是通过 Gemini 合成的 覆盖 15 种工具类别:

这种数据合成的思路很有意思 — 用大模型(Gemini)教小模型(Needle)做函数调用 本质上是知识蒸馏 但蒸馏的不是宽泛的"能力" 而是高度聚焦的"匹配精度"

性能数据

Needle 在单次函数调用任务上对比:

不过 Cactus 也诚实地说 这些大模型在多轮对话上更强 因为它们有更多容量处理上下文 但在单次函数调用这个场景 大就是浪费

推理速度方面:

在消费级设备上能跑到这个水平 意味着响应时间基本在毫秒级 不用联网 数据留本地 隐私和延迟同时解决

怎么用 Needle

Needle 完全开源 MIT 许可证 放手商用:

你可以直接在你的 Mac 或 PC 上跑推理 也可以在本地微调 因为模型极小 普通消费级 GPU(甚至 M 系列 Mac)都能胜任

和 Cactus 推理引擎的关系

Needle 不是孤立的 它是 Cactus 项目的一部分 Cactus 是一个从零构建的推理引擎 专为手机、可穿戴设备和定制硬件优化

Cactus 的核心理念:AI 最终要运行在用户手里的设备上 不是云端 他们之前就上过 HN (Cactus 首次 HN 发布)

Needle 加 Cactus 的组合拳清晰的指向一个未来:你的手机手表眼镜上跑着一个小而精确的 AI Agent 所有工具调用在本地完成 只有真正需要联网时才走云端 这比什么都丢给 API 的方案更省电更快更私密

为什么这事很重要

2026 年的 AI Agent 热潮有一个根本矛盾:Agent 被设计成无处不在 — 手机、手表、眼镜、车载 但大多数 Agent 模型大得只能在云端跑 这就产生了延迟、隐私、离线不可用三个致命问题

Needle 用 26M 参数证明了:函数调用这个 Agent 最核心的能力 完全可以在终端设备上完成 而且做得比大模型更好

从更宏观的角度看 Cactus 的 "无 FFN" 发现可能比 Needle 本身更有价值 — 它提出了一条新思路:不是所有 AI 任务都需要通用智能 把任务拆解开 每个子任务用极小的专用模型完成 整体上更快更便宜更可靠

这种思路如果推广到其他 Agent 能力(意图识别、状态追踪、输出格式化) 可能会出现一整代 10M-50M 参数级的专用模型 每个都比大模型的对应能力更强 而且跑在用户口袋里

手机手表眼镜上的 AI Agent 不是未来 它已经在 GitHub 上了