什么是 DS4(DwarfStar 4)?
DS4(DwarfStar 4) 是由 Salvatore Sanfilippo(antirez)——Redis 的创始人——为 DeepSeek V4 Flash 专门打造的 完全自包含原生推理引擎。与 Ollama 或 llama.cpp 封装等通用运行器不同,DS4 刻意保持专注:只做一件事,但把它做到极致。
该引擎涵盖了生产级本地推理所需的一切功能:模型加载、提示词渲染、工具调用、KV 状态管理(内存和磁盘双支持),以及完整的 HTTP 服务器 API——开箱即可配合编程智能体或 CLI 界面使用。
这个项目的特别之处在于,antirez 本人表示这是他 第一次认真用本地模型代替 Claude 或 GPT 做实际工作。对于一位在 AI 领域深耕多年的人而言,这无疑是对 DeepSeek V4 Flash 本地推理质量的重要背书。
项目一经发布便登上 Hacker News 首页,1 小时内获得 79+ 分,超过 2.4 万次浏览——反映出社区对高质量本地 AI 推理的强烈需求。
为什么 DeepSeek V4 Flash 值得一个专用引擎?
大多数推理引擎试图运行所有模型。DS4 选择了相反的方向。antirez 认为 DeepSeek V4 Flash 值得拥有独立引擎的原因如下:
- 速度更快:得益于 MoE 架构,每次激活的参数更少,推理速度优于同等质量的稠密模型。
- 高效的思考模式:在思考模式下,思考部分的长度往往只有其他模型的 1/5,而且思考长度与问题复杂度成正比。这使得它在开启思考模式时变得实用,而其他模型在同等条件下几乎无法使用。
- 100 万 Token 上下文:原生支持百万级别的上下文窗口。
- 准前沿级知识:284B 参数(稀疏激活)存储的知识远超小型稠密模型——特别是在意大利文化、政治等小众话题上。
- 出色的 KV 压缩:KV 缓存压缩率极高,可以在本地机器上实现长上下文推理,并支持持久化磁盘 KV 缓存。
- 2 位量化可行:采用非对称量化策略(路由 MoE 专家层 2 位、共享组件全精度)后,模型表现依然出色——足以可靠地支持编程智能体中的工具调用。
支持的后端:Metal、CUDA、ROCm
DS4 支持三种加速器后端,针对能够真正运行 284B 参数模型的硬件做出了明确的选择:
Apple Metal(主要目标)
Metal 是主要开发后端。引擎面向 96GB+ 内存的 MacBook,已在以下设备上经过充分测试:
- MacBook Pro M3 Max(128GB)—— Q2 imatrix 约 27 tokens/s 生成速度
- Mac Studio M3 Ultra(512GB)—— Q2 约 37 tokens/s,Q4 约 35 tokens/s
- MacBook Pro M4 Max——社区测试效果良好
构建命令:make
NVIDIA CUDA
CUDA 支持主要针对 DGX Spark(GB10)——NVIDIA 的紧凑型桌面 AI 超级计算机。也适用于其他本地 CUDA GPU:
- DGX Spark GB10(128GB 统一内存)—— Q2 在 7k 上下文时约 14 tokens/s
- 具有足够显存的通用 NVIDIA GPU
构建命令:make cuda-spark(DGX Spark)或 make cuda-generic(其他 GPU)
AMD ROCm(社区分支)
ROCm 支持位于 独立分支 中。由于 antirez 没有直接的 AMD 硬件,社区负责维护和变基该分支。
这是一种务实的做法——既保持主分支的整洁,又支持 AMD 生态。
核心特性与架构
1. 非对称 2/8 位量化
DS4 采用了新颖的非对称量化策略,远非传统印象中的"2 位就是开玩笑":
- 路由 MoE 专家层大幅量化(up/gate 使用 IQ2_XXS,down 使用 Q2_K)——占模型参数的大多数
- 共享专家、投影层和路由层保留全精度(8 位或更高)
- 这种选择性方法在关键处保持模型质量,同时大幅降低内存占用
- 推荐使用 imatrix 优化版本以获得更好的质量
2. KV 缓存:磁盘是第一公民
antirez 提出了一个引人注目的架构主张:压缩 KV 缓存(就像 DeepSeek V4 那样)加上快速 SSD 存储,应该改变我们"KV 缓存属于 RAM"的固有观念。DS4 将 KV 状态视为主要驻留在磁盘上的数据,从而实现:
- 在有限 RAM 的机器上进行超长上下文推理
- 跨会话持久化 KV 缓存
- 为百万 Token 上下文窗口提供高效的内存管理
3. 工具调用就绪
DS4 内置了工具调用支持——这不是附加功能,而是核心特性。antirez 分发的 GGUF 文件已经过验证,能够可靠地和工具调用智能体配合使用。这对于编程智能体和自动化工作流等实际用例至关重要。
4. 服务器 API + CLI 双接口
引擎提供两种交互方式:
- ./ds4——CLI 界面,用于交互式使用、测试和基准测试
- ./ds4-server——HTTP API 服务器,用于集成编程智能体和外部工具
两者都通过 -m 参数指定模型路径。
5. GGUF 和 IMatrix 工具链
DS4 包含完整的一套离线工具,供模型构建者使用:
- GGUF 生成和量化
- IMatrix(重要性矩阵)收集和应用
- 针对官方 DeepSeek V4 Flash logits 的质量测试
- 支持 CSV 输出和图表生成的性能基准测试
性能基准测试
以下是 antirez 测试中的实际性能数据(Metal 后端,--ctx 32768,--nothink,贪婪解码,-n 256):
| 设备 | 量化 | 提示词 | 预填充 | 生成 |
|---|---|---|---|---|
| M3 Max 128GB | Q2 | 短提示 | 58.52 t/s | 26.68 t/s |
| M3 Max 128GB | Q2 | 11,709 tokens | 250.11 t/s | 21.47 t/s |
| M3 Ultra 512GB | Q2 | 短提示 | 84.43 t/s | 36.86 t/s |
| M3 Ultra 512GB | Q2 | 11,709 tokens | 468.03 t/s | 27.39 t/s |
| M3 Ultra 512GB | Q4 | 短提示 | 78.95 t/s | 35.50 t/s |
| M3 Ultra 512GB | Q4 | 12,018 tokens | 448.82 t/s | 26.62 t/s |
| DGX Spark 128GB | Q2 | 7,047 tokens | 343.81 t/s | 13.75 t/s |
关键结论:Q2 imatrix 在 Apple Silicon 上提供 20-37 tokens/s——对于交互式工作、编程智能体和聊天来说完全可用。Q4 需要 256GB+ 内存的机器,但以相当的速度提供更高的质量。
如何开始使用 DS4
第一步:下载模型
项目附带便捷的下载脚本,可以从 Hugging Face 获取预量化 GGUF 文件:
# 适用于 96-128GB 内存的机器(推荐):
./download_model.sh q2-imatrix
# 适用于 256GB+ 内存的机器:
./download_model.sh q4-imatrix
# 旧版本(如果需要非 imatrix 版本):
./download_model.sh q2 # 96-128GB
./download_model.sh q4 # 256GB+
脚本将文件存储在 ./gguf/ 目录下,支持 curl -C - 断点续传,并在 ./ds4flash.gguf 创建指向所选模型的符号链接。
第二步:构建引擎
# macOS 使用 Metal
make
# Linux 使用 CUDA(DGX Spark)
make cuda-spark
# Linux 使用 CUDA(其他 GPU)
make cuda-generic
# 仅 CPU 诊断模式
make cpu
第三步:运行推理
# CLI 交互模式
./ds4
# 服务器模式(HTTP API)
./ds4-server
# 自定义模型路径
./ds4 -m ./gguf/my-model.gguf
# 使用 MTP 推测解码(实验性)
./ds4 --mtp
对任一可执行文件传递 --help 可查看完整参数列表。
硬件要求
DS4 专为高端个人电脑设计。所需配置如下:
- 最低配置(Q2 imatrix):96GB 内存(许多用户报告在 25 万上下文下依然可用)
- 推荐配置(Q2 imatrix):128GB 内存,以获得舒适的上下文窗口
- Q4 模式:需要 256GB+ 内存
- 终极配置:Mac Studio M3 Ultra 512GB 或 DGX Spark GB10
注意:CPU 仅用于诊断和分词器测试。macOS 的虚拟内存存在内核 Bug,会导致 CPU 路径崩溃。实际推理请使用 Metal 或 CUDA。
MTP 推测解码(实验性)
DS4 包含实验性的多 Token 预测(MTP)支持,用于推测解码。可通过 ./download_model.sh mtp 下载可选的 GGUF 文件。目前该功能仅是正确性验证阶段,最多只能带来轻微加速,尚未达到有意义的生成速度提升。它适用于所有量化变体。
质量与验证理念
DS4 最独到的特点之一是其对 官方向量验证 的承诺。项目分发的每个 GGUF 文件都经过针对官方 DeepSeek V4 Flash 实现 logits 的测试。测试套件包括:
- 不同上下文大小下的续写向量测试
- 长上下文测试(数千 Token)
- 针对已知输出的回归检查
- 工具调用的智能体集成测试
这与典型的本地推理项目有显著区别——对大多数项目而言,"能跑就行"往往是唯一的质量标准。antirez 的目标是让一个模型做到 端到端完善,而不仅仅是"可运行"。
与 llama.cpp 和 GGML 的关系
DS4 是完全自包含的——ds4.c 不链接 GGML。但它承认对 llama.cpp 项目以及 Georgi Gerganov 的工作的深厚依赖。项目在 MIT 许可下改编了 GGUF 量化布局、CPU 量化/点积逻辑以及某些内核。它是以最佳方式衍生而来:站在基础项目的肩膀上,构建了刻意专业化的成果。
对本地 AI 的意义
DS4 代表了本地 AI 推理领域的一次重要哲学转变。antirez 主张不要试图运行所有模型,而应 深度优化一个重要的模型。同样的方法可以应用于未来的前沿模型——引擎可能会更换目标,但约束条件保持不变:在高端个人机器上实现可信的本地推理。
Redis 的创始人——一位拥有数十年系统编程经验的人——选择使用本地模型而非 Claude 和 GPT 来做实际工作,这是一个强有力的信号。如果 运行在 MacBook 上的 DeepSeek V4 Flash 配合 DS4 能够取代 antirez 这位级别的系统编程专家的云 API 调用,那么本地 AI 格局确实变得更加有趣了。
在 GitHub 上关注项目:github.com/antirez/ds4
本文撰写于 2026 年 5 月 15 日。DS4 为 alpha 质量软件——预计会有快速变化、改进和 Bug 修复。部署前请务必查看最新的 README 和问题列表。