Antirez DS4(DwarfStar 4)深度解读:Redis 创始人的 DeepSeek V4 Flash 专用本地推理引擎

Salvatore Sanfilippo(antirez)发布 DwarfStar 4——一个为 DeepSeek V4 Flash 量身定制的纯原生推理引擎,支持 Metal、CUDA 和 ROCm。登上 Hacker News 首页,1 小时内收获 79+ 分和 2.4 万+ 浏览。

什么是 DS4(DwarfStar 4)?

DS4(DwarfStar 4) 是由 Salvatore Sanfilippo(antirez)——Redis 的创始人——为 DeepSeek V4 Flash 专门打造的 完全自包含原生推理引擎。与 Ollama 或 llama.cpp 封装等通用运行器不同,DS4 刻意保持专注:只做一件事,但把它做到极致。

该引擎涵盖了生产级本地推理所需的一切功能:模型加载、提示词渲染、工具调用、KV 状态管理(内存和磁盘双支持),以及完整的 HTTP 服务器 API——开箱即可配合编程智能体或 CLI 界面使用。

这个项目的特别之处在于,antirez 本人表示这是他 第一次认真用本地模型代替 Claude 或 GPT 做实际工作。对于一位在 AI 领域深耕多年的人而言,这无疑是对 DeepSeek V4 Flash 本地推理质量的重要背书。

项目一经发布便登上 Hacker News 首页1 小时内获得 79+ 分,超过 2.4 万次浏览——反映出社区对高质量本地 AI 推理的强烈需求。

为什么 DeepSeek V4 Flash 值得一个专用引擎?

大多数推理引擎试图运行所有模型。DS4 选择了相反的方向。antirez 认为 DeepSeek V4 Flash 值得拥有独立引擎的原因如下:

  • 速度更快:得益于 MoE 架构,每次激活的参数更少,推理速度优于同等质量的稠密模型。
  • 高效的思考模式:在思考模式下,思考部分的长度往往只有其他模型的 1/5,而且思考长度与问题复杂度成正比。这使得它在开启思考模式时变得实用,而其他模型在同等条件下几乎无法使用。
  • 100 万 Token 上下文:原生支持百万级别的上下文窗口。
  • 准前沿级知识:284B 参数(稀疏激活)存储的知识远超小型稠密模型——特别是在意大利文化、政治等小众话题上。
  • 出色的 KV 压缩:KV 缓存压缩率极高,可以在本地机器上实现长上下文推理,并支持持久化磁盘 KV 缓存。
  • 2 位量化可行:采用非对称量化策略(路由 MoE 专家层 2 位、共享组件全精度)后,模型表现依然出色——足以可靠地支持编程智能体中的工具调用。

支持的后端:Metal、CUDA、ROCm

DS4 支持三种加速器后端,针对能够真正运行 284B 参数模型的硬件做出了明确的选择:

Apple Metal(主要目标)

Metal 是主要开发后端。引擎面向 96GB+ 内存的 MacBook,已在以下设备上经过充分测试:

  • MacBook Pro M3 Max(128GB)—— Q2 imatrix 约 27 tokens/s 生成速度
  • Mac Studio M3 Ultra(512GB)—— Q2 约 37 tokens/s,Q4 约 35 tokens/s
  • MacBook Pro M4 Max——社区测试效果良好

构建命令:make

NVIDIA CUDA

CUDA 支持主要针对 DGX Spark(GB10)——NVIDIA 的紧凑型桌面 AI 超级计算机。也适用于其他本地 CUDA GPU:

  • DGX Spark GB10(128GB 统一内存)—— Q2 在 7k 上下文时约 14 tokens/s
  • 具有足够显存的通用 NVIDIA GPU

构建命令:make cuda-spark(DGX Spark)或 make cuda-generic(其他 GPU)

AMD ROCm(社区分支)

ROCm 支持位于 独立分支 中。由于 antirez 没有直接的 AMD 硬件,社区负责维护和变基该分支。

这是一种务实的做法——既保持主分支的整洁,又支持 AMD 生态。

核心特性与架构

1. 非对称 2/8 位量化

DS4 采用了新颖的非对称量化策略,远非传统印象中的"2 位就是开玩笑":

  • 路由 MoE 专家层大幅量化(up/gate 使用 IQ2_XXS,down 使用 Q2_K)——占模型参数的大多数
  • 共享专家、投影层和路由层保留全精度(8 位或更高)
  • 这种选择性方法在关键处保持模型质量,同时大幅降低内存占用
  • 推荐使用 imatrix 优化版本以获得更好的质量

2. KV 缓存:磁盘是第一公民

antirez 提出了一个引人注目的架构主张:压缩 KV 缓存(就像 DeepSeek V4 那样)加上快速 SSD 存储,应该改变我们"KV 缓存属于 RAM"的固有观念。DS4 将 KV 状态视为主要驻留在磁盘上的数据,从而实现:

  • 在有限 RAM 的机器上进行超长上下文推理
  • 跨会话持久化 KV 缓存
  • 为百万 Token 上下文窗口提供高效的内存管理

3. 工具调用就绪

DS4 内置了工具调用支持——这不是附加功能,而是核心特性。antirez 分发的 GGUF 文件已经过验证,能够可靠地和工具调用智能体配合使用。这对于编程智能体和自动化工作流等实际用例至关重要。

4. 服务器 API + CLI 双接口

引擎提供两种交互方式:

  • ./ds4——CLI 界面,用于交互式使用、测试和基准测试
  • ./ds4-server——HTTP API 服务器,用于集成编程智能体和外部工具

两者都通过 -m 参数指定模型路径。

5. GGUF 和 IMatrix 工具链

DS4 包含完整的一套离线工具,供模型构建者使用:

  • GGUF 生成和量化
  • IMatrix(重要性矩阵)收集和应用
  • 针对官方 DeepSeek V4 Flash logits 的质量测试
  • 支持 CSV 输出和图表生成的性能基准测试

性能基准测试

以下是 antirez 测试中的实际性能数据(Metal 后端,--ctx 32768,--nothink,贪婪解码,-n 256):

设备 量化 提示词 预填充 生成
M3 Max 128GB Q2 短提示 58.52 t/s 26.68 t/s
M3 Max 128GB Q2 11,709 tokens 250.11 t/s 21.47 t/s
M3 Ultra 512GB Q2 短提示 84.43 t/s 36.86 t/s
M3 Ultra 512GB Q2 11,709 tokens 468.03 t/s 27.39 t/s
M3 Ultra 512GB Q4 短提示 78.95 t/s 35.50 t/s
M3 Ultra 512GB Q4 12,018 tokens 448.82 t/s 26.62 t/s
DGX Spark 128GB Q2 7,047 tokens 343.81 t/s 13.75 t/s

关键结论:Q2 imatrix 在 Apple Silicon 上提供 20-37 tokens/s——对于交互式工作、编程智能体和聊天来说完全可用。Q4 需要 256GB+ 内存的机器,但以相当的速度提供更高的质量。

如何开始使用 DS4

第一步:下载模型

项目附带便捷的下载脚本,可以从 Hugging Face 获取预量化 GGUF 文件:

# 适用于 96-128GB 内存的机器(推荐):
./download_model.sh q2-imatrix

# 适用于 256GB+ 内存的机器:
./download_model.sh q4-imatrix

# 旧版本(如果需要非 imatrix 版本):
./download_model.sh q2   # 96-128GB
./download_model.sh q4   # 256GB+

脚本将文件存储在 ./gguf/ 目录下,支持 curl -C - 断点续传,并在 ./ds4flash.gguf 创建指向所选模型的符号链接。

第二步:构建引擎

# macOS 使用 Metal
make

# Linux 使用 CUDA(DGX Spark)
make cuda-spark

# Linux 使用 CUDA(其他 GPU)
make cuda-generic

# 仅 CPU 诊断模式
make cpu

第三步:运行推理

# CLI 交互模式
./ds4

# 服务器模式(HTTP API)
./ds4-server

# 自定义模型路径
./ds4 -m ./gguf/my-model.gguf

# 使用 MTP 推测解码(实验性)
./ds4 --mtp

对任一可执行文件传递 --help 可查看完整参数列表。

硬件要求

DS4 专为高端个人电脑设计。所需配置如下:

  • 最低配置(Q2 imatrix):96GB 内存(许多用户报告在 25 万上下文下依然可用)
  • 推荐配置(Q2 imatrix):128GB 内存,以获得舒适的上下文窗口
  • Q4 模式:需要 256GB+ 内存
  • 终极配置:Mac Studio M3 Ultra 512GB 或 DGX Spark GB10

注意:CPU 仅用于诊断和分词器测试。macOS 的虚拟内存存在内核 Bug,会导致 CPU 路径崩溃。实际推理请使用 Metal 或 CUDA。

MTP 推测解码(实验性)

DS4 包含实验性的多 Token 预测(MTP)支持,用于推测解码。可通过 ./download_model.sh mtp 下载可选的 GGUF 文件。目前该功能仅是正确性验证阶段,最多只能带来轻微加速,尚未达到有意义的生成速度提升。它适用于所有量化变体。

质量与验证理念

DS4 最独到的特点之一是其对 官方向量验证 的承诺。项目分发的每个 GGUF 文件都经过针对官方 DeepSeek V4 Flash 实现 logits 的测试。测试套件包括:

  • 不同上下文大小下的续写向量测试
  • 长上下文测试(数千 Token)
  • 针对已知输出的回归检查
  • 工具调用的智能体集成测试

这与典型的本地推理项目有显著区别——对大多数项目而言,"能跑就行"往往是唯一的质量标准。antirez 的目标是让一个模型做到 端到端完善,而不仅仅是"可运行"。

与 llama.cpp 和 GGML 的关系

DS4 是完全自包含的——ds4.c 不链接 GGML。但它承认对 llama.cpp 项目以及 Georgi Gerganov 的工作的深厚依赖。项目在 MIT 许可下改编了 GGUF 量化布局、CPU 量化/点积逻辑以及某些内核。它是以最佳方式衍生而来:站在基础项目的肩膀上,构建了刻意专业化的成果。

对本地 AI 的意义

DS4 代表了本地 AI 推理领域的一次重要哲学转变。antirez 主张不要试图运行所有模型,而应 深度优化一个重要的模型。同样的方法可以应用于未来的前沿模型——引擎可能会更换目标,但约束条件保持不变:在高端个人机器上实现可信的本地推理。

Redis 的创始人——一位拥有数十年系统编程经验的人——选择使用本地模型而非 Claude 和 GPT 来做实际工作,这是一个强有力的信号。如果 运行在 MacBook 上的 DeepSeek V4 Flash 配合 DS4 能够取代 antirez 这位级别的系统编程专家的云 API 调用,那么本地 AI 格局确实变得更加有趣了。

在 GitHub 上关注项目:github.com/antirez/ds4


本文撰写于 2026 年 5 月 15 日。DS4 为 alpha 质量软件——预计会有快速变化、改进和 Bug 修复。部署前请务必查看最新的 README 和问题列表。