Antirez DS4（DwarfStar 4）详细解读：Redis 创始人打造的 DeepSeek V4 Flash 本地推理引擎

什么是 DS4（DwarfStar 4）？

DS4（DwarfStar 4） 是由 Salvatore Sanfilippo（antirez）——Redis 的创始人——为 DeepSeek V4 Flash 专门打造的 完全自包含原生推理引擎。与 Ollama 或 llama.cpp 封装等通用运行器不同，DS4 刻意保持专注：只做一件事，但把它做到极致。

该引擎涵盖了生产级本地推理所需的一切功能：模型加载、提示词渲染、工具调用、KV 状态管理（内存和磁盘双支持），以及完整的 HTTP 服务器 API——开箱即可配合编程智能体或 CLI 界面使用。

这个项目的特别之处在于，antirez 本人表示这是他 第一次认真用本地模型代替 Claude 或 GPT 做实际工作。对于一位在 AI 领域深耕多年的人而言，这无疑是对 DeepSeek V4 Flash 本地推理质量的重要背书。

项目一经发布便登上 Hacker News 首页，1 小时内获得 79+ 分，超过 2.4 万次浏览——反映出社区对高质量本地 AI 推理的强烈需求。

为什么 DeepSeek V4 Flash 值得一个专用引擎？

大多数推理引擎试图运行所有模型。DS4 选择了相反的方向。antirez 认为 DeepSeek V4 Flash 值得拥有独立引擎的原因如下：

速度更快：得益于 MoE 架构，每次激活的参数更少，推理速度优于同等质量的稠密模型。
高效的思考模式：在思考模式下，思考部分的长度往往只有其他模型的 1/5，而且思考长度与问题复杂度成正比。这使得它在开启思考模式时变得实用，而其他模型在同等条件下几乎无法使用。
100 万 Token 上下文：原生支持百万级别的上下文窗口。
准前沿级知识：284B 参数（稀疏激活）存储的知识远超小型稠密模型——特别是在意大利文化、政治等小众话题上。
出色的 KV 压缩：KV 缓存压缩率极高，可以在本地机器上实现长上下文推理，并支持持久化磁盘 KV 缓存。
2 位量化可行：采用非对称量化策略（路由 MoE 专家层 2 位、共享组件全精度）后，模型表现依然出色——足以可靠地支持编程智能体中的工具调用。

支持的后端：Metal、CUDA、ROCm

DS4 支持三种加速器后端，针对能够真正运行 284B 参数模型的硬件做出了明确的选择：

Apple Metal（主要目标）

Metal 是主要开发后端。引擎面向 96GB+ 内存的 MacBook，已在以下设备上经过充分测试：

MacBook Pro M3 Max（128GB）—— Q2 imatrix 约 27 tokens/s 生成速度
Mac Studio M3 Ultra（512GB）—— Q2 约 37 tokens/s，Q4 约 35 tokens/s
MacBook Pro M4 Max——社区测试效果良好

构建命令：make

NVIDIA CUDA

CUDA 支持主要针对 DGX Spark（GB10）——NVIDIA 的紧凑型桌面 AI 超级计算机。也适用于其他本地 CUDA GPU：

DGX Spark GB10（128GB 统一内存）—— Q2 在 7k 上下文时约 14 tokens/s
具有足够显存的通用 NVIDIA GPU

构建命令：make cuda-spark（DGX Spark）或 make cuda-generic（其他 GPU）

AMD ROCm（社区分支）

ROCm 支持位于独立分支中。由于 antirez 没有直接的 AMD 硬件，社区负责维护和变基该分支。

这是一种务实的做法——既保持主分支的整洁，又支持 AMD 生态。

核心特性与架构

1. 非对称 2/8 位量化

DS4 采用了新颖的非对称量化策略，远非传统印象中的"2 位就是开玩笑"：

路由 MoE 专家层大幅量化（up/gate 使用 IQ2_XXS，down 使用 Q2_K）——占模型参数的大多数
共享专家、投影层和路由层保留全精度（8 位或更高）
这种选择性方法在关键处保持模型质量，同时大幅降低内存占用
推荐使用 imatrix 优化版本以获得更好的质量

2. KV 缓存：磁盘是第一公民

antirez 提出了一个引人注目的架构主张：压缩 KV 缓存（就像 DeepSeek V4 那样）加上快速 SSD 存储，应该改变我们"KV 缓存属于 RAM"的固有观念。DS4 将 KV 状态视为主要驻留在磁盘上的数据，从而实现：

在有限 RAM 的机器上进行超长上下文推理
跨会话持久化 KV 缓存
为百万 Token 上下文窗口提供高效的内存管理

3. 工具调用就绪

DS4 内置了工具调用支持——这不是附加功能，而是核心特性。antirez 分发的 GGUF 文件已经过验证，能够可靠地和工具调用智能体配合使用。这对于编程智能体和自动化工作流等实际用例至关重要。

4. 服务器 API + CLI 双接口

引擎提供两种交互方式：

./ds4——CLI 界面，用于交互式使用、测试和基准测试
./ds4-server——HTTP API 服务器，用于集成编程智能体和外部工具

两者都通过 -m 参数指定模型路径。

5. GGUF 和 IMatrix 工具链

DS4 包含完整的一套离线工具，供模型构建者使用：

GGUF 生成和量化
IMatrix（重要性矩阵）收集和应用
针对官方 DeepSeek V4 Flash logits 的质量测试
支持 CSV 输出和图表生成的性能基准测试

性能基准测试

以下是 antirez 测试中的实际性能数据（Metal 后端，--ctx 32768，--nothink，贪婪解码，-n 256）：

设备	量化	提示词	预填充	生成
M3 Max 128GB	Q2	短提示	58.52 t/s	26.68 t/s
M3 Max 128GB	Q2	11,709 tokens	250.11 t/s	21.47 t/s
M3 Ultra 512GB	Q2	短提示	84.43 t/s	36.86 t/s
M3 Ultra 512GB	Q2	11,709 tokens	468.03 t/s	27.39 t/s
M3 Ultra 512GB	Q4	短提示	78.95 t/s	35.50 t/s
M3 Ultra 512GB	Q4	12,018 tokens	448.82 t/s	26.62 t/s
DGX Spark 128GB	Q2	7,047 tokens	343.81 t/s	13.75 t/s

关键结论：Q2 imatrix 在 Apple Silicon 上提供 20-37 tokens/s——对于交互式工作、编程智能体和聊天来说完全可用。Q4 需要 256GB+ 内存的机器，但以相当的速度提供更高的质量。

如何开始使用 DS4

第一步：下载模型

项目附带便捷的下载脚本，可以从 Hugging Face 获取预量化 GGUF 文件：

# 适用于 96-128GB 内存的机器（推荐）：
./download_model.sh q2-imatrix

# 适用于 256GB+ 内存的机器：
./download_model.sh q4-imatrix

# 旧版本（如果需要非 imatrix 版本）：
./download_model.sh q2   # 96-128GB
./download_model.sh q4   # 256GB+

脚本将文件存储在 ./gguf/ 目录下，支持 curl -C - 断点续传，并在 ./ds4flash.gguf 创建指向所选模型的符号链接。

第二步：构建引擎

# macOS 使用 Metal
make

# Linux 使用 CUDA（DGX Spark）
make cuda-spark

# Linux 使用 CUDA（其他 GPU）
make cuda-generic

# 仅 CPU 诊断模式
make cpu

第三步：运行推理

# CLI 交互模式
./ds4

# 服务器模式（HTTP API）
./ds4-server

# 自定义模型路径
./ds4 -m ./gguf/my-model.gguf

# 使用 MTP 推测解码（实验性）
./ds4 --mtp

对任一可执行文件传递 --help 可查看完整参数列表。

硬件要求

DS4 专为高端个人电脑设计。所需配置如下：

最低配置（Q2 imatrix）：96GB 内存（许多用户报告在 25 万上下文下依然可用）
推荐配置（Q2 imatrix）：128GB 内存，以获得舒适的上下文窗口
Q4 模式：需要 256GB+ 内存
终极配置：Mac Studio M3 Ultra 512GB 或 DGX Spark GB10

注意：CPU 仅用于诊断和分词器测试。macOS 的虚拟内存存在内核 Bug，会导致 CPU 路径崩溃。实际推理请使用 Metal 或 CUDA。

MTP 推测解码（实验性）

DS4 包含实验性的多 Token 预测（MTP）支持，用于推测解码。可通过 ./download_model.sh mtp 下载可选的 GGUF 文件。目前该功能仅是正确性验证阶段，最多只能带来轻微加速，尚未达到有意义的生成速度提升。它适用于所有量化变体。

质量与验证理念

DS4 最独到的特点之一是其对 官方向量验证 的承诺。项目分发的每个 GGUF 文件都经过针对官方 DeepSeek V4 Flash 实现 logits 的测试。测试套件包括：

不同上下文大小下的续写向量测试
长上下文测试（数千 Token）
针对已知输出的回归检查
工具调用的智能体集成测试

这与典型的本地推理项目有显著区别——对大多数项目而言，"能跑就行"往往是唯一的质量标准。antirez 的目标是让一个模型做到 端到端完善，而不仅仅是"可运行"。

与 llama.cpp 和 GGML 的关系

DS4 是完全自包含的——ds4.c 不链接 GGML。但它承认对 llama.cpp 项目以及 Georgi Gerganov 的工作的深厚依赖。项目在 MIT 许可下改编了 GGUF 量化布局、CPU 量化/点积逻辑以及某些内核。它是以最佳方式衍生而来：站在基础项目的肩膀上，构建了刻意专业化的成果。

对本地 AI 的意义

DS4 代表了本地 AI 推理领域的一次重要哲学转变。antirez 主张不要试图运行所有模型，而应 深度优化一个重要的模型。同样的方法可以应用于未来的前沿模型——引擎可能会更换目标，但约束条件保持不变：在高端个人机器上实现可信的本地推理。

Redis 的创始人——一位拥有数十年系统编程经验的人——选择使用本地模型而非 Claude 和 GPT 来做实际工作，这是一个强有力的信号。如果 运行在 MacBook 上的 DeepSeek V4 Flash 配合 DS4 能够取代 antirez 这位级别的系统编程专家的云 API 调用，那么本地 AI 格局确实变得更加有趣了。

在 GitHub 上关注项目：github.com/antirez/ds4

本文撰写于 2026 年 5 月 15 日。DS4 为 alpha 质量软件——预计会有快速变化、改进和 Bug 修复。部署前请务必查看最新的 README 和问题列表。

Antirez DS4（DwarfStar 4）深度解读：Redis 创始人的 DeepSeek V4 Flash 专用本地推理引擎