ZAYA1-8B 开源 MoE 模型深度解读:760M 参数打平 DeepSeek-R1,AMD 全栈训练新突破
发布: 2026-05-07 · 阅读: 8 分钟 · 标签: ZAYA1-8B, Zyphra, MoE 模型, DeepSeek-R1, AMD Instinct2026 年 5 月 7 日,Zyphra 开源了 ZAYA1-8B——一款仅 760M 活跃参数的混合专家 (MoE) 模型,在数学推理基准上直接打平 DeepSeek-R1。更让人注意的是,这个模型从头到尾都是用 AMD Instinct MI300X GPU 集群训练的,没有用一块 NVIDIA H100。
这篇文章帮你拆解 ZAYA1-8B 为什么值得关注、技术细节是什么、在实际场景中意味着什么。
ZAYA1-8B 是什么
ZAYA1-8B 是 Zyphra 推出的开源 MoE (Mixture of Experts) 语言模型。总参数量 8.4B,但推理时只激活 760M 参数。这意味着:运行成本接近 1B 模型,但知识储备覆盖 8.4B 参数的全部专家网络。
简单说,它在小模型外壳里塞了一个大模型的知识体。对开发者来说,这直接关系到推理成本和部署门槛。
核心基准数据
Zyphra 公布的评测结果很直接。以下是 ZAYA1-8B 与其他模型的对比(base 分数,不含 RSA 增强):
| 基准测试 | ZAYA1-8B (base) | DeepSeek-R1-0528 | Mistral Small 4 | Qwen3-4B-Thinking | Claude Sonnet 4.5 |
|---|---|---|---|---|---|
| AIME 2026 | 89.1 | — | 86.4 (119B) | 77.5 (4B dense) | — |
| HMMT Feb 2026 | 71.6 | — | 70.6 | 60.8 | — |
| LiveCodeBench | 65.8 | — | 57.9 | — | — |
| AIME 2025 | 打平 DeepSeek-R1 | 参考线 | — | — | 被超越 |
注意 Mistral Small 4 是 119B 总参、约 6B 活跃参的 MoE 模型。ZAYA1-8B 以 760M 活跃参在 AIME 2026 上高出近 3 分、在 LiveCodeBench 上高出近 8 分,这才是真正值得注意的地方。
Markovian RSA:测试时计算的新思路
ZAYA1-8B 另一个技术亮点是 Markovian RSA (Recursive Self-Attention)。这不是传统 MoE 自带的机制,而是 Zyphra 自己做的推理增强方法。
RSA 的核心思路:生成多条推理轨迹并并行聚合,把更多测试时计算转化为精度提升。对 ZAYA1-8B 来说,启用 RSA 后的分数还能再上一个台阶——AIME 2026 从 89.1 提升到更高水平(待论文披露具体数字)。
RSA 的意义不仅在于分数提升,更在于它让"小模型 + 更多推理"这条路线有了正式的理论支撑。如果你跑 ZAYA1-8B 做数学或编程推理,打开 RSA 几乎总是值得的。
这次为什么特殊——AMD 全栈训练
几乎所有你听过的开源模型都是在 NVIDIA 硬件上训练的。H100、A100、GB200 是默认选项。Zyphra 不一样——ZAYA1-8B 的训练全程跑在 AMD Instinct MI300X 集群上,1,024 节点,使用 AMD Pensando Pollara 互联。
这件事情的意义:
- 突破 NVIDIA 生态依赖——证明 AMD 训练栈可以产出前沿水平的模型。这对那些正在考虑基础设施多元化(不想被 CUDA 锁定)的团队来说是个明确信号。
- 工程能力验证——Zyphra 团队要解决大多数实验室不会遇到的兼容性问题(ROCm 栈的坑、通信库适配、优化器收敛调试)。模型能做到这个水平,说明硬件+软件栈都已经成熟。
- 长期来看是好事——GPU 训练市场的竞争越激烈,开发者能租到的算力就越便宜。
跟其他 MoE 模型对比
ZAYA1-8B 的对比对象不是 8B 级别的稠密模型——它是 MoE,比较的应该是同量级 MoE。
| 模型 | 总参数 | 活跃参数 | 架构 | 训练硬件 | AIME 2026 |
|---|---|---|---|---|---|
| ZAYA1-8B | 8.4B | 760M | MoE | AMD MI300X | 89.1 |
| DeepSeek-R1-0528 | — | — | MoE | NVIDIA | 86+ |
| Mistral Small 4 | 119B | ~6B | MoE | NVIDIA | 86.4 |
| Qwen3-4B-Thinking | 4B | 4B | Dense | NVIDIA | 77.5 |
| Gemma 4 E4B | 4B | ~1B | MoE | NVIDIA | — |
760M 活跃参拿 89.1 分这个成绩,在 MoE 小模型里确实领先。Mistral Small 4 有 6B 活跃参但仍被甩开,说明 ZAYA1-8B 的专家分配策略和注意力机制确实做了一些不一样的事情。
怎么用 ZAYA1-8B
ZAYA1-8B 已经在 Hugging Face 开源,MIT 许可。你可以通过以下方式使用:
# Hugging Face Transformers
from transformers import AutoModelForCausalLM, AutoTokenizer
model = AutoModelForCausalLM.from_pretrained("Zyphra/ZAYA1-8B", trust_remote_code=True)
tokenizer = AutoTokenizer.from_pretrained("Zyphra/ZAYA1-8B")
硬件方面,因为只有 760M 活跃参数,ZAYA1-8B 可以在消费级 GPU 上流畅运行:
- RTX 3090/4090 → 完全没问题,FP16 推理
- RTX 3060 12GB → 4-bit 量化后可运行
- Apple Silicon M2/M3 → MLX 或 llama.cpp 可用
- CPU 推理 → llama.cpp GGUF 量化版,速度偏慢但能用
总结与评价
ZAYA1-8B 的价值不在于"又出了一个 8B 模型",而在于它证明了三件事:
- MoE 小模型的天花板远没到。760M 活跃参能跟 DeepSeek-R1 正面交锋,意味着未来 AI 推理的主流单位可能从"几B"变成"几百万参"。这对 edge 部署和端侧 AI 是重大利好。
- AMD 训练栈已经可用。对于算力预算有限又不想被 NVIDIA 锁定的团队,ZAYA1-8B 是一个可参考的蓝本。ROCm 的生态还在追赶 CUDA,但这条路已经走通了。
- 测试时计算还有空间。RSA 机制让 ZAYA1-8B 能在推理时动态分配算力。这不是微调,是推理阶段的效率提升——对成本敏感的生产场景很实用。
如果你在做数学推理、编程 Agent 或需要在小预算下跑高性能模型的场景,ZAYA1-8B 值得跑一轮评测,看看跟你的业务场景是否匹配。