ZAYA1-8B 开源 MoE 模型深度解读:760M 参数打平 DeepSeek-R1,AMD 全栈训练新突破

发布: 2026-05-07 · 阅读: 8 分钟 · 标签: ZAYA1-8B, Zyphra, MoE 模型, DeepSeek-R1, AMD Instinct

2026 年 5 月 7 日,Zyphra 开源了 ZAYA1-8B——一款仅 760M 活跃参数的混合专家 (MoE) 模型,在数学推理基准上直接打平 DeepSeek-R1。更让人注意的是,这个模型从头到尾都是用 AMD Instinct MI300X GPU 集群训练的,没有用一块 NVIDIA H100。

这篇文章帮你拆解 ZAYA1-8B 为什么值得关注、技术细节是什么、在实际场景中意味着什么。

ZAYA1-8B 是什么

ZAYA1-8B 是 Zyphra 推出的开源 MoE (Mixture of Experts) 语言模型。总参数量 8.4B,但推理时只激活 760M 参数。这意味着:运行成本接近 1B 模型,但知识储备覆盖 8.4B 参数的全部专家网络

简单说,它在小模型外壳里塞了一个大模型的知识体。对开发者来说,这直接关系到推理成本和部署门槛。

核心基准数据

Zyphra 公布的评测结果很直接。以下是 ZAYA1-8B 与其他模型的对比(base 分数,不含 RSA 增强):

基准测试ZAYA1-8B (base)DeepSeek-R1-0528Mistral Small 4Qwen3-4B-ThinkingClaude Sonnet 4.5
AIME 202689.186.4 (119B)77.5 (4B dense)
HMMT Feb 202671.670.660.8
LiveCodeBench65.857.9
AIME 2025打平 DeepSeek-R1参考线被超越

注意 Mistral Small 4 是 119B 总参、约 6B 活跃参的 MoE 模型。ZAYA1-8B 以 760M 活跃参在 AIME 2026 上高出近 3 分、在 LiveCodeBench 上高出近 8 分,这才是真正值得注意的地方。

Markovian RSA:测试时计算的新思路

ZAYA1-8B 另一个技术亮点是 Markovian RSA (Recursive Self-Attention)。这不是传统 MoE 自带的机制,而是 Zyphra 自己做的推理增强方法。

RSA 的核心思路:生成多条推理轨迹并并行聚合,把更多测试时计算转化为精度提升。对 ZAYA1-8B 来说,启用 RSA 后的分数还能再上一个台阶——AIME 2026 从 89.1 提升到更高水平(待论文披露具体数字)。

RSA 的意义不仅在于分数提升,更在于它让"小模型 + 更多推理"这条路线有了正式的理论支撑。如果你跑 ZAYA1-8B 做数学或编程推理,打开 RSA 几乎总是值得的。

这次为什么特殊——AMD 全栈训练

几乎所有你听过的开源模型都是在 NVIDIA 硬件上训练的。H100、A100、GB200 是默认选项。Zyphra 不一样——ZAYA1-8B 的训练全程跑在 AMD Instinct MI300X 集群上,1,024 节点,使用 AMD Pensando Pollara 互联。

这件事情的意义:

跟其他 MoE 模型对比

ZAYA1-8B 的对比对象不是 8B 级别的稠密模型——它是 MoE,比较的应该是同量级 MoE。

模型总参数活跃参数架构训练硬件AIME 2026
ZAYA1-8B8.4B760MMoEAMD MI300X89.1
DeepSeek-R1-0528MoENVIDIA86+
Mistral Small 4119B~6BMoENVIDIA86.4
Qwen3-4B-Thinking4B4BDenseNVIDIA77.5
Gemma 4 E4B4B~1BMoENVIDIA

760M 活跃参拿 89.1 分这个成绩,在 MoE 小模型里确实领先。Mistral Small 4 有 6B 活跃参但仍被甩开,说明 ZAYA1-8B 的专家分配策略和注意力机制确实做了一些不一样的事情。

怎么用 ZAYA1-8B

ZAYA1-8B 已经在 Hugging Face 开源,MIT 许可。你可以通过以下方式使用:

# Hugging Face Transformers
from transformers import AutoModelForCausalLM, AutoTokenizer
model = AutoModelForCausalLM.from_pretrained("Zyphra/ZAYA1-8B", trust_remote_code=True)
tokenizer = AutoTokenizer.from_pretrained("Zyphra/ZAYA1-8B")

硬件方面,因为只有 760M 活跃参数,ZAYA1-8B 可以在消费级 GPU 上流畅运行:

总结与评价

ZAYA1-8B 的价值不在于"又出了一个 8B 模型",而在于它证明了三件事:

  1. MoE 小模型的天花板远没到。760M 活跃参能跟 DeepSeek-R1 正面交锋,意味着未来 AI 推理的主流单位可能从"几B"变成"几百万参"。这对 edge 部署和端侧 AI 是重大利好。
  2. AMD 训练栈已经可用。对于算力预算有限又不想被 NVIDIA 锁定的团队,ZAYA1-8B 是一个可参考的蓝本。ROCm 的生态还在追赶 CUDA,但这条路已经走通了。
  3. 测试时计算还有空间。RSA 机制让 ZAYA1-8B 能在推理时动态分配算力。这不是微调,是推理阶段的效率提升——对成本敏感的生产场景很实用。

如果你在做数学推理、编程 Agent 或需要在小预算下跑高性能模型的场景,ZAYA1-8B 值得跑一轮评测,看看跟你的业务场景是否匹配。

相关文章