ZAYA1-8B 开源 MoE 模型深度解读：760M 参数打平 DeepSeek-R1，AMD 全栈训练新突破

发布: 2026-05-07 · 阅读: 8 分钟 · 标签: ZAYA1-8B, Zyphra, MoE 模型, DeepSeek-R1, AMD Instinct

2026 年 5 月 7 日，Zyphra 开源了 ZAYA1-8B——一款仅 760M 活跃参数的混合专家 (MoE) 模型，在数学推理基准上直接打平 DeepSeek-R1。更让人注意的是，这个模型从头到尾都是用 AMD Instinct MI300X GPU 集群训练的，没有用一块 NVIDIA H100。

这篇文章帮你拆解 ZAYA1-8B 为什么值得关注、技术细节是什么、在实际场景中意味着什么。

ZAYA1-8B 是什么

ZAYA1-8B 是 Zyphra 推出的开源 MoE (Mixture of Experts) 语言模型。总参数量 8.4B，但推理时只激活 760M 参数。这意味着：运行成本接近 1B 模型，但知识储备覆盖 8.4B 参数的全部专家网络。

简单说，它在小模型外壳里塞了一个大模型的知识体。对开发者来说，这直接关系到推理成本和部署门槛。

核心基准数据

Zyphra 公布的评测结果很直接。以下是 ZAYA1-8B 与其他模型的对比（base 分数，不含 RSA 增强）：

基准测试	ZAYA1-8B (base)	DeepSeek-R1-0528	Mistral Small 4	Qwen3-4B-Thinking	Claude Sonnet 4.5
AIME 2026	89.1	—	86.4 (119B)	77.5 (4B dense)	—
HMMT Feb 2026	71.6	—	70.6	60.8	—
LiveCodeBench	65.8	—	57.9	—	—
AIME 2025	打平 DeepSeek-R1	参考线	—	—	被超越

注意 Mistral Small 4 是 119B 总参、约 6B 活跃参的 MoE 模型。ZAYA1-8B 以 760M 活跃参在 AIME 2026 上高出近 3 分、在 LiveCodeBench 上高出近 8 分，这才是真正值得注意的地方。

Markovian RSA：测试时计算的新思路

ZAYA1-8B 另一个技术亮点是 Markovian RSA (Recursive Self-Attention)。这不是传统 MoE 自带的机制，而是 Zyphra 自己做的推理增强方法。

RSA 的核心思路：生成多条推理轨迹并并行聚合，把更多测试时计算转化为精度提升。对 ZAYA1-8B 来说，启用 RSA 后的分数还能再上一个台阶——AIME 2026 从 89.1 提升到更高水平（待论文披露具体数字）。

RSA 的意义不仅在于分数提升，更在于它让"小模型 + 更多推理"这条路线有了正式的理论支撑。如果你跑 ZAYA1-8B 做数学或编程推理，打开 RSA 几乎总是值得的。

这次为什么特殊——AMD 全栈训练

几乎所有你听过的开源模型都是在 NVIDIA 硬件上训练的。H100、A100、GB200 是默认选项。Zyphra 不一样——ZAYA1-8B 的训练全程跑在 AMD Instinct MI300X 集群上，1,024 节点，使用 AMD Pensando Pollara 互联。

这件事情的意义：

突破 NVIDIA 生态依赖——证明 AMD 训练栈可以产出前沿水平的模型。这对那些正在考虑基础设施多元化（不想被 CUDA 锁定）的团队来说是个明确信号。
工程能力验证——Zyphra 团队要解决大多数实验室不会遇到的兼容性问题（ROCm 栈的坑、通信库适配、优化器收敛调试）。模型能做到这个水平，说明硬件+软件栈都已经成熟。
长期来看是好事——GPU 训练市场的竞争越激烈，开发者能租到的算力就越便宜。

跟其他 MoE 模型对比

ZAYA1-8B 的对比对象不是 8B 级别的稠密模型——它是 MoE，比较的应该是同量级 MoE。

模型	总参数	活跃参数	架构	训练硬件	AIME 2026
ZAYA1-8B	8.4B	760M	MoE	AMD MI300X	89.1
DeepSeek-R1-0528	—	—	MoE	NVIDIA	86+
Mistral Small 4	119B	~6B	MoE	NVIDIA	86.4
Qwen3-4B-Thinking	4B	4B	Dense	NVIDIA	77.5
Gemma 4 E4B	4B	~1B	MoE	NVIDIA	—

760M 活跃参拿 89.1 分这个成绩，在 MoE 小模型里确实领先。Mistral Small 4 有 6B 活跃参但仍被甩开，说明 ZAYA1-8B 的专家分配策略和注意力机制确实做了一些不一样的事情。

怎么用 ZAYA1-8B

ZAYA1-8B 已经在 Hugging Face 开源，MIT 许可。你可以通过以下方式使用：

# Hugging Face Transformers
from transformers import AutoModelForCausalLM, AutoTokenizer
model = AutoModelForCausalLM.from_pretrained("Zyphra/ZAYA1-8B", trust_remote_code=True)
tokenizer = AutoTokenizer.from_pretrained("Zyphra/ZAYA1-8B")

硬件方面，因为只有 760M 活跃参数，ZAYA1-8B 可以在消费级 GPU 上流畅运行：

RTX 3090/4090 → 完全没问题，FP16 推理
RTX 3060 12GB → 4-bit 量化后可运行
Apple Silicon M2/M3 → MLX 或 llama.cpp 可用
CPU 推理 → llama.cpp GGUF 量化版，速度偏慢但能用

总结与评价

ZAYA1-8B 的价值不在于"又出了一个 8B 模型"，而在于它证明了三件事：

MoE 小模型的天花板远没到。760M 活跃参能跟 DeepSeek-R1 正面交锋，意味着未来 AI 推理的主流单位可能从"几B"变成"几百万参"。这对 edge 部署和端侧 AI 是重大利好。
AMD 训练栈已经可用。对于算力预算有限又不想被 NVIDIA 锁定的团队，ZAYA1-8B 是一个可参考的蓝本。ROCm 的生态还在追赶 CUDA，但这条路已经走通了。
测试时计算还有空间。RSA 机制让 ZAYA1-8B 能在推理时动态分配算力。这不是微调，是推理阶段的效率提升——对成本敏感的生产场景很实用。

如果你在做数学推理、编程 Agent 或需要在小预算下跑高性能模型的场景，ZAYA1-8B 值得跑一轮评测，看看跟你的业务场景是否匹配。