NVIDIA SANA-WM:2.6B 参数开源世界模型,单卡 34 秒生成 1 分钟 720p 视频
NVIDIA Labs 刚刚发布了 SANA-WM——一个只有 2.6B 参数的开源世界模型,能够生成长达 1 分钟的 720p 高清视频,并支持精确的 6 自由度(6-DoF)相机控制。论文在 Hacker News 上拿到 132 分,引发了大量讨论。
这个模型最让人惊讶的不是效果有多好,而是它有多「省」:训练只用了 21.3 万条公开视频片段,在 64 张 H100 上跑了 15 天就搞定;推理端更夸张——蒸馏版在单张 RTX 5090 上,用 NVFP4 量化,34 秒就能去噪出一个 60 秒的 720p 视频。
为什么「世界模型」比普通视频生成更难
先厘清概念。普通的视频生成模型(比如 Sora、Kling)本质上是「图像续写」——给你一张图或一段文字,模型凭「想象」把后面的帧补出来。结果可能很好看,但物理规律经常对不上:杯子穿手、影子方向不对、物体突然消失。
世界模型的目标更野心勃勃:它不只是生成视频,而是要理解「世界是怎么运转的」。具体来说,给定当前画面和一个动作(比如「镜头向左移 2 米,向上抬 15 度」),模型要准确预测下一帧应该长什么样。这意味着模型内部需要某种对三维空间、物理规律和因果关系的建模。
这就是为什么相机控制(6-DoF)这么重要——它不只是个「花活」,而是世界模型是否真正理解空间的关键指标。
SANA-WM 的四个核心设计
1. 混合线性注意力(Hybrid Linear Attention)
生成 1 分钟 720p 视频意味着要处理巨量的 token。传统 softmax attention 的内存和计算开销随序列长度平方增长,直接用会爆显存。
SANA-WM 的解法是混合架构:帧内用 Gated DeltaNet(GDN)——一种线性注意力变体,内存开销和序列长度成线性关系;帧间才用传统 softmax attention 来捕捉长距离依赖。这样既保持了长上下文建模能力,又把显存占用压到了可接受的范围。
2. 双分支相机控制(Dual-Branch Camera Control)
很多视频生成模型的「相机控制」其实很粗糙——你说向左移,它可能向左移了,也可能顺便帮你旋转了一下镜头。SANA-WM 用了双分支设计:一个分支负责视觉内容生成,另一个专门负责相机轨迹的精确执行。两个分支通过特征注入协同工作,确保你给的 6-DoF 轨迹被准确执行。
3. 两阶段生成管线(Two-Stage Pipeline)
第一阶段生成基础视频,第二阶段用一个「长视频精炼器」对输出做质量提升和一致性修复。这种分阶段策略在图像生成里已经很常见(比如 SDXL 的 refiner),但把它用在分钟级视频上需要解决帧间一致性问题——不能让精炼器改一帧结果把前后帧都搞崩了。
4. 鲁棒的标注管线(Robust Annotation Pipeline)
训练世界模型需要精确的相机位姿标注,但公开视频数据集几乎不带这种标注。SANA-WM 团队自己建了一条管线,能从普通公开视频中提取度量级精度的 6-DoF 相机位姿。这一步很关键——标注质量直接决定了模型学到的「空间理解」有多准。
性能数据:到底有多能打
来看几个关键数字:
- 模型大小:2.6B 参数,在同类世界模型里算是轻量级
- 训练数据:约 21.3 万条公开视频片段,带度量级位姿标注
- 训练成本:64 张 H100,15 天完成
- 推理(标准版):单张 GPU 生成 60 秒 720p 视频
- 推理(蒸馏版):单张 RTX 5090 + NVFP4 量化,34 秒生成 60 秒 720p 视频
- 吞吐量:比同类开源方案高 36 倍
- 对比:视觉质量可比 LingBot-World、HY-WorldPlay 等工业级大模型
34 秒生成 1 分钟视频是什么概念?意味着你可以在消费级硬件上做到接近实时的世界模拟。对于游戏开发、机器人仿真、自动驾驶测试这些场景来说,这是质变。
跟 Sora/Kling 有什么不同
这是很多人会问的问题。Sora 和 Kling 的目标是「生成好看的视频」,SANA-WM 的目标是「模拟真实的物理世界」。具体区别:
- 可控性:Sora/Kling 的相机控制是粗粒度的(推/拉/摇/移),SANA-WM 支持精确的 6-DoF 轨迹(x, y, z 位移 + 三个旋转角)
- 物理一致性:世界模型的目标是让物理规律自洽,不只是视觉上好看
- 效率:SANA-WM 只有 2.6B 参数,Sora 据传是 30B+ 级别
- 开源:SANA-WM 完全开源,Sora 和 Kling 都是闭源 API
应用场景:不只是生成视频
世界模型的价值远不止「做个酷炫视频」。几个真正有潜力的方向:
游戏和虚拟世界:用世界模型做实时场景生成,NPC 的行为模拟,或者动态环境的程序化生成。
机器人训练:机器人在真实世界试错成本太高,用世界模型做仿真环境可以大幅降低训练成本。SANA-WM 的精确相机控制让它特别适合这个场景。
自动驾驶仿真:生成各种驾驶场景的逼真视频,用于测试和验证自动驾驶系统。6-DoF 相机控制意味着你可以精确模拟车辆的运动轨迹。
创意工具:给导演和设计师一个「世界模拟器」,可以快速预览不同镜头运动方案的效果。
局限性和注意事项
不要被标题冲昏头脑。几个需要注意的点:
- 论文没有放出可直接运行的推理代码和模型权重(截至发稿),只有项目主页
- 21.3 万条训练数据虽然比很多方案少,但标注管线的复现成本不低
- 64 张 H100 训练 15 天,按云服务价格算大概要 5-10 万美元,不是个人玩家能玩的
- 「世界模型」的物理一致性还远没到完美——它只是比纯视频生成好,不代表真的理解物理
- NVFP4 量化会带来一定精度损失,实际效果可能比论文展示的略差
对开发者和研究者的启示
SANA-WM 最值得注意的不是某个单独的技术点,而是它的工程思路——用 2.6B 的小模型 + 高效架构 + 精细标注,去跟 30B+ 的工业级模型掰手腕。这跟 DeepSeek 系列的哲学很像:不是谁的模型大谁就赢,而是谁的效率高谁赢。
对于想入门世界模型研究的人来说,SANA-WM 的论文值得精读。特别是它的混合线性注意力设计和标注管线,这两个是可以直接复用到其他项目里的。
论文:arXiv:2605.15178
项目主页:nvlabs.github.io/Sana/WM/
总结
SANA-WM 证明了一件事:世界模型不需要天文数字的参数量和训练预算。2.6B 参数、21.3 万条视频、15 天训练,就能达到工业级的视觉质量和 36 倍的推理效率。单张 RTX 5090 跑 34 秒出一分钟视频,让消费级硬件上的世界模拟第一次变得现实。
当然,这只是个开始。世界模型离真正「理解物理」还有很长的路要走。但 SANA-WM 把门槛拉到了个人开发者和小团队也能参与的程度——这才是它最大的贡献。