← EasyTool.me

NVIDIA SANA-WM:2.6B 参数开源世界模型,单卡 34 秒生成 1 分钟 720p 视频

发布: 2026-05-17 阅读: 9 分钟 世界模型 / 视频生成 / NVIDIA / 开源 AI / Hacker News

NVIDIA Labs 刚刚发布了 SANA-WM——一个只有 2.6B 参数的开源世界模型,能够生成长达 1 分钟的 720p 高清视频,并支持精确的 6 自由度(6-DoF)相机控制。论文在 Hacker News 上拿到 132 分,引发了大量讨论。

这个模型最让人惊讶的不是效果有多好,而是它有多「省」:训练只用了 21.3 万条公开视频片段,在 64 张 H100 上跑了 15 天就搞定;推理端更夸张——蒸馏版在单张 RTX 5090 上,用 NVFP4 量化,34 秒就能去噪出一个 60 秒的 720p 视频。

为什么「世界模型」比普通视频生成更难

先厘清概念。普通的视频生成模型(比如 Sora、Kling)本质上是「图像续写」——给你一张图或一段文字,模型凭「想象」把后面的帧补出来。结果可能很好看,但物理规律经常对不上:杯子穿手、影子方向不对、物体突然消失。

世界模型的目标更野心勃勃:它不只是生成视频,而是要理解「世界是怎么运转的」。具体来说,给定当前画面和一个动作(比如「镜头向左移 2 米,向上抬 15 度」),模型要准确预测下一帧应该长什么样。这意味着模型内部需要某种对三维空间、物理规律和因果关系的建模。

这就是为什么相机控制(6-DoF)这么重要——它不只是个「花活」,而是世界模型是否真正理解空间的关键指标。

SANA-WM 的四个核心设计

1. 混合线性注意力(Hybrid Linear Attention)

生成 1 分钟 720p 视频意味着要处理巨量的 token。传统 softmax attention 的内存和计算开销随序列长度平方增长,直接用会爆显存。

SANA-WM 的解法是混合架构:帧内用 Gated DeltaNet(GDN)——一种线性注意力变体,内存开销和序列长度成线性关系;帧间才用传统 softmax attention 来捕捉长距离依赖。这样既保持了长上下文建模能力,又把显存占用压到了可接受的范围。

2. 双分支相机控制(Dual-Branch Camera Control)

很多视频生成模型的「相机控制」其实很粗糙——你说向左移,它可能向左移了,也可能顺便帮你旋转了一下镜头。SANA-WM 用了双分支设计:一个分支负责视觉内容生成,另一个专门负责相机轨迹的精确执行。两个分支通过特征注入协同工作,确保你给的 6-DoF 轨迹被准确执行。

3. 两阶段生成管线(Two-Stage Pipeline)

第一阶段生成基础视频,第二阶段用一个「长视频精炼器」对输出做质量提升和一致性修复。这种分阶段策略在图像生成里已经很常见(比如 SDXL 的 refiner),但把它用在分钟级视频上需要解决帧间一致性问题——不能让精炼器改一帧结果把前后帧都搞崩了。

4. 鲁棒的标注管线(Robust Annotation Pipeline)

训练世界模型需要精确的相机位姿标注,但公开视频数据集几乎不带这种标注。SANA-WM 团队自己建了一条管线,能从普通公开视频中提取度量级精度的 6-DoF 相机位姿。这一步很关键——标注质量直接决定了模型学到的「空间理解」有多准。

性能数据:到底有多能打

来看几个关键数字:

34 秒生成 1 分钟视频是什么概念?意味着你可以在消费级硬件上做到接近实时的世界模拟。对于游戏开发、机器人仿真、自动驾驶测试这些场景来说,这是质变。

跟 Sora/Kling 有什么不同

这是很多人会问的问题。Sora 和 Kling 的目标是「生成好看的视频」,SANA-WM 的目标是「模拟真实的物理世界」。具体区别:

应用场景:不只是生成视频

世界模型的价值远不止「做个酷炫视频」。几个真正有潜力的方向:

游戏和虚拟世界:用世界模型做实时场景生成,NPC 的行为模拟,或者动态环境的程序化生成。

机器人训练:机器人在真实世界试错成本太高,用世界模型做仿真环境可以大幅降低训练成本。SANA-WM 的精确相机控制让它特别适合这个场景。

自动驾驶仿真:生成各种驾驶场景的逼真视频,用于测试和验证自动驾驶系统。6-DoF 相机控制意味着你可以精确模拟车辆的运动轨迹。

创意工具:给导演和设计师一个「世界模拟器」,可以快速预览不同镜头运动方案的效果。

局限性和注意事项

不要被标题冲昏头脑。几个需要注意的点:

对开发者和研究者的启示

SANA-WM 最值得注意的不是某个单独的技术点,而是它的工程思路——用 2.6B 的小模型 + 高效架构 + 精细标注,去跟 30B+ 的工业级模型掰手腕。这跟 DeepSeek 系列的哲学很像:不是谁的模型大谁就赢,而是谁的效率高谁赢。

对于想入门世界模型研究的人来说,SANA-WM 的论文值得精读。特别是它的混合线性注意力设计和标注管线,这两个是可以直接复用到其他项目里的。

论文:arXiv:2605.15178
项目主页:nvlabs.github.io/Sana/WM/

总结

SANA-WM 证明了一件事:世界模型不需要天文数字的参数量和训练预算。2.6B 参数、21.3 万条视频、15 天训练,就能达到工业级的视觉质量和 36 倍的推理效率。单张 RTX 5090 跑 34 秒出一分钟视频,让消费级硬件上的世界模拟第一次变得现实。

当然,这只是个开始。世界模型离真正「理解物理」还有很长的路要走。但 SANA-WM 把门槛拉到了个人开发者和小团队也能参与的程度——这才是它最大的贡献。