NVIDIA SANA-WM：2.6B 参数开源世界模型，单卡 34 秒生成 1 分钟 720p 视频

发布: 2026-05-17 阅读: 9 分钟世界模型 / 视频生成 / NVIDIA / 开源 AI / Hacker News

NVIDIA Labs 刚刚发布了 SANA-WM——一个只有 2.6B 参数的开源世界模型，能够生成长达 1 分钟的 720p 高清视频，并支持精确的 6 自由度（6-DoF）相机控制。论文在 Hacker News 上拿到 132 分，引发了大量讨论。

这个模型最让人惊讶的不是效果有多好，而是它有多「省」：训练只用了 21.3 万条公开视频片段，在 64 张 H100 上跑了 15 天就搞定；推理端更夸张——蒸馏版在单张 RTX 5090 上，用 NVFP4 量化，34 秒就能去噪出一个 60 秒的 720p 视频。

为什么「世界模型」比普通视频生成更难

先厘清概念。普通的视频生成模型（比如 Sora、Kling）本质上是「图像续写」——给你一张图或一段文字，模型凭「想象」把后面的帧补出来。结果可能很好看，但物理规律经常对不上：杯子穿手、影子方向不对、物体突然消失。

世界模型的目标更野心勃勃：它不只是生成视频，而是要理解「世界是怎么运转的」。具体来说，给定当前画面和一个动作（比如「镜头向左移 2 米，向上抬 15 度」），模型要准确预测下一帧应该长什么样。这意味着模型内部需要某种对三维空间、物理规律和因果关系的建模。

这就是为什么相机控制（6-DoF）这么重要——它不只是个「花活」，而是世界模型是否真正理解空间的关键指标。

生成 1 分钟 720p 视频意味着要处理巨量的 token。传统 softmax attention 的内存和计算开销随序列长度平方增长，直接用会爆显存。

SANA-WM 的解法是混合架构：帧内用 Gated DeltaNet（GDN）——一种线性注意力变体，内存开销和序列长度成线性关系；帧间才用传统 softmax attention 来捕捉长距离依赖。这样既保持了长上下文建模能力，又把显存占用压到了可接受的范围。

很多视频生成模型的「相机控制」其实很粗糙——你说向左移，它可能向左移了，也可能顺便帮你旋转了一下镜头。SANA-WM 用了双分支设计：一个分支负责视觉内容生成，另一个专门负责相机轨迹的精确执行。两个分支通过特征注入协同工作，确保你给的 6-DoF 轨迹被准确执行。

第一阶段生成基础视频，第二阶段用一个「长视频精炼器」对输出做质量提升和一致性修复。这种分阶段策略在图像生成里已经很常见（比如 SDXL 的 refiner），但把它用在分钟级视频上需要解决帧间一致性问题——不能让精炼器改一帧结果把前后帧都搞崩了。

训练世界模型需要精确的相机位姿标注，但公开视频数据集几乎不带这种标注。SANA-WM 团队自己建了一条管线，能从普通公开视频中提取度量级精度的 6-DoF 相机位姿。这一步很关键——标注质量直接决定了模型学到的「空间理解」有多准。

来看几个关键数字：

34 秒生成 1 分钟视频是什么概念？意味着你可以在消费级硬件上做到接近实时的世界模拟。对于游戏开发、机器人仿真、自动驾驶测试这些场景来说，这是质变。

这是很多人会问的问题。Sora 和 Kling 的目标是「生成好看的视频」，SANA-WM 的目标是「模拟真实的物理世界」。具体区别：

可控性：Sora/Kling 的相机控制是粗粒度的（推/拉/摇/移），SANA-WM 支持精确的 6-DoF 轨迹（x, y, z 位移 + 三个旋转角）
物理一致性：世界模型的目标是让物理规律自洽，不只是视觉上好看
效率：SANA-WM 只有 2.6B 参数，Sora 据传是 30B+ 级别
开源：SANA-WM 完全开源，Sora 和 Kling 都是闭源 API

世界模型的价值远不止「做个酷炫视频」。几个真正有潜力的方向：

游戏和虚拟世界：用世界模型做实时场景生成，NPC 的行为模拟，或者动态环境的程序化生成。

机器人训练：机器人在真实世界试错成本太高，用世界模型做仿真环境可以大幅降低训练成本。SANA-WM 的精确相机控制让它特别适合这个场景。

自动驾驶仿真：生成各种驾驶场景的逼真视频，用于测试和验证自动驾驶系统。6-DoF 相机控制意味着你可以精确模拟车辆的运动轨迹。

创意工具：给导演和设计师一个「世界模拟器」，可以快速预览不同镜头运动方案的效果。

不要被标题冲昏头脑。几个需要注意的点：

SANA-WM 最值得注意的不是某个单独的技术点，而是它的工程思路——用 2.6B 的小模型 + 高效架构 + 精细标注，去跟 30B+ 的工业级模型掰手腕。这跟 DeepSeek 系列的哲学很像：不是谁的模型大谁就赢，而是谁的效率高谁赢。

对于想入门世界模型研究的人来说，SANA-WM 的论文值得精读。特别是它的混合线性注意力设计和标注管线，这两个是可以直接复用到其他项目里的。

SANA-WM 证明了一件事：世界模型不需要天文数字的参数量和训练预算。2.6B 参数、21.3 万条视频、15 天训练，就能达到工业级的视觉质量和 36 倍的推理效率。单张 RTX 5090 跑 34 秒出一分钟视频，让消费级硬件上的世界模拟第一次变得现实。

当然，这只是个开始。世界模型离真正「理解物理」还有很长的路要走。但 SANA-WM 把门槛拉到了个人开发者和小团队也能参与的程度——这才是它最大的贡献。