Lyra 2.0 – 英伟达开源的可探索生成式 3D 世界框架

Al项目 2026-04-21 12:00:58 AI导航网

Lyra 2.0是什么

Lyra 2.0 是 NVIDIA 推出的可探索生成式 3D 世界框架。框架从单张图像出发,结合相机控制视频生成与前馈 3D 重建技术,通过”检索-生成-更新”迭代循环,构建可持久漫游的大规模 3D 场景。系统采用每帧独立 3D 几何缓存进行空间记忆检索,引入自增强训练策略抑制时间漂移,实现数百帧长程 3D 一致性生成。Lyra 2.0 生成结果可重建为高保真 3D Gaussian Splatting 与表面网格,直接导出至 NVIDIA Isaac Sim 等物理引擎,为具身智能训练提供可交互的仿真环境。

Lyra 2.0的主要功能

  • 长程 3D 一致视频生成:沿用户自定义相机轨迹生成数百帧的漫游视频,支持大视角变化与区域重访。

  • 空间记忆检索:基于每帧 3D 几何建立空间缓存,自动检索与目标视角最相关的历史帧作为条件。

  • 抗时间漂移生成:通过自增强训练策略,使模型在自回归推理中主动纠正误差累积,保持长期视觉一致性。

  • 交互式 3D 探索器:提供 GUI 可视化累积点云,用户可规划轨迹重访已探索区域或进入未观察区域。

  • 前馈 3D 重建:将生成视频通过微调的前馈模型重建为高保真 3D Gaussian Splatting 与表面网格。

  • 仿真资产导出:支持直接导出至 NVIDIA Isaac Sim 等物理引擎,用于机器人导航与交互训练。

  • 加速推理版本:提供基于分布匹配蒸馏的 4 步去噪学生模型,推理速度提升约 13 倍。

Lyra 2.0的技术原理

  • 生成式重建范式:结合相机控制视频扩散模型的视觉保真度与前馈 3D 重建技术,将单图+轨迹转化为可实时渲染的 3D 输出。

  • 解耦几何路由与外观合成:维护每帧独立 3D 缓存(深度图+点云),仅用于检索历史帧和建立密集 3D 对应关系;实际像素合成仍由视频扩散模型的生成先验完成,避免渲染伪影传播。

  • 规范坐标扭曲注入:将检索到的历史帧通过深度前向扭曲至目标视角,生成规范坐标图与深度图,经位置编码和 MLP 处理后注入 DiT 的自注意力层,提供精确几何对齐信号。

  • 自增强抗漂移训练:用概率将训练中的历史隐变量加噪并通过单步去噪替换为近似重建,迫使模型在条件不完美时仍能恢复干净目标,缩小训练-推理分布差异。

  • FramePack 上下文压缩:采用可变核 patchification 对时间历史进行压缩,近帧细粒度、远帧粗粒度,在固定 token 预算内扩展有效上下文窗口。

  • 微调前馈重建:基于 Depth Anything v3 改进高分辨率下的 Gaussian 预测密度,在 Lyra 2.0 生成数据上微调,提升对生成伪影的鲁棒性。

如何使用Lyra 2.0

  • 克隆仓库:从GitHub仓库拉取代码按 README 配置环境依赖。

  • 下载模型:从 Hugging Face 或项目页获取 Lyra 2.0 预训练权重。

  • 准备输入:提供单张场景图像,可选配文本提示引导生成风格。

  • 启动探索器:运行交互式 GUI 加载图像并规划相机漫游轨迹。

  • 迭代生成:系统自动检索空间记忆中的相关历史帧并逐段生成长程视频。

  • 重建 3D:调用微调的前馈模型将视频序列转为 3D Gaussian Splatting。

  • 提取网格:运行脚本输出表面 Mesh,支持分层稀疏网格提取。

  • 导出部署:将 3D 资产导入 NVIDIA Isaac Sim 等物理引擎进行具身智能训练。

Lyra 2.0的关键信息和使用要求

  • 项目定位:NVIDIA 推出的开源可探索生成式 3D 世界框架,支持从单张图像迭代构建持久、可漫游的大规模 3D 场景。
  • 核心技术:基于 Wan 2.1 VAE + DiT 的视频扩散模型,采用”检索-生成-更新”自回归循环;通过每帧独立 3D 几何缓存解决空间遗忘,通过自增强训练抑制时间漂移。
  • 输入输出:输入为单张 RGB 图像 + 可选文本提示 + 相机轨迹;输出为长程相机控制视频,可进一步重建为 3D Gaussian Splatting 与表面网格,支持导出至物理引擎。
  • 性能优化:提供基于分布匹配蒸馏的 4 步加速模型,推理速度提升约 13 倍。
  • 硬件环境:需配备 NVIDIA GPU(推荐高显存显卡以支持长视频生成与 3D 重建),CUDA 环境必备。
  • 软件依赖:PyTorch、diffusers、transformers、FramePack、Depth Anything V3、OpenVDB 等,具体版本以仓库 requirements.txt 为准。

Lyra 2.0的核心优势

  • 全局空间持久性:通过独立每帧几何缓存与可见性检索,解决长程生成中的空间遗忘问题,重访区域保持结构一致。

  • 长期视觉稳定性:自增强训练有效抑制自回归误差累积,相比基线显著减少颜色漂移与几何畸变。

  • 高质量 3D 输出:前馈重建模型针对生成数据微调,容忍轻微多视图不一致,产出干净连贯的 3DGS 与网格。

  • 交互可控:用户可实时规划任意长相机轨迹,系统渐进式扩展场景,非一次性黑盒生成。

Lyra 2.0的项目地址

  • 项目官网:https://research.nvidia.com/labs/sil/projects/lyra2/
  • GitHub仓库:https://github.com/nv-tlabs/lyra
  • HuggingFace模型库:https://huggingface.co/nvidia/Lyra-2.0
  • arXiv技术论文:https://arxiv.org/pdf/2604.13036

Lyra 2.0的同类竞品对比

维度Lyra 2.0GEN3CWonderland
技术路线视频生成 + 前馈 3D 重建,解耦几何路由与外观合成视频生成 + 全局 3D 表示条件生成,紧耦合设计相机控制视频扩散 + 专用前馈网络预测 3DGS
记忆机制每帧独立 3D 缓存,仅用于信息路由与对应关系建立累积全局点云/深度渲染图作为生成条件无显式空间记忆,依赖视频模型自身时间上下文
长程一致性支持数百帧大视角变化与区域重访,抗时间漂移受限于全局 3D 表示质量,误差易放大视角覆盖有限,长程一致性未重点解决
交互方式显式相机轨迹规划 + 可选文本提示显式相机轨迹 + 3D 条件显式相机轨迹控制
输出格式3D Gaussian Splatting + 表面网格,支持物理引擎导出视频与 3D 输出3D Gaussian Splatting
训练数据DL3DV 真实场景长视频,自增强策略未公开详细训练方案未公开详细训练方案
推理效率提供 4 步蒸馏模型,速度提升 13 倍标准扩散采样标准扩散采样

Lyra 2.0的应用场景

  • 具身智能仿真:为机器人训练生成可交互的 3D 室内/室外环境,替代高成本真实场景采集。

  • 虚拟世界构建:从单张概念图快速生成可漫游的游戏关卡或元宇宙场景原型。

  • 建筑与室内设计:基于平面图或效果图生成 3D walkthrough,支持客户沉浸式预览空间布局。

  • 影视预演制作:为导演提供从静态概念图到动态场景漫游的快速可视化方案。

© 版权声明

相关文章