混元3D世界模型 2.0是什么
混元3D世界模型 2.0(HY-World 2.0)是腾讯混元推出的开源多模态世界模型,支持从文本、单图、多视图或视频生成可漫游的3D高斯溅射(3DGS)场景。模型采用四阶段架构,全景生成→轨迹规划→世界扩展→3D重建,实现”文/图生3D世界”与”视频重建3D世界”的统一。混元3D世界模型 2.0生成场景支持物理碰撞、角色探索,可导出至Unity/UE引擎,性能对标闭源商业产品Marble。

混元3D世界模型 2.0的主要功能
世界生成:基于文本或单张图片生成360°可漫游的3DGS/Mesh沉浸式场景。
世界重建:从多视图图像或视频输入重建高保真3D数字孪生空间。
全景图生成:将任意视角图片或文字转换为360°全景图(HY-Pano 2.0)。
轨迹智能规划:解析场景语义并规划探索路径,避免穿墙等不合理行为(WorldNav)。
角色冒险模式:支持操控角色在生成场景中自由行走探索。
多格式导出:支持3DGS、Mesh、点云、视频等多种格式及主流引擎对接。
混元3D世界模型 2.0的技术原理
- 全景图生成(HY-Pano 2.0):采用端到端隐式学习方案,通过多模态Diffusion Transformer(MMDiT)自主学习从透视图到360°等距圆柱投影(ERP)的空间映射,无需相机元数据。引入圆形填充(Circle Padding)和像素混合技术解决ERP边界不连续问题,结合真实全景+UE合成数据混合训练。
- 轨迹规划(WorldNav):通过几何与语义场景解析(点云、Mesh、语义分割、NavMesh)理解空间结构,智能规划最大化信息覆盖的漫游轨迹,确保路径自然且避开障碍物,支持常规、环绕、重建感知、漫游、空中等多样化轨迹类型。
- 世界扩展(WorldStereo 2.0):基于关键帧生成而非连续视频生成,引入全局几何记忆和空间立体记忆机制,确保多视角一致性。通过模型蒸馏提升效率,实现沿规划路径的场景扩展与细节补全。
- 世界重建(WorldMirror 2.0):采用前馈式3D预测模型,通过归一化位置编码、显式法线监督和深度掩码预测优化几何精度。结合3D高斯溅射(3DGS)进行最终场景融合与优化,支持从生成视图和真实输入进行鲁棒重建。
如何使用混元3D世界模型 2.0
- 访问平台:访问腾讯混元3D官网登录账号。。
- 选择输入方式:上传单张图片(支持任意视角)或输入文本描述(如”赛博朋克风格的街道,霓虹灯闪烁”)
- 参数配置:选择生成模式(世界生成/世界重建)、场景风格、漫游范围等参数。
- 生成与探索:点击生成后,系统自动执行四阶段流程(全景→轨迹→扩展→重建)。
- 导出使用:支持下载3DGS/Mesh文件或直接生成Unity/UE引擎可导入的资产包。
混元3D世界模型 2.0的关键信息和使用要求
- 开发团队:腾讯混元(Tencent Hunyuan)研发推出。
- 开源情况:模型权重、训练代码及完整技术报告已全面开源,可自由下载研究。
- 输入模态:支持文本提示、单张图片、多视角图片以及视频流四种输入方式。
- 输出格式:可导出3D高斯溅射(3DGS)、网格模型(Mesh)、点云数据、360°全景图及视频序列。
- 引擎支持:生成资产原生兼容Unity和Unreal Engine(UE),可直接导入二次编辑。
- 硬件要求:本地部署需配备NVIDIA GPU,建议使用显存≥16GB的环境以保证生成效率。
混元3D世界模型 2.0的核心优势
生成与重建统一:首个开源框架同时支持”无中生有”(生成)和”从实到虚”(重建)两种范式。
物理可交互:生成场景具备空间逻辑和物理碰撞检测,支持角色操控探索。
无需相机参数:全景生成阶段无需焦距、FOV等元数据,适应真实场景图片。
高质量边界处理:360°全景无缝衔接,无传统ERP图像的左右边界断裂问题。
记忆一致性:世界扩展阶段引入记忆机制,确保长轨迹漫游的视觉连贯性。
工业级兼容:原生支持主流游戏引擎,可直接用于游戏开发和机器人仿真。
混元3D世界模型 2.0的项目地址
- 项目官网:https://3d-models.hunyuan.tencent.com/world/
- GitHub仓库:https://github.com/Tencent-Hunyuan/HY-World-2.0
- HuggingFace模型库:https://huggingface.co/tencent/HY-World-2.0
- 技术论文:https://3d-models.hunyuan.tencent.com/world/world2_0/HY_World_2_0.pdf
混元3D世界模型 2.0的同类竞品对比
| 对比维度 | 混元3D世界模型 2.0 | WonderWorld | Marble |
|---|---|---|---|
| 开发方 | 腾讯混元 | Snap Research / UC Berkeley | World Labs(李飞飞) |
| 开源状态 | 完全开源(权重+代码) | 开源(研究代码) | 闭源/有限开放 |
| 输入模态 | 文本/单图/多视图/视频 | 单图/文本 | 单图/文本 |
| 核心输出 | 3DGS/Mesh | 3DGS | 3DGS |
| 生成与重建 | 统一支持 | 侧重生成 | 侧重生成 |
| 物理交互 | 支持角色漫游+碰撞检测 | 基础漫游 | 基础探索 |
| 引擎导出 | Unity/UE原生支持 | 需转换 | 有限支持 |
| 全景生成 | HY-Pano 2.0(无相机参数需求) | 需已知相机位姿 | 依赖深度估计 |
混元3D世界模型 2.0的应用场景
游戏开发领域:开发者可用模型快速生成具备物理碰撞的可交互3D场景原型,显著降低传统关卡设计的时间和技术门槛。
虚拟现实应用:系统能构建高保真沉浸式VR/AR空间,支持终端用户在生成环境中实现自由行走和实时探索。
数字孪生构建:用户仅需提供少量照片或短视频即可自动重建真实物理世界的高精度3D数字副本。
机器人仿真训练:为具身智能和自动驾驶系统提供物理一致、可交互的虚拟训练环境,支持算法安全验证。
影视虚拟制片:模型能生成360°全景虚拟背景资产,用于电影预演、虚拟摄影棚拍摄及后期特效合成制作。
