混元3D世界模型 2.0 – 腾讯混元开源的多模态世界模型

Al项目 2026-04-16 12:00:13 AI导航网

混元3D世界模型 2.0是什么

混元3D世界模型 2.0（HY-World 2.0）是腾讯混元推出的开源多模态世界模型，支持从文本、单图、多视图或视频生成可漫游的3D高斯溅射（3DGS）场景。模型采用四阶段架构，全景生成→轨迹规划→世界扩展→3D重建，实现”文/图生3D世界”与”视频重建3D世界”的统一。混元3D世界模型 2.0生成场景支持物理碰撞、角色探索，可导出至Unity/UE引擎，性能对标闭源商业产品Marble。

混元3D世界模型 2.0的主要功能

世界生成：基于文本或单张图片生成360°可漫游的3DGS/Mesh沉浸式场景。
世界重建：从多视图图像或视频输入重建高保真3D数字孪生空间。
全景图生成：将任意视角图片或文字转换为360°全景图（HY-Pano 2.0）。
轨迹智能规划：解析场景语义并规划探索路径，避免穿墙等不合理行为（WorldNav）。
角色冒险模式：支持操控角色在生成场景中自由行走探索。
多格式导出：支持3DGS、Mesh、点云、视频等多种格式及主流引擎对接。

混元3D世界模型 2.0的技术原理

全景图生成（HY-Pano 2.0）：采用端到端隐式学习方案，通过多模态Diffusion Transformer（MMDiT）自主学习从透视图到360°等距圆柱投影（ERP）的空间映射，无需相机元数据。引入圆形填充（Circle Padding）和像素混合技术解决ERP边界不连续问题，结合真实全景+UE合成数据混合训练。
轨迹规划（WorldNav）：通过几何与语义场景解析（点云、Mesh、语义分割、NavMesh）理解空间结构，智能规划最大化信息覆盖的漫游轨迹，确保路径自然且避开障碍物，支持常规、环绕、重建感知、漫游、空中等多样化轨迹类型。
世界扩展（WorldStereo 2.0）：基于关键帧生成而非连续视频生成，引入全局几何记忆和空间立体记忆机制，确保多视角一致性。通过模型蒸馏提升效率，实现沿规划路径的场景扩展与细节补全。
世界重建（WorldMirror 2.0）：采用前馈式3D预测模型，通过归一化位置编码、显式法线监督和深度掩码预测优化几何精度。结合3D高斯溅射（3DGS）进行最终场景融合与优化，支持从生成视图和真实输入进行鲁棒重建。

如何使用混元3D世界模型 2.0

访问平台：访问腾讯混元3D官网登录账号。。
选择输入方式：上传单张图片（支持任意视角）或输入文本描述（如”赛博朋克风格的街道，霓虹灯闪烁”）
参数配置：选择生成模式（世界生成/世界重建）、场景风格、漫游范围等参数。
生成与探索：点击生成后，系统自动执行四阶段流程（全景→轨迹→扩展→重建）。
导出使用：支持下载3DGS/Mesh文件或直接生成Unity/UE引擎可导入的资产包。

混元3D世界模型 2.0的关键信息和使用要求

开发团队：腾讯混元（Tencent Hunyuan）研发推出。
开源情况：模型权重、训练代码及完整技术报告已全面开源，可自由下载研究。
输入模态：支持文本提示、单张图片、多视角图片以及视频流四种输入方式。
输出格式：可导出3D高斯溅射（3DGS）、网格模型（Mesh）、点云数据、360°全景图及视频序列。
引擎支持：生成资产原生兼容Unity和Unreal Engine（UE），可直接导入二次编辑。
硬件要求：本地部署需配备NVIDIA GPU，建议使用显存≥16GB的环境以保证生成效率。

混元3D世界模型 2.0的核心优势

生成与重建统一：首个开源框架同时支持”无中生有”（生成）和”从实到虚”（重建）两种范式。
物理可交互：生成场景具备空间逻辑和物理碰撞检测，支持角色操控探索。
无需相机参数：全景生成阶段无需焦距、FOV等元数据，适应真实场景图片。
高质量边界处理：360°全景无缝衔接，无传统ERP图像的左右边界断裂问题。
记忆一致性：世界扩展阶段引入记忆机制，确保长轨迹漫游的视觉连贯性。
工业级兼容：原生支持主流游戏引擎，可直接用于游戏开发和机器人仿真。

混元3D世界模型 2.0的项目地址

项目官网：https://3d-models.hunyuan.tencent.com/world/
GitHub仓库：https://github.com/Tencent-Hunyuan/HY-World-2.0
HuggingFace模型库：https://huggingface.co/tencent/HY-World-2.0
技术论文：https://3d-models.hunyuan.tencent.com/world/world2_0/HY_World_2_0.pdf

混元3D世界模型 2.0的同类竞品对比

对比维度	混元3D世界模型 2.0	WonderWorld	Marble
开发方	腾讯混元	Snap Research / UC Berkeley	World Labs（李飞飞）
开源状态	完全开源（权重+代码）	开源（研究代码）	闭源/有限开放
输入模态	文本/单图/多视图/视频	单图/文本	单图/文本
核心输出	3DGS/Mesh	3DGS	3DGS
生成与重建	统一支持	侧重生成	侧重生成
物理交互	支持角色漫游+碰撞检测	基础漫游	基础探索
引擎导出	Unity/UE原生支持	需转换	有限支持
全景生成	HY-Pano 2.0（无相机参数需求）	需已知相机位姿	依赖深度估计