Bernini – 字节跳动开源的统一视频生成与编辑框架

Al项目 2026-06-03 15:00:59 AI导航网

Bernini是什么

Bernini 是字节跳动开源的统一视频生成与编辑框架，采用MLLM 语义规划 + DiT 视觉渲染的两阶段解耦架构。多模态大模型理解指令并规划语义草图，由 Diffusion Transformer 完成高质量视频生成。模型支持文本/图像生成视频、环境/视角/动作编辑、多参考引导植入等任务，推理代码与权重已全面开源。

Bernini的主要功能

文本/图像生成视频：支持从文本提示或参考图像直接生成视频，可处理单图、多元素组合图和多角度参考图。
视频编辑：支持环境编辑、视角编辑、焦点编辑和动作编辑。
参考引导编辑：通过主体参考图、材质参考图或风格参考图，将指定物体、纹理或风格精准融入视频。
图像/视频植入：将海报或视频填入画面中的屏幕、招牌等区域，跟随镜头移动并保持透视和时序稳定。
多元素组合：将多张互不相关的参考图组合成同一个视频角色，或基于同一场景关键帧生成连续平移镜头。

Bernini的技术原理

两阶段解耦架构：第一阶段由多模态大语言模型（MLLM）担任 Semantic Planner，在 ViT 嵌入空间中预测目标语义表示，负责理解文本指令、源视频和参考素材并规划目标内容。第二阶段由 Diffusion Transformer（DiT）担任 Renderer，在 VAE 潜在空间中执行流匹配去噪，将语义规划转化为高质量视频帧。编辑任务中还会注入源视频 VAE 特征保留非编辑区域细节。
Segment-Aware 3D RoPE（SA-3D RoPE）：当多个参考图、源视频、目标输出被串联为统一序列时，不同片段的 token 可能共享相同时空坐标。通过为每个视觉片段分配 segment 索引并整合到旋转位置编码中，使模型能区分不同来源的 token，同时保留原始时空建模特性。
Chain-of-Thought 推理与三阶段训练：Planner 在潜在空间中进行思维链推理，增强复杂编辑场景下的语义保真度。训练分为三阶段：Planner 预训练、Renderer 预训练、Planner 与 Renderer 轻度联合训练，保留预训练优势又保持高效。

如何使用Bernini

克隆仓库：从 GitHub 克隆 Bernini 项目到本地。
安装依赖：运行 pip 安装 requirements.txt 中的依赖包。
下载模型：通过 HuggingFace 下载 Bernini-R-Diffusers 权重。
配置环境：确保使用 Python 3.11.2 和 CUDA 12.4+，推荐 Hopper 架构 GPU。
运行生成：使用 torchrun 执行多 GPU 推理脚本，指定配置文件和测试用例。
配置提示增强：设置 OpenAI 兼容的 API 端点以提升生成质量。

Bernini的核心优势

先理解再生成：MLLM 负责语义规划，DiT 负责视觉渲染，解决传统视频模型「听不懂人话」的痛点。
统一框架：单一架构覆盖生成、编辑、参考引导等多种任务，无需切换模型。
多参考输入：支持文本、图像、视频同时输入，通过 SA-3D RoPE 避免时空混淆。
细节保留：编辑时注入源视频 VAE 特征，保留非编辑区域细节，避免「一改全改」。
完全开源：推理代码与权重已开放，降低研究与开发门槛。
强泛化能力：在训练未明确覆盖的指令（如因果推理、动作变化）上仍表现出色。

Bernini的项目地址

项目官网：https://bernini-ai.github.io
GitHub仓库：https://github.com/bytedance/Bernini
HuggingFace模型库：https://huggingface.co/ByteDance/Bernini
arXiv技术论文：https://arxiv.org/pdf/2605.22344

Bernini的同类竞品对比

对比维度	Bernini	Runway Gen-4
开发方	字节跳动（开源）	Runway（闭源）
核心架构	MLLM Planner + DiT Renderer	专有视频生成模型
任务覆盖	生成+编辑统一框架	生成+编辑
可控编辑	★★★★★ 强（语义规划+多参考）	★★★★☆ 较强
参考图支持	★★★★★ 多元素/多角度/材质/风格	★★★★☆ 支持
开源程度	★★★★★ 权重+代码开源	★☆☆☆☆ 闭源
硬件要求	推荐 H100/H800（8卡视频）	云端 API
视频编辑	★★★★★ 保留非编辑区域细节	★★★★☆
视觉质量	★★★★☆ 优秀（480p/16fps）	★★★★★ 顶尖