Bernini – 字节跳动开源的统一视频生成与编辑框架

Al项目 2026-06-03 15:00:59 AI导航网

Bernini是什么

Bernini 是字节跳动开源的统一视频生成与编辑框架,采用MLLM 语义规划 + DiT 视觉渲染的两阶段解耦架构。多模态大模型理解指令并规划语义草图,由 Diffusion Transformer 完成高质量视频生成。模型支持文本/图像生成视频、环境/视角/动作编辑、多参考引导植入等任务,推理代码与权重已全面开源。

Bernini的主要功能

  • 文本/图像生成视频:支持从文本提示或参考图像直接生成视频,可处理单图、多元素组合图和多角度参考图。

  • 视频编辑:支持环境编辑、视角编辑、焦点编辑和动作编辑。

  • 参考引导编辑:通过主体参考图、材质参考图或风格参考图,将指定物体、纹理或风格精准融入视频。

  • 图像/视频植入:将海报或视频填入画面中的屏幕、招牌等区域,跟随镜头移动并保持透视和时序稳定。

  • 多元素组合:将多张互不相关的参考图组合成同一个视频角色,或基于同一场景关键帧生成连续平移镜头。

Bernini的技术原理

  • 两阶段解耦架构:第一阶段由多模态大语言模型(MLLM)担任 Semantic Planner,在 ViT 嵌入空间中预测目标语义表示,负责理解文本指令、源视频和参考素材并规划目标内容。第二阶段由 Diffusion Transformer(DiT)担任 Renderer,在 VAE 潜在空间中执行流匹配去噪,将语义规划转化为高质量视频帧。编辑任务中还会注入源视频 VAE 特征保留非编辑区域细节。
  • Segment-Aware 3D RoPE(SA-3D RoPE):当多个参考图、源视频、目标输出被串联为统一序列时,不同片段的 token 可能共享相同时空坐标。通过为每个视觉片段分配 segment 索引并整合到旋转位置编码中,使模型能区分不同来源的 token,同时保留原始时空建模特性。
  • Chain-of-Thought 推理与三阶段训练:Planner 在潜在空间中进行思维链推理,增强复杂编辑场景下的语义保真度。训练分为三阶段:Planner 预训练、Renderer 预训练、Planner 与 Renderer 轻度联合训练,保留预训练优势又保持高效。

如何使用Bernini

  • 克隆仓库:从 GitHub 克隆 Bernini 项目到本地。

  • 安装依赖:运行 pip 安装 requirements.txt 中的依赖包。

  • 下载模型:通过 HuggingFace 下载 Bernini-R-Diffusers 权重。

  • 配置环境:确保使用 Python 3.11.2 和 CUDA 12.4+,推荐 Hopper 架构 GPU。

  • 运行生成:使用 torchrun 执行多 GPU 推理脚本,指定配置文件和测试用例。

  • 配置提示增强:设置 OpenAI 兼容的 API 端点以提升生成质量。

Bernini的核心优势

  • 先理解再生成:MLLM 负责语义规划,DiT 负责视觉渲染,解决传统视频模型「听不懂人话」的痛点。
  • 统一框架:单一架构覆盖生成、编辑、参考引导等多种任务,无需切换模型。
  • 多参考输入:支持文本、图像、视频同时输入,通过 SA-3D RoPE 避免时空混淆。
  • 细节保留:编辑时注入源视频 VAE 特征,保留非编辑区域细节,避免「一改全改」。
  • 完全开源:推理代码与权重已开放,降低研究与开发门槛。
  • 强泛化能力:在训练未明确覆盖的指令(如因果推理、动作变化)上仍表现出色。

Bernini的项目地址

  • 项目官网:https://bernini-ai.github.io
  • GitHub仓库:https://github.com/bytedance/Bernini
  • HuggingFace模型库:https://huggingface.co/ByteDance/Bernini
  • arXiv技术论文:https://arxiv.org/pdf/2605.22344

Bernini的同类竞品对比

对比维度BerniniRunway Gen-4
开发方字节跳动(开源)Runway(闭源)
核心架构MLLM Planner + DiT Renderer专有视频生成模型
任务覆盖生成+编辑统一框架生成+编辑
可控编辑★★★★★ 强(语义规划+多参考)★★★★☆ 较强
参考图支持★★★★★ 多元素/多角度/材质/风格★★★★☆ 支持
开源程度★★★★★ 权重+代码开源★☆☆☆☆ 闭源
硬件要求推荐 H100/H800(8卡视频)云端 API
视频编辑★★★★★ 保留非编辑区域细节★★★★☆
视觉质量★★★★☆ 优秀(480p/16fps)★★★★★ 顶尖

Bernini的应用场景

  • 广告创意:模型能快速生成产品展示视频,支持产品图植入与风格调整。

  • 电商展示:基于商品多角度参考图生成一致性高的动态展示视频。

  • 影视预演:通过关键帧生成连续镜头,辅助虚拟漫游与场景构建。

  • 二次创作:支持风格迁移、天气变换、动作编辑,降低视频再创作门槛。

  • 虚拟拍摄:将海报或视频精准填入画面中的屏幕或招牌,实现虚实融合。

© 版权声明

相关文章