Lance – 字节跳动开源的轻量级原生统一多模态模型

Al项目 2026-05-20 23:17:11 AI导航网

Lance是什么

Lance 是字节跳动智能创作团队开源的轻量级原生统一多模态模型,仅 3B 激活参数,在单一框架内同时支持图像与视频的理解、生成与编辑全链路任务。模型采用分阶段多任务方案从零训练,整个训练周期仅消耗 128 张 A100 GPU,在 GenEval、VBench 等多项基准测试中表现优异,遵循 Apache-2.0 开源协议,支持商业使用。

Lance的主要功能

  • 图像理解:对输入图像进行语义解析、内容识别与视觉问答。
  • 图像生成:根据文本提示生成高质量图像,支持复杂构图与属性绑定。
  • 图像编辑:支持背景替换、物体增删、风格转换、外观重塑等指令级编辑。
  • 视频理解:对视频内容进行时序分析、动作识别与语义理解。
  • 视频生成:根据文本描述生成连贯视频,支持角色运动与场景构建。
  • 视频编辑:实现单步与组合式视频编辑,包括背景变换、主体替换与动作修改。
  • 多轮一致性编辑:对同一主体进行连续多轮编辑,保持身份与风格一致。

Lance的技术原理

  • 双流混合专家架构:在共享多模态序列表示的同时,为理解与生成任务分配独立的专家路径,避免异构目标相互干扰。
  • 统一交织序列表示:将文本 token、ViT 语义 token、干净 VAE 潜在 token 与噪声 VAE 潜在 token 组织为统一序列,支持理解、生成与条件编辑。
  • 广义三维因果注意力:对序列进行模态分段,文本 token 使用因果注意力,视觉 token 使用双向注意力,统一处理多模态理解与生成。
  • 模态感知位置编码:引入针对图像与视频异构视觉 token 的旋转位置编码,削弱不同模态间的信号干扰。
  • 分阶段多任务训练:采用预训练、持续训练与监督微调的渐进式配方,在有限算力预算内实现多任务协同。

如何使用Lance

  • 环境准备:确保本地或云端具备 Python 环境及至少一张支持 CUDA 的 GPU。
  • 克隆仓库:执行 git clone https://github.com/bytedance/Lance.git 下载项目源码。
  • 安装依赖:进入项目目录后运行 pip install -r requirements.txt 安装必要库。
  • 下载权重:从 Hugging Face 或项目 Release 页面获取 Lance 预训练模型权重。
  • 运行推理:根据官方示例脚本加载模型,输入文本或视觉提示进行生成、编辑或理解任务。

Lance的核心优势

  • 极致轻量:仅 3B 激活参数,在统一模型中实现参数量与性能的最佳平衡。
  • 全链路统一:单一模型覆盖图像与视频的理解、生成、编辑六大任务,无需切换专用模型。
  • 低成本训练:128 张 A100 GPU 预算内从零训练完成,大幅降低复现门槛。
  • 商业友好:Apache-2.0 开源协议,支持自由商用、修改与分发。
  • 性能领先:在 GenEval、GEdit-Bench、VBench 等多项基准中优于现有开源统一模型。

Lance的项目地址

  • 项目官网:https://lance-project.github.io/
  • GitHub仓库:https://github.com/bytedance/Lance
  • HuggingFace模型库:https://huggingface.co/bytedance-research/Lance
  • arXiv技术论文:https://arxiv.org/pdf/2605.18678

Lance的同类竞品对比

对比维度LanceTUNAShow-o2
激活参数量3B7B7B
任务覆盖图像/视频理解、生成、编辑图像/视频理解、生成图像/视频理解、生成
开源协议Apache-2.0未明确Apache-2.0
GenEval 总分0.900.900.76
GEdit-Bench 均分7.306.52未列入
VBench 总分85.11未列入未列入
架构特点双流 MoE + 模态感知位置编码统一自回归架构统一自回归架构

Lance的应用场景

  • 智能内容创作:为设计师与创作者提供一站式图像与视频生成编辑工具,加速创意落地。

  • 短视频生产:支持快速生成与编辑短视频内容,降低视频制作门槛与成本。

  • 广告营销素材:批量生成商品图、海报与宣传视频,实现视觉素材的高效迭代。

  • 视觉搜索增强:基于图像与视频理解能力,提升电商与内容平台的视觉检索体验。

  • 教育内容制作:自动生成教学插图与演示视频,丰富在线教育与培训的多媒体资源。

© 版权声明

相关文章