ControlFoley – 小米开源的可控视频音效生成模型

Al项目 2026-06-01 00:01:46 AI导航网

ControlFoley是什么

ControlFoley是小米开源的可控视频音效生成模型,能解决V2A领域可控性难题。模型统一支持文本引导、文本控制与参考音频控制三类视频配音任务,通过自研时空音视频编码器CAV-MAE-ST、时间-音色解耦与模态鲁棒训练,实现语义对齐、时间同步与音质全面提升。模型在多个benchmark上达到开源SOTA,代码与模型权重已开放。

ControlFoley的主要功能

  • TV2A(文本引导视频配音):根据视频和文本提示生成同步音效,文本补充画面声音语义。

  • TC-V2A(文本控制视频配音):文本与视频语义冲突时,优先遵循文本意图,同时保持时间同步。

  • AC-V2A(参考音频控制视频配音):根据参考音频控制音色风格,不破坏视频节奏。

ControlFoley的技术原理

  • 联合视觉编码:自研 CAV-MAE-ST 时空音视频编码器,专注音视频时空对应关系,增强动作节奏与时间同步理解,与 CLIP 结合兼顾语义与同步。

  • 时间-音色解耦:抑制参考音频中的时间信息,保留全局音色特征,避免参考音频干扰视频同步。

  • 模态鲁棒训练:随机模态 dropout + 统一多模态表示对齐,适配多种输入组合;通过 REPA 对齐目标提升语义一致性。

如何使用ControlFoley

  • 获取开源资源:访问 GitHub 仓库下载代码与模型权重,或直接使用官方提供的在线 Demo 进行体验。
  • 环境配置:根据仓库说明安装依赖环境,配置 Python 运行环境与必要的音视频处理库。
  • 选择任务模式:根据创作需求选择三类任务之一:TV2A(文本引导)、TC-V2A(文本控制)或 AC-V2A(参考音频控制)。
  • 准备输入条件:导入视频文件;如选 TV2A 附加文本提示,如选 TC-V2A 输入与画面冲突的文本指令,如选 AC-V2A 上传参考音频文件。
  • 执行生成推理:运行模型推理脚本,ControlFoley 将基于联合视觉编码与时间-音色解耦机制生成与视频同步的音效。
  • 导出与后处理:获取生成音频后,通过 VAE Decoder 与 Vocoder 输出最终音轨,与视频合成完成配音。

ControlFoley的核心优势

  • 统一框架:单一模型覆盖文本引导、文本控制和参考音频控制三类任务,无需切换多个工具。

  • 精准同步:自研 CAV-MAE-ST 时空编码器增强音视频时序理解,音画对齐精度领先开源竞品。

  • 音色解耦:时间-音色解耦技术确保参考音频仅影响音色风格,不干扰视频原有节奏。

  • 鲁棒控制:随机模态 dropout 与统一表示对齐训练,使模型在单模态或多模态输入下均稳定输出。

  • 开源 SOTA:在 VGGSound-Test、Kling-Audio-Eval 等多个 benchmark 上语义对齐与声音质量全面领先。

ControlFoley的项目地址

  • 项目官网:https://yjx-research.github.io/ControlFoley_web_page/
  • GitHub仓库:https://github.com/xiaomi-research/controlfoley
  • HuggingFace模型库:https://huggingface.co/YJX-Xiaomi/ControlFoley
  • arXiv技术论文:https://arxiv.org/abs/2604.15086

ControlFoley的同类竞品对比

对比维度ControlFoleyMMAudioHunyuanVideo-Foley
任务覆盖统一支持 TV2A / TC-V2A / AC-V2A 三类可控任务主要支持 TV2A 基础视频配音主要支持 TV2A 基础视频配音
文本冲突处理强:冲突场景下 DeSync 仅 0.36-0.38,优先遵循文本意图弱:文本易被视觉信息覆盖弱:文本控制能力有限
参考音频控制支持,时间-音色解耦不破坏同步不支持不支持
音画同步优:CAV-MAE-ST 增强时空对应
开源状态代码、权重、技术报告全开源开源开源

ControlFoley的应用场景

  • 短视频创作:为无声素材添加符合创作者意图的定制化音效,避免模型自动猜测的偏差。

  • 动画与游戏:为角色动作生成特定风格的打击声或环境音,如将普通敲门声替换为木槌击鼓声。

  • 影视后期:根据参考音频素材统一全片音效音色风格,保持品牌或系列作品的声音一致性。

  • 广告营销:按文本指令快速生成与品牌调性匹配的同步配音,强化节奏与情绪表达。

  • 自媒体直播:为直播切片或二创视频补充多模态可控的沉浸式音频,提升内容完成度。

© 版权声明

相关文章