Stable Audio 3 – Stability AI 开源的音频生成模型系列

Al项目 2026-05-22 12:01:05 AI导航网

Stable Audio 3是什么

Stable Audio 3是Stability AI推出的新一代开源音频生成模型系列，基于流匹配潜空间扩散架构，支持文本转音乐与音效、音频编辑及续写。Stable Audio 3提供Small、Medium、Large多规格模型，Small版本可在MacBook Pro本地运行并生成最长2分钟音频，Medium与Large支持超过6分钟的高质量生成。全系模型采用完全授权数据训练，开放Small与Medium权重，支持LoRA微调，实现不到2秒的快速推理。

Stable Audio 3的主要功能

文本转音频生成：用户输入英文文本提示词可生成器乐音乐或环境音效，精确控制输出时长至秒级。
可变长度音频合成：模型按请求时长比例分配潜空间序列长度，避免固定最大长度导致的计算与内存浪费。
音频局部编辑修复：通过单段或多段掩码实现音频的局部重绘（inpainting），在保留原始片段的同时替换目标区域。
音频智能续写扩展：用因果掩码机制对现有音频进行连贯延续，将短录音扩展为超过6分钟的完整作品。
LoRA风格微调：首次开放LoRA训练文档与Small、Medium权重，支持用户使用自有音频库进行高效的自定义风格适配。
全链路本地部署：3.0 Small支持在MacBook Pro等消费级设备上完全离线运行，实现无需网络的隐私化创作。

Stable Audio 3的技术原理

语义-声学自编码器：基于SAME架构通过4096倍下采样将44.1kHz立体声映射至256维潜空间，兼顾高保真重建与语义结构编码。
流匹配潜空间扩散：采用流匹配训练范式在紧凑潜空间中执行扩散生成，配合小批量最优传输耦合提升训练稳定性与效率。
对抗后训练加速：在预训练与ODE蒸馏预热后引入对抗后训练，将推理步数压缩至极低水平，实现H200上不到2秒生成长音频。
差分注意力Transformer：扩散Transformer集成差分注意力、自适应层归一化条件注入与记忆嵌入，增强长序列音频的建模精度。
可变长度推理机制：突破传统扩散模型固定序列长度限制，使潜空间长度与实际请求时长成正比，显著降低短音频生成成本。

如何使用Stable Audio 3

获取模型权重：访问Hugging Face的Stability-AI/stable-audio-3仓库，下载3.0 Small、Small SFX或Medium的权重文件。
配置运行环境：克隆stable-audio-tools代码仓库并安装依赖，确保PyTorch与CUDA或Apple Metal后端已正确配置。
加载模型与编码器：在脚本中实例化SAME自编码器与对应规模的扩散Transformer，加载预训练权重至显存。
编写生成提示：输入描述目标音频风格、乐器与情绪的英文提示词，并设置精确的输出时长（秒数）。
执行推理生成：调用模型生成接口，模型将根据时长参数执行可变长度推理并输出44.1kHz立体声WAV文件。

Stable Audio 3的核心优势

完全授权商用友好：全系模型基于 licensed 与 Creative Commons 数据训练，Community License允许用户自由拥有并商用生成内容。
消费级硬件原生支持：3.0 Small开放权重且可在MacBook Pro M4上离线运行，是首款支持本地全曲作曲的轻量级模型。
超长高质量生成：Medium与Large模型支持超过6分钟的高质量音频生成，较前代Stable Audio Open的47秒上限实现数量级突破。
极致推理效率：经对抗后训练优化，Large模型在H200 GPU上生成6分20秒音频耗时不到2秒，MacBook Pro上仅需数秒。
零标注灵活编辑：无需额外训练数据标注即可通过随机与因果掩码实现单段、多段编辑及续写，直接融入真实创作工作流。

Stable Audio 3的项目地址

项目官网：https://stability.ai/news-updates/meet-stable-audio-3-the-model-family-built-for-artistic-experimentation-with-open-weight-models
GitHub仓库：https://github.com/Stability-AI/stable-audio-3
HuggingFace模型库：https://huggingface.co/collections/stabilityai/stable-audio-3
arXiv技术论文：https://arxiv.org/pdf/2605.17991

Stable Audio 3的同类竞品对比

对比维度	Stable Audio 3	Stable Audio Open	MusicGen
开发团队	Stability AI	Stability AI	Meta (FAIR)
模型架构	流匹配潜空间扩散	潜空间扩散	自回归 + EnCodec
最大生成时长	6分20秒	47秒	约2分钟
可变长度支持	原生秒级控制	不支持（固定长度）	有限支持
消费级本地运行	Small可在MacBook运行	需独立GPU	需独立GPU
开放权重范围	Small / Medium / Small SFX	Small	Small / Medium / Large
音频编辑能力	单段/多段/续写	不支持	不支持
推理速度	<2秒（H200，6分20秒）	较慢	中等