MAI-Voice-2 – 微软推出的新一代文本转语音模型

Al项目 2026-06-03 18:01:51 AI导航网

MAI-Voice-2是什么

MAI-Voice-2 是微软推出的新一代文本转语音（TTS）模型，是微软迄今最具表现力和自然感的语音合成模型。相比前代在保真度、语言覆盖、说话人一致性和情感范围上全面提升，支持 15+ 种语言，具备细粒度情感控制、零样本语音克隆和代码切换能力。

自研语音基础模型架构：MAI-Voice-2 构建于微软内部自研的语音基础模型之上，采用端到端神经网络语音合成架构。模型能 holistic 地理解输入文本，自动适配语调、情感和说话风格，无需开发者进行大量手动调参即可生成类人语音。架构与 Azure Neural HD 语音类似，在表现力、语言覆盖和说话人一致性上实现代际提升。
多语言统一建模：MAI-Voice-2 从 MAI-Voice-1 的英语单语言模型扩展为支持 15+ 种语言的统一多语言语音合成系统。模型针对声调语言、音高重音语言、重音计时语言和音节计时语言等不同音系学体系进行深度优化，确保各语言在自然度和表现力上达到与英语同等的输出质量。
零样本语音克隆（Voice Prompting）：模型支持零样本语音克隆能力，仅需 5–60 秒的参考音频即可提取说话人身份特征并迁移到目标语言，无需针对特定说话人进行微调或重新训练。基于语音提示（Voice Prompting）技术实现，系统通过参考音频编码器提取 speaker embedding，在合成过程中保持音色、语调和韵律特征的一致性。

项目官网：https://microsoft.ai/news/mai-voice-2expressive-speech-in-10-languages/

对比维度	MAI-Voice-2	Gemini 3.1 Flash TTS
开发方	微软（Microsoft AI）	Google DeepMind
发布时间	2026 年 6 月	2026 年 4 月（Public Preview）
语言支持	15+ 种语言，含代码切换（印地-英、西-英）	70+ 种语言，覆盖更广
预置声音	未明确公布数量，侧重品牌自定义	30 个命名声音（Kore、Puck、Charon 等）
情感控制	细粒度 SSML 标签（悲伤、耳语、兴奋、困惑等）	200+ 内联音频标签（`[sigh]`、`[laughing]`、`[whispering]` 等），支持自然语言提示
语音克隆	✅ 5–60 秒零样本，全语言支持	❌ 不支持
多说话人	未明确支持	✅ 单次 API 调用原生支持 2 人对话
长文本稳定性	针对有声书、播客、讲座优化，说话人高度稳定	几分钟以上质量可能漂移，建议分块处理
安全与合规	系统级强制 consent，未授权声音无法生产使用	所有输出带 SynthID 水印，依赖服务条款
音质排名	72% 偏好于 MAI-Voice-1，与真人难区分	Artificial Analysis TTS 排行榜 Elo 1211（第二）