Mega-ASR – NTU、NUS、上海AI Lab开源的语音识别模型

Al项目 2026-05-23 18:00:48 AI导航网

Mega-ASR是什么

Mega-ASR 是南洋理工大学（NTU）、新加坡国立大学（NUS）与上海人工智能实验室联合开源的全场景鲁棒语音识别基座模型，模型以 Qwen3-ASR 1.7B 为底层架构，针对真实世界中复杂声学环境（如噪音、远场、回声、遮挡、传输丢包等复合场景）下的语音识别难题，提出了可扩展的复合数据构建与渐进式声学到语义优化框架。

Mega-ASR的主要功能

全场景鲁棒语音识别：覆盖 7 种原子声学效应（噪音、远场、遮挡、回声混响、录音染色、电子失真、传输丢包）及 54 种物理合理的复合声学场景，实现单一模型应对多种真实环境。
渐进式声学到语义优化（A2S-SFT）：三阶段渐进训练，先训练编码器与对齐器适应中等退化语音（WER<<30%→50%→70%），再激活大语言模型的语义恢复能力，最后进行端到端联合微调，解决”声学感知”与”语义重建”两大耦合瓶颈。
双粒度动态奖励优化（DG-WGPO）：针对 WER>30% 时模型错误模式从”词级混淆”突变为”句级幻觉/丢句”的问题，引入 Token 级精修奖励与句子级重构奖励，通过 WER 门控动态融合，强化极端条件下的语义保持能力。
环境感知即插即用路由：内置轻量级音频质量分类器（单层 Transformer），自动判断输入音频为”干净”或”退化”状态，干净语音走原始 Qwen3-ASR backbone，退化语音走 Mega-ASR 鲁棒 LoRA 分支，实现零侵入式增强。
开源数据集 Voices-in-the-Wild-2M：发布包含 240 万条合成音频及 5,000 条评测音频（含 1,500 条真实录音）的大规模鲁棒 ASR 数据集，覆盖 7 大元场景与 54 种混合场景，难度分布经过可控实验校准。

Mega-ASR的技术原理

Voices-in-the-Wild-2M 数据构建：采用频谱级代码仿真，先独立模拟 7 种原子声学效应作为基础，再通过智能体验证物理合理性（如”教堂=远场+回声”），组合生成 54 种复合场景；通过统一严重程度参数 k∈[0,1] 控制难度分布，并剔除 WER>70% 的不稳定样本。
A2S-SFT 三阶段训练：第一阶段仅训练音频编码器与对齐器，按 WER<<30%、<<50%、<<70% 的课程逐步扩展；第二阶段冻结声学模块，单独微调大语言模型以激活语义先验；第三阶段联合训练所有模块，实现声学证据与语义推理的端到端对齐。
DG-WGPO 动态奖励机制：静态奖励由 WER 奖励与反重复惩罚组成；动态奖励核心包含 Token 级精修奖励（区分软/硬替换错误）和句子级重构奖励（基于最长公共子序列与长度惩罚），通过 WER 门控（阈值 τ=0.3）镜像融合，低 WER 时侧重局部精修，高 WER 时侧重整体语义保持。
环境感知路由模型：基于 80 维 log-Mel 特征，采用轻量级卷积前端 + 单层 Transformer 编码器 + 注意力池化结构，二分类准确率超过 99.5%，推理开销极低，实现清洁/退化语音的自动分流。

如何使用Mega-ASR

环境准备与依赖安装：基于 Qwen3-ASR 开源生态搭建运行环境，安装相关音频处理库及模型推理依赖（如 transformers、torchaudio 等），确保支持 80 维 log-Mel 谱特征提取与模型权重加载。
加载双模型权重：同时加载两个组件，原始 Qwen3-ASR 1.7B backbone 作为基座模型，以及 Mega-ASR 的鲁棒性 LoRA 权重；另外需加载轻量级环境感知路由模型（单层 Transformer，隐藏维度 128，基于 LoRA 微调）。
音频预处理后送入路由模型：对输入音频提取 80 维 log-Mel 谱特征，经过轻量级卷积前端编码后，送入路由模型的单层 Transformer 进行二分类判断，自动识别当前音频属于”干净语音”还是”退化语音”（准确率超 99.5%）。
自动分流推理：路由模型判定为干净语音时，直接调用原始 Qwen3-ASR backbone 进行标准识别，保证 LibriSpeech 等干净域性能不受损；判定为退化语音时，自动切换至 Mega-ASR 鲁棒 LoRA 分支，激活复合声学场景下的强抗噪与语义恢复能力。
获取识别结果：模型输出文本转写结果，在极端退化场景（如远场峰值 -5.2dB、NOIZEUS 0dB）下仍能避免空白输出或语义幻觉，保持高完整度的语音识别结果。

Mega-ASR的核心优势

复合场景性能领先：在 Voices-in-the-Wild-Bench 混合退化场景下，WER 达到 2.73/4.57，相对 Whisper-Large-v3 降低 65.8%/69.1%，相对 Gemini-3-Flash 降低 65.8%；在 NOIZEUS 0dB 极端条件下，WER 降至 19.80，相对 Qwen3-ASR 降低 17.4%，相对 Gemini-3-Flash 降低 64.5%。
语义恢复能力突出：在远场峰值 -5.2dB 的极端案例中，Qwen3-ASR 输出空白（WER 100%），Gemini-3-Pro 产生流畅但无关的幻觉内容（WER 86.1%），而 Mega-ASR 精确恢复参考文本（WER 0.0%）。
干净域性能无损：通过环境感知路由，LibriSpeech 等干净基准 WER 从 1.78/3.57 进一步优化至 1.63/3.37，热词识别、流式推理等原有能力不受影响。
训练稳定性高：数据集构建过程中过滤 WER>70% 的不可学习样本，A2S-SFT 采用课程学习策略逐步扩展难度，避免模型在极端退化条件下训练崩溃。
完全开源可复现：模型权重、训练代码、数据集构建流程及评测基准均开源，基于成熟的 Qwen3-ASR 生态，社区接入门槛低。

Mega-ASR的项目地址

项目主页：https://xzf-thu.github.io/Mega-ASR/
GitHub仓库：https://github.com/xzf-thu/Mega-ASR
Hugging Face 模型库：https://huggingface.co/zhifeixie/Mega-ASR
arXiv技术论文：https://arxiv.org/pdf/2605.19833

Mega-ASR的同类竞品对比

对比维度	Mega-ASR	Whisper Large-v3	Qwen3-ASR 1.7B	Gemini-3-Flash
开源状态	完全开源	完全开源	完全开源	闭源
底层架构	Qwen3-ASR 1.7B	Whisper	Qwen3-ASR 1.7B	Gemini
复合场景覆盖	7种原子+54种复合	有限	有限	有限
NOIZEUS 0dB WER	19.80	~55.78	23.97	55.78
VOiCES R4-B-F WER	45.69%	~60%+	54.01%	~50%+
干净语音性能	1.63/3.37 (LibriSpeech)	1.78/3.53	1.78/3.57	1.52/3.29
语义恢复能力	强（极端条件下WER可降至0%）	弱（易丢句/幻觉）	中等	弱（易产生幻觉）
即插即用增强	支持（环境感知路由）	不支持	不支持	不支持