StepAudio 2.5 ASR – 阶跃星辰推出的自动语音识别模型

Al项目 2026-04-24 15:00:45 AI导航网

StepAudio 2.5 ASR是什么

StepAudio 2.5 ASR 是阶跃星辰推出的新一代自动语音识别模型，专为语音转写、会议纪要与长音频处理设计。模型采用 Audio Encoder + Linear Adapter + 4B LLM + MTP-5 架构，将多Token预测技术首次引入语音识别领域，实现500 TPS极速推理。模型支持OGG、mp3、wav、PCM等格式输入，复用32K上下文窗口，单次可端到端转写30分钟音频，彻底告别传统切片方案导致的上下文断裂问题，在速度与精度上达到业内SOTA水准。

StepAudio 2.5 ASR的主要功能

极速语音转写：模型推理峰值达500 tokens/s，5分钟音视频秒级完成转写。
长音频端到端识别：复用32K上下文窗口，单次完整转写30分钟音频。
多格式音频支持：兼容OGG、mp3、wav、PCM等常见音频格式。
中英文及方言识别：覆盖中英主流语种，支持方言、带口音普通话及少量日语、阿拉伯语。
高吞吐解码：基于MTP-5架构，吞吐量提升400%，推理成本降低80%。

StepAudio 2.5 ASR的技术原理

整体架构设计：模型采用 Audio Encoder + Linear Adapter + 4B LLM + MTP-5 四层堆叠架构，兼顾音频表征提取、维度对齐、语言建模与高吞吐解码。
音频编码层：0.6B Transformer 音频编码器将输入音频转化为 12.5 Hz 的 audio embedding，完成原始声学信号到语义向量的初步映射。
维度对齐层：Linear Adapter 负责将音频编码器输出与 LLM 隐藏维度对齐，实现跨模态特征空间的桥接与适配。
语言建模主干：4B 参数 LLM 作为模型核心，承担上下文理解与自回归文本生成任务，复用原生 32K 上下文窗口实现长音频端到端建模。
MTP 多 Token 预测：引入 Step 3.5 Flash 同款 MTP-5 模块，单次前向传播可额外并行预测 5 个候选 token，突破传统 ASR 逐 token 顺序生成的速度瓶颈。

如何使用StepAudio 2.5 ASR

在线体验：访问阶跃星辰体验中心 https://www.stepfun.com/studio/audio?tab=speech-recognition，上传音频进行在线转写。
API接入：前往阶跃星辰开放平台 https://platform.stepfun.com/docs/zh/guides/models/stepaudio-2.5-asr 或 Step Plan 官网 https://platform.stepfun.com/docs/zh/step-plan/integrations/audio-api ，查看API文档，获取模型标识与示例代码。
Demo页面：访问Demo页面 https://stepaudiollm.github.io/step-audio-2.5-asr/ ，查看公开示例与效果展示。
开发者接入：通过程序化调用ASR API，将识别结果接入检索、摘要、质检或归档链路。

StepAudio 2.5 ASR的关键信息和使用要求

发布主体：由阶跃星辰（StepFun）正式发布，已全量上线阶跃星辰开放平台与 Step Plan。
模型架构：采用 Audio Encoder（0.6B）+ Linear Adapter + 4B LLM + MTP-5 四层架构，整体参数规模约 4.6B。
推理性能：峰值达 500 tokens/s，吞吐量提升 400%，时延降低 60%，推理成本直降 80%。
上下文能力：复用 LLM 原生 32K 上下文窗口，单次可端到端完整转写最长 30 分钟音频，无需切片拼接。
支持格式：OGG、mp3、wav、PCM 等常见音频格式。
语言覆盖：中英文为主，支持方言、带口音普通话，以及少量日语和阿拉伯语。
评测成绩：在中文（AISHELL、Wenet、FLEURS-zh）、英文（LibriSpeech、Common Voice、VoxPopuli）及长音频多项权威基准上均达 SOTA 水平。
训练数据：预训练使用千万小时量级语音音频数据；ASR 专项训练包含 10 万小时高质量短音频（最长 30 秒）与 5 万小时长音频（最长 30 分钟）。
接入渠道：开发者可通过阶跃星辰开放平台 API 或 Step Plan 集成；普通用户可前往体验中心在线试用，或访问 Demo Page 查看效果展示。

StepAudio 2.5 ASR的核心优势

速度突破：率先将大语言模型推理加速技术引入语音识别领域，推理峰值达 500 tokens/s，吞吐量提升 400%。
成本优势：推理时延降低 60%，推理成本直降 80%，以更低算力实现更高转写上限。
精度领先：在中文、英文及长音频多项权威评测基准上均达 SOTA 水平，综合错误率行业最低。
长文稳定：复用 32K 原生上下文窗口，单次端到端转写 30 分钟音频，精度无衰减，彻底告别切片拼接导致的上下文断裂。
架构创新：基于 ASR+MTP-5 深度融合架构，通过多 Token 并行预测与验证机制突破传统逐 token 自回归生成的速度瓶颈。
场景覆盖：支持 OGG、mp3、wav、PCM 等多格式输入，覆盖中英主流语种及方言、带口音普通话等复杂声学场景。

StepAudio 2.5 ASR的项目地址

技术论文：https://stepaudiollm.github.io/step-audio-2.5-asr/model-card/
在线体验Demo：https://stepaudiollm.github.io/step-audio-2.5-asr/

StepAudio 2.5 ASR的同类竞品对比

对比维度	StepAudio 2.5 ASR	Qwen3 ASR	Doubao-ASR-2603
模型架构	Audio Encoder+4B LLM+MTP-5	未公开	未公开
推理速度	500 TPS，吞吐量提升400%	标准自回归	标准自回归
中文平均CER	2.97%	3.17%	3.34%
英文平均WER	3.68%	3.85%	6.67%
长音频WER	3.70%	4.20%	6.11%
最大上下文	32K（30分钟端到端）	未明确	未明确
成本优化	推理成本降低80%	无	无