StepAudio 2.5 ASR – 阶跃星辰推出的自动语音识别模型

Al项目 2026-04-24 15:00:45 AI导航网

StepAudio 2.5 ASR是什么

StepAudio 2.5 ASR 是阶跃星辰推出的新一代自动语音识别模型,专为语音转写、会议纪要与长音频处理设计。模型采用 Audio Encoder + Linear Adapter + 4B LLM + MTP-5 架构,将多Token预测技术首次引入语音识别领域,实现500 TPS极速推理。模型支持OGG、mp3、wav、PCM等格式输入,复用32K上下文窗口,单次可端到端转写30分钟音频,彻底告别传统切片方案导致的上下文断裂问题,在速度与精度上达到业内SOTA水准。

StepAudio 2.5 ASR的主要功能

  • 极速语音转写:模型推理峰值达500 tokens/s,5分钟音视频秒级完成转写。

  • 长音频端到端识别:复用32K上下文窗口,单次完整转写30分钟音频。

  • 多格式音频支持:兼容OGG、mp3、wav、PCM等常见音频格式。

  • 中英文及方言识别:覆盖中英主流语种,支持方言、带口音普通话及少量日语、阿拉伯语。

  • 高吞吐解码:基于MTP-5架构,吞吐量提升400%,推理成本降低80%。

StepAudio 2.5 ASR的技术原理

  • 整体架构设计:模型采用 Audio Encoder + Linear Adapter + 4B LLM + MTP-5 四层堆叠架构,兼顾音频表征提取、维度对齐、语言建模与高吞吐解码。
  • 音频编码层:0.6B Transformer 音频编码器将输入音频转化为 12.5 Hz 的 audio embedding,完成原始声学信号到语义向量的初步映射。
  • 维度对齐层:Linear Adapter 负责将音频编码器输出与 LLM 隐藏维度对齐,实现跨模态特征空间的桥接与适配。
  • 语言建模主干:4B 参数 LLM 作为模型核心,承担上下文理解与自回归文本生成任务,复用原生 32K 上下文窗口实现长音频端到端建模。
  • MTP 多 Token 预测:引入 Step 3.5 Flash 同款 MTP-5 模块,单次前向传播可额外并行预测 5 个候选 token,突破传统 ASR 逐 token 顺序生成的速度瓶颈。

如何使用StepAudio 2.5 ASR

  • 在线体验:访问阶跃星辰体验中心 https://www.stepfun.com/studio/audio?tab=speech-recognition,上传音频进行在线转写。

  • API接入:前往阶跃星辰开放平台 https://platform.stepfun.com/docs/zh/guides/models/stepaudio-2.5-asr 或 Step Plan 官网 https://platform.stepfun.com/docs/zh/step-plan/integrations/audio-api ,查看API文档,获取模型标识与示例代码。

  • Demo页面:访问Demo页面 https://stepaudiollm.github.io/step-audio-2.5-asr/ ,查看公开示例与效果展示。

  • 开发者接入:通过程序化调用ASR API,将识别结果接入检索、摘要、质检或归档链路。

StepAudio 2.5 ASR的关键信息和使用要求

  • 发布主体:由阶跃星辰(StepFun)正式发布,已全量上线阶跃星辰开放平台与 Step Plan。
  • 模型架构:采用 Audio Encoder(0.6B)+ Linear Adapter + 4B LLM + MTP-5 四层架构,整体参数规模约 4.6B。
  • 推理性能:峰值达 500 tokens/s,吞吐量提升 400%,时延降低 60%,推理成本直降 80%。
  • 上下文能力:复用 LLM 原生 32K 上下文窗口,单次可端到端完整转写最长 30 分钟音频,无需切片拼接。
  • 支持格式:OGG、mp3、wav、PCM 等常见音频格式。
  • 语言覆盖:中英文为主,支持方言、带口音普通话,以及少量日语和阿拉伯语。
  • 评测成绩:在中文(AISHELL、Wenet、FLEURS-zh)、英文(LibriSpeech、Common Voice、VoxPopuli)及长音频多项权威基准上均达 SOTA 水平。
  • 训练数据:预训练使用千万小时量级语音音频数据;ASR 专项训练包含 10 万小时高质量短音频(最长 30 秒)与 5 万小时长音频(最长 30 分钟)。
  • 接入渠道:开发者可通过阶跃星辰开放平台 API 或 Step Plan 集成;普通用户可前往体验中心在线试用,或访问 Demo Page 查看效果展示。

StepAudio 2.5 ASR的核心优势

  • 速度突破:率先将大语言模型推理加速技术引入语音识别领域,推理峰值达 500 tokens/s,吞吐量提升 400%。
  • 成本优势:推理时延降低 60%,推理成本直降 80%,以更低算力实现更高转写上限。
  • 精度领先:在中文、英文及长音频多项权威评测基准上均达 SOTA 水平,综合错误率行业最低。
  • 长文稳定:复用 32K 原生上下文窗口,单次端到端转写 30 分钟音频,精度无衰减,彻底告别切片拼接导致的上下文断裂。
  • 架构创新:基于 ASR+MTP-5 深度融合架构,通过多 Token 并行预测与验证机制突破传统逐 token 自回归生成的速度瓶颈。
  • 场景覆盖:支持 OGG、mp3、wav、PCM 等多格式输入,覆盖中英主流语种及方言、带口音普通话等复杂声学场景。

StepAudio 2.5 ASR的项目地址

  • 技术论文:https://stepaudiollm.github.io/step-audio-2.5-asr/model-card/
  • 在线体验Demo:https://stepaudiollm.github.io/step-audio-2.5-asr/

StepAudio 2.5 ASR的同类竞品对比

对比维度StepAudio 2.5 ASRQwen3 ASRDoubao-ASR-2603
模型架构Audio Encoder+4B LLM+MTP-5未公开未公开
推理速度500 TPS,吞吐量提升400%标准自回归标准自回归
中文平均CER2.97%3.17%3.34%
英文平均WER3.68%3.85%6.67%
长音频WER3.70%4.20%6.11%
最大上下文32K(30分钟端到端)未明确未明确
成本优化推理成本降低80%

StepAudio 2.5 ASR的应用场景

  • 会议纪要与访谈转写:端到端转写长时段会议、访谈录音,保持术语一致性与上下文连贯,无需切片拼接。
  • 字幕生成与媒资预处理:快速生成视频字幕,支持 OGG、mp3、wav、PCM 等多格式音频批量处理。
  • 长音频内容归档:适用于播客、讲座、庭审等 30 分钟级音频的完整转写与检索入库。
  • 实时语音质检:凭借低时延与高吞吐特性,适用于客服通话质检与内容合规审查场景。
  • 后端系统接入:识别结果可直接接入检索、摘要、质检或归档链路,满足工业级术语一致性与稳定性要求。

© 版权声明

相关文章