Qwen3.7-Max – 阿里通义推出的新一代旗舰大模型

Al项目 2026-05-20 23:18:08 AI导航网

Qwen3.7-Max是什么

Qwen3.7-Max 是阿里通义千问团队推出的面向智能体时代的新一代旗舰大模型,定位为全能智能体基座。模型具备前沿编程、办公自动化、长周期自主执行与跨框架泛化四大核心能力,在 SWE-Pro、MCP-Atlas、GPQA Diamond 等数十项编程、智能体与推理基准上取得领先成绩,可无缝集成至 Claude Code、OpenClaw、Qwen Code 等主流智能体框架。

Qwen3.7-Max的主要功能

  • 前沿编程智能体:支持从前端原型开发到复杂多文件软件工程的全链路代码编写与调试,在 SWE-Pro、SWE-Multilingual 等编程基准上表现领先。
  • 办公生产力助手:通过 MCP 集成与多智能体协作实现工作流自动化,在 SpreadSheetBench-v1 办公自动化基准上得分 87.0,可承接复杂数据分析与文档生成任务。
  • 长周期自主执行:具备持续稳定的超长任务执行能力,已在长达 35 小时、超过 1000 次工具调用的全自主内核优化实验中保持连贯推理。
  • 跨框架泛化:原生适配 Claude Code、OpenClaw、Qwen Code 等主流智能体框架,无需针对特定框架微调即可稳定发挥。

Qwen3.7-Max的技术原理

  • 环境扩展训练:在 Qwen3.5 环境扩展方法基础上大幅扩展智能体训练环境的质量与多样性,使模型能力从多样化环境中实现泛化。
  • 解耦式 Rollout 基础设施:将训练实例解耦为任务、运行框架与验证器三个正交组件,支持跨框架与跨验证器的强化学习训练,迫使模型学习泛化解题策略。
  • 组合式扩展:同一任务可与不同类型、不同版本的框架及验证器以极低边际成本自由重组,实现训练环境的组合式规模化扩展。
  • 长程强化学习优化:通过长周期自主执行中的持续反馈迭代,模型在 30 小时以上仍能发现实质性改进,验证长程优化与自我进化能力。

如何使用Qwen3.7-Max

Qwen3.7-Max计划将通过阿里云百炼提供服务。

Qwen3.7-Max的核心优势

  • 智能体基准全面领先:在 MCP-Mark、MCP-Atlas、ClawEval、QwenClawBench 等通用智能体基准上超越或紧追 Claude Opus-4.6 Max。

  • 编程能力顶尖:SWE-Pro 60.6、SWE-Multilingual 78.3、Terminal Bench 2.0 69.7,全面领先同类模型。

  • 推理与知识深厚:GPQA Diamond 92.4、HMMT 2026 Feb 97.1、HLE 41.4,在高难度 STEM 推理上处于第一梯队。

  • 多语言能力一流:WMT24++ 85.8、MAXIFE 89.2、MMLU-Pro 89.6,翻译与跨语言理解质量顶尖。

  • 真实生产力闭环:可将需专业团队一至两周的复杂项目压缩至数小时内端到端交付。

  • 硬件无关泛化:在训练时未见过的平头哥真武 M890 硬件平台上,能通过自主探索完成深度内核优化。

Qwen3.7-Max的同类竞品对比

对比维度Qwen3.7-MaxClaude Opus-4.6 Max
编程智能体SWE-Pro 60.6 / Terminal Bench 69.7 领先SWE-Pro 59.0 / SWE-Verified 80.8 略领先
通用智能体MCP-Atlas 76.4 / ClawEval 65.2 领先MCP-Atlas 75.8 / ClawEval 70.4 领先
推理能力GPQA Diamond 92.4 / HLE 41.4 领先GPQA Diamond 91.3 / HLE 40.0
办公自动化SpreadSheetBench 87.0SpreadSheetBench 89.3 略领先
多语言WMT24++ 85.8 / MAXIFE 89.2 领先WMT24++ 82.7
长周期执行35小时/1000+工具调用自主优化,30小时后仍持续改进长上下文稳定,但公开的长程自主优化案例较少
跨框架泛化原生适配 Claude Code / OpenClaw / Qwen Code 等多框架主要针对 Claude Code 优化
提供服务阿里云百炼 API(即将上线)Anthropic API / Claude 应用

Qwen3.7-Max的应用场景

  • 复杂软件开发:作为 AI 软件工程师,独立完成需求分析、架构设计、多文件编码、调试与性能优化的全周期开发任务。
  • 企业工作流自动化:通过 MCP 连接企业工具链,自动执行数据分析、报表生成、跨系统信息整合等高强度办公任务。
  • 底层系统优化:在陌生硬件平台上自主进行 GPU 内核编写、编译、性能分析与迭代优化,实现数量级加速。
  • 科研与数学推理:承接高复杂度数学证明、科学计算与文献整合任务,辅助科研人员处理高难度推理工作。
  • 多语言内容生产:依托顶尖多语言能力,完成高精度翻译、跨语言技术文档撰写与全球化内容适配。

© 版权声明

相关文章