Composer 2.5 – Cursor 推出的自研 Agentic 编程模型

Al项目 2026-05-19 12:00:13 AI导航网

Composer 2.5是什么

Composer 2.5 是 Cursor 推出的自研 Agentic 编程模型。在智能水平和行为表现上较 Composer 2 有大幅提升,在 SWE-Bench Multilingual(79.8%)CursorBench v3.1(63.2%) 等核心基准上与 Claude Opus 4.7、GPT-5.5 处于同一梯队,但单次任务成本仅为竞品的约 1/10,称为”性价比之王”。模型基于 Moonshot 开源的 Kimi K2.5 检查点持续训练,目前仅通过 Cursor IDE 及 SDK 提供服务。

Composer 2.5的主要功能

  • 长时任务持续工作:针对长时间运行的 Agent 会话深度优化,能在多步骤工具调用中保持专注,显著减少中途幻觉或提前终止的问题。

  • 复杂指令可靠遵循:对跨文件重构、终端命令执行、测试驱动开发等复杂指令的遵循可靠性较 Composer 2 大幅提升。

  • 努力级别动态校准:模型能根据任务难度自动分配计算量,简单任务快速完成,复杂任务深入思考,避免”小事空转、大事欠思考”。

  • 沟通风格优化:回复更简洁结构化,减少不必要的冗长解释,在多文件变更时提供更清晰的推理过程。

  • 工具调用精准度提升:显著减少无效的终端命令或冗余搜索,提升代码检索与终端操作效率。

  • 双版本灵活适配:提供 Standard(标准版,$0.50/$2.50 per M tokens)与 Fast(快速版,$3.00/$15.00 per M tokens),智能水平相同,分别适配后台批量任务与交互式实时编程。

如何使用Composer 2.5

  • 在 Cursor IDE 中启用:将 Cursor 更新至 2026 年 5 月最新稳定版,打开 Composer 面板(Cmd+I / Ctrl+I),点击模型选择器切换至 Composer 2.5

  • 选择速度档位:交互式开发默认使用 Fast 版(响应快、延迟低);后台 Agent 或批量任务可在 Settings > Models 中切换为 Standard 版(成本低,智能水平相同)

  • 通过 SDK 程序化调用

import { Agent } from "@cursor/sdk";const agent = await Agent.create({model: "composer-2.5",// Standard 版// model: "composer-2.5-fast", // Fast 版workspace: "./",tools: ["edit", "shell", "search", "browser"],});
  • 为长时任务设限:为无人看管的长时间 Agent 会话设置迭代次数上限和最大耗时,防止模型利用缓存等”捷径”进行奖励作弊

  • 领取首发福利:发布首周提供双倍用量额度,可在后台查看额度消耗情况

  • 多模型路由策略:将 90% 日常任务交给 Composer 2.5 处理;仅将架构评审类任务路由给 Claude Opus 4.7,重度终端 Shell 任务路由给 GPT-5.5

Composer 2.5的核心优势

  • 极致性价比:Standard 版输入 $0.50/M、输出 $2.50/M,Fast 版输入 $3.00/M、输出 $15.00/M,比 Claude Opus 4.7 便宜约 10~30 倍。

  • 前沿级基准表现:SWE-Bench Multilingual 79.8%(Opus 4.7 为 80.5%,GPT-5.5 为 77.8%),CursorBench v3.1 63.2%(与 Opus 4.7 的 64.8% 和 GPT-5.5 的 64.3% 基本持平)。

  • 行为层面深度优化:除了扩大训练规模,还改进了沟通风格和投入级别校准,这些维度虽难被基准充分反映,但对实际使用体验至关重要。

  • 双版本灵活选择:Standard(标准版)适合后台 Agent 与批量任务,Fast(快速版,默认)适合交互式 IDE 实时编程,两者智能水平完全相同。

  • 首发双倍用量福利:发布首周提供双倍用量额度。

Composer 2.5的同类竞品对比

对比维度Composer 2.5Claude Opus 4.7GPT-5.5
厂商 / 平台CursorAnthropicOpenAI
产品定位自研 Agentic 编程模型旗舰推理模型旗舰多模态模型
基座模型Moonshot Kimi K2.5(开源检查点持续训练)Claude 4 系列GPT-5 系列
发布日期2026.05.182026 年 Q22026 年 Q2
SWE-Bench Multilingual79.8%80.5%77.8%
Terminal-Bench 2.069.3%69.4%82.7%
CursorBench v3.1(困难任务)63.2%64.8%(max)/ 61.6%(默认 xhigh)64.3%(xhigh)/ 59.2%(默认 medium)
输入价格(/M tokens)$0.50(Standard)<
$3.00(Fast)
未公开(行业参考约 $15)未公开(行业参考约 $3–$5)
输出价格(/M tokens)$2.50(Standard)<
$15.00(Fast)
未公开(行业参考约 $75)未公开(行业参考约 $15–$30)
单次任务相对成本基准(约 $1–$2 / 任务)约 10–30 倍约 3–10 倍
上下文窗口~200K(参考 Kimi K2.5)200K128K–1M
权重开放性闭源(仅 Cursor 基础设施)闭源闭源
接入方式Cursor IDE / CLI / @cursor/sdkAPI / Claude Code / 第三方平台API / ChatGPT / GitHub Copilot

Composer 2.5的应用场景

  • 多文件级重构:成本优势明显且精度持平前沿模型,适合大规模代码库迁移。

  • 交互式结对编程:Fast 版响应迅速,适合实时 IDE 协作。

  • 后台定时任务/云 Agent:Standard 版性价比极高,适合批量代码审查与修复。

  • 测试驱动开发:长时任务可靠性优于前代,能稳定完成多轮测试-修复循环。

  • 复杂终端自动化:Terminal-Bench 2.0 得分 69.3%,与 Opus 4.7(69.4%)持平,但重度 Shell 场景仍略逊于 GPT-5.5(82.7%)。

© 版权声明

相关文章