MindDR 1.5 – 理想汽车推出的多智能体深度研究框架

Al项目 2026-04-30 12:00:58 AI导航网

MindDR 1.5是什么

MindDR 1.5 是理想汽车信息智能体团队推出的多智能体深度研究框架，用仅约 30B 参数规模在 DeepResearch Bench 取得 52.54 分，达到业界领先水平。框架采用 Planning、DeepSearch、Report 三智能体协作架构，配合 SFT 冷启动、Search-RL、Report-RL 与偏好对齐四阶段训练管线，跳过昂贵的 mid-training，训练 token 减少 71.4%、卡时降低 60%，已实现低成本高性能的深度研究能力，现已部署于理想同学在线产品。

MindDR 1.5的主要功能

智能任务规划：Planning Agent 自动拆解用户查询为独立子任务。
深度并行检索：DeepSearch Agent 执行多轮搜索、验证与长程推理。
高质量报告生成：Report Agent 整合多源证据，输出结构化长报告。
记忆共享与追溯：通过 Extended Chain-of-Thought（XoT）与 Tool Memory 实现跨智能体信息流转与溯源。
多工具环境调用：支持 Web、Database、Browser、Python 等统一工具接口。

MindDR 1.5的技术原理

多智能体协作架构：将深度研究全流程拆分为 Planning Agent（任务规划）、DeepSearch Agent（深度搜索）与 Report Agent（报告撰写）三个分工明确的智能体，通过 Memory 模块共享 XoT 推理轨迹与工具调用记录，避免单模型长上下文膨胀与能力耦合干扰。
四阶段训练管线：
- SFT 冷启动：建立工具调用、格式遵循与多轮推理的基础行为。
- Search-RL：基于真实工具环境进行在线强化学习，采用动态调度奖励（工具调用→格式→PRM→ORM 递进），优化长链路搜索与决策效率。
- Report-RL：以 RACE Rubrics（全面性、洞察力、可读性、指令遵循）为核心奖励，结合引用与格式奖励，优化长报告生成质量。
偏好对齐：通过 DPO 与 Self-SFT 解决时态一致性、表格格式等细粒度用户体验问题，对齐人类偏好。
数据合成：基于百度百科与英文维基百科构建知识图谱，通过子图采样、多跳 QA 生成、条件混淆与质量过滤，合成高质量复杂推理训练数据；并与真实用户查询混合，弥合分布差距。

MindDR 1.5的关键信息和使用要求

开发团队：理想汽车（Li Auto）信息智能体团队自主研发并维护。
开源状态：技术报告与论文已公开（arXiv 2604.14518），模型权重与产品接口暂未开源。
参数规模：采用约 30B 参数的稠密模型与 MoE 模型双路线，在同规模开源系统中性能领先。
训练成本：相较 MindDR 1.0，训练 token 数量减少 71.4%，训练卡时降低 60%，实现显著的效率提升。
产品形态：已作为核心能力部署于理想同学（Livis）在线产品，面向真实用户场景提供深度研究服务。
评测基准：覆盖 DeepResearch Bench、MindDR Bench、BrowseComp、xbench-DS、WideSearch 等多个深度搜索与研究报告评测体系。

MindDR 1.5的核心优势

低成本高性能：用30B 级小模型跳过 mid-training，通过多阶段训练实现业界领先性能，显著降低训练与推理成本。
智能体分工明确：三智能体解耦搜索与写作，避免端到端训练的奖励稀疏与能力干扰问题，支持并行子任务执行。
动态递进奖励：Search-RL 采用阈值触发的动态奖励调度，从基础工具调用逐步过渡到深层推理优化，模拟”顿悟式”能力跃迁。
真实场景对齐：基于 500 条真实用户查询构建 MindDR Bench，评测维度覆盖内容质量与呈现格式，直接对齐用户体验。
高效搜索决策：在同等准确率下，工具调用次数与上下文 token 消耗显著低于同规模竞品，实现准确且高效。

MindDR 1.5的项目地址

HuggingFace模型库：https://huggingface.co/papers/2604.14518
arXiv技术论文：https://arxiv.org/pdf/2604.14518

MindDR 1.5的同类竞品对比

对比维度	MindDR 1.5	Gemini 3.1 Pro	OpenAI Deep Research
开发方	理想汽车	Google	OpenAI
参数规模	~30B	未公开（大模型）	未公开（大模型）
架构设计	三智能体协作（规划/搜索/报告分离）	单/多智能体（未公开细节）	单智能体端到端
训练策略	四阶段管线（跳过 mid-training）	大规模持续预训练	端到端强化学习
DeepResearch Bench	52.54	52.17	46.45
BrowseComp-ZH	45.7	—	—
核心特点	小模型+多阶段 RL，成本极低	原生多模态，通用性强	闭源产品，体验成熟
开源程度	论文公开，模型未开源	闭源	闭源