Confucius4 – 网易有道开源的多模态推理模型

Al项目 2026-05-22 18:00:54 AI导航网

Confucius4是什么

Confucius4是网易有道AI团队基于Qwen3.5-27B架构推出的开源多模态大模型，专为高级数学推理场景设计。模型通过迭代SFT+RL训练范式、纯文本推理数据增强及精细化CoT优化，在同等规模模型中达到SOTA性能，同时实现推理链长度降低43.2%。模型针对中文用户定向优化，输出更符合中文语言习惯与文化背景，支持免费商用。

Confucius4的主要功能

高级多模态数学推理：支持图文混合输入，擅长解答几何、代数、逻辑等复杂数学问题，在Math-Hard-500、MathVision、logicVista等基准上表现优异。
迭代SFT+RL训练优化：采用图像增益过滤构建高性价比训练集，通过迭代监督微调与强化学习持续提升文本与多模态场景性能。
纯文本推理增强：在SFT阶段注入纯文本推理数据，强化模型推理底座，Math-Hard-500性能提升23.2%。
紧凑思维链生成：通过精细化CoT重构与长度感知RL机制，消除冗余推理步骤，实现准确与效率的平衡。
中文定向优化：针对中文数据专项训练，输出内容更贴合中文用户的表达习惯与文化语境。
开源可商用：基于Apache 2.0协议发布，支持自由修改、分发及商业应用。

Confucius4的技术原理

图像增益过滤：自动识别并过滤低价值视觉冗余信息，构建高性价比多模态训练数据集，降低训练成本。
迭代SFT+RL范式：交替进行监督微调与强化学习，形成”训练-评估-优化”闭环，持续拔高模型在文本与多模态任务上的推理上限。
混合训练策略：采用”文本推理+多模态解题”的混合训练范式，让纯文本推理能力迁移至多模态场景，实现能力协同增益。
精细化CoT重构：在SFT阶段对思维链进行人工重构，剔除冗余步骤，保留完整逻辑，生成简洁且高质量的推理链。
长度感知优势机制（Length-Aware Advantage）：在RL阶段引入探索-利用权衡，对非难题约束推理长度，有效消除”过度思考”现象。

如何使用Confucius4

环境准备：确认运行环境满足Qwen3.5模型要求，安装transformers等必要依赖库。
加载模型：使用AutoModelForCausalLM和AutoProcessor从HuggingFace或ModelScope加载netease-youdao/Confucius4预训练模型。
编码图像：涉及多模态输入，使用base64将目标图片编码为数据URI格式。
构造消息：按系统提示词模板组装对话消息，系统角色固定为You are a helpful assistant.。
应用模板：调用processor.apply_chat_template处理消息，生成模型可用的输入文本。
模型推理：设置Temperature=0.6、TopP=0.95、TopK=20，调用model.generate生成结果。
解析输出：通过vLLM API调用时，从message.content获取最终答案，从message.reasoning获取推理过程。

Confucius4的核心优势

同等规模SOTA性能：在Math-Hard-500（0.814）、Math-Figure（0.907）、MathVision（0.724）等多个视觉数学基准上领先同规模模型。
推理效率显著提升：CoT长度减少43.2%，在保持准确率的同时大幅降低输出token数量，减少推理耗时与计算成本。
中英文场景兼顾：模型具备强大的英文数学推理能力，通过中文数据定向优化，输出更符合本土用户阅读习惯。
无缝兼容Qwen生态：环境要求与Qwen3.5完全一致，可直接使用Transformers或vLLM加载，零额外适配成本。

Confucius4的项目地址

HuggingFace模型库：https://huggingface.co/netease-youdao/Confucius4

Confucius4的同类竞品对比

基准测试	Confucius4	Qwen3.5-27B	Qwen3.6-27B
Math-Hard-500	0.814	0.582	0.756
Math-Figure	0.907	0.866	0.865
MathVision (testmini)	0.724	0.651	0.648
logicVista	0.779	0.734	0.743
MathVerse	0.876	0.866	0.865
MathVista (testmini)	0.874	0.874	0.871
DynaMath	0.893	0.877	0.856
We-Math	0.912	0.913	0.907