Confucius4是什么
Confucius4是网易有道AI团队基于Qwen3.5-27B架构推出的开源多模态大模型,专为高级数学推理场景设计。模型通过迭代SFT+RL训练范式、纯文本推理数据增强及精细化CoT优化,在同等规模模型中达到SOTA性能,同时实现推理链长度降低43.2%。模型针对中文用户定向优化,输出更符合中文语言习惯与文化背景,支持免费商用。

Confucius4的主要功能
高级多模态数学推理:支持图文混合输入,擅长解答几何、代数、逻辑等复杂数学问题,在Math-Hard-500、MathVision、logicVista等基准上表现优异。
迭代SFT+RL训练优化:采用图像增益过滤构建高性价比训练集,通过迭代监督微调与强化学习持续提升文本与多模态场景性能。
纯文本推理增强:在SFT阶段注入纯文本推理数据,强化模型推理底座,Math-Hard-500性能提升23.2%。
紧凑思维链生成:通过精细化CoT重构与长度感知RL机制,消除冗余推理步骤,实现准确与效率的平衡。
中文定向优化:针对中文数据专项训练,输出内容更贴合中文用户的表达习惯与文化语境。
开源可商用:基于Apache 2.0协议发布,支持自由修改、分发及商业应用。
Confucius4的技术原理
图像增益过滤:自动识别并过滤低价值视觉冗余信息,构建高性价比多模态训练数据集,降低训练成本。
迭代SFT+RL范式:交替进行监督微调与强化学习,形成”训练-评估-优化”闭环,持续拔高模型在文本与多模态任务上的推理上限。
混合训练策略:采用”文本推理+多模态解题”的混合训练范式,让纯文本推理能力迁移至多模态场景,实现能力协同增益。
精细化CoT重构:在SFT阶段对思维链进行人工重构,剔除冗余步骤,保留完整逻辑,生成简洁且高质量的推理链。
长度感知优势机制(Length-Aware Advantage):在RL阶段引入探索-利用权衡,对非难题约束推理长度,有效消除”过度思考”现象。
如何使用Confucius4
环境准备:确认运行环境满足Qwen3.5模型要求,安装
transformers等必要依赖库。加载模型:使用
AutoModelForCausalLM和AutoProcessor从HuggingFace或ModelScope加载netease-youdao/Confucius4预训练模型。编码图像:涉及多模态输入,使用
base64将目标图片编码为数据URI格式。构造消息:按系统提示词模板组装对话消息,系统角色固定为
You are a helpful assistant.。应用模板:调用
processor.apply_chat_template处理消息,生成模型可用的输入文本。模型推理:设置
Temperature=0.6、TopP=0.95、TopK=20,调用model.generate生成结果。解析输出:通过vLLM API调用时,从
message.content获取最终答案,从message.reasoning获取推理过程。
Confucius4的核心优势
同等规模SOTA性能:在Math-Hard-500(0.814)、Math-Figure(0.907)、MathVision(0.724)等多个视觉数学基准上领先同规模模型。
推理效率显著提升:CoT长度减少43.2%,在保持准确率的同时大幅降低输出token数量,减少推理耗时与计算成本。
中英文场景兼顾:模型具备强大的英文数学推理能力,通过中文数据定向优化,输出更符合本土用户阅读习惯。
无缝兼容Qwen生态:环境要求与Qwen3.5完全一致,可直接使用Transformers或vLLM加载,零额外适配成本。
Confucius4的项目地址
- HuggingFace模型库:https://huggingface.co/netease-youdao/Confucius4
Confucius4的同类竞品对比
| 基准测试 | Confucius4 | Qwen3.5-27B | Qwen3.6-27B |
|---|---|---|---|
| Math-Hard-500 | 0.814 | 0.582 | 0.756 |
| Math-Figure | 0.907 | 0.866 | 0.865 |
| MathVision (testmini) | 0.724 | 0.651 | 0.648 |
| logicVista | 0.779 | 0.734 | 0.743 |
| MathVerse | 0.876 | 0.866 | 0.865 |
| MathVista (testmini) | 0.874 | 0.874 | 0.871 |
| DynaMath | 0.893 | 0.877 | 0.856 |
| We-Math | 0.912 | 0.913 | 0.907 |
Confucius4的应用场景
K12与高等教育数学辅导:支持图文混合输入,解答几何、代数、概率等复杂数学题,提供可解释的逐步推理过程,适合作为智能助教。
数学竞赛与奥赛培训:在竞赛级难题(Math-Hard-500)上准确率达81.4%,适合高难度题型训练与解题策略分析。
智能题库解析与作业批改:自动识别试卷、练习册中的图像题目,生成完整推理链与最终答案,辅助教师高效批改。
教育硬件与在线学习平台集成:兼容Qwen3.5生态,可快速接入学习机、教育APP,通过vLLM API提供低延迟实时解题服务。
科研学术辅助:解析论文中的数学图表、公式推导与逻辑证明,帮助科研人员快速理解复杂学术材料中的视觉数学内容。
