Mano-P 1.0 – 明略科技开源的 GUI-VLA 智能体模型

Al项目 2026-04-14 12:00:49 AI导航网

Mano-P 1.0是什么

Mano-P 1.0是明略科技开源的GUI-VLA智能体模型,采用纯视觉驱动,无需API可直接操控桌面软件与网页界面。模型提供72B完整版与4B量化版,支持Apple M4芯片本地部署,实现数据零上云与物理隔离级隐私保护。Mano-P 1.0在OSWorld等13项国际基准测试中取得SOTA成绩,以Apache 2.0协议开源,支持商业应用与二次开发。

Mano-P 1.0的主要功能

  • GUI全链路操控:模型具备感知、理解、规划、操作与验证的完整能力,可直接操控桌面软件、网页界面及复杂图形化工作流,支持点击、文本输入、窗口切换、视觉验证等闭环动作。
  • 纯视觉理解:不依赖底层API、CDP协议或HTML解析,通过像素级视觉理解直接”看懂”屏幕内容,打破传统浏览器生态边界,可处理非标准应用、3D软件及跨系统协作场景。
  • 端侧本地部署:支持Apple M4芯片设备(Mac mini/MacBook)本地运行,也可通过USB 4.0连接算力棒。数据零上云,实现物理隔离级隐私保护,无网环境下仍可自主执行长任务。
  • Agent生态集成:作为Skill无缝接入OpenClaw、Claude Code等AI Agent,为其提供GUI执行能力底座,解决复杂工作流中的人工干预瓶颈。

Mano-P 1.0的技术原理

  • GUI-VLA 架构:基于视觉-语言-动作多模态框架,模型直接解析屏幕像素信息,结合自然语言指令输出具体操作坐标与动作,无需依赖 API 或 HTML 解析即可跨平台操控任意图形界面。
  • 三阶段渐进训练:采用监督微调奠定基础能力,经离线强化学习优化策略,最终通过在线强化学习实现实时环境反馈与动态纠错,形成从感知到执行的闭环优化。
  • GSPruning 剪枝加速:通过专有视觉 Token 剪枝技术压缩冗余视觉信息,配合 4-bit 量化方案,使 4B 模型在 M4 芯片端侧实现 476 tokens/s 推理速度,内存占用仅 4.3GB。
  • 端云双版本设计:72B 完整模型部署于云端处理复杂任务,4B 量化模型专注端侧本地运行,结合长上下文理解能力,支持离线环境下的自主任务规划与多步决策。

如何使用Mano-P 1.0

  • 获取代码:访问 GitHub 仓库克隆项目源码与文档。
  • 选择模式:当前可将 Mano-CUA Skill 配置至 OpenClaw 或 Claude Code。
  • 配置集成:将 Skill 接入目标 Agent,使模型获得跨应用 GUI 感知与自动化操作能力。
  • 本地部署:在 Apple M4 芯片设备(32GB+ 内存)上运行 4B 量化模型,实现数据零上云的离线操作。
  • 开始使用:通过自然语言指令驱动 AI 自动解析屏幕,完成点击、输入、窗口切换等复杂工作流。

Mano-P 1.0的关键信息和使用要求

  • 产品定位:Mano-P 1.0 是明略科技开源的 GUI-VLA 智能体模型,通过纯视觉理解直接操控桌面软件与网页界面,无需依赖 API 接口。

  • 开源协议:采用 Apache 2.0 协议全面开源,完整代码可审计,支持商业使用与二次开发。

  • 模型版本:提供 72B 完整模型(云端高性能)与 4B 量化模型(端侧本地部署)双版本架构。

  • 性能表现:在 OSWorld、ScreenSpot-V2 等 13 个国际权威基准测试中取得 SOTA 成绩,OSWorld 任务成功率达 58.2%。

  • 核心优势:纯视觉驱动打破传统自动化边界,支持跨应用工作流与复杂图形界面操作。

  • 硬件配置:本地部署需 Apple M4 芯片及以上设备,配备 32GB 以上内存,或通过 USB 4.0 连接 Mano-P 算力棒。

Mano-P 1.0的核心优势

  • 纯视觉驱动:无需 API、HTML 或底层协议,直接通过像素级理解操控任意桌面软件与 3D 应用,打破传统自动化边界。
  • 端侧本地部署:支持 Apple M4 芯片设备本地运行,4B 量化模型仅需 4.3GB 内存,实现数据零上云的物理隔离级隐私保护。
  • 离线自主能力:无网络环境下可自主规划并执行复杂长任务,具备实时决策与自我纠错能力。
  • 性能标杆:72B 版本在 OSWorld 等 13 项国际基准测试中取得 SOTA,OSWorld 任务成功率 58.2%,领先同类模型 13.2 个百分点。
  • 开源生态:Apache 2.0 协议全面开源,完整代码可审计,支持商业应用与二次开发,无缝接入 OpenClaw、Claude Code 等 Agent 生态。

Mano-P 1.0的项目地址

  • GitHub仓库:https://github.com/Mininglamp-AI/Mano-P

Mano-P 1.0的同类竞品对比

对比维度Mano-P 1.0OpenCUA-72BClaude Computer Use
开发方明略科技开源社区Anthropic
模型版本72B 完整版 / 4B 量化版72BClaude 3.5 Sonnet(闭源)
开源协议Apache 2.0(可商用)开源闭源
OSWorld 成绩58.2%45.0%未公开/约 40% 区间
部署方式本地端侧 + 云端本地 GPU / 云端仅云端 API
端侧硬件要求Apple M4 芯片,32GB 内存,4.3GB 峰值显存需高配 GPU(如 A100),无专用量化版不支持本地部署
离线能力支持长任务离线自主执行支持离线必须联网
视觉方案纯视觉理解(像素级)纯视觉视觉 + 文本混合
集成方式Skill 接入 OpenClaw/Claude Code需自行开发接口仅限 Claude Code 生态

Mano-P 1.0的应用场景

  • 跨应用办公自动化:自动在 Excel、ERP、邮件客户端间迁移数据,完成报表生成、邮件分发等跨系统办公流。
  • 复杂软件操控:直接操控 Photoshop、CAD、3D 建模等专业设计软件,以及无 API 接口的 legacy 系统。
  • 端到端软件测试:自动执行 UI 界面点击、表单填写、结果验证,完成无人工干预的全流程应用测试。
  • 隐私敏感业务处理:本地运行处理财务报表、医疗记录等敏感数据,确保信息不出本机,满足合规要求。
  • 离线场景自动化:在无网络环境下自主完成数据录入、文档处理、系统运维等长周期复杂任务。

© 版权声明

相关文章