Mano-P 1.0是什么
Mano-P 1.0是明略科技开源的GUI-VLA智能体模型,采用纯视觉驱动,无需API可直接操控桌面软件与网页界面。模型提供72B完整版与4B量化版,支持Apple M4芯片本地部署,实现数据零上云与物理隔离级隐私保护。Mano-P 1.0在OSWorld等13项国际基准测试中取得SOTA成绩,以Apache 2.0协议开源,支持商业应用与二次开发。

Mano-P 1.0的主要功能
- GUI全链路操控:模型具备感知、理解、规划、操作与验证的完整能力,可直接操控桌面软件、网页界面及复杂图形化工作流,支持点击、文本输入、窗口切换、视觉验证等闭环动作。
- 纯视觉理解:不依赖底层API、CDP协议或HTML解析,通过像素级视觉理解直接”看懂”屏幕内容,打破传统浏览器生态边界,可处理非标准应用、3D软件及跨系统协作场景。
- 端侧本地部署:支持Apple M4芯片设备(Mac mini/MacBook)本地运行,也可通过USB 4.0连接算力棒。数据零上云,实现物理隔离级隐私保护,无网环境下仍可自主执行长任务。
- Agent生态集成:作为Skill无缝接入OpenClaw、Claude Code等AI Agent,为其提供GUI执行能力底座,解决复杂工作流中的人工干预瓶颈。
Mano-P 1.0的技术原理
- GUI-VLA 架构:基于视觉-语言-动作多模态框架,模型直接解析屏幕像素信息,结合自然语言指令输出具体操作坐标与动作,无需依赖 API 或 HTML 解析即可跨平台操控任意图形界面。
- 三阶段渐进训练:采用监督微调奠定基础能力,经离线强化学习优化策略,最终通过在线强化学习实现实时环境反馈与动态纠错,形成从感知到执行的闭环优化。
- GSPruning 剪枝加速:通过专有视觉 Token 剪枝技术压缩冗余视觉信息,配合 4-bit 量化方案,使 4B 模型在 M4 芯片端侧实现 476 tokens/s 推理速度,内存占用仅 4.3GB。
- 端云双版本设计:72B 完整模型部署于云端处理复杂任务,4B 量化模型专注端侧本地运行,结合长上下文理解能力,支持离线环境下的自主任务规划与多步决策。
如何使用Mano-P 1.0
- 获取代码:访问 GitHub 仓库克隆项目源码与文档。
- 选择模式:当前可将 Mano-CUA Skill 配置至 OpenClaw 或 Claude Code。
- 配置集成:将 Skill 接入目标 Agent,使模型获得跨应用 GUI 感知与自动化操作能力。
- 本地部署:在 Apple M4 芯片设备(32GB+ 内存)上运行 4B 量化模型,实现数据零上云的离线操作。
- 开始使用:通过自然语言指令驱动 AI 自动解析屏幕,完成点击、输入、窗口切换等复杂工作流。
Mano-P 1.0的关键信息和使用要求
产品定位:Mano-P 1.0 是明略科技开源的 GUI-VLA 智能体模型,通过纯视觉理解直接操控桌面软件与网页界面,无需依赖 API 接口。
开源协议:采用 Apache 2.0 协议全面开源,完整代码可审计,支持商业使用与二次开发。
模型版本:提供 72B 完整模型(云端高性能)与 4B 量化模型(端侧本地部署)双版本架构。
性能表现:在 OSWorld、ScreenSpot-V2 等 13 个国际权威基准测试中取得 SOTA 成绩,OSWorld 任务成功率达 58.2%。
核心优势:纯视觉驱动打破传统自动化边界,支持跨应用工作流与复杂图形界面操作。
硬件配置:本地部署需 Apple M4 芯片及以上设备,配备 32GB 以上内存,或通过 USB 4.0 连接 Mano-P 算力棒。
Mano-P 1.0的核心优势
- 纯视觉驱动:无需 API、HTML 或底层协议,直接通过像素级理解操控任意桌面软件与 3D 应用,打破传统自动化边界。
- 端侧本地部署:支持 Apple M4 芯片设备本地运行,4B 量化模型仅需 4.3GB 内存,实现数据零上云的物理隔离级隐私保护。
- 离线自主能力:无网络环境下可自主规划并执行复杂长任务,具备实时决策与自我纠错能力。
- 性能标杆:72B 版本在 OSWorld 等 13 项国际基准测试中取得 SOTA,OSWorld 任务成功率 58.2%,领先同类模型 13.2 个百分点。
- 开源生态:Apache 2.0 协议全面开源,完整代码可审计,支持商业应用与二次开发,无缝接入 OpenClaw、Claude Code 等 Agent 生态。
Mano-P 1.0的项目地址
- GitHub仓库:https://github.com/Mininglamp-AI/Mano-P
Mano-P 1.0的同类竞品对比
| 对比维度 | Mano-P 1.0 | OpenCUA-72B | Claude Computer Use |
|---|---|---|---|
| 开发方 | 明略科技 | 开源社区 | Anthropic |
| 模型版本 | 72B 完整版 / 4B 量化版 | 72B | Claude 3.5 Sonnet(闭源) |
| 开源协议 | Apache 2.0(可商用) | 开源 | 闭源 |
| OSWorld 成绩 | 58.2% | 45.0% | 未公开/约 40% 区间 |
| 部署方式 | 本地端侧 + 云端 | 本地 GPU / 云端 | 仅云端 API |
| 端侧硬件要求 | Apple M4 芯片,32GB 内存,4.3GB 峰值显存 | 需高配 GPU(如 A100),无专用量化版 | 不支持本地部署 |
| 离线能力 | 支持长任务离线自主执行 | 支持离线 | 必须联网 |
| 视觉方案 | 纯视觉理解(像素级) | 纯视觉 | 视觉 + 文本混合 |
| 集成方式 | Skill 接入 OpenClaw/Claude Code | 需自行开发接口 | 仅限 Claude Code 生态 |
Mano-P 1.0的应用场景
- 跨应用办公自动化:自动在 Excel、ERP、邮件客户端间迁移数据,完成报表生成、邮件分发等跨系统办公流。
- 复杂软件操控:直接操控 Photoshop、CAD、3D 建模等专业设计软件,以及无 API 接口的 legacy 系统。
- 端到端软件测试:自动执行 UI 界面点击、表单填写、结果验证,完成无人工干预的全流程应用测试。
- 隐私敏感业务处理:本地运行处理财务报表、医疗记录等敏感数据,确保信息不出本机,满足合规要求。
- 离线场景自动化:在无网络环境下自主完成数据录入、文档处理、系统运维等长周期复杂任务。
© 版权声明
本站文章版权归AI导航网所有,未经允许禁止任何形式的转载。
