Mano-P 1.0 – 明略科技开源的 GUI-VLA 智能体模型

Al项目 2026-04-14 12:00:49 AI导航网

Mano-P 1.0是什么

Mano-P 1.0是明略科技开源的GUI-VLA智能体模型，采用纯视觉驱动，无需API可直接操控桌面软件与网页界面。模型提供72B完整版与4B量化版，支持Apple M4芯片本地部署，实现数据零上云与物理隔离级隐私保护。Mano-P 1.0在OSWorld等13项国际基准测试中取得SOTA成绩，以Apache 2.0协议开源，支持商业应用与二次开发。

Mano-P 1.0的主要功能

GUI全链路操控：模型具备感知、理解、规划、操作与验证的完整能力，可直接操控桌面软件、网页界面及复杂图形化工作流，支持点击、文本输入、窗口切换、视觉验证等闭环动作。
纯视觉理解：不依赖底层API、CDP协议或HTML解析，通过像素级视觉理解直接”看懂”屏幕内容，打破传统浏览器生态边界，可处理非标准应用、3D软件及跨系统协作场景。
端侧本地部署：支持Apple M4芯片设备（Mac mini/MacBook）本地运行，也可通过USB 4.0连接算力棒。数据零上云，实现物理隔离级隐私保护，无网环境下仍可自主执行长任务。
Agent生态集成：作为Skill无缝接入OpenClaw、Claude Code等AI Agent，为其提供GUI执行能力底座，解决复杂工作流中的人工干预瓶颈。

Mano-P 1.0的技术原理

GUI-VLA 架构：基于视觉-语言-动作多模态框架，模型直接解析屏幕像素信息，结合自然语言指令输出具体操作坐标与动作，无需依赖 API 或 HTML 解析即可跨平台操控任意图形界面。
三阶段渐进训练：采用监督微调奠定基础能力，经离线强化学习优化策略，最终通过在线强化学习实现实时环境反馈与动态纠错，形成从感知到执行的闭环优化。
GSPruning 剪枝加速：通过专有视觉 Token 剪枝技术压缩冗余视觉信息，配合 4-bit 量化方案，使 4B 模型在 M4 芯片端侧实现 476 tokens/s 推理速度，内存占用仅 4.3GB。
端云双版本设计：72B 完整模型部署于云端处理复杂任务，4B 量化模型专注端侧本地运行，结合长上下文理解能力，支持离线环境下的自主任务规划与多步决策。

如何使用Mano-P 1.0

获取代码：访问 GitHub 仓库克隆项目源码与文档。
选择模式：当前可将 Mano-CUA Skill 配置至 OpenClaw 或 Claude Code。
配置集成：将 Skill 接入目标 Agent，使模型获得跨应用 GUI 感知与自动化操作能力。
本地部署：在 Apple M4 芯片设备（32GB+ 内存）上运行 4B 量化模型，实现数据零上云的离线操作。
开始使用：通过自然语言指令驱动 AI 自动解析屏幕，完成点击、输入、窗口切换等复杂工作流。

Mano-P 1.0的关键信息和使用要求

产品定位：Mano-P 1.0 是明略科技开源的 GUI-VLA 智能体模型，通过纯视觉理解直接操控桌面软件与网页界面，无需依赖 API 接口。
开源协议：采用 Apache 2.0 协议全面开源，完整代码可审计，支持商业使用与二次开发。
模型版本：提供 72B 完整模型（云端高性能）与 4B 量化模型（端侧本地部署）双版本架构。
性能表现：在 OSWorld、ScreenSpot-V2 等 13 个国际权威基准测试中取得 SOTA 成绩，OSWorld 任务成功率达 58.2%。
核心优势：纯视觉驱动打破传统自动化边界，支持跨应用工作流与复杂图形界面操作。
硬件配置：本地部署需 Apple M4 芯片及以上设备，配备 32GB 以上内存，或通过 USB 4.0 连接 Mano-P 算力棒。

Mano-P 1.0的核心优势

纯视觉驱动：无需 API、HTML 或底层协议，直接通过像素级理解操控任意桌面软件与 3D 应用，打破传统自动化边界。
端侧本地部署：支持 Apple M4 芯片设备本地运行，4B 量化模型仅需 4.3GB 内存，实现数据零上云的物理隔离级隐私保护。
离线自主能力：无网络环境下可自主规划并执行复杂长任务，具备实时决策与自我纠错能力。
性能标杆：72B 版本在 OSWorld 等 13 项国际基准测试中取得 SOTA，OSWorld 任务成功率 58.2%，领先同类模型 13.2 个百分点。
开源生态：Apache 2.0 协议全面开源，完整代码可审计，支持商业应用与二次开发，无缝接入 OpenClaw、Claude Code 等 Agent 生态。

Mano-P 1.0的项目地址

GitHub仓库：https://github.com/Mininglamp-AI/Mano-P

Mano-P 1.0的同类竞品对比

对比维度	Mano-P 1.0	OpenCUA-72B	Claude Computer Use
开发方	明略科技	开源社区	Anthropic
模型版本	72B 完整版 / 4B 量化版	72B	Claude 3.5 Sonnet（闭源）
开源协议	Apache 2.0（可商用）	开源	闭源
OSWorld 成绩	58.2%	45.0%	未公开/约 40% 区间
部署方式	本地端侧 + 云端	本地 GPU / 云端	仅云端 API
端侧硬件要求	Apple M4 芯片，32GB 内存，4.3GB 峰值显存	需高配 GPU（如 A100），无专用量化版	不支持本地部署
离线能力	支持长任务离线自主执行	支持离线	必须联网
视觉方案	纯视觉理解（像素级）	纯视觉	视觉 + 文本混合
集成方式	Skill 接入 OpenClaw/Claude Code	需自行开发接口	仅限 Claude Code 生态

Mano-P 1.0的应用场景

跨应用办公自动化：自动在 Excel、ERP、邮件客户端间迁移数据，完成报表生成、邮件分发等跨系统办公流。
复杂软件操控：直接操控 Photoshop、CAD、3D 建模等专业设计软件，以及无 API 接口的 legacy 系统。
端到端软件测试：自动执行 UI 界面点击、表单填写、结果验证，完成无人工干预的全流程应用测试。
隐私敏感业务处理：本地运行处理财务报表、医疗记录等敏感数据，确保信息不出本机，满足合规要求。
离线场景自动化：在无网络环境下自主完成数据录入、文档处理、系统运维等长周期复杂任务。

# 文章博客 # Al项目

© 版权声明

本站文章版权归AI导航网所有，未经允许禁止任何形式的转载。

相关文章

Acrobat Student Spaces – Adobe 推出的 AI 学习平台

Al项目

563

Mano-P 1.0 – 明略科技开源的 GUI-VLA 智能体模型

Al项目

453

HeyGen CLI – HeyGen 推出的命令行工具

Al项目

13

QinyanClaw – 沁言学术推出的云端学术科研智能体

Al项目

784

PokeClaw – 开源的全本地离线运行手机 AI Agent 应用

Al项目

717

LPM 1.0 – 米哈游蔡浩宇推出的 AI 视频生成模型

Al项目

765

AI工具集导航收录了国内外数百个不同类型的AI工具，每日更新和添加最新AI工具，AI工具集还推荐了AI学习开发的常用网站、框架和模型，帮助你加入人工智能浪潮，自动化高效完成任务！ Ctrl + D 或 ⌘ + D 收藏本站到浏览器书签栏。

AI工具集导航广告投放关于我们免责声明

Copyright © 2026 AI导航网鄂ICP备15001166号-12