发现商业评论 旗下
洞察商业 启迪未来

Mano-P 1.0全球领先!13个榜单登顶,GUI智能体开启个性化AI新纪元

   时间:2026-04-14 04:52 来源:快讯作者:赵云飞

当人们还在讨论AI能否在虚拟世界中完成复杂任务时,一款名为Mano-P 1.0的智能体模型已经突破了图形界面的操作边界,甚至能代替人类完成打麻将这样的娱乐活动。这款由明略科技自主研发的通用GUI智能体模型,不仅在13个多模态基准测试中登顶全球榜首,更通过本地化部署和纯视觉交互方案,重新定义了AI与物理世界的交互方式。

在权威测试平台OSWorld上,Mano-P 1.0以58.2%的任务成功率领先第二名13.2个百分点,成为首个超越专用模型性能的720亿参数级智能体。更令人瞩目的是,该模型在WebRetriever Protocol I测试中以41.7分超越Gemini 2.5 Pro和Claude 4.5等千亿级通用大模型,展现出专用模型在特定领域的独特优势。这些成绩的取得,源于其独创的Text↔Action双向自增强学习框架,通过自然语言与操作动作的循环一致性训练,使模型同时具备界面理解和自主决策能力。

与传统依赖云端API的方案不同,Mano-P 1.0采用纯本地化运行架构,所有推理过程均在设备端完成。在搭载M4芯片的Mac设备上,其40亿参数的量化模型可实现每秒476个token的预填充速度,峰值内存占用仅4.3GB。这种设计不仅解决了数据隐私泄露风险,更使模型在无网络环境下仍能保持完整功能。测试数据显示,在涉及网页操作和专业剪辑软件的混合工作流中,该模型能自主完成从视频生成到二次评测的全流程自动化任务。

开源策略的差异化实施是Mano-P项目的另一大亮点。项目团队采用三阶段渐进式开源方案:首先开放具备开箱即用特性的CLI工具和Agent插件,使开发者能快速构建自动化工作流;随后开源本地化模型和SDK组件,满足高安全性场景的部署需求;最终公开训练方法论,包括视觉Token剪枝技术和强化学习框架等核心专利。这种分层开放策略既保护了技术创新成果,又为不同层次的开发者提供了灵活的选择空间。

在技术实现层面,Mano-P通过三项关键突破解决了端侧部署难题。其独创的GSPruning视觉剪枝技术,通过保留全局空间锚点的方式将视觉Token保留率压缩至12.57%,在维持任务成功率的同时使吞吐量提升2-3倍。双向强化学习框架则突破传统单向训练模式,使模型能同时理解自然语言指令和界面元素语义。这些创新使得模型在有限算力下仍能保持高效推理能力,为个性化AI的落地提供了技术保障。

项目首席科学家赵晨旭将Mano-P的"P"定义为Personalized(个性化)的缩写,这揭示了模型研发的核心愿景。区别于追求通用能力的AGI路线,该模型更注重将个体经验转化为决策参数。以麻将场景为例,通用AI会选择理论最优解,而个性化AI则能模拟用户特有的记牌习惯和杠牌策略。这种设计理念在软件测试领域已展现出应用潜力,模型可参照PRD文档自动完成端到端GUI测试,形成"开发-测试-修复"的完整闭环。

随着720亿参数完整模型和40亿参数端侧模型的同步开源,开发者已能构建覆盖研究验证到生产落地的完整技术栈。在Apache 2.0协议框架下,项目提供的三种接入形态——命令行工具、Agent插件和Python SDK,分别满足了快速体验、深度集成和自主调度的不同需求。这种开放生态的建设,正在推动GUI自动化领域从浏览器协议依赖向跨平台通用方案的转型。

 
 
更多>同类内容
全站最新
热门内容