发现商业评论 旗下
洞察商业 启迪未来

GPT-5.5实测:从“回答者”到“执行者”,AI工作新范式来了

   时间:2026-04-25 00:08 来源:快讯作者:沈瑾瑜

OpenAI近日正式推出其最新一代人工智能模型GPT-5.5,这款被定位为“为真实工作场景量身打造”的模型,在任务执行能力上实现了重大突破。与前代产品相比,GPT-5.5不再局限于被动回答问题,而是能够主动规划并完成复杂工作流程,包括信息检索、数据分析、文档生成、软件操作以及多工具协同使用。

在基准测试中,GPT-5.5展现出显著优势。其GDPval指标(基于44种真实职业任务的评估)得分达到84.9%,较GPT-5.4提升1.9个百分点,超越Claude Opus 4.7的80.3%和Gemini 3.1 Pro的67.3%。在OSWorld测试(衡量电脑环境操作能力)中,该模型以78.7%的得分领先前代3.7个百分点,证明其具备直接执行多步骤操作的能力,包括界面点击、工具切换等。针对企业级复杂流程的Tau2 Telecom测试显示,GPT-5.5在无需额外调优的情况下取得98.0%的准确率,展现出处理多环节依赖任务的高效性。

编程能力是本次升级的核心亮点之一。在Terminal-Bench 2.0测试中,GPT-5.5取得82.7%的成绩,SWE-Bench Pro测试得分达58.6%,较前代提升显著。官方演示显示,该模型可独立完成从项目搭建到功能实现的完整开发流程:例如使用WebGL进行3D渲染、通过Vite构建项目框架,并整合ArtemisII任务的真实轨道数据。在另一个案例中,GPT-5.5不仅生成了基于Three.js的3D地牢竞技场前端代码,还覆盖了战斗系统、敌人AI等核心模块,仅将角色建模等视觉内容交由第三方工具处理。

知识工作场景的应用拓展同样引人注目。GPT-5.5可自动完成财务建模、市场分析报告生成等任务,其输出的结构化文档可直接用于商业决策。内部测试显示,超过85%的OpenAI员工每周使用该模型辅助工作,覆盖财务、市场、数据科学等多个部门。在创意领域,该模型展现出强大的跨模态能力:根据“设计高端品牌网站”的指令,其生成的HTML文件包含定制字体、响应式布局和动态交互元素;在动画创作测试中,GPT-5.5输出的SVG代码实现了复杂的Unity风格视觉效果,且所有代码均可单文件运行。

效率优化是本次升级的另一重点。尽管实际服务速度与GPT-5.4持平,但GPT-5.5在完成相同Codex任务时消耗的token减少约30%,直接降低了使用成本。其API定价为每百万输入token 5美元、输出30美元,虽较前代翻倍,但OpenAI强调,由于任务完成效率提升,总成本未必增加。安全体系方面,该模型通过了包含网络安全、生物技术等高风险领域的专项验证,并针对近200个真实场景进行了优化调整。

从技术演进路径看,GPT-5.5标志着AI模型从“问答工具”向“执行系统”的转型。自GPT-4o实现多模态统一处理以来,OpenAI持续强化模型的自主判断能力:GPT-5.3重点提升编码稳定性和工具调用自然度,GPT-5.4则优化了跨应用工作流和长任务稳定性。此次升级进一步将模型定位为后台持续运行的协作系统,用户可通过自然语言指令委托完整任务,而非分解为多个子问题。这种转变不仅提升了使用体验,更重新定义了AI在专业领域的应用标准——能否稳定高效地完成全流程工作,成为衡量模型价值的核心指标。

 
 
更多>同类内容
全站最新
热门内容