OpenAI再次引爆AI领域,正式推出GPT-5.4,这款被业界称为"全能型选手"的新模型,将推理、编程、计算机原生交互、深度网页搜索和百万级Token上下文处理能力集于一身,且在各项性能指标上均保持领先地位。这一突破性进展,让等待已久的AI社区终于迎来一场"惊喜暴击"。
GPT-5.4最引人注目的创新在于其原生计算机操作能力。这款模型能够通过分析软件界面截图,自主执行鼠标点击、键盘输入等操作,完成发送邮件、创建日历事件、填写表单等复杂任务。在WebArena浏览器任务测试中,GPT-5.4取得67.3%的成功率,在Online-Mind2Web测试中,仅通过截图完成网页操作的成功率高达92.8%。更令人惊叹的是,在OSWorld-Verified桌面操作任务中,其75.0%的成功率已超越人类平均水平(72.4%)。
编程能力方面,GPT-5.4整合了此前最强编程模型GPT-5.3-Codex的核心功能,不仅支持1.5倍速的/fast模式输出,还新增"Playwright (Interactive)"实验性功能。这项技术允许模型在开发网页或应用时,同步进行视觉化调试。例如在开发模拟游戏时,它能同时生成美术资源、编写逻辑代码,并运行自动测试验证游戏状态。在SWE-Bench Pro测试中,GPT-5.4取得57.7%的成绩,延迟较前代更低,复杂前端任务的表现显著提升,生成的界面设计更美观、功能结构更完整。
知识工作领域,GPT-5.4在GDPval基准测试(涵盖44种职业、9个GDP主要贡献行业)中,综合得分达83.0%。在投资银行建模测试中,其平均得分从GPT-5.2的68.4%跃升至87.3%。人类评审在PPT生成测试中,68%的时间更偏好GPT-5.4的作品,认为其视觉效果更佳、版式更丰富、图片运用更合理。该模型还支持1024万像素原图输入,在MMMU-Pro视觉推理测试中准确率达81.2%,文档解析错误率从0.140降至0.109。
效率优化是本次升级的另一大亮点。相比GPT-5.2,GPT-5.4在推理过程中使用的Token数量显著减少,响应速度更快且成本更低。这得益于其引入的工具搜索机制——模型不再需要将所有工具定义塞入提示词,而是先浏览工具清单,需要时再调取具体定义。在MCP Atlas基准测试中,这项技术使总Token使用量降低47%,同时保持同等准确率。
随着GPT-5.4上线,ChatGPT的模型体系同步调整。新模型同步登陆ChatGPT、API和Codex平台,API定价虽较GPT-5.2有所上涨(每百万输入Token从1.75美元升至2.5美元,输出从14美元升至15美元),但任务总成本因Token消耗减少而变化不大。面向复杂任务的Pro版本同步推出,在ChatGPT中命名为GPT-5.4 Thinking,将取代此前的GPT-5.2 Thinking,而GPT-5.2系列将于三个月后正式退役,GPT-5.1系列则将在3月11日退出ChatGPT。
社交媒体上,网友对这款新模型的讨论热度持续攀升。有人戏称,拥有百万token上下文窗口且能原生操作电脑的GPT-5.4,与苹果最新发布的低价笔记本电脑MacBook Neo形成"科技双雄";更有开发者调侃:"我的电脑正在经历存在主义危机!"这些反应折射出AI技术对传统工作方式的深刻影响——当模型能独立完成从界面操作到多轮网页搜索的完整工作流时,人类与数字世界的交互方式正在发生根本性变革。










