OpenAI 于 2026 年 4 月 23 日正式发布 GPT-5.5,这是一款新的 AI 模型,旨在通过原生计算机使用能力来理解用户在现实应用中的意图。根据 OpenAI 的公告,该模型具备通用型原生能力,能够在桌面应用中导航、点击按钮,并为多步骤工作流输入文本。
GPT-5.5 将原生计算机使用与先进推理结合起来,能够自主导航完成高水平专业任务所需的软件工具。该模型的 ~1.1 million-token 上下文窗口使其能够处理以往需要手动分块的海量金融数据。OpenAI 的金融团队使用 GPT-5.5 审阅了 24,771 份 K-1 税务表单 (71,637 页),并且比前一年提前两周完成了该任务。
GPT-5.5 在内部投资银行建模任务上得分 88.5%,在 FinancialAgent v1.1 基准上得分 60%,相比 GPT-5.4 领先四个百分点。该模型在 GDPval 上取得了 84.9% 的成绩,该基准测试代理在 44 种职业中生成特定知识工作的能力。在 OSWorld-Verified 上,衡量模型自主真实电脑操作能力,模型达到了 78.7%。GPT-5.5 在 Tau2-bench Telecom 上得分 98%,该基准测试极其困难的客户服务工作流。
Go-to-Market 团队的一位员工确认,自动化每周的业务报告将每周节省大约 5-10 小时的手工工作。
OpenAI 表示,GPT-5.5 被用于帮助编写其自身托管基础设施的代码。通过分析生产流量模式来编写定制的负载均衡启发式,模型实现了“系统级优化”,并使自身的令牌生成速度提高了 20%。
在一次开发者测试中,模型被要求“重新架构一个 markdown 编辑器”,并返回了一个几乎完整的 12-diff 堆栈,且只需要最少的人类修正。OpenAI 指出,新模型能在更少的轮次中达到正确答案,并且与 GPT-5.4 相比,在相同的 Codex 任务中使用的令牌更少(减少 40%)。
Every 的创始人兼 CEO Dan Shipper 将 GPT-5.5 描述为首个具有“严肃的概念清晰度”的编码模型。Shipper 在他和他最优秀的工程师花了数天时间调试上线后问题的过程中测试了 GPT-5.5。根据 Shipper 的说法,GPT-5.5 达成了 GPT-5.4 做不到的事情:它检查了损坏的代码,并产出了工程师最终决定采用的重写方案。该模型可以“记住”并交叉引用整套信息库而不丢失位置,从而减少困扰早期版本的“幻觉”。
OpenAI 声称 GPT-5.5 针对“自我纠错”和自主性进行了优化。它更擅长理解含糊的指令,并使用计算机界面 (clicking, typing, browsing) 来在无需人工干预的情况下完成目标。当需要代理来操作软件、管理以终端为主的工作流,或以高检索准确率在整个代码库 (500K+ tokens) 上进行推理时,该模型尤其有用。
在 ChatGPT 中,OpenAI 推出了“GPT-5.5 Thinking”,公司表示该功能能够为更困难的问题解锁更快的帮助。该功能提供更聪明、更精炼的答案,帮助用户更高效地完成复杂任务。它在信息综合与分析、编码以及研究等文档密集型任务等专业工作方面表现出色,尤其是在使用插件时。
早期的 GPT-5.5 Pro 试用者报告称,ChatGPT 承接工作的质量与难度都有了显著提升。其更低的延迟使其在苛刻任务上比 GPT-5.4 Pro 更实用。GPT-5.5 Pro 的回复结构良好、相关性强、实用且准确,在法律、数据科学、商业与教育方面表现尤其突出。
虽然提供基础版本,但最具能力的版本 (GPT-5.5 Pro) 对个人订阅者的费用为每月 100 美元。对企业而言,每个输出令牌的成本大约是 GPT-5.4 的两倍,即便令牌效率提高了 40%。用于大规模代理式部署的总体支出可能相当可观。人们越来越担心,最高等级的推理能力将成为一种“奢侈品”,仅供资金雄厚的公司使用,这可能会拉大大型企业与较小初创公司之间的生产力差距。