OpenAI 发布具有原生计算机使用能力的 GPT-5.5 AI 模型

Crypto Frontier

OpenAI 于 2026 年 4 月 23 日正式发布 GPT-5.5,这是一款新的 AI 模型,旨在通过原生计算机使用能力来理解用户在现实应用中的意图。根据 OpenAI 的公告,该模型具备通用型原生能力,能够在桌面应用中导航、点击按钮,并为多步骤工作流输入文本。

GPT-5.5 将原生计算机使用与先进推理结合起来,能够自主导航完成高水平专业任务所需的软件工具。该模型的 ~1.1 million-token 上下文窗口使其能够处理以往需要手动分块的海量金融数据。OpenAI 的金融团队使用 GPT-5.5 审阅了 24,771 份 K-1 税务表单 (71,637 页),并且比前一年提前两周完成了该任务。

性能基准

GPT-5.5 在内部投资银行建模任务上得分 88.5%,在 FinancialAgent v1.1 基准上得分 60%,相比 GPT-5.4 领先四个百分点。该模型在 GDPval 上取得了 84.9% 的成绩,该基准测试代理在 44 种职业中生成特定知识工作的能力。在 OSWorld-Verified 上,衡量模型自主真实电脑操作能力,模型达到了 78.7%。GPT-5.5 在 Tau2-bench Telecom 上得分 98%,该基准测试极其困难的客户服务工作流。

Go-to-Market 团队的一位员工确认,自动化每周的业务报告将每周节省大约 5-10 小时的手工工作。

代码生成与系统优化

OpenAI 表示,GPT-5.5 被用于帮助编写其自身托管基础设施的代码。通过分析生产流量模式来编写定制的负载均衡启发式,模型实现了“系统级优化”,并使自身的令牌生成速度提高了 20%。

在一次开发者测试中,模型被要求“重新架构一个 markdown 编辑器”,并返回了一个几乎完整的 12-diff 堆栈,且只需要最少的人类修正。OpenAI 指出,新模型能在更少的轮次中达到正确答案,并且与 GPT-5.4 相比,在相同的 Codex 任务中使用的令牌更少(减少 40%)。

Every 的创始人兼 CEO Dan Shipper 将 GPT-5.5 描述为首个具有“严肃的概念清晰度”的编码模型。Shipper 在他和他最优秀的工程师花了数天时间调试上线后问题的过程中测试了 GPT-5.5。根据 Shipper 的说法,GPT-5.5 达成了 GPT-5.4 做不到的事情:它检查了损坏的代码,并产出了工程师最终决定采用的重写方案。该模型可以“记住”并交叉引用整套信息库而不丢失位置,从而减少困扰早期版本的“幻觉”。

自主能力与自我纠错

OpenAI 声称 GPT-5.5 针对“自我纠错”和自主性进行了优化。它更擅长理解含糊的指令,并使用计算机界面 (clicking, typing, browsing) 来在无需人工干预的情况下完成目标。当需要代理来操作软件、管理以终端为主的工作流,或以高检索准确率在整个代码库 (500K+ tokens) 上进行推理时,该模型尤其有用。

GPT-5.5 思考功能

在 ChatGPT 中,OpenAI 推出了“GPT-5.5 Thinking”,公司表示该功能能够为更困难的问题解锁更快的帮助。该功能提供更聪明、更精炼的答案,帮助用户更高效地完成复杂任务。它在信息综合与分析、编码以及研究等文档密集型任务等专业工作方面表现出色,尤其是在使用插件时。

早期的 GPT-5.5 Pro 试用者报告称,ChatGPT 承接工作的质量与难度都有了显著提升。其更低的延迟使其在苛刻任务上比 GPT-5.4 Pro 更实用。GPT-5.5 Pro 的回复结构良好、相关性强、实用且准确,在法律、数据科学、商业与教育方面表现尤其突出。

定价与可用性

虽然提供基础版本,但最具能力的版本 (GPT-5.5 Pro) 对个人订阅者的费用为每月 100 美元。对企业而言,每个输出令牌的成本大约是 GPT-5.4 的两倍,即便令牌效率提高了 40%。用于大规模代理式部署的总体支出可能相当可观。人们越来越担心,最高等级的推理能力将成为一种“奢侈品”,仅供资金雄厚的公司使用,这可能会拉大大型企业与较小初创公司之间的生产力差距。

免责声明:本页面信息可能来自第三方,不代表 Gate 的观点或意见。页面显示的内容仅供参考,不构成任何财务、投资或法律建议。Gate 对信息的准确性、完整性不作保证,对因使用本信息而产生的任何损失不承担责任。虚拟资产投资属高风险行为,价格波动剧烈,您可能损失全部投资本金。请充分了解相关风险,并根据自身财务状况和风险承受能力谨慎决策。具体内容详见声明
评论
0/400
APR Daydreamvip
· 2小时前
希望官方给一个可审计的行动日志/回放机制,不然出了问题很难追责,尤其是自动操作资产类账户。
回复0
PaperHandsProvip
· 2小时前
现实应用里的“理解意图”才是难点,希望别再出现你想订机票它去改你简历的尴尬。
回复0
半剖多肉vip
· 2小时前
有点期待,也有点怕:能点鼠标就等于能做很多“人类点击”才能做的事,风控和反作弊得升级。
回复0
柚子味的冷静vip
· 2小时前
这波对 Web3 也有影响吧,自动化链上操作、签名流程、钱包交互要是能无缝做,产品形态会变。
回复0
玻璃穹顶里的星vip
· 2小时前
API 和价格先别急,先看看它在复杂桌面环境里能不能抗弹窗、抗多窗口、抗网络抖动。
回复0
GateUser-b665e41cvip
· 2小时前
感觉从“能说会写”进化到“能做能交付”,下一步就是给它更好的记忆和任务管理了。
回复0
Lint Collectorvip
· 2小时前
如果真能跨应用串联:浏览器查资料→Excel 处理→PPT 出稿→邮箱发送,那就是办公全链路闭环。
回复0
DegenWithNotebookvip
· 2小时前
终于上桌面原生操作了?这下真要当“数字实习生”了。
回复0