OpenAI 於 2026 年 4 月 23 日正式發布 GPT-5.5,這是一款新的 AI 模型,透過原生電腦使用能力來理解使用者在真實世界應用中的意圖。根據 OpenAI 的公告,該模型具備通用型的原生能力,使其能夠瀏覽桌面應用程式、點擊按鈕,並輸入文字,以完成多步驟的工作流程。
GPT-5.5 將原生電腦使用與進階推理結合,能夠自主導航完成高階專業任務所需的軟體工具。其約 1.1 百萬 token 的上下文視窗,使其能夠處理龐大的金融資料集,而此前這些資料集需要進行人工切塊。OpenAI 的金融團隊使用 GPT-5.5 來審查 24,771 份 K-1 稅務表單 (71,637 頁),並且比前一年提前兩週完成任務。
GPT-5.5 在內部投資銀行建模任務上達到 88.5%,在 FinancialAgent v1.1 基準上為 60%,並以四個百分點領先 GPT-5.4。該模型在 GDPval 上達到 84.9%,該項目測試代理程式在 44 個職業中產出特定知識工作的能力。在 OSWorld-Verified 上(衡量模型的自主真實電腦操作),模型達到 78.7%。GPT-5.5 在 Tau2-bench Telecom 上得分 98%,該項目測試極其困難的客戶服務工作流程。
Go-to-Market 團隊的一名員工確認,自動化每週的商業報告將使每週手動工作量大約節省 5-10 小時。
OpenAI 表示,GPT-5.5 用於協助編寫其自身託管基礎設施的程式碼。該模型透過分析生產流量模式來編寫自訂負載平衡啟發式方法,實現了「系統層級最佳化」,使自身的 token 生成速度提升 20%。
在一項開發者測試中,讓該模型被要求「重新架構一個 markdown 編輯器」,其回傳了一個幾乎完整的 12-diff 堆疊,僅需最少的人類修正。OpenAI 指出,新模型能在更少的回合內達到正確答案,並且在執行相同的 Codex 任務時,相較於 GPT-5.4 使用的 token 數量少 40%。
Every 的創辦人兼執行長 Dan Shipper 描述 GPT-5.5 是第一款具備「嚴肅的概念清晰度」的編碼模型。Shipper 在他與最好的工程師花了數天排查一項上線後問題之後測試了 GPT-5.5。根據 Shipper 的說法,GPT-5.5 達成了 GPT-5.4 做不到的事:它檢查了損壞的程式碼,並產出工程師最終決定採用的重寫方案。該模型能夠「記住」並跨參照整套資訊函式庫,而不會迷失其位置,從而降低困擾先前版本的「幻覺」。
OpenAI 聲稱 GPT-5.5 針對「自我修正」與自主性進行了最佳化。它在解讀含糊指令並透過電腦介面 (clicking, typing, browsing) 完成目標(且無需人類介入)方面更強。當需要代理程式來操作軟體、管理以終端機為主的工作流程,或在整個程式碼庫 (500K+ tokens) 中進行推理並具備高檢索準確度時,該模型特別實用。
在 ChatGPT 中,OpenAI 推出了「GPT-5.5 Thinking」,該公司表示此功能可釋放更快的協助,讓更困難的問題也能獲得更快的解答。該功能提供更聰明、更精簡的答案,協助使用者更有效率地完成複雜任務。它在專業工作(例如資訊整合與分析、編碼)以及研究等文件量較大的任務上表現出色,尤其是在使用外掛程式時。
早期的 GPT-5.5 Pro 測試者回報,ChatGPT 能夠處理的工作的品質與難度都有大幅提升。它的延遲更低,使其在要求高的任務上比 GPT-5.4 Pro 更實用。GPT-5.5 Pro 的回應結構良好、相關性高、具用性且準確,在法律、資料科學、商業與教育方面尤其表現強勁。
雖然有基本版本可用,但最具能力的版本 (GPT-5.5 Pro) 對個人訂閱者的費用為每月 $100。對企業而言,每個輸出 token 的成本大約是 GPT-5.4 的兩倍,即便 token 效率提高 40%。大規模代理式部署的整體支出可能相當可觀。人們對最高階推理將成為一種「奢侈品」且僅供資金充裕的公司使用的擔憂日益增加,這可能會擴大大型企業與較小型新創之間的生產力差距。