OpenAI 發布具備原生電腦使用能力的 GPT-5.5 AI 模型

Crypto Frontier

OpenAI 於 2026 年 4 月 23 日正式發布 GPT-5.5,這是一款新的 AI 模型,透過原生電腦使用能力來理解使用者在真實世界應用中的意圖。根據 OpenAI 的公告,該模型具備通用型的原生能力,使其能夠瀏覽桌面應用程式、點擊按鈕,並輸入文字,以完成多步驟的工作流程。

GPT-5.5 將原生電腦使用與進階推理結合,能夠自主導航完成高階專業任務所需的軟體工具。其約 1.1 百萬 token 的上下文視窗,使其能夠處理龐大的金融資料集,而此前這些資料集需要進行人工切塊。OpenAI 的金融團隊使用 GPT-5.5 來審查 24,771 份 K-1 稅務表單 (71,637 頁),並且比前一年提前兩週完成任務。

效能基準

GPT-5.5 在內部投資銀行建模任務上達到 88.5%,在 FinancialAgent v1.1 基準上為 60%,並以四個百分點領先 GPT-5.4。該模型在 GDPval 上達到 84.9%,該項目測試代理程式在 44 個職業中產出特定知識工作的能力。在 OSWorld-Verified 上(衡量模型的自主真實電腦操作),模型達到 78.7%。GPT-5.5 在 Tau2-bench Telecom 上得分 98%,該項目測試極其困難的客戶服務工作流程。

Go-to-Market 團隊的一名員工確認,自動化每週的商業報告將使每週手動工作量大約節省 5-10 小時。

程式碼生成與系統最佳化

OpenAI 表示,GPT-5.5 用於協助編寫其自身託管基礎設施的程式碼。該模型透過分析生產流量模式來編寫自訂負載平衡啟發式方法,實現了「系統層級最佳化」,使自身的 token 生成速度提升 20%。

在一項開發者測試中,讓該模型被要求「重新架構一個 markdown 編輯器」,其回傳了一個幾乎完整的 12-diff 堆疊,僅需最少的人類修正。OpenAI 指出,新模型能在更少的回合內達到正確答案,並且在執行相同的 Codex 任務時,相較於 GPT-5.4 使用的 token 數量少 40%。

Every 的創辦人兼執行長 Dan Shipper 描述 GPT-5.5 是第一款具備「嚴肅的概念清晰度」的編碼模型。Shipper 在他與最好的工程師花了數天排查一項上線後問題之後測試了 GPT-5.5。根據 Shipper 的說法,GPT-5.5 達成了 GPT-5.4 做不到的事:它檢查了損壞的程式碼,並產出工程師最終決定採用的重寫方案。該模型能夠「記住」並跨參照整套資訊函式庫,而不會迷失其位置,從而降低困擾先前版本的「幻覺」。

自主能力與自我修正

OpenAI 聲稱 GPT-5.5 針對「自我修正」與自主性進行了最佳化。它在解讀含糊指令並透過電腦介面 (clicking, typing, browsing) 完成目標(且無需人類介入)方面更強。當需要代理程式來操作軟體、管理以終端機為主的工作流程,或在整個程式碼庫 (500K+ tokens) 中進行推理並具備高檢索準確度時,該模型特別實用。

GPT-5.5 思考功能

在 ChatGPT 中,OpenAI 推出了「GPT-5.5 Thinking」,該公司表示此功能可釋放更快的協助,讓更困難的問題也能獲得更快的解答。該功能提供更聰明、更精簡的答案,協助使用者更有效率地完成複雜任務。它在專業工作(例如資訊整合與分析、編碼)以及研究等文件量較大的任務上表現出色,尤其是在使用外掛程式時。

早期的 GPT-5.5 Pro 測試者回報,ChatGPT 能夠處理的工作的品質與難度都有大幅提升。它的延遲更低,使其在要求高的任務上比 GPT-5.4 Pro 更實用。GPT-5.5 Pro 的回應結構良好、相關性高、具用性且準確,在法律、資料科學、商業與教育方面尤其表現強勁。

定價與可近性

雖然有基本版本可用,但最具能力的版本 (GPT-5.5 Pro) 對個人訂閱者的費用為每月 $100。對企業而言,每個輸出 token 的成本大約是 GPT-5.4 的兩倍,即便 token 效率提高 40%。大規模代理式部署的整體支出可能相當可觀。人們對最高階推理將成為一種「奢侈品」且僅供資金充裕的公司使用的擔憂日益增加,這可能會擴大大型企業與較小型新創之間的生產力差距。

免責聲明:本頁面資訊可能來自第三方,不代表 Gate 的觀點或意見。頁面顯示的內容僅供參考,不構成任何財務、投資或法律建議。Gate 對資訊的準確性、完整性不作保證,對因使用本資訊而產生的任何損失不承擔責任。虛擬資產投資屬高風險行為,價格波動劇烈,您可能損失全部投資本金。請充分了解相關風險,並根據自身財務狀況和風險承受能力謹慎決策。具體內容詳見聲明
留言
0/400
APR Daydreamvip
· 2小時前
希望官方給一個可審計的行動日誌/回放機制,不然出了問題很難追責,尤其是自動操作資產類帳戶。
查看原文回復0
PaperHandsProvip
· 2小時前
現實應用中的“理解意圖”才是難點,希望別再出現你想訂機票它去改你簡歷的尷尬。
查看原文回復0
半剖多肉vip
· 2小時前
有點期待,也有點怕:能點鼠標就等於能做很多“人類點擊”才能做的事,風控和反作弊得升級。
查看原文回復0
柚子味的冷静vip
· 2小時前
這波對 Web3 也有影響吧,自動化鏈上操作、簽名流程、錢包交互要是能無縫做,產品形態會變。
查看原文回復0
玻璃穹顶里的星vip
· 2小時前
API 和價格先別急,先看看它在複雜桌面環境裡能不能抗彈窗、抗多窗口、抗網路抖動。
查看原文回復0
GateUser-b665e41cvip
· 2小時前
感覺從“能說會寫”進化到“能做能交付”,下一步就是給它更好的記憶和任務管理了。
查看原文回復0
Lint Collectorvip
· 2小時前
如果真能跨應用串聯:瀏覽器查資料→Excel 處理→PPT 出稿→郵箱發送,那就是辦公全鏈路閉環。
查看原文回復0
DegenWithNotebookvip
· 2小時前
終於在桌面原生操作了?這下真要當“數字實習生”了。
查看原文回復0