Gate 新聞訊息,4月27日——SemiAnalysis,一家半導體與 AI 分析公司,發布了一份包含 GPT-5.5、Claude Opus 4.7 與 DeepSeek V4 的編碼助手對比基準測試。關鍵發現:GPT-5.5 標誌著 OpenAI 在六個月後首次重返編碼模型的最前沿,且 SemiAnalysis 工程師如今在 Codex 與 Claude Code 之間交替使用;此前他們幾乎完全依賴 Claude。GPT-5.5 採用一種代號為「Spud」的新預訓練方法,代表 OpenAI 自 GPT-4.5 以來首次擴大預訓練規模。
在實際測試中,出現了明顯的分工。Claude 負責新的專案規劃與初始設定,而 Codex 在推理密集型的除錯修復方面表現更出色。Codex 展現出更強的資料結構理解與邏輯推理能力,但在推斷含糊的使用者意圖方面存在困難。在一個單一儀表板任務中,Claude 會自動複製參考頁面版面,但卻捏造大量資料;而 Codex 則跳過版面,但提供了顯著更準確的資料。
分析揭示了一個基準測試操控細節:OpenAI 在 2 月的博客文章中呼籲業界採用 SWE-bench Pro 作為新的編碼基準標準。然而,GPT-5.5 的公告改用了一個名為「Expert-SWE」的新基準。其原因被埋在細微的附註之中:GPT-5.5 在 SWE-bench Pro 上被 Opus 4.7 超越,且在未發布的 Mythos (77.8%) 上遠遠落後 Anthropic。
至於 Opus 4.7,Anthropic 在發布一週後發表了死因剖析式分析,承認 Claude Code 存在三個在 3 月至 4 月持續數週、影響幾乎所有用戶的錯誤。多位工程師先前已報告 4.6 版出現效能退化,但都被否定為主觀觀察。此外,Opus 4.7 的新 tokenizer 會使 token 使用量最多增加 35%,而 Anthropic 也公開承認——實際上等同於隱藏的價格上調。
DeepSeek V4 被評估為「跟上前沿但不領先」,並將自己定位為封閉來源模型中的最低成本替代方案。分析亦指出:「Claude 依然能在高難度中文寫作任務上優於 DeepSeek V4 Pro」,並評論稱:「Claude 在自己的語言中擊敗了中文模型。"
文章引入一個關鍵概念:模型定價應以「每項任務成本」來評估,而不是「每 token 成本」。GPT-5.5 的定價是 GPT-5.4 的兩倍 (input $5, output $30 per million tokens),但它能用更少的 token 完成相同的任務,因此實際成本未必更高。SemiAnalysis 的初步數據顯示 Codex 的輸入到輸出比為 80:1,低於 Claude Code 的 100:1。
免責聲明:本頁面資訊可能來自第三方,不代表 Gate 的觀點或意見。頁面顯示的內容僅供參考,不構成任何財務、投資或法律建議。Gate 對資訊的準確性、完整性不作保證,對因使用本資訊而產生的任何損失不承擔責任。虛擬資產投資屬高風險行為,價格波動劇烈,您可能損失全部投資本金。請充分了解相關風險,並根據自身財務狀況和風險承受能力謹慎決策。具體內容詳見
聲明。
相關文章
DeepSeek V4 Pro 上 Ollama Cloud:Claude Code 一鍵串接
根據 Ollama 推文,DeepSeek V4 Pro於4/24發布,已以雲端模式入 Ollama 目錄,僅一行指令即可呼叫 Claude Code、Hermes、OpenClaw、OpenCode、Codex 等工具。V4 Pro1.6T參、1M context,Mixture-of-Experts;雲端推論不下載本機權重。若要本地需自取權重並以 INT4/GGUF 與多卡 GPU 執行。早期測速受雲端負載影響,常態約30 tok/s,峰值1.1tok/s;建議以雲端原型,正式量產再自行推論或用商用 API。
鏈新聞abmedia6分鐘前
DeepSeek V4-Pro 價格砍 75%,API 快取成本降至 1/10
Gate 新聞訊息,4 月 27 日——DeepSeek 宣布,其新款 V4-Pro 模型面向開發者提供 75% 的折扣,並將其 API 產品線中的輸入快取命中價格下調至先前水準的 1/10。
V4 模型於 4 月 25 日以 Pro 和 Flash 版本發布,已針對華為的 Ascend 處理器進行優化。DeepSeek 表示,V4-Pro 在世界知識基準(world-knowledge benchmarks)上優於其他開源模型,並且僅次於 Google 的封閉式 Gemini-Pro-3.1。V4 系列專為 AI 代理而設計,能處理超出聊天機器人能力範圍的複雜任務。
V4-Pro API 成本已低於主要的西方競爭對手,定價為每 100 萬輸出 tokens $3.48,相較之下 for OpenAI 的 GPT-4.5。V4-Flash 定價為每 100 萬輸入 tokens $0.14、每 100 萬輸出 tokens $0.28,可能讓透過單次請求就能完成整份程式碼庫或監管文件的審閱等具成本效益的應用成為可能。
GateNews8分鐘前
Coachella 借助 Google 的 DeepMind AI,重新想像舞台之外的音樂會
Coachella 與 Google DeepMind 合作,測試能夠重塑現場音樂表演創作與體驗方式的新 AI 工具。
摘要
Coachella 已與 Google DeepMind 測試 AI 工具,將現場演出轉化為互動式的數位環境。
建立了三個原型,
Cryptonews 14分鐘前
郭明錤:OpenAI 要做 AI Agent 手機,聯發科、高通、立訊成關鍵供應鏈
郭明錤指稱 OpenAI 正與聯發科、高通、立訊精密合作開發 AI Agent 手機,預計 2028 年量產。新手機將以任務完成為核心,由 AI 代理理解並執行需求,結合雲端與裝置端運算,重點在感測與情境理解。規格與供應鏈名單預計 2026–2027 年定案,若成形,或為高階市場帶來新換機週期,立訊有望成為主要受惠者。
鏈新聞abmedia24分鐘前
IEA:AI 基建支出已超油氣生產投資,2026 年預計再增 75%
根據國際能源總署(IEA)於 4 月 26 日發布的分析及市場數據,2025 年五大科技公司的合計資本支出超過 4,000 億美元,主要投入 AI 基礎設施建設,規模已超越全球石油和天然氣生產的年度投資規模。IEA 估計,2026 年相關資本支出可能進一步增長 75%。
Market Whisper56分鐘前
參議員 Bernie Sanders 對 AI 的生存威脅發出警告
桑德斯強調,即使多數 AI 科學家都承認 AI 可能逃離控制並成為對我們生存的威脅,但迄今為止仍沒有採取任何重大措施來避免這種情況。“我們必須確保 AI 有益於人類,而不是傷害我們,”他表示。
重點整理:
伯尼·桑德斯
Coinpedia1小時前