GPT-5.5 重返编程前沿,但 OpenAI 在输给 Opus 4.7 后更换了基准测试

Gate News 消息,4 月 27 日——SemiAnalysis,一家半导体与 AI 分析公司,发布了包含 GPT-5.5、Claude Opus 4.7 和 DeepSeek V4 在内的代码助手对比基准测试。关键发现:GPT-5.5 标志着 OpenAI 在六个月后首次重返编程模型前沿;随后 SemiAnalysis 工程师在 Codex 和 Claude Code 之间交替使用;此前他们几乎完全依赖 Claude。GPT-5.5 基于代号为 “Spud” 的新预训练方法,代表 OpenAI 自 GPT-4.5 以来首次扩展预训练规模。

在实际测试中,出现了明确的分工。Claude 负责新的项目规划与初始搭建,而 Codex 在推理密集型的漏洞修复方面表现更出色。Codex 展现出更强的数据结构理解与逻辑推理能力,但在推断含糊的用户意图方面存在困难。在一个单一的仪表盘任务上,Claude 会自动复刻参考页面布局,但会捏造大量数据;而 Codex 跳过布局,却提供了显著更准确的数据。

分析揭示了一个基准测试操纵细节:OpenAI 2 月的一篇博客文章敦促业界将 SWE-bench Pro 作为代码基准测试的新标准。然而,GPT-5.5 的公告改用了一个名为 “Expert-SWE” 的新基准。原因被藏在细微的说明中:GPT-5.5 在 SWE-bench Pro 上被 Opus 4.7 超越,并且与 Anthropic 尚未发布的 Mythos (77.8%) 相比差距巨大。

关于 Opus 4.7,Anthropic 在发布后一周发表了死后复盘分析,承认 Claude Code 中存在三个在 3 月至 4 月持续了数周、影响近乎所有用户的漏洞。多名工程师此前曾报告 4.6 版本的性能下降,但这些说法被当作主观观察而否定。此外,Opus 4.7 的新分词器会使 token 使用量最高增加 35%,而 Anthropic 公开承认了这一点——本质上相当于隐性涨价。

DeepSeek V4 被评为 “跟上前沿但并不领先”,将自己定位为封闭源模型中成本最低的替代方案。分析还指出,“Claude 在高难度中文写作任务上继续优于 DeepSeek V4 Pro”,并评论道:“Claude 在它自己的语言上赢过了中文模型。”

文章提出了一个关键概念:模型定价应通过 “每任务成本(cost per task)” 来评估,而不是通过 “每 token 成本(cost per token)”。GPT-5.5 的定价是 GPT-5.4 的两倍 (input $5, output $30 per million tokens),但它使用更少的 tokens 完成相同的任务,因此实际成本未必更高。最初的 SemiAnalysis 数据显示,Codex 的输入到输出比例为 80:1,低于 Claude Code 的 100:1。

免责声明:本页面信息可能来自第三方,不代表 Gate 的观点或意见。页面显示的内容仅供参考,不构成任何财务、投资或法律建议。Gate 对信息的准确性、完整性不作保证,对因使用本信息而产生的任何损失不承担责任。虚拟资产投资属高风险行为,价格波动剧烈,您可能损失全部投资本金。请充分了解相关风险,并根据自身财务状况和风险承受能力谨慎决策。具体内容详见声明

相关文章

DeepSeek 将 V4-Pro 价格下调75%,将 API 缓存成本削减至原来的十分之一

Gate News 消息,4月27日——DeepSeek宣布对其面向开发者的新 V4-Pro 模型提供75%的折扣,并将其 API 产品线中输入缓存命中价格下调至此前水平的十分之一。 V4 模型于4月25日发布,提供 Pro 和 Flash 版本,已针对华为的 Ascend 处理器进行了优化。DeepSeek 表示,V4-Pro 在世界知识基准测试中优于其他开源模型,并仅次于谷歌的闭源 Gemini-Pro-3.1。V4 系列专为 AI 代理而设计,用于处理超出聊天机器人能力范围的复杂任务。 V4-Pro API 成本已经低于主要的西方竞争对手,定价为每百万输出 tokens 3.48 美元,而 对应 OpenAI 的 GPT-4.5。V4-Flash 的定价为每百万输入 tokens 0.14 美元、每百万输出 tokens 0.28 美元,可能使诸如在单次请求中审阅完整代码库或监管文件等具备成本效益的应用成为可能。

GateNews2 分钟前

Coachella 借助谷歌的 DeepMind AI 来重新想象舞台之外的演出

Coachella 与 Google DeepMind 合作,测试新的 AI 工具,这些工具正在重塑现场音乐表演的创作方式与体验方式。 摘要 Coachella 已与 Google DeepMind 测试 AI 工具,将现场表演转化为交互式数字环境。 共构建了三个原型,

Cryptonews 8 分钟前

郭明錤:OpenAI 要做 AI Agent 手机,联发科、高通、立讯成关键供应链

郭明錤称 OpenAI 正与联发科、高通、立讯精密合作开发 AI Agent 手机,预计 2028 年量产。新手机将以任务完成为核心,由 AI 代理理解并执行需求,结合云端与装置端运算,重点在感测与情境理解。规格与供应链名单预计 2026–2027 年定案,若成形,或为高端市场带来新换机周期,立讯有望成为主要受益者。

鏈新聞abmedia18 分钟前

IEA:AI 基建支出已超越石油与天然气生产投资,2026 年预计再增长 75%

根据国际能源署(IEA)于 4 月 26 日发布的分析及市场数据,2025 年五大科技公司的合计资本支出超过 4,000 亿美元,主要投入 AI 基础设施建设,规模已超过全球石油和天然气生产的年度投资规模。IEA 估计,2026 年相关资本支出可能进一步增长 75%。

Market Whisper50 分钟前

参议员伯尼·桑德斯就 AI 的生存威胁发出警告

桑德斯强调,即使大多数 AI 科学家都承认 AI 可能逃离控制并对我们的生存构成危险,但尚未采取任何重大的措施来避免这种情况。“我们必须确保 AI 造福人类,而不是伤害我们”,他说。 要点总结: 伯尼·桑德斯

Coinpedia59 分钟前

小米大模型负责人:AI 竞争转向 Agent 时代,自进化是 AGI 关键事件

小米大模型团队负责人罗福莉于 4 月 24 日在哔哩哔哩平台接受深度访谈(视频号:BV1iVoVBgERD),访谈时长 3.5 小时,为其首次以技术负责人身份公开系统阐述技术观点。罗福莉称,大模型竞争赛道已从 Chat 时代转入 Agent 时代,并指出“自进化”将是未来一年 AGI 关键事件。

Market Whisper1小时前
评论
0/400
暂无评论