GPT-5.5 重回编码前沿,但 OpenAI 在输给 Opus 4.7 后更换了基准

Gate News 信息,4 月 27 日——半导体与 AI 分析公司 SemiAnalysis 发布了包含 GPT-5.5、Claude Opus 4.7 和 DeepSeek V4 的编码助手对比基准测试。关键发现:GPT-5.5 标志着 OpenAI 在六个月内首次重返编码模型的前沿,且 SemiAnalysis 工程师如今在 Codex 与 Claude Code 之间交替使用,此前他们几乎完全依赖 Claude。GPT-5.5 基于代号为“Spud”的新预训练方法,代表了 OpenAI 自 GPT-4.5 之后首次扩展预训练规模。

在实际测试中,出现了清晰的分工。Claude 负责新的项目规划与初始搭建,而 Codex 擅长处理对推理要求很高的错误修复。Codex 在数据结构理解与逻辑推理方面表现更强,但在推断用户意图是否模糊方面存在困难。在一个单一仪表板任务上,Claude 会自动复刻参考页面布局,但却编造了大量数据;而 Codex 则跳过布局,却交付了显著更准确的数据。

分析揭示了一个基准测试操纵细节:OpenAI 的 2 月博客文章敦促行业采用 SWE-bench Pro 作为新的编码基准标准。然而,GPT-5.5 的公告改用一个名为“Expert-SWE”的新基准。原因藏在细则里:GPT-5.5 已被 Opus 4.7 在 SWE-bench Pro 上超越,并且与 Anthropic 尚未发布的 Mythos (77.8%) 相比落后明显。

关于 Opus 4.7,Anthropic 在发布一周后发表了死后分析(postmortem),承认 Claude Code 中有三个在 3 月到 4 月持续数周、影响近乎所有用户的错误。此前多名工程师已报告 4.6 版本出现性能下降,但被否定为主观观察。此外,Opus 4.7 的新分词器会使 token 使用量最多增加 35%,而 Anthropic 公开承认了这一点——本质上等同于一次隐藏的涨价。

DeepSeek V4 被评估为“跟上前沿但不在领跑”,将自己定位为闭源模型中最低成本的替代方案。分析还指出:“Claude 在高难度中文写作任务上继续优于 DeepSeek V4 Pro”,并评论道:“Claude 在其母语(中文)上击败了中文模型。”

文章引入了一个关键概念:模型定价应通过“每任务成本”来评估,而不是“每 token 成本”。GPT-5.5 的定价是 GPT-5.4 的两倍 (输入 $5,输出 $30 每百万 token),但它用更少的 token 完成相同的任务,因此实际成本不一定更高。初步的 SemiAnalysis 数据显示,Codex 的输入到输出比为 80:1,低于 Claude Code 的 100:1。

Aviso legal: La información de esta página puede proceder de terceros y no representa los puntos de vista ni las opiniones de Gate. El contenido que aparece en esta página es solo para fines informativos y no constituye ningún tipo de asesoramiento financiero, de inversión o legal. Gate no garantiza la exactitud ni la integridad de la información y no se hace responsable de ninguna pérdida derivada del uso de esta información. Las inversiones en activos virtuales conllevan riesgos elevados y están sujetas a una volatilidad significativa de los precios. Podrías perder todo el capital invertido. Asegúrate de entender completamente los riesgos asociados y toma decisiones prudentes de acuerdo con tu situación financiera y tu tolerancia al riesgo. Para obtener más información, consulta el Aviso legal.

Artículos relacionados

DeepSeek V4 Pro en Ollama Cloud: Conecta en un solo clic Claude Code

Según los tuits de Ollama, DeepSeek V4 Pro se lanzó el 4/24 y ya se ha incorporado en el directorio de Ollama en modo en la nube; con un solo comando se pueden llamar herramientas como Claude Code, Hermes, OpenClaw, OpenCode, Codex, etc. V4 Pro cuenta con 1,6T de parámetros, 1M de context, Mixture-of-Experts; la inferencia en la nube no descarga los pesos locales. Si lo quieres local, debes obtener los pesos y ejecutarlo con INT4/GGUF y GPUs multi‑tarjeta. Las pruebas de velocidad tempranas se vieron afectadas por la carga del servidor en la nube; en condiciones normales es aproximadamente 30 tok/s, con un pico de 1,1 tok/s. Se recomienda usar el prototipo en la nube; para producción en serie, realiza tu propia inferencia o usa una API comercial.

ChainNewsAbmediaHace5m

DeepSeek Reduce los Precios de V4-Pro en un 75% y Reduce los Costos de Caché de la API a una Décima Parte

Mensaje de Gate News, 27 de abril — DeepSeek anunció un 75% de descuento en su nuevo modelo V4-Pro para desarrolladores y redujo los precios de acierto de caché de entrada en toda su gama de API a una décima parte de los niveles anteriores. El modelo V4, lanzado el 25 de abril en versiones Pro y Flash, se ha optimizado para los procesadores Ascend de Huawei

GateNewsHace8m

Coachella recurre a la IA de DeepMind de Google para rediseñar los conciertos más allá del escenario

Coachella se ha asociado con Google DeepMind para probar nuevas herramientas de IA que remodelan la forma en que se crean y se experimentan las actuaciones musicales en vivo. Resumen Coachella ha probado herramientas de IA con Google DeepMind para convertir las actuaciones en vivo en entornos digitales interactivos. Se construyeron tres prototipos,

CryptonewsHace14m

Guo Ming-chi: OpenAI quiere hacer un teléfono móvil con AI Agent; MediaTek, Qualcomm y Luxshare Precision se convierten en la cadena de suministro clave

Guo Ming-chi afirma que OpenAI está colaborando con MediaTek, Qualcomm y Luxshare Precision para desarrollar un teléfono móvil con agentes de IA, con producción en masa prevista para 2028. El nuevo teléfono se centrará en la finalización de tareas; el agente de IA comprenderá y ejecutará las necesidades, combinando computación en la nube y en el dispositivo. El enfoque estará en la percepción por sensores y la comprensión del contexto. La lista de especificaciones y de la cadena de suministro se prevé que quede definida entre 2026 y 2027; si se concreta, podría introducir un nuevo ciclo de reemplazo de equipos en el mercado de gama alta, y Luxshare podría convertirse en el principal beneficiario.

ChainNewsAbmediaHace24m

IEA: El gasto en infraestructura de IA ya ha superado la inversión en producción de petróleo y gas, y se prevé que aumente otro 75% en 2026

Según el análisis y los datos de mercado publicados por la Agencia Internacional de Energía (IEA) el 26 de abril, el gasto de capital total de las cinco principales empresas tecnológicas en 2025 supera los 400 mil millones de dólares, invertido principalmente en la construcción de infraestructura de IA, con un tamaño que ya ha superado la escala de inversión anual de la producción mundial de petróleo y gas natural. La IEA estima que el gasto de capital relacionado podría aumentar aún más en 75% en 2026.

MarketWhisperHace56m

El senador Bernie Sanders lanza una advertencia sobre la amenaza existencial de la IA

Sanders subrayó que incluso cuando la mayoría de los científicos de IA reconocen la posibilidad de que la IA escape al control y se convierta en un peligro para nuestra existencia, no se han tomado medidas importantes para evitarlo. “Debemos asegurarnos de que la IA beneficie a la humanidad, no nos perjudique”, afirmó. Aspectos clave: Bernie Sanders

Coinpediahace1h
Comentar
0/400
Sin comentarios