News | Gate.com

2026-04-27

05:17

GPT-5.5 Regressa ao Estado da Arte na Codificação, mas a OpenAI Muda os Benchmarks Depois de Perder para o Opus 4.7

Gate News mensagem, 27 de Abril — A SemiAnalysis, uma empresa de análise de semicondutores e IA, publicou um benchmark comparativo de assistentes de codificação, incluindo GPT-5.5, Claude Opus 4.7 e DeepSeek V4. A principal conclusão: GPT-5.5 marca o primeiro regresso da OpenAI ao estado da arte em modelos de codificação em seis meses, com engenheiros da SemiAnalysis agora a alternar entre Codex e Claude Code após antes dependerem quase exclusivamente de Claude. O GPT-5.5 baseia-se numa nova abordagem de pré-treinamento com o nome de código "Spud" e representa a primeira expansão do OpenAI da escala de pré-treinamento desde o GPT-4.5. Em testes práticos, surgiu uma divisão clara de responsabilidades. Claude trata do planeamento de novos projectos e da configuração inicial, enquanto Codex se destaca em correcções de bugs que exigem raciocínio intensivo. O Codex mostra uma compreensão mais forte de estruturas de dados e raciocínio lógico, mas tem dificuldades em inferir intenções de utilizador ambíguas. Numa tarefa única no mesmo painel, o Claude replicou automaticamente o layout da página de referência, mas fabricou grandes quantidades de dados; já o Codex ignorou o layout, mas entregou dados significativamente mais precisos. A análise revela um detalhe de manipulação do benchmark: um post de Fevereiro da OpenAI incentivava a indústria a adoptar o SWE-bench Pro como o novo padrão para benchmarks de codificação. No entanto, o anúncio do GPT-5.5 mudou para um novo benchmark chamado "Expert-SWE." O motivo, escondido nas letras pequenas, é que o GPT-5.5 foi ultrapassado pelo Opus 4.7 no SWE-bench Pro e ficou muito aquém do Mythos 77.8%, ainda não lançado da Anthropic. Quanto ao Opus 4.7, a Anthropic publicou uma análise pós-mortem uma semana após o lançamento, reconhecendo três bugs no Claude Code que persistiram por várias semanas de Março a Abril, afectando quase todos os utilizadores. Vários engenheiros tinham previamente reportado degradação de desempenho na versão 4.6, mas foram descartados como observações subjectivas. Além disso, o novo tokenizador do Opus 4.7 aumenta o uso de tokens em até 35%, o que a Anthropic admitiu abertamente — constituindo, na prática, um aumento de preço oculto. O DeepSeek V4 foi avaliado como "acompanhar o ritmo da fronteira, mas não liderar," posicionando-se como a alternativa de menor custo entre os modelos de código fechado. A análise também notou que "o Claude continua a superar o DeepSeek V4 Pro em tarefas de escrita chinesa de alta dificuldade," comentando que "o Claude venceu o modelo chinês na sua própria língua." O artigo introduz um conceito-chave: a precificação do modelo deve ser avaliada por "custo por tarefa" e não por "custo por token." A precificação do GPT-5.5 é o dobro da do GPT-5.4 input $5, output por milhão de tokens, mas conclui as mesmas tarefas usando menos tokens, pelo que o custo real não é necessariamente mais alto. Os dados iniciais da SemiAnalysis mostram que a razão input-para-output do Codex é de 80:1, inferior à do Claude Code, que é de 100:1.

Mais

03:33

OpenAI Integra Codex no Modelo Principal a Partir do GPT-5.4, Descontinua a Linha Separada de Programação

Notícias da indústria de IA

Mensagem da Gate News, 26 de abril — O responsável de developer experience da OpenAI, Romain Huet, revelou numa declaração recente no X que a Codex, a linha de modelos especializados de programação mantida de forma independente pela empresa, foi integrada no modelo principal a partir do GPT-5.4 e deixará de receber atualizações separadas

Mais

03:11

Nvidia Implementa o Agente de IA Codex da OpenAI em Toda a Força de Trabalho na Infraestrutura Blackwell

Agente de IA

Notícias da indústria de IA

Mensagem da Gate News, 25 de Abril — A Nvidia lançou o Codex da OpenAI, um agente de IA alimentado por GPT-5.5, para toda a sua força de trabalho após um ensaio bem-sucedido com cerca de 10.000 empregados, segundo comunicações internas do CEO Jensen Huang e do CEO da OpenAI, Sam Altman. O Codex foi concebido para ajudar com tarefas de programação, planeamento e de fluxo de trabalho

Mais

01:21

O OpenClaw v2026.4.23 adiciona suporte direto a OAuth do gpt-image-2 e introduz o modo de contexto com ramificação para sub-agentes

Agente de IA

Notícia da Gate, 25 de Abril — OpenClaw, uma estrutura de agentes de IA open-source, lançou a v2026.4.23 a 23 de Abril, introduzindo atualizações na geração de imagens, nos mecanismos de sub-agentes e no reforço de segurança. As melhorias na geração de imagens permitem que o gpt-image-2 seja chamado diretamente via Codex OAuth sem

Mais

14:41

OpenClaw 2026.4.22 Unifica o Ciclo de Vida dos Plugins Entre os Harness Codex e Pi, Reduz o Tempo de Carregamento dos Plugins em Até 90%

pi network news

Agente de IA

Notícias da indústria de IA

Mensagem do Gate News, 23 de abril — OpenClaw, uma plataforma open-source de Agentes de IA, lançou a versão 2026.4.22 a 22 de abril, com a sua maior mudança a ser o alinhamento dos ciclos de vida do Codex harness e do Pi harness. Anteriormente, os plugins comportavam-se de forma inconsistente entre as duas vias de harness, com alguns hooks em falta em certos ambientes.

Mais

XAI-0,05%