Executivo da Google DeepMind: Toda Empresa de Produtos de IA Deve Criar Benchmarks Personalizados

Mensagem do Gate News, 27 de abril — Logan Kilpatrick, gerente sênior de produto na Google DeepMind e líder de produto do Google AI Studio, declarou no X que toda empresa que desenvolve produtos baseados em IA deve criar seus próprios benchmarks personalizados para medir o desempenho dos modelos de IA. Ele descreveu isso como um método para fazer com que as melhorias no modelo “beneficiem desproporcionalmente a sua empresa” e incentivou fundadores e líderes de negócios a “começar amanhã.”

A maioria das empresas atualmente depende de leaderboards públicos para selecionar modelos de IA, mas eles medem capacidades gerais que muitas vezes não se alinham aos cenários específicos do negócio. Kilpatrick citou o exemplo de uma empresa de revisão de contratos mais preocupada com a precisão na extração de cláusulas — uma capacidade ausente de benchmarks públicos, tornando impossível avaliar o desempenho do modelo nessa tarefa. Benchmarks personalizados oferecem duas vantagens principais: primeiro, eles permitem que as empresas avaliem cada atualização de modelo em relação às suas próprias tarefas de negócio e escolham o modelo que tem melhor desempenho no caso de uso real, em vez do modelo mais bem classificado no geral; segundo, eles permitem que as empresas compartilhem esses conjuntos de teste com os provedores de modelo, impulsionando a otimização contínua nas áreas que importam para o seu negócio.

Kilpatrick observou que empresas como Zapier e Sierra já estão implementando essa abordagem, afirmando que “há muito alfa que pode ser criado aqui.”

Aviso: As informações nesta página podem ser provenientes de terceiros e não representam as opiniões ou pontos de vista da Gate. O conteúdo exibido nesta página é apenas para referência e não constitui aconselhamento financeiro, de investimento ou jurídico. A Gate não garante a exatidão ou integridade das informações e não será responsável por quaisquer perdas decorrentes do uso dessas informações. Os investimentos em ativos virtuais apresentam altos riscos e estão sujeitos a uma volatilidade de preços significativa. Você pode perder todo o capital investido. Por favor, compreenda completamente os riscos envolvidos e tome decisões prudentes com base em sua própria situação financeira e tolerância ao risco. Para mais detalhes, consulte o Aviso Legal.

Related Articles

A voz do Grok da xAI assume a linha de atendimento ao cliente da Starlink, 70% das ligações são encerradas automaticamente

De acordo com o anúncio oficial da xAI em 23 de abril, a xAI lançou o agente de IA de voz Grok Voice Think Fast 1.0 e já foi implantado na linha de atendimento ao cliente do Starlink +1 (888) GO STARLINK. De acordo com os dados de testes divulgados no anúncio, 70% das ligações são encerradas automaticamente por IA, sem necessidade de intervenção de um humano.

MarketWhisper5m atrás

GPT-5.5 Volta ao Topo em Codificação, mas a OpenAI Troca os Benchmarks Depois de Perder para o Opus 4.7

Mensagem do Gate News, 27 de abril — A SemiAnalysis, uma empresa de análise de semicondutores e IA, divulgou um benchmark comparativo de assistentes de codificação, incluindo GPT-5.5, Claude Opus 4.7 e DeepSeek V4. A principal descoberta: GPT-5.5 marca o primeiro retorno da OpenAI ao limite do que há de mais avançado em modelos de codificação em seis meses, com engenheiros da SemiAnalysis agora alternando entre Codex e Claude Code depois de anteriormente dependerem quase exclusivamente de Claude. O GPT-5.5 é baseado em uma nova abordagem de pré-treinamento codificada como "Spud" e representa a primeira expansão do OpenAI na escala de pré-treinamento desde o GPT-4.5. Em testes práticos, surgiu uma divisão clara de funções. Claude fica com o planejamento de projetos novos e a configuração inicial, enquanto Codex se destaca em correções de bugs que exigem raciocínio intensivo. O Codex demonstra uma compreensão mais forte de estruturas de dados e raciocínio lógico, mas tem dificuldades para inferir a intenção ambígua do usuário. Em uma tarefa única no painel, o Claude replicou automaticamente o layout da página de referência, mas fabricou grandes quantidades de dados, enquanto o Codex pulou o layout, mas entregou dados significativamente mais precisos. A análise revela um detalhe de manipulação de benchmark: o post do blog da OpenAI de fevereiro incentivou a indústria a adotar o SWE-bench Pro como o novo padrão para benchmarks de codificação. No entanto, o anúncio do GPT-5.5 mudou para um novo benchmark chamado "Expert-SWE." O motivo, escondido nas letras miúdas, é que o GPT-5.5 foi superado pelo Opus 4.7 no SWE-bench Pro e ficou muito aquém do não lançado Mythos da Anthropic 77.8%. Em relação ao Opus 4.7, a Anthropic publicou uma análise pós-mortem uma semana após o lançamento, reconhecendo três bugs no Claude Code que persistiram por várias semanas de março a abril, afetando quase todos os usuários. Vários engenheiros já haviam relatado degradação de desempenho na versão 4.6, mas foram dispensados como observações subjetivas. Além disso, o novo tokenizador do Opus 4.7 aumenta o uso de tokens em até 35%, algo que a Anthropic admitiu abertamente—o que, efetivamente, constitui um aumento de preço oculto. O DeepSeek V4 foi avaliado como "acompanhando o ritmo da fronteira, mas não liderando," posicionando-se como a alternativa de menor custo entre modelos de código fechado. A análise também observou que "Claude continua a superar o DeepSeek V4 Pro em tarefas de escrita em chinês de alta dificuldade," comentando que "Claude venceu o modelo chinês na própria língua. O artigo apresenta um conceito-chave: a precificação dos modelos deve ser avaliada por "custo por tarefa" em vez de "custo por token." A precificação do GPT-5.5 é o dobro da do GPT-5.4 input $5, output por um milhão de tokens, mas ele conclui as mesmas tarefas usando menos tokens, tornando o custo real não necessariamente mais alto. Os dados iniciais da SemiAnalysis mostram que a proporção input-to-output do Codex é de 80:1, menor do que a do Claude Code, de 100:1.

GateNews9m atrás

聯發科 conquista grande pedido da Google do 8º TPU! ASIC acelera e impulsiona ações de três grupos relacionados

A MediaTek já entrou na cadeia de fornecimento de chips de treinamento do 8º geração de TPU do Google, responsável pelo design do I/O Die, e adotou a tecnologia de processo N3P da TSMC e o empacotamento CoWoS-S, mostrando que ela atingiu um nível de design de AI ASIC de ponta. Espera-se que, neste ano, a receita do segmento ASIC ultrapasse 1 bilhão de dólares, e que o volume de envio de TPU chegue a ter potencial de chegar a dezenas de milhões de unidades até 2027; a cadeia de fornecimento de Taiwan, como King Yuan Electronics, Jing Ce e Hon Hai, também será beneficiada, e o mercado está gradualmente se voltando para o futuro de divisão de trabalho, colaboração e integrações de chiplets e heterogêneas.

ChainNewsAbmedia1h atrás

A RE:AI da Singtel faz parceria com a Mistral AI para desenvolver infraestrutura de IA em Singapura

Mensagem do Gate News, 27 de abril — O Singtel Group anunciou que a RE:AI, sua unidade de infraestrutura digital com sede em Singapura, firmou parceria com a Mistral AI para apoiar capacidades de IA para indústrias em Singapura. A parceria terá como foco o desenvolvimento conjunto de infraestrutura e soluções de IA para os setores de serviços financeiros

GateNews1h atrás

He Yi's YZi Labs Invests in Chinese AI Large Language Model Company

Gate News message, April 27 — He Yi, alongside Changpeng Zhao's family office YZi Labs, has invested in a Chinese artificial intelligence large language model company, she disclosed during a private KOL gathering at the Hong Kong Web3 Carnival. The specific name of the invested company was not discl

GateNews2h atrás

OpenAI faz parceria com a MediaTek e a Qualcomm para desenvolver processador de smartphone de IA; Foxconn Connector deve iniciar a produção em 2028

Mensagem do Gate News, 27 de abril — A OpenAI está colaborando com a MediaTek e a Qualcomm para desenvolver processadores de smartphones, segundo análise da cadeia de suprimentos do analista da Tianfeng International Securities Ming-Chi Kuo. Foxconn Connector (Luxshare Precision) atuará como o único parceiro de design de sistema e

GateNews2h atrás
Comentário
0/400
Sem comentários