DeepSeek V4 Consegue Pontuação Perfeita no Putnam-2025, Empata com Axiom em Raciocínio Matemático Formal

Mensagem do Gate News, 24 de abril — A DeepSeek V4 publicou resultados de avaliações de raciocínio matemático formal, alcançando uma pontuação perfeita de 120/120 no Putnam-2025, empatando com a Axiom pelo primeiro lugar.

No regime prático usando LeanExplore e amostragem restrita, o V4-Flash-Max obteve 81.00 no benchmark Putnam-200 Pass@8, superando significativamente o Seed-2.0-Prover (35.50), o Gemini 3 Pro (26.50) e o Seed-1.5-Prover (26.50). Os resultados do regime de fronteira mostraram a V4 à frente do Seed-1.5-Prover (110/120) e do Aristotle (100/120).

A V4 emprega uma abordagem híbrida de raciocínio formal-informal: o raciocínio informal gera soluções candidatas em linguagem natural, a auto-verificação filtra os resultados e um agente formal completa provas rigorosas em Lean. Os resultados do regime de fronteira utilizaram escalonamento computacional em larga escala, enquanto as pontuações do regime prático refletem melhor as capacidades padrão de implantação.

Aviso: As informações nesta página podem ser provenientes de terceiros e não representam as opiniões ou pontos de vista da Gate. O conteúdo exibido nesta página é apenas para referência e não constitui aconselhamento financeiro, de investimento ou jurídico. A Gate não garante a exatidão ou integridade das informações e não será responsável por quaisquer perdas decorrentes do uso dessas informações. Os investimentos em ativos virtuais apresentam altos riscos e estão sujeitos a uma volatilidade de preços significativa. Você pode perder todo o capital investido. Por favor, compreenda completamente os riscos envolvidos e tome decisões prudentes com base em sua própria situação financeira e tolerância ao risco. Para mais detalhes, consulte o Aviso Legal.

Related Articles

O governo Trump divulgou um plano de combate ao reprocessamento de IA e acusou empresas chinesas de roubo sistemático de capacidades de modelos

Escritório de Políticas de Tecnologia da Casa Branca (OSTP), o Assistente do Presidente Michael J. Kratsios em 23 de abril divulgou um comunicado oficial, afirmando que o governo Trump tem informações que mostram que entidades estrangeiras (principalmente sediadas na China) estão deliberadamente mirando grandes empresas de IA dos EUA, extraindo sistematicamente a capacidade dos modelos de IA americanos por meio de “dezenas de milhares de contas de agentes” e sistemas de tecnologia de jailbreak, além de divulgar simultaneamente quatro medidas de resposta.

MarketWhisper7m atrás

DeepSeek lança uma versão de pré-visualização open source do V4, pontuação técnica 3206 superando o GPT-5.4

DeepSeek lançou oficialmente a série de pré-visualização V4 em 24 de abril, sob uma licença MIT de código aberto, com os pesos do modelo também disponíveis no Hugging Face e no ModelScope. De acordo com o relatório técnico do DeepSeek V4, o V4-Pro-Max (modo de força máxima de inferência) obteve 3206 pontos no benchmark do Codeforces, superando o GPT-5.4.

MarketWhisper23m atrás

Cambricon Conclui Adaptação do Day 0 do DeepSeek-V4, Marcando um Marco para o Ecossistema de Chips de IA da China

Mensagem do Gate News, 24 de abril — A Cambricon anunciou hoje que concluiu a adaptação do Day 0 do DeepSeek-V4, o mais recente modelo de linguagem grande da DeepSeek, usando seu ecossistema proprietário de software NeuWare e a estrutura vLLM. O código de adaptação foi disponibilizado simultaneamente como open source, marcando o

GateNews39m atrás

A prévia do Hy3 open source da Tencent melhora em 40% os testes de benchmark de código em relação à versão anterior

A Tencent lançou oficialmente o modelo de linguagem grande Hy3 em versão de prévia no GitHub, no Hugging Face e na plataforma ModelScope em 23 de abril, e também disponibilizou simultaneamente um serviço de API pago no Tencent Cloud. De acordo com uma reportagem da Decrypt em 24 de abril, a versão de prévia do Hy3 iniciou o treinamento no final de janeiro e, até a data de publicação, havia menos de três meses.

MarketWhisper47m atrás

Investimentos do Portfólio da FTX no Valor de 158 Trilhões de Won, Se Não Tivesse Falido

FTX, a exchange centralizada de criptomoedas que entrou com pedido de proteção contra falência Capítulo 11 em novembro de 2022 devido a escassez de liquidez e saídas de capital, teria mantido investimentos avaliados em aproximadamente 158,796 trilhões de won se não tivesse colapsado, de acordo com uma análise citada por Park

CryptoFrontier49m atrás

Xiaomi Revela Detalhes do Treinamento do MiMo-V2-Pro: Parâmetros do Modelo 1T, Milhares de GPUs Empregadas

Mensagem do Gate News, 24 de abril — A líder da equipe de modelos de linguagem da Xiaomi, Luo Fuli, revelou em uma entrevista aprofundada que o modelo MiMo-V2-Pro tem 1 trilhão de parâmetros no total e exigiu milhares de GPUs para o treinamento. Ela observou que a escala de 1T representa o limite mínimo para alcançar

GateNews1h atrás
Comentário
0/400
Sem comentários