Os grandes modelos dos EUA enfrentam pressão do norte e do sul da China. IA nacional disputa ferozmente a temporada de Ano Novo Chinês, tentando reproduzir o milagre do DeepSeek
Ainda recordo do Ano do Dragão, quando o DeepSeek, que explodiu em popularidade, deixou outros grandes modelos nacionais “completamente deprimidos”. Este ano, as grandes empresas de internet e as fabricantes de grandes modelos nacionais esperam reproduzir a maravilha do DeepSeek, anunciando novidades de forma intensiva antes do Ano Novo, usando-o como o melhor campo de treino para o novo ciclo.
Em 12 de fevereiro, a empresa de modelos de grande escala de Xangai, MiniMax, lançou oficialmente o novo modelo de texto de próxima geração, MiniMax M2.5 (doravante “M2.5”), na plataforma MiniMax Agent, e no dia seguinte, 13 de fevereiro, abriu o código globalmente, suportando implantação local. Logo depois, utilizadores de todo o mundo construíram rapidamente mais de 10 mil “especialistas” na plataforma MiniMax Agent, e esse número continua a crescer rapidamente.
O M2.5 é considerado uma “carta na manga”, devido ao seu desempenho quase equiparado ao modelo Claude Opus 4.6, desenvolvido pela empresa americana de IA Anthropic, mas com um preço surpreendente, a ponto de até Peter Steinberger, pai do projeto de IA de código aberto OpenClaw, não resistir a comentar.
Peter Steinberger, pai do OpenClaw, repostou e avaliou o M2.5, dizendo que seu desempenho rivaliza com o Claude Opus 4.6, mas custa 20 vezes menos.
O M2.5 é posicionado como um produto “modelo de produção nativo para agentes”, capaz de escrever código automaticamente, chamar ferramentas, analisar dados e gerar relatórios.
Na lista mais rigorosa de programação, o SWE-Bench Verified, o M2.5 obteve uma pontuação alta de 80,2%, quase igual ao Claude Opus 4.6. Em tarefas multilíngues, o Multi-SWE-Bench, o M2.5 superou o Claude Opus 4.6, conquistando o primeiro lugar.
Para cenários de escritório, o M2.5 demonstra excelente desempenho em Word, PPT, Excel e modelagem financeira, alcançando uma taxa de vitória média de 59% na comparação com o framework de avaliação GDPval-MM e modelos mainstream. As tabelas geradas pelo M2.5 distinguem claramente a capa, a fonte de dados e os detalhes, com formatação organizada, parecendo feitas por um funcionário meticuloso.
O M2.5 não fica atrás dos principais modelos americanos.
O segredo está no fato de que, embora seja capaz de realizar tarefas “pesadas”, o M2.5 possui apenas 10 bilhões de parâmetros ativados, sendo o menor entre os principais modelos de topo globais.
Além de ser “inteligente”, o grande trunfo do M2.5 reside em resolver os dois principais problemas dos modelos: “alto custo” e “lentidão”.
O M2.5 consegue uma velocidade de raciocínio de 100 TPS (transações por segundo), aproximadamente o dobro dos modelos mainstream; o custo de entrada é cerca de 0,3 dólares por milhão de tokens (unidade básica de entrada e saída do modelo), e a saída custa cerca de 2,4 dólares por milhão de tokens. Com uma saída de 100 tokens por segundo, um dólar permite que o agente funcione continuamente por uma hora, sendo considerado uma “preço acessível”.
Na era da escassez de poder computacional, a capacidade de inovar de forma disruptiva, mantendo o modelo inteligente, sem travamentos e com uma experiência de uso de alta qualidade, é a principal arma que permite ao MiniMax permanecer na elite dos grandes modelos.
Curiosamente, a Zhizhi AI, que foi listada na Bolsa de Hong Kong um dia antes do MiniMax, também lançou recentemente o Zhizhi GLM-5, que também compete com o Claude Opus 4.6. O Claude Opus 4.6 foi alvo de uma competição acirrada entre dois grandes modelos chineses, um do norte e outro do sul.
O Zhizhi GLM-5 obteve excelentes resultados em programação e capacidades de agentes inteligentes. Alguns desenvolvedores que o usaram afirmam que a experiência de uso do GLM-5 em cenários reais de programação já se aproxima do modelo mais forte do Claude, que é considerado o melhor na indústria. No ranking global Artificial Analysis, o GLM-5 ocupa a quarta posição mundial e é o líder entre os modelos de código aberto.
A Zhizhi descreve o GLM-5 como um “arquiteto de sistemas”, indicando que, no futuro, os grandes modelos de IA não se limitarão a escrever código para realizar tarefas específicas, mas construirão sistemas completos, até mesmo distribuindo funções entre diferentes agentes inteligentes.
Nos testes de programação de agentes, o Zhizhi GLM-5 supera ligeiramente o Claude.
Além disso, em 10 de fevereiro, a Qianwen lançou seu novo modelo de geração de imagens, Qwen-Image 2.0, que suporta comandos com até 1000 tokens e possui maior capacidade de raciocínio.
Quase ao mesmo tempo, a ByteDance lançou seu modelo semelhante, Seedream 5.0, que avançou novamente na geração de imagens a partir de texto. “Antes, ao usar IA para gerar imagens, havia uma limitação: devido à capacidade de raciocínio, caracteres chineses nas imagens frequentemente ficavam ‘desconexos’ ou apresentavam caracteres ilegíveis”, contou a equipe de desenvolvimento da Qianwen. “Com o aumento da compreensão de comandos e da capacidade de raciocínio, o problema dos caracteres chineses na geração de imagens com IA será resolvido.”
Além de modelos multimodais como geração de imagens e vídeos, os grandes modelos de linguagem também fizeram avanços significativos. Recentemente, o DeepSeek lançou silenciosamente um novo modelo, que, embora não seja o esperado V4, também trouxe surpresas.
Este modelo atualizado não possui reconhecimento multimodal, mas elevou sua capacidade de processamento de contexto para 1 milhão de tokens, equivalente a compreender de uma só vez toda a obra “Três Corpos”, com aproximadamente 900 mil palavras. Um desenvolvedor de agentes afirmou: “Atualmente, poucos modelos suportam compreensão de contexto de milhões de tokens, como o Gemini do Google e o Claude da Anthropic. A atualização do DeepSeek também é uma ‘entrada’ importante nesse grupo.”
Sabe-se que essa onda de lançamentos de grandes modelos ainda não terminou, com o lançamento iminente de modelos como Doubao 2.0, Qianwen 3.5 e outros modelos de topo.
(Artigo original: Shangguan News)
Ver original
Esta página pode conter conteúdos de terceiros, que são fornecidos apenas para fins informativos (sem representações/garantias) e não devem ser considerados como uma aprovação dos seus pontos de vista pela Gate, nem como aconselhamento financeiro ou profissional. Consulte a Declaração de exoneração de responsabilidade para obter mais informações.
Os grandes modelos dos EUA enfrentam pressão do norte e do sul da China. IA nacional disputa ferozmente a temporada de Ano Novo Chinês, tentando reproduzir o milagre do DeepSeek
Ainda recordo do Ano do Dragão, quando o DeepSeek, que explodiu em popularidade, deixou outros grandes modelos nacionais “completamente deprimidos”. Este ano, as grandes empresas de internet e as fabricantes de grandes modelos nacionais esperam reproduzir a maravilha do DeepSeek, anunciando novidades de forma intensiva antes do Ano Novo, usando-o como o melhor campo de treino para o novo ciclo.
Em 12 de fevereiro, a empresa de modelos de grande escala de Xangai, MiniMax, lançou oficialmente o novo modelo de texto de próxima geração, MiniMax M2.5 (doravante “M2.5”), na plataforma MiniMax Agent, e no dia seguinte, 13 de fevereiro, abriu o código globalmente, suportando implantação local. Logo depois, utilizadores de todo o mundo construíram rapidamente mais de 10 mil “especialistas” na plataforma MiniMax Agent, e esse número continua a crescer rapidamente.
O M2.5 é considerado uma “carta na manga”, devido ao seu desempenho quase equiparado ao modelo Claude Opus 4.6, desenvolvido pela empresa americana de IA Anthropic, mas com um preço surpreendente, a ponto de até Peter Steinberger, pai do projeto de IA de código aberto OpenClaw, não resistir a comentar.
Peter Steinberger, pai do OpenClaw, repostou e avaliou o M2.5, dizendo que seu desempenho rivaliza com o Claude Opus 4.6, mas custa 20 vezes menos.
O M2.5 é posicionado como um produto “modelo de produção nativo para agentes”, capaz de escrever código automaticamente, chamar ferramentas, analisar dados e gerar relatórios.
Na lista mais rigorosa de programação, o SWE-Bench Verified, o M2.5 obteve uma pontuação alta de 80,2%, quase igual ao Claude Opus 4.6. Em tarefas multilíngues, o Multi-SWE-Bench, o M2.5 superou o Claude Opus 4.6, conquistando o primeiro lugar.
Para cenários de escritório, o M2.5 demonstra excelente desempenho em Word, PPT, Excel e modelagem financeira, alcançando uma taxa de vitória média de 59% na comparação com o framework de avaliação GDPval-MM e modelos mainstream. As tabelas geradas pelo M2.5 distinguem claramente a capa, a fonte de dados e os detalhes, com formatação organizada, parecendo feitas por um funcionário meticuloso.
O M2.5 não fica atrás dos principais modelos americanos.
O segredo está no fato de que, embora seja capaz de realizar tarefas “pesadas”, o M2.5 possui apenas 10 bilhões de parâmetros ativados, sendo o menor entre os principais modelos de topo globais.
Além de ser “inteligente”, o grande trunfo do M2.5 reside em resolver os dois principais problemas dos modelos: “alto custo” e “lentidão”.
O M2.5 consegue uma velocidade de raciocínio de 100 TPS (transações por segundo), aproximadamente o dobro dos modelos mainstream; o custo de entrada é cerca de 0,3 dólares por milhão de tokens (unidade básica de entrada e saída do modelo), e a saída custa cerca de 2,4 dólares por milhão de tokens. Com uma saída de 100 tokens por segundo, um dólar permite que o agente funcione continuamente por uma hora, sendo considerado uma “preço acessível”.
Na era da escassez de poder computacional, a capacidade de inovar de forma disruptiva, mantendo o modelo inteligente, sem travamentos e com uma experiência de uso de alta qualidade, é a principal arma que permite ao MiniMax permanecer na elite dos grandes modelos.
Curiosamente, a Zhizhi AI, que foi listada na Bolsa de Hong Kong um dia antes do MiniMax, também lançou recentemente o Zhizhi GLM-5, que também compete com o Claude Opus 4.6. O Claude Opus 4.6 foi alvo de uma competição acirrada entre dois grandes modelos chineses, um do norte e outro do sul.
O Zhizhi GLM-5 obteve excelentes resultados em programação e capacidades de agentes inteligentes. Alguns desenvolvedores que o usaram afirmam que a experiência de uso do GLM-5 em cenários reais de programação já se aproxima do modelo mais forte do Claude, que é considerado o melhor na indústria. No ranking global Artificial Analysis, o GLM-5 ocupa a quarta posição mundial e é o líder entre os modelos de código aberto.
A Zhizhi descreve o GLM-5 como um “arquiteto de sistemas”, indicando que, no futuro, os grandes modelos de IA não se limitarão a escrever código para realizar tarefas específicas, mas construirão sistemas completos, até mesmo distribuindo funções entre diferentes agentes inteligentes.
Nos testes de programação de agentes, o Zhizhi GLM-5 supera ligeiramente o Claude.
Além disso, em 10 de fevereiro, a Qianwen lançou seu novo modelo de geração de imagens, Qwen-Image 2.0, que suporta comandos com até 1000 tokens e possui maior capacidade de raciocínio.
Quase ao mesmo tempo, a ByteDance lançou seu modelo semelhante, Seedream 5.0, que avançou novamente na geração de imagens a partir de texto. “Antes, ao usar IA para gerar imagens, havia uma limitação: devido à capacidade de raciocínio, caracteres chineses nas imagens frequentemente ficavam ‘desconexos’ ou apresentavam caracteres ilegíveis”, contou a equipe de desenvolvimento da Qianwen. “Com o aumento da compreensão de comandos e da capacidade de raciocínio, o problema dos caracteres chineses na geração de imagens com IA será resolvido.”
Além de modelos multimodais como geração de imagens e vídeos, os grandes modelos de linguagem também fizeram avanços significativos. Recentemente, o DeepSeek lançou silenciosamente um novo modelo, que, embora não seja o esperado V4, também trouxe surpresas.
Este modelo atualizado não possui reconhecimento multimodal, mas elevou sua capacidade de processamento de contexto para 1 milhão de tokens, equivalente a compreender de uma só vez toda a obra “Três Corpos”, com aproximadamente 900 mil palavras. Um desenvolvedor de agentes afirmou: “Atualmente, poucos modelos suportam compreensão de contexto de milhões de tokens, como o Gemini do Google e o Claude da Anthropic. A atualização do DeepSeek também é uma ‘entrada’ importante nesse grupo.”
Sabe-se que essa onda de lançamentos de grandes modelos ainda não terminou, com o lançamento iminente de modelos como Doubao 2.0, Qianwen 3.5 e outros modelos de topo.
(Artigo original: Shangguan News)