Los grandes modelos de EE. UU. son acorralados por el sur y el norte de China, la IA nacional compite ferozmente en la temporada de Spring Festival, buscando recrear el milagro de DeepSeek
Aún recuerdo el Año del Dragón en la Fiesta de Primavera, cuando DeepSeek, que explotó en popularidad, dejó a otros grandes modelos nacionales “totalmente deprimidos”. Este año, las grandes empresas de internet y las compañías de grandes modelos nacionales esperan repetir el milagro de DeepSeek, anunciando nuevas versiones antes del Año Nuevo, aprovechando la festividad como el mejor campo de entrenamiento.
El 12 de febrero, la empresa de modelos grandes de Shanghai MiniMax lanzó oficialmente en MiniMax Agent su nueva generación de modelos de texto MiniMax M2.5 (en adelante, “M2.5”), y el 13 de febrero se abrió su código fuente a nivel mundial, soportando despliegue local. Posteriormente, usuarios de todo el mundo construyeron rápidamente más de 10,000 “expertos” en MiniMax Agent, y la cifra sigue creciendo rápidamente.
Se dice que M2.5 es “la carta ganadora” por su rendimiento, que casi iguala al modelo Claude Opus 4.6, desarrollado por la compañía estadounidense de IA Anthropic, pero a un precio sorprendente, incluso el padre del proyecto de IA de código abierto más popular actual, OpenClaw, Peter Steinberger, no pudo evitar comentar.
Peter Steinberger, creador de OpenClaw, compartió y valoró M2.5, diciendo que su rendimiento está a la par de Claude Opus 4.6, pero cuesta 20 veces menos.
M2.5 se posiciona como un “modelo de producción nativo para agentes” que puede escribir código automáticamente, llamar a herramientas, analizar datos y generar informes.
En la lista más rigurosa de programación SWE-Bench Verified, M2.5 obtuvo un 80.2%, apenas por detrás de Claude Opus 4.6. En la tarea multilingüe Multi-SWE-Bench, M2.5 superó a Claude Opus 4.6 y obtuvo el primer lugar.
Para escenarios de oficina, M2.5 destaca en tareas avanzadas como Word, PPT, Excel y modelado financiero. En la evaluación comparativa GDPval-MM, logró una tasa de victoria promedio del 59% frente a modelos principales. Las tablas generadas por M2.5 muestran claramente la portada, las fuentes de datos y los datos detallados, con un formato ordenado, como si las hubiera hecho un empleado con TOC.
M2.5 no tiene nada que envidiar a los modelos principales estadounidenses.
Lo clave es que, para realizar “trabajos pesados”, M2.5 solo activa 10 mil millones de parámetros, siendo el modelo insignia más compacto en su categoría global.
Mientras “tiene una mente brillante”, la carta fuerte de M2.5 también radica en resolver los dos grandes problemas de los modelos: “costosos” y “lentos”.
M2.5 ha llevado la velocidad de inferencia a 100 TPS (transacciones por segundo), aproximadamente el doble que los modelos principales; el costo de entrada es de unos 0.3 dólares por millón de tokens (unidad básica de entrada y salida del modelo), y la salida cuesta unos 2.4 dólares por millón de tokens. Con una velocidad de salida de 100 tokens por segundo, un dólar puede mantener al agente funcionando durante una hora, lo que se considera “barato”.
En una era de escasez de potencia computacional, lograr que un modelo no pierda inteligencia, no se quede atascado y ofrezca una experiencia fluida mediante innovación disruptiva es la carta principal que permite a MiniMax seguir en la competencia de grandes modelos.
Curiosamente, Zhipu AI, que salió a bolsa en la Bolsa de Hong Kong un día antes que MiniMax, también lanzó recientemente Zhipu GLM-5, que compite con Claude Opus 4.6. Claude Opus 4.6 ha sido enfrentado por dos grandes modelos en China, uno en el norte y otro en el sur.
Zhipu GLM-5 ha logrado excelentes resultados en programación y capacidades de agentes inteligentes en modelos de código abierto. Algunos desarrolladores que lo probaron consideran que la experiencia en escenarios reales de programación con GLM-5 se acerca a los modelos más potentes de Claude, que ocupa la primera línea en la industria. En la lista de análisis artificiales más reconocida mundialmente, GLM-5 ocupa el cuarto lugar a nivel global y el primero en código abierto.
Zhipu describe GLM-5 como un “arquitecto de sistemas”, lo que significa que en el futuro, los grandes modelos de IA no solo se limitarán a escribir código para completar funciones, sino que construirán sistemas como ingenieros, incluso asignando tareas a diferentes agentes inteligentes.
En pruebas de programación con agentes, Zhipu GLM-5 supera ligeramente a Claude.
Además, el 10 de febrero, Qianwen lanzó su nuevo modelo de generación de imágenes Qwen-Image 2.0, que soporta instrucciones de hasta 1000 tokens y tiene una mayor capacidad de inferencia.
Casi al mismo tiempo, ByteDance lanzó su modelo similar Seedream 5.0, que lleva la generación de imágenes a otro nivel. “Antes, al usar IA para generar imágenes, había un problema: debido a la capacidad de inferencia, los caracteres chinos en las imágenes a menudo estaban mal colocados o eran simplemente caracteres ilegibles”, explicó el equipo de desarrollo de Qianwen. Con la mejora en comprensión de instrucciones y capacidad de inferencia, el “problema de los caracteres chinos en las imágenes generadas por IA” será historia.
Además de modelos multimodales como generación de imágenes y videos, los modelos de lenguaje grande más básicos también han avanzado mucho. Recientemente, DeepSeek lanzó discretamente un nuevo modelo, aunque no es el esperado V4, también trae sorpresas.
Este modelo actualizado no tiene capacidades multimodales, pero ha mejorado su capacidad de procesamiento de contexto a 1 millón de tokens, lo que equivale a poder leer y comprender toda la novela “El problema de los tres cuerpos”, de aproximadamente 900,000 palabras, en una sola lectura. Un desarrollador de agentes comentó: “Actualmente, pocos modelos soportan comprensión de contexto de un millón de tokens, como Gemini de Google y Claude de Anthropic. La actualización de DeepSeek también es un ‘subirse al tren’”.
Se sabe que esta ola de “nuevas versiones” de grandes modelos aún no ha terminado, y próximamente se lanzarán modelos insignia como Doubao 2.0 y Qianwen 3.5.
Ver originales
Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.
Los grandes modelos de EE. UU. son acorralados por el sur y el norte de China, la IA nacional compite ferozmente en la temporada de Spring Festival, buscando recrear el milagro de DeepSeek
Aún recuerdo el Año del Dragón en la Fiesta de Primavera, cuando DeepSeek, que explotó en popularidad, dejó a otros grandes modelos nacionales “totalmente deprimidos”. Este año, las grandes empresas de internet y las compañías de grandes modelos nacionales esperan repetir el milagro de DeepSeek, anunciando nuevas versiones antes del Año Nuevo, aprovechando la festividad como el mejor campo de entrenamiento.
El 12 de febrero, la empresa de modelos grandes de Shanghai MiniMax lanzó oficialmente en MiniMax Agent su nueva generación de modelos de texto MiniMax M2.5 (en adelante, “M2.5”), y el 13 de febrero se abrió su código fuente a nivel mundial, soportando despliegue local. Posteriormente, usuarios de todo el mundo construyeron rápidamente más de 10,000 “expertos” en MiniMax Agent, y la cifra sigue creciendo rápidamente.
Se dice que M2.5 es “la carta ganadora” por su rendimiento, que casi iguala al modelo Claude Opus 4.6, desarrollado por la compañía estadounidense de IA Anthropic, pero a un precio sorprendente, incluso el padre del proyecto de IA de código abierto más popular actual, OpenClaw, Peter Steinberger, no pudo evitar comentar.
Peter Steinberger, creador de OpenClaw, compartió y valoró M2.5, diciendo que su rendimiento está a la par de Claude Opus 4.6, pero cuesta 20 veces menos.
M2.5 se posiciona como un “modelo de producción nativo para agentes” que puede escribir código automáticamente, llamar a herramientas, analizar datos y generar informes.
En la lista más rigurosa de programación SWE-Bench Verified, M2.5 obtuvo un 80.2%, apenas por detrás de Claude Opus 4.6. En la tarea multilingüe Multi-SWE-Bench, M2.5 superó a Claude Opus 4.6 y obtuvo el primer lugar.
Para escenarios de oficina, M2.5 destaca en tareas avanzadas como Word, PPT, Excel y modelado financiero. En la evaluación comparativa GDPval-MM, logró una tasa de victoria promedio del 59% frente a modelos principales. Las tablas generadas por M2.5 muestran claramente la portada, las fuentes de datos y los datos detallados, con un formato ordenado, como si las hubiera hecho un empleado con TOC.
M2.5 no tiene nada que envidiar a los modelos principales estadounidenses.
Lo clave es que, para realizar “trabajos pesados”, M2.5 solo activa 10 mil millones de parámetros, siendo el modelo insignia más compacto en su categoría global.
Mientras “tiene una mente brillante”, la carta fuerte de M2.5 también radica en resolver los dos grandes problemas de los modelos: “costosos” y “lentos”.
M2.5 ha llevado la velocidad de inferencia a 100 TPS (transacciones por segundo), aproximadamente el doble que los modelos principales; el costo de entrada es de unos 0.3 dólares por millón de tokens (unidad básica de entrada y salida del modelo), y la salida cuesta unos 2.4 dólares por millón de tokens. Con una velocidad de salida de 100 tokens por segundo, un dólar puede mantener al agente funcionando durante una hora, lo que se considera “barato”.
En una era de escasez de potencia computacional, lograr que un modelo no pierda inteligencia, no se quede atascado y ofrezca una experiencia fluida mediante innovación disruptiva es la carta principal que permite a MiniMax seguir en la competencia de grandes modelos.
Curiosamente, Zhipu AI, que salió a bolsa en la Bolsa de Hong Kong un día antes que MiniMax, también lanzó recientemente Zhipu GLM-5, que compite con Claude Opus 4.6. Claude Opus 4.6 ha sido enfrentado por dos grandes modelos en China, uno en el norte y otro en el sur.
Zhipu GLM-5 ha logrado excelentes resultados en programación y capacidades de agentes inteligentes en modelos de código abierto. Algunos desarrolladores que lo probaron consideran que la experiencia en escenarios reales de programación con GLM-5 se acerca a los modelos más potentes de Claude, que ocupa la primera línea en la industria. En la lista de análisis artificiales más reconocida mundialmente, GLM-5 ocupa el cuarto lugar a nivel global y el primero en código abierto.
Zhipu describe GLM-5 como un “arquitecto de sistemas”, lo que significa que en el futuro, los grandes modelos de IA no solo se limitarán a escribir código para completar funciones, sino que construirán sistemas como ingenieros, incluso asignando tareas a diferentes agentes inteligentes.
En pruebas de programación con agentes, Zhipu GLM-5 supera ligeramente a Claude.
Además, el 10 de febrero, Qianwen lanzó su nuevo modelo de generación de imágenes Qwen-Image 2.0, que soporta instrucciones de hasta 1000 tokens y tiene una mayor capacidad de inferencia.
Casi al mismo tiempo, ByteDance lanzó su modelo similar Seedream 5.0, que lleva la generación de imágenes a otro nivel. “Antes, al usar IA para generar imágenes, había un problema: debido a la capacidad de inferencia, los caracteres chinos en las imágenes a menudo estaban mal colocados o eran simplemente caracteres ilegibles”, explicó el equipo de desarrollo de Qianwen. Con la mejora en comprensión de instrucciones y capacidad de inferencia, el “problema de los caracteres chinos en las imágenes generadas por IA” será historia.
Además de modelos multimodales como generación de imágenes y videos, los modelos de lenguaje grande más básicos también han avanzado mucho. Recientemente, DeepSeek lanzó discretamente un nuevo modelo, aunque no es el esperado V4, también trae sorpresas.
Este modelo actualizado no tiene capacidades multimodales, pero ha mejorado su capacidad de procesamiento de contexto a 1 millón de tokens, lo que equivale a poder leer y comprender toda la novela “El problema de los tres cuerpos”, de aproximadamente 900,000 palabras, en una sola lectura. Un desarrollador de agentes comentó: “Actualmente, pocos modelos soportan comprensión de contexto de un millón de tokens, como Gemini de Google y Claude de Anthropic. La actualización de DeepSeek también es un ‘subirse al tren’”.
Se sabe que esta ola de “nuevas versiones” de grandes modelos aún no ha terminado, y próximamente se lanzarán modelos insignia como Doubao 2.0 y Qianwen 3.5.