Les grands modèles américains sont pris en étau entre le nord et le sud de la Chine. L'IA nationale se précipite sur la période du Nouvel An chinois, dans l'espoir de reproduire le miracle de DeepSeek

robot
Création du résumé en cours

Souvenez-vous du Nouvel An chinois de l’année du Dragon, lorsque DeepSeek, qui a connu un succès fulgurant, a momentanément « mis à mal » d’autres grands modèles nationaux. Cette année, les géants de l’Internet et les entreprises de grands modèles domestiques espèrent tous reproduire le miracle de DeepSeek, en annonçant en masse leurs nouveautés avant le Nouvel An, en faisant de cette période leur meilleur terrain d’entraînement.

Le 12 février, la société de grands modèles de Shanghai MiniMax a officiellement lancé la nouvelle génération de modèle de texte MiniMax M2.5 (ci-après « M2.5 ») sur MiniMax Agent, puis le 13 février, elle a ouvert son code en open source à l’échelle mondiale, permettant le déploiement local. Rapidement, des utilisateurs du monde entier ont construit plus de 10 000 « experts » sur MiniMax Agent, et ce nombre continue de croître rapidement.

Le M2.5 est surnommé « la bombe » en raison de ses performances qui frôlent celles du modèle Claude Opus 4.6, développé par la société américaine d’IA Anthropic, tout en étant proposé à un prix étonnamment bas, ce qui a même fait réagir Peter Steinberger, père du projet open source OpenClaw.

Peter Steinberger a relayé et commenté le M2.5, soulignant que ses performances égalent celles de Claude Opus 4.6, mais à un prix 20 fois inférieur.

Le M2.5 est positionné comme un « modèle natif pour agents de production » capable d’écrire automatiquement du code, d’appeler des outils, d’analyser des données et de générer des rapports.

Sur le classement le plus rigoureux pour la programmation, SWE-Bench Verified, le M2.5 a obtenu un score élevé de 80,2 %, à seulement une faible différence de Claude Opus 4.6. Sur la tâche multilingue Multi-SWE-Bench, le M2.5 a surpassé Claude Opus 4.6 pour décrocher la première place.

Dans le cadre des scénarios professionnels, le M2.5 excelle dans Word, PowerPoint, Excel, la modélisation financière et autres tâches avancées. Lors de la comparaison dans le cadre d’évaluation GDPval-MM avec des modèles concurrents, il a obtenu une moyenne de 59 % de taux de victoire. Les tableaux générés par le M2.5 distinguent clairement la couverture, la source des données et les détails, avec un format soigné, comme s’ils avaient été réalisés par un employé perfectionniste.

Le M2.5 n’a rien à envier aux principaux modèles américains.

L’essentiel est que, capable d’effectuer des « tâches lourdes », le M2.5 ne comporte que 10 milliards de paramètres, ce qui en fait le modèle de cette catégorie le plus compact au sein des modèles phares mondiaux.

Tout en étant « intelligent », le M2.5 possède également un atout majeur : il résout deux grands problèmes des modèles, à savoir leur coût élevé et leur lenteur.

Le M2.5 atteint une vitesse de raisonnement de 100 TPS (transactions par seconde), soit environ deux fois celle des modèles concurrents ; le coût d’entrée est d’environ 0,3 dollar par million de tokens (unité de base pour l’entrée et la sortie du modèle), et la sortie coûte environ 2,4 dollars par million de tokens. En supposant une sortie de 100 tokens par seconde, un dollar permettrait à l’agent intelligent de fonctionner en continu pendant une heure, ce qui est considéré comme un prix « très abordable ».

Dans une époque de pénurie de puissance de calcul, la capacité à innover de manière disruptive pour rendre les modèles plus intelligents, plus fluides et plus agréables à utiliser constitue la carte maîtresse de MiniMax pour rester dans la compétition des grands modèles.

Fait intéressant, Zhipu AI, qui a été cotée à la Bourse de Hong Kong un jour avant MiniMax, a récemment lancé Zhipu GLM-5, également conçu pour rivaliser avec Claude Opus 4.6. Claude Opus 4.6 a ainsi été confronté à deux grands modèles, l’un venant du sud, l’autre du nord de la Chine.

Zhipu GLM-5 a obtenu d’excellents résultats en programmation et en capacités d’agent intelligent. Certains développeurs estiment qu’après utilisation, GLM-5 se rapproche de la meilleure performance de Claude dans des scénarios de programmation réels, tandis que Claude reste en tête dans ce domaine. Selon le classement mondial d’analyse artificielle, GLM-5 se place quatrième au niveau mondial et premier en open source.

Zhipu décrit le GLM-5 comme un « architecte système », ce qui signifie que, à l’avenir, les grands modèles d’IA ne se contenteront plus d’écrire du code pour réaliser une tâche spécifique, mais construiront des systèmes comme des ingénieurs, voire répartiront les fonctions entre différents agents intelligents.

Dans les tests de programmation par agents, le GLM-5 dépasse légèrement Claude.

Par ailleurs, Qianwen a lancé le 10 février un nouveau modèle de génération d’images, Qwen-Image 2.0, capable de traiter des instructions longues de 1000 tokens, avec une capacité de raisonnement renforcée.

À peu près à la même période, ByteDance a également dévoilé un modèle similaire, Seedream 5.0, qui repousse encore les limites de la génération d’images à partir de texte. « Avant, l’utilisation de l’IA pour générer des images présentait un défaut : en raison de la capacité de raisonnement limitée, les caractères chinois dans les images étaient souvent incohérents ou illisibles », expliquent les développeurs de Qianwen. « Avec l’amélioration de la compréhension des instructions et des capacités de raisonnement, le problème des caractères chinois dans les images générées par l’IA deviendra bientôt une chose du passé. »

Outre la génération d’images et de vidéos à partir de texte, les modèles multimodaux progressent également, mais la plus grande avancée reste celle des grands modèles de langage. Récemment, DeepSeek a discrètement lancé un nouveau modèle, qui, bien qu’il ne soit pas le tant attendu V4, réserve également des surprises.

Ce nouveau modèle, sans capacités multimodales, a cependant amélioré la gestion du contexte jusqu’à 1 million de tokens, ce qui équivaut à pouvoir lire et comprendre en une seule fois l’intégralité du roman « Trois Corps », soit environ 900 000 mots. Un développeur d’agents intelligents confie : « Peu de modèles supportent actuellement une compréhension du contexte à un million de tokens, comme Gemini de Google ou Claude d’Anthropic. La mise à jour de DeepSeek est donc une vraie ‘montée à bord’. »

Selon nos informations, cette vague de nouveautés dans les grands modèles ne s’arrêtera pas là : prochainement, seront lancés Doubao 2.0, Qianwen 3.5 et d’autres modèles phares.

(Article original : Shangguan News)

Voir l'original
Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.
  • Récompense
  • Commentaire
  • Reposter
  • Partager
Commentaire
0/400
Aucun commentaire
  • Épingler

Trader les cryptos partout et à tout moment
qrCode
Scan pour télécharger Gate app
Communauté
Français (Afrique)
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)