Xiaomi dévoile des détails sur l’entraînement du MiMo-V2-Pro : paramètres du modèle 1T, milliers de GPUs déployés

Message de Gate News, 24 avril — La responsable de l’équipe de grands modèles de langage chez Xiaomi, Luo Fuli, a révélé dans une interview approfondie que le modèle MiMo-V2-Pro compte au total 1 trillion de paramètres et nécessitait des milliers de GPUs pour l’entraînement. Elle a noté que l’échelle de 1T représente le seuil minimum pour obtenir des performances se rapprochant du niveau de Claude Opus 4.6 et obtenir un billet d’entrée compétitif pour la phase suivante d’agents IA

D’un point de vue technique, la version Pro utilise un mécanisme d’attention éparse extrême avec un ratio de 7:1 entre l’attention globale et l’attention par fenêtre glissante, afin de maîtriser les coûts d’inférence pour le traitement de longs contextes. Le modèle conserve également l’architecture MTP (Multi-Token Prediction) pour tirer parti de la puissance de calcul disponible afin d’accélérer l’inférence.

Côté gestion, l’équipe MiMo de 100 personnes ne compte que 30 à 40 personnes directement impliquées dans les itérations cœur. L’équipe fonctionne sans hiérarchies formelles ni divisions explicites en sous-groupes, ni de dates limites de livraison. Lorsqu’elle rencontre des problèmes numériques instables tels que des pics de perte d’entraînement, l’équipe donne la priorité à l’arrêt de l’entraînement pour investigation, même si cela implique d’arrêter les opérations pendant une à deux semaines et d’engendrer des coûts de calcul se chiffrant en millions de dollars.

Avertissement : Les informations contenues dans cette page peuvent provenir de tiers et ne représentent pas les points de vue ou les opinions de Gate. Le contenu de cette page est fourni à titre de référence uniquement et ne constitue pas un conseil financier, d'investissement ou juridique. Gate ne garantit pas l'exactitude ou l'exhaustivité des informations et n'est pas responsable des pertes résultant de l'utilisation de ces informations. Les investissements en actifs virtuels comportent des risques élevés et sont soumis à une forte volatilité des prix. Vous pouvez perdre la totalité du capital investi. Veuillez comprendre pleinement les risques pertinents et prendre des décisions prudentes en fonction de votre propre situation financière et de votre tolérance au risque. Pour plus de détails, veuillez consulter l'avertissement.

Articles similaires

Le gouvernement Trump publie un plan visant à lutter contre le raffinage de l’IA, accusant des entreprises chinoises de voler systématiquement les capacités des modèles

Le conseiller du président pour la politique technologique au sein du Bureau de la politique technologique de la Maison-Blanche (OSTP), Michael J. Kratsios, a publié le 23 avril une déclaration officielle indiquant que l’administration Trump dispose d’informations montrant que des entités étrangères (principalement basées en Chine) visent délibérément de grandes entreprises américaines d’intelligence artificielle, en extrayant systématiquement les capacités des modèles d’IA américains via « des dizaines de milliers de comptes d’agents » et des systèmes de jailbreak, tout en annonçant simultanément quatre mesures de riposte.

MarketWhisperIl y a 5m

DeepSeek lance une version d’aperçu open source V4, avec une note technique de 3206 dépassant GPT-5.4

DeepSeek a officiellement lancé le 24 avril une série de préversion de V4, sous licence MIT et publiée en open source, avec des poids de modèle mis en ligne sur Hugging Face et ModelScope. D’après le rapport technique de DeepSeek V4, V4-Pro-Max (mode avec le plus haut niveau de puissance d’inférence) a obtenu 3206 points sur le benchmark Codeforces, dépassant GPT-5.4.

MarketWhisperIl y a 21m

Cambricon finalise l’adaptation Day 0 de DeepSeek-V4, une étape majeure pour l’écosystème de puces IA de la Chine

Message de Gate News, 24 avril — Cambricon a annoncé aujourd’hui avoir achevé l’adaptation Day 0 de DeepSeek-V4, le dernier grand modèle de langage de DeepSeek, en utilisant son écosystème logiciel propriétaire NeuWare et le framework vLLM. Le code d’adaptation a été open-sourcé simultanément, marquant le

GateNewsIl y a 38m

Tencent lance Hy3 en version d’aperçu open source, les tests de référence du code améliorent de 40 % par rapport à l’ancienne version

Tencent a officiellement publié en open source le modèle de langage de grande taille Hy3 (version d’aperçu) sur GitHub, Hugging Face et ModelScope le 23 avril, et a également proposé un service d’API payant via le cloud de Tencent (Tencent Cloud). D’après un rapport de Decrypt daté du 24 avril, la version d’aperçu de Hy3 a été lancée pour l’entraînement à la fin du mois de janvier et, au moment de la date de publication, moins de trois mois s’étaient écoulés.

MarketWhisperIl y a 45m

Les investissements de portefeuille de FTX d’une valeur de 158 000 milliards de won s’ils n’avaient pas fait faillite

FTX, la bourse centralisée de cryptomonnaies qui a déposé une demande de protection contre la faillite au titre du Chapter 11 en novembre 2022 en raison de pénuries de liquidités et de sorties de capitaux, aurait conservé des investissements évalués à environ 158,796 billions de won si elle n'avait pas fait faillite, selon une analyse citée par Park

CryptoFrontierIl y a 48m

DeepSeek V4 obtient un score parfait sur Putnam-2025, à égalité avec Axiom en raisonnement mathématique formel

Message de Gate News, 24 avril — DeepSeek V4 a publié des résultats issus d’évaluations de raisonnement mathématique formel, obtenant un score parfait de 120/120 sur Putnam-2025, à égalité avec Axiom pour la première place. Dans le régime pratique utilisant LeanExplore et un échantillonnage contraint, V4-Flash-Max a obtenu 81.00 sur le

GateNewsIl y a 1h
Commentaire
0/400
Aucun commentaire