En bref / Points clés
- Xiaomi vient de lancer un modèle d'IA qui génère plus de 1 000 tokens par seconde sur des GPUs standards, dépassant largement GPT-4.
- Cette percée en 'model-system codesign' pourrait changer fondamentalement les applications d'IA en temps réel.
La barrière des mille tokens est brisée
Xiaomi, en collaboration avec son partenaire systèmes TileRT, a dévoilé le modèle MiMo V2.5 Pro UltraSpeed, une IA Mixture-of-Experts (MoE) d'un trillion de paramètres. Ce nouveau concurrent pulvérise les précédents records de vitesse d'inférence pour les grands modèles de langage. Sa principale affirmation : générer du texte à plus de 1 000 tokens par seconde, avec certaines démonstrations atteignant près de 1 200 TPS.
Pour mettre cela en perspective, les modèles de pointe actuels comme GPT-4 ou Claude 4 Opus délivrent généralement environ 50 à 60 tokens par seconde. Cela entraîne souvent des latences de raisonnement perceptibles pour les tâches complexes. La performance du MiMo V2.5 Pro UltraSpeed représente une augmentation stupéfiante de 15 à 20 fois, un saut d'un ordre de grandeur qui redéfinit fondamentalement les limites pratiques de l'interaction et des capacités de l'IA en temps réel.
Ce qui rend cette réalisation particulièrement disruptive est son empreinte matérielle remarquablement modeste. Plutôt que de s'appuyer sur du silicium spécialisé et personnalisé ou des centres de données massifs, ce mastodonte d'un trillion de paramètres fonctionne efficacement sur une infrastructure standard et facilement disponible. Il tourne sur un seul serveur équipé de seulement huit GPUs commerciaux, démontrant un niveau sans précédent de co-conception et d'optimisation modèle-système pour un déploiement à grande échelle.
Au cœur de la pile de vitesse à trois couches
Le MiMo V2.5 Pro UltraSpeed de Xiaomi atteint ses plus de 1 000 tokens par seconde grâce à une « co-conception modèle-système extrême », s'attaquant à la latence sous trois angles synchronisés. La première couche s'occupe de la bande passante mémoire, un goulot d'étranglement critique pour un modèle Mixture-of-Experts d'un trillion de paramètres. Xiaomi a déployé la MXFP4 Quantization, compressant les paramètres des Experts MoE à 4 bits. Cela a considérablement allégé la pression mémoire tandis que le Quantization-Aware Training (QAT) a préservé la précision quasi identique du modèle en maintenant une plus grande précision dans les couches de routage centrales.
Deuxièmement, le modèle a radicalement modifié la prédiction de tokens avec le DFlash speculative decoding. Contrairement aux méthodes standard qui devinent les tokens un par un, DFlash prédit un bloc entier de tokens cachés simultanément via un passage avant parallèle. Cela permet au modèle de faire des « bonds massifs de huit tokens en avant ». Pour les tâches de codage, le modèle principal accepte en moyenne 6,3 des huit tokens devinés par DFlash, accélérant considérablement la sortie.
Enfin, la troisième couche élimine les pauses au niveau de la microseconde inhérentes à l'exécution des GPU. TileRT, le partenaire systèmes de Xiaomi, a développé un runtime de persistent GPU kernel qui reste résident sur le GPU. En utilisant la spécialisation de warp, il attribue des rôles permanents aux sections matérielles, permettant le mouvement des données, le calcul et la communication simultanément. Cela garantit que le pipeline d'exécution ne s'arrête littéralement jamais, maintenant un élan continu pour une vitesse inégalée.
Tests réels : Vitesse fulgurante, Code fragile
Le MiMo V2.5 Pro UltraSpeed de Xiaomi démontre un débit brut étonnant lors de tests contrôlés. Un défi LeetCode difficile a vu le modèle Mixture-of-Experts atteindre un pic stupéfiant de 3 451 tokens par seconde, générant du code complexe à des vitesses jamais vues auparavant pour un modèle d'un trillion de paramètres. Dans une autre démonstration impressionnante, il a rapidement construit un jeu Three.js fonctionnel en moins d'une minute, démontrant sa capacité à traduire des invites en applications fonctionnelles avec une vélocité remarquable.
Pourtant, cette vitesse fulgurante s'accompagne souvent de réserves importantes. Lors de tâches plus complexes et en plusieurs étapes, le MiMo V2.5 Pro UltraSpeed a fréquemment présenté des défaillances critiques. Les tentatives de générer une page web explicative de mathématiques complète, de style Khan Academy, par exemple, ont conduit à des sorties figées et à une perte totale de contexte, arrêtant complètement la génération après seulement quelques minutes. Même simplifié, le code résultant présentait souvent des fonctionnalités défectueuses, seules les sections initiales fonctionnant de manière fiable tandis que les composants ultérieurs restaient non fonctionnels ou vides.
Le MiMo V2.5 Pro UltraSpeed privilégie clairement la vitesse de génération brute, représentant une prouesse technique unique en matière de débit de tokens. Bien que ses performances sur des tâches de codage spécifiques et à grande vitesse soient inégalées, sa capacité globale et sa fiabilité ne rivalisent pas encore avec la compréhension nuancée ou la production cohérente de modèles de pointe comme Claude Opus ou GPT-4. Ce compromis met en évidence une voie divergente dans le développement de l'IA, axée sur la vélocité plutôt que sur un raisonnement complexe et soutenu. Pour ceux qui s'intéressent à l'architecture sous-jacente et à ses performances, des détails supplémentaires sont disponibles sur la page d'accueil Xiaomi MiMo.
Pourquoi le 'Model-System Codesign' change la donne
À la base, la vitesse fulgurante du MiMo V2.5 Pro UltraSpeed découle d'un codesign modèle-système extrême. Cette philosophie implique d'optimiser méticuleusement l'architecture du modèle et le temps d'exécution du matériel sous-jacent simultanément, extrayant les performances maximales de chaque composant. C'est ainsi que Xiaomi a contraint un modèle Mixture-of-Experts d'un billion de paramètres à générer du texte à des vitesses de l'ordre de la microseconde sur du matériel standard.
Une telle approche intégrée remet fondamentalement en question le marché des accélérateurs d'IA coûteux et spécialisés. Au lieu de silicium personnalisé, Xiaomi et TileRT ont démontré cette inférence sans précédent de plus de 1 000 tokens/seconde sur un seul serveur standard équipé de huit GPU grand public. Cela maximise le potentiel du matériel existant, démocratisant l'accès aux capacités d'IA de pointe pour une fraction du coût.
La latence de l'ordre de la milliseconde qui en résulte débloque une nouvelle classe d'applications auparavant confinées aux discussions théoriques. Celles-ci incluent : - Des algorithmes de trading en temps réel qui réagissent instantanément aux changements du marché - Des agents de codage autonomes générant du code prêt pour la production en quelques secondes - Des systèmes de détection de fraude instantanée fonctionnant à la vitesse des transactions, prévenant les pertes avant qu'elles ne se produisent
Ce changement de paradigme suggère que les futures avancées de l'IA pourraient ne pas reposer exclusivement sur des puces toujours plus grandes et plus spécialisées, mais plutôt sur une intégration plus intelligente et plus efficace de l'ensemble de la pile système.
Foire aux questions
Qu'est-ce que le Xiaomi MiMo V2.5 Pro UltraSpeed ?
C'est un modèle d'IA Mixture-of-Experts d'un billion de paramètres développé par Xiaomi et TileRT, capable de générer du texte à plus de 1 000 tokens par seconde sur du matériel standard et grand public.
Comment le modèle MiMo UltraSpeed atteint-il de telles vitesses ?
Il utilise une stratégie en trois parties appelée 'codesign modèle-système extrême' : la quantification MXFP4 pour réduire l'utilisation de la mémoire, le décodage spéculatif DFlash pour prédire les blocs de tokens en parallèle, et un noyau GPU persistant TileRT pour éliminer la latence matérielle.
Quel matériel est requis pour exécuter le modèle MiMo UltraSpeed ?
Les vitesses rapportées ont été atteintes sur un seul serveur standard équipé de huit GPU grand public, et non sur du matériel d'IA spécialisé ou sur mesure.
Le modèle MiMo UltraSpeed est-il aussi performant que des modèles comme GPT-4 ou Claude Opus ?
Bien qu'exceptionnellement rapide, les tests montrent qu'il présente actuellement des limitations. Il peut produire des sorties cassées ou incomplètes sur des tâches complexes, indiquant un compromis entre la vitesse brute et les capacités de raisonnement des modèles de pointe.
