Xiaomi MiMo V2.5 UltraSpeed: Das schnellste AI Model der Welt?

Die Tausend-Token-Barriere ist durchbrochen

Xiaomi hat in Zusammenarbeit mit dem Systempartner TileRT das Modell MiMo V2.5 Pro UltraSpeed vorgestellt, eine 1-Billion-Parameter Mixture-of-Experts (MoE) KI. Dieser neue Anwärter sprengt frühere Benchmarks für die Inferenzgeschwindigkeit großer Sprachmodelle. Sein Hauptanspruch: Textgenerierung mit über 1.000 Token pro Sekunde, wobei einige Demonstrationen Spitzenwerte von fast 1.200 TPS erreichen.

Um dies ins rechte Licht zu rücken: Aktuelle Spitzenmodelle wie GPT-4 oder Claude 4 Opus liefern typischerweise etwa 50-60 Token pro Sekunde. Dies führt oft zu spürbaren Denkverzögerungen bei komplexen Aufgaben. Die Leistung von MiMo V2.5 Pro UltraSpeed stellt eine erstaunliche 15- bis 20-fache Steigerung dar, ein Sprung um eine Größenordnung, der die praktischen Grenzen der Echtzeit-KI-Interaktion und -Fähigkeit grundlegend neu definiert.

Was diese Errungenschaft besonders disruptiv macht, ist ihr bemerkenswert bescheidener Hardware-Fußabdruck. Anstatt sich auf spezialisierte, kundenspezifische Siliziumchips oder massive Rechenzentren zu verlassen, arbeitet dieser Billionen-Parameter-Koloss effizient auf standardmäßiger, leicht verfügbarer Infrastruktur. Er läuft auf einem einzigen Server, der mit nur acht commodity GPUs ausgestattet ist, was ein beispielloses Maß an Modell-System-Co-Design und Optimierung für eine breite Bereitstellung demonstriert.

Im Inneren des dreischichtigen Geschwindigkeits-Stacks

Xiaomis MiMo V2.5 Pro UltraSpeed erreicht seine rasante Geschwindigkeit von über 1.000 Token pro Sekunde durch ein „extremes Modell-System-Co-Design“, das die Latenz von drei synchronisierten Seiten angeht. Die erste Schicht befasst sich mit der Speicherbandbreite, einem kritischen Engpass für ein 1-Billion-Parameter Mixture-of-Experts-Modell. Xiaomi setzte MXFP4 Quantization ein, um MoE-Expertenparameter auf 4 Bit zu komprimieren. Dies verringerte den Speicherbedarf erheblich, während Quantization-Aware Training (QAT) die nahezu identische Genauigkeit des Modells durch Beibehaltung einer höheren Präzision in den Kern-Routing-Schichten bewahrte.

Zweitens hat das Modell die Token-Vorhersage mit DFlash speculative decoding radikal verändert. Im Gegensatz zu Standardmethoden, die Token einzeln erraten, sagt DFlash einen gesamten Block versteckter Token gleichzeitig über einen parallelen Vorwärtslauf voraus. Dies ermöglicht dem Modell, „massive Acht-Token-Sprünge nach vorne“ zu machen. Bei Codierungsaufgaben akzeptiert das Hauptmodell durchschnittlich 6,3 von acht von DFlash erratenen Token, was die Ausgabe dramatisch beschleunigt.

Schließlich eliminiert die dritte Schicht Mikrosekunden-Pausen, die der GPU-Ausführung eigen sind. TileRT, Xiaomis Systempartner, entwickelte eine persistent GPU kernel Laufzeitumgebung, die auf der GPU resident bleibt. Durch die Verwendung von Warp-Spezialisierung weist sie Hardware-Abschnitten permanente Rollen zu, was gleichzeitige Datenbewegung, Berechnung und Kommunikation ermöglicht. Dies stellt sicher, dass die Ausführungspipeline buchstäblich nie stoppt und einen kontinuierlichen Impuls für unübertroffene Geschwindigkeit aufrechterhält.

Praxistests: Rasende Geschwindigkeit, spröder Code

Xiaomis MiMo V2.5 Pro UltraSpeed demonstriert in kontrollierten Tests eine erstaunliche Rohleistung. Eine schwierige LeetCode-Herausforderung zeigte, dass das Mixture-of-Experts-Modell einen Spitzenwert von erstaunlichen 3.451 Token pro Sekunde erreichte und komplexen Code mit Geschwindigkeiten generierte, die für ein 1-Billion-Parameter-Modell bisher unerreicht waren. In einer weiteren beeindruckenden Demonstration erstellte es in weniger als einer Minute schnell ein funktionsfähiges Three.js-Spiel und zeigte damit seine Fähigkeit, Prompts mit bemerkenswerter Geschwindigkeit in funktionierende Anwendungen zu übersetzen.

Doch diese rasante Geschwindigkeit geht oft mit erheblichen Einschränkungen einher. Bei komplexeren, mehrstufigen Aufgaben zeigte der MiMo V2.5 Pro UltraSpeed häufig kritische Fehler. Versuche, beispielsweise eine umfassende, im Stil der Khan Academy gehaltene Mathematik-Erklärungswebseite zu generieren, führten zu eingefrorenen Ausgaben und einem vollständigen Verlust des Kontexts, wodurch die Generierung nach nur wenigen Minuten komplett stoppte. Selbst in vereinfachter Form wies der resultierende Code oft fehlerhafte Funktionalität auf, wobei nur die anfänglichen Abschnitte zuverlässig funktionierten, während spätere Komponenten nicht funktionsfähig oder leer blieben.

Der MiMo V2.5 Pro UltraSpeed priorisiert eindeutig die rohe Generierungsgeschwindigkeit und stellt eine einzigartige technische Leistung im Token-Durchsatz dar. Während seine Leistung bei engen, hochgeschwindigkeitsorientierten Codierungsaufgaben unübertroffen ist, erreichen seine Gesamtleistungsfähigkeit und Zuverlässigkeit noch nicht das nuancierte Verständnis oder die konsistente Ausgabe von Spitzenmodellen wie Claude Opus oder GPT-4. Dieser Kompromiss verdeutlicht einen divergierenden Weg in der KI-Entwicklung, der Geschwindigkeit über nachhaltiges, komplexes Denken stellt. Für Interessierte an der zugrunde liegenden Architektur und ihrer Leistung sind weitere Details auf der Xiaomi MiMo Home verfügbar.

Gefällt Ihnen der Artikel? Erhalten Sie jeden Morgen einen wie diesen per E-Mail.

eine E-Mail pro Tag · Abmeldung mit zwei Klicks · kein Tracking durch Dritte

Warum 'Model-System Codesign' das Spiel verändert

Im Kern resultiert die rasante Geschwindigkeit des MiMo V2.5 Pro UltraSpeed aus extremem Model-System Codesign. Diese Philosophie beinhaltet die akribische und gleichzeitige Optimierung der Modellarchitektur und der zugrunde liegenden Hardware-Laufzeit, um Spitzenleistung aus jeder Komponente herauszuholen. So hat Xiaomi ein 1-Billionen-Parameter Mixture-of-Experts-Modell dazu gebracht, Text mit Mikrosekundengeschwindigkeit auf Standardhardware zu generieren.

Ein solch integrierter Ansatz stellt den Markt für teure, spezialisierte KI-Beschleuniger grundlegend in Frage. Anstelle von kundenspezifischem Silizium demonstrierten Xiaomi und TileRT diese beispiellose Inferenz von über 1.000 Tokens/Sekunde auf einem einzigen Standardserver, der mit acht handelsüblichen GPUs ausgestattet war. Dies maximiert das Potenzial bestehender Hardware und demokratisiert den Zugang zu fortschrittlichen KI-Fähigkeiten zu einem Bruchteil der Kosten.

Die daraus resultierende Millisekunden-Latenz erschließt eine neue Klasse von Anwendungen, die zuvor auf theoretische Diskussionen beschränkt waren. Dazu gehören:

Echtzeit-Handelsalgorithmen, die sofort auf Marktveränderungen reagieren
Autonome Code-Agenten, die produktionsreifen Code innerhalb von Sekunden generieren
Sofortige Betrugserkennungssysteme, die mit Transaktionsgeschwindigkeit arbeiten und Verluste verhindern, bevor sie entstehen

Dieser Paradigmenwechsel deutet darauf hin, dass zukünftige KI-Durchbrüche möglicherweise nicht ausschließlich auf immer größeren, spezialisierteren Chips beruhen, sondern vielmehr auf einer intelligenteren, effizienteren Integration über den gesamten System-Stack hinweg.

Häufig gestellte Fragen

Was ist Xiaomi MiMo V2.5 Pro UltraSpeed?

Es ist ein 1-Billionen-Parameter Mixture-of-Experts KI-Modell, entwickelt von Xiaomi und TileRT, das in der Lage ist, Text mit über 1.000 Tokens pro Sekunde auf Standard-Hardware zu generieren.

Wie erreicht das MiMo UltraSpeed Modell solch hohe Geschwindigkeiten?

Es verwendet eine dreiteilige Strategie namens 'extremes Model-System Codesign': MXFP4 quantization zur Reduzierung des Speicherverbrauchs, DFlash speculative decoding zur parallelen Vorhersage von Token-Blöcken und einen TileRT persistent GPU kernel zur Eliminierung von Hardware-Latenz.

Welche Hardware wird benötigt, um das MiMo UltraSpeed Modell auszuführen?

Die gemeldeten Geschwindigkeiten wurden auf einem einzelnen Standardserver erzielt, der mit acht handelsüblichen GPUs ausgestattet war, nicht mit spezialisierter oder maßgeschneiderter KI-Hardware.

Ist das MiMo UltraSpeed Modell so leistungsfähig wie Modelle wie GPT-4 oder Claude Opus?

Obwohl außergewöhnlich schnell, zeigen Tests, dass es derzeit Einschränkungen hat. Es kann bei komplexen Aufgaben fehlerhafte oder unvollständige Ausgaben produzieren, was auf einen Kompromiss zwischen roher Geschwindigkeit und den Denkfähigkeiten führender Frontier-Modelle hindeutet.

Found this useful? Share it.

For builders

Want Stork to write one of these about your product?

Send us a URL. We use the product, form a view, and publish what we actually think — in 8 languages, labeled Sponsored, with no copy approval on your side. That last part is what makes it worth quoting.

See how it works$500 · AI tools & software only

Xiaomis KI ist unglaublich schnell