Skip to content

XiaomiのAIは信じられないほど高速

Xiaomiは、標準的なGPUで1秒あたり1,000トークン以上を生成し、GPT-4を凌駕するAIモデルを発表しました。「model-system codesign」におけるこの画期的な進歩は、リアルタイムAIアプリケーションを根本的に変える可能性があります。

Nora Vance
Hero image for: XiaomiのAIは信じられないほど高速

要約 / ポイント

Xiaomiは、標準的なGPUで1秒あたり1,000トークン以上を生成し、GPT-4を凌駕するAIモデルを発表しました。「model-system codesign」におけるこの画期的な進歩は、リアルタイムAIアプリケーションを根本的に変える可能性があります。

1,000トークンの壁が破られた

Xiaomiは、システムパートナーであるTileRTと共同で、1兆パラメータのMixture-of-Experts(MoE)AIであるMiMo V2.5 Pro UltraSpeedモデルを発表しました。この新たな挑戦者は、大規模言語モデルの推論速度に関するこれまでのベンチマークを打ち破ります。その主要な主張は、1秒あたり1,000トークン以上でテキストを生成することであり、一部のデモンストレーションでは1,200 TPS近くに達しました。

これを比較すると、GPT-4やClaude 4 Opusのような現在の最先端モデルは、通常1秒あたり約50〜60トークンを生成します。これは、複雑なタスクにおいて顕著な推論の遅延を引き起こすことがよくあります。MiMo V2.5 Pro UltraSpeedのパフォーマンスは、驚異的な15〜20倍の増加を示しており、リアルタイムAIのインタラクションと能力の実用的な限界を根本的に再定義する桁違いの飛躍です。

この成果を特に破壊的にしているのは、その驚くほど控えめなハードウェアフットプリントです。特殊なカスタムシリコンや大規模なデータセンターに依存するのではなく、この1兆パラメータの巨大モデルは、標準的で容易に入手可能なインフラストラクチャ上で効率的に動作します。わずか8つのcommodity GPUsを搭載した単一のサーバー上で実行され、広範な展開のための前例のないレベルのmodel-system co-designと最適化を示しています。

3層の速度スタックの内部

XiaomiのMiMo V2.5 Pro UltraSpeedは、「極限のmodel-system co-design」を通じて、3つの同期した角度からレイテンシを攻撃することで、1秒あたり1,000トークン以上の驚異的な速度を達成しています。最初の層は、1兆パラメータのMixture-of-Expertsモデルにとって重要なボトルネックであるメモリ帯域幅に対処します。XiaomiはMXFP4 Quantizationを展開し、MoE Expertパラメータを4ビットに圧縮しました。これにより、メモリ負荷が大幅に軽減され、Quantization-Aware Training(QAT)は、コアルーティング層でより高い精度を維持することで、モデルのほぼ同一の精度を保持しました。

次に、モデルはDFlash speculative decodingによりトークン予測を根本的に変更しました。トークンを1つずつ推測する標準的な方法とは異なり、DFlashは並列順方向パスを介して隠されたトークンのブロック全体を同時に予測します。これにより、モデルは「8トークンという大規模な飛躍」を遂げることができます。コーディングタスクの場合、メインモデルはDFlashが推測する8つのトークンごとに平均6.3個を受け入れ、出力を劇的に加速します。

最後に、3番目の層はGPU実行に固有のマイクロ秒レベルの一時停止を排除します。XiaomiのシステムパートナーであるTileRTは、GPU上に常駐するpersistent GPU kernelランタイムを開発しました。ワープスペシャライゼーションを使用することで、ハードウェアセクションに永続的な役割を割り当て、データ移動、計算、通信を同時に可能にします。これにより、実行パイプラインは文字通り停止することなく、比類のない速度のために継続的な勢いを維持します。

実世界テスト:驚異的な速度、脆いコード

XiaomiのMiMo V2.5 Pro UltraSpeedは、制御されたテストで驚異的な生のスループットを示します。難易度の高いLeetCodeの課題では、Mixture-of-Expertsモデルが1秒あたり3,451トークンという驚くべきピークに達し、1兆パラメータのモデルとしては前例のない速度で複雑なコードを生成しました。別の印象的なデモンストレーションでは、1分以内に機能するThree.jsゲームを迅速に構築し、プロンプトを動作するアプリケーションに驚くべき速度で変換する能力を示しました。

しかし、この驚異的な速度には、しばしば重大な注意点が付随します。より複雑な多段階タスクに取り組む際、MiMo V2.5 Pro UltraSpeed は頻繁に致命的な障害を示しました。例えば、Khan Academy スタイルの包括的な数学解説ウェブページを生成しようとすると、出力がフリーズしたり、コンテキストが完全に失われたりし、わずか数分で生成が完全に停止しました。簡素化した場合でも、生成されたコードには機能不全が見られることが多く、最初のセクションだけが確実に機能し、後のコンポーネントは機能しないか空のままでした。

MiMo V2.5 Pro UltraSpeed は、生の生成速度を明確に優先しており、トークンスループットにおける独自のエンジニアリングの偉業を代表しています。狭い範囲の高速コーディングタスクにおけるその性能は比類ないものですが、その全体的な能力と信頼性は、Claude Opus や GPT-4 のような最先端モデルの微妙な理解や一貫した出力にはまだ及びません。このトレードオフは、持続的で複雑な推論よりも速度に焦点を当てた、AI 開発における異なる道筋を浮き彫りにしています。基盤となるアーキテクチャとその性能に興味がある方は、Xiaomi MiMo Home で詳細をご覧いただけます。

なぜ「Model-System Codesign」がゲームを変えるのか

MiMo V2.5 Pro UltraSpeed の驚異的な速度の核心は、極端なモデル・システム協調設計 (extreme model-system codesign) にあります。この哲学は、モデルのアーキテクチャと基盤となるハードウェアランタイムを同時に綿密に最適化し、すべてのコンポーネントから最高のパフォーマンスを引き出すことを含みます。Xiaomi が1兆パラメータの Mixture-of-Experts モデルを標準ハードウェアでマイクロ秒の速度でテキストを生成させたのは、この方法によるものです。

このような統合されたアプローチは、高価で特殊な AI アクセラレータ市場に根本的に挑戦します。カスタムシリコンの代わりに、Xiaomi と TileRT は、8つの汎用 GPU (commodity GPUs) を搭載した単一の標準サーバーで、この前例のない1,000トークン/秒以上の推論を実証しました。これにより、既存のハードウェアの潜在能力を最大限に引き出し、ごくわずかなコストで最先端の AI 機能へのアクセスを民主化します。

結果として得られるミリ秒単位のレイテンシは、これまで理論上の議論に限定されていた新しい種類のアプリケーションを可能にします。これには以下が含まれます。 - 市場の変化に瞬時に反応するリアルタイム取引アルゴリズム - 数秒以内に本番環境対応のコードを生成する自律型コーディングエージェント - 取引速度で動作し、損失が発生する前に防ぐ即時不正検出システム

このパラダイムシフトは、将来の AI のブレークスルーが、より大きく、より特殊なチップにのみ依存するのではなく、システムスタック全体にわたるよりスマートで効率的な統合に依存する可能性を示唆しています。

よくある質問

Xiaomi MiMo V2.5 Pro UltraSpeed とは何ですか?

Xiaomi と TileRT によって開発された1兆パラメータの Mixture-of-Experts AI モデルで、標準的な汎用ハードウェア上で毎秒1,000トークン以上のテキストを生成できます。

MiMo UltraSpeed モデルはどのようにしてこのような高速を実現しているのですか?

「extreme model-system codesign」と呼ばれる3つの戦略を使用しています。メモリ使用量を削減するための MXFP4 quantization、トークンブロックを並行して予測するための DFlash speculative decoding、およびハードウェアレイテンシを排除するための TileRT persistent GPU kernel です。

MiMo UltraSpeed モデルを実行するにはどのようなハードウェアが必要ですか?

報告された速度は、特殊なAIハードウェアやカスタムビルドされたものではなく、8つの汎用 GPU を搭載した単一の標準サーバーで達成されました。

MiMo UltraSpeed モデルは GPT-4 や Claude Opus のようなモデルと同等の能力を持っていますか?

非常に高速である一方で、テストでは現在制限があることが示されています。複雑なタスクでは、破損した出力や不完全な出力を生成する可能性があり、これは生の速度と主要なフロンティアモデルの推論能力との間のトレードオフを示しています。

Found this useful? Share it.

One short daily email of tools worth shipping. No drip funnel.

one email a day · unsubscribe in two clicks · no third-party tracking

🚀もっと見る

AI最前線をキャッチアップ

Stork.AIが厳選したAIツール、エージェント、MCPサーバーをご覧ください。

P.S. 使えるものを作りましたか? Storkに掲載