TL;DR / Key Takeaways
世界中で聞こえた200億ドルの囁き
200億ドルのNVIDIAの取引に関する噂が、まるでマトリックスの不具合のようにトレーディングデスクに届いた。それはArmスタイルの見出しによる買収でも、クリーンな取得でもなく、その規模の大きさから瞬時に同社の過去最大の取引となった。どのGPUの発売よりも、どのデータセンターの設計勝利よりも大きく、これはバランスシートが武器となる領域だった。
スケールの観点から見ると、NVIDIAの2019年の大規模買収であるMellanoxは69億ドルの費用がかかり、高性能ネットワーキング市場全体を再編成しました。この新たな取引は、その金額を実質的に3倍にし、帯域幅や接続性ではなく、AI推論の中核に焦点を当てています。すでに1兆ドルを超える価値を持つ企業が、速度、レイテンシ、シリコンの専門知識に対して200億ドルが妥当な価格だと判断すると、誰もが注目します。
最初は混乱が生じました。NVIDIAはGroqを完全に買収するわけではないと述べましたが、中型半導体メーカーの時価総額に匹敵する金額が動いていました。投資家たちはこの取引を既存のパターン—M&A、戦略的提携、ライセンス契約—に当てはめようとしましたが、どれもぴったりとは合いませんでした。見出しは買収と呼びましたが、NVIDIAの弁護士たちは非常に慎重にそうは言いませんでした。
その構造はほぼ意図的に奇妙に見えた。NVIDIAは、GroqのコアIPに対する非独占的権利に約200億ドルを支払うことに合意し、創業者のジョナサン・ロスや社長のサニー・マドラを含むトップエンジニアリングタレントの実質的な「買収」を行った。Groqという会社は新しいリーダーシップのもとで存続し、GroqのLPUアーキテクチャと大部分のチップ資産がNVIDIAの影響下に移ることになる。
その非対称性は初期の謎を生む要因となりました。なぜ完全な所有権を取得せず、単純な合併を引き起こさずに、買収レベルの費用を支出するのでしょうか?なぜ GroqCloud やビジネスの一部を取引外に残しながら、頭脳と設計図を吸収したのでしょうか?外部の多くの人々には、NVIDIA が半分の会社に対してプレミアム価格を支払ったように見えました。
騒音の裏で、異なる物語が浮かび上がり始めた。それは、戦略的な土地の獲得を伴った規制的な柔道の技だった。NVIDIAは、クリーンな買収を避けることで、400億ドルのArm買収を阻んだ反トラストの精査をかわした。その一方で、次のAIの段階、つまり恐ろしい速度と規模での推論を支配するために必要な人材、知的財産、ロードマップを静かに確保した。
ジェンセンのギャンビット:『買収でない買収』
ジェンセン・ファンはグロックを買収したというよりも、再編成したと言える。NVIDIAは、グロックのコアIPに対する包括的で非独占的なライセンスと、シリコンバレーの従来の人材獲得方式であるブレイン・トラストを組み合わせたパッケージに約200億ドルを投資している。書類上ではグロックは存続しているが、実際にはその最も貴重な資産はNVIDIAの重力井戸の周りを回っている。
NVIDIAはGroqのキャップテーブルや法人構造を取得する代わりに、そのLPUアーキテクチャ、コンパイラスタック、主要な設計特許をライセンスしました。その知的財産には、NVIDIAがGroqの推論シリコンコンセプトを将来の製品ラインに組み込むために必要なすべてを提供する長期アクセス権が付随しています。非独占的な文言により、Groqは技術的には他でライセンスを取得する自由がありますが、創業者が去った今、その選択肢は現実よりも理論的に見えます。
この構造は、ARM取引を失敗に導いた法的障壁を引き起こすことなく、NVIDIAにGroqの技術的な宝物を提供します。米国、EU、英国の規制当局は、NVIDIAのAIコンピューティングにおける支配力に対して深い懸念を示しています。急速に成長する推論の競合企業を直接買収することは、数年にわたる調査、行動的な救済措置、あるいは完全な阻止を招くことになったでしょう。
対照的に、IPライセンスと人材移動は通常、「通常の取引」として独占禁止法のレーダーをすり抜けます。支配権の変更の申請も、株主投票も、訴訟する合併もありません。NVIDIAは、競合他社を市場から排除したわけではないと主張することが可能です。Groqはまだ存在し、依然としてGroqCloudを運営し、理論上はチップを製造することもできます。
取引の人間的側面は、その議論を学術的に感じさせます。GoogleのTPUとGroqのLPUの両方のエンジニアであるGroq創設者ジョナサン・ロスがNVIDIAに移ることになりました。社長のサニー・マドラや、Groqのアーキテクチャ、コンパイラ、システムチームの重要なメンバーも彼に同行するとのことです。Groqに残るものは、フルスタック・シリコン企業というよりも、ブランドとクラウドサービスのように見えます。
戦略的に、ファンは規制当局が懸念していたものを正確に手に入れた:従来の合併の書類の足跡なしにAI推論スタックへのより厳しいコントロール。NVIDIAはGPUトレーニングから超低遅延推論へとその範囲を拡大し、Groqの設計とそれをさらに推進する方法を知る人々を手に入れた。
GoogleとGroqのAIの頭脳を構築した天才に出会う
ジョナサン・ロスは、シンプルで厳しい制約の上にキャリアを築いてきました。それは、「レイテンシーはAIを殺す」というものです。彼はGoogleで、その信条をシリコンに変え、Google検索、翻訳、フォト、YouTubeの推薦の基盤となるカスタムアクセラレーターであるテンソル処理ユニット(TPU)を作り上げたチームを率いました。現在、TPUの展開は数百万のチップに達し、Googleのデータセンター内で毎日数兆回の推論を行っています。
ロスは単に高速チップを設計したわけではなく、行列演算に基づいて全体のスタックを再設計しました。TPUはCPUやGPUから密な線形代数をオフロードし、Googleが一般的なハードウェアでは経済的に不可能だった規模でモデルをトレーニングし提供できるようにしました。その成功により、彼は単一のアーキテクチャの決定でハイパースケーラーの経済を曲げることができる数少ないエンジニアの一人としての地位を確立しました。
彼はその後去った。ロスはGroqを、グラフィックスのためでもなく、一般的なAIのためでもなく、純粋な言語と推論のスピードのためのプロセッサを構築するという鋭いテーマのもとに設立した。複雑で大規模に並列化されたGPUモデルの代わりに、Groqの言語処理ユニット(LPU)は、決定的でシングルコアの非常に広いアーキテクチャを使用し、ニューラルネットワークをコンベヤーベルトのように実行する。キャッシュなし、最小限の分岐、正確なスケジューリング。
Groqのハードウェアとコンパイラスタックは、1秒あたりのトークン数という1つの指標に追求を集中させました。公開デモでは、Groq LPUがユーザーごとに数百トークン毎秒で大規模言語モデルの出力をストリーミングしている様子が示されており、同等の電力消費のGPUベースのセットアップと比べてしばしば2~3倍の速度を実現しています。レイテンシに敏感なワークロード—取引、会話エージェント、リアルタイムコパイロット—では、その違いが直接的に収益とユーザー維持率に繋がります。
それが、ロスがNVIDIAの200億ドルの賭けの中心にいる理由です。ジェンスン・ファンは単に知的財産をライセンス供与しているだけでなく、実質的にGoogleをTPU優先の企業に変え、そこから競争相手の推論エンジンをゼロから構築した頭脳を輸入しているのです。独占: NVIDIAがAIチップスタートアップのGroqの資産を約200億ドルで購入する、過去最大の取引を記録は、これはNVIDIAにとって過去最大の取引であり、69億ドルのMellanoxの買収を上回ることを強調しています。
NVIDIAはすでにGPUを使ったトレーニングで圧倒的な支配力を持っています。ロスは、GPUエコシステムをLPUスタイルの決定論とコンパイラの規律と融合させることで、推論でも支配するための信頼できる道筋を提供しています。次の10年間のシリコンを定義できると信じるアーキテクトを雇うために、200億ドルをライセンスと買収に費やすことはありません。
GPUの時代は終わった:LPUの時代が始まる
GPUはピクセルを描くために生まれました。グラフィックス処理ユニットは、数千の並列数学問題を画面に投げつけるのが得意で、3Dゲームに最適であり、後に大量のAIトレーニング処理をこなすのにも適しています。彼らは、レイトレーシング、マトリックス乗算、物理シミュレーションなど、すべてをただの非常に並列な作業負荷として扱います。
LPUはその論理をひっくり返します。Groqの言語処理ユニットは、汎用の数値混合器ではなく、大規模言語モデルを推論時に実行するためのハードワイヤード高速パスです。GPUが複雑なスケジューリングで多数の作業をこなす一方で、LPUは物理が許す限り、単一の非常に予測可能なプログラムを迅速かつ一貫して実行します。
GPUを広大な大学の図書館に例えてみてください。モデルのトレーニングは深い研究に似ています:数百万のページをスキャンし、情報源を交差参照し、仮説を修正し、何週間にもわたって数千のGPUにわたり反復作業を行います。柔軟性は生の決定論よりも重要であり、なぜならすべてのトレーニングランが「シラバス」を変えるからです。
LPUは、完成したライブラリに向けられた超最適化された検索エンジンのように機能します。モデルはすでにトレーニングされており、推論は質問を投げかけてトークンをストリーミングバックする行為です。あなたが気にするのはレイテンシー、スループット、クエリごとのコストであり、毎晩棚を再配置することではありません。
言語モデルはこの分裂をさらに明確にします。トランスフォーマーはテキストをトークンごとに厳密な順序で生成します。トークンN+1はトークン1からNまでに依存しています。その依存関係の連鎖は並列処理には不向きに見えますが、驚くほど予測可能です。同じグラフ、同じメモリパターン、数十億のリクエストに対して同じ制御フローです。
Groqのアーキテクチャは、その予測可能性を重視しています。GPUのように大規模なスレッドプールでメモリの遅延を隠すのではなく、LPUはチップ上にモデル全体を静的データフローとして配置し、各トークンステップをタイミングされたパイプラインステージに変換します。キャッシュの運試しも、ワープの発散もなく、行列の乗算とソフトマックスのコンベヤーベルトが続きます。
NVIDIAは財務諸表の兆候を見ています。トレーニングは初めての1兆ドルの波を生み出しましたが、推論はそれを上回るでしょう。すべての検索ボックス、カスタマーサービスのチャット、そして生産性アプリが1秒間に何百万回もモデルを呼び出し始めるからです。収益はクエリの数に比例し、GPT-Nextを何回トレーニングするかには依存しません。
つまり、GPUの王者はGPUの優位性を脅かすものに投資した。約200億ドルを支出してGroqのLPU IPに対する非独占権を取得し、ジョナサン・ロスと彼のチームを引き入れることで、NVIDIAはハイパースケーラーが専門化された推論用シリコンに標準化する未来に備えている。過去のチップに対する衰退する独占を守るよりも、勝利するアーキテクチャを所有する方が良い。
トレーニングを忘れろ—推論が兆ドルの賞金だ
AIに質問をすると、数百ミリ秒のうちに答えが返ってくる。それが推論だ。トレーニングはモデルが学ぶための高価なブートキャンプであり、推論はそのモデルがコードを書いたり、会議を要約したり、動画を生成したり、自動車を運転したりするたびに行われる。これはAIの「行動」フェーズであり、モデルが出荷された後は決して止まることはない。
フロンティアモデルは、スパコンで一度または数回トレーニングを行うかもしれませんが、その生涯にわたって数十億回または数兆回リクエストに応じることができます。OpenAIのChatGPT、GoogleのGemini、MetaのLlamaベースのサービスは、すでに毎日数千万件のプロンプトを処理しています。スケールで見ると、推論の数はトレーニング回数を数桁も上回ります。
その非対称性が推論を真の金の機械に変えます。すべてのチャット、検索、カスタマーサポートのチケット、そしてAI生成の広告クリエイティブが推論メーターを回します。クラウドプロバイダーはすでに1,000トークンあたり、またはAPIコールごとに料金を請求しており、企業の展開も内部使用を同様にメーターで測定し、生の計算サイクルを継続的な収益に変えています。
NVIDIAは、推論を制御する者がAI経済のサブスクリプション層を制御することを理解しています。トレーニングは変動のある資本支出であり、巨大な一度きりのGPUクラスターを数ヶ月にわたって償却します。一方、推論はSaaSのように動作し、予測可能で使用ベースであり、ユーザーの成長と密接に結びついています。AIがOfficeドキュメント、CRMシステム、電話のユーザーインターフェースに浸透するにつれて、推論のボリュームと請求額は、クリックごとにスケールします。
最高の推論ハードウェアを所有することは、すべてのAIサービスの利益率を左右することを意味します。もしあなたのチップがモデルを5倍速く、エネルギーは半分で動かすことができれば、競合他社よりも価格を下げるか、その差額を利益として懐に入れることができます。このコストの差は、AI検索クエリが$0.01になるか$0.0001になるかを決定し、それがクールなデモと持続可能な製品の違いになります。
GroqのLPUアーキテクチャは、まさにそのボトルネックを解決することを目指しています:超低遅延で予測可能な大規模推論を実現します。NVIDIAは、Groqの知的財産に対する非独占的権利を確保し、ジョナサン・ロスと彼のチームを迎え入れることで、シリコンがモデルをトレーニングするだけでなく、その後に続く数兆の推論をも支える未来を手に入れようとしています。
数字は嘘をつかない:Groqの驚異的なスピード
数字は、NVIDIAがGroqを無視することを不可能にしました。Llama 2やMixtralのような公開LLMベンチマークでは、GroqのLPUシステムは、同じまたは低い電力予算で、最上級のGPUクラスターよりも約2〜3倍速い推論を一貫して提供しました。デモ展開では、7B〜13Bパラメータモデルのエンドツーエンドレイテンシが20ms未満を示しており、GPUスタックはネットワーキングとバッチ処理のオーバーヘッドを考慮すると、しばしば50〜150msの範囲に収まります。
その生のスピードは、ユーザー体験に直接影響します。100ミリ秒ではなく30ミリ秒で応答するチャットボットは、ウェブフォームのように感じるのではなく、ライブの会話のように感じます。リアルタイム翻訳は、吹き替え映画のようには聞こえず、あなたの口を離れた瞬間にほぼ同時に各フレーズが届く人間の通訳者のように振る舞い始めます。
AIエージェントにとって、レイテンシーは酸素です。20のツールコールをGPUで連鎖させるエージェントは、タスクを完了するのに数秒かかることがありますが、GroqのLPUでは、同じワークフローが1秒未満に圧縮できます。このギャップは、AIアシスタントがライブセールスコールを管理できるか、マルチプレイヤーゲームで交渉できるか、家具に衝突せずにロボットの群れを調整できるかを決定します。
これらの数字は、NVIDIAにとって明白な脆弱性を生み出しました。ハイパースケーラーやオープンソースプラットフォームが推論のためにGroqを標準化すれば、GPUが重視されるデータセンターはトレーニング専用の遺物になるリスクを抱えることになります。NVIDIAの200億ドルの動きは、競合のシリコンスタックが定期的な収益を生み出す推論層を所有する未来を効果的に無効化しました。
低遅延のユースケースは、Groqの優位性を最も明確に示します: - 高頻度取引およびマーケットメイキング - 自律走行車およびドローン - ライブ顧客サポートおよびコールセンター - マルチプレイヤーゲームおよびインタラクティブストリーミング - 産業制御およびロボティクス
アナリストたちは早期にこの脅威を指摘しており、NvidiaがGroqの推論技術をライセンスし、Groqの幹部がチップメーカーに加入のような報道は、NVIDIAがどれほど戦略的にGroqのIPと人材を自社の勢力圏に引き込むために動いたかを強調しています。
NVIDIAが規制当局と4Dチェスを指導した方法
ワシントン、ブリュッセル、北京の規制当局は現在、NVIDIAをサメのように取り囲んでいます。同社はすでにAIアクセラレーター市場の70~80%を支配しており、監視機関はGroqの単純な購入よりもはるかに小規模な取引を阻止したり、厳しく取り締まったりしています。失敗した400億ドルのArm買収提案や進行中のEUおよびFTCの調査を受けて、直接的な推論ライバルのクリーンな買収は反トラスト裁判に自動的に持ち込まれるように見えました。
したがって、NVIDIAは明らかな罠を回避しました。Groqを買収する代わりに、彼らはGroqのコアのLPU IPに対して約200億ドルの非独占ライセンス料を支払い、同時にジョナサン・ロスと彼のシニアチームの大部分を引き抜きました。企業としてのGroqは存続し、思想と設計図は現在NVIDIAの中にあります。
弁護士はこれを合併ではなく、ライセンスおよび雇用取引と呼ぶでしょう。現行の法令に縛られている規制当局は、IPライセンスと人材引き抜きを集中事件として扱うことに苦労しています。たとえその戦略的影響が買収と似ていても、です。コントロール変更の申請はなく、従来の合併審査もなく、競争相手が一つ減ったことを示すきれいなHHIチャートもありません。
構造的に、NVIDIAはブロックされた買収がもたらすほぼすべてを達成しました。彼らは、Groqの命令セット、コンパイラスタック、ハードウェア設計への長期的なアクセスを確保し、それらを進化させる方法に精通した人的資本も手に入れました。Groqは他の場所で自社の知的財産をライセンスする理論上の権利を保持していますが、どの競合他社も現在ではNVIDIAのロードマップにGroqの技術が組み込まれているため、少なくとも18〜24か月遅れてスタートすることになります。
その「非独占」ラベルは、実際の非対称性を隠しながら、重い法的な意味を担っています。NVIDIAは、将来の推論製品にGroq由来のブロックを前払い、共同設計し、密接に統合することができ、CUDAエコシステムやネットワーキングファブリックを最適化します。後から参入するライセンシーは次のような状況に直面するでしょう:
- 1オリジナルのコアチームへのアクセスなし
- 2NVIDIAがアーキテクチャを進化させる中で、変化する標的。
- 3NVIDIAのソフトウェアおよびクラウドスタックへの顧客ロックイン
このプレイブックは危険な前例を作ります。ビッグテックは、IPライセンス、独占的な統合、そして大量の買収を通じて事実上の買収を組み立てることができ、すべてが従来の合併の定義の外に収まるように構築されています。鉄道会社や電話会社向けに調整された反トラスト法は、コードと契約を同じくらい理解している企業によって巧妙に出し抜かれました。
くり抜かれた殻、それともグロックの新たな始まりか?
Groqは、200億ドルの契約の翌朝、逆説的な状態で目を覚ました。突然現金が豊富で戦略的に重要なプレーヤーになったが、その頭脳を失ったのだ。新CEO サイモン・エドワーズは、コアチップIPがNVIDIAと非独占ライセンスのもとにある会社を運営しているが、その設計を行ったほとんどの人々は今、サンタクララで緑のジャケットを着ている。
Groqの残りの宝石は、LPUハードウェアをAPIとして公開するホスティング推論プラットフォームであるGroqCloudです。このサービスは、GPUスタックと比較して大規模言語モデルの推論で2〜3倍の低遅延を実現したデモで開発者を引き付けており、依然として顧客関係、請求、ロードマップを管理しています。トランジスタではなくトークン単位でコンピュートをレンタルする市場では、この抽象化レイヤーが重要です。
しかし、GroqCloudは今、奇妙な競争環境で運営されています。NVIDIAは、自社のクラウドパートナーやDGXプラットフォームを通じて同じライセンスされたLPU IPを提供できる一方で、Groqはソフトウェア、ツール、開発者体験で差別化しようとしています。もしNVIDIAが価格を下げたり、LPUベースの推論を既存のGPU提供にバンドルしたりすれば、GroqCloudは自社技術のブティック版になってしまうリスクがあります。
タレントの重力はさらに大きな問題を引き起こします。ジョナサン・ロス、サニ―・マドラ、そして重要な数のシニアアーキテクトが現在、GroqではなくNVIDIAの組織図の中にいます。自社の定義となる知的財産が流出したばかりの企業に、トップクラスのシリコンおよびシステムエンジニアを採用するには、LPUの栄光の時代への郷愁ではなく、説得力のある新しい論を必要とします。
Groqは純粋なAI推論プラットフォームへのピボットを試み、高度な抽象化に特化することができます:管理されたランタイム、超低遅延ストリーミング、金融ティックデータやマルチプレイヤーゲームのような専門的なワークロードです。また、ハイパースケーラーを信頼せず、より小規模で柔軟性のあるベンダーを求めるエッジおよびオンプレミスの顧客を追求することもできます。
長期的な成功は、GroqがNVIDIAがすぐに模倣したり、流通面で上回ったりできない、本当に新しいものを提供できるかどうかにかかっています。もしGroqCloudがNVIDIAが実質的に制御し、グローバル規模でマーケティングを行う技術の単なるブランド化されたフロントエンドに過ぎないなら、Groqは歴史の足跡として縮小してしまう危険があります—NVIDIAの推論支配への上昇における巧妙な規制の回避策として。エドワーズがその微妙な独立性を、より速く、奇妙なアイデアを生み出すラボに変えることができれば、Groqは次のハードウェアサイクルでもまだ重要であるかもしれません。
NVIDIAの転換:GPUの王からAIシリコンの皇帝へ
NVIDIAはもはやGPU企業であるふりをやめました。20億ドルの投資をしたGroqのLPUアーキテクチャは、ライセンス契約と人材のリクルートで構成されており、AIシリコンのあらゆる重要部分を所有する方向への転換を示しています。GPUはAIブームを築いたが、超専門化されたアクセラレーターがNVIDIAの次の戦略を支える計画です。
一度きりのトロフィー契約ではなく、これはより広範なAIシリコンの土地争奪戦の第一段階のようです。NVIDIAはすでに、トレーニング用のH100およびB200、メモリバウンドワークロード用のグレース・ホッパー、Mellanox買収によるネットワーキングシリコンを販売しています。GroqのIPは、超低遅延で決定的なスケールでの推論という欠けていた部分を埋めるものです。
競合他社はこの戦略を内部で何年も実行してきました。GoogleはデータセンターのGPUボトルネックを解消するためにTPUを開発しました。AmazonはAWSのコストを調整するためにTrainiumとInferentiaを導入しました。AppleのNeural EngineはすべてのiPhoneをオンデバイス推論ボックスに変えました。NVIDIAの動きは、これらのカスタムチップに負けるのではなく、自社の特化したポートフォリオで対抗するというメッセージを発しています。
NVIDIAは現在、「どこにでもGPU」というスタックから、AIの各フェーズに応じたシリコンのメニューのようなスタックを追求しています: - トレーニング:高スループットGPUおよびGPU隣接アクセラレーター - ファインチューニング:メモリ最適化された混合精度部品 - 推論:LPUおよびその他のレイテンシ重視の設計 - ネットワーキングと相互接続:NVLink、InfiniBand、カスタムスイッチ
推論経済がこの変化を促しています。トレーニングは時折行われますが、推論は24時間365日、数十億のクエリにわたって実行されます。Groqは主要な推論ベンチマークで報告された2~3倍のスピードアップを、決定論的な実行と結び付け、クラウドプロバイダーや企業にとってトークン当たりのコスト削減と高いマージンにつながります。
規制当局はライセンス契約を目にし、顧客は統一されたNVIDIAのハードウェアロードマップを見ることになります。ジョナサン・ロスとグロクの優秀なエンジニアリングタレントの多くを社内に引き入れ、非独占的な知的財産をライセンスすることで、NVIDIAは全体的な独占禁止法の闘争を引き起こすことなく、知恵と設計図を手に入れます。グロクはブランドとして生き残りますが、NVIDIAが重力の中心を制御します。
NVIDIAは、AIインフラストラクチャの「デフォルトの選択肢」として自社の優位性をさらに強化しています。もし、GPU、LPU、そして今後登場するものに対して、単一のソフトウェアスタック(CUDA、TensorRT、Triton)を提供できれば、Google TPU、AWS Trainium、またはカスタムASICへの切り替えが一層困難になります。ハードウェアの多様性、ソフトウェアのロックイン。
この背景を考慮すると、Groqとの契約は単なる機会主義のようには見えず、むしろ憲法の起草のように映ります。NVIDIAは、AIの基盤となるハードウェア層として自らを位置づけており、すべてのチャットボット、コパイロット、自律エージェントの下にあるシリコン基盤です。細かい点を追っている人にとっては、NVIDIAがGroqとの戦略的ライセンス契約を発表しAI推論を加速するというニュースは、プレスリリースというよりも帝国の宣言のように思えます。
あなたのAIの未来は信じられないほど速くなりました。
あなたのAIアプリは、ロードバーを失うためのロードマップを静かに手に入れました。NVIDIAの200億ドルのGroq契約は、AIを感じるその瞬間、つまりエンターを押してから回答が得られるまでの間隔を狙っています。その間隔が推論であり、GroqのLPUアーキテクチャはそれを排除するために存在しています。
今日の最大のモデルは、ハードウェアとネットワークに応じて、トークンごとに30~800ミリ秒で応答することがよくあります。Groqのハードウェアは、主要なベンチマークで2~3倍の高速推論をすでに実証しており、一部の公開デモでは秒間数百トークンのストリーミングを実現しています。それをNVIDIAのスタックに組み込むと、ウェブサイトのようではなく、会話のように感じるチャットボットが生まれます。
リアルタイムアシスタントはマーケティング用語を超え、システムコールのように機能するようになります。想像してみてください: - 50ミリ秒以内に応答し、人間の中断と区別がつかない音声アシスタント - 不自然なバッファリングなしで速いスピーチに追いつくリアルタイム翻訳 - シーンごとではなく、フレームごとに即興でダイアログや戦略を展開するゲーム内NPC
オンデバイスAIが次の利益を得ることになります。NVIDIAがGroqスタイルの推論をより効率的なシリコンに押し進めることで、クラウドGPUからローカルチップへの作業をもっとオフロードできるようになります。これにより、複雑な要約やマルチドキュメント検索、ビデオ理解が、ほぼゼロの知覚遅延でノートパソコン、コンソール、または車のダッシュボード上で実行できるようになります。
開発者は最大のクリエイティブな解放を得ます。レイテンシーが数百ミリ秒から数十ミリ秒に減少すると、より多くのモデルを連鎖させたり、並列でより多くのエージェントを実行したり、ユーザーが離脱することなく密接なインタラクションループを維持したりすることができます。AIコパイロットを搭載したIDE、リアルタイムのリサーチアシスタント、適応型チュータリングシステムなど、全く新しいカテゴリが、テクノロジーデモのようではなく、スケールで実現可能だと急に感じられるようになります。
低遅延はコストとも絡んできます。より速い、より専門的な推論用のシリコンは、ワットあたりおよびドルあたりのクエリ数を増やします。これは、開発者が「常時オン」にするにはコストが高すぎた機能、例えばバックグラウンド推論、継続的なドキュメントモニタリング、または大規模オンライン世界における持続的なNPCメモリを実装することを促進します。
競争は停滞しない。AMD、インテル、グーグル、そして数多くのスタートアップは、超高速推論が戦場であることを示す200億ドルのシグナルを受け取っている。このAIハードウェアの軍拡競争は、単にモデルをよりスマートにするだけでなく、真の即時で環境的なAIを予定よりも数年前に主流デバイスに引き込むことになる。
よくある質問
NVIDIAは実際にGroq社を買収しましたか?
いいえ。NVIDIAは、Groqの知的財産を非独占的にライセンスし、創設者のジョナサン・ロスを含む重要な人材を採用するために200億ドルの契約を構築しました。これにより、Groqは独立系企業として残ることができ、主に独占禁止法規制を回避することができます。
グロックLPUとは何ですか?そして、NVIDIA GPUとはどのように異なりますか?
LPU(言語処理ユニット)は、AI推論のために特別に設計されたカスタムチップです。推論とは、AIモデルを実行して答えを得る作業を指します。GPUはより汎用的であり、伝統的にAIトレーニングに優れていますが、これは異なる、より計算集約的なプロセスです。
なぜAI推論が収益においてAIトレーニングよりも重要なのか?
モデルのトレーニングは、一度限りまたは時折行う大規模な作業ですが、推論はユーザーが質問をしたりAI機能を使用するたびに発生します。数十億人が毎日AIを利用する中、推論の操作回数はトレーニングの操作回数を指数関数的に上回り、スケーラブルで長期的な収益の最大の源となります。
ジョナサン・ロスとは誰ですか?
ジョナサン・ロスはGroqの創設者で、そのLPUテクノロジーの発明者です。Groqを始める前は、Googleの主要エンジニアとして働いており、Googleの独自のカスタムAIチップであるテンソル処理ユニット(TPU)を発明しました。