OpenAIの「ガーリック」モデル：コードレッドリークがGPT-5について明らかにすること

💡

TL;DR / Key Takeaways

大規模なリークにより、OpenAIがGoogleに対抗する秘密の軍備競争に関与しており、王座を取り戻すために「Garlic」と呼ばれる新しいモデルを開発中であることが明らかになりました。一方、AppleやMicrosoftなどはリアルタイムAIを永遠に再定義する画期的な技術を発表しています。

OpenAIの壁内の警報ベル

オープンAIの内部ダッシュボードがGoogle Gemini 3が高リスクのベンチマークでオープンAIの旗艦を上回る様子を示すと、アラームベルが鳴り始めました。漏れたメモによると、サム・アルトマンはGemini 3が人気のあるLLMリーダーボードのトップに達した後、オフィスに入って会社全体に「コードレッド」を宣言しました。このフレーズはシリコンバレーで重要な意味を持ちます。それは、単なる製品サイクルではなく、存在の脅威を示唆しています。

舞台裏で、幹部たちはGemini 3を競合製品としてではなく、OpenAIのデフォルトのAIプロバイダーとしての地位に対する構造的リスクとして扱い始めた。エージェント、広告、投機的な機能を試していたチームは、突然その計画が書き換えられた。人員、GPU、社内の優先順位はすべて、一つの命令に向けてシフトした：直接的で圧倒的な反応を構築すること。

その応答には今、コードネームが付けられています: ガーリック。内部ブリーフィングで、最高研究責任者のマーク・チェンは、ガーリックをマイナーな改良ではなく、新しいモデルラインと説明しました。OpenAI内部での初期評価では、ガーリックが要求の厳しい推論やコーディングテストにおいて、ジェミニ3やアンソロピックのオーパス4.5を上回っているとの報告があります。これらのテストは、数週間前まで最先端を定義していました。

コードレッドの状態は、より広い現実を浮き彫りにします：OpenAIの優位性はもはや避けられないものではなくなりました。Google、Anthropic、Mistral、DeepSeek、そしていくつかの中国の研究所が革新のギャップを縮め、パラメータ数以上の性能を発揮する小型で安価なモデルを展開しています。Gemini 3がLMアリーナスタイルのランキングの頂点に上り詰めたことで、OpenAI内部には、同社がある朝目覚めたときに単に業界最高とは言えなくなるかもしれないという恐れが crystallized（具体化）しました。

ガーリックの急速な誕生は、突然の攻撃性を説明しています。OpenAIは、モデルがまず広範な構造を学び、その後に細かな詳細を学ぶように事前トレーニングパイプラインを再設計したと報じられています。このシフトは、よりスリムなシステムに多くの能力を詰め込むことを目的としています。このアーキテクチャへの賭けは、緊急レベルのリソース投入と相まって、ガーリックを単なる製品のアップグレード以上のものにしています。OpenAIが追いついてきた分野で依然として革新を続けられるかどうかのストレステストとなるのです。

「ガーリック」に出会う：グーグルを打ち負かす秘密の武器

ガーリックは、OpenAIが失いたくないモデルです。社内では、スタッフたちはガーリックを、ジェミニ 3によってOpenAIがLMアリーナのチャートから押し出され、防御的な立場に立たされた後、基準となるリードを取り戻すためのシステムとして説明しています。内部評価について報告を受けた人々によれば、ガーリックはすでに要求の厳しい推論やコーディングスイートにおいて、ジェミニ 3やAnthropicのオーパス 4.5を上回っているとされています。最近数ヶ月間で、これらは事実上のゴールドスタンダードとなっていました。

これらのテストは、おもちゃのパズルではなく、マルチステップのロジック、ツールを使用するエージェント、および実世界のソフトウェアタスクに焦点を当てています。Garlicは、隠れたユニットテストをより多く解決し、長くてバグのない関数を記述し、延長されたコードベース全体で一貫性を維持するとのことです。OpenAI内部では、そのパフォーマンスは自慢の材料としてではなく、生存要件として扱われています。

ガーリックの秘密のソースは、再構築された事前トレーニングパイプラインにあります。初日からすべての微細なトークンレベルのパターンをネットワークに詰め込むのではなく、新しいパイプラインはモデルにまず広範な概念、高水準の構造、そしてグローバルな関係を内面化させることを強制します。その後、通常のトレーニングを膨張させる微細な詳細が注入されます。

そのシフトは微妙に聞こえますが、特定のパラメータ予算に収まる知識の量を変えます。にんにくは、微細なトリビアの前に粗い概念マップを優先することで、より多くの世界知識、API、およびドメイン固有のルールを、今日の最前線のシステムよりも小さく、安価なモデルに圧縮できます。エンジニアたちは社内でこれを「パッキング密度を11に上げた」と表現しています。

これは学術的な試行錯誤ではなく、新しい世代のハイパー効率的な競合に対する直接の対応です。Mistral、DeepSeek、およびいくつかの中国の研究グループが、コーディング、エージェント、数学において、そのクラスを大きく上回る性能を発揮するコンパクトなモデルを次々と提供しています。彼らのアピールはシンプルです：コストと待機時間のわずかな部分で、ほぼ最前線のパフォーマンスを提供します。

OpenAIはそれを無視できません。小型で高密度のモデルは次のことを意味します： - ChatGPT規模のトラフィックにおける推論コストの低減 - エージェントやコパイロット、音声インターフェースのための応答速度の向上 - エッジハードウェアやパートナーインフラストラクチャへの展開の容易化

ガーリックは、OpenAIの他の内部ライン「シャーロットピーク」とは異なる位置にあり、別の事前学習の失敗をターゲットとしています。現在、複数のモデルファミリーが同じ会社の中で競い合っており、すべてがGoogleが次のアップグレードを出す前にジェミニ3を超えようとしています。

タイミングについて、OpenAIのチーフリサーチオフィサーであるマーク・チェンは、「できるだけ早く」という単一の目標を示したと報じられています。社内では、スタッフはそれを2025年初頭の攻撃的なローンチウィンドウと解釈しており、ガーリックのパイプラインはすでにその後に続くものに繋がっています。

AIの軍拡競争が永遠に変わった

コード生成ベンチマーク、推論リーダーボード、LMアリーナチャートは、すべて同じことを示しています：生のパラメータ数はもはやチートコードではありません。最前線の研究所は、誰もが推論コストが急増し、規制当局が接近する中でモデルサイズを倍増し続ける余裕がないため、効率性、レイテンシー、専門スキルを追求しています。

ガーリックはその中心に位置しています。内部のブリーフィングによると、OpenAIは事前トレーニングのパイプラインを再構築し、モデルがまず広範な構造を学び、その後で詳細にフォーカスするようにしたため、より少ないパラメータとトークンに多くの知識を詰め込むことが可能になりました。これにより、ガーリックは前のモデルよりもトレーニングコストが低く、実行速度も速くなっています。

そのシフトは哲学的なものではなく、経済的な生存のためのものです。MistralやDeepSeek、そしていくつかの中国の研究所のようなオープンソースプロジェクトは、コーディングや推論タスクでGPT-4クラスに近い性能を発揮する7Bから70Bパラメータのモデルを出荷しており、A100のラックではなく、単一のハイエンドGPUで動作します。

小型のモデルが最先端に近づくにつれ、「APIの背後にある巨大なクローズドモデル」という古いビジネスモデルが揺らぎ始めます。スタートアップがローカルモデルからGPT-4の90〜95%のクオリティを得ることができれば、OpenAIはスピード、信頼性、および独自の機能において劇的な利点を示す必要があります。

ガーリックは再調整を示しています。OpenAIは複数のモデルラインを同時に運用しており、それらはGoogle Gemini 3やAnthropic Opus 4.5だけでなく、お互いをも競争させています。この内部競争は、最近のOpenAIリサーチの投稿で記録されたトレーニングデータ、アーキテクチャ、サービングスタックの積極的な最適化を促しています。

競争する哲学が同時に強化されています。OpenAIは能力の限界を追求し、首位を維持するための代償として、Code Redスタイルのドラマと迅速な反復を受け入れています。

Anthropicは対照的に、企業の安全性と予測可能性に重点を置いています。ダリオ・アモデイはリーダーボードの競争を公然と軽視しており、クラウドのコードスイートは、発売からわずか6ヶ月で年間売上10億ドルの実績を上げたと報告されています。これは、単なる派手さよりも信頼性を売りにしていることを示しています。

Appleはまったく異なるゲームを展開しています。そのCLaRaシステムは、大規模な文書を超高密度のメモリトークンに圧縮し、取得と生成を行います。この動きは、すべてのワットとミリ秒が公的なベンチマークを上回ることよりも重要な、デバイス上での低遅延AIに沿ったものです。

AppleのCLaRaによる静かな攻撃

OpenAIがSlackで自らと論争している間に、Appleは静かにCLaRaと呼ばれる40ページの研究論文を発表しました。CLaRaは、Compressive Language-aligned Representationsの略です。基調講演も「もう一つのこと」もなく、ただ、モデルが与えられた情報を記憶するための根本的に異なる方法を説明した論文です。

従来の大規模言語モデルは、大量のテキストを巨大なコンテキストウィンドウに押し込むことで、長文を力任せに処理します。そのアプローチはコストが線形に増加します。トークンが増えるほど、GPUの使用時間やメモリが増加し、数万から数十万語にわたって注意力が急速に低下します。

CLaRaは、広大な文書を小さなメモリトークンの束に変えることで、その流れを一新します。何千という言葉の代わりに、このシステムはコンテンツを密なベクトルのコンパクトなセットに抽出し、重要な意味的構造—誰が何を、いつ、なぜ行ったのか—を保っています。

これらのメモリトークンは、リトリーバーとジェネレーターの両方が使用する共有スペースに存在します。質問をすると、モデルはPDF全体を再読み込みせず、これらの圧縮されたトークンのうちのいくつかを引き出し、それに基づいて直接推論を行います。高価なフルテキスト再生をスキップします。

Appleの研究者は、圧縮が一般的なLLMに取り付けられた損失のある後付けではないように、検索と生成を共同でトレーニングします。このモデルは、自らの記憶を圧縮し、再読み取りすることを学び、保存される情報と実際に下流の質問に答えるために必要な情報を整合させます。

その共同訓練が重要なのは、ナイーブな圧縮が通常、ニュアンスを失わせるからです：日付がずれ、条件が消え、エッジケースがぼやけてしまいます。CLaRaの評価は、注意深く学習されたメモリトークンが、トークン数を桁違いに削減しながら、質問-回答の正確性を全文ベースラインに近い水準で維持することを示しています。

書面上では、これはオンデバイスAIに最適なように見えます。iPhoneやMacは、すべてのクエリで200,000トークンのコンテキストを巨大なトランスフォーマーを通じてストリーミングすることはできませんが、ドキュメントごとに数百のメモリトークンは突然、厳しいRAM、帯域幅、電力の制約内に収まります。

Appleのより広範なAIストーリーはOpenAIやGoogleに比べると控えめに見えますが、CLaRaはクパチーノが歴史的に勝ってきたポイントにぴったりと合致しています：洗練された圧縮、冷淡な効率性、そしてハードウェアを意識したデザインです。もしこれが紙から製品へと移行すれば、Spotlight、Mail、Notesは自社のシリコン上で完全に動作する圧縮された長期記憶のテストベッドとなります。

CLaRaがAIメモリーのルールを書き換える方法

CLaRaは、一見単純なアイデアから始まります：圧縮、検索、および生成を一つの連続した計算グラフとして扱うことです。ベクトルデータベースを言語モデルに付け加えるのではなく、Appleはコンプレッサー、リトリーバー、およびジェネレーターを共同でトレーニングし、これらが一つの協調した脳のように機能するようにしています。

トレーニング中、CLaRaは単に文書を要約するだけでなく、その要約が後にどのように検索され、質問に答えるために使用されるかを学習します。このシステムは、「モデルは正しく答えたか？」という点でエンドツーエンドを最適化し、「埋め込みが数学的に見栄えが良いか？」という点では最適化しません。この変化は、AIの記憶がどのように機能するかを静かに再定義します。

従来のリトリーバル拡張生成パイプラインは、密な埋め込み、キーワード検索、長文コンテキストデコーディングという三つの互換性のない目標を扱っています。CLaRaはこれを共有のメモリトークンスペースに統合し、すべての圧縮されたチャンクが言語モデルの意味の内部表現と直接的に整合されるようにしています。

コンプレッサーとジェネレーターがこの潜在空間を共有しているため、CLaRaは、下流の推論にとって最も有用な状態を保ちながら、非常に効率的なエンコーディングを学習することができます。その後、リトリーバーは、ジェネレーターが展開する方法を知っている正確な圧縮トークンを引き出す専門家となります。

Appleの論文によると、CLaRaはマルチホップQAおよび長文タスクにおいて、最先端の圧縮システムを上回っており、はるかに少ない入力トークンを使用しています。いくつかのベンチマークでは、CLaRaはソース文書を桁違いに縮小しても、回答の正確性を維持または向上させています。

従来のシステムが20,000トークンの生のテキストをコンテキストウィンドウに詰め込むのに対し、CLaRaは数百のメモリートークンから作業し、なおかつより高いスコアを達成できます。これは直接的に、遅延の短縮、コストの削減、モバイルまたはデバイス上での展開のための余裕を大幅に増加させることに繋がります。

ベンチマークによると、CLaRaは階層的要約器やRAGパイプラインに投入されるスタンドアロンの埋め込みモデルなど、主要な文書圧縮ツールよりも優れています。Appleは、CLaRaの圧縮された表現が長いコンテキストを力任せに扱うフルテキスト検索のベースラインを一貫して上回ると報告しています。

それらの結果は、現行のLLMインフラにとって不快な真実を示唆しています：より賢いメモリがより多くのメモリに勝る可能性があるのです。CLaRaのアプローチが一般化するなら、単により大きなコンテキストウィンドウやより大きなGPUを購入することは、勝利の戦略ではなくなります。

Appleは単にPDFを公開して終わりにはしませんでした。CLaRaパイプラインの重要なコンポーネントをオープンソース化することによって、同社は研究者たちに自社のメモリーシステムを既存のLLMスタックに組み込んでもらい、実際の製品でストレステストを行うことを促しています。

戦略的には、その動きはiOS、macOS、そしてvisionOSのための基盤作りに見え、ユーザーデータをコンパクトかつプライベートにデバイス上に記憶するシステムレベルのAIを実装する準備が整っているようです。CLaRaのような統一された圧縮メモリレイヤーは、Spotlight、Siri、Notes、Mail、そしてAppleがその将来のChatGPTライバルに呼ぶであろうものにほぼ完璧に組み込まれるでしょう。

マイクロソフト、AIの気まずい沈黙を打破

気まずい沈黙は、常に音声アシスタントを機械として暴露してきました。質問を投げかけると、遠くのデータセンターが応答を生成する間、無音の時間が続きます。マイクロソフトは今、その間の空白を実質的に排除したと主張しています。

新モデルのVibeVoiceは、クエリの終了から300ミリ秒以内に話し始めるリアルタイムのテキスト読み上げシステムです。この300ミリ秒未満の予算には、ネットワークの遅延、モデルの呼び出し、音声ストリームの立ち上げが含まれており、応答時間を人間のターンテイキングの領域に押し込んでいます。

VibeVoiceは「話しながら考える」モードで動作します。大規模言語モデルがトークンをストリーミングする間、TTSスタックは最初の数トークンを即座に音声に変換し、その後、より多くのテキストが到着するにつれて音素を重ねていきます。このパイプラインは完全な文を待つことがないため、スピーチは切れた感じではなく、連続的に聞こえます。

そのアーキテクチャは、Teams、Copilot、およびXboxにおけるAIエージェントの厳しいUX問題を解決します。1〜2秒の遅延はコールセンターのIVRと会話しているように感じられ、200〜300ミリ秒の遅延は人間が息をするのを待つように感じられます。マルチプレイヤーゲームやライブミーティングでは、その余分な秒数がAI機能を実用不可能にしてしまうことが多いのです。

このシステムを機能させるために、Microsoftは従来のTTSの保証のいくつかを応答性と交換しました。音調、イントネーション、さらには単語の選択が文の途中で調整されることがあり、LLMが計画を修正するため、VibeVoiceは可能な続きの予測を行い、リアルタイムで修正します。このシステムは、完璧なテキストの忠実度よりも待機時間を優先しています。

その戦略は、業界全体のリアルタイムエージェントへの推進を反映しています。アリババのストリーミングキャラクターシステムLive Avatar by Alibabaは、終わりのないビデオプレゼンスを追求し、テンセントのHunyuanVideo 1.5は迅速なローカル生成を目指しています。マイクロソフトの賭けは、AIがほとんど遅延なしに話せるなら、ユーザーは表現の軽微な不具合を容認するだろうというものです。

OpenAI、Apple、そして中国の研究所にとって、それは基準を引き上げることになります。生の推論能力やコーディングのベンチマークは重要ですが、もしあなたのエージェントが、ほぼ瞬時に反応するVibeVoiceアシスタントと比べて遅くまたはロボット的に感じられると、ユーザーはすぐに気づくでしょう。

東が目覚める：アリババの無限アバター

中国から、アリババがまるで実験室の好奇心ではなく、今後5年間の製品ロードマップのように見えるものを発表しました：ライブアバター。いくつかの中国の大学と共同で開発されたこのシステムは、まるでリアルなビデオ通話のように感じられる話すデジタルヒューマンを生成します。つぎはぎのディープフェイク映像とは異なります。

Live Avatarの核心には、リアルタイムで20フレーム毎秒以上の速度で完全にアニメーションされたフォトリアルなアバターが動作しています。マイクに話しかけると、アバターが瞬時に反応し、口の動きや微細な表情、頭の動きを低遅延で同期させます。これは従来のテキストからビデオへのモデルよりも、FaceTimeに近い感覚です。

ほとんどの動画AIは数十秒を超えると崩壊します。顔が揺れ、アイデンティティがぼやけ、ライティングがちらつき、不気味の谷が崖のようになります。Live Avatarはこの「長時間動画の劣化」に真っ向から対抗し、通常のアイデンティティ崩壊や視覚的な混乱なしに10,000秒、つまり約3時間のストリーミングを実現しました。

そのような安定性はAI動画の経済を変えます。広告や短い説明用の15秒のクリップの代わりに、同じデジタルホストが目を合わせ、一貫した表情を維持し、チャットやスクリプトの変更に自然に反応しながら無限のAI駆動のライブストリームを行うことができます。

アリババのデモシナリオは、eコマースに非常に重点を置いています。製品を止まることなくプレゼンテーションできるバーチャルプレゼンターが、タオバオスタイルの配信で仕様に関する質問に答えたり、トーンや言語を即座に調整したりします。ホストがすでに数時間にわたるマラソン配信を行っている中国のライブストリーミングショッピングにおいて、疲れたり失敗したりしないAIの代役は明らかに次のステップのように見えます。

しかし、同じ技術は他の役割にも適切に適用されます： - ニュース、スポーツ、天気のための永続的なバーチャルアンカー - 常に若く、スポンサーをスキャンダライズしないブランドのデジタルインフルエンサー - 銀行、医療、旅行アプリに組み込まれた常時対応のサポートエージェント

内部では、Live Avatarは中国のラボが単なるモデルサイズの競争だけでなく、商業用のマルチモーダルシステムの開発に取り組んでいることを示しています。数時間にわたって問題なく会話できるフォトリアルなアバターは、単なるグラフィックの自慢ではなく、次のAIプラットフォームの波で人間の存在、労働、注意がどのように媒介されるかへの直接的な挑戦です。

永遠にストリーミングされるAIのカーテンの裏側

アリババの華やかなライブアバターのデモの裏には、静かに厳しいエンジニアリングの課題があります。それは、AI生成の顔を数時間安定させ、異様な混乱に陥らせないようにする方法です。研究チームによると、その答えは三つの絡み合った手法にあります：Rolling RoPE、Adaptive Attention Sync、そしてHistory Corruptionです。これらを組み合わせることで、脆弱な拡散パイプラインがGIFジェネレーターというよりも放送エンジンのように振る舞うものに変わります。

従来の位置エンコーディングは、シーケンスが数万トークンに達すると崩壊します。モデルは「いつ」物事が起こるのかを見失ってしまいます。Rolling RoPEは、ストリームが成長するにつれて回転位置埋め込みを継続的に再中心化することでこれを修正します。位置インデックスが無限に漂流するのを見守る代わりに、モデルは常にスライドする時間ウィンドウ内で推論を行うため、口の動き、頭の回転、まばたきが現在の瞬間にロックされたままになります。

アイデンティティは第二の失敗モードです：開始時にひとつの参照フレームを残すと、20分後にはアバターが遠い親戚のように見えてしまいます。アダプティブアテンションシンクは、モデルの「アンカー」画像を定期的に更新することでこれに対処します。このシステムは、新たに生成された高忠実度のフレームを注意スタックに戻し、新しい参照として利用します。そのため、アバターの顔や照明、髪型が数時間にわたるセッションの間に漂流することがなくなります。

そのリフレッシュループは、コンテンツに合わせたスケジュールで実行されます。速く表現豊かなスピーチや迅速な頭の動きは、より頻繁な同期を引き起こします。一方、落ち着いたセグメントでは、より少ない同期で済みます。実際には、Live Avatarは構造的類似性スコアを高く保ち、顔の埋め込み距離などのアイデンティティメトリクスを時間の経過に伴って驚くほど平坦に保ちながら、数十分から数時間ストリーミングすることができます。

第三の手法は直感に反するように聞こえます: 意図的にモデルの過去を壊すことです。トレーニング中に、歴史の破損が文脈の歴史に小さくても現実的なグリッチを注入します： - 音声と以前のフレームの間のわずかなズレ - ぼやけた顔や部分的に隠れた顔 - 圧縮のようなアーティファクトや時間的なジャンプ

歴史が混乱したときに崩れるのではなく、このモデルは次のフレームでクリーンで安定した姿に戻ることを学びます。その堅牢性こそが実際の展開に必要なものです：パケットロス、ビットレート低下、またはフレームの欠落は、もはや超現実的で歪んだアバターに連鎖することはありません。

テンセントがデスクトップに動画スタジオを提供します

クラウドラボはより多くのGPUを積み上げる競争を続けていますが、テンセントはこれを覆すものを発表しました: HunyuanVideo 1.5。これはデータセンターを所有している前提を持たない高性能な動画生成ツールです。83億のパラメータのみで、このモデルは多くの西洋の動画システムをサイズで桁違いに下回りながら、鮮明で一貫したクリップを生成します。

ソラ、クリン、ライブポートレートのような競合がしばしばクローズドベータや大規模な推論クラスターの裏に隠れているのに対し、テンセントはGitHubでウェイトとツールを公開しています。同社はHunyuanVideo 1.5を実用的な作業馬として位置づけています：短いプロンプトを入力すれば、1080pの複数秒のビデオが出力され、一貫した被写体、安定した動き、そしてはるかに大きな拡散型およびトランスフォーマーハイブリッドに匹敵する鮮明なテクスチャを実現します。

その8.3Bパラメータのフットプリントは重要です。この規模では、Tencentは単一のハイエンド消費者向けGPUをターゲットにでき、クリエイターがBlenderやUnrealで使用するようなものであり、マルチノードのA100やH100リグではありません。中国の研究者からの初期ベンチマークは、RTXクラスのカードでクリップあたり数秒で測定される生成速度を示しています。

アクセシビリティは、テンセントの戦略の中心に位置しています。企業向けのAPIの背後にモデルをロックする代わりに、同社はTencent HunyuanVideo 1.5を通じてコード、設定、サンプルパイプラインを提供し、インディーズ開発者やYouTuberがそれをローカル編集スタック、VTuberのワークフロー、カスタムゲームアセットツールに統合できるよう招待しています。

ここでの民主化は単にコストの問題ではなく、ワークフローの制御に関するものです。ローカルでの動画生成により、クリエイターは次のことが可能になります： - レート制限やコンテンツフィルターなしで反復作業ができる - 公開していない映像や知的財産を第三者のサーバーに保管しない - プログラム的に全ショットリストをスクリプト化する

巨大な最前線モデルにこだわる年に、テンセントはスピード、ローカリティ、所有権が他の抽象的なリーダーボードの勝利よりも働くアーティストにとって重要になると賭けています。8.3Bのパラメータでスタジオ品質の映像をデスクトップGPUで提供できるなら、AI動画の重心はハイパースケールクラウドからクリエイター自身のマシンへとシフトするかもしれません。

新しい戦場：スピード、記憶、そして現実

コードはもはやAIレースを定義する唯一の要素ではなく、レイテンシがそれを決定します。マイクロソフトのほぼゼロ遅延のリアルタイムTTSは、音声モデルをぎこちないナレーターから生きた会話エージェントに変え、応答のギャップを数十ミリ秒にまで短縮します。この変化は、アシスタントを待つボットではなく、常に対話する存在として再定義します。

AppleのCLaRaは異なるボトルネック、つまり文脈に攻撃を仕掛けます。膨大な文書を小さな高忠実度のメモリトークンに圧縮し、圧縮器、検索器、生成器を1つのシステムとして訓練することで、CLaRaは長文脈推論のコストを大幅に削減します。100,000トークンをウィンドウに詰め込むのではなく、モデルは生のテキストではなくエンベディングのように振る舞うコンパクトな表現を扱います。

アリババのライブアバターは、対極にある安定性を推進します：無限で一貫したビデオです。ロールリングRoPE、適応型アテンションシンク、およびヒストリーコラプションにより、アバターは古い拡散パイプラインが陥る遅延やアーティファクトの蓄積なしに何時間でもストリーミングできます。長形式生成は単なるおもちゃのデモではなく、放送スタックのように見えるようになります。

OpenAIの内部でのコードレッドは、ガーリックがこれらのトレンドの真っ只中にあることを示しています。ガーリックは、ジェミニ3やオーパス4.5における推論やコーディングのベンチマークに勝つことだけではなく、フロンティアレベルのパフォーマンスを維持しながらも、より小型で密度の高いモデルをターゲットにしています。つまり、より迅速な応答、低い推論コスト、そして遅延に溺れることなく音声、ツール、ビジョンを追加する余地があるということです。

中国のラボは、並行してビデオに取り組んでいます。アリババのライブアバターやテンセントのHunyuanVideo 1.5は、10万ドルの推論ボックスではなく、一般的なGPUで動作する高品質なクリップやアバターを表示しています。デスクトップをそれなりのビデオスタジオに変えることができる1.5シリーズのリリースがあると、西洋のビジュアルモデルにおける優位性は脆弱に見えます。

ユーザーにとって、この多面的な戦争は一つの体験に集約されます。それは、即時性があり、持続的で、埋め込まれたAIです。アシスタントは間を置くことなく応答し、圧縮された文脈を通じて広範な履歴を記憶し、あなたのストリームが続く限り、動画やアバターを生成します。2023年にはサイエンスフィクションのように聞こえたタスク—ライブAIプレゼンター、デバイス内動画ツール、数ヶ月にわたるプロジェクトを追跡するエージェント—は今や四半期で測られる製品ロードマップの上に位置しています。

よくある質問

OpenAIの「Garlic」モデルとは何ですか？

ガーリックは、OpenAIによって開発された新しい未発表のAIモデルであり、競合他社であるGoogleのGemini 3を超える高度な推論やコーディングタスクを目指して「コードレッド」イニシアティブの下で開発されたと報じられています。

AppleのCLaRaは他のAIシステムとどのように異なるのか？

CLaRaは、大規模な文書を小さく、超高密度の要約に圧縮するメモリートークンシステムです。これにより、AIは膨大な量のコンテキストを非常に効率的に処理でき、デバイス上でのアプリケーションに最適です。

音声AIにおけるレイテンシを排除することがなぜ重要なのか？

AI音声応答の遅延を排除することは、マイクロソフトのVibeVoiceが目指しているように、インタラクションを自然で瞬時のものに感じさせます。これは、真に会話型のAIエージェント、アシスタント、リアルタイムサポートツールを作成するために重要です。

アリババとテンセントのモデルはどのような新しい機能を導入していますか？

アリババのライブアバターは、品質を損なうことなく数時間にわたってフォトリアルなアバターをストリーミングできる機能を提供し、デジタルインフルエンサーやライブコマースにとって画期的な成果です。テンセントのHunyuanVideo 1.5は、消費者向けハードウェアで動作する強力かつ効率的な動画生成ツールであり、高品質なAI動画制作を民主化しています。

𝕏 in ↑↗

OpenAIのコードレッド：『ガーリック』モデルが登場予定です