TL;DR / Key Takeaways
なぜOpenAIは「コードレッド」を宣言したのか
コードレッドがオープンAIの受信箱に到達し、サム・アルトマンからの内部メモが回覧されたと、事情に詳しい関係者が語った。このメモは、同社がグーグルの最新のAI推進を単なる製品サイクルの一環として扱うべきではないと警告していた。そのメッセージは、ジェミニの急成長とグーグルの研究の急激な進展が、もはや背景の雑音ではなく、存在を脅かす競争上の脅威に転じたということだった。
OpenAIの内部では、このメモは不安な数字が背景にあった。新しいサードパーティのデータによると、Geminiの月間アクティブユーザーはChatGPTよりも速いペースで増加しており、GoogleはAndroid、Search、Chromeの配信を活用して、数十億台のデバイスでの利用を促進している。
Googleは、防御的な姿勢をやめました。わずか数週間で、同社は長い文脈のメモリのためのTitanとMIRASを導入し、より安価な画像モデルであるNano Banana 2 Flashを準備し、ユーザーの携帯電話でAIが生成したニュースの見出しを静かにテストする一方で、GeminiをWorkspaceやAndroidにより深く押し込んでいます。
これらの動きは単独では存在しません。共に組織的な攻撃を形成しています:トランスフォーマーの核心的な弱点を解決する研究のブレークスルー、競合他社のコストを下回る製品化されたモデル、そしてGoogleのモバイルとウェブに対する制御を活用する流通戦略です。
OpenAIにとって、Geminiの成長曲線は最も大きな警鐘かもしれません。ChatGPTは依然として意識の中での支配力を持っていますが、Googleがデフォルトの統合を通じてユーザーを自動でオンボードできる能力は、たとえ少し弱いモデルであっても、より多くの視線を受ける機会が増えれば勝利を収める可能性があることを意味しています。
その脅威は、GoogleリサーチがOpenAIの技術的優位性に少しずつ迫り始めた矢先に到来します。タイタンの新しいLangzeitgedächtnisächtnisシステムは、2百万トークンを超えるコンテキストウィンドウを主張し、長いシーケンステストでGPT‑4およびLlama‑3.1‑70Bに対してベンチマーク勝利を収め、Googleが計算予算を圧迫することなく広範な履歴を処理できることを示唆しています。
アルトマンのメモは、チームに次のモデル「ガーリック」と名付けられた製品の開発を加速し、OpenAI自身のエージェントやメモリシステムをどれほど早く出荷できるかを再評価するよう促していると報じられています。懸念されているのは、ユーザーを失うだけでなく、より賢いアーキテクチャとより大きなオーディエンスの両方を急に掌握した競合に遅れをとることです。
ユーザーチャートやローンチイベントの裏には、より深い変化が進行しています。Googleは単に成長しているだけではなく、AIがどのように記憶し、学び、日常のデバイスの中で生きるかにおける基本的な変化に賭けています—これが本当にCode Redを引き起こしたのです。
すべてのAIを悩ませる健忘症
現代のAIは「理解する」と大口を叩いていますが、実際にはほとんどの大規模言語モデルは5分間のフーガ状態にいるようなものです。GPT-4やGeminiのようなモデルは、決まったコンテキストウィンドウに収まる情報しか「記憶」せず、これは数千から百万トークン程度のスライドバッファで、短期記憶がループしているかのように機能します。
想像してみてください。チャット履歴の最後のページより古いことをすべて忘れてしまう誰かと話している様子を。500ページの契約書や何年分ものメールを貼り付けることができても、そのウィンドウが溢れると、古い詳細は消え、新しいものが入れ替わります。どんなにモデルが賢くても、そのコンテキストの外にあるものは存在しないも同然です。
ほぼすべての最前線の大規模言語モデルを支える標準のトランスフォーマーアーキテクチャを責めてください。自己注意機構は、すべてのトークンを他のすべてのトークンと比較するため、計算およびメモリのスケールはおおよそ二次的になります:シーケンスの長さを2倍にするとコストは4倍になります;10倍にすると、約100倍の作業量を見つめることになります。
数十万トークンを超えると、たとえ徹底的に最適化されたトランスフォーマーでも限界に達します。待ち時間が急増し、メモリ使用量が増大し、モデルは入力の一部を静かに削除するようなトリック(疎注意や攻撃的な切り捨てなど)に頼るため、品質が低下します。だからこそ、「2Mトークンのコンテキスト」という見出しは、厳しいハードウェアコストや端末での脆弱な挙動を隠していることがよくあります。
古いアイデアであるRNN(リカレントニューラルネットワーク)や、現代的な状態空間モデル(SSM)、Mambaスタイルのアーキテクチャを含むものは、このトレードオフを逆転させます。これらは歴史をコンパクトな隠れ状態に折り畳むことで、線形時間でストリームを処理し、数百万トークンをスムーズに処理しながらGPUを過負荷にしません。
落とし穴:全体の本、コードベース、または顧客履歴を小さな状態ベクトルに圧縮することで、詳細がぼやけてしまう。微妙な依存関係、稀なエッジケース、またはログファイル内のあの重要な行が平均化されてしまうため、モデルは迅速に応答するが、一種の統計的な健忘症に陥る。スケールを得る一方で、精度を失う。
この構造的な忘却は、真のパーソナライズと深いコンテクストにとって最大の障害となっています。モデルがセッション、デバイス、タスクを超えて豊かな長期記憶を信頼できる形で保持できない限り、「AIアシスタント」は金魚の脳を持つチャットウィンドウのままであり、月や年を経て成長するシステムにはなり得ません。
タイタンズと出会う: 忘れないAI
Googleはその新しいアーキテクチャをTitansと呼び、今日のAIを悩ませる「5分間メモリー」問題に対する直接的な回答のようです。標準的なトランスフォーマーを壊れるまで伸ばす代わりに、Titansは二つの異なるメモリーシステムを組み合わせ、それらに協力させる仕組みを採用しています。その結果、200万トークンを超えるコンテキストウィンドウを扱いつつ、自らの計算能力で崩れることのないモデルが実現しました。
その中心には、馴染みのある短期記憶があります:最近のテキストのチャンクに対するウィンドウ付き自己注意です。そのウィンドウは鋭く、正確なまま保たれるため、モデルは最後の数千トークンにおける代名詞、コード変数、微妙な表現を追跡できます。損失のある圧縮も、ぼやけた要約もありません。
それに加えて、Titansは別の持続的な長期記憶モジュールを追加しています。この長期記憶は生のテキストを単にキャッシュするのではなく、以前の部分で実際に重要だったことの抽出された表現を保存します。Googleはこのシステムの三つのバリエーションを説明しています—コンテキストとしての記憶、ゲートとしての記憶、レイヤーとしての記憶—それぞれが保存された知識を異なる方法でモデルに再統合しています。
革命的なひねり:Titansは推論中にこの長期記憶を更新します。あなたがチャットしたり、コーディングしたり、文書を提供したりする間、メモリモジュールは瞬時に驚くべき、役立つ、または希少な情報を学び、それらを内部ストアに書き込みます。オフラインでのファインチューニングも、再トレーニングも不要で、セッションが進むにつれて継続的に調整されます。
驚きが正しい判断を促します。モデルが期待から大きく逸脱する何か、例えばエッジケースのAPI、ニッチな規制、ユーザーの独特な好みに出会ったとき、それを高価値としてフラグを立て、長期記憶に保存します。それほど驚くべきでない反復的なコンテンツは優先度が低くなり、最終的には強引な切り捨てではなく、賢明な忘却によってストアから消えていきます。
ベンチマークは、このシフトがどれほど大きなものになるかを示唆しています。760百万パラメータを持つTitansモデルは、16,000トークンでNeedle-in-a-Haystackにおいて95%以上の精度を達成し、bAbI-Longベンチマークを支配し、GPT-4やRecurrentGemma 9B、Llama 3.1 70B、さらには情報取得ツールと組み合わせたLlama 3を上回っています。長いシーケンスはもはや病理的な例外ではなく、標準的な作業負荷のように見え始めています。
AIを静的な事前トレーニングされた百科事典から、あなたが先週何をしたかを記憶するダイナミックなパートナーに変えます。Titansは原則として、チーム、コードベース、または研究プロジェクトとの安定した作業履歴を構築し、セッションを通じてその振る舞いを洗練させることができます。Google自身の報告書「Titans + MIRAS: AIに長期記憶を持たせる手助け」では、これは人間のように学習するモデルへのステップと位置づけられています—段階的に、文脈に応じて、そして新しいチャットを開くたびにリセットをかけることなく。
天才は「驚き」にある
驚きはタイタンの新しいメモリーシステムの中心です。200万以上のコンテキストウィンドウの中でトークンを蓄積する代わりに、モデルは各テキストのチャンクに驚きスコアを割り当て、現実が内部の言語モデルの予測からどれだけ逸脱しているかを測定します。高驚きのイベントはタイタンの別のラングツァイトゲダーフニスに書き込まれ、一方で予測可能なボイラープレートは流れ去り、消え去ります。
そのシンプルなルールは、記憶を受動的な記録から能動的な編集者に変えます。500通のメールの最後に「ありがとう、明日話しましょう」といったルーチンは決して選ばれませんが、一度きりのAPIキー、奇妙なエッジケースのバグレポート、突然のポリシー変更はほぼ常に選ばれます。Titansは、対話の数日間を「これを忘れると後悔する」瞬間のスパースなセットに効果的に圧縮します。
驚きは内部で予算のように機能します。各メモリスロットは、その初期の驚きと、タイタンがそのスロットを後で成功裏に読み返す頻度に基づいた有用性スコアを持っています。予算が満杯になると、モデルはまず低価値のエントリーを降格させ、それらをアクティブなコンテキストとしてのメモリから排除し、より安価な表現に移すか、完全に削除します。
Googleはこれをインテリジェントな忘却と位置付けています。128Kや1Mトークンに達した際の厳格なカットオフではなく、関連性が徐々に減少します。あまり使われないプロジェクトの仕様書は徐々に解像度を失い、一方で積極的に参照されるデザインドキュメントは鮮明さを保ちます。メモリモジュールは推論中にオンラインで更新されるため、この劣化はTitansが作動している間、継続的に発生します。
その行動は驚くほど人間に似ています。認知心理学によれば、人々は新しい、感情的に強い、または予想外の出来事を日常のルーチンよりもはるかに強く記憶します。新しい職場での初日が200回の普通の火曜日よりも記憶に残るのです。Titansはシリコンに同様のバイアスを組み込みます:新しいものには強い書き込み信号が、繰り返しには背景ノイズとして扱われるのです。
人間の記憶は効率を維持するために意図的に忘れることもあり、タイタンはそのトレードオフを反映しています。古い驚きの少ないトレースを保持するのではなくフェードアウトさせることによって、このシステムは従来のトランスフォーマーの「5分間の天才、終生の失念」の罠を避けています。残るのは、時間のマークではなく転換点を際立たせた長期的なストーリースレッドです。
競争を圧倒する:タイタンズ vs. 世界
GoogleはTitansに関して大きな話をしただけではなく、基準となる結果をもたらしました。通常、大規模なモデルをぼやけさせる長いシーケンステストにおいて、760MパラメータのTitansバリアントは、サイズが50倍以上のシステムを恥ずかしくさせるような数値を静かに記録しました。
クラシックな針の中の藁評価において、Titansは広範な文書の中に隠された単一の事実を見つけなければなりませんでした。16,000トークンのコンテキスト長で、95%を超える精度を達成し、多くの最前線モデルが回答を落としたり、幻覚を起こしたりする中での成果です。
長文のストーリー理解は、通常、「なんとなく」以前の文を記憶するモデルを暴露します。bAbI-Longでは、システムが大量の合成物語に散らばる事実をつなげることを強制するため、Titansはライバルを僅差で凌ぐだけでなく、リーダーボードを支配しました。
Googleの論文およびその後の分析では、Titanがこれらの長距離タスクにおいて過酷な比較対象を上回ったと主張しています: - GPT-4 - Llama 3.1 70B - RecurrentGemma 9B - 検索および取得ツールと組み合わせたLlama 3
最後の結果が最も重要です。リトリーバル拡張型のセットアップは、Llamaのようなモデルに外部メモリやベクターデータベースを追加して忘却を補う一方で、Titansの内蔵されたLangzeitgedächtnisächtnisは依然として勝利しました。埋め込みや外部ストレージを扱う代わりに、Titansは内部の訓練可能なメモリを保持し、リアルタイムで更新します。
パラメータ数は真の物語を語ります。GPT-4やLlama 3.1の70Bが数十億または数百億のパラメータを持つ一方で、Titansのロングコンテキストスターはわずか7億6千万に留まります。数百ページの入力においてフロンティアモデルのようなパフォーマンスを得られ、そのコストプロファイルは中規模のオープンソースLLMに近いものとなっています。
その効率が、大手企業が手を出せないデプロイメントオプションを解放します。2M以上のトークンを読み取り、なおかつ「針を探す」ことができるサブビリオンパラメータモデルは、クラウド上でより安価に実行でき、GPUのフリートに拡張したり、さらにはデバイス内シナリオに向けて少しずつ進むことも可能です。
建築的に見ると、Titanの結果は、長いコンテキストの推論においては、力任せの規模よりも賢いメモリが優れていることを示唆しています。760Mモデルがミリオントークンの問題でGPT-4を上回ることができるなら、次の軍拡競争はサイズに関するものではなく、誰が最高の脳を構築するかに関するものかもしれません。
記憶を超えて:MIRASと継続的な学習者
MIRASは単なるモデルとしてではなく、シーケンスモデルがどのように記憶し、忘れ、適応すべきかに関する統一理論として登場します。Google Researchはこれを、Transformers、Mamba、RWKV、DeltaNet、Titanを同じ地図上に置くロードマップとして位置づけています:記憶の形状、ストレージ規則、上書き速度、および更新のダイナミクスに関する同じ4つの質問に対する異なる回答です。
「長いコンテキスト」についてのあいまいな議論の代わりに、MIRASはアーキテクトに対し、どのような長期記憶を求め、どの程度積極的にそれを更新すべきかを明示させます。この枠組みは、モデルが新しいスキルに微調整される際に旧スキルを静かに消去してしまうという、長年の問題である「壊滅的な忘却」を直接的にターゲットにしています。
継続的学習は、このロードマップの中心に位置しています。一度固定されたウェブテキストの山でトレーニングを行い、終わりとするのではなく、MIRASは使用中にオンラインで記憶を更新し、以前に習得した能力を損なうことなく進化するシステムを目指しています。
イリヤ・サツケバーは、自身の北極星を「才能あるティーンエイジャー」のように学ぶモデルとして表現しています。これは常に新しい経験を吸収し、改訂し、統合することを意味します。MIRASは、そのビジョンを、使用を読み取り専用の推論段階ではなく、継続的なトレーニングストリームとして扱うことで実現しています。
Titansは、そのMIRASの道の上で最初の大きな公にされたステップとなります。予期しない出来事を基底の重みではなく、専用のストレージに選択的に書き込むサプライズ駆動のメモリモジュールが、Titans: Learning to Memorize at Test Timeで詳述されており、すでに原始的な継続学習者のように振る舞っています。
ベンチマークは、その変化が何を可能にするかを示唆しています。760百万パラメータのTitanバリアントは、長いシーケンスタスクにおいてGPT-4やLlama-3.1-70Bに対抗し、数百万トークンのセッションを通じてリアルタイムでメモリを更新します。
哲学的に言えば、MIRASはラボがスケールについて考える方法を覆します。単にパラメータやデータを積み重ねるのではなく、Googleはより賢く構造化されたメモリと、決して学びを止めないモデルが、さらに1兆トークンを追加すること以上に重要であると賭けています。
あなたの新しい同僚は、ラグズという名前のエージェントです。
あなたの次の「AI同僚」はサイドバーのチャットボックスではなく、自分のデスクトップ上を静かに動くカーソルかもしれません。それがOpen AGI Foundationの賭けであり、コンピュータ自体をインターフェースとして扱う新しいタイプのモデル、Luxです。ボットに指示を出してAPIが存在することを期待する代わりに、Luxを画面に向けると、それがただ動き始めます。
Luxは自らをコンピュータ利用モデルと定義しており、その表現は多くの役割を果たしています。このシステムは、生のピクセルを取り込み、ボタン、メニュー、フォームを解析し、次に低レベルのアクションを実行します:クリック、スクロール、キー入力、ウィンドウの切り替えなどです。フルデスクトップ、ブラウザ、スプレッドシート、コードエディタ、さらにはウェブAPIを持たない頑固なレガシーツールまで操作することができます。
これにより、Luxは「アシスタント」カテゴリーからインフラストラクチャ領域へと移行します。リモートVMに接続し、ブラウザ内で請求書を照合し、デスクトップのスプレッドシートでデータをクロスチェックし、Outlookでフォローアップのメールをドラフトすることができます。脆弱なRPAスクリプトや未完成の統合に悩む企業にとって、画面ネイティブエージェントはユニバーサルアダプターのように見え始めています。
ベンチマークの数値が自信を裏付けています。300以上の実際のタスクから構築されたオンラインベンチマークである Mind2Web では、Luxのスコアは 83.6 で、Googleの Gemini の 69.0 やOpenAIの最高モデルの 61.3 に比べて大幅な飛躍を見せています。同じタスク、同じ混沌としたウェブなのに、成功率は根本的に異なります。
Mind2Webは設計上、過酷です。エージェントは、ログインの壁、奇妙なレイアウト、無限スクロール、ポップアップ、そして一貫性のないUIパターンを乗り越え、旅行の予約、注文履歴の確認、またはアカウント設定の掘り下げといった複数のステップからなる目標を達成しなければなりません。Luxのこのベンチマークに対するマージンは、単にフローを記憶するだけではなく、実際にインターフェースの動作モデルを構築していることを示唆しています。
その優位性は、創作者たちがエージェント的アクティブな事前訓練と呼ぶものから生まれます。Luxは静的なログや合成された指示からだけ学ぶのではなく、実際の環境の中で行動し、UIを探求し、失敗し、修正する時間を事前訓練に費やします。このモデルは、「フィルターはファネルアイコンの背後に隠れる」や「確認ダイアログはボタンの色をしばしば反転させる」といったパターンを内面化し、アプリ間で転送されます。
それは、マニュアルを読むことと実際に車を運転することの違いとして考えることができます。従来のLLMエージェントはウェブAPIやDOMツリーの「マニュアルを読む」だけですが、Luxは生のソフトウェアを運転する何百万時間もの実績を持っています。その体験が、ユーザーインターフェースに対するより直感的で人間的な理解を与え、「あなたの新しい同僚」が過剰宣伝のように聞こえるのではなく、切実な製品カテゴリに思わせます。
グーグルの二本柱の攻防:スピードと論争
GoogleはTitansの長期記憶に全てをかけているわけではありません。その一方で、同社は第二の戦略として、原料の配信と安価な生成メディアに力を入れています。第三者の分析によって引用された内部成長データによると、Geminiの月間アクティブユーザーはChatGPTよりも早く増加しており、Googleは画像やUI実験において同等の能力を求めています。
ナノバナナ2フラッシュが登場しました。これは、リーダーボードでの栄光よりもコストと速度を重視して調整された新しい画像モデルです。Googleの主力画像システムの「準プロ」版として位置づけられ、プロレベルに近い品質を低い計算コストで提供することを目指しています。これは、検索、Android、Docs、広告ツールにおける数十億の低マージン画像呼び出しにとって重要です。
ナノバナナ2フラッシュを、生成アート用のGoogleの大容量インクカートリッジと考えてください。これを使って美術館の作品を印刷するのではなく、ウェブにサムネイルやソーシャルカード、ステッカー、商品モックアップを大量に出回らせるのです。もしGoogleがMidjourney、DALL·E、そしてStabilityの価格を下回りながら、「十分に良い」品質を保てるなら、AI画像のマスマーケットを制御することができます。
一方で、Googleは非常に異なる実験を静かに実施していました:AIによって書き換えられたニュースの見出しをGoogle Discover内で導入しました。元のタイトルを表示する代わりに、内部モデルが新しいタイトルを瞬時に生成し、時にはより強い感情的なフックや異なる強調点でストーリーを再構成しました。ユーザーは、明確なラベルやオプトアウトの選択肢なしに、これらの合成見出しを目にしました。
出版社は注意を払った。スカンジナビアやヨーロッパのメディアからの報告は、トーンや意味を歪める見出しを描写しており、犯罪に関するストーリーはよりセンセーショナルに聞こえ、政治的な記事は重要なコンテキストを軽視しているとされていた。編集者たちは、GoogleのAIが実質的に自分たちのニュースルームと読者の間に座っている責任のない共同著者になってしまったと主張した。
反発は迅速に巻き起こった。なぜならそれは長年 simmering してきた亀裂に触れているからだ。プラットフォームはすでに流通、広告市場をコントロールしており、今ではジャーナリズムを規定する言語に対してもますます影響力を持つようになっている。AIによる見出しが汚職捜査や気候報告の印象を変えることができるとき、編集判断はニュースルームからランキングシステムやモデルの重みへと移行する。
Discoverテストは、「アシスティブAI」がどれほど迅速に編集AIに変わるかを示しています。タイタンズとナノバナナ2フラッシュは規模とスピードを追求していますが、見出しの論争は取引の実態を明らかにします:テクノロジープラットフォームはコンテンツだけでなく、それに対する世界の出会い方をも再構築したいのです。
数字は嘘をつかない:ジェミニの成長は本物です
コードレッドは、ダウンロードチャートが登場してからは単なる比喩ではなくなった。最近の報告で引用されたSensorTowerのデータによれば、Geminiのモバイルアプリは、かつてないほど急成長しているAI製品の一つとして位置づけられ、月間アクティブユーザー数がChatGPTの年対年の成長率を圧倒するペースで増加している。
ChatGPTは依然として規模で圧倒的で、数億人のユーザーと消費者AIの中で最も認知度の高いブランドを持っています。しかし、SensorTowerのデータは、モメンタムに関して異なる物語を語っています。Geminiの月間アクティブユーザー(MAU)は、特にGoogleがアプリを事前インストールしたり積極的に表面化させる市場で、前月比で何倍も速く成長しています。
その速度が自慢の権利よりも重要です。迅速なMAUの成長は次のフライホイールを促進します: - より多くの開発者がGemini APIsに興味を持つ - Google規模の信頼性を求める企業パイロットが増える - これは行き止まりの実験ではないという消費者の信頼が深まる
開発者にとって、Geminiの台頭は、Android、Chrome、そしてGoogle Cloudに直接統合されるOpenAIに対する信頼できる代替手段を意味します。ターゲットユーザーがすでにGmail、Docs、そしてSearchの中にいる場合、Googleのスタックを利用することはリスクではなく、必然に見えてきます。
企業は同じチャートを読み、交渉のレバレッジを見出します。急成長しているジェミニは、CIOに対してより良い価格、データの居住性保証、そしてOpenAI、Google、Microsoft、Anthropicを競わせるマルチベンダー戦略を要求するための後ろ盾を提供します。
一方、Googleは静かにその配信マシンを活用しています。AndroidのGeminiによる提案、WorkspaceのAI機能、そしてGeminiを活用した検索実験はすべて、特別な「AIアプリ」の決定を必要とせずに、一般のユーザーをGoogleのエコシステムに誘導しています。
それがOpenAIにとっての真のコードレッドです:Geminiがすでに勝利したのではなく、Googleがついに研究、製品、流通を整えたということです。タイタン、MIRAS、そしてより広範なGeminiスタックは、数十億と数えられるオーディエンスに向けて提供されており、すべてのインクリメンタルな機能更新はその流れに乗っています。技術的な基盤を追跡している人にとって、Googleの長文コンテキストの研究は、Google Research GitHubリポジトリにあるオープンな実装と並んでおり、これらのアイデアがいかに迅速に広がるかを強調しています。
新しいAI戦場がここにある
Code Redはもはや単一の企業のパニックを示すものではなく、新しいAI戦場を表しています。Titansは、Googleに200万以上のトークンコンテキストを処理できるモデルを提供し、会話ごとにゼロにリセットされることなく、リアルタイムでメモリを更新するLangzeitgedächtnisächtnisを実現します。 Needle-in-a-Haystackで95%以上の精度を達成し、bAbI-Longでの優位性を示すベンチマークは、これらの成果が単なるマーケティングスライドではないことを証明しています。
上にMIRASを重ねると、単発のモデルではなくロードマップが得られます。MIRASは、Transformers、Mamba、RWKVなどを、メモリの形状、保存規則、減衰速度、アップデートの動態に関する4つの質問への異なる答えとして再構築します。これにより「より大きなコンテキストウィンドウ」が、継続的に学習するシステムのためのデザイン空間に変わります。
一方、Luxは別のフロント「コントロール」に攻撃を仕掛けます。Luxはあなたの実際の画面を見て、UI要素を解析し、ブラウザ、スプレッドシート、およびメールクライアントを横断して実際のタスクを完了するためにクリック、スクロール、キー入力を行います。300以上の実際のウェブサイトタスクを対象としたMind2Webベンチマークでは、約83.6%の成功率を記録しており、脆弱なAPIに依存する古い「エージェント」デモを恥じさせています。
分配の圧力は、GeminiとNano Banana 2 Flashから生じています。Sensor Towerスタイルのデータによると、Geminiの月間アクティブユーザーは、深いAndroidおよびChromeの統合により、ChatGPTよりも早く増加しています。Nano Banana 2 Flashは、コストが低く、速度が速い画像モデルで、ほぼProモデルに匹敵する性能を持ち、Googleが「十分に良い」マルチモーダルAIを中価格帯のスマートフォンやウェブアプリに大量に供給するための位置づけになっています。
Googleは現在、多面的な戦争に取り組んでいます:
- 1基盤アーキテクチャ:タイタンとMIRASは、モデルがどのように記憶し、学ぶかを再定義します。
- 2実用エージェンシー: ラグジュアリーなスタイルのコンピュータ利用エージェントが、LLMをフルデスクトップオペレーターに変えます。
- 3市場分布:ジェミニの成長、ナノバナナ、AI調整されたヘッドラインがこのスタックを日常のフィードやデバイスに押し上げています。
静的で一度訓練されて凍結されたモデルは、ますます昨十年の手法のように見えてきています。次の段階は、数か月分のインタラクション履歴を記憶し、即座にポリシーを適応させ、オペレーティングシステム、ブラウザー、そして生産性スイートの中で生きるエージェントに焦点を当てています。これらすべては、OpenAIの足元にきっちりと落ち着きます:その次世代モデルGarlicは、Titanの記憶、Luxレベルのエージェンシー、そしてGeminiスケールのリーチに匹敵できることを証明しなければならず、さもなければGoogleがAIの第二幕のルールを定めるのを見守る危険にさらされます。
よくある質問
Google Titansとは何ですか?
Titansは、Google Researchによって設計された新しいAIアーキテクチャで、モデルに真の長期記憶を提供します。これは短期処理を長期記憶モジュールから分離しており、使用中に継続的に学習し更新されます。
タイタンの記憶はどのように機能するのですか?
Titansは「驚き」に基づいて保存する内容を決定します。情報が予想外または新しいほど、保存される可能性が高まり、AIが重要な事実のメモリーを効率的に構築できるようになります。
Google TitansはGPT-4より優れていますか?
特定の長文コンテキストのベンチマークでは、AIが膨大なテキストから情報を思い出す能力をテストしますが、動画や関連する報告によれば、TitansはGPT-4やLlama 3.1などのモデルよりも大幅に優れていると主張しています。
MIRASとは何ですか?
MIRASは、Titansと共に導入されたフレームワークです。これは、モデルが新しいデータから継続的に学習し、過去の知識を忘れないためのルールと手法を提供し、AIを永続的な学習の状態に近づけます。