GoogleのAIが永続的な記憶を獲得しました。

グーグルは新しいAIアーキテクチャ「Titans」を発表しました。これにより、モデルが人間のような長期記憶を持つことが可能になり、従来の限界を打破しました。このブレークスルーは、主要なベンチマークでGPT-4を上回り、AGIへの大きな一歩に近づけます。

Hero image for: GoogleのAIが永続的な記憶を獲得しました。
💡

TL;DR / Key Takeaways

グーグルは新しいAIアーキテクチャ「Titans」を発表しました。これにより、モデルが人間のような長期記憶を持つことが可能になり、従来の限界を打破しました。このブレークスルーは、主要なベンチマークでGPT-4を上回り、AGIへの大きな一歩に近づけます。

AIメモリウォールが崩れつつある

金魚の脳を持つAIは、大規模言語モデルのブームにおける厄介な秘密です。トランスフォーマーはおそらく数万から数十万のトークンを処理できますが、それ以上になると会話は途切れ、文書は切り取られ、「メモリ」は送信ボタンを押すたびにリセットされます。汎用的な推論エンジンとして提案されているシステムにとって、直前に起こったことのほとんどを忘れてしまうことは依然として大きな壁です。

Googleの新しいTitansアーキテクチャとその伴うフレームワークMIRASは、まさにその壁に向かっています。これは「今度は1Mトークンのコンテキストウィンドウを搭載」といったスペックの向上ではありません。Titansは長期記憶を第一級のシステムコンポーネントとして扱い、単なるボルトオンキャッシュではありません。また、MIRASはトランスフォーマー、RNN、その他のアーキテクチャにおける記憶の考え方を再定義します。

現在の最前線モデルは、リトリーバルハックやベクターデータベースを利用して忘却を回避しています。過去のログを検索し、いくつかのスニペットを引き出してプロンプトに詰め込むのです。これはカスタマーサポートのスクリプトには有効ですが、進化するプロジェクト、個人の好み、または数日にわたる研究のスレッドを常に手動でキュレーションすることなく追跡しようとすると、うまく機能しなくなります。

Titansは、200万トークン以上のアクティブコンテキストを保持し、推論中に自身の記憶を更新することでそれを超えています。静的なキー・バリューストアの代わりに、重要な情報を継続的に洗練する学習済みメモリモジュールとして、小さな多層パーセプトロンを使用しています。このモデルは単に読み取るだけでなく、リアルタイムで自身に書き戻すのです。

この記憶のボトルネックを突破することは、人間のような知能に似たものにとって重要な転換点です。人間の認知は、長年にわたる人々、目標、制約に関するストーリーの蓄積に依存しています。耐久性のある構造化された記憶がなければ、最も賢いモデルでさえもオートコンプリート機能を持つ計算機のように振る舞い、実際にあなたを知っているシステムとは言えません。

GoogleのMIRASフレームワークは、トランスフォーマー、RNN、およびその他のシーケンスモデルが、スケールの大きさではなくメモリを中心に再構築できる基本原則を共有していると主張しています。これにより、以下のような設計が可能になります: - 長期的な記憶がモデル内部に存在し、外部のハックに依存しない - 忘却が適応的になり、恣意的な切り捨てではなくなる - コンテキストが機能的に無制限に成長し、「リリースごとに大きくなる」だけではなくなる

新しい建築のパラダイムが浮上している:単一のチャットウィンドウだけでなく、トークンの生涯を通じて推論するシステムです。長い間ハードウェアの制約として扱われてきたAIメモリーウォールは、今や設計の選択肢に見えてきています。

タイタンズに出会う:決して忘れないAI

イラスト:タイタンズに会おう:決して忘れないAI
イラスト:タイタンズに会おう:決して忘れないAI

インクリメンタルなモデルの改良は忘れてください; Titansはまったく異なる存在として登場します。Googleはこれを単なる大規模言語モデルではなく、モデルが動作している間に内部に存在する永続的でトレーニング可能なメモリを中心に構築された新しいAIアーキテクチャとして説明しています。Titansはコンテキストを使い捨てのスクロールとして扱う代わりに、それを生きたデータベースとして扱います。

タイトルレベルでは、Titansは200万トークン以上のコンテキストウィンドウを持っています。人間の言葉で言うと、それはハリー・ポッターシリーズ全体のすべての単語に加え、いくつかの研究論文やあなたのメールボックスをすべて同時に保持できるほどの量です。今日の最前線のモデルが単一の長いPDFを把握するのに苦労する中、Titansは一度のセッションで複数の本に相当する情報を扱うことができます。

生のサイズは急進的な部分ではありません。Titansは、その大規模なウィンドウをアクティブメモリに変え、モデルが考えている間に更新されます。エンジニアが再訓練する時だけではありません。新しい文、修正、または驚きは、システムが次に注意を向けるものを直接推論ループ内で変えることができます。

静的なキー・バリューキャッシュや固定された埋め込みの代わりに、Titansは小さな多層パーセプトロンをメモリーコアとして埋め込んでいます。そのニューラルモジュールは、数千のトークンにわたるパターンをリアルタイムで学習し、新しい情報が入るにつれて内部の重みを調整します。メモリーは受動的なルックアップテーブルから脱却し、常に調整される関数へと変わります。

Googleの研究者たちは、人間の認知に触発された「驚き」信号を組み込みました。Titansが予期しない、または非常に情報量の多いデータに遭遇すると、この指標はそれを記憶に残るものとしてフラグを立てます。一方で、ルーチンで繰り返しの詳細はより早く薄れていきます。このモデルは、どのイベントが長期保存に値し、どれが忘れ去られても構わないのかを効果的に決定します。

リアルタイムでアップデートが行われるため、Titanとの各インタラクションはその内部状態に痕跡を残します。長時間のトラブルシューティングセッション、1週間のコードレビュー、あるいは数ヶ月のラボノートが、孤立したチャットの連続ではなく、進化する理解に蓄積されていきます。その履歴がより濃密になるにつれて、モデルの挙動も変化します。

その持続性は、現在のトランスフォーマーが清潔に行えない何かを解放します。それは、あなた、あなたのプロジェクト、またはあなたのデータセットについて、単一のプロンプトを超えて生き続ける物語を構築することです。Titansは、役立つアシスタントの振りをやめ、実際にあなたが昨日何をしたかを記憶するコラボレーターとして行動し始めます。

brute forceを超えて: 「サプライズメトリック」

ブルートフォースアテンションは、すべてのトークンをパーティーのVIPゲストのように扱います:同じく重要で、同じく費用がかかります。標準的なトランスフォーマーは、すべてのトークンに対して二次的な自己注意を実行するため、コンテキストウィンドウが8,000から2,000,000トークンに増えると、計算コストが膨れ上がります。Titansは、驚くべきことがあるときだけ注意を払うという、一見シンプルなアイデアでそのスケーリングの壁を回避します。

Googleの研究者たちは、認知心理学と情報理論を借用して、「サプライズメトリック」を定義しています。これは、新しいトークンがモデルの期待からどれだけ逸脱しているかを示す数値スコアです。日常的なフレーズ、繰り返される事実、テンプレートパターンはほとんど変化をもたらしません。突然の矛盾、稀な出来事、または新しいエンティティはスコアを急上昇させ、記憶の更新を引き起こします。

すべてのインタラクションを保存するのではなく、Titansはこのサプライズシグナルを使って、何が長期記憶MLPに入るか、何が静かに破棄されるかを決定します。このアーキテクチャは、毎ステップごとに「これは私の世界やこのユーザーに対する理解を変えましたか?」と問いかける効果があります。もしそうでなければ、そのトークンは持続的な記憶ではなく、一時的なコンテキストとして扱われます。

従来のトランスフォーマーは、無駄な「ありがとう」のようなトークンでも、重要な指示でも、すべての過去のトークンに対してアテンションを再計算する必要があります。これは、O(n²) のアテンションコストを意味し、長いコンテキストの場合には膨大なGPUコストが発生します。Titansのサプライズ駆動型ルーティングは、このオーバーヘッドを削減し、本当に有益なトークンのスパースなサブセットに対してのみ重いメモリ操作を呼び出します。

Googleのブログは、Titanが2,000,000トークン以上の使用可能なコンテキストを維持しながら計算負荷に溺れることなく「桁違い」の効率向上があることを示唆しています。MIRAS理論はこれを支持しており、驚きに基づく更新がTitanに選択的で学習された記憶の書き込みを持つRNNのように機能させることを示しています。その結果、GPT-4レベルまたはそれ以上のパフォーマンスを、BABILongのような長いコンテキストタスクで実現し、必要なパラメータ数も計算量も大幅に削減しています。これは、モデルが記憶すべきものを選ぶ際により賢く機能するためです。

内なるエンジン:脳の中の脳

埃をかぶったインデックスやキーワード検索はもう忘れてください。Titansは、大きなモデルの中に小さな多層パーセプトロン(MLP)を隠しており、それをライブで常に学習するメモリエンジンとして利用します。ただベクトルをデータベースに保管するのではなく、この内部ネットワークは新しい情報が流入するにつれて自ら再配線を行います。

脳の中の脳と考えてください。外側のモデルは言語、推論、計画を扱い、一方内側のMLPは静かに保存されているすべてを学習し、何千、いや何百万ものトークンにわたるパターンを見つけ出します。時が経つにつれて、その内側のネットワークは単なる受動的なキャッシュではなく、モデルとの歴史における専門的なエキスパートとなります。

静的ベクトルデータベース、現在のほとんどのチャットボットが依存しているものは、もっと単純なことを行います。彼らは: - テキストをベクトルに埋め込む - それらのベクトルをストレージに格納する - 質問をする際に「最近接の隣人」を取得する

それらのシステムは、自分たちが何を保持しているのかを真に理解することはありません。会議のメモ、コードスニペット、メールがすべて同じバグを説明していることや、3つの別々のドキュメントが実際には1つの長期プロジェクトの章であることを学ぶことはありません。しかし、Titanのニューラルメモリはそれを理解します。

メモリがMLPであるため、関連する事実を共有された内部表現に圧縮し、重要なつながりを強化し、重要でないものは衰退させることができます。つまり、このシステムは自己負荷に耐えることなく、広大な2M以上のトークンコンテキストを保持できるのです。メモリネットワークは、あなたの継続的なインタラクションに基づいてカスタムモデルとして効果的に調整され、リアルタイムで更新されます。オフラインの再訓練ではありません。

その記憶があふれないように、Titansは最適化理論から直接アイデアを借りています。モーメントは更新を滑らかにし、1つの驚くべき出来事が強く記憶を揺り動かす一方で、繰り返しのノイズはほとんど影響を与えません。このモデルは、繰り返し現れるパターンに強く働きかけ、突発的な不具合には滑らかに対処します。

一方で、適応的忘却はもはや重要でなくなったものを削減します。新しいパターンが支配する中で—新しいプロジェクト、新しいトピック、新しいコードベース—内部のMLPは徐々にキャパシティを再配分し、古くなった表現を薄れさせます。膨大なアーカイブの代わりに、Titansは学習し、優先順位をつけ、意図的に忘れるスリムで自己キュレートされた記憶を持っています。

MIRAS:AIアーキテクチャのロゼッタストーン

イラスト: MIRAS: AIアーキテクチャのためのロゼッタストーン
イラスト: MIRAS: AIアーキテクチャのためのロゼッタストーン

MIRASはTitansの背後に静かな革命として位置付けられています:現代のニューラルネットワークに対する統一理論です。一時的なアーキテクチャの代わりに、MIRASは数学的なフレームワークであり、トランスフォーマー、RNN、その他の系列モデルが同じ基盤システムの異なる顔であることを示しています。Googleの研究者たちは、外見が非常に異なるモデルがしばしば非常に似たように振る舞う理由を説明する欠けた地図としてそれを描写しています。

AIのためのロゼッタストーンのように、MIRASは以前は別々の研究シロに存在していたアーキテクチャ間の翻訳を行います。トランスフォーマーのアテンションウェイト、RNNの隠れ状態、リトリーバルモデルの外部メモリはすべて、情報のシーケンスに対する共通操作に還元されます。MIRASの言語でそれらを表現すれば、パーツを交換したり、トレードオフを比較したり、単一のツールキットで能力について考察したりすることができます。

その統合は重要です。なぜなら、各ファミリーは独自の強みを持っているからです。RNNはストリーミングデータと低遅延の更新に優れていますが、歴史的に見て非常に長いコンテキストに苦しんできました。トランスフォーマーは、数千のトークンにわたる精度とグローバルな推論で優れていますが、シーケンスが増えるにつれてメモリとコンピュートで行き詰まります。MIRASは、これらの特性を組み合わせる方法を示し、どちらか一方を選ぶのではなく、両方を活かすことができることを明らかにします。

Titansは、このフレームワークから直接構築された最初の概念実証です。そのMLPベースのメモリは、高速で連続的なRNN状態のように振る舞いながらも、200万トークン以上にわたるTransformerスタイルのグローバル推論をサポートします。MIRASの下では、そのハイブリッドはハックではなく、ゲノミクス、時系列、その他の非テキストドメインにも拡張される共有原則のクリーンな具現化です。

研究者たちはもはやメニューではなく、デザインスペースを手に入れました。MIRASは彼らが次のようなハイブリッドを体系的に探索できるようにします: - スピードのためにRNNのような再帰を使用 - 精度のためにトランスフォーマーの注意パターンを借用 - タイタンの驚きに基づいたMLPのような専門的なメモリユニットを接続

このようにフレームを設定すると、MIRASは単なる一発のトリックではなく、ポストトランスフォーマーAIのためのブループリントのように見えます。長期記憶、効率的な推論、またはドメイン特化型の構造を必要とする将来のアーキテクチャは、まずこの共通理論の中でスケッチされ、その後にエンジニアリングされることができます。タイタンは主役ですが、MIRASは次に登場するすべての本格的なAIシステムを形成する可能性のある基本的なプレイブックです。

対決:タイタンがGPT-4のベンチマークを撃破

雰囲気に基づくモデル比較は忘れてください。GoogleはTitansを今日の最強モデル、GPT-4を含む競合と比較し、厳しい長文コンテストを実施しました。その結果、より小型で安価なアーキテクチャが、生のパラメータ数や大規模なコンテキストウィンドウに依存するモデルを繰り返し凌駕しました。

対決の中心には、従来のトランスフォーマーを打破するために設計された基準となるBABILongがあります。整然とした短いプロンプトの代わりに、BABILongはモデルに100万から200万トークンを超える広大なドキュメントを供給します。数千ページにわたる混合された事実、気を散らす要素、微妙な依存関係が含まれています。

BABILongは、モデルが「遠くのトークンを記憶」できるかどうかを確認するだけではありません。それは、システムにテキストの奥深くに埋もれたエンティティ、因果関係、および条件付きルールを追跡させ、その後、何十万ものトークン前に導入された詳細に依存する質問に答えさせます。長距離の推論やメモリ管理の弱点は、即座に精度の急激な低下として現れます。

このテストに対して、Titansは単に生き残っただけでなく、圧倒的でした。Googleの報告によれば、TitansはBABILongのすべての基準を上回り、さらに多くのパラメータを持つモデルや、特に情報検索タスクに特化して最適化されたロングコンテキストトランスフォーマーを凌駕しています。

そのパフォーマンスの優位性は重要で、GPT-4クラスのシステムはすでにコンテキストウィンドウを数十万トークンにまで拡大しています。しかし、その拡張された制限にもかかわらず、プロンプトが増えるにつれてしばしば急激に劣化し、文書間のリンクを誤って生成したり、シーケンスの初めに導入されたエンティティの追跡を失ったりします。それに対して、Titansは、マルチブック規模の入力において一貫した推論の連鎖を維持します。

衝撃は効率性を見たときに訪れます。タイタンは、小規模から中規模のLLMに相当するはるかに少ないパラメータでこれらのスコアを達成し、最前線の巨大モデルではなく、計算コストの一部で動作します。メモリ帯域幅が少なく、FLOPが少なく、全体のシーケンスに対する二次注意が不要であることは、劇的に安価な推論につながります。

それはスケーリングのストーリーを逆転させます。「ただもっとGPUを追加する」という代わりに、Titansはよりスマートなメモリアーキテクチャが、より少ないリソースを使いながらGPT-4レベルのシステムを長文コンテキスト推論で上回る可能性があると示唆しています。ラボ、スタートアップ、さらにはデバイス上での展開にとって、それはほんのわずかな勝利ではなく、建築のクーデターです。

言葉の職人以上: 新しいフロンティアを征服する

実際に記憶に残ることが、ただのおしゃべりゲームを超えて非常に役立つことが判明しました。GoogleのTitansスタックはすでに言語の砂場を超え、数万の塩基対にわたる依存関係を追跡しなければならないゲノムモデリングタスクで最先端の結果を出しています。DNAを短い文のように扱うのではなく、Titansは何百万文字にも及ぶゲノム全体を取り込み、遠くの遺伝子座にわたる微妙なパターンを保持することができます。

ゲノミクスは厳しい試験場です:規制因子、変異、および構造変異が広範囲で相互作用します。TitansのMLPベースのメモリユニットは、微分可能なノートブックのように機能し、文脈の制限に屈することなく、配列と表現型の間の長距離の関係を蓄積します。これは、遺伝子発現の予測、オフターゲットCRISPR効果、またはポリジェニックリスクスコアのようなタスクにおいて重要であり、文脈が生物学の全ての物語であるからです。

ファイナンスは全く異なるストレステストを提供し、Titansもそこで強さを発揮します。長期的な金融時系列ベンチマークにおいて、このアーキテクチャは何年ものティックデータ、マクロ指標、イベントデータを追跡し、内部状態を動的に更新します。固定サイズのウィンドウや脆弱な特徴工学の代わりに、Titansは市場のレジーム、ショック、および緩やかな構造的変化の学習された記憶を保持しています。

このクロスドメインのパフォーマンスが本当の指標です:メモリーシステムは次のトークン予測のために調整されたパーラー・トリックではありません。MIRASは、タイタンの「脳の中の脳」がトランスフォーマーやRNNと同じ抽象レベルに位置していることを示していますが、一般目的で訓練可能なメモリーコアを備えています。同じメカニズムが言語推論、DNAモデリング、そしてノイジーな市場予測を向上させるとき、それは過剰適合のハックではなく、基礎的な能力を見ているのです。

未来のアプリケーションは実質的に自らを書き上げます。持続的な医療コパイロットは、患者の数十年にわたる全体の経過記録—検査結果、画像診断、医師のメモ、ウェアラブルデバイス—を追跡し、人間が作業記憶で保持できる以上のパターンを浮かび上がらせることができます。リアルタイムの経済モデルツールは、ストリーミングされる取引データ、政策の動き、世界のニュースを融合させ、常に更新される世界モデルを提供することで、政府や企業に、まるで生きて呼吸するマクロ脳に近いものを与えることができます。

AGIへの道が劇的に短くなりました

イラスト: AGIへの道が劇的に短くなった
イラスト: AGIへの道が劇的に短くなった

AGIはもはやSFのスローガンではなく、モデルが記憶できるようになると、エンジニアリングのロードマップのように見えてきます。MIRASフレームワークとともに、Googleの研究はその領域に直接入っていきます。これは、人間が絶えず頼っている能力、すなわち、単一の会話やプロンプトを超えて存続する長期的で適応的な選択的記憶に取り組むものです。

人間レベルの認知は、数秒から数年、さらにはその間のすべての記憶に基づいています。あなたは友人の好み、昨夏に読んだ本、帰り道を覚えており、それらの記憶を常に更新しています。どんな信頼できるAGIも同じ範囲が必要です:短期的なスクラッチスペース、中期的な作業コンテキスト、そして進化し続ける持続的で構造化された知識です。

Titansは、近代AIにそのスキャフォールドを効果的に取り付けます。128Kや1Mトークンのコンテキストがセッションごとにリセットされる代わりに、Titansは200万トークン以上の使用可能なコンテキストを維持し、MLPベースのメモリユニットを捨てられるバッファではなく常時作業スペースとして利用し、内部状態を継続的に更新します。

Googleの研究者たちは、これを単なる「より大きなトランスフォーマー」の強調ではなく、根本的なアーキテクチャの転換として位置づけています。MIRASは、トランスフォーマー、RNN、他のシーケンスモデル間の共通の数学的骨組みを明らかにし、その洞察を利用して、メモリを統合システムとして設計し、後付けの検索トリックや事後的なベクターストアとしてではなく展開します。

ここでの長期記憶は、単なる大きなストレージではなく、選択的で適応的です。サプライズメトリックは、予測できない情報や有益な情報の度合いに基づいて、受け取る情報をランク付けします。そのため、例外的な一回のケース、重要な指示、または突発的なプロットツイストは記憶に残る一方で、日常的な決まり文句は適応的な忘却やモメンタムスタイルの更新によって薄れていきます。

そのメカニズムは、現在のチャットボットがハックで偽装しているものを解放します。それは持続的な世界モデルとユーザーのモデルです。タイタンは、原則として、ユーザーの進化する目標を数週間にわたって追跡し、以前の失敗を記憶し、オフラインの再訓練や手動の微調整サイクルなしで戦略を調整することができます。

推論中の継続的な学習は、「モデルのトレーニング」と「使用」の間の壁を崩します。知識のスナップショットを固定して出荷する代わりに、Titansは新しいデータ、エッジケース、または敵対的な入力に遭遇する際にリアルタイムで自らパッチを適用するソフトウェアのように動作します。

影響はすぐに積み重なります。企業のプロジェクトを本当に覚えているアシスタント、数年にわたる文献マップを構築する研究エージェント、毎日環境モデルを洗練するロボットシステムは、単に驚異的なオートコンプリート能力を持つだけでなく、一般的に知的だと認識できるシステムにますます近づいています。

巨人があなたの世界をどう変えるか

リセットされないメモリーが、今日の派手なデモをインフラに変えます。Titansを用いれば、企業アシスタントは会社のライフサイクルの継続的な物語を維持できます。すべてのチケット、会議のメモ、営業電話、事故報告などです。PDFを再度アップロードする代わりに、「2021年以降、私たちの顧客離れの要因はどのように変わりましたか?」と尋ねると、歴史の何百万ものトークンから一度の操作で引き出してくれます。

カスタマーサービスは、単なる無国籍なFAQマシンではなくなります。Titanを使用したサポートボットは、あなたが常にメールを好むこと、先週に三つの失敗した修正を試みたこと、そして保証延長が約束されたが処理されなかったことを記憶できます。数ヶ月にわたり、それは数千のユーザーの中でエッジケースのバグを追跡し、人間が見逃しがちなパターンを浮き彫りにすることができます。

教育が静かな革命を迎えています。パーソナライズされた指導者は、あなたが苦労したすべての演習や、最終的に効果があった具体的なヒント、そして何百時間にもわたるセッションの進捗を思い出すことができます。一般的な「分数の復習」とは異なり、「あなたは通常、分母が素数のときに躓く傾向があるので、その部分を徹底的に練習しましょう」と言うことができます。なぜなら、そのパターンはクッキーではなく、長期記憶に存在するからです。

企業内では、分析ツールはサンプリングを停止します。テクノロジー大手は、何百万ものトークンを含む数年分のログ、トランザクション、センサーデータをチャンク化のハックなしに取り込むことができます。予測システムは、昨四半期の収益における奇妙な変動を2年前の微妙な政策変更に結びつけることができます。なぜなら、これらの両方のイベントはデータウェアハウスとプロンプトではなく、アクティブメモリ内で共存しているからです。

開発者にとって、Titansは純粋なトランスフォーマー信仰からの脱却を意味します。あなたは今や、注意ヘッドやコンテキストウィンドウを単にスケールアップするのではなく、内部のMLPメモリーエンジン、サプライズ駆動の更新、そして適応的な忘却を中心に設計します。これにより、より小型のGPUで動作しながら、まるで内蔵されたプライベートで常に成長するベクトルデータベースを持つかのように振る舞う、よりスリムなエージェントの余地が生まれます。

「コンテキストウィンドウ」が自慢の種でなくなると、市場の動態は急速に変化します。タイタン級のモデルが、低い計算能力で2M以上のトークンを持つライブで更新可能なメモリを用いてGPT-4レベルの推論を提供する場合、売り込みポイントは「128Kコンテキスト」から「あなたのメモリはどれだけ賢いか?」へと移行します。APIの価格設定、ホスティング戦略、さらにはどの企業が顧客関係を所有するかが、その持続的な認知層を制御する企業を中心に再編成されるでしょう。

次世代AIはもはや理論ではない

GoogleのTitansは、思索的な研究論文から実行可能なコードへのAIのシフトを進めています。おもちゃのデモや特定のタスクの代わりに、GoogleはTitansがアクティブなコンテキストとして200万トークン以上を処理していることを報告しています。これは、複数の小説分の情報に相当し、推論中にリアルタイムで記憶を更新しています。

その変化の核心には明確なトリプルポイントがあります。Titansは以下を組み合わせています: - 大規模で持続的なコンテキストウィンドウ - 人間のような記憶の優先順位付け - さらに大きなモデルと比較して優れた計算効率

巨大なコンテキストは通常、膨大な計算コストとレイテンシーを意味します。しかし、タイタンズはすべてのトークンに対する力任せの注意機構の代わりに、埋め込まれたMLPベースのメモリモジュールを使用することでこれを回避し、Google自身のテストによれば、より少ないパラメータと計算量でGPT-4をベンチマークで上回ることができています。

人間のような優先順位付けは「サプライズメトリック」から生まれます。これは、入力がモデルの予想から逸脱したときにスパイクする信号です。Titansはそのスパイクを利用して、長期的に何を保存するか、何を強化するか、そして何を静かに忘れるかを決定します。これは、人間が日常的な出来事を無視し、急激な逸脱を記憶する様子を反映しています。

その驚きに基づく記憶は、勢いと適応的な忘却に寄与するため、モデルが自身の過去に溺れることはありません。古い、驚きの少ないパターンは消え去り、希少だが重要な出来事は残ります。これにより、AIは長期プロジェクト、進化するデータセット、または複数のセッションにわたる会話を常に手動でプロンプトを調整することなく追跡できるようになります。

MIRASは物語のもう一方の半分です。Googleのフレームワークは、トランスフォーマー、RNN、そしてタイタンスタイルモデルが共通の基盤構造を持っていることを示しており、研究者に互換性のないアーキテクチャの動物園ではなく、統一されたロードマップを提供しています。

これらのファミリーを一つの理論にまとめることで、MIRASは他の人々がトランスフォーマー風のアテンション、RNN風の再帰、タイタン風のMLPメモリなどのコンポーネントを一つの数学的な傘の下で組み合わせることを可能にします。これにより、Googleに利益をもたらすだけでなく、模倣者や競合他社の進展も加速するでしょう。

業界全体で、MIRASはGoogle規模の予算を持たないラボがTitanのような能力を求める際の障壁を下げます。オープンソースの実装、ハイブリッドアーキテクチャ、およびコードベース、医療記録、または金融ストリームに最適化された特化型Titanバリエーションを期待してください。

TitansとMIRASを合わせて考えると、AIの変化のペースにおける転換点を迎えています。モデルが数年分の対話を記憶でき、リアルタイムで自己更新し、現在の巨大企業よりも低コストで運用できるようになると、「次世代」AIは未来のロードマップではなく、急速に迫るデフォルトのように見えてきます。

よくある質問

Google Titansとは何ですか?

Titansは、Googleが設計した新しいAIアーキテクチャで、長期記憶を目的としています。2百万以上のトークンのコンテキストを維持し、再学習なしでリアルタイムで積極的に学習し、記憶を更新することができます。

タイタンのメモリーシステムはどのように機能しますか?

Titansは単純なベクトルデータベースの代わりに、小規模な内部ニューラルネットワーク(MLP)をメモリとして使用しています。また、人間の認知を模倣するために、新しく重要な情報を保存する優先順位をつける「驚き指標」も使用しています。

タイタンはGPT-4より優れていますか?

長距離推論をテストするために設計された特定のベンチマーク、たとえばBABILongでは、TitansがGPT-4のようなより大きなモデルを上回り、はるかに少ない計算リソースで動作することが示されています。

MIRASフレームワークとは何ですか?

MIRASは、Titansと共に開発された理論的枠組みです。これはTransformersやRNNなどの異なるAIアーキテクチャを統合し、それらの共通原則を明らかにするとともに、新しくより効率的なモデルを設計するためのブループリントを提供します。

なぜ長期記憶がAIにとって重要なのか?

長期記憶は人間の知性において重要な要素です。それは、継続的な学習、文脈の理解、持続的な知識基盤の構築を可能にし、これらはすべて人工一般知能(AGI)を達成するための重要なステップと見なされています。

🚀Discover More

Stay Ahead of the AI Curve

Discover the best AI tools, agents, and MCP servers curated by Stork.AI. Find the right solutions to supercharge your workflow.

Back to all posts