SubQ AI: 長いコンテキストAIモデルのためのサブ二次LLM

要約 / ポイント

SubQと呼ばれる新しいAIモデルは、1000分の1の計算能力で1200万トークンの巨大なコンテキストを処理すると主張しています。そのsub-quadratic architectureが実証されれば、AIの構築とスケーリングの方法を根本的に変える可能性があります。

二次ボトルネックの終焉

すべての最新のLLM（大規模言語モデル）は、根本的な計算上の課題に直面しています。それは二次スケーリングです。transformer architectureの中心であるattention mechanismは、すべてのトークンがシーケンス内の他のすべてのトークンと相互作用することを要求します。入力テキストの長さを2倍にしても、処理負荷が単に2倍になるだけでなく、計算作業が約4倍になり、長いコンテキストが指数関数的に高価で遅くなります。このdense attentionアプローチは、無数の取るに足らない関係にcomputeを浪費します。

SubQは、革新的なSub-quadratic Sparse Attention (SSA) architectureでこのボトルネックに対処します。SSAは、特定のコンテキスト内で最も意味的に関連性の高い単語間の関係のみをインテリジェントに特定し、computeを集中させます。すべての可能な相互作用を網羅的に計算する代わりに、SSAは各単語に対して少数の重要なトークンのサブセットを選択することを学習し、それらの重要な接続のみに完全なattention mathを実行します。これにより、計算負荷が大幅に軽減されます。

SSAは、以前のsparse attentionの試みや代替architectureとは根本的に異なります。LongformerやBigBirdのような以前の方法は、位置ベースのスパース性を適用し、attentionを近接トークンに限定していました。Mambaのようなarchitectureは、情報を固定されたメモリ状態に圧縮し、明示的なattention計算を放棄します。しかし、SubQのSSAは、コンテンツによって選択されたトークンのサブセットに対してexact attentionを計算し、近似による品質の損失なしに、近接性だけでなく意味的アライメントに基づいて、数百万トークン離れた場所から関連情報を取得することを可能にします。

数値で見るパフォーマンス

SubQのarchitecture上の革新は、説得力のあるパフォーマンス指標に繋がっています。このモデルは、前例のない1200万トークンのコンテキストウィンドウを提供し、一度に膨大な量の情報を処理するための大幅な拡張となります。この画期的なarchitectureは、dense attentionと比較して最大1000分の1のcomputeを使用すると報告されており、大規模タスクのリソース要件を劇的に変えます。さらに、単一のattention layerで100万トークンにおいてFlashAttention 2よりも56倍高速に動作し、処理における大幅な速度向上を示しています。

Retrieval機能は、広範な入力の中から特定の情報を驚くべき精度で特定するモデルの能力を示しています。困難なNeedle-in-a-Haystackベンチマークにおいて、SubQは200万トークンで完璧な100%の精度を達成しました。最大1200万トークンのコンテキストでも、モデルは98%という驚異的なRetrieval精度を維持し、堅牢な長距離理解能力を示しています。

これらの効率性は、劇的な運用コスト削減に繋がります。例えば、Claude Opusで推定2,600ドルかかったと報告されている評価が、SubQではわずか8ドルで完了しました。この大幅なコスト削減は、大規模分析を経済的に実行可能にし、以前は法外な費用によって制約されていたAIアプリケーションの新たなフロンティアを開拓する可能性があります。

SubQはどのように構築されたのか

SubQの開発は、最初から全く新しいモデルをトレーニングするものではありませんでした。代わりに、チームは既存の公開されているオープンウェイトモデルから作業を開始しました。その後、従来のdense attention mechanismをカスタムのSSA layersに外科的に置き換えました。

このアーキテクチャの変更により、新しいトレーニング戦略が可能になりました。開発者はモデルのコンテキスト長を段階的に拡張し、包括的な書籍や広範なコードベースを含む膨大な量の長文データを供給しました。このような反復的でコンテキストを拡張する研究プロセスは、SSAの固有の効率性が関連する計算コストを劇的に削減したため、経済的に実現可能になりました。

この設計を推進したのは、特定の高価値なエンタープライズユースケースでした。SubQは、複雑なアーティファクトの比類ない完全なビューを提供し、煩雑なチャンキングの必要性を排除するように設計されました。その機能は、以下の厳密な分析を対象としています。 - 包括的な理解とリファクタリングのためのコードベース全体 - 長年にわたる複雑なパターンを特定するための財務書類 - 重要な詳細を見逃さないための複雑な法的文書このチャンク化されていない視点は、数百万のトークンにわたるコンテキストの整合性を維持するために最も重要です。

この戦略的アプローチにより、SubQは特に1200万トークンのコンテキストウィンドウと大幅な計算コスト削減という、目覚ましいパフォーマンス指標を達成しました。アーキテクチャとベンチマークに関するより深い技術的考察については、関心のある読者はSubQ 1.1 Small Technical Reportを参照できます。

画期的な進歩か、それとも未検証の誇大広告か？

SubQの大胆な主張は、AIコミュニティ内で二極化した反応を引き起こしました。熱狂的な支持者は、これを潜在的なTransformer以降の画期的な進歩として称賛し、長文コンテキストモデルのパラダイムシフトを予見しています。しかし、かなりの数の研究者は慎重な懐疑的な姿勢を保ち、その革新的な効率性と前例のないコンテキストウィンドウの厳密な独立検証を待っています。

Enjoying this? Get one like it in your inbox each morning.

one email a day · unsubscribe in two clicks · no third-party tracking

この懐疑論には十分な根拠があり、いくつかの重要な要因に起因しています。SubQの主要なパフォーマンスベンチマーク（1000倍少ない計算量と56倍高速という主張を含む）は、主に自己申告であり、現時点では外部検証が不足しています。さらに、モデルの重みは公開されておらず、独立した研究機関が独自の包括的なテストと結果の再現を行うことを妨げています。

文書化されていないパフォーマンスのもう一つの重要な領域は、SubQの一般的な短いプロンプトタスクにおける有効性です。最大1200万トークンという巨大なコンテキストウィンドウ向けに設計されていますが、より従来のLLMアプリケーションにおけるその比較能力はほとんど定量化されておらず、特殊な長文コンテキストシナリオを超えたその幅広い有用性について疑問が残ります。

SubQは現在、一部のデザインパートナーに展開されており、200万から1200万トークンのコンテキストウィンドウを網羅するモデルのより広範なリリースが今年後半に予定されています。真の試金石は、独立した研究機関や開発者がアクセスできるようになり、SubQの前例のない効率性と精度に関する主張が検証可能な実世界でのパフォーマンスに変換されるかどうかを徹底的に検証できるようになったときに訪れるでしょう。そのとき初めて、AIの世界はこれが本当に1000倍の計算量における画期的な進歩を意味するのかを知ることになるでしょう。

よくある質問

SubQとは何ですか、そしてなぜ重要なのでしょうか？

SubQは、スタートアップのSubquadraticが開発した新しい大規模言語モデル（LLM）です。従来のGPTやClaudeのようなTransformerモデルのコンテキストウィンドウサイズを制限する膨大な計算コストの問題を解決すると主張する「sub-quadratic sparse attention」アーキテクチャに基づいて構築されているため、重要です。

sub-quadratic sparse attention (SSA)はどのように機能しますか？

すべての単語が他のすべての単語を参照する標準的な「密な」アテンション（二次的にスケールする）とは異なり、SSAは実際に重要な少数の単語関係のみを特定し、アテンションを計算することを学習します。これにより、非常に長いテキストの処理が劇的に効率的になります。

SubQはGPT-4やClaude Opusのようなモデルよりも優れていますか？

SubQはあらゆる点で優れているように設計されているわけではありません。一部の推論ベンチマークでは健闘していますが、その主な利点は、非常に長いコンテキストタスク（例：コードベース全体の分析）における極めて高い効率とパフォーマンスです。短いプロンプトの場合、既存のモデルが一般的な機能で依然として優位に立つ可能性があります。

SubQのパフォーマンスに関する主張は独立して検証されていますか？

完全にはされていません。第三者であるAppenが一部のカーネルレベルのベンチマークを検証したと報じられていますが、印象的なパフォーマンスとコストに関する主張の多くは、Subquadratic独自のテストによるものです。このモデルはまだ公開されていないため、より広範なAIコミュニティは独立した実世界での検証を待っています。

Found this useful? Share it.

One short daily email of tools worth shipping. No drip funnel.

one email a day · unsubscribe in two clicks · no third-party tracking

SubQ AI: 1000倍の計算能力の飛躍？

二次ボトルネックの終焉

数値で見るパフォーマンス

SubQはどのように構築されたのか

画期的な進歩か、それとも未検証の誇大広告か？

よくある質問

SubQとは何ですか、そしてなぜ重要なのでしょうか？

sub-quadratic sparse attention (SSA)はどのように機能しますか？

SubQはGPT-4やClaude Opusのようなモデルよりも優れていますか？

SubQのパフォーマンスに関する主張は独立して検証されていますか？

次に読む

あなたのAIエージェントは盲目です。これがそれを解決します。

Agentic Loops の間違った使い方をやめよう

KimiのオープンAIが常識を打ち破った

AI最前線をキャッチアップ