TL;DR / Key Takeaways
トランスフォーマーの設計者が次に進む時だと言っています。
現代のAIブームの設計者が、自らの創造物を終わらせようとしている。リオン・ジョーンズは、Googleの2017年の「Attention Is All You Need」論文の8人の著者の一人で、トランスフォーマーの時代は終わりを迎えつつあり、「トランスフォーマーを超える時が来た」と主張している。Sakana AI LabsのCTOおよび共同創設者としての新たな立場から、ジョーンズは思考を単発ではなくプロセスとして扱うContinuous Thought Machinesと呼ばれる根本的に異なるアーキテクチャを支持している。
トランスフォーマーは次の単語予測を普遍的なインターフェースに変革し、GPT-4、Gemini、Claude、そしてほぼすべての主要な大規模言語モデルの基盤を支えています。しかし、単にそれらを拡大すること—パラメータを増やし、データを増やし、GPUを増やすこと—は、最近の「スケールの限界」研究が示唆するように、限界利益が縮小し始めており、トレーニングコストはフロンティアモデルごとに数千万から数億ドルに膨れ上がっています。核心となる批判は、これらのシステムが多段階推論、脆弱な論理、そしてパターンを再現するのではなく長期的な計画が必要なタスクに依然として苦しんでいるということです。
その批評は、もともと注意を設計するのを手伝った人からのものであるため、異なる重みを持ちます。元のトランスフォーマーのアーキテクトが、この分野には新しい設計図が必要だと言うとき、それは主要な研究所がスケーリング曲線が彼らを救ってくれると仮定するのではなく、ポストトランスフォーマーのパラダイムを探していることを示しています。ジョーンズと坂名は神経進化と動的システムに賭けており、時間と共に内部状態を進化させるネットワークを探しています。それは、生物学的な脳が機能する方法に近いです。
サカナの作品に描かれている連続的思考機械は、各「ニューロン」に小さな記憶とローカルな更新ルールを与え、数千のミニブレインが多くの内部ステップで相互作用することを可能にします。プロンプトから回答への単一の前方パスではなく、モデルは内部の「ティック」を実行し、問題を再訪し、中間表現を洗練させ、出力を生成する前に心変わりすることすらできます。この変化により、計算は静的なパターンマッチングから継続的なプロセスに変わります。
これが新たに現れる亀裂です:次のトークンを予測するだけのモデルと、時間をかけて情報を処理するシステム。ジョーンズのシフトは、私たちの文を自動的に補完するだけでなく、その間に実際に考えるAIを構築するための新たな競争の始まりを示しています。
サカナAIの革新的な賭け:継続的思考マシン
Sakana AI Labsは、連続思考マシンがトランスフォーマーの次に来ると考えています。「Attention Is All You Need」の8人の著者の一人、リリオン・ジョーンズによって共同設立されたこの東京に本拠を置くスタートアップは、GPT-4、Gemini、Claudeを支えたアーキテクチャからの明確な脱却を目指して、CTMの追求のためにシリーズBの資金調達を行いました。
CTMは、一度発射して忘れるのではなく、思考を継続的な内部プロセスとして扱います。標準的なトランスフォーマーは、プロンプトに対して一度のフォワードパスを実行し、出力トークンを生成した後、ほとんどすべての内部状態を破棄します。一方、CTMは問題を「熟考」し続け、小さなステップを通じて内部の動態を更新し、答えにコミットする前に多くの考慮を行います。
各CTM「ニューロン」は、単なる単純な乗算器ではなく、自分自身の記憶を持つミニ脳のように振る舞います。ニューロンは小さな状態ベクトルを持ち、それが時間と共に持続するため、数回前に何が起こったかを記憶し、自身を更新し、進化する歴史に基づいて将来の計算に影響を与えることができます。
Sakanaの論文では、この状態を持つユニットの同期した群れとしてモデルが説明されています。アクティベーションを一度限りの数値として扱うのではなく、CTMはニューロンの活動がどのように共に上昇し、下降するかを追跡します。その同期パターン—誰が誰と位相を合わせて「ダンス」するか—は、細胞の神経回路におけるリズミカルな発火に類似した、核心的な表現通貨となります。
それにより、CTMは今日のトランスフォーマースタックにおけるステートレスニューロンとは本質的に異なります。主流のLLMは、層を重ねたりトークンを多くサンプリングすることであたかも熟考しているかのように見せますが、各層は依然としてf(x)を計算して先に進むだけであり、個々のユニットは自らの過去の動作の記憶を持っていません。
CTMは明示的な「思考時間」も組み込んでいます。このシステムは、簡単なタスクには短い時間を、難しいタスクには長い時間をかけるなど、変動する内部ティック数で実行され、出力を示す前に人間が難しい迷路や数学のパズルに取り組む際に追加のサイクルを費やす様子を反映しています。
Sakanaはこれをパフォーマンステイクセではなく、モデルとは何かを根本から再構築するものとして捉えています。より大きなフィードフォワードブリックの代わりに、CTMは機械的推論の基本基盤として継続的に進化する動的システムを提案します。
CTMの内部:記憶と独自の思考を持つニューロン
CTMはニューロンが何であるべきかを再定義することから始まります。「私はこれを見ました、だからこれを出力します」という単純なユニットではなく、各CTMニューロンは自分自身の内部状態を持っています—時間の経過とともに持続する小さなスクラッチパッドです。これらのミニブレインは、まるで小さな生き物が自分が見たことや次に何を期待するかを日記に記録するかのように、毎回メモリーを更新します。
これらの日記は重要です。なぜなら、CTMは単一のスナップショットで考えないからです。このモデルは、複数の内部ティックを通して、各ニューロンの状態を何度も更新し、答えを出す前に準備を整えます。難しい問題はより多くのティックを引き起こすため、システムは入力ごとに一度だけ進むのではなく、考える時間を効果的に選択します。
表現も異なります。意味を静的なベクトルとして扱うのではなく、CTMは神経活動が時間を通じてどのように連動して上昇し、下降するかによって「思考」をエンコードします――同期が表現として。二つのニューロンの活動が調和して脈動する際、CTMはその調整されたリズムを、彼らが共同で何らかの概念をエンコードしているサインと見なします。
ダンサーたちが厳密に振り付けられたルーチンを演じるスタジアムを想像してください。個々のダンサーのポーズはあまり意味を持たず、意味は誰がいつ誰と動くかによって生まれます。CTMはこの同期の時間的パターンに基づき、それを概念、計画、および中間的な推論ステップの基盤として利用します。
このようにニューロンを動作させるのは手作業ではできません。Sakana AIは神経進化に依存しており、進化アルゴリズムを用いてニューロンの更新ルール、接続パターン、およびダイナミクスの行動を探索します。固定されたアーキテクチャを彫刻する純粋な勾配降下の代わりに、進化は奇妙な新しいミニ脳のデザインを提案し、最も能力のあるものだけが生き残ります。
これは主流の大規模言語モデルからの鋭い逸脱です。そこでは、注意パターンから層の形状に至るまで、ほぼすべてがトランスフォーマースタック上の勾配降下から導かれます。この文脈では、勾配降下は、ニューロンの動作を一括で変異、再結合、または破棄することができるより大きな探索プロセスの中の一つのツールになります。その結果、驚くほど豊かな動態を持つ専門的なニューロンタイプの動物園が生まれます。
この動的で状態を持つ計算への移行は、Googleやその他の企業から発表されている継続的でネストされた学習に関する広範な研究を反映しています。これらのトレンドを追っている読者は、主要な研究所が一時的なバーストではなく、時間をかけて考えるアーキテクチャを探求している様子については、11月に発表された最新のAIニュース - Google AIのアップデートをチェックしてください。これらは、静的な計算機のようなものでなく、進化し続ける常時稼働の思考プロセスに近づくAIシステムの方向性を示しています。
なぜ「長く考える」ことがより深い思考を引き出すのか
脳は即座に答えるのをやめ、ループを始めるとより興味深くなります。連続思考マシンは、その思考のハードウェアレベルでループを構築し、モデルに明示的な「内部ティック」を与え、自身の隠れた状態を更新し、部分的な計画を再考し、その後にのみ話すことができます。これらのティックは、認知のためのクロックサイクルに非常に似ており、中間的なテキストやツール呼び出しを出力することなく、ネットワーク内で完全に実行される離散的でカウント可能な推論ステップです。
各ティックが何千もの小さな状態を持つニューロンの内部ダイナミクスを進めます。入力から出力への単一の順方向パスの代わりに、CTMは同じ神経回路を何度も実行し、情報が伝播し、定着し、時には逆行することを可能にします。より多くのティックは文字通りより多くの思考時間を意味し、システムは人間が難しいパズルにじっくり向き合うように、より難しい問題に対してその時間を増やすことができます。
その追加の余裕は、トランスフォーマーが通常壁にぶつかるタスクで最も明確に現れます。迷路解決実験では、CTMエージェントは 訓練中に見たことのないサイズの迷路を通る経路を計画することができる 効果的に戦略を外挿し、レイアウトを暗記するのではなく行動しています。各内部のティックは、モデルがさらに数歩を「歩く」ことを心理的に可能にし、行き止まりから後退し、グリッド全体に制約を伝播させます。
標準のトランスフォーマーは、迷路とその解を1回または2回の注意で圧縮するため、ここで苦労します。コンテキストの長さとパラメータ数は厳しい制限となります。CTMの反復ループは、推論の深さをモデルのサイズから切り離します:小さなネットワークでも、問題が要求する場合には50回、100回、または500回のティックを使用することができ、時間をインサイトと交換します。
研究者たちは、CTMを玩具のアルゴリズムタスクにも取り組ませました。このモデルは、数学パズルの「答えをひっくり返す」ルールや、数を昇順に並べるといったシンプルなアルゴリズムを学びました。重要なことに、これは手続き的に行われました:数字は、テキストブックのソートパスを反映する形で、連続的なティックを通じて位置に移動します。一度のパターンマッチングではなく、段階的な処理を行います。
その手続き的な特徴は、CTMを業界の意図的で多段階の推論への執着と直接結びつけています。OpenAIのo1ファミリー、Googleの「思考の連鎖」プロンプト、そしてツールを使用するエージェントは、すべてトランスフォーマーの周りに余分なループを追加します。CTMはそのループをアーキテクチャ自体に組み込むことで、多段階の推論をプロンプトのハックから一級の計算プリミティブに変えます。
Deepseekの長文コンテキストにおける効率革命
CTMのような画期的な脳にインスパイアされたアーキテクチャが注目を集めていますが、同じくらい重要な静かな革命が進行中です。それは、今日のトランスフォーマーを大幅に安価にスケールさせることです。そこにDeepseek Sparse Attention (DSA)が登場します。トランスフォーマーを置き換えるのではなく、彼らの最も厄介なボトルネックを解決することで。
標準的な自己注意は、計算が非常に大変です。Nトークンのコンテキストでは、注意コストはO(N²)としてスケールします。これは、各トークンが他のすべてのトークンと比較されるためです。コンテキストを8,000から1,000,000トークンに押し上げると、単にコストが追加されるだけでなく、15,625倍に爆発的に増加します。
その二次元的な制約は、全コードベース、数日間の会話、大規模な研究アーカイブを記憶する「無限コンテキスト」モデルに関する多くの夢を打ち砕きます。GPUクラスタを使用しても、数十万トークンをフルプレシジョンで処理することは、メモリ、電力、遅延の予算を消耗させます。長いコンテキストモデルが遅くなるたびに、そのコストを実感することができます。
Deepseekの答え:すべてに注意を払うのではなく、重要なことに注意を払え。DSAは新しいモジュール、いわゆるライトニングインデクサーをトランスフォーマースタックに追加し、各トークンが過去を単純に再読するのではなく、迅速に優先順位を付けることができるようにします。
ライトニングインデクサーは、トークンごとの検索エンジンのように機能します。新しいトークンごとに、すべての以前のトークンを迅速にスキャンし、関連性スコアを割り当て、フルアテンションのために上位K候補のみを選択します。Kは小さく固定されており、数十または数百の範囲で維持されますが、Nは数百万に膨れ上がる可能性があります。
それを教科書のすべてのページを再度読み直すのではなく、強調されたノートだけを読むことだと思ってください。答えは依然として本に基づいていますが、時間を無駄にする関係のない章やマージンの落書きはスキップします。
その内部では、注意の計算が二次からおおよそ O(N·K) に変わり、Kが制限されている間は線形に振る舞います。この変化により、今日のハードウェアで非常に長いコンテキストが可能になり、「フロンティア知能」は問題に対してより多くのGPUを投げつけることではなく、モデルがどこを見るかをより賢くすることに関するものになります。
百万トークンのコンテキストを現実のものにする
ミリオントークンのコンテキストは、以前はマーケティングの幻想のように思われていました。しかし、DeepseekのDeepseek Sparse Attention (DSA)は、これを予算に関する課題に変えます。DSAは、計算とメモリをシーケンスの長さに対しておおよそ線形にスケールさせることで、チャットログからコードベースに至るまでの巨大な履歴を振り返るコストを大幅に削減します。
従来のアテンションは、すべてのトークンが他のすべてのトークンと比較することを意味します。128Kトークンの場合、すでに各レイヤーで160億以上のペアワイズ比較が行われます。100万トークンに達すると、1兆回を超える相互作用が発生し、ハードウェアが処理できなくなります。DSAのライトニングインデクサーは、関連性をスコアリングし、重要な上位Kトークンにのみ注意を向けることで、この問題を短絡させます。
リニアに近いスケーリングは、エンジニアが出荷することを敢えて行うことを変えます。256Kまたは512Kトークンのコンテキストウィンドウは、「A100クラスターで一度デモする」から「お客様のために日々運用する」へと変わります。100万トークンのコンテキストは、科学プロジェクトではなく、企業のコパイロットや研究ツールにとって実行可能なSKUのように見えるようになります。
ソフトウェアのリポジトリ全体が一つのコンテキストに収まるようになりました:すべてのマイクロサービス、すべてのマイグレーション、すべての不安定なテスト。長いコンテキストモデルは、最近のスタックトレースからバグを辿り、数年にわたるコミット、設計文書、問題スレッドを通じて、すべてを考慮した修正を提案することができます。数百のファイルにわたる複雑なリファクタリングは、脆弱なプロンプトの連鎖ではなく、一つの理由付けのパスになります。
強化学習エージェントはさらに大きな恩恵を受けます。百万トークンの履歴を用いることで、RLシステムは以下のことに条件付けることができます: - 数ヶ月のゲームプレイの軌跡 - 制度全体にわたる完全な取引ログ - 稀な失敗が発生する長期間のロボティクス実行
その深さは、エージェントがエッジケースから学ぶことを可能にし、それらを引き起こした設定を切り捨てることなく維持します。長いコンテキストのモデリングは、GPT-5による科学の加速 – OpenAIで説明されているような科学的アシスタントを強化し、実験ログ全体、文献レビュー、未加工データをアクティブメモリの中に保持できます。DSAスタイルの効率性は、全体の世界を考慮に入れたコンテキスト対応型AIエージェントの次の波を実現するための重要な要素になります。
GPT-5の新しい役割:科学的発見の加速
GPT-5は静かに新しい役割のオーディションを受けている:地球上で最も知的な人々の lab パートナー。OpenAIの最新の研究プログラムは、このモデルをオックスフォード、ケンブリッジ、ハーバードなどのトップ機関の実際のラボに投入し、教科書をまとめるのではなく、生の未解決の問題に取り組ませる。
OpenAIの「GPT-5による科学の加速」という報告によると、研究者たちは生物学、化学、物理学の最前線の問題にこのモデルを使用しました。これらはベンチマークパズルや合成タスクではなく、通常は数か月のポスドクの時間や助成金を消耗するような、同じく複雑で高リスクな問題でした。
GPT-5の職務内容は「ロボット科学者」というよりも、超高速で知識豊富な研究パートナーのように見えます。科学者たちは、仮説を提示し、実験を設計し、方法を批評し、人間では完全には追跡できない膨大な文献を調査するように促しました。このモデルは候補となるメカニズムを生成し、代替のコントロールを提案し、密な数学や証明をより明確で検証可能なステップに言い換えました。
OpenAIは、人間がしっかりと運転席にいることを強調しています。すべてのGPT-5の提案は、専門家によってフィルタリングされ、修正され、時にはアイデアが却下されました。このシステムは力の倍増器として機能し、文献レビューを加速し、 obscure でありながら関連のある論文を浮き彫りにし、多忙な研究者が見逃すかもしれないケースを列挙しました。
研究の初期の逸話は、科学的方法のための生産性ハックのように聞こえる。一つのグループはGPT-5を使用して: - 矛盾する結果のために何百もの論文をスキャンする - 不一致の統一された説明を提案する - その説明をテストするための新しい実験セットアップをドラフトする
別のチームは、GPT-5を活用して人間の作業記憶を超えた組み合わせ設計空間を探求しました。数千の可能性の中からパラメーター、材料、または分子構造を最適化しました。このモデルは面倒な探索を行い、人間は実際に意味のある方向性を決定しました。
重要なのは、OpenAIがGPT-5を「科学を解決する神託」として提案していないことです。代わりに、この論文ではそれを研究室のための拡張認知として位置づけています。つまり、数日の読書を数分に圧縮し、数十の妥当な次のステップを生成し、人間の研究者が判断、直感、実験により多くの時間を割けるようにするシステムです。
医療の神秘を解き明かし、古代の数学問題を解決する
科学の加速は抽象的に聞こえますが、GPT-5がリアルタイムで実験ノートや数論の論文を書き直し始めると、その現実味が増します。
OpenAIのケーススタディは、まるで特異なフィクションのようです。ある実験では、免疫学者たちがGPT-5に未発表のチャートを提供しました。それは、治療後に特定の免疫細胞群で見られる奇妙な急増と急減を示す時系列データです。チームの誰も、このパターンのメカニズム的な説明に満足できませんでした。
GPT-5は単にチャートを要約しただけではなく、新しい生物学的メカニズムを提案しました。このモデルは、特定のサイトカインの一時的な急増がT細胞のサブタイプの短命な拡張を引き起こし、その後に疲弊と収縮が続く可能性があることを示唆し、さらに曲線の形状に合致する特定のシグナル伝達経路や以前の論文にも言及しました。研究者たちはこの仮説に注目し、追跡分析を行い、後に提案された経路が追加の実験データと一致していることを確認しました。
そのワークフローは単一の勝利よりも重要です。GPT-5は「データ記述」から「機械論的理論」へと効果的に飛躍しました。このステップは人間の科学者が通常、核心的な創造的作業として守っているものです。OpenAIは、複数の生物学プロジェクトにおいて、GPT-5が単にデータセットをクリーニングするだけでなく、テスト可能なメカニズムを提案し、候補となる説明をランク付けし、最初に行うべき実験を提案したと報告しています。
数学はさらに顕著な例を提供しました。数十年前のエルデシュ問題に取り組んでいた二人の数学者は、組合せ論の証明が頑固なボトルネックに達していました。彼らは部分的な議論や失敗した補題の山を抱えていましたが、重要なステップをクリアするための明確な方法がありませんでした。
GPT-5は全てのスケッチブックを取り込んだ:LaTeXの証明、行き止まりの試み、そして非公式なメモ。代数を力任せに解こうとする代わりに、このモデルは特定の極値構成が著者が重要でないと考えていた変換に対してどのように振る舞うかに隠れた対称性を強調した。そのパターンを破る洞察は、異なる帰納パラメータと問題の対象を分割する新しい方法を示唆し、数学者たちはそれを有効な証明のステップとして定式化した。
OpenAIはこれを「AIがエルドシュを証明する」とは捉えず、GPT-5が同じ40ページのドラフトを何度も読み返すことに疲れない第3の共同作業者として機能するとしています。このシステムは、人間の共同著者が確認し、修正するか、捨てる非明白な再構成を提示します。
多様性はホワイトボードやウェットラボの外でも現れます。ロボティクスでは、GPT-5が動作計画と制御のアルゴリズムをレビューし、安全保証が静かに失敗するエッジケースを特定し、それらのギャップを埋める代替の定式化を提案しました。テキストモデルを物理システムの移動型バグ検出器に変えたのです。
新しい科学的方法:人間 + AI
新しいワークフローは、単独の天才のようではなく、むしろ人間と機械の混合ラボのように見え始めています。GPT-5の実験において研究者たちはモデルに「答え」を求めるのではなく、アイデアのための検索エンジンとして扱い、全体のアジェンダを進めながら何百もの候補仮説、調整、エッジケースを試しました。
人間は依然として問題の枠組みを設定しています。彼らはどの生物学的経路が重要であるか、数論のどの仮説を探る価値があるか、モデルが触れることのできる実験的な調整が何であるかを決定します。興味深い、妥当な、または倫理的に許容されるといったことに関するその人間の直観は、勾配降下法から生まれるものではありません。
目標が設定されると、GPT-5は力を倍増させる存在となります。それは検索空間を迅速に拡大し、病気の代替メカニズムを提案したり、実験のための非伝統的なパラメータレジームを示唆したり、免疫学、統計学、トポロジーにまたがる obscure な論文を引き出して隠れた構造を共有することができます。まるで休むことなく読み続ける不屈のポスドクのように考えてください。
医療および数学のケーススタディにおいて、共通のパターンが浮かび上がります。人間は: - 制約と成功基準を明確にする - データ、先行情報、ドメインの仮定をキュレーションする - モデルの推論を一行ずつ検証する - どの出力が実世界の実験を正当化するかを決定する
対照的に、GPT-5は以下の点で優れています: - 大規模な新しい仮説の生成 - 類推や共有の形式を通じて遠いサブフィールドを結びつける - 反例や対立シナリオでアイデアをストレステストする - 面倒な記号的または統計的チェックを自動化する
この労働の分化は専門的な監督を前提としています。なぜなら、このモデルはまだハルシネーションを引き起こすからです。GPT-5は引用を捏造したり、プロンプトの特異性に過剰適合したり、隠れた生物学的または数学的制約に違反する実験を自信を持って推奨したりすることがあります。
プロンプトの感度は、方法論的リスクにもつながります。質問の表現がわずかに変わるだけで、モデルは正しい導出から微妙ではありますが致命的な代数的または概念的な誤りへと転じる可能性があります。特に、多段階の思考過程においてはそうです。このようなプロジェクトに従事する研究者たちは、厳格なプロンプトテンプレート、冗長な実行、そして従来のツールによるクロスチェックを用いました。
楽観的に見ると、これは新しい科学的方法です:人間は判断と価値観を提供し、GPT-5のようなシステムはアイデアの生成と虚偽の検証を産業化します。このハイブリッドワークフローのさらなる例については、最も重要な最新のAIニュースとAIのブレイクスルー:2025をご覧ください。
これらのブレークスルーが2025年に意味すること
突然、AIの進歩は単一のレールの上を走らなくなりました。連続思考マシン、ディープシークスパースアテンション、そしてGPT-5のサイエンスコーパイロットのスケッチは、変化の三つの直交軸を示しています:脳のような新しいアーキテクチャ、長いコンテキストに対する過酷な効率化ハック、そしておしゃべりをやめて実際の科学を始めるモデルです。
Sakana AIのCTMは、トランスフォーマー共同著者Llion Jonesによって推進され、「一回の前方パス、一つの回答」というルールを打破します。その神経細胞は自らの状態を持ち、振動子のように同期し、内部のティックを通じて繰り返し処理を行い、解決策が浮かび上がるまで続けます。これにより、迷路の解決、アルゴリズム的なソート、そして行動する前に何度も思考する強化学習エージェントが可能になります。
Deepseekのスパースアテンションは、異なるボトルネックであるコストに攻撃します。標準のアテンションは、シーケンスの長さに対して二次的にスケールします。1Mトークンでは、メモリとFLOPsの両方において、限界を超えた非現実的なサイズになります。Deepseekのライトニングインデクサーは、コンテキストを最も関連性の高い上位Kトークンにまで剪定し、百万トークンのウィンドウを計算の爆発ではなく、より線形コストの操作のように扱えるようにします。
OpenAIのGPT-5の科学的作業は、「モデルの大きさはどれくらいですか?」という質問から「実際に何を発見できますか?」という質問へとシフトしました。GPT-5は独自のベンチマークにおいて、仮説の生成、実験の設計、そして生物学、化学、数学における実務的なタスクのコードのデバッグを支援し、LLMを単なるPDFの自動補完ではなく、完全な研究ループを閉じることができるコラボレーターに変えました。
これらの動きは、過去五年間の「ただ規模を拡大する」文化との決別を示しています。CTMのような建築的ベット、DSAのような効率的アプローチ、科学のためのGPT-5のようなドメイン特化型展開は、より多様な戦略を示唆しています。専門的なシステム、調整された推論モジュール、そして人間とモデルが異なる役割を果たすワークフローです。
次の6〜12ヶ月はハイブリッドが主流になると予想されています。OpenAIやGoogleなどのフロンティアスタックは、言語に対してトランスフォーマーを維持しつつ、以下の機能を追加するでしょう: - 長期的な推論のためのCTMスタイルの再帰モジュール - 数百万トークンのコンテキスト用のスパースアテンションレイヤー - 実験、コード、または定理検索のために特別に調整されたドメインエージェント
これらの論文は孤立した学術的好奇心のようには読まれず、むしろロードマップのように読まれます。CTMはポストトランスフォーマー制御システムを描き、DeepseekはGPUを溶かさずにコンテキストウィンドウを拡張する方法を示し、GPT-5の科学エージェントは、それらのシステムがどのように実際の研究室や研究グループに接続されるかを概説します。これらは一緒に、デモのように見えるのではなく、2025年の最大のブレークスルーを静かに支える次世代のAIインフラの設計図のように見えます。
よくある質問
連続思考機械(CTM)とは何ですか?
CTMは、Sakana AIが提案する新しいAIアーキテクチャであり、単一パスのトランスフォーマーを超えたものです。これは記憶を持つニューロンと反復的な「思考時間」を利用して、問題を一歩ずつ解決し、人間の推論をより忠実に模倣します。
CTMはChatGPTのようなAIとどう異なりますか?
ChatGPTのようなモデルはトークンごとに単一のフォワードパスで応答を生成しますが、CTMは内部で複数のステップを経て考えを洗練させてから回答を生成します。これにより、より複雑で多段階の推論タスクに取り組むことができます。
GPT-5はすでに科学研究に使用されていますか?
はい、OpenAIの論文によると、GPT-5のプレリリース版がトップ大学との連携で使用され、バイオロジー、数学、コンピュータサイエンスの現実世界の研究を加速させる専門的な研究パートナーとして機能しています。
Deepseekの新しいアテンションメカニズムはなぜこれほど効率的なのでしょうか?
DeepseekのSparse Attention(DSA)は、「ライトニングインデクサー」を使用して、長いコンテキストの中から最も関連性の高い部分にのみ焦点を当てます。これにより、標準的なアテンションの膨大な計算コストを回避し、モデルが百万トークンのコンテキストをより効率的に扱えるようになります。