OpenAIがAIが考えているのを見つけたばかりです。

驚くべき新しい論文で、OpenAIはモデルの接続の99.9%を削除し、その隠れた論理を明らかにする方法を発表しました。これにより、私たちはAIが段階的に意思決定を行う様子を初めて見ることができます。

Stork.AI
Hero image for: OpenAIがAIが考えているのを見つけたばかりです。
💡

TL;DR / Key Takeaways

驚くべき新しい論文で、OpenAIはモデルの接続の99.9%を削除し、その隠れた論理を明らかにする方法を発表しました。これにより、私たちはAIが段階的に意思決定を行う様子を初めて見ることができます。

彼らがシュルトプランを見つけた瞬間

OpenAIの誰かが、エポキシからCPUを引き出し、中に読み取れる回路図を見つけたのと同じAIの相当物を行いました。彼らの新しい「回路スパース性」研究は、GPT-2スタイルのトランスフォーマーを用いて、Pythonコードでトレーニングし、トレーニング中に内部接続の99.9%以上を容赦なく削除します。残ったのは、確率のぼやけではなく、実際に追跡可能な小さな回路です。

現代の言語モデル設計は、推論をブラックボックスとして扱います。何百万、何十億もの重みが一度に働きかけ、その結果として最終的なトークンしか見ることができません。答えが正しく見えても、どのアテンションヘッド、ニューロン、またはメモリスロットが本当に重要だったのかを誰も言えません。解釈可能性に関する研究は通常、この霧に手を加えますが、それを手描きの配線図のようなものに凝縮することはほとんどありません。

回路のスパース性は目的を逆転させます。OpenAIは、密なGPT-2に対する性能向上を主張していません。彼らは明示的に可読性信頼性のために効率を取引しています。チームは最適化中にウェイトのスパース性を強制し、各AdamWステップの後に最も強い接続を除いてすべてゼロにし、軽い活性化スパース性を追加して内部信号の約1/4のみが同時に発火するようにしています。

最も攻撃的なモデルでは、おおよそ1000の重みのうち1つが非ゼロのままとなりますが、ベンチマーク損失は密なベースラインと比較しても同等のままです。プルーニングはトレーニング中に徐々に強化されるため、モデルは学習した挙動を縮小していくノードとエッジの予算に圧縮します。残ったものは、「スパース回路」と呼ばれるコンパクトな形を成し、依然として引用の終了、括弧のカウント、または変数の型の追跡を行います。

密なトランスフォーマーは、各挙動を広がり、重なり合うサブネットワークに広げ、スムーズな説明を拒否します。単一の特徴は、数十のヘッドや層にまたがって存在し、無関係なパターンと絡み合っています。研究者がそれらのモデルの一部を削除すると、主に「多くの要素が重要だった」ということを学ぶだけで、アルゴリズムの動作については理解できません。

希薄な対照は、ほとんど昔風に見える。引用閉じるタスクにおいて、OpenAIは内部ユニットがわずか12個、存続する接続が9個という最終回路を報告しており、その中には任意の引用で発火するユニットと、シングルクオートとダブルクオートを追跡するユニットが含まれている。かつては多くの活性化が必要だった同じ精度が、今では印刷して注釈を付け、議論することができる論理図に近い何かに収まっている。

99.9%削除実験

イラスト:99.9%削除実験
イラスト:99.9%削除実験

回路のスパース性は、シンプルでありながら過酷なルールから始まります:ほぼすべての接続が、Sprachmodellが学習を続けている間に消えなければなりません。OpenAIは、Pythonコードに基づいてGPT-2スタイルのトランスフォーマーをトレーニングし、すべてのAdamW更新の後に最も大きな重み以外をゼロにします。穏やかな正則化もソフトなペナルティもなく、接続は一歩進むのに十分な価値がある場合だけ生き残り、そうでなければ正確にゼロになります。

最も積極的な設定では、およそ1000個の重みのうち1つだけがゼロでないまま残ります。つまり、内部の配線の99.9%以上が消失し、静かにバックグラウンドで貢献することはありません。さらに、システムは活性スパース性を強制します:どんな瞬間でも、およそ4つの内部信号のうち1つだけが点灯することが許可されています。

そのシグナルは、トランスフォーマースタック全体にわたります。スパース性予算は以下をカバーします: - MLPブロック内の個々のニューロン - アテンションヘッドとチャネル - 残差ストリームおよびメモリ内の読み書きスロット

従来のプルーニングは通常、逆の方法で行われます。まず、大きく密なモデルを収束させ、その後で重要でない重みを切り取ることで、ネットワークがほとんど気付かないことを期待します。回路のスパース性はそのスクリプトをひっくり返し、最適化そのものに制約を組み込むため、モデルは最初から巨大で絡み合ったウェブに依存することを学ぶことがありません。

トレーニングは比較的通常で密度が高く始まり、その後徐々に厳しさを増します。時間が経つにつれて、非ゼロの重みの許容数はスケジュールに従って縮小し、ネットワークは知識を次第に生き残るエッジに圧縮することを余儀なくされます。同じことがアクティベーションにも起こります:各フォワードパスごとに発火するユニットのほんの一部だけが動作する可能性があるため、冗長性は高コストになります。

ほとんどの人は、これがパフォーマンスを壊すと予想するでしょう。ところが、モデルはより冷静でシャープなもの、つまり超効率的な回路のセットに安定します。引用のクローズや括弧のカウントといった単純なアルゴリズムタスクに関して、OpenAIは最小のスパース回路が同じ損失における密なベースラインの内部機構の約16倍小さい(エッジ数による)と報告しています。

機能的には、振る舞いはほとんど同じままであり、内部では混沌が凝縮された論理に崩れ落ちます。残るのは損傷したネットワークではなく、実際にその動作を示す洗練された回路図です。

最も賢い者の生存論理

ここでの生存は、モデルが精度を落とさずにそのスキルをより少ない経路に押し込むことができるかどうかに依存しています。OpenAIは物理学と最適化の手法を借用しています:焼鈍。訓練は通常の密なトランスフォーマーから始まり、許可される非零の重みの数が時間と共に段階的に減少し、AdamWが残ったものを更新し続けます。

トレーニング後に剪定するのではなく、システムは各アップデート後に最大の重み以外をすべてゼロにします。初期の段階では、数千の接続が信号を伝えることができますが、後にはごくわずかしか残りません。最終的には、おおよそ1000個の重みのうち1つだけが非ゼロ状態を保ち、内部の活性化のうち約4分の1のみがいつでも発火することができます。

まとまりのないエッセイを緊密で衝撃的な詩に変えることを想像してみてください。回りくどい表現や余計な考えは消え、アイデアを前に進める実際の行だけが残ります。回路スパース性は、Sprachmodellの内部計算にも同じ圧力をかけます。

この体制の下では、怠惰で冗長なパターンは消滅します。もし二つのニューロンがほとんど同じことをしているなら、アニーリングはモデルに一方を維持し、もう一方を廃棄させます。その結果、生き残った経路は重複したグチャグチャではなく、本当に異なる論理の断片を表すネットワークが得られます。

OpenAIは次に、これらのスパースなサバイバーを同じタスクの損失における標準のデンスベースラインと比較します。シンプルなPythonコードのタスク—クオートの閉じ方、ブラケットのカウント、セット対文字列の検出—では、スパースモデルは精度を維持しつつ、内部の機器が平均して16倍小さい状態で動作します。同じ動作、一六分の一の配線。

その圧縮が重要なのは、モデルが実際に何をしているのかを明らかにするからです。引用閉じタスクでは、最終的な回路はわずか12の内部ユニットと9つのエッジを使用しています:1つのユニットは任意の引用を点灯させ、別のユニットは単一引用と二重引用を追跡し、他のユニットはその状態を伝播させて反転させます。各決定をステップごとに追跡することができるのです。

OpenAIは、全てが平均値に固定された際に依然としてタスクを解決する最小の部分グラフとしてこれらのスパース回路を定義しています。研究者たちは、パフォーマンスが崩壊するまでノードを除去し、必要不可欠なアルゴリズムだけが残るまで余計な重荷を削ぎ落とします。同社の概要、「スパース回路を通じて神経ネットワークを理解する」は、これらの小さなメカニズムがどのようにしてカウント、メモリー、制御フローをトークンごとに実装しているかを解説しています。

抽象的な特徴から具体的な回路へ

漠然とした「特徴」や出現する行動についての詩的な言葉は忘れてください。OpenAIはすべてを回路に固定します:特定のニューロン、アテンションヘッド、メモリの読み書きスロットで構成されたスプラハモデル内の小さなサブグラフと、それを接続する個々の重みです。生き残った各エッジは、全体の99.9%以上の重みが正確にゼロに固定されている海の中の1つの非ゼロパラメータです。

これらの回路が実際に何をするのかを確認するために、チームは問題空間を徹底的に簡素化します。彼らは、モデルが正確に2つの次のトークンの中から選択しなければならない20の小さな決定論的プログラミングパズルで訓練します。創造性はなく、オープンエンドの生成もなく、厳密なルールの下で「AまたはB」と選ぶだけです。

多くのタスクは、一見退屈に思えるかもしれませんが、実際には真のアルゴリズム構造を明らかにします。一つの回路は、Pythonの文字列をシングルクォートまたはダブルクォートで閉じるかどうかを、最初に何で開いたかに基づいて決定します。別の回路は、ネストされたリストをカウントし、現在の括弧の深さに応じて「]」と「]]」のどちらを選択します。そして第三の回路は、変数が最初にセットとして始まったのか文字列として始まったのかを追跡し、後で`add`か`+=`を選択できるようにします。

各行動の背後にある機構を特定するために、OpenAIは厳しいアブレーションを実施します。彼らは内部のユニットと接続を段階的に取り除き、それらを平均値に固定して秘密裏に助けられないようにし、タスクの精度が崩壊する様子を観察します。別の最適化ループが、パフォーマンスを厳しい閾値以上に保つ最小のサブグラフを探します。

そのプロセスを生き残るのは、タスクのための「最小回路」です。それは、行動にとって十分かつ必要なノードとエッジのセットです。解釈可能性のダッシュボードも、事後的なヒートマップもなく、推論時に言語モデルが使用する実際の重みとアクティベーションの上にマスクがかけられているだけです。

引用終了のタスクにおいて、その最小回路はわずか12のユニットと9つの接続から成り立っています。すぐに目を引く2つのユニットがあります。1つはモデルが任意の引用文字に遭遇するたびに発火し、もう1つは時間を通じてシングルクォートとダブルクォートを区別する単純なバイナリ信号を持っています。その信号は残りの接続を通じて流れ、最終的なトークン選択を駆動します。それは1つの思考のための文字通り、検査可能な機械です。

「引用クローズ」回路火災を観察する

イラスト: 「クオートクロージング」回路の火を見る
イラスト: 「クオートクロージング」回路の火を見る

神経ネットワークの中に住む小さなサブルーチンを想像してみてください:12のユニット、9の接続、1つの仕事。このスパースなGPT-2スタイルの言語モデルに未完成のPython文字列を与えると、「クオートを閉じる」回路が活発になり、アルゴリズムを実行し、再びシャットダウンする様子を文字通り見ることができます。

プロセスは単一の検出ユニットから始まります。このニューロンは、モデルが任意の引用符(シングルまたはダブル、開始または終了)を目にするたびに発火します。その活性化は、「ここに引用符があります」という明確なフラグとなり、あいまいな確率の雲ではなくなります。

その隣に、第二のユニットがさらに専門化しています。このユニットは位置には関心がなく、タイプに関心があります。内部状態は、シングルクォート(')とダブルクォート(")をきれいに区別し、連続的な活性化でエンコードされた1ビットの区別が、ブール値のように使用されます。

その二つの信号は、小さなリレーに送られます:これはメモリセルとして機能する第三のユニットです。それは「引用が表示された」という情報と「それがシングルかダブルか」という情報を読み取り、その情報をモデルの残差ストリームに書き込みます。後の層がそれを取り出すことができるようになります。その書き込みは、文字通りは生き残ったわずか数個の重みであり、何千もあるわけではありません。

そこから、回路は小さな手書きのアルゴリズムのように振る舞います:検出 → 分類 → コピー → 出力。下流のユニットは、モデルがコードの残りの行を進むにつれて、保存された引用タイプの信号を読み取ります。文字列が終了すべきポイントに達すると、別のユニットがその記憶されたビットを使用して正しい閉じトークンを選択します。

重要なのは、OpenAIがこの回路をノードごとに切り離すことができるということです。引用検出器を無効にすると、モデルは引用に反応しなくなります。タイプ追跡ユニットを一定の値に固定すると、文字列を開いた内容に関係なく、常に同じ引用で締めくくります。

研究者たちは、ヒートマップや曖昧な特徴の帰属からこれを推測するわけではありません。彼らは最小限のスパース回路を定義し、マスクを最適化して12のユニットと9つのエッジだけが残るようにし、このサブグラフだけが`single_double_quote`タスクを依然として解決することを確認します。他のすべては平均値に留まり、その動作はほとんど変わりません。

「数百万のパラメーターに広がる『出現的』な振る舞いに使われる分野において、12のユニットを指差して『それが契約を決める要素だ』と言うことは、ほとんど機械的に感じられます。それは統計というよりも、むしろコードのように見えます。」

真のAIメモリーの一端

メモリは、見た目にはシンプルなタスク「set_or_string」で最も明確に現れます。モデルは、変数が `set()` として作成される可能性があるPythonコードを読み取り、その後で `x.add(...)` または `x += ...` のいずれかを選ぶ必要があります。その選択は、モデルが数トークン前に `x` がどのように始まったのかを覚えている場合にのみ意味を持ちます。

OpenAIのスパーストランスフォーマーは、ここで単にパターンを「感じ取る」わけではありません。コードが `x = set()` と定義すると、小さく専用のサブ回路が内部にマーカーを残します。これは「xはセットであり、文字列ではない」という情報をエンコードしたコンパクトな特徴です。モデルが `x = "hello"` やそれに類似した文字列の初期化を見たとき、異なるマーカーが並行して発火します。

そのマーカーはすべての場所に同時に存在するわけではありません。モデルは厳しいスパース性の下で動作しており、おおよそ1000個の重みのうち1つだけが非零で、約4つの活性化のうち1つしか発火を許されないため、わずか数個のノードしかその種の信号を伝えることができません。特定のアテンションヘッドは変数の位置を追跡し、新しいトークンがSprachmodellを通過するにつれて、そのタイプマーカーを時間をかけて段階的にコピーすることを学習します。

後に、コードが `x ??? something` に達すると、回路の別の部分が起動します。小さなリードアウトグループがその時点で残ったストリームを照会し、「xについてどのマーカーが生き残ったか?」と実質的に尋ねます。セットされたマーカーが優勢であれば、回路は確率マスを `.add(` に向けてルーティングします。一方、文字列マーカーが勝つと、`+=` を代わりに強化します。この決定は、保存された後に取得される内部状態に依存しています。

研究者たちは、set_or_string回路内の個々のノードとエッジを切除することでこれを検証しました。マーカーを作成するライターユニットを取り除くと、モデルは変数の型を忘れてしまいます。リーダーユニットを排除すると、以前のトークンが正常に見えていても、保存された情報を使えなくなります。その結果、壊れたメモリレジスタと同じように挙動が崩壊します。

だからこそ、OpenAIはこれを単なる意図的な記憶と位置づけ、曖昧なパターンマッチングではありません。 重みスパース変換器は解釈可能な回路を持つ(OpenAI論文) は、具体的な保存と取得のメカニズムとして説明されています。それは、事実を記憶し、その後に適切なコードラインを選ぶために参照する最小の、調査可能な回路です。

生産モデルへの架け橋を築く

ブリッジは、このプロセスがかわいい実験デモから本物の言語モデルに変わる場所です。OpenAIは、個々の回路を見ることができる小さく非常に疎なトランスフォーマーを訓練し、その後、疎な活性化と実際に展開するサイズの通常の密なモデルとの間を翻訳する学習済みの「ブリッジ」ネットワークを取り付けます。

ブリッジは一対のアダプターのように機能します。一方のエンコーダーは、密なモデルの複雑な隠れ状態を、スパース回路のクリーンで低次元な空間にマッピングします。デコーダーは、そのスパース空間での変化を、密なモデルの数百万のアクティベーションというネイティブな言語に戻します。

その翻訳レイヤーは重要です。なぜなら、解釈可能性を双方向のものに変えるからです。研究者は、スパースモデル内の特徴—例えば、変数がセットか文字列かを追跡するset_or_string回路—を見つけ、同じPythonデータで訓練された生産規模のGPT-2スタイルモデル内でその対応物を探すためにブリッジを利用できます。

一度彼らが一致する特徴を特定すると、ポケッタブルに触れることができます。ブリッジを介して希薄な「これはセットです」ユニットを反転させ、密なモデルが`+=`よりも`.add(`を好むかどうかを観察してください。引用閉じ回路を軽く押して、密なネットワーク内の重みが直接変更されていないにもかかわらず、大きなモデルが突然文字列を誤って閉じるかどうかを確認してください。

これにより、単なるおもちゃのセットアップではなく、実際のシステムのデバッグのための具体的なワークフローが提供されます。デプロイされたモデルがAPIを幻覚したり、コンテンツを誤分類した場合、エンジニアは次のことを行うことができます: - スパースプロキシを使用して責任のある回路を特定する - その回路をブリッジを通じて密なモデルにマッピングする - 系統的に介入して因果関係を確認し、修正をテストする

実際のポイントは、ブリッジが密なネットワークを透明にする魔法のような存在ではないということです。それは、内部の論理をすでに明らかにしている疎なモデルの上に乗っかっているのです。しかし、その足場が整ったら、疎な部分と密な部分が共存するハイブリッドを想像し始めることができます。

将来の言語モデルアーキテクチャは、安全性が重要な行動や規制に敏感な行動をスパースで監査可能な回路を通じてルーティングし、一方でオープンエンドな生成を密なブロックに任せることができるでしょう。ブリッジは単なる研究ツールではなく、これら二つのレジームが一つの一貫したシステム内で相互に通信するための接着剤となるのです。

オープンソースツールキットが登場しました

イラスト:オープンソースツールキットが登場しました
イラスト:オープンソースツールキットが登場しました

OpenAIは単に論文を発表したのではなく、実用的なラボキットを提供しました。Hugging Faceには、openai/circuit-sparsityという0.4億パラメータのGPT-2スタイルの言語モデルがあり、Pythonコードでトレーニングされ、99.9%以上の重みがゼロに設定されています。それに加えて、完全なcircuit_sparsityツールキットがGitHubにあり、抽象的な解釈結果を実際に触ったり、試したり、壊したりできるものに変えています。

このモデルは2025年の基準では非常に小型ですが、異常に透明性があります。訓練を経て残る重みは約1,000個に1つしかなく、同時にニューロン、アテンションチャネル、残留読み書きスロットで発火できる内部アクティベーションは約4個に1つです。その強制されたミニマリズムは、スパース回路を生み出し、同じ事前訓練損失に対して、密なモデルの同等のロジックよりも約16倍小さく動作します。

GitHubリポジトリは、モデルのチェックポイントやREADMEファイルだけを提供するわけではありません。約20のメカニスティックタスクを厳選してまとめており、`single_double_quote`や`bracket_counting`から、メモリを多く消費する`set_or_string`まで、モデルの内部アルゴリズムをストレステストします。各タスクはモデルにバイナリのA/B次トークン選択を強いるため、回路が失敗した際には非常に明白になります。

研究者は、内蔵のプルーニングおよび回路探索ツールも利用できます。このツールキットは次の機能を提供します: - 関連性のないノードをその平均活性化に凍結する - パフォーマンスが低下するまでエッジをマスクする - ターゲット精度を維持できる最小のサブグラフを最適化する

現れるのは、黒い箱の上に貼り付けられた見栄えの良い図ではなく、実際に動作を実行する最小限のサブネットワークです。

軽量の可視化UIがパッケージを完成させます。OpenAIは、個々のノードやエッジが特定のプロンプトで発火する様子を観察できるStreamlitベースのインターフェースを提供しており、トークンの位置をステップで進んだり、疎回路とそれに対する密回路を比較したりすることができます。モデルが変数を文字列の代わりにセットと判断する際に、どのニューロンがトグルするかを実際に見ることができます。

重要なのは、これらすべてが Apache 2.0 ライセンスの下に提供されるということです。これにより、商業研究所、学術グループ、個人のハッカーは法的な手続きを必要とせずに、これらのスパース回路やブリッジを自分たちのスタックにフォーク、変更、埋め込むことができます。OpenAIは実質的に、他の研究者たちにこの主張をテストし、拡張し、あるいは完全に反論することを招いています:それは、現代の言語モデルをオープンにし、その内部で実際の動作ロジックを追跡できるということです。

AIをよりスマートにすることよりも重要なこと

OpenAIは現在、Axiosが最近「AI経済」と呼んだ中心に位置しており、その立場は「大きすぎて潰せない」とも言える不安なほどの近さです。同社のモデルはコードをルーティングし、コンテンツをモデレートし、年齢制限を設定し、ますます多くの人々が見る情報を仲裁しています。1つの企業の言語モデルが重要なインフラストラクチャになると、その考え方は出す答えと同じくらい重要になります。

生のベンチマークスコアはもはや本当の問題を解決しません。もしAIシステムが医療コードを静かに誤分類したり、安全フィルターを十分に適用しなかったり、法的な推論を幻覚した場合、誰かがその理由を知りたがるでしょう。回路スパース性は、この状況で稀なものを提供します:特定のニューロンとエッジを指し示し、「これらの具体的な要素がその決定を生み出した」と言う方法です。

あらゆる方向からOpenAIへのプレッシャーが高まっています。スタートアップや業界の大手企業はGPTクラスのAPIを下回る価格で競争し、独占禁止当局はその支配力を調査し、著作権や名誉毀損に関する訴訟がモデルのトレーニング方法や応答に関して山積しています。一方で、OpenAIは自社の言語モデルAPIをオンラインに保つために、GPU、データセンター、カスタムネットワーキングに途方もない金額を費やしています。

そのリスクの蓄積は、「最先端」という言葉の意味を変えます。コーディングベンチマークでの0.2%の精度向上は、規制当局がモデレーションの判断が失敗した理由や、金融モデルがリスクを誤って評価した理由を尋ねるときには役に立ちません。OpenAIが必要としているのは、単なる知性の向上ではなく、制御可能な知性です。

読み取り可能なAIは、差し迫った規制の標的に直接直面しています。EU、米国、英国の立法者たちは、“説明可能性”、監査トレイル、および高影響モデルに対するシステムレベルのリスク評価の要件を浮上させ続けています。稀な回路は監査人や内部の赤チームに検査する対象を提供します: “引用を閉じる”または“この変数がセットか文字列かを追跡する”を実装する具体的なサブグラフです。

だからこそ、オープンソースの公開が重要なのです。Hugging Faceのモデルとopenai/circuit_sparsity – スパース回路ツールのオープンソースリリースレポジトリは、解釈可能性をスライドウェアの約束から、規制当局、学者、競合他社が実際に検証できるものに変えます。もしOpenAIが重要なインフラストラクチャとして運営を続けたいのであれば、このようなガラス箱の仕組みは次の兆のパラメータよりも重要になるかもしれません。

AIの未来は読みやすい

読みやすいAIは、12ノード、9エッジの回路を指して「そこが引用を閉じる決定がある場所だ」と言えるようになると、もはや比喩ではなくなります。回路のスパース性は、そのアイデアをエンジニアリングの目標に変換します。今後のモデルは機能するだけでなく、その内部論理を検査可能なコンポーネントとして露出させるべきです。これにより、解釈可能性は事後的な解剖から設計の制約にシフトします。

ChatGPTの計画されている「アダルトモード」のような今後の機能は、この変化を避けられないものにします。あなたが子供、ティーンエイジャー、または大人であるかを静かに推測するシステムは、その判断を追跡不可能なアクティベーションのスープの中に隠すことはできません。規制当局、監査人、おそらく裁判所も、どの信号—ブラウジング履歴、表現、時間帯、地域—がどの回路に流れ込んだのか、明示的なコンテンツの承認前に知りたがるでしょう。

スパース回路は、その種の責任を担保するための青写真を提供します。もし安全モデルが「ユーザーは16歳未満である可能性が高い」と判断した場合、その信念を持つ小さな命名されたサブグラフが必要であり、残差ストリーム全体に広がる千の半冗長な特徴は望ましくありません。回路のスパース性により、OpenAIはPythonコードタスクにおいて、動作が等価な回路が密な対照と比較して約16倍小さいサイズで動作できることを示しながら、損失を一定に保つことができます。

アライメント研究は、この種のローカリゼーションに依存しています。権力、詐欺、自己保存を追跡する回路を体系的にスキャンできる場合、隠れたメサ最適化者や新たに生まれる目標を否定することが難しくなります。まばらなモデルと密なモデルの間の架け橋は、将来的にあなたができることを示唆しています:

  • 1スパースな「正直さ」回路を探る
  • 2生産用の言語モデルにマッピングする
  • 3ハードゲートまたは出力への影響を増幅する

スケーリングだけではこれらの問題を解決することはできません。10倍大きなモデルに10倍多くの絡み合った特徴を持たせても、ブラックボックスは深まるだけです。サーキットのスパース性は、別の最前線を指し示します:内部構造が十分に可読であり、デバッグ、規制、必要に応じてシャットダウンすることができるAGI。

そのビジョンが実現すれば、この10年の最も重要なAIの取り組みのいくつかは、ベンチマーク精度の別の小数点を追い求めるのではなく、より奇妙で野心的な何かを追求することになるでしょう。それは、回路図が付属した思考を持つモデルです。

よくある質問

OpenAIの回路のスパース性に関する研究とは何ですか?

これは、AIモデルの内部接続の99.9%以上を取り除いてトレーニングする方法です。これにより、モデルは論理のための小さく理解可能な「回路」を発展させ、意思決定プロセスを透明にします。

これは通常のAIモデルとどう違うのですか?

通常のAIモデルは「密」であり、数十億の相互接続された経路を持つため、「ブラックボックス」となっています。一方、スパースモデルは最小限でクリーンな経路を持ち、研究者が特定の決定を最初から最後まで追跡できるため、回路図を読むような感覚です。

なぜAIを理解できるようにすることが重要なのか?

AIシステムがコンテンツモデレーションから経済システムまで、社会のより重要な機能を制御するようになるにつれて、彼らが*どのように*意思決定を行うかを理解することは、信頼、安全性、規制のために極めて重要です。それにより、彼らの論理を確認し、隠れた失敗を防ぐことができます。

これを自分で試してもいいですか?

はい。OpenAIはHugging Face上に0.4Bパラメータのスパースモデルをリリースし、GitHubにビジュアライゼーションツールを含む完全なツールキットを公開しました。これにより、研究者や開発者はこれらの回路を直接探索することが可能になります。

🚀Discover More

Stay Ahead of the AI Curve

Discover the best AI tools, agents, and MCP servers curated by Stork.AI. Find the right solutions to supercharge your workflow.

Back to all posts