OpenAI hat gerade eine KI beim Denken erwischt.

In einem beeindruckenden neuen Papier zeigt OpenAI, wie sie 99,9 % der Verbindungen eines Modells gelöscht haben, um dessen verborgene Logik offenzulegen. Zum ersten Mal können wir beobachten, wie eine KI Entscheidungen Schritt für Schritt trifft.

Stork.AI
Hero image for: OpenAI hat gerade eine KI beim Denken erwischt.
💡

TL;DR / Key Takeaways

In einem beeindruckenden neuen Papier zeigt OpenAI, wie sie 99,9 % der Verbindungen eines Modells gelöscht haben, um dessen verborgene Logik offenzulegen. Zum ersten Mal können wir beobachten, wie eine KI Entscheidungen Schritt für Schritt trifft.

Der Moment, in dem sie den Schaltplan fanden

Jemand bei OpenAI hat gerade das KI-Pendant dazu gemacht, einen CPU aus Epoxidharz herauszuziehen und einen lesbaren Schaltplan darin zu finden. Ihre neue Forschung zur „Schaltungs-Dünnheit“ nimmt einen GPT-2-ähnlichen Transformer, trainiert ihn mit Python-Code und löscht während des Trainings brutal mehr als 99,9 % seiner internen Verbindungen. Was übrig bleibt, ist kein verschwommenes Wahrscheinlichkeitsbild, sondern winzige, nachverfolgbare Schaltkreise, die man tatsächlich verfolgen kann.

Moderne Sprachmodell-Designs behandeln das Denken als eine Black Box: Millionen oder Milliarden von Gewichten feuern gleichzeitig, und man sieht nur das endgültige Token. Selbst wenn eine Antwort korrekt zu sein scheint, kann niemand sagen, welcher Attention-Kopf, welches Neuron oder welcher Speicherplatz wirklich wichtig war. Arbeiten zur Interpretierbarkeit versuchen normalerweise, in diesen Nebel einzudringen; sie bringen es fast nie dazu, dass es wie ein handgezeichnetes Verschaltungsschema aussieht.

Die Circuit-Sparsity verändert das Ziel. OpenAI behauptet nicht, eine Leistungssteigerung gegenüber dichten GPT-2-Modellen zu erreichen; sie tauschen explizit Effizienz gegen Lesbarkeit und Vertrauen ein. Das Team stellt während der Optimierung selbst Gewichtssparsamkeit sicher, indem es nach jedem AdamW-Schritt alle Verbindungen außer den stärksten auf null setzt, und fügt eine leichte Aktivierungssparsamkeit hinzu, sodass nur etwa 1 von 4 internen Signalen gleichzeitig aktiviert wird.

In den aggressivsten Modellen bleibt ungefähr 1 von 1000 Gewichten nicht null, während der Benchmark-Verlust jedoch mit dichten Baselines vergleichbar bleibt. Da das Pruning während des Trainings schrittweise erhöht wird, komprimiert das Modell sein erlerntes Verhalten in ein schrumpfendes Budget aus Knoten und Kanten. Was übrig bleibt, bilden kompakte „sparse Circuits“, die weiterhin Anführungszeichen schließen, Klammern zählen oder Variablentypen verfolgen.

Dichte Transformer verteilen jedes Verhalten über ausgedehnte, sich überschneidende Subnetzwerke, die sich einer klaren Erklärung widersetzen. Ein einzelnes Feature kann in Dutzenden von Köpfen und Schichten existieren, miteinander verwoben mit nicht verwandten Mustern. Wenn Forscher Teile dieser Modelle abtrennen, lernen sie hauptsächlich, dass „viele Dinge wichtig waren“, nicht wie der Algorithmus funktioniert hat.

Dünne Gegenstücke wirken fast altmodisch. Für eine Abschlussaufgabe für Zitate berichtet OpenAI von einem finalen Schaltkreis mit nur 12 internen Einheiten und 9 verbleibenden Verbindungen, darunter eine Einheit, die bei jedem Zitat feuert, und eine andere, die zwischen einfachen und doppelten Anführungszeichen unterscheidet. Die gleiche Genauigkeit, die früher einen Nebel von Aktivierungen erforderte, passt jetzt in etwas, das näher an einem Logikdiagramm ist, das man ausdrucken, annotieren und diskutieren könnte.

Das 99,9% Löschungsexperiment

Illustration: Das 99,9%-Löschexperiment
Illustration: Das 99,9%-Löschexperiment

Schaltungssparsamkeit beginnt mit einer einfachen, aber brutalen Regel: Fast jede Verbindung muss sterben, während das Sprachmodell noch lernt. OpenAI trainiert einen GPT-2-ähnlichen Transformer auf Python-Code und setzt nach jedem AdamW-Update alle bis auf die Gewichte mit der größten Magnitude auf null. Keine sanfte Regularisierung, keine milden Strafen – Verbindungen sind entweder wichtig genug, um einen Schritt zu überstehen, oder sie werden auf genau null gesetzt.

In der aggressivsten Konfiguration bleibt nur etwa 1 von 1.000 Gewichten nicht null. Das bedeutet, dass über 99,9 % der internen Verbindungen verschwinden und nie leise im Hintergrund beitragen. Darüber hinaus erzwingt das System Aktivierungssparsamkeit: Zu jedem Zeitpunkt ist nur etwa 1 von 4 internen Signalen erlaubt, aktiv zu werden.

Diese Signale erstrecken sich über den gesamten Transformator-Stack. Das Sparsamkeitsbudget umfasst: - Einzelne Neuronen in den MLP-Blöcken - Aufmerksamkeitsköpfe und Kanäle - Lese-/Schreibslots im Residualstream und im Speicher

Traditionelles Beschneiden funktioniert normalerweise andersherum. Zuerst trainiert man ein großes, dichtes Modell bis zur Konvergenz, und schneidet dann nachträglich „unwichtige“ Gewichte weg, in der Hoffnung, dass das Netzwerk kaum etwas davon mitbekommt. Circuit-Sparsity kehrt dieses Skript um und integriert die Einschränkung direkt in die Optimierung, sodass das Modell von Anfang an gar nicht lernt, sich auf ein riesiges, verknäueltes Netz zu verlassen.

Das Training beginnt relativ normal und dicht, zieht dann aber die Schrauben an. Im Laufe der Zeit schrumpft die erlaubte Anzahl an Nicht-Null-Gewichten gemäß einem Zeitplan, der das Netzwerk zwingt, sein Wissen in immer weniger überlebenden Kanten zu komprimieren. Dasselbe passiert bei den Aktivierungen: Nur ein kleiner Bruchteil der Einheiten darf bei jedem Vorwärtsdurchlauf feuern, wodurch Redundanz teuer wird.

Die meisten Menschen würden erwarten, dass dies die Leistung beeinträchtigt. Stattdessen stabilisiert sich das Modell zu etwas Kühlerem und Schärferem: einem Satz von hyper-effizienten Schaltkreisen. Für einfache algorithmische Aufgaben wie das Schließen von Angeboten oder das Zählen von Klammern berichtet OpenAI, dass die minimalen spärlichen Schaltkreise etwa 16x kleiner (nach Edge-Anzahl) sind als die internen Mechanismen dichter Baselines bei demselben Verlust.

Funktional bleibt das Verhalten nahezu identisch; intern kollabiert das Chaos zu kompakter Logik. Was bleibt, ist kein beschädigtes Netzwerk, sondern ein reduzierter Schaltplan, der tatsächlich seine Arbeitsweise zeigt.

Überleben der Intelligentesten Logik

Das Überleben hier hängt davon ab, wie gut ein Modell seine Fähigkeiten in immer weniger Pfade komprimieren kann, ohne die Genauigkeit zu verlieren. OpenAI leiht sich einen Trick aus der Physik und der Optimierung: Abkühlung. Das Training beginnt mit einem normalen dichten Transformator, dann verringert sich schrittweise die zulässige Anzahl an nicht nullen Gewichten über die Zeit, während AdamW weiterhin das Übriggebliebene aktualisiert.

Statt nach dem Training zu beschneiden, setzt das System nach jedem Update alle Gewichte bis auf die höchsten Beträge auf Null. Anfangs können Tausende von Verbindungen Signale übertragen; später überlebt nur ein winziges Budget. Am Ende bleibt etwa 1 von 1.000 Gewichten ungleich Null, und nur etwa 1 von 4 internen Aktivierungen kann jederzeit feuern.

Stellen Sie sich vor, man zwingt einen ausschweifenden Aufsatz dazu, ein prägnantes, zerstörerisches Gedicht zu werden. Alle ausweichenden Klauseln und Seitengedanken verschwinden; nur die Zeilen, die die Idee tatsächlich vorantreiben, bleiben übrig. Die Sparsamkeit von Schaltungen übt denselben Druck auf die internen Berechnungen eines Sprachmodells aus.

Unter diesem Regime stirbt jedes faule oder redundante Muster. Wenn zwei Neuronen nahezu dasselbe tun, zwingt das Tempern das Modell dazu, eines zu behalten und das andere wegzuwerfen. Das Ergebnis ist ein Netzwerk, in dem die überlebenden Wege tatsächlich unterschiedliche logische Elemente darstellen, anstatt sich zu überschneiden.

OpenAI vergleicht dann diese spärlichen Überlebenden mit standardmäßigen dichten Baselines beim gleichen Aufgabenverlust. Bei einfachen Python-Code-Aufgaben – Schlusszeichen setzen, Klammern zählen, Erkennung von Mengen versus Zeichenfolgen – erreichen die spärlichen Modelle die gleiche Genauigkeit, während sie auf interner Hardware laufen, die im Durchschnitt etwa 16× kleiner ist. Dasselbe Verhalten, ein Sechzehntel der Verdrahtung.

Diese Kompression ist wichtig, weil sie zeigt, was das Modell tatsächlich tut. Bei der Aufgabe zum Schließen von Zitaten verwendet der finale Schaltkreis nur 12 interne Einheiten und 9 Kanten: Eine Einheit wird bei jedem Zitat aktiviert, eine andere verfolgt einfache versus doppelte Anführungszeichen, weitere propagieren und ändern diesen Zustand. Man kann jede Entscheidung Schritt für Schritt nachverfolgen.

OpenAI definiert diese sparsamen Schaltungen als minimale Teilgraphen, die eine Aufgabe weiterhin lösen, während alles andere auf einen Mittelwert eingefroren wird. Forscher entfernen dann Knoten, bis die Leistung zusammenbricht, und beseitigen überflüssiges Gewicht, bis nur noch der unverzichtbare Algorithmus verbleibt. Der Überblick des Unternehmens, Verstehen von neuronalen Netzwerken durch sparsamen Schaltungen, zeigt, wie diese winzigen Mechanismen das Zählen, das Gedächtnis und den Kontrollfluss Token für Token implementieren.

Von abstrakten Merkmalen zu konkreten Schaltkreisen

Vergessen Sie unscharfe „Funktionen“ oder poetische Worte über emergentes Verhalten. OpenAI konkretisiert alles auf Schaltkreise: winzige Untergraphen innerhalb des Sprachmodells, die aus spezifischen Neuronen, Aufmerksamkeitshäuptern und Lese-/Schreibplätzen im Speicher bestehen, sowie den einzelnen Gewichten, die sie verbinden. Jede überlebende Kante ist ein einzelner von null verschiedenen Parameter in einem Meer, in dem über 99,9 % der Gewichte exakt auf null fixiert sind.

Um zu verstehen, was diese Schaltungen tatsächlich bewirken, reduziert das Team den Problembereich auf das Wesentliche. Sie trainieren an 20 kleinen, deterministischen Programmierrätseln, bei denen das Modell genau zwischen zwei nächsten Tokens auswählen muss. Keine Kreativität, keine offenen Generierungen – nur "A oder B" unter strengen Vorgaben.

Viele Aufgaben scheinen fast langweilig, bis man erkennt, dass sie eine echte algorithmische Struktur offenbaren. Ein Schaltkreis entscheidet, ob eine Python-Zeichenkette mit einem einfachen oder einem doppelten Anführungszeichen geschlossen wird, basierend darauf, was sie geöffnet hat. Ein anderer zählt verschachtelte Listen und wählt je nach aktueller Klammer-Tiefe zwischen “]” und “]]”, während ein dritter verfolgt, ob eine Variable ursprünglich als Menge oder als Zeichenkette begonnen hat, damit sie später `add` oder `+=` wählen kann.

Um die Mechanismen hinter jedem Verhalten zu isolieren, führt OpenAI brutale Ablationen durch. Sie entfernen schrittweise interne Einheiten und Verbindungen, frieren sie auf einen Mittelwert ein, damit sie nicht heimlich helfen können, und beobachten, wann die Aufgabenleistung zusammenbricht. Eine separate Optimierungsschleife sucht nach dem kleinsten Untergraphen, der die Leistung dennoch über einer strengen Schwelle hält.

Was von diesem Prozess übrig bleibt, ist der „minimale Schaltkreis“ für die Aufgabe: eine Menge von Knoten und Kanten, die sowohl ausreichend als auch notwendig für das Verhalten sind. Keine Interpretations-Dashboards, keine nachträglichen Heatmaps – nur eine Maske über den tatsächlichen Gewichten und Aktivierungen, die das Sprachmodell zur Inferenzzeit verwendet.

Für die Zitatabschlusser Aufgabe enthält der minimale Schaltkreis nur 12 Einheiten und 9 Verbindungen. Zwei Einheiten springen sofort ins Auge: eine feuert, wann immer das Modell auf ein beliebiges Anführungszeichen trifft, die andere überträgt ein einfaches Binärsignal, das zwischen einfachen und doppelten Anführungszeichen im Zeitverlauf unterscheidet. Dieses Signal fließt durch eine Handvoll verbleibender Verbindungen, um die endgültige Token-Wahl zu steuern, eine buchstäblich inspizierbare Maschine für einen einzelnen Gedanken.

Den 'Quote-Closing' Circuit Fire beobachten

Illustration: Beobachtung des 'Quote-Closing'-Stromkreisfeuers
Illustration: Beobachtung des 'Quote-Closing'-Stromkreisfeuers

Stellen Sie sich eine winzige Unterroutine vor, die in einem neuronalen Netzwerk lebt: 12 Einheiten, 9 Verbindungen, eine Aufgabe. Füttern Sie dieses spärliche GPT‑2‑ähnliche Sprachmodell mit einem halbvollendeten Python-String, und Sie können buchstäblich beobachten, wie ein engagierter „Zitat schließen“-Schaltkreis aktiviert wird, seinen Algorithmus ausführt und sich wieder abschaltet.

Der Prozess beginnt mit einer einzelnen Detektoreinheit. Dieses Neuron feuert jedes Mal, wenn das Modell irgendein Anführungszeichen sieht – einfach oder doppelt, öffnend oder schließend. Seine Aktivierung wird zu einem klaren „Hier ist ein Zitat“-Flag, nicht zu einer unscharfen Wahrscheinlichkeitswolke.

Direkt daneben spezialisiert sich eine zweite Einheit weiter. Diese kümmert sich nicht um die Position; sie interessiert sich für Typ. Ihr interner Zustand trennt sauber einfache (') von doppelten (") Anführungszeichen, eine Unterscheidung mit einem Bit, die in kontinuierlicher Aktivierung codiert ist, aber wie ein Boolean verwendet wird.

Diese beiden Signale werden dann an ein kleines Relais weitergeleitet: eine dritte Einheit, die als Speicher-Zelle fungiert. Sie liest „ein Zitat ist gerade erschienen“ und „es war einfach oder doppelt“ und schreibt diese Informationen in den Residualstrom des Modells, wo spätere Schichten sie abrufen können. Dieser Schreibvorgang ist buchstäblich eine Handvoll überlebender Gewichte, nicht Tausende.

Von dort aus verhält sich der Schaltkreis wie ein winziges, handgeschriebenes Algorithmus: Erkennen → Klassifizieren → Kopieren → Ausgeben. Nachgelagerte Einheiten lesen das gespeicherte Zitat-signaal, während das Modell den Rest des Codes durchläuft. Wenn der Punkt erreicht ist, an dem die Zeichenkette enden sollte, verwendet eine andere Einheit dieses erinnerte Bit, um das korrekte abschließende Token auszuwählen.

Wesentlich ist, dass OpenAI diesen Schaltkreis schrittweise ablösen kann. Wenn der Zitatdetektor ausgeschaltet wird, hört das Modell auf, auf Zitate zu reagieren. Wenn die Einheit zur Verfolgung des Typs auf einen konstanten Wert eingefroren wird, schließt es immer mit demselben Zitat, unabhängig davon, was die Zeichenfolge geöffnet hat.

Forscher schließen dies nicht aus Wärme- oder vagen Merkmalszuweisungen. Sie definieren einen minimalen dünnen Schaltkreis, optimieren Masken, bis nur noch 12 Einheiten und 9 Kanten übrig bleiben, und überprüfen, dass dieses Subgraph allein weiterhin die `single_double_quote`-Aufgabe löst. Alles andere kann auf seinem Mittelwert verweilen und das Verhalten ändert sich kaum.

Für ein Gebiet, das für „emergente“ Verhaltensweisen über Millionen von Parametern hinweg verwendet wird, fühlt es sich fast mechanisch an, auf ein Dutzend Einheiten zu zeigen und zu sagen „das ist der Abschlussmacher“. Es sieht weniger nach Statistik aus und mehr nach Code.

Ein Blick auf wahres KI-Gedächtnis

Speicher zeigt sich am deutlichsten in einer täuschend einfachen Aufgabe: set_or_string. Das Modell liest Python-Code, in dem eine Variable entweder als `set()` oder als Zeichenkette erstellt werden könnte, und muss später zwischen `x.add(...)` und `x += ...` wählen. Diese Wahl ergibt nur dann Sinn, wenn das Modell sich erinnert, wie `x` vor mehreren Token das erste Leben begann.

OpenAIs spärlicher Transformer fühlt sich hier nicht einfach durch Muster hindurch. Wenn der Code `x = set()` definiert, schreibt ein kleiner, dedizierter Subkreis einen internen Marker in den Residualstrom: ein kompaktes Merkmal, das „x ist eine Menge, kein String“ kodiert. Ein paralleler Pfad löst einen anderen Marker aus, wenn das Modell `x = "hello"` oder ähnliche String-Initialisierungen sieht.

Dieser Marker bleibt nicht überall gleichzeitig. Da das Modell unter brutaler Sparsamkeit läuft – ungefähr 1 von 1000 Gewichten ist ungleich null und nur etwa 1 von 4 Aktivierungen darf feuern – können nur einige wenige Knoten das Signals weiterleiten. Bestimmte Aufmerksamkeitsköpfe lernen, die Position der Variablen zu verfolgen und ihren Typmarker Schritt für Schritt über die Zeit zu kopieren, während neue Tokens durch das Sprachmodell fließen.

Später, wenn der Code `x ??? etwas` erreicht, wird ein anderer Teil des Schaltkreises aktiv. Eine kleine Auslesegruppe fragt an diesem Punkt den verbleibenden Datenstrom ab und fragt effektiv: „Welcher Marker hat für x überlebt?“ Wenn der gesetzte Marker dominiert, leitet der Schaltkreis die Wahrscheinlichkeitsmasse zu `.add(`; wenn der String-Marker gewinnt, wird stattdessen `+=` verstärkt. Die Entscheidung hängt von einem gespeicherten und dann abgerufenen internen Zustand ab.

Forscher haben dies validiert, indem sie einzelne Knoten und Kanten im set_or_string-Schaltkreis abgetragen haben. Entfernen Sie die Schreibeinheiten, die den Marker erzeugen, und das Modell vergisst den Variablentyp; töten Sie die Leseeinheiten, kann es die gespeicherten Informationen nicht mehr nutzen, obwohl frühere Tokens einwandfrei aussahen. Das Verhalten bricht genau so zusammen, wie es bei einem defekten Speicherregister der Fall wäre.

Deshalb beschreibt OpenAI dies als echtes gezieltes Gedächtnis und nicht als lockeres Musterabgleichen. Das Papier über Gewichts-sparse Transformer mit interpretierbaren Schaltungen (OpenAI-Paper) beschreibt es als einen konkreten Speicher- und Abrufmechanismus: eine minimale, überprüfbare Schaltung, die sich eine Tatsache merkt und sie später konsultiert, um die richtige Codezeile auszuwählen.

Brücken zu Produktionsmodellen bauen

Brücken sind der Punkt, an dem dies aufhört, eine niedliche Labor-Demonstration zu sein, und anfängt, echte Sprachmodelle zu berühren. OpenAI trainiert kleine, brutal spärliche Transformer, wobei sie einzelne Schaltungen erkennen, und fügt dann erlernte „Brücken“-Netzwerke hinzu, die zwischen diesen spärlichen Aktivierungen und einem normalen dichten Modell übersetzen, das die Größe hat, die man tatsächlich einsetzen würde.

Eine Brücke funktioniert wie ein Paar Adapter. Ein Encoder transformiert den unordentlichen versteckten Zustand des dichten Modells in den sauberen, niederdimensionalen Raum eines spärlichen Schaltkreises; ein Decoder überträgt jede Veränderung in diesem spärlichen Raum zurück in die nativen Sprache des dichten Modells mit Millionen von Aktivierungen.

Diese Übersetzungsebene ist wichtig, weil sie Interpretierbarkeit in eine Zweistraßensituation verwandelt. Forscher können ein Merkmal im spärlichen Modell finden – sagen wir, den set_or_string-Schaltkreis, der verfolgt, ob eine Variable ein Set oder ein String ist – und dann die Brücke nutzen, um das Pendant in einem Produktionsmodell im GPT-2-Stil zu finden, das auf denselben Python-Daten trainiert wurde.

Sobald sie das passende Merkmal gefunden haben, können sie es anstupsen. Drehen Sie die spärliche „das ist eine Menge“-Einheit über die Brücke und beobachten Sie, ob das dichte Modell `.add(` gegenüber `+=` bevorzugt. Schubsen Sie den Abschlusskreis des Zitats und sehen Sie, ob das große Modell plötzlich Strings falsch schließt, obwohl sich die Gewichte im dichten Netzwerk direkt nicht geändert haben.

Dies bietet einen konkreten Workflow zur Fehlersuche in realen Systemen, nicht nur in Spielumgebungen. Wenn ein bereitgestelltes Modell eine API halluziniert oder Inhalte falsch klassifiziert, könnten Ingenieure: - Einen spärlichen Proxy verwenden, um einen verantwortlichen Schaltkreis zu finden - Diesen Schaltkreis über eine Brücke in das dichte Modell abbilden - Systematisch eingreifen, um Kausalität zu bestätigen und Lösungen zu testen

Der praktische Punkt: Brücken machen dichte Netze nicht magisch transparent; sie bauen auf einem sparsamen Modell auf, das bereits seine interne Logik offenbart. Aber sobald Sie dieses Gerüst haben, können Sie beginnen, Hybride zu entwerfen, in denen spärliche und dichte Teile koexistieren.

Zukünftige Sprachmodellarchitekturen könnten sicherheitskritisches oder regulierungsrelevantes Verhalten durch spärliche, prüfbare Schaltkreise leiten, während die offene Generierung dichten Blöcken vorbehalten bleibt. Brücken werden dann nicht nur zu Forschungstools, sondern das Bindeglied, das es diesen beiden Regimen ermöglicht, innerhalb eines kohärenten Systems miteinander zu kommunizieren.

Das Open-Source-Toolkit ist da

Illustration: Das Open-Source-Toolkit ist da
Illustration: Das Open-Source-Toolkit ist da

OpenAI hat nicht einfach ein Paper veröffentlicht; es hat ein funktionierendes Labor-Kit präsentiert. Auf Hugging Face befindet sich openai/circuit-sparsity, ein GPT-2-ähnliches Sprachmodell mit 0,4 Milliarden Parametern, das auf Python-Code trainiert wurde und über 99,9 % seiner Gewichte auf null gesetzt hat. Dazu gehört ein vollständiges circuit_sparsity-Toolkit auf GitHub, das ein abstraktes Interpretierbarkeitsergebnis in etwas umwandelt, das Sie erkunden, ausprobieren und brechen können.

Das Modell ist bis 2025 standardmäßig winzig, aber ungewöhnlich transparent. Nur etwa 1 von 1.000 Gewichten übersteht das Training, und nur etwa 1 von 4 internen Aktivierungen kann gleichzeitig über Neuronen, Aufmerksamkeitskanäle und Residual-Lese-/Schreibslots aktiv sein. Dieser erzwungene Minimalismus schafft spärliche Schaltungen, die bei demselben Vortraining-Verlust etwa 16-mal kleiner sind als die entsprechende Logik in einem dichten Modell.

Das GitHub-Repository liefert nicht nur Modell-Checkpoints und eine Readme-Datei. Es enthält ein kuratiertes Set von etwa 20 mechanistischen Aufgaben, die die internen Algorithmen des Modells einem Stresstest unterziehen, von `single_double_quote` und `bracket_counting` bis hin zu dem speicherintensiven `set_or_string`. Jede Aufgabe beschränkt das Modell auf eine binäre A/B-Nächster-Token-Wahl, wodurch eindeutig sichtbar wird, wenn ein Circuit versagt.

Forscher erhalten ebenfalls integrierte Werkzeuge zur Beschnitt- und Schaltkreisfindung. Das Toolkit kann: - Irrelevante Knoten auf ihre Durchschnittsaktivierung einfrieren - Kanten maskieren, bis die Leistung sinkt - Für das kleinste Teilgraph optimieren, das dennoch eine Zielgenauigkeit erreicht

Was entsteht, ist kein hübsches Diagramm, das auf eine Black Box geklebt wurde, sondern ein minimales Subnetzwerk, das tatsächlich das Verhalten steuert.

Eine leichtgewichtige Visualisierungsbenutzeroberfläche rundet das Paket ab. OpenAI liefert ein auf Streamlit basierendes Interface, mit dem Sie einzelne Knoten und Kanten bei bestimmten Eingaben beobachten, die Token-Positionen durchschreiten und spärliche Schaltungen mit ihren dichten Gegenstücken vergleichen können. Sie können buchstäblich sehen, welcher Neuron aktiviert wird, wenn das Modell entscheidet, dass eine Variable eine Menge anstelle eines Strings ist.

Von entscheidender Bedeutung ist, dass all dies unter einer Apache 2.0-Lizenz veröffentlicht wird. Das bedeutet, dass kommerzielle Labore, akademische Gruppen und einzelne Hacker diese spärlichen Schaltungen und Brücken in ihren eigenen Stacks ohne rechtliche Hürden abzweigen, modifizieren und einbetten können. OpenAI lädt somit den Rest des Feldes ein, ihre Behauptung zu testen, zu erweitern oder sogar zu widerlegen: dass man ein modernes Sprachmodell öffnen und die darin enthaltene echte, funktionierende Logik nachvollziehen kann.

Wichtiger als KI intelligenter zu machen

OpenAI steht nun im Zentrum dessen, was Axios kürzlich die „KI-Wirtschaft“ nannte, eine Position, die unbehaglich nah an zu groß, um zu scheitern liegt. Seine Modelle leiten Code, moderieren Inhalte, kontrollieren Altersfreigaben und entscheiden zunehmend, welche Informationen Milliarden von Menschen sehen. Wenn das Sprachmodell eines Unternehmens zur kritischen Infrastruktur wird, ist es ebenso wichtig, wie es denkt, wie die Antwort, die es liefert.

Rohbenchmarkwerte lösen das eigentliche Problem nicht mehr. Wenn ein KI-System medizinische Codes heimlich falsch klassifiziert, Sicherheitsfilter nicht ausreichend durchsetzt oder rechtswidriges Denken hervorrufen, wird jemand wissen wollen, warum. Schaltkreis-Sparsamkeit bietet in diesem Umfeld eine seltene Gelegenheit: eine Möglichkeit, auf eine Handvoll Neuronen und Verbindungen zu zeigen und zu sagen: „Diese spezifischen Komponenten haben diese Entscheidung hervorgebracht.“

Der Druck auf OpenAI steigt aus allen Richtungen. Startups und etablierte Unternehmen hetzen, um die GPT-Klassen-APIs zu unterbieten, Antitrust-Behörden prüfen die Dominanz, und Klagen wegen Urheberrechtsverletzungen und Diffamierung häufen sich im Zusammenhang mit der Art und Weise, wie Modelle trainiert werden und reagieren. Währenddessen verbringt OpenAI immense Summen für GPUs, Rechenzentren und maßgeschneiderte Netzwerke, nur um seine Sprachmodell-APIs online zu halten.

Dieser Stapel an Risiken verändert, was "State of the Art" bedeuten muss. Eine Genauigkeitssteigerung von 0,2 % bei einem Programmierbenchmark hilft nicht, wenn Regulierungsbehörden fragen, warum ein Moderationsaufruf gescheitert ist oder ein Finanzmodell Risiko falsch eingeschätzt hat. Was OpenAI braucht – und was die Schaltungssparsamkeit andeutet – ist kontrollierbare Intelligenz, nicht nur mehr Intelligenz.

Readable AI steht direkt im Fokus drohender Regulierung. Gesetzgeber in der EU, den USA und dem Vereinigten Königreich bringen immer wieder Anforderungen an „Erklärbarkeit“, Prüfspuren und systemweite Risikoanalysen für hochwirksame Modelle ins Spiel. Sparse Schaltkreise bieten Auditoren und internen Red-Teams ein Objekt zur Inspektion: einen konkreten Teilgraphen, der „Zitat schließen“ oder „verfolgen, ob diese Variable ein Set oder eine Zeichenkette ist“ umsetzt.

Deshalb ist der Open-Source-Drop von Bedeutung. Das Hugging Face Modell und das openai/circuit_sparsity – Open-Source-Veröffentlichung der Tools für spärliche Schaltungen Repository verwandeln Interpretierbarkeit von einem bloßen Versprechen in etwas, das Regulierungsbehörden, Akademiker und Wettbewerber tatsächlich überprüfen können. Wenn OpenAI als kritische Infrastruktur weiterhin operieren möchte, könnte diese Art von „Glasbox“-Maschinen wichtiger sein als die nächsten Billionen Parameter.

Die Zukunft der KI ist lesbar.

Lesbare KI hört auf, eine Metapher zu sein, sobald man auf einen Schaltkreis mit 12 Knoten und 9 Kanten zeigen kann und sagt: Das ist der Ort, an dem die entscheidende Abschlussentscheidung getroffen wird. Schaltkreis-Dichte nimmt diese Idee und verwandelt sie in ein technisches Ziel: Zukünftige Modelle sollten nicht nur funktionieren, sondern auch ihre interne Logik als prüfbare Komponenten offenlegen. Das verschiebt die Interpretierbarkeit von einer nachträglichen Autopsie zu einem Entwurfszwang.

Zukünftige Funktionen wie den geplanten “Erwachsenenmodus” von ChatGPT machen diesen Wandel unvermeidlich. Ein System, das leise ableitet, ob Sie ein Kind, ein Teenager oder ein Erwachsener sind, kann dieses Urteil nicht in einer nicht nachverfolgbaren Aktivierungsmischung verbergen. Regulierungsbehörden, Prüfer und wahrscheinlich auch Gerichte werden wissen wollen, welche Signale — Browserverlauf, Formulierung, Tageszeit, Region — in welche Schaltkreise geflossen sind, bevor ein Modell explizite Inhalte freigibt.

Sparsame Schaltungen bieten einen Plan für diese Art der Verantwortung. Wenn ein Sicherheitsmodell entscheidet, „der Benutzer ist wahrscheinlich unter 16“, möchte man einen kleinen, benannten Teilgraphen, der diese Annahme trägt, und nicht tausend halb-redundante Merkmale, die über den Reststrom verteilt sind. Mit der Schaltungssparsamkeit zeigt OpenAI, dass für Python-Code-Aufgaben verhaltensäquivalente Schaltungen ~16x kleiner als ihre dichten Pendants laufen können, während der Verlust konstant bleibt.

Die Ausrichtung der Forschung hängt von dieser Art der Lokalisierung ab. Verborgene Mesa-Optimierer und auftauchende Ziele werden schwerer zu leugnen, wenn man systematisch nach Schaltungen sucht, die Macht, Täuschung oder Selbstbewahrung verfolgen. Brücken zwischen spärlichen und dichten Modellen deuten auf eine Zukunft hin, in der man:

  • 1Untersuchen Sie einen spärlichen „Ehrlichkeits“-Schaltkreis.
  • 2Karte es in ein Produktions-Sprachmodell um.
  • 3Hart-Tor oder verstärken Sie ihren Einfluss auf die Ergebnisse.

Die bloße Skalierung kann diese Probleme nicht lösen. Ein 10-mal größeres Modell mit 10-mal mehr verschachtelten Merkmalen vertieft nur die Blackbox. Circuit-Sparsity weist auf eine andere Grenze hin: AGI, deren interne Struktur ausreichend verständlich ist, um sie zu debuggen, zu regulieren und, falls nötig, abzuschalten.

Wenn diese Vision Bestand hat, wird ein großer Teil der wichtigsten KI-Arbeiten in diesem Jahrzehnt nicht einem weiteren Dezimalpunkt der Benchmark-Genauigkeit nachjagen. Vielmehr wird er etwas Eigenartigerem und Ambitionierterem nachstreben: Modelle, deren Gedanken mit einem Schaltplan verbunden sind.

Häufig gestellte Fragen

Was ist die Forschung zur Schaltkreis-Sparsität von OpenAI?

Es ist eine Methode, bei der ein KI-Modell mit über 99,9 % seiner internen Verbindungungen entfernt trainiert wird. Dies zwingt das Modell dazu, kleine, verständliche "Schaltungen" für seine Logik zu entwickeln, wodurch der Entscheidungsprozess transparent wird.

Wie unterscheidet sich das von einem normalen KI-Modell?

Normale KI-Modelle sind 'dicht', mit Milliarden von miteinander verbundenen Pfaden, was sie zu einer 'schwarzen Box' macht. Sparsame Modelle haben minimale, klare Pfade, die es den Forschern ermöglichen, eine bestimmte Entscheidung von Anfang bis Ende nachzuvollziehen, wie das Lesen eines Schaltplans.

Warum ist es so wichtig, KI verständlich zu machen?

Da KI-Systeme immer mehr kritische Funktionen in der Gesellschaft steuern, von der Inhaltsmoderation bis hin zu Wirtschaftssystemen, ist es entscheidend zu verstehen, *wie* sie Entscheidungen treffen, um Vertrauen, Sicherheit und Regulierung zu gewährleisten. Es ermöglicht uns, ihre Logik zu überprüfen und versteckte Fehler zu verhindern.

Kann ich das selbst ausprobieren?

Ja. OpenAI hat ein sparsames Modell mit 0,4 Milliarden Parametern auf Hugging Face veröffentlicht sowie ein vollständiges Toolkit mit Visualisierungstools auf GitHub, das Forschern und Entwicklern ermöglicht, diese Schaltungen aus erster Hand zu erkunden.

Frequently Asked Questions

Was ist die Forschung zur Schaltkreis-Sparsität von OpenAI?
Es ist eine Methode, bei der ein KI-Modell mit über 99,9 % seiner internen Verbindungungen entfernt trainiert wird. Dies zwingt das Modell dazu, kleine, verständliche "Schaltungen" für seine Logik zu entwickeln, wodurch der Entscheidungsprozess transparent wird.
Wie unterscheidet sich das von einem normalen KI-Modell?
Normale KI-Modelle sind 'dicht', mit Milliarden von miteinander verbundenen Pfaden, was sie zu einer 'schwarzen Box' macht. Sparsame Modelle haben minimale, klare Pfade, die es den Forschern ermöglichen, eine bestimmte Entscheidung von Anfang bis Ende nachzuvollziehen, wie das Lesen eines Schaltplans.
Warum ist es so wichtig, KI verständlich zu machen?
Da KI-Systeme immer mehr kritische Funktionen in der Gesellschaft steuern, von der Inhaltsmoderation bis hin zu Wirtschaftssystemen, ist es entscheidend zu verstehen, *wie* sie Entscheidungen treffen, um Vertrauen, Sicherheit und Regulierung zu gewährleisten. Es ermöglicht uns, ihre Logik zu überprüfen und versteckte Fehler zu verhindern.
Kann ich das selbst ausprobieren?
Ja. OpenAI hat ein sparsames Modell mit 0,4 Milliarden Parametern auf Hugging Face veröffentlicht sowie ein vollständiges Toolkit mit Visualisierungstools auf GitHub, das Forschern und Entwicklern ermöglicht, diese Schaltungen aus erster Hand zu erkunden.
🚀Discover More

Stay Ahead of the AI Curve

Discover the best AI tools, agents, and MCP servers curated by Stork.AI. Find the right solutions to supercharge your workflow.

Back to all posts