TL;DR / Key Takeaways
Der Architekt der Transformers sagt, es ist Zeit, weiterzuziehen.
Der Architekt des modernen KI-Booms will nun seine eigene Schöpfung töten. Llion Jones, einer der acht Autoren des Google-Papiers „Attention Is All You Need“ aus dem Jahr 2017, argumentiert, dass die Transformer-Ära am Ende ihrer Möglichkeiten angekommen ist und dass es „Zeit ist, über Transformer hinauszugehen.“ Aus seiner neuen Position als CTO und Mitgründer von Sakana AI Labs unterstützt Jones eine radikal andere Architektur namens Continuous Thought Machines, die Denken als Prozess und nicht als einmaligen Akt betrachtet.
Transformers haben die Vorhersage des nächsten Wortes in eine universelle Schnittstelle verwandelt, die GPT-4, Gemini, Claude und fast jedes große Sprachmodell antreibt. Doch das bloße Skalieren dieser Systeme – mehr Parameter, mehr Daten, mehr GPUs – stößt zunehmend an abnehmende Erträge, wie aktuelle Arbeiten zu „Grenzen der Skalierung“ zeigen, die darauf hindeuten, dass die marginalen Gewinne schrumpfen, während die Trainingskosten in die Zehner- oder Hunderte Millionen Dollar pro bahnbrechendem Modell explodieren. Die zentrale Kritik: Diese Systeme haben weiterhin Schwierigkeiten mit mehrstufigem Denken, brüchiger Logik und Aufgaben, die Planung über längere Zeiträume erfordern, anstatt nur Muster wiederzugeben.
Diese Kritik hat ein anderes Gewicht, wenn sie von jemandem kommt, der ursprünglich an der Gestaltung der Aufmerksamkeit beteiligt war. Wenn ein ursprünglicher Transformer-Architekt sagt, dass das Fachgebiet neue Entwürfe benötigt, signalisiert das, dass große Labore bereits nach post-Transformer-Paradigmen suchen, anstatt davon auszugehen, dass Skalierungskurven sie retten werden. Jones und Sakana setzen auf Neuroevolution und dynamische Systeme – sie suchen nach Netzwerken, die ihren internen Zustand im Laufe der Zeit weiterentwickeln, näher an der Funktionsweise biologischer Gehirne.
Kontinuierliche Denkmaschinen, wie in Sakana's Werk beschrieben, geben jedem "Neuron" eine kleine Erinnerung und lokale Aktualisierungsregeln und lassen dann tausende dieser Mini-Gehirne über viele interne Schritte interagieren. Anstatt einen einzigen Vorwärtsdurchlauf vom Eingabeaufforderung zur Antwort durchzuführen, führt das Modell interne "Ticks" aus, bei denen es das Problem erneut betrachtet, Zwischendarstellungen verfeinert und sogar seine Meinung ändern kann, bevor es eine Ausgabe erzeugt. Dieser Wandel verwandelt die Berechnung von statischem Musterabgleich in einen fortlaufenden Prozess.
Dies ist die aufkommende Fehlerlinie: Modelle, die nur das nächste Token vorhersagen, versus Systeme, die Informationen im Zeitverlauf verarbeiten. Jones' Wendepunkt markiert den Beginn eines neuen Rennens, KI zu entwickeln, die nicht nur unsere Sätze automatisch vervollständigt, sondern tatsächlich zwischen ihnen denkt.
Sakana AI's radikale Wette: Die kontinuierliche Denkmaschine
Sakana AI Labs setzt darauf, dass Kontinuierliche Denkmaschinen die nächste Stufe nach Transformatoren sind. Das in Tokio ansässige Startup, das von Llion Jones mitgegründet wurde, einem der acht Autoren hinter „Attention Is All You Need“, hat gerade eine Series B eingeworben, um CTM als klaren Bruch mit der Architektur, die GPT-4, Gemini und Claude antreibt, voranzutreiben.
Statt einmal zu feuern und es zu vergessen, betrachtet CTM das Denken als einen fortlaufenden internen Prozess. Ein Standardtransformer führt einen einzigen Vorwärtsschritt über Ihre Eingabe durch, erstellt ein Ausgabetoken und verwirft dann fast allen internen Zustand; CTM bleibt „am Überlegen“ über ein Problem, aktualisiert seine internen Dynamiken in vielen kleinen Schritten, bevor es sich auf eine Antwort festlegt.
Jedes CTM „Neuron“ verhält sich weniger wie ein stumpfer Multiplikator und mehr wie ein Mini-Gehirn mit eigener Erinnerung. Neuronen tragen einen winzigen Zustandsvektor, der über die Zeit besteht, sodass sie sich erinnern können, was vor ein paar Schritten passiert ist, sich selbst aktualisieren und zukünftige Berechnungen basierend auf dieser sich entwickelnden Geschichte beeinflussen können.
Sakarnas Papier beschreibt das Modell als ein synchronisiertes Schwarmverhalten dieser zustandsbehafteten Einheiten. Anstatt Aktivierungen als einmalige Zahlen zu behandeln, verfolgt das CTM, wie die Aktivitäten der Neuronen gemeinsam ansteigen und abfallen; diese Synchronisationsmuster – wer "im Takt" mit wem "tanzt" – werden zur zentralen repräsentativen Währung, die dem rhythmischen Feuern in biologischen neuronalen Schaltkreisen entspricht.
Das macht CTM grundsätzlich anders als die zustandslosen Neuronen in den heutigen Transformer-Stacks. Mainstream-LLMs simulieren Überlegungen, indem sie mehr Schichten stapeln oder mehr Tokens sampling, aber jede Schicht berechnet weiterhin nur f(x) und macht weiter; keine einzelne Einheit trägt eine Erinnerung an ihr eigenes vergangenes Verhalten.
CTM beinhaltet auch eine explizite „Denkkapazität“. Das System kann je nach Aufgabe für eine variable Anzahl von internen Ticks laufen – kürzer für einfache Aufgaben, länger für schwierige – bevor es ein Ergebnis präsentiert, was widerspiegelt, wie Menschen zusätzliche Zeit für ein kniffliges Labyrinth oder mathematisches Rätsel benötigen.
Sakana präsentiert dies nicht als eine Leistungsanpassung, sondern als eine umfassende Neugestaltung dessen, was ein Modell ist. Anstelle größerer Vorwärtsverbindungen schlägt CTM ein kontinuierlich sich entwickelndes dynamisches System als grundlegendes Substrat für maschinelles Denken vor.
Inside CTM: Neuronen mit eigenen Erinnerungen und Verstand
CTM beginnt damit, neu zu definieren, was ein Neuron sein darf. Anstelle einer einfachen Einheit „Ich habe das gesehen, ich gebe das aus“ trägt jedes CTM-Neuron seinen eigenen internalen Zustand – einen kleinen Notizblock, der über Zeiträume hinweg bestehen bleibt. Tausende dieser Mini-Gehirne aktualisieren ihre Erinnerungen mit jedem Takt, wie kleine Kreaturen, die Tagebuch führen über das, was sie gerade gesehen haben und was sie als Nächstes erwarten.
Diese Tagebücher sind wichtig, weil CTM nicht in einzelnen Momentaufnahmen denkt. Das Modell durchläuft mehrere interne Ticks und aktualisiert den Zustand jedes Neurons immer wieder, bevor es zu einer Antwort kommt. Schwierige Probleme lösen mehr Ticks aus, sodass das System effektiv entscheidet, wie lange es nachdenken möchte, anstatt bei einem Eingangsdatum an einen einzigen Vorwärtsschritt gebunden zu sein.
Darstellung sieht ebenfalls anders aus. Anstatt Bedeutung als einen statischen Vektor zu behandeln, kodiert CTM seine „Gedanken“ darin, wie die neuronalen Aktivitäten im Zeitverlauf synchron steigen und fallen—Synchronisation als Darstellung. Wenn die Aktivierungen zweier Neuronen synchron pulsieren, betrachtet CTM diesen koordinierten Rhythmus als ein Zeichen dafür, dass sie gemeinsam ein Konzept kodieren.
Stellen Sie sich ein Stadion von Tänzern vor, die eine präzise choreografierte Routine aufführen. Die Pose eines einzelnen Tänzers hat wenig Bedeutung; das Verständnis entsteht daraus, wer mit wem und wann bewegt. CTM stützt sich auf diese zeitlichen Muster der Synchronität und nutzt sie als Grundlage für Konzepte, Pläne und zwischenzeitliche Denkprozesse.
Neuronen so zum Verhalten zu bringen, ist etwas, das man nicht von Hand programmiert. Sakana AI setzt auf Neuroevolution, indem es evolutionäre Algorithmen verwendet, um nach Regeln für die Neuronenaktualisierung, Verbindungsmustern und dynamischen Verhaltensweisen zu suchen. Anstelle von reinem Gradientenabstieg, der eine feste Architektur formt, schlägt die Evolution seltsame neue Mini-Hirn-Designs vor, und nur die fähigsten überleben.
Das stellt einen markanten Bruch mit gängigen großen Sprachmodellen dar, bei denen fast alles – von Aufmerksamkeitsmustern bis hin zu Schichten – aus dem Gradientenabstieg auf einem Transformator-Stack abgeleitet wird. Hier wird der Gradientenabstieg zu einem Werkzeug innerhalb eines umfassenderen Suchprozesses, der neuronale Verhaltensweisen ganzheitlich mutieren, rekombinieren und verwerfen kann. Das Ergebnis ist ein Zoo von spezialisierten Neurontypen mit überraschend reichen Dynamiken.
Dieser Übergang zu dynamischer, zustandsbehafteter Berechnung spiegelt umfassendere Arbeiten zu kontinuierlichem und geschachteltem Lernen wider, die von Google und anderen stammen. Leser, die diese Trends verfolgen, können die neuesten KI-Nachrichten, die wir im November angekündigt haben - Google AI-Updates einsehen, um zu erfahren, wie große Labore auch Architekturen untersuchen, die über Zeit nachdenken, anstatt nur in einmaligen Ausbrüchen. Gemeinsam deuten sie auf KI-Systeme hin, die weniger wie statische Rechner wirken und mehr wie sich entwickelnde, ständig aktive Denkprozesse.
Warum 'Länger Nachdenken' Tieferes Denken Freisetzt
Das Gehirn wird interessanter, wenn es nicht mehr sofort antwortet, sondern beginnt, sich im Kreis zu drehen. Kontinuierliche Denkmaschinen integrieren diesen Prozess auf der Hardware-Ebene des Denkens und geben dem Modell explizite „interne Ticks“, in denen es seinen eigenen verborgenen Zustand aktualisieren, teilweise Pläne überdenken und erst dann sprechen kann. Diese Ticks erinnern stark an einen Taktzyklus für kognitive Prozesse: diskrete, zählbare Denkschritte, die vollständig im Netzwerk ablaufen, ohne dabei Zwischentexte oder Werkzeugaufrufe auszugeben.
Jeder Takt verbessert die internen Dynamiken von Tausenden winziger, zustandsbehafteter Neuronen. Anstatt einen einzigen Vorwärtsschritt von Input zu Output zu machen, durchläuft CTM die gleiche neuronale Schaltung immer wieder, sodass Informationen sich ausbreiten, festigen und manchmal umkehren können. Mehr Takte bedeuten buchstäblich mehr Denkzeit, und das System kann diese für schwierigere Probleme erhöhen, genau wie Menschen bei einem kniffligen Rätsel verweilen.
Dieser zusätzliche Spielraum zeigt sich am deutlichsten bei Aufgaben, bei denen Transformer normalerweise auf Schwierigkeiten stoßen. In Experimenten zum Lösen von Labyrinthen können CTM-Agenten Weg durch Labyrinthe planen, die größer sind als alle, die sie während des Trainings gesehen haben, und damit ihre Strategie effektiv extrapolieren, anstatt Layouts auswendig zu lernen. Jeder interne Takt ermöglicht es dem Modell, mental ein paar Schritte weiter „zugehen“, von Sackgassen zurückzukehren und Einschränkungen über das Gitter zu propagieren.
Standardtransformatoren haben hier Schwierigkeiten, da sie das gesamte Labyrinth und die Lösung in ein oder zwei Durchläufen der Aufmerksamkeit komprimieren. Die Kontextlänge und die Anzahl der Parameter werden zu harten Grenzen. Der iterative Loop von CTM entkoppelt die Tiefe des Denkens von der Modellgröße: Ein kleines Netzwerk kann dennoch 50, 100 oder 500 Ticks benötigen, wenn das Problem es erfordert, und tauscht Zeit gegen Einsicht ein.
Forscher haben CTM auch bei algorithmischen Aufgaben mit Spielzeug herausgefordert. Das Modell lernte einfache Algorithmen wie „drehe die Antwort um“ Regeln in mathematischen Rätseln und Zahlen in aufsteigender Reihenfolge zu sortieren. Kritisch ist, dass es dies prozedural tat: Zahlen bewegen sich über aufeinanderfolgende Schritte an ihren Platz, was die Sortierabläufe im Lehrbuch widerspiegelt, anstatt einmalige Musteranpassung.
Dieser prozedurale Charakter verbindet CTM direkt mit der Besessenheit der Branche für bewusstes, mehrstufiges Denken. Die o1-Familie von OpenAI, Googles "chain-of-thought"-Eingabeaufforderungen und werkzeugnutzende Agenten fügen den Transformatoren zusätzliche Schleifen hinzu. CTM integriert die Schleife direkt in die Architektur und verwandelt mehrstufiges Denken von einem Trick in eine erstklassige Rechenprimitive.
Die Effizienzrevolution von Deepseek für lange Kontexte
Radikal neue, hirn-inspirierte Architekturen wie CTM erregen die Aufmerksamkeit, aber eine leisere Revolution könnte ebenso wichtig sein: die heutigen Transformers drastisch kostengünstiger zu skalieren. Hier kommt Deepseek Sparse Attention (DSA) ins Spiel, nicht indem es Transformers ersetzt, sondern indem es an ihrem schmerzhaftesten Engpass ansetzt.
Der Standard- Selbstaufmerksamkeit leidet unter brutaler Mathematik. Für einen Kontext von N Tokens steigen die Aufmerksamkeitskosten mit O(N²), da jeder Token sich mit jedem anderen Token vergleicht. Wenn Sie den Kontext von 8.000 auf 1.000.000 Tokens erhöhen, fügen Sie nicht nur Kosten hinzu, sondern explodieren diese um den Faktor 15.625.
Diese quadratische Wand zerstört viele Träume über "unendliche Kontext"-Modelle, die ganze Codebasen, mehrtägige Chats oder umfangreiche Forschungsarchive im Gedächtnis behalten. Selbst mit GPU-Clustern kann die Verarbeitung von Hunderttausenden von Token in voller Präzision den Speicher-, Energie- und Latenzbudget stark belasten. Man spürt diese Kosten jedes Mal, wenn langkontextuelle Modelle ins Stocken geraten.
Die Antwort von Deepseek: Achten Sie nicht auf alles, sondern konzentrieren Sie sich auf das Wesentliche. DSA fügt dem Transformer-Stack ein neues Modul hinzu, den sogenannten Lightning Indexer, damit jedes Token die Vergangenheit schnell bewerten kann, anstatt sie naiv erneut zu lesen.
Der Lightning-Indexer fungiert wie eine Suchmaschine auf Token-Basis. Für jedes neue Token scannt er schnell alle vorherigen Tokens, weist eine Relevanzbewertung zu und wählt nur die besten K-Kandidaten für die vollständige Aufmerksamkeit aus. K bleibt klein und fest—es sind Dutzende oder Hunderte—während N in die Millionen steigen kann.
Betrachte es so, als würdest du nur die hervorgehobenen Notizen in einem Lehrbuch lesen, anstatt jede Zeile auf jeder Seite erneut zu lesen, bevor du eine Frage beantwortest. Du stützt deine Antwort weiterhin auf das Buch, überspringst aber die unwichtigen Kapitel und Randkritzeleien, die Zeitverschwendung wären.
Unter der Haube wendet sich die Aufmerksamkeit von quadratisch zu ungefähr O(N·K), was linear verhält, solange K begrenzt bleibt. Dieser Umstieg ermöglicht extrem lange Kontexte auf der heutigen Hardware, wodurch „Grenzintelligenz“ weniger darin besteht, mehr GPUs auf das Problem zu werfen, sondern intelligenter zu sein, wo Modelle hinschauen.
Die Verwirklichung eines Millionen-Token-Kontexts
Million-Token-Kontext klang früher wie eine Marketing-Fantasie. Deepseeks Deepseek Sparse Attention (DSA) verwandelt es in eine Budgetierungsfrage. Durch die lineare Skalierung von Rechenleistung und Speicher mit der Sequenzlänge anstelle der quadratischen Skalierung senkt DSA die Kosten für die Rückschau auf immense historische Daten, von Chats bis hin zu Codebasen.
Traditionelle Aufmerksamkeitsmechanismen lassen jedes Token sich mit jedem anderen Token vergleichen. Bei 128K Tokens bedeutet das bereits mehr als 16 Milliarden paarweise Vergleiche pro Schicht; bei 1 Million Tokens erreicht man über eine Billion Interaktionen, und die Hardware versagt. DSAs Blitz-Indizierer umgeht dies, indem er die Relevanz bewertet und sich nur auf die wichtigsten Top-K Tokens konzentriert.
Linear-artige Skalierung verändert, was Ingenieure gewagt versenden. Kontextfenster von 256K oder 512K Tokens entwickeln sich von „einmal in einem A100-Cluster vorführen“ zu „täglich für Kunden betreiben, ohne dass es Feuer fängt.“ Kontexte mit einer Million Tokens hören auf, Forschungsprojekte zu sein, und beginnen, wie ein tragfähiges SKU für Unternehmens-Co-Piloten und Forschungstools auszusehen.
Gesamte Software-Repositories können nun in einen einzigen Kontext passen: jeder Mikroservice, jede Migration, jeder fehlerhafte Test. Ein Langzeit-Kontextmodell kann einen Bug von einem aktuellen Stack-Trace über Jahre von Commits, Entwurfsdokumenten und Issues zurückverfolgen und einen Fix vorschlagen, der all dies berücksichtigt. Komplexe Umstrukturierungen über Hunderte von Dateien werden zu einem einzigen logischen Durchlauf anstelle einer fragilen Kette von Eingabeaufforderungen.
Reinforcement-Learning-Agenten profitieren noch mehr. Mit Millionen-Token-Historien kann ein RL-System auf Folgendes konditionieren: - Monate von Spielverläufen - Vollständige Handelsprotokolle über verschiedene Regimes - Langfristige Robotikläufe mit seltenen Fehlern
Diese Tiefe ermöglicht es Agenten, aus Grenzfällen zu lernen, ohne die Umstände zu verkürzen, die sie verursacht haben. Die Modellierung mit langem Kontext verstärkt auch wissenschaftliche Assistenten wie die in Beschleunigung der Wissenschaft mit GPT-5 – OpenAI beschriebenen, die vollständige Experimentprotokolle, Literaturübersichten und Rohdaten im aktiven Gedächtnis behalten können. Die Effizienz im DSA-Stil wird zu einem entscheidenden enabler für die nächste Welle von kontextbewussten KI-Agenten, die über ganze Welten und nicht nur über Schnipsel nachdenken.
GPT-5s neuer Job: wissenschaftliche Entdeckungen turboantrieb.
GPT-5 führt leise ein Vorsprechen für eine neue Rolle durch: Laborpartner für einige der klügsten Menschen auf dem Planeten. Das neueste Forschungsprogramm von OpenAI bringt das Modell in echte Labore in Oxford, Cambridge, Harvard und anderen Spitzeninstituten, nicht um Lehrbücher zusammenzufassen, sondern um sich mit aktuellen, ungelösten Problemen auseinanderzusetzen.
Laut dem Bericht von OpenAI „Wissenschaft beschleunigen mit GPT-5“ verwendeten Forscher das Modell für wegweisende Fragen in der Biologie, Chemie und Physik. Dies waren keine Benchmark-Rätsel oder synthetischen Aufgaben; es handelte sich um dieselben komplexen, risikobehafteten Probleme, die normalerweise Monate an Postdoc-Zeit und Fördergeldern erfordern.
Die Stellenbeschreibung von GPT-5 sieht weniger nach „Roboter-Wissenschaftler“ aus und mehr nach super-schnellem, wissendem Forschungspartner. Wissenschaftler forderten es auf, Hypothesen vorzuschlagen, Experimente zu entwerfen, Methoden zu kritisieren und riesige Literaturen zu durchsuchen, die kein Mensch vollständig nachverfolgen kann. Das Modell generierte potenzielle Mechanismen, schlug alternative Kontrollen vor und formulierte dichte Mathematik oder Beweise in klarere, überprüfbare Schritte um.
OpenAI betont, dass die Menschen fest das Steuer in der Hand hatten. Jeder Vorschlag von GPT-5 wurde von Fachexperten geprüft, korigiert und manchmal verworfen. Das System fungierte als Kraftmultiplikator: es beschleunigte die Literaturrecherche, brachte versteckte, aber relevante Arbeiten ans Licht und zählte Randfälle auf, die beschäftigte Forscher möglicherweise übersehen könnten.
Frühe Anekdoten aus der Studie lesen sich wie Produktivitätstipps für die wissenschaftliche Methode. Eine Gruppe nutzte GPT-5, um: - Hunderte von Arbeiten auf widersprüchliche Ergebnisse zu durchsuchen - Vereinheitlichte Erklärungen für die Diskrepanzen vorzuschlagen - Neue experimentelle Setups zu entwerfen, um diese Erklärungen zu testen
Ein weiteres Team nutzte GPT-5, um kombinatorische Entwurfsräume zu erkunden, die über das menschliche Arbeitsgedächtnis hinausgehen – indem es Parameter, Materialien oder molekulare Strukturen über Tausende von Möglichkeiten optimierte. Das Modell übernahm die mühsame Suche; die Menschen entschieden, welche Richtungen tatsächlich sinnvoll waren.
Entscheidend ist, dass OpenAI GPT-5 nicht als Orakel präsentiert, das „Wissenschaft löst“. Stattdessen wird es in dem Papier als erweiterte Kognition für Labore dargestellt: ein System, das Tage des Lesens in Minuten komprimiert, Dutzende plausibler nächster Schritte generiert und menschlichen Forschern ermöglicht, mehr Zeit mit Urteilsvermögen, Intuition und praktischen Experimenten zu verbringen.
Entschlüsselung medizinischer Geheimnisse und Lösung antiker Mathematikprobleme
Wissenschaftliche Beschleunigung klingt abstrakt, bis GPT-5 beginnt, Laborprotokolle und Zahlentheoretik-Papiere in Echtzeit umzuschreiben.
OpenAIs eigene Fallstudien lesen sich wie spekulative Fiktion. In einem Experiment fütterten Immunologen GPT-5 mit einem unveröffentlichten Diagramm aus einer humanmedizinischen Studie: einer Zeitreihe, die einen seltsamen Anstieg und Rückgang in einer bestimmten Population von Immunzellen nach der Behandlung zeigte. Niemand im Team hatte eine befriedigende mechanistische Erklärung für das Muster.
GPT-5 fasste das Diagramm nicht nur zusammen; es schlug einen neuartigen biologischen Mechanismus vor. Das Modell deutete darauf hin, dass ein vorübergehender Anstieg eines bestimmten Zytokins eine kurzlebige Expansion eines T-Zell-Subtyps auslösen könnte, gefolgt von Erschöpfung und Kontraktion, und wies sogar auf spezifische Signalisierungswege und frühere Arbeiten hin, die zur Kurvenform passen. Die Forscher markierten die Hypothese, führten Nachanalysen durch und bestätigten später, dass der vorgeschlagene Weg mit zusätzlichen experimentellen Daten übereinstimmte.
Dieser Arbeitsablauf ist wichtiger als der einzelne Erfolg. GPT-5 hat effektiv den Sprung von „Datenbeschreibung“ zu „mechanistischer Theorie“ vollzogen, einen Schritt, den menschliche Wissenschaftler in der Regel als zentrale kreative Arbeit wahren. OpenAI berichtet, dass GPT-5 in mehreren Biologieprojekten von der bloßen Bereinigung von Datensätzen zu Vorschlägen prüfbarer Mechanismen übergegangen ist, dabei verschiedene Erklärungen bewertet und vorgeschlagen hat, welche Experimente zuerst durchgeführt werden sollten.
Mathematik lieferte ein noch deutlicheres Beispiel. Zwei Mathematiker, die an einem seit Jahrzehnten bestehenden Erdos-Problem arbeiteten, waren an einem hartnäckigen Engpass in einem Kombinatorik-Beweis geraten. Sie hatten einen Stapel an unvollständigen Argumenten und fehlgeschlagenen Lemmata, aber keinen klaren Weg durch einen entscheidenden Schritt.
GPT-5 nahm das gesamte Notizbuch auf: LaTeX-Beweise, Sackgassenversuche und informelle Notizen. Anstatt Algebra brutal zu erzwingen, hob das Modell eine verborgene Symmetrie hervor, die zeigte, wie eine bestimmte extremale Konfiguration unter einer Transformation verhielt, die die Autoren als irrelevant betrachtet hatten. Diese musterbrechende Einsicht schlug einen anderen Induktionsparameter und einen neuen Weg vor, die betreffenden Objekte zu partitionieren, was die Mathematiker dann in einen gültigen Beweis Schritt umsetzten.
OpenAI präsentiert dies nicht als „KI beweist Erdős“, sondern als GPT-5, das wie ein dritter Kollaborateur agiert, der niemals müde wird, den gleichen 40-seitigen Entwurf erneut zu lesen. Das System bringt nicht offensichtliche Umstrukturierungen ans Licht, die menschliche Mitautoren dann überprüfen, korrigieren oder verwerfen.
Vielseitigkeit zeigt sich nicht nur auf Whiteboards und in Labors mit flüssigen Stoffen. In der Robotik hat GPT-5 Bewegungsplanungs- und Steuerungsalgorithmen überprüft, Randfälle identifiziert, in denen Sicherheitsgarantien stillschweigend versagten, und alternative Formulierungen vorgeschlagen, die diese Lücken schlossen – ein Textmodell in einen umherstreifenden Fehlerscanner für physische Systeme verwandelnd.
Die neue wissenschaftliche Methode: Mensch + KI
Neue Arbeitsabläufe sehen weniger nach einsamen Genies und mehr nach gemischten Mensch-Maschine-Labors aus. Forscher in den GPT-5-Experimenten fragten das Modell nicht nach „einer Antwort“; sie behandelten es als Suchmaschine für Ideen, indem sie Hunderte von Hypothesen, Anpassungen und Randfällen überprüften, während sie die allgemeine Agenda steuerten.
Menschen definieren weiterhin den Problembereich. Sie entscheiden, welcher biologische Weg von Bedeutung ist, welche Vermutung in der Zahlentheorie es wert ist, untersucht zu werden, und welche experimentellen Stellschrauben das Modell bedienen kann. Diese menschliche Intuition darüber, was interessant, plausibel oder ethisch akzeptabel ist, entsteht nicht durch Gradientensenkung.
Sobald das Ziel festgelegt ist, wird GPT-5 zu einem Kraftmultiplikator. Es erweitert schnell den Suchraum: schlägt alternative Mechanismen für eine Krankheit vor, empfiehlt unorthodoxe Parameterregime für ein Experiment oder bringt obscure Publikationen aus der Immunologie, Statistik und Topologie ans Licht, die eine verborgene Struktur teilen. Man kann es sich vorstellen wie einen unermüdlichen Postdoktoranden, der nie aufhört zu lesen.
Ein Muster zeigt sich in den medizinischen und mathematischen Fallstudien. Menschen: - Definieren Einschränkungen und Erfolgskriterien - Kuratieren Daten, Vorannahmen und domänenspezifische Annahmen - Hinterfragen die Argumentation des Modells Zeile für Zeile - Entscheiden, welche Ergebnisse reale Experimente rechtfertigen
Im Gegensatz dazu glänzt GPT‑5, wenn es: - neuartige Hypothesen in großem Maßstab generiert - entfernte Teildisziplinen durch Analogien und gemeinsame Formalismen verbindet - Ideen mit Gegenbeispielen und adversarialen Szenarien auf den Prüfstand stellt - mühsame symbolische oder statistische Überprüfungen automatisiert
Diese Arbeitsteilung setzt eine fachkundige Aufsicht voraus, da das Modell weiterhin Halluzinationen erzeugt. GPT-5 kann Zitationen erfinden, sich an Eigenheiten des Prompts anpassen oder selbstbewusst ein Experiment empfehlen, das eine verborgene Einschränkung in der zugrunde liegenden Biologie oder Mathematik verletzt.
Die Empfindlichkeit gegenüber Anfragen wird auch zu einem methodologischen Risiko. Kleinste Änderungen in der Formulierung einer Frage können das Modell von einer korrekten Ableitung zu einem subtilen, aber fatalen algebraischen oder konzeptuellen Fehler führen, insbesondere in mehrstufigen Denkprozessen. Die Forscher in diesen Projekten verwendeten daher strenge Anfragevorlagen, redundante Durchläufe und Kreuzprüfungen mit traditionellen Werkzeugen.
Optistisch betrachtet ist dies eine neue wissenschaftliche Methode: Menschen liefern Urteile und Werte, während Systeme wie GPT‑5 die Generierung und Falsifikation von Ideen industrialisieren. Für weitere Beispiele dieses hybriden Workflows in verschiedenen Laboren, schauen Sie sich Die neuesten AI-Nachrichten und AI-Durchbrüche, die am wichtigsten sind: 2025 an.
Was diese Durchbrüche für 2025 bedeuten
Plötzlich verläuft der Fortschritt der KI nicht mehr auf einer einzigen Schiene. Kontinuierliche Denkmaschinen, Deepseek Sparse Attention und die Skizzen des Wissenschafts-Co-Piloten von GPT-5 deuten auf drei orthogonale Änderungsachsen hin: neue hirnähnliche Architekturen, brutale Effizienztricks für langen Kontext und Modelle, die aufhören zu plaudern und anfangen, echte Wissenschaft zu betreiben.
CTM von Sakana AI, angetrieben von Co-Autor Llion Jones, reißt die Regel „ein Vorwärtsschritt, eine Antwort“ auseinander. Seine Neuronen tragen ihren eigenen Zustand, synchronisieren sich wie Oszillatoren und iterieren durch interne Ticks, bis eine Lösung entsteht. Dadurch können Labyrinthlösungen, algorithmisches Sortieren und Verstärkungslernen-Agenten ermöglicht werden, die mehrmals nachdenken, bevor sie handeln.
Deepseek’s Sparse Attention greift ein anderes Engpassproblem an: die Kosten. Standard-Attention skaliert quadratisch mit der Sequenzlänge; bei 1 Million Tokens wird das sowohl für den Speicher als auch für die FLOPs grenzwertig absurd. Der blitzschnelle Indexer von Deepseek reduziert den Kontext auf die top‑K relevanten Tokens, wodurch Millionen-Token-Fenster sich eher wie lineare Kostenoperationen verhalten, anstatt zu einer Rechenexplosion zu führen.
OpenAIs GPT‑5-Wissenschaftsarbeit verschiebt die Frage von „Wie groß ist dein Modell?“ zu „Was kann es tatsächlich entdecken?“. In ihren eigenen Benchmarks half GPT‑5 dabei, Hypothesen zu generieren, Experimente zu entwerfen und Code für reale Aufgaben in Biologie, Chemie und Mathematik zu debuggen, und verwandelte LLMs in Mitstreiter, die vollständige Forschungszyklen schließen können, anstatt nur PDFs zu vervollständigen.
Insgesamt markieren diese Schritte einen Bruch mit der letzten fünfjährigen Kultur des "einfach skalieren". Architektonische Wetten wie CTM, Effizienzstrategien wie DSA und domänenspezifische Einsätze wie GPT-5-für-Wissenschaft deuten auf eine pluralistischere Strategie hin: spezialisierte Systeme, maßgeschneiderte Denkmodule und Arbeitsabläufe, in denen Menschen und Modelle unterschiedliche Rollen einnehmen.
Erwarten Sie, dass die nächsten 6–12 Monate von Hybriden geprägt sein werden. Frontier-Stacks von OpenAI, Google und anderen werden wahrscheinlich Transformer für Sprache beibehalten, aber zusätzlich integrieren: - CTM-ähnliche rekursive Module für langfristiges Denken - Sparse-Attention-Schichten für Kontexte mit mehreren Millionen Token - Domänenagenten, die speziell für Laborarbeiten, Programmierung oder Theorem-Suche abgestimmt sind
Diese Arbeiten wirken nicht wie isolierte akademische Kuriositäten; sie lesen sich wie Fahrpläne. CTM skizziert ein post-Transformator-Steuerungssystem, Deepseek zeigt, wie man Kontextfenster dehnen kann, ohne GPUs zum Überhitzen zu bringen, und der Wissenschaftsagent von GPT-5 umreißt, wie diese Systeme in reale Labore und Forschungsgruppen integriert werden. Zusammen wirken sie weniger wie Demos und mehr wie Blaupausen für die nächste Generation von KI-Infrastruktur, die still und leise die größten Durchbrüche von 2025 unterstützen wird.
Häufig gestellte Fragen
Was sind kontinuierliche Denkmaschinen (CTM)?
CTM ist eine neue KI-Architektur, die von Sakana AI vorgeschlagen wurde und über einstufige Transformer hinausgeht. Sie verwendet Neuronen mit Gedächtnis und iterative 'Denkkapazitäten', um Probleme schrittweise zu lösen und imitiert dadurch das menschliche Denken näher.
Wie unterscheidet sich CTM von KI wie ChatGPT?
Während Modelle wie ChatGPT ihre Antworten in einem einzigen Vorwärtsschritt pro Token generieren, verfeinern CTMs intern ihre Gedanken über mehrere Schritte, bevor sie eine Antwort produzieren. Dies ermöglicht es ihnen, komplexere, mehrstufige Denkaufgaben zu bewältigen.
Wird GPT-5 bereits für wissenschaftliche Forschung eingesetzt?
Ja, laut einem OpenAI-Papier wird eine Vorabversion von GPT-5 in Zusammenarbeit mit führenden Universitäten eingesetzt, um die Forschung in den Bereichen Biologie, Mathematik und Informatik in der realen Welt zu beschleunigen und als kompetenter Forschungspartner zu fungieren.
Was macht den neuen Aufmerksamkeitsmechanismus von Deepseek so effizient?
Deepseeks Sparse Attention (DSA) nutzt einen 'Lightning-Indexer', um nur die relevantesten Teile eines langen Kontexts zu identifizieren und sich auf diese zu konzentrieren. Dies vermeidet die enormen Rechenkosten der Standardaufmerksamkeit und ermöglicht es Modellen, Kontexte mit Millionen von Tokens deutlich effizienter zu verarbeiten.