Googles KI hat jetzt ein permanentes Gedächtnis.

Google hat gerade Titans vorgestellt, eine neue KI-Architektur, die Modellen ein menschliches Langzeitgedächtnis verleiht und frühere Begrenzungen sprengt. Dieser Durchbruch übertrifft GPT-4 bei wichtigen Benchmarks und bringt uns einem AGI-Riesenfortschritt näher.

Hero image for: Googles KI hat jetzt ein permanentes Gedächtnis.
💡

TL;DR / Key Takeaways

Google hat gerade Titans vorgestellt, eine neue KI-Architektur, die Modellen ein menschliches Langzeitgedächtnis verleiht und frühere Begrenzungen sprengt. Dieser Durchbruch übertrifft GPT-4 bei wichtigen Benchmarks und bringt uns einem AGI-Riesenfortschritt näher.

Die KI-Gedächtnismauer bröckelt.

Goldfischgedächtnis-KI ist das schmutzige Geheimnis des Booms der großen Sprachmodelle. Transformer können vielleicht Zehntausende oder Hunderttausende von Tokens jonglieren, aber darüber hinaus schneiden sich Gespräche ab, Dokumente werden gekürzt, und das "Gedächtnis" wird jedes Mal zurückgesetzt, wenn man auf Senden klickt. Für Systeme, die als universelle Denkmaschinen vermarktet werden, bleibt das Vergessen der meisten gerade geschehenen Informationen eine harte Grenze.

Die neue Titans-Architektur von Google und ihr Begleitframework MIRAS zielen direkt auf diese Herausforderung ab. Dies ist kein weiteres "jetzt mit einem 1M-Token-Kontextfenster"-Spezifikations-Upgrade. Titans behandelt das Langzeitgedächtnis als eine erstklassige Systemkomponente und nicht als einfachen Cache, während MIRAS unsere Denkweise über Gedächtnis in Bezug auf Transformatoren, RNNs und andere Architekturen neu definiert.

Aktuelle Frontier-Modelle umgehen das Vergessen mit Retrieval-Hacks und Vektordatenbanken. Sie durchsuchen vergangene Protokolle, ziehen einige Snippets heraus und stecken sie in die Eingabeaufforderung. Das funktioniert für Scripts im Kundenservice; es versagt, wenn Sie ein Modell benötigen, das sich entwickelnde Projekte, persönliche Vorlieben oder mehrtägige Forschungsthemen ohne ständige manuelle Pflege verfolgen soll.

Titans geht über das hinaus, indem es über 2 Millionen Tokens aktiven Kontext speichert – das entspricht mehreren vollständigen Büchern – während es während der Inferenz sein eigenes Gedächtnis aktualisiert. Anstelle eines statischen Schlüssel-Wert-Speichers verwendet es ein kleines mehrschichtiges Perzeptron als gelerntes Gedächtnismodul, das kontinuierlich verfeinert, was wichtig ist. Das Modell liest nicht nur; es schreibt in Echtzeit zu sich selbst zurück.

Das Knacken dieses Gedächtnisengpasses ist ein Wendepunkt für alles, was menschlicher Intelligenz ähnelt. Menschliche Kognition stützt sich auf Jahre angereicherten Kontexts: langwierige Erzählungen über Menschen, Ziele und Einschränkungen. Ohne dauerhaftes, strukturiertes Gedächtnis verhält sich selbst das intelligenteste Modell wie ein Taschenrechner mit Autovervollständigung und nicht wie ein System, das dich tatsächlich kennt.

Der MIRAS-Rahmen von Google argumentiert, dass Transformatoren, RNNs und andere Sequenzmodelle zugrunde liegende Prinzipien teilen, die um Gedächtnis anstatt um reine Skalierung neu strukturiert werden können. Das öffnet die Tür zu Designs, bei denen: - Langzeitgedächtnis im Modell selbst lebt, nicht in externen Hacks - Vergessen adaptiv wird, nicht willkürlich abgeschnitten - Kontext funktional unbegrenzt wächst, nicht nur „mit jeder Veröffentlichung größer“

Was sich abzeichnet, ist ein neues architektonisches Paradigma: Systeme, die über eine Lebensspanne von Tokens nachdenken, nicht nur über ein einzelnes Chatfenster. Die KI-Speichergrenze, die lange als hardwareähnliche Einschränkung betrachtet wurde, beginnt sich mehr wie eine Designentscheidung darzustellen.

Treffen Sie Titans: Die KI, die niemals vergisst.

Illustration: Lernen Sie Titans kennen: Die KI, die niemals vergisst.
Illustration: Lernen Sie Titans kennen: Die KI, die niemals vergisst.

Vergessen Sie inkrementelle Modell-Anpassungen; Titans kommt als ganz anderes Tier daher. Google beschreibt es nicht als ein weiteres großes Sprachmodell, sondern als eine neue KI-Architektur, die sich um eine Idee herum aufbaut: permanenter, trainierbarer Speicher, der während des Betriebs im Modell vorhanden ist. Anstatt den Kontext als eine wegwerfbare Rolle zu betrachten, behandelt Titans ihn als lebendige Datenbank.

Auf Überschriftenebene hat Titans ein Kontextfenster von über 2 Millionen Tokens. In menschlichen Begriffen ist das genug, um jedes Wort der gesamten Harry-Potter-Serie zu halten, plus mehrere Forschungsarbeiten und Ihr E-Mail-Postfach, alles auf einmal. Während heutige Spitzenmodelle Schwierigkeiten haben, ein einzelnes langes PDF zu bewältigen, kann Titans mehrere Bücher mit Informationen in einer einzigen Sitzung jonglieren.

Die Rohgröße ist nicht der radikale Teil. Titans verwandelt dieses massive Fenster in aktive Erinnerung, die sich aktualisiert, während das Modell denkt, nicht nur wenn Ingenieure es neu trainieren. Jeder neue Satz, jede Korrektur oder Überraschung kann beeinflussen, worauf das System als Nächstes achtet, direkt in seinem Schlußfolgerungskreis.

Statt statischer Schlüssel-Wert-Caches oder fester Embeddings integriert Titans einen kleinen mehrschichtigen Perzeptron als seinen Speicherkern. Dieses neuronale Modul lernt Muster in Echtzeit über tausende von Tokens und passt interne Gewichte an, während neue Informationen eintreffen. Der Speicher hört auf, eine passive Nachschlagetabelle zu sein, und wird zu einer ständig abgestimmten Funktion.

Die Forscher von Google integrieren ein „Überraschungs“-Signal, das von der menschlichen Kognition inspiriert ist. Wenn Titans auf unerwartete oder besonders informative Daten stößt, kennzeichnet dieses Maß sie als einprägsam; routinemäßige, repetitive Details verblassen schneller. Das Modell entscheidet effektiv, welche Ereignisse langfristig gespeichert werden sollen und welche ins Vergessen geraten können.

Da Aktualisierungen in Echtzeit stattfinden, hinterlässt jede Interaktion mit Titans eine Spur in seinem internen Zustand. Eine lange Fehlersuche, eine Woche Code-Überprüfungen oder monatelange Labornotizen können sich zu einem sich entwickelnden Verständnis summieren, nicht zu einer Reihe isolierter Gespräche. Das Verhalten des Modells verändert sich, während diese Historie dichter wird.

Diese Hartnäckigkeit ermöglicht etwas, das aktuelle Transformator-Modelle nicht sauber leisten können: eine Erzählung über dich, dein Projekt oder deinen Datensatz zu erstellen, die über eine einzelne Eingabe hinaus Bestand hat. Titans hört auf, eine hilfreiche Assistenz darzustellen, und beginnt, wie ein Partner zu agieren, der sich tatsächlich erinnert, was du gestern gemacht hast.

Jenseits von roher Gewalt: Die 'Überraschungsmetrik'

Brute-Force-Attention behandelt jedes Token wie einen VIP-Gast auf einer Party: gleich wichtig, gleich teuer. Standard-Transformatoren führen quadratische Selbstaufmerksamkeit über alle Tokens aus, sodass die Kontextfenster die Rechenkosten in die Höhe treiben, wenn sie von 8.000 auf 2.000.000 Tokens anwachsen. Titans umgeht diese Skalierungsbarriere mit einer vermeintlich einfachen Idee: nur dann Aufmerksamkeit schenken, wenn etwas überraschend ist.

Die Forscher von Google entlehnen Konzepte aus der kognitiven Psychologie und Informationstheorie, um ein „Überraschungsmaß“ zu definieren – einen numerischen Wert, der angibt, wie stark ein neues Token von den Erwartungen des Modells abweicht. Routinemäßige Phrasen, wiederholte Fakten und Standardmuster beeinflussen das Ergebnis kaum. Plötzliche Widersprüche, seltene Ereignisse oder neuartige Entitäten lassen den Wert ansteigen und lösen ein Gedächtnis-Update aus.

Anstatt jede Interaktion zu speichern, verwendet Titans dieses Überraschungssignal, um zu entscheiden, was in sein Langzeitgedächtnis MLP eingeht und was stillschweigend verworfen wird. Die Architektur stellt in jedem Schritt effektiv die Frage: „Hat dies mein Verständnis der Welt oder dieses Nutzers verändert?“ Wenn nicht, behandelt sie das Token als transiente Kontextinformation, nicht als nachhaltiges Gedächtnis.

Traditionelle Transformatoren müssen die Aufmerksamkeit für jedes vorherige Token neu berechnen, egal ob es sich um ein belangloses „Danke“ oder eine lebensverändernde Anweisung handelt. Das bedeutet O(n²) Aufmerksamkeitskosten und hohe GPU-Rechnungen für lange Kontexte. Die überraschungsgetriebene Routing-Technologie von Titans reduziert diese Zusatzkosten drastisch, indem sie schwere Speicheroperationen nur auf einer spärlichen Teilmenge wirklich informativer Tokens ausführt.

Der Blog von Google deutet auf Effizienzgewinne in „Ordnung von Größen“ hin, wenn Titans über 2.000.000 Token nutzbaren Kontexts verfügt, ohne in der Rechenleistung unterzugehen. Die MIRAS-Theorie untermauert dies und zeigt, dass überraschungsbasierte Aktualisierungen es Titans ermöglichen, wie ein RNN mit selektiven, gelernten Gedächtnisoperationen zu agieren, anstatt einen brutalen Bandscan durchzuführen. Das Ergebnis: Leistung auf dem Niveau von GPT-4 oder besser bei Aufgaben mit langem Kontext wie BABILong, unter Verwendung von viel weniger Parametern und deutlich weniger Rechenleistung, da das Modell intelligenter entscheidet, was es sich merken möchte.

Ein Motor im Inneren: Ein Gehirn im Gehirn

Vergessen Sie staubige Indizes und die Suche nach Schlüsselwörtern. Titans verbirgt ein kleines Multi-Layer Perceptron (MLP) im größeren Modell und nutzt es als aktive, ständig lernende Gedächtnismaschine. Anstatt Vektoren einfach nur in einer Datenbank zu speichern, verkabelt sich dieses innere Netzwerk neu, während neue Informationen einströmen.

Betrachten Sie es als ein Gehirn innerhalb eines Gehirns. Das äußere Modell übernimmt Sprache, Logik und Planung, während das innere MLP still alles studiert, was es speichert, und Muster über Tausende oder sogar Millionen von Tokens erkennt. Mit der Zeit hört dieses innere Netzwerk auf, ein passiver Cache zu sein, und wird zu einem spezialisierten Experten für Ihre Historie mit dem Modell.

Statische Vektordatenbanken – auf die die meisten aktuellen Chatbots angewiesen sind – tun etwas viel Einfacheres. Sie: - Betten Ihren Text in Vektoren ein - Lagern diese Vektoren in einem Speicher - Rufen „nächste Nachbarn“ ab, wenn Sie eine Frage stellen.

Diese Systeme verstehen niemals wirklich, was sie halten. Sie lernen nicht, dass ein Besprechungsprotokoll, ein Code-Schnipsel und eine E-Mail denselben Fehler beschreiben oder dass drei separate Dokumente tatsächlich Kapitel eines lang laufenden Projekts sind. Das neuronale Gedächtnis von Titans schon.

Da der Speicher ein MLP ist, kann er verwandte Fakten in gemeinsame interne Darstellungen komprimieren, wichtige Verbindungen stärken und unwichtige Verbindungen schwächen. Das bedeutet, dass das System einen umfangreichen Kontext von über 2 Millionen Token halten kann, ohne unter seinem eigenen Gewicht zusammenzubrechen. Das Speichernetzwerk wird somit zu einem maßgeschneiderten Modell, das auf Ihrer laufenden Interaktion optimiert ist – in Echtzeit aktualisiert, nicht in einem Offline-Neuetrainingslauf.

Um zu verhindern, dass das Gedächtnis überläuft, leiht sich Titans Ideen direkt aus der Optimierungstheorie. Momentum glättet Aktualisierungen, sodass ein einzelnes überraschendes Ereignis das Gedächtnis stark beeinflusst, während wiederholtes Rauschen kaum wahrgenommen wird. Das Modell konzentriert sich intensiv auf Muster, die immer wieder auftauchen, und gleitet über einmalige Ausreißer hinweg.

Auf der anderen Seite schneidet adaptives Vergessen das weg, was nicht mehr wichtig ist. Wenn neue Muster dominieren – neue Projekte, neue Themen, neue Codebasen – verteilt das innere MLP allmählich Kapazitäten neu und lässt veraltete Repräsentationen verblassen. Anstatt eines aufgeblähten Archivs betreibt Titans ein schlankes, selbstkurierendes Gedächtnis, das absichtlich lernt, priorisiert und vergisst.

MIRAS: Der Rosetta-Stein für KI-Architekturen

Illustration: MIRAS: Der Rosetta-Stein für KI-Architekturen
Illustration: MIRAS: Der Rosetta-Stein für KI-Architekturen

MIRAS steht hinter den Titanen als die stille Revolution: eine vereinigende Theorie für moderne neuronale Netzwerke. Anstatt eine weitere kurzlebige Architektur zu sein, ist MIRAS ein mathematisches Rahmenwerk, das Transformatoren, RNNs und andere Sequenzmodelle als unterschiedliche Facetten desselben zugrunde liegenden Systems zeigt. Die Forscher von Google beschreiben es als die fehlende Karte, die erklärt, warum so unterschiedlich aussehende Modelle oft so ähnlich funktionieren.

Wie ein Rosetta-Stein für KI übersetzt MIRAS zwischen Architekturen, die zuvor in separaten Forschungssilos existierten. Aufmerksamkeitsgewichte in Transformern, verborgene Zustände in RNNs und externe Speicher in Retrieval-Modellen reduzieren sich alle auf gemeinsame Operationen über Informationssequenzen. Sobald du sie in der Sprache von MIRAS ausdrückst, kannst du Teile austauschen, Kompromisse vergleichen und über Fähigkeiten mit einem einzigen Toolkit nachdenken.

Diese Vereinheitlichung ist wichtig, weil jede Familie einzigartige Stärken mitbringt. RNNs sind hervorragend im Umgang mit Streaming-Daten und niedrigen Latenzzeiten, hatten jedoch historisch Schwierigkeiten mit sehr langen Kontexten. Transformer dominieren in Bezug auf Genauigkeit und globales Denken über Tausende von Token, haben jedoch Probleme mit dem Speicher und der Rechenleistung, wenn die Sequenzen länger werden. MIRAS zeigt, wie man diese Eigenschaften kombiniert, anstatt sich für eine Richtung zu entscheiden.

Titans ist der erste Proof-of-Concept, der direkt aus diesem Framework entwickelt wurde. Sein MLP-basiertes Gedächtnis verhält sich wie ein schneller, kontinuierlicher RNN-Zustand und unterstützt gleichzeitig globales Denken im Transformer-Stil über mehr als 2 Millionen Tokens. Unter MIRAS ist dieses Hybridmodell kein Hack; es ist eine klare Implementierung gemeinsamer Prinzipien, die auch auf Genomik, Zeitreihen und andere Nicht-Text-Domänen ausgeweitet werden.

Forscher erhalten jetzt einen Gestaltungsraum anstelle eines Menüs. MIRAS ermöglicht es ihnen, systematisch Hybride zu erkunden, die: - RNN-ähnliche Rekursionen für Geschwindigkeit nutzen - Auf Transformator-Attention-Muster für Präzision zurückgreifen - Spezialisierte Speichereinheiten integrieren, wie die überraschungsgetriebenen MLPs von Titans

So betrachtet, wirkt MIRAS weniger wie ein einmaliger Trick und mehr wie ein Entwurf für post-Transformer KI. Jede zukünftige Architektur, die langanhaltendes Gedächtnis, effiziente Inferenz oder domänenspezifische Strukturen benötigt, kann zunächst innerhalb dieser gemeinsamen Theorie skizziert und dann entwickelt werden. Titanen mögen die Hauptattraktion sein, aber MIRAS ist das zugrunde liegende Handbuch, das jedes ernsthafte KI-System prägen könnte, das als Nächstes kommt.

Das Duell: Titans übertrifft die GPT-4 Benchmarks

Vergessen Sie modelle, die auf Vibes basieren. Google stellte die Titans gegen die heutigen Schwergewichte auf, einschließlich GPT-4, und führte eine rigorose Reihe von Langzeit-Tests durch. Das Ergebnis: Eine kleinere, kostengünstigere Architektur übertraf wiederholt Modelle, die auf einer hohen Parameteranzahl und massiven Kontextfenstern basieren.

Zentral im Duell steht BABILong, ein Benchmark, der darauf ausgelegt ist, konventionelle Transformer herauszufordern. Anstelle von klaren, kurzen Eingaben füttert BABILong Modelle mit umfangreichen Dokumenten, die 1–2 Millionen Tokens überschreiten können – Tausende von Seiten mit gemischten Fakten, Ablenkungen und subtilen Abhängigkeiten.

BABILong prüft nicht nur, ob ein Modell in der Lage ist, weit zurückliegende Tokens zu „erinnern“. Es zwingt Systeme dazu, Entitäten, Kausalitätsketten und bedingte Regeln, die tief im Text verborgen sind, nachzuverfolgen und dann Fragen zu beantworten, die auf Details basieren, die Hunderttausende von Tokens früher eingeführt wurden. Jede Schwäche im langzeitlichen schlussfolgernden Denken oder im Gedächtnismanagement zeigt sich sofort in stark sinkender Genauigkeit.

Gegen diesen Test hat Titans nicht nur überlebt; es hat dominiert. Google berichtet, dass Titans alle Baselines bei BABILong übertrifft, einschließlich Modelle mit deutlich mehr Parametern und stark optimierten Long-Context-Transformern, die speziell für abruforientierte Aufgaben abgestimmt sind.

Dieser Leistungsvorteil ist wichtig, weil Systeme der GPT-4-Klasse bereits Kontextfenster in den Hunderttausenden von Tokens ermöglichen. Doch selbst mit diesen erweiterten Grenzen verschlechtern sie sich oft stark, wenn die Eingaben wachsen, halluciniert sie Verknüpfungen über Dokumente hinweg oder verlieren den Überblick über Entitäten, die zu Beginn der Sequenz eingeführt wurden. Titans hingegen behält kohärente Argumentationsketten über Eingaben im Maßstab mehrerer Bücher hinweg bei.

Der Schock kommt, wenn man sich die Effizienz anschaut. Titans erreicht diese Werte mit deutlich weniger Parametern – in der Größenordnung eines kleinen bis mittelgroßen LLMs statt eines großangelegten Giganten – und läuft zu einem Bruchteil der Rechenkosten. Weniger Speicherbandbreite, weniger FLOPs und kein Bedarf an quadratischer Aufmerksamkeit über die gesamte Sequenz führen zu deutlich günstigeren Inferenzkosten.

Das stellt die Skalierungsgeschichte auf den Kopf. Statt einfach nur „mehr GPUs hinzuzufügen“, schlägt Titans vor, dass intelligentere Speicherarchitekturen GPT-4-niveau Systeme in der Langzeitkontextverarbeitung übertreffen können, während sie weniger Ressourcen verwenden. Für Labore, Startups und sogar für den Einsatz auf Geräten ist das kein marginaler Gewinn; es ist ein architektonischer Coup.

Mehr als ein Wortschmied: Neue Grenzen erobern

Gedächtnis, das tatsächlich haften bleibt, erweist sich als nützlich weit über gesprächige Wortspiele hinaus. Googles Titans-Stack hat bereits den Sprachsandbox verlassen und liefert state-of-the-art Ergebnisse bei genomischen Modellierungsaufgaben, bei denen Modelle Abhängigkeiten über Zehntausende von Basenpaaren verfolgen müssen. Anstatt DNA wie einen kurzen Satz zu behandeln, können Titans ganze genomische Regionen – Millionen von Zeichen lang – aufnehmen und subtile Muster bewahren, die sich über entfernte Loci erstrecken.

Genomik ist ein brutaler Prüfstand: regulatorische Elemente, Mutationen und strukturelle Varianten interagieren über große Bereiche. Die auf MLP basierende Speichereinheit von Titans fungiert wie ein differenzierbares Notizbuch, das langreichweitige Beziehungen zwischen Sequenzen und Phänotypen ansammelt, ohne unter Kontextgrenzen zusammenzubrechen. Das ist wichtig für Aufgaben wie die Vorhersage der Genexpression, unerwünschte CRISPR-Effekte oder polygenetische Risikoscores, bei denen der Kontext die gesamte Geschichte der Biologie darstellt.

Finanzen bieten einen völlig anderen Stresstest, und Titans hält auch hier stand. Bei finanziellen Zeitreihen-Benchmarks mit langfristigem Horizont verfolgt die Architektur Jahre von Tick-Daten, makroökonomischen Indikatoren und Ereignisströmen, während sie ihren internen Zustand dynamisch aktualisiert. Anstelle von festen Zeitfenstern oder fragiler Merkmalsgestaltung behält Titans ein rollierendes, erlerntes Gedächtnis für Marktregime, Schocks und langsame strukturelle Verschiebungen.

Diese Performance über verschiedene Bereiche ist der echte Indikator: Das Gedächtnissystem ist kein Partytrick, der für die Vorhersage des nächsten Tokens optimiert wurde. MIRAS zeigt, dass Titans' „Gehirn im Gehirn“ auf demselben Abstraktionsniveau wie Transformer oder RNNs agiert, jedoch mit einem allgemeinen, trainierbaren Gedächtniskern. Wenn der gleiche Mechanismus Sprachverständnis, DNA-Modellierung und rauschende Marktprognosen verbessert, handelt es sich um eine grundlegende Fähigkeit und nicht um einen überangepassten Trick.

Zukünftige Anwendungen schreiben sich praktisch von selbst. Anhaltende medizinische Co-Piloten könnten die gesamten langfristigen Aufzeichnungen eines Patienten – Laborergebnisse, Bildgebung, Notizen der Kliniker, tragbare Geräte – über Jahrzehnte hinweg verfolgen und Muster aufdecken, die kein Mensch im Arbeitsgedächtnis halten könnte. Echtzeit-Wirtschaftsmodellierungswerkzeuge könnten Daten zu laufenden Transaktionen, politische Entscheidungen und globale Nachrichten in ein kontinuierlich aktualisiertes Weltmodell integrieren und Regierungen sowie Unternehmen etwas gefährlich Nahes zu einem lebenden, atmenden Makro-Gehirn geben.

Der Weg zur AGI ist gerade dramatisch kürzer geworden.

Illustration: Der Weg zur AGI ist jetzt deutlich kürzer geworden.
Illustration: Der Weg zur AGI ist jetzt deutlich kürzer geworden.

AGI hört auf, ein Science-Fiction-Slogan zu sein, und beginnt, wie ein Ingenieurrahmen auszusehen, sobald Modelle sich erinnern können. Titanen und das MIRAS-Framework drängen die Forschung von Google direkt in dieses Territorium, indem sie eine Fähigkeit angehen, auf die Menschen ständig angewiesen sind: langfristiges, anpassungsfähiges, selektives Gedächtnis, das mehr als nur ein einzelnes Gespräch oder eine Eingabe überdauert.

Die menschliche Kognition stützt sich auf Erinnerungen, die sich über Sekunden, Jahre und alles dazwischen erstrecken. Sie erinnern sich an die Vorlieben eines Freundes, an ein Buch, das Sie letzten Sommer gelesen haben, und an den Weg nach Hause, und Sie aktualisieren diese Erinnerungen im Handumdrehen. Jede plausible AGI benötigt dasselbe Spektrum: Kurzzeit-Speicher, mittelfristigen Arbeitskontext und langlebiges, strukturiertes Wissen, das sich ständig weiterentwickelt.

Titans fügt dieses Gerüst effektiv in moderne KI ein. Anstelle eines 128K- oder 1M-Token-Kontexts, der jede Sitzung zurückgesetzt wird, behält Titans über 2 Millionen Tokens an verwendbarem Kontext und aktualisiert kontinuierlich seinen internen Zustand, wobei die MLP-basierte Speichereinheit als dauerhafter Arbeitsbereich und nicht als wegwerfbarer Puffer dient.

Die Forscher von Google stellen dies nicht als einen weiteren „größeren Transformer“-Flex dar, sondern als einen grundlegenden architektonischen Pivot. MIRAS zeigt ein gemeinsames mathematisches Grundgerüst zwischen Transformern, RNNs und anderen Sequenzmodellen auf und nutzt diese Erkenntnis, um Gedächtnis als integriertes System zu entwerfen, nicht als ein hinzugefügter Abruftrick oder ein nachträglicher Vektorspeicher.

Langzeitgedächtnis ist hier nicht nur ein größerer Speicher; es ist selektiv und anpassungsfähig. Die Überraschungsmetrik bewertet eingehende Informationen danach, wie unerwartet und informativ sie sind, sodass eine einmalige Ausnahme, eine wichtige Anweisung oder eine plötzliche Wendung haften bleibt, während routinemäßiger Standard über adaptive Vergessenheit und momentumartige Aktualisierungen verblasst.

Dieser Mechanismus entfaltet etwas, das aktuelle Chatbots mit Hacks vortäuschen: ein persistentes Modell der Welt und von dir. Titanen können grundsätzlich die sich entwickelnden Ziele eines Nutzers über Wochen hinweg verfolgen, frühere Misserfolge im Gedächtnis behalten und Strategien ohne Offline-Neu-Training oder manuelle Feinjustierungszyklen anpassen.

Das kontinuierliche Lernen während der Inferenz verringert auch die Grenze zwischen „Training“ und „Nutzung“ eines Modells. Anstatt einen Momentaufnahme des Wissens einzufrieren und zu versenden, verhält sich Titans eher wie eine Software, die sich in Echtzeit aktualisiert, während sie auf neue Daten, Randfälle oder adversarielle Eingaben trifft.

Die Auswirkungen häufen sich schnell an. Ein Assistent, der sich wirklich an die Projekte Ihres Unternehmens erinnert, ein Recherche-Agent, der eine mehrjährige Literaturkarte erstellt, oder ein robotisches System, das sein Umweltmodell täglich verfeinert, kommen zunehmend näher an Systeme, die wir als allgemein intelligent erkennen würden, und nicht nur als beeindruckend autovervollständigungsaffin.

Wie Titanen Ihre Welt neu gestalten werden

Speicher, der sich nicht bei jeder Eingabe zurücksetzt, verwandelt die heutigen auffälligen Demos in Infrastruktur. Mit Titans kann ein Unternehmensassistent eine kontinuierliche Erzählung über das Leben eines Unternehmens führen: jedes Ticket, jede Besprechungsnotiz, jeden Verkaufsanruf und jeden Vorfallbericht. Anstatt PDFs erneut hochzuladen, fragen Sie: „Wie haben sich unsere Abwanderungsfaktoren seit 2021 verändert?“ und er zieht in einem einzigen Durchgang aus Millionen von Tokens der Geschichte.

Der Kundenservice hört auf, eine anonymisierte FAQ-Maschine zu sein. Ein Support-Bot, der auf Titans läuft, kann sich merken, dass Sie immer E-Mail bevorzugen, dass Sie letzte Woche drei fehlgeschlagene Lösungen ausprobiert haben und dass Ihnen eine Garantieverlängerung versprochen, aber nie bearbeitet wurde. Über Monate hinweg kann er seltene Fehler bei Tausenden von Nutzern verfolgen und Muster aufdecken, die Menschen übersehen würden.

Bildung erhält eine stille Revolution. Ein persönlicher Tutor kann sich an jede Übung erinnern, bei der Sie Schwierigkeiten hatten, an die genauen Hinweise, die letztendlich funktioniert haben, und an Ihr Tempo über Hunderte von Sitzungen. Statt generischem „Überprüfen von Brüchen“ kann er sagen: „Sie haben normalerweise Probleme, wenn die Nenner prim sind; lassen Sie uns daran arbeiten“, weil dieses Muster im Langzeitgedächtnis gespeichert ist und nicht in einem Cookie.

Innerhalb von Unternehmen hören analytische Werkzeuge damit auf, Stichproben zu entnehmen. Titanen können Jahre von Protokollen, Transaktionen und Sensordaten – Millionen von Tokens – ohne Chunking-Hacks verarbeiten. Ein Prognosesystem kann einen seltsamen Ausreißer im Umsatz des letzten Quartals mit einer subtilen Policy-Änderung vor zwei Jahren verknüpfen, weil beide Ereignisse im aktiven Speicher koexistieren und nicht in einem Data Warehouse plus einem Prompt.

Für Entwickler bedeutet Titans eine Abkehr von der reinen Transformer-Verehrung. Jetzt entwirfst du um einen internen MLP-Speicher-Engine, überraschungsgetriebene Aktualisierungen und adaptive Vergessenheit, anstatt nur die Anzahl der Attention-Köpfe und Kontextfenster zu vergrößern. Das schafft Platz für schlankere Agenten, die auf kleineren GPUs laufen, aber so agieren, als hätten sie eine private, ständig wachsende Vektordatenbank eingebaut.

Die Marktdynamik verändert sich schnell, wenn das "Kontextfenster" nicht mehr als Prahlerei gilt. Wenn Titanen-Klassen-Modelle GPT-4-ähnliches Denken mit über 2 Millionen Tokens an live aktualisierbarem Gedächtnis bei geringeren Rechenanforderungen liefern, verschieben sich die Verkaufsargumente von "128K Kontext" zu "wie intelligent ist dein Gedächtnis?". API-Preise, Hosting-Strategien und sogar welche Unternehmen die Kundenbeziehung besitzen, werden sich umorganisieren, je nachdem, wer diese persistente kognitive Schicht kontrolliert.

Die nächste Generation der KI ist keine Theorie mehr.

Die Titans von Google arbeiten an KI mit langfristigem Gedächtnis, von spekulativen Forschungspapieren bis hin zu ausführbarem Code. Anstelle von Spielzeug-Demos oder engen Aufgaben berichtet Google, dass die Titans über 2 Millionen Tokens aktiven Kontext verarbeiten – eine Menge an Informationen, die mehreren Romanen entspricht – während sie ihr Gedächtnis während der Inferenz in Echtzeit aktualisieren.

Im Zentrum dieses Wandels steht eine klare Dreifach-Kombination. Titans vereint: - Massive, anhaltende Kontextfenster - Menschliche Gedächtnispriorisierung - Überlegene Rechenleistung im Vergleich zu viel größeren Modellen

Massiver Kontext allein würde normalerweise überhöhte Rechenkosten und Latenzzeiten bedeuten. Titans umgeht dies, indem es ein integriertes auf MLP basierendes Speicher-Modul verwendet, anstatt die Rechenleistung über jedes Token zu konzentrieren, was es ihm ermöglicht, GPT-4 in Benchmarks zu übertreffen, während weniger Parameter und weniger Rechenleistung benötigt werden, laut den eigenen Tests von Google.

Menschliche Priorisierung stammt von der „Überraschungsmetrik“, einem Signal, das ausschlägt, wenn Eingaben von den Erwartungen des Modells abweichen. Titans nutzt diesen Ausschlag, um zu entscheiden, was langfristig gespeichert, was verstärkt und was stillschweigend vergessen werden soll, ähnlich wie Menschen routinemäßige Ereignisse ignorieren, aber scharfe Abweichungen in Erinnerung behalten.

Diese von Überraschungen gesteuerte Erinnerung nährt den Schwung und das adaptive Vergessen, sodass das Modell nicht in seiner eigenen Geschichte ertrinkt. Alte, wenig überraschende Muster verklingen; seltene, aber entscheidende Ereignisse bleiben bestehen. Das Ergebnis ist eine KI, die lang laufende Projekte, sich entwickelnde Datensätze oder mehrteilige Gespräche verfolgen kann, ohne ständiges manuelles Prompt-Engineering.

MIRAS ist die andere Hälfte der Geschichte. Googles Rahmen zeigt, dass Transformatoren, RNNs und Modelle im Titans-Stil eine gemeinsame zugrunde liegende Struktur teilen, die Forschern einen einheitlichen Fahrplan bietet, anstatt einen Zoo inkompatibler Architekturen.

Durch die Zusammenführung dieser Familien in eine einzige Theorie ermöglicht MIRAS anderen, Komponenten nach Belieben zu kombinieren – Aufmerksamkeitsmechanismen im Stil von Transformatoren, Rückkopplung im Stil von RNNs und MLP-Speicher im Stil von Titans – unter einem mathematischen Dach. Das sollte Nachahmer und Wettbewerber ebenso beschleunigen, wie es Google zugutekommt.

Branchenweit senkt MIRAS die Hürde für Labore, die nicht über Budgets in Google-Größe verfügen, aber Titanen-ähnliche Fähigkeiten wünschen. Erwarten Sie Open-Source-Implementierungen, hybride Architekturen und spezialisierte Titanen-Varianten, die auf Codebasen, medizinische Aufzeichnungen oder Finanzströme abgestimmt sind.

Zusammen genommen markieren Titans und MIRAS einen Wendepunkt im Veränderungstempo der KI. Wenn Modelle Jahre der Interaktion speichern, sich in Echtzeit aktualisieren und günstiger sind als die großen Anbieter von heute, hört die „nächste Generation“ der KI auf, ein zukünftiger Fahrplan zu sein, und beginnt, wie eine schnell näherkommende Norm auszusehen.

Häufig gestellte Fragen

Was sind Google Titans?

Titans ist eine neue KI-Architektur von Google, die für langfristiges Gedächtnis entwickelt wurde. Sie kann über 2 Millionen Tokens an Kontext speichern und aktiv in Echtzeit lernen und ihr Gedächtnis aktualisieren, ohne neu trainiert werden zu müssen.

Wie funktioniert das Gedächtnissystem der Titans?

Statt einer einfachen Vektordatenbank nutzt Titans ein kleines, internes neuronales Netzwerk (ein MLP) als sein Gedächtnis. Es verwendet auch eine „Überraschungsmetrik“, um die Speicherung neuartiger, wichtiger Informationen zu priorisieren, und ahmt damit menschliche Kognition nach.

Ist Titans besser als GPT-4?

Bei spezifischen Benchmarks, die darauf ausgelegt sind, das langfristige Denken zu testen, wie BABILong, hat Titans gezeigt, dass es größere Modelle wie GPT-4 übertrifft und dabei wesentlich weniger Rechenressourcen benötigt.

Was ist der MIRAS-Rahmen?

MIRAS ist der theoretische Rahmen, der zusammen mit Titans entwickelt wurde. Er vereint verschiedene KI-Architekturen wie Transformer und RNNs, offenbart deren gemeinsame Prinzipien und bietet eine Blaupause für die Entwicklung neuer, effizienterer Modelle.

Warum ist das Langzeitgedächtnis für KI so wichtig?

Langzeitgedächtnis ist ein kritischer Bestandteil der menschlichen Intelligenz. Es ermöglicht kontinuierliches Lernen, kontextuelles Verständnis und den Aufbau eines beständigen Wissensfundaments, die alle als wesentliche Schritte zur Erreichung der Künstlichen Allgemeinen Intelligenz (AGI) gelten.

Frequently Asked Questions

Was sind Google Titans?
Titans ist eine neue KI-Architektur von Google, die für langfristiges Gedächtnis entwickelt wurde. Sie kann über 2 Millionen Tokens an Kontext speichern und aktiv in Echtzeit lernen und ihr Gedächtnis aktualisieren, ohne neu trainiert werden zu müssen.
Wie funktioniert das Gedächtnissystem der Titans?
Statt einer einfachen Vektordatenbank nutzt Titans ein kleines, internes neuronales Netzwerk als sein Gedächtnis. Es verwendet auch eine „Überraschungsmetrik“, um die Speicherung neuartiger, wichtiger Informationen zu priorisieren, und ahmt damit menschliche Kognition nach.
Ist Titans besser als GPT-4?
Bei spezifischen Benchmarks, die darauf ausgelegt sind, das langfristige Denken zu testen, wie BABILong, hat Titans gezeigt, dass es größere Modelle wie GPT-4 übertrifft und dabei wesentlich weniger Rechenressourcen benötigt.
Was ist der MIRAS-Rahmen?
MIRAS ist der theoretische Rahmen, der zusammen mit Titans entwickelt wurde. Er vereint verschiedene KI-Architekturen wie Transformer und RNNs, offenbart deren gemeinsame Prinzipien und bietet eine Blaupause für die Entwicklung neuer, effizienterer Modelle.
Warum ist das Langzeitgedächtnis für KI so wichtig?
Langzeitgedächtnis ist ein kritischer Bestandteil der menschlichen Intelligenz. Es ermöglicht kontinuierliches Lernen, kontextuelles Verständnis und den Aufbau eines beständigen Wissensfundaments, die alle als wesentliche Schritte zur Erreichung der Künstlichen Allgemeinen Intelligenz gelten.
🚀Discover More

Stay Ahead of the AI Curve

Discover the best AI tools, agents, and MCP servers curated by Stork.AI. Find the right solutions to supercharge your workflow.

Back to all posts