Google Titans KI: Eine neue Ära für Langzeitgedächtnis in Sprachmodellen

💡

TL;DR / Key Takeaways

Google hat soeben eine KI mit funktionierendem Langzeitgedächtnis vorgestellt, die jeden bestehenden Benchmark übertrifft. Diese neue Architektur mit dem Codenamen Titans löst endlich die größte Schwäche der KI und verändert das Spiel nachhaltig.

Warum OpenAI einen 'Code Red' ausgerufen hat

Code Red erreichte OpenAIs Posteingang, als ein internes Memo von Sam Altman kursierte, das laut informierten Quellen warnte, dass das Unternehmen Googles neuesten AI-Vorstoß nicht als bloßen Produktzyklus betrachten könne. Die Botschaft: DerDurchbruch von Gemini und Googles Forschungsoffensive hatten sich von Hintergrundgeräuschen in eine existentielle Wettbewerbsbedrohung verwandelt.

Innerhalb von OpenAI kam das Memo vor dem Hintergrund unangenehmer Zahlen. Neue Daten von Drittanbietern zeigen, dass die monatlich aktiven Nutzer von Gemini schneller steigen als die von ChatGPT, wobei Google auf Android, Suche und Chrome-Verteilung setzt, um die Nutzung auf Milliarden von Geräten zu steigern.

Google seinerseits hat aufgehört, sich defensiv zu verhalten. In nur wenigen Wochen hat das Unternehmen Titans und MIRAS für langfristige Kontextspeicherung eingeführt, Nano Banana 2 Flash als günstigeren Bildmodell vorbereitet und heimlich KI-generierte Nachrichtenüberschriften auf den Smartphones der Nutzer getestet, während Gemini immer tiefer in Workspace und Android integriert wurde.

Keine dieser Maßnahmen steht für sich allein. Zusammen bilden sie einen koordinierten Angriff: Forschungsdurchbrüche, die grundlegende Schwächen von Transformern beheben, produktisierte Modelle, die Konkurrenten im Preis unterbieten, und Distributionsstrategien, die Googles Kontrolle über Mobile und das Web ausnutzen.

Für OpenAI könnte die Wachstumskurve von Gemini das lauteste Alarmsignal sein. ChatGPT dominiert nach wie vor die Wahrnehmung, aber Googles Fähigkeit, Benutzer automatisch über Standardintegrationen einzuführen, bedeutet, dass selbst ein etwas schwächeres Modell gewinnen kann, wenn es häufiger im Blickfeld der Nutzer erscheint.

Diese Bedrohung kommt gerade, als die Google Research beginnt, an OpenAIs technologischem Schutzwall zu nagen. Das neue Langzeitgedächtnis-System von Titans behauptet, Kontextfenster von über 2 Millionen Tokens zu haben und hat bei Benchmark-Tests gegen GPT‑4 und Llama‑3.1‑70B in Langsequenz-Tests gewonnen, was andeutet, dass Google nun weite Datenhistorien bewältigen kann, ohne die Rechenbudgets zu sprengen.

Altmans Memo fordert Berichten zufolge die Teams auf, die Arbeiten am nächsten Modell des Unternehmens, das den Codenamen Garlic trägt, zu beschleunigen und zu überdenken, wie schnell OpenAI eigene Agenten und Erinnerungssysteme auf den Markt bringen kann. Die Sorge besteht nicht nur darin, Benutzer zu verlieren, sondern auch von einem Konkurrenten zurückzufallen, der plötzlich sowohl die intelligentere Architektur als auch das größere Publikum kontrolliert.

Unter den Nutzerdiagrammen und Veröffentlichungsevents braut sich ein tiefgreifender Wandel zusammen. Google wächst nicht nur schneller; es setzt auf einen grundlegenden Wandel in der Art und Weise, wie KI sich erinnert, lernt und in alltäglichen Geräten lebt – und genau das hat Code Red wirklich ausgelöst.

Die Amnesie, die jede KI plagt

Moderne KI spricht viel über „Verstehen“, aber im Hintergrund leben die meisten großen Sprachmodelle in einer Art fünfminütigem Fugenstatus. Ein Modell wie GPT‑4 oder Gemini „erinnert sich“ nur an das, was in ein festes Kontextfenster passt – ein gleitender Puffer von ein paar Tausend bis vielleicht einer Million Tokens, der sich wie ein Kurzzeitgedächtnis im Loop verhält.

Stell dir vor, du sprichst mit jemandem, der alles vergisst, was älter ist als die letzte Seite des Chatverlaufs. Du kannst einen 500-Seiten-Vertrag oder Jahre von E-Mails einfügen, aber sobald du dieses Fenster füllst, verschwinden die ältesten Details und werden durch die neuesten ersetzt. Egal wie intelligent das Modell ist, alles außerhalb dieses Kontexts könnte genauso gut nicht existieren.

Gib der Standard-Transformer-Architektur die Schuld, die nahezu jedes fortschrittliche LLM antreibt. Die Selbst-Attention vergleicht jedes Token mit jedem anderen Token, sodass der Rechen- und Speicheraufwand ungefähr quadratisch ansteigt: Verdopple die Sequenzlänge und du vervierfachst die Kosten; gehe auf das 10-Fache und du siehst dich etwa 100-mal mehr Arbeit gegenüber.

Über einige hunderttausend Tokens hinaus beginnen selbst stark optimierte Transformer zu leiden. Die Latenz steigt, der Speicher explodiert, und die Qualität lässt nach, während die Modelle zu Tricks wie spärlicher Aufmerksamkeit oder aggressiver Truncation greifen, die stillschweigend Teile Ihrer Eingabe wegfallen lassen. Deshalb verbergen Schlagzeilen wie „2M-Token-Kontext“ normalerweise hohe Hardwarekosten und fragiles Verhalten am Rande.

Ältere Konzepte wie RNNs und moderne Zustandsraum-Modelle (SSMs), einschließlich Mamba-ähnlicher Architekturen, verändern den Kompromiss. Sie verarbeiten Streams in linearer Zeit, indem sie die Geschichte in einen kompakten latenten Zustand integrieren, sodass sie Millionen von Tokens mühelos bewältigen, ohne die GPUs zu überlasten.

Der Haken: Das Komprimieren eines gesamten Buchs, eines Code- oder Kundendatensatzes in einen winzigen Zustandsvektor verwischt Details. Subtile Abhängigkeiten, seltene Randfälle oder diese eine kritische Zeile in einer Protokolldatei verschwinden im Durchschnitt, sodass das Modell schnell reagiert, jedoch mit einer Art statistischer Amnesie. Man gewinnt an Skalierbarkeit und verliert an Präzision.

Dieses strukturelle Vergessen hat sich zur größten Bremsklötze für echte Personalisierung und tiefen Kontext entwickelt. Solange Modelle kein zuverlässiges, reichhaltiges Langzeitgedächtnis über Sitzungen, Geräte und Aufgaben hinweg speichern können, bleiben „KI-Assistenten“ Chatfenster mit Goldfisch-ähnlicher Gedächtnisleistung und keine Systeme, die über Monate oder Jahre mit Ihnen wachsen.

Treffen Sie Titans: Die KI, die niemals vergisst.

Google nennt seine neue Architektur Titans, und sie wirkt wie eine direkte Antwort auf das „Fünf-Minuten-Gedächtnis“-Problem, das die heutige KI plagt. Anstatt einen standardmäßigen Transformer bis zum Zerbrechen zu dehnen, verbindet Titans zwei verschiedene Gedächtnissysteme und zwingt sie zur Zusammenarbeit. Das Ergebnis: Modelle, die Kontextfenster über 2 Millionen Token hinweg verarbeiten, ohne unter ihrer eigenen Rechenleistung zusammenzubrechen.

Im Kern steht ein vertraülicher Kurzzeitgedächtnisansatz: fensterbasierte Selbstaufmerksamkeit über den jüngsten Abschnitt des Textes. Dieses Fenster bleibt scharf und präzise, sodass das Modell Pronomen, Variablen innerhalb des Codes und subtile Formulierungen der letzten paar tausend Tokens verfolgen kann. Keine verlustbehaftete Kompression, keine verschwommenen Zusammenfassungen.

Nebenbei fügt Titans ein separates, persistentes Langzeitgedächtnismodul hinzu. Dieses Langzeitgedächtnis speichert nicht nur Rohtexte, sondern bewahrt verdichtete Darstellungen dessen, was in früheren Passagen tatsächlich wichtig war. Google beschreibt drei Varianten dieses Systems—Gedächtnis‑als‑Kontext, Gedächtnis‑als‑Tore und Gedächtnis‑als‑Schichten—die das gespeicherte Wissen jeweils auf unterschiedliche Weise in das Modell zurückführen.

Die revolutionäre Wendung: Titans aktualisiert dieses Langzeitgedächtnis während der Inferenz. Während du chattest, programmierst oder Dokumente einpflegst, lernt das Gedächtnismodul spontan, welche Teile überraschend, nützlich oder selten sind, und speichert sie in seinem internen Speicher. Kein Offline-Fine-Tuning, kein erneutes Training, sondern kontinuierliche Anpassung im Verlauf der Sitzung.

Überraschungen treiben die richtigen Entscheidungen voran. Wenn das Modell auf etwas trifft, das stark von seinen Erwartungen abweicht – ein Randfall-API, eine Nischenverordnung, eine schräge Vorliebe eines Nutzers – kennzeichnet es dies als wertvoll und speichert es im Langzeitgedächtnis. Weniger überraschende, sich wiederholende Inhalte erhalten eine niedrigere Priorität und fallen schließlich durch intelligentes Vergessen aus dem Speicher, anstatt durch brute-force Kürzungen entfernt zu werden.

Benchmark-Daten deuten darauf hin, wie groß dieser Wandel sein könnte. Ein Titans-Modell mit nur 760 Millionen Parametern erreicht Berichten zufolge über 95 % Genauigkeit bei Needle-in-a-Haystack mit 16.000 Tokens und dominiert den bAbI-Long-Benchmark, indem es GPT-4, RecurrentGemma 9B, Llama 3.1 70B und sogar Llama 3 in Kombination mit Retrieval-Tools übertrifft. Lange Sequenzen hören auf, ein pathologischer Ausnahmefall zu sein, und beginnen, wie die Standard-Arbeitslast auszusehen.

Das verwandelt KI von einer statischen, vortrainierten Enzyklopädie in einen dynamischen Partner, der sich erinnert, was du letzte Woche gemacht hast. Titans können prinzipiell eine stabile Arbeitsgeschichte mit einem Team, einem Codebase oder einem Forschungsprojekt aufbauen und ihr Verhalten über Sitzungen hinweg verfeinern. Der eigene Bericht von Google, Titans + MIRAS: Helping AI have long-term memory, beschreibt dies als einen Schritt in Richtung Modelle, die mehr wie Menschen lernen—inkrementell, kontextuell und ohne jedes Mal zurückzusetzen, wenn du einen neuen Chat öffnest.

Der Genius liegt in der 'Überraschung'

Überraschung steht im Mittelpunkt des neuen Gedächtnissystems von Titans. Anstatt jeden Token über ein Kontextfenster von mehr als 2 Millionen zu hüten, weist das Modell jedem Textabschnitt einen Überraschungswert zu, der misst, wie stark die Realität von dem abweicht, was sein internes Sprachmodell vorhersagt. Hohe Überraschungsereignisse werden in Titans' getrenntes Langzeitgedächtnis geschrieben, während vorhersehbarer Standardstoff vorbeizieht und verschwindet.

Diese einfache Regel verwandelt das Gedächtnis von einem passiven Protokoll in einen aktiven Herausgeber. Eine routinemäßige „Danke, bis morgen“ am Ende von 500 E-Mails kommt nie in die engere Auswahl; ein einmaliger API-Schlüssel, ein seltsamer Randfall-Fehlerbericht oder eine plötzliche Änderung der Richtlinien tun das fast immer. Titans komprimiert effektiv Tage der Interaktion in eine spärliche Sammlung von „das wirst du bereuen, wenn du es vergisst“-Momenten.

Unter der Haube fungiert Surprise wie ein Budget. Jeder Speicherplatz hat einen Nützlichkeitswert, der sich sowohl aus seiner ursprünglichen Überraschung als auch aus der Häufigkeit ableitet, mit der Titanen ihn später erfolgreich zurücklesen. Wenn das Budget voll ist, stuft das Modell zuerst Einträge mit geringem Wert herab, schiebt sie aus dem aktiven Gedächtnis-als-Kontext in günstigere Darstellungen oder entfernt sie ganz.

Google nennt dies intelligentes Vergessen statt Löschung. Anstelle eines harten Schnitts, wenn Sie 128K oder 1M Tokens erreichen, lässt die Relevanz langsam nach: Eine selten verwendete Projektspezifikation verliert allmählich an Auflösung, während ein aktiv referenziertes Design-Dokument klar bleibt. Das Speichermodul wird während der Inferenz online aktualisiert, sodass dieser Verfall kontinuierlich erfolgt, während Titans arbeitet.

Dieses Verhalten wirkt unheimlich menschlich. Die kognitive Psychologie zeigt, dass Menschen neuartige, emotional aufgeladene oder unerwartete Ereignisse viel stärker verarbeiten als alltägliche Routinen; dein erster Arbeitstag in einem neuen Job übertrifft 200 gewöhnliche Dienstage. Titans integriert einen ähnlichen Bias in Silizium: Neuheit erhält ein stärkeres Schreibsignal, Wiederholungen werden als Hintergrundrauschen behandelt.

Die menschliche Erinnerung vergisst auch absichtlich, um effizient zu bleiben, und Titans spiegelt dieses Abwägen wider. Indem alte, wenig überraschende Spuren verblassen dürfen, anstatt sich an allem festzuklammern, vermeidet das System die Falle des „Fünf-Minuten-Genies, lebenslangen Amnesiaks“ klassischer Transformer. Was bleibt, ist ein langlebiger Erzählstrang, der Wendepunkte und nicht Zeitstempel hervorhebt.

Die Konkurrenz besiegen: Titanen gegen die Welt

Illustration: Die Konkurrenz zerschmettern: Titanen gegen die Welt

Google hat nicht nur groß geredet mit Titans; es brachte auch maßgebliche Beweise. Bei Langzeit-Tests, die normalerweise große Modelle entwerten, erzielte eine 760M-Parameter Titans-Variante still und leise Ergebnisse, die Systeme, die mehr als 50-mal so groß sind, in Verlegenheit bringen.

Bei der klassischen Nadel-im-Heuhaufen-Bewertung mussten die Titanen eine einzelne eingepflanzte Tatsache in umfangreichen Dokumenten finden. Bei einer Kontextlänge von 16.000 Token erreichte es über 95 % Genauigkeit, während viele fortschrittliche Modelle beginnen, Antworten zu verlieren oder zu halluzinieren.

Das Verständnis von Geschichten mit langem Kontext zeigt oft Modelle, die nur "einigermaßen" frühere Passagen erinnern. Auf bAbI-Long, das Systeme zwingt, Fakten zu verbinden, die über umfangreiche synthetische Erzählungen verstreut sind, haben die Titans nicht nur ihre Rivalen übertroffen; sie dominierten die Bestenliste.

In Googles Dokument und den anschließenden Analysen wird behauptet, dass Titans in diesen langfristigen Aufgaben eine brutale Vergleichsgruppe übertroffen haben: - GPT-4 - Llama 3.1 70B - RecurrentGemma 9B - Llama 3 in Kombination mit Abruf- und Suchtools

Das letzte Ergebnis ist am wichtigsten. Retrieval-augmented Setups verbinden externen Speicher und Vektordatenbanken mit Modellen wie Llama, um Vergesslichkeit auszugleichen, doch das integrierte Langzeitgedächtnis der Titans hat immer noch gewonnen. Anstatt Embeddings und externe Speicher zu jonglieren, behält Titans ein internes, trainierbares Gedächtnis, das sich in Echtzeit aktualisiert.

Parameternzahlen erzählen die wahre Geschichte. Während GPT-4 und Llama 3.1 70B in den Hunderten oder Milliarden von Parametern unterwegs sind, liegt der Long-Context-Star von Titans bei nur 760 Millionen. Sie erhalten eine Leistung, die wie ein Spitzenmodell bei mehrhundertseitigen Eingaben aussieht, zu einem Kostenprofil, das näher an einem mittelklassigen Open-Source-LLM liegt.

Diese Effizienz eröffnet Bereitstellungsoptionen, die die Giganten nicht erreichen können. Ein Modell mit weniger als einer Milliarde Parametern, das über 2 Millionen Token liest und dennoch Needle-in-a-Haystack meisterhaft bewältigt, kann kostengünstiger in der Cloud betrieben, über Flotten von GPUs verteilt oder sogar schrittweise in Szenarien auf Geräten realisiert werden.

Architektonisch deuten die Ergebnisse von Titans darauf hin, dass intelligentere Speicher brute-force Skalierung beim langfristigen Kontextverständnis übertrumpfen. Wenn ein 760-Millionen-Modell in der Lage ist, GPT-4 bei Millionen-Token-Problemen zu übertreffen, könnte das nächste Wettrüsten nicht um Größe gehen, sondern darum, wer das beste Gehirn baut.

Über das Gedächtnis: MIRAS und der kontinuierliche Lernende

MIRAS kommt nicht als ein weiteres Modell, sondern als eine vereinigende Theorie, wie Sequenzmodelle sich erinnern, vergessen und anpassen sollten. Die Google-Forschung stellt es als einen Fahrplan dar, der Transformers, Mamba, RWKV, DeltaNet und Titans auf derselben Karte vereint: unterschiedliche Antworten auf dieselben vier Fragen zu Gedächtnisform, Speicherregeln, Überschreibgeschwindigkeit und Aktualisierungsdynamik.

Anstatt vage über „langen Kontext“ zu reden, zwingt MIRAS Architekten dazu, genau anzugeben, welche Art von Langzeitgedächtnis sie möchten und wie aggressiv es sich selbst umschreiben sollte. Dieser Ansatz zielt direkt auf das katastrophale Vergessen ab, das langjährige Problem, bei dem ein Modell, das auf neue Fähigkeiten feinabgestimmt wird, stillschweigend alte auslöscht, weil seine Parameter sowohl als Gehirn als auch als Notizblock fungieren.

Kontinuierliches Lernen steht im Mittelpunkt dieses Fahrplans. Anstatt einmal auf einem festgelegten Textstapel aus dem Internet zu trainieren und es dabei zu belassen, setzt MIRAS auf Systeme, die ihr Gedächtnis während des Gebrauchs online aktualisieren, ohne zuvor erworbene Fähigkeiten zu gefährden.

Ilja Sutskever hat seinen Nordstern als Modelle beschrieben, die lernen wie ein „talentierter Teenager“: ständig neue Erfahrungen aufnehmen, überarbeiten und integrieren. MIRAS operationalisiert diese Vision, indem es die Nutzung als einen kontinuierlichen Trainingsfluss behandelt, nicht als eine schreibgeschützte Inferenzphase.

Titans wird der erste große, öffentliche Schritt auf dem MIRAS-Weg. Das überraschungsgetriebene Speichermodul, das in Titans: Lernen zu Erinnern zur Testzeit beschrieben wird, verhält sich bereits wie ein proto-kontinuierlicher Lerner, der unerwartete Ereignisse selektiv in einen speziellen Speicher schreibt, anstatt sie in die Basisgewichte einzuhämmern.

Benchmarks deuten darauf hin, was dieser Wandel ermöglicht. Eine Titans-Variante mit 760 Millionen Parametern hält im Vergleich zu GPT-4 und Llama-3.1-70B bei langzeitigen Aufgaben gut stand, während sie ihr Gedächtnis in Echtzeit über mehrmillion-token-Sitzungen aktualisiert.

Philosophisch betrachtet, verändert MIRAS die Denkweise von Laboren hinsichtlich der Skalierung. Anstatt nur weitere Parameter und Daten zu stapeln, setzt Google darauf, dass intelligenter, strukturierter Speicher – und Modelle, die nie wirklich aufhören zu lernen – wichtiger sein werden als noch weitere 10 Billionen Tokens.

Ihr neuer Kollege ist ein Agent namens Lux.

Ihr nächster „KI-Kollege“ könnte nicht ein Chatfenster in einer Seitenleiste sein, sondern ein Cursor, der leise über Ihren eigenen Desktop gleitet. Das ist die Wette der Open AGI Foundation mit Lux, einem neuen Modell, das den Computer selbst als Schnittstelle behandelt. Anstatt einen Bot anzusprechen und darauf zu hoffen, dass eine API vorhanden ist, richten Sie Lux auf einen Bildschirm und es beginnt einfach zu arbeiten.

Lux beschreibt sich selbst als ein Computerbenutzungsmodell, und dieser Ausdruck leistet ganze Arbeit. Das System verarbeitet Rohpixel, analysiert Schaltflächen, Menüs und Formulare und führt dann niedrigstufige Aktionen aus: Klicks, Scrollen, Tasteneingaben, Fensterwechsel. Es kann vollständige Desktops, Browser, Tabellenkalkulationen, Code-Editoren sowie selbst hartnäckige ältere Werkzeuge bedienen, die niemals eine Web-API erhalten haben.

Dies bewegt Lux aus der Kategorie „Assistent“ und hin zu einem Infrastrukturterritorium. Sie können es in eine entfernte VM integrieren und Rechnungen in einem Browser abgleichen, Daten in einer Desktop-Tabelle überprüfen und anschließend Follow-up-E-Mails in Outlook entwerfen. Für Unternehmen, die in zerbrechlichen RPA-Skripten und unvollendeten Integrationen ertrinken, beginnt ein bildschirmnative Agent wie ein universeller Adapter auszusehen.

Benchmark-Zahlen untermauern das Selbstbewusstsein. Auf Mind2Web, einem Online-Benchmark, der aus mehr als 300 realen Aufgaben von Live-Websites erstellt wurde, erzielt Lux 83,6, ein massiver Sprung gegenüber Googles Gemini mit 69,0 und dem besten Modell von OpenAI mit 61,3. Dieselben Aufgaben, dasselbe chaotische Web, radikal unterschiedliche Erfolgsquoten.

Mind2Web ist brutal durchdesignt. Nutzer müssen Anmeldeschranken, seltsame Layouts, unendliches Scrollen, Pop-ups und inkonsistente UI-Muster überwinden, um mehrstufige Ziele wie Buchungen, das Überprüfen von Bestellhistorien oder das Durchsuchen von Kontoeinstellungen abzuschließen. Lux’ Marge bei diesem Maßstab deutet darauf hin, dass es nicht nur darum geht, Abläufe zu memorisieren, sondern tatsächlich ein funktionierendes Modell zu entwickeln, wie Benutzeroberflächen sich verhalten.

Dieser Vorteil resultiert aus dem, was seine Entwickler agentisches aktives Vortraining nennen. Anstatt nur von statischen Protokollen oder synthetischen Anweisungen zu lernen, verbringt Lux die Vorbereitungszeit damit, in realen Umgebungen zu agieren, Benutzeroberflächen zu erkunden, zu scheitern und sich zu korrigieren. Das Modell verinnerlicht Muster wie „Filter verbergen sich hinter Trichtersymbolen“ oder „Bestätigungsdialoge kehren häufig die Farben der Schaltflächen um“, die über verschiedene Anwendungen hinweg übertragbar sind.

Man kann es sich vorstellen wie den Unterschied zwischen dem Lesen eines Handbuchs und dem tatsächlichen Fahren eines Autos. Traditionelle LLM-Agenten „lesen das Handbuch“ von Web-APIs und DOM-Bäumen; Lux hat Millionen von Stunden im Umgang mit lebender Software. Diese praktische Erfahrung vermittelt ein intuitiveres, menschenähnliches Verständnis von Benutzeroberflächen – und lässt „deinen neuen Kollegen“ weniger wie übertriebenen Hype und mehr wie eine bevorstehende Produktkategorie erscheinen.

Googles zweigleisiger Angriff: Geschwindigkeit und Kontroversen

Google setzt nicht alles auf das langfristige Gedächtnis der Titans. Parallel dazu verfolgt das Unternehmen eine zweite Strategie: rohe Verbreitung und preiswerte generative Medien. Interne Wachstumsdaten, die von Drittanbietern analysiert werden, zeigen, dass die monatlich aktiven Nutzer von Gemini schneller steigen als die von ChatGPT, und Google möchte eine vergleichbare Schlagkraft in Bildern und UI-Experimenten erreichen.

Betreten Sie Nano Banana 2 Flash, ein neues Bildmodell, das auf Kosten und Geschwindigkeit anstelle von Ruhm auf den Bestenlisten optimiert wurde. Positioniert als eine „nahezu professionelle“ Version von Googles führendem Bildsystem, zielt es darauf ab, nahezu Pro-Qualität zu einem Bruchteil der Rechenkosten zu liefern. Das ist wichtig für Milliarden von margenarmen Bildanfragen in der Suche, Android, Docs und Anzeigetools.

Betrachte Nano Banana 2 Flash als Googles Großtintenpatrone für generative Kunst. Du druckst damit keine Museumsstücke; stattdessen überschwemmst du das Web mit Thumbnails, Social Cards, Stickern und Produktmockups. Wenn es Google gelingt, Midjourney, DALL·E und Stability im Preis zu unterbieten und dabei die Qualität "gut genug" zu halten, kontrolliert es den Massenmarkt für KI-Bilder.

Gleichzeitig führte Google heimlich ein ganz anderes Experiment durch: AI-überarbeitete Nachrichtenüberschriften in Google Discover. Statt die ursprünglichen Titel der Verleger anzuzeigen, generierte ein internes Modell neue Überschriften in Echtzeit und formte dabei Geschichten manchmal mit stärkeren emotionalen Anknüpfungspunkten oder unterschiedlichen Schwerpunkten um. Die Nutzer sahen diese synthetischen Überschriften ohne klare Kennzeichnung oder Möglichkeit zum Abbestellen.

Verlage haben aufmerksam geworden. Berichte aus skandinavischen und europäischen Medien beschrieben Schlagzeilen, die den Ton oder die Bedeutung verzerrten, einschließlich Kriminalgeschichten, die sensationeller klangen, sowie politischen Artikeln, die wichtige Kontexte herabspielten. Redakteure behaupteten, dass Googles KI effektive zu einem nicht zur Verantwortung zu ziehenden Mitautor wurde, der zwischen ihrer Redaktion und ihrem Publikum saß.

Die Gegenreaktion kam schnell, da sie eine lange schwelende Zerrissenheit trifft. Plattformen kontrollieren bereits die Verbreitung, die Werbemärkte und zunehmend auch die Sprache, die den Journalismus prägt. Wenn eine KI-Überschrift beeinflussen kann, wie sich eine Korruptionsermittlung oder ein Klimabericht anfühlt, verlagert sich das redaktionelle Urteil von den Nachrichtenredaktionen auf Ranking-Systeme und Modellgewichte.

Der Discover-Test zeigt, wie schnell sich „assistive KI“ in editoriale KI verwandelt. Titans und Nano Banana 2 Flash streben nach Maßstab und Geschwindigkeit, doch die Kontroversen um die Überschrift legen den Handel offen: Technologiekonzerne wollen nicht nur Inhalte umschreiben, sondern auch, wie die Welt ihnen begegnet.

Die Zahlen lügen nicht: Das Wachstum von Gemini ist real.

Code Red hörte auf, eine Metapher zu sein, als die Download-Charts eintrafen. Laut Daten von SensorTower, die in aktuellen Berichten zitiert werden, gehört die mobile App von Gemini zu den am schnellsten wachsenden KI-Produkten aller Zeiten, während die monatlich aktiven Nutzer in einem Tempo steigen, das die jährlichen Zuwächse von ChatGPT in den Schatten stellt.

ChatGPT dominiert weiterhin in Bezug auf die reinen Zahlen, mit Hunderten von Millionen von Nutzern und der bekanntesten Marke im Bereich der Verbraucher-KI. Doch die Kurven von SensorTower erzählen eine andere Geschichte über die Dynamik: Geminis monatlich aktive Nutzer wachsen monatlich um ein Vielfaches schneller, insbesondere in Märkten, in denen Google die App vorinstallieren oder aggressiv hervorheben kann.

Dass Geschwindigkeit wichtiger ist als Angeberei. Ein schnelles Wachstum der monatlich aktiven Nutzer (MAU) belebt einen Kreislauf von: - Mehr Developer-Interesse an den Gemini-APIs - Mehr Enterprise-Pilotprojekte, die eine Google-skalierte Zuverlässigkeit anstreben - Mehr Verbraucher-Vertrauen, dass dies kein fehlerhaftes Experiment ist

Für Entwickler bedeutet der Aufstieg von Gemini eine glaubwürdige Alternative zu OpenAI, die direkt in Android, Chrome und Google Cloud integriert ist. Wenn Ihre Zielnutzer bereits in Gmail, Docs und der Suche unterwegs sind, beginnt die Entwicklung auf Googles Plattform weniger wie ein Risiko und mehr wie eine Notwendigkeit auszusehen.

Unternehmen betrachten dieselben Diagramme und sehen Verhandlungsspielraum. Ein schnell wachsendes Gemini gibt CIOs Rückhalt, um bessere Preise, Garantien für die Datenresidenz und Multi-Provider-Strategien zu fordern, die OpenAI, Google, Microsoft und Anthropic gegeneinander ausspielen.

Inzwischen nutzt Google stillschweigend seine Vertriebsmaschine. Die Gemini-Vorschläge in Android, KI-Funktionen in Workspace und von Gemini unterstützte Suchexperimente lenken alle normalen Nutzer in Googles Ökosystem, ohne dass eine separate Entscheidung für eine „KI-App“ erforderlich ist.

Das ist das echte Code Red für OpenAI: nicht, dass Gemini bereits gewonnen hat, sondern dass Google endlich Forschung, Produkt und Vertrieb in Einklang gebracht hat. Titanen, MIRAS und das umfassendere Gemini-Portfolio erreichen nun ein Publikum, das in die Milliarden geht, und jedes inkrementelle Funktions-Update nutzt diese Möglichkeit. Für alle, die die technischen Grundlagen verfolgen, liegt Googles Arbeit im Bereich langer Kontexte neben offenen Implementierungen im Google Research GitHub Repository und zeigt, wie schnell sich diese Ideen verbreiten können.

Das neue KI-Schlachtfeld ist da.

Code Red beschreibt nicht länger die Panik eines einzigen Unternehmens; es beschreibt ein neues KI-Schlachtfeld. Titans bietet Google ein Modell, das mehr als 2 Millionen Token-Kontexte mit einem echten Langzeitgedächtnis jonglieren kann und seine Erinnerungen in Echtzeit aktualisiert, anstatt vorzugeben, dass jedes Gespräch bei Null beginnt. Benchmarks wie Needle-in-a-Haystack mit über 95% Genauigkeit und Dominanz bei bAbI-Long zeigen, dass diese Fortschritte nicht nur Marketingfolien sind.

Legen Sie MIRAS oben drauf, und Sie erhalten eine Landkarte, kein einmaliges Modell. MIRAS stellt Transformers, Mamba, RWKV und andere als unterschiedliche Antworten auf vier Fragen zu Gedächtnisform, Speicherregeln, Verfallsrate und Aktualisierungsdynamik um. Das verwandelt „größeres Kontextfenster“ in einen Gestaltungsraum für kontinuierlich lernende Systeme.

In der Zwischenzeit greift Lux eine andere Front an: die Kontrolle. Lux analysiert deinen tatsächlichen Bildschirm, erkennt UI-Elemente und gibt Klicks, Scrolls und Tasteneingaben aus, um echte Aufgaben in Browsern, Tabellenkalkulationen und E-Mail-Clients abzuschließen. Im Mind2Web-Benchmark von über 300 realen Website-Aufgaben erreicht es eine Erfolgsquote von etwa 83,6 % und stellt damit ältere "Agent"-Demos, die auf fragilen APIs basieren, in den Schatten.

Der Druck auf die Verteilung kommt von Gemini und Nano Banana 2 Flash. Daten im Stil von Sensor Tower zeigen, dass die monatlich aktiven Nutzer von Gemini schneller wachsen als die von ChatGPT, unterstützt durch tiefe Integrationen in Android und Chrome. Nano Banana 2 Flash, ein günstigeres, schnelleres Bildmodell, das nahezu mit seinem Pro-Geschwistermodell mithalten kann, positioniert Google dafür, Mid-Range-Handys und Web-Apps mit "gut genug" multimodalem KI zu überschwemmen.

Google führt nun einen Multi-Fronten-Krieg:

1Grundlegende Architektur: Titans und MIRAS definieren neu, wie Modelle sich erinnern und lernen.
2Praktische Agentur: Lux-Style-Computer-Nutzungsagenten verwandeln LLMs in vollwertige Desktop-Operatoren.
3Marktverteilung: Gemini-Wachstum, Nano-Banane und KI-abgestimmte Überschriften bringen diesen Stapel in alltägliche Feeds und Geräte.

Statische, einmal trainierte und dann eingefrorene Modelle wirken zunehmend wie das Handbuch der letzten Dekade. Die nächste Phase konzentriert sich auf Agenten, die Monate an Interaktionshistorie speichern, Richtlinien spontan anpassen und in Betriebssystemen, Browsern und Produktivitätssuiten leben. All das liegt direkt vor OpenAIs Tür: Ihr Modell der nächsten Generation, Garlic, muss nun beweisen, dass es mit dem Gedächtnis der Titanen, der Agentur auf Lux-Niveau und der Reichweite auf Gemini-Skala mithalten kann, oder riskieren, dass Google die Regeln für den zweiten Akt der KI festlegt.

Häufig gestellte Fragen

Was sind Google Titans?

Titans ist eine neue KI-Architektur von Google Research, die darauf abzielt, Modellen ein echtes Langzeitgedächtnis zu verleihen. Sie trennt die kurzfristige Verarbeitung von einem Langzeitgedächtnismodul, das während der Nutzung kontinuierlich lernt und aktualisiert wird.

Wie funktioniert das Gedächtnis der Titanen?

Titans entscheidet, was gespeichert wird, basierend auf 'Überraschung'. Je unerwarteter oder neuartiger eine Information ist, desto wahrscheinlicher wird sie gespeichert, wodurch die KI effizient ein Gedächtnis wichtiger Fakten aufbauen kann.

Ist Google Titans besser als GPT-4?

Bei bestimmten Langzeit-Benchmarks, die die Fähigkeit einer KI testen, Informationen aus großen Textmengen abzurufen, behaupten das Video und die dazugehörigen Berichte, dass Titans Modelle wie GPT-4 und Llama 3.1 deutlich übertrifft.

Was ist MIRAS?

MIRAS ist ein Rahmenwerk, das zusammen mit Titans eingeführt wurde. Es bietet die Regeln und Methoden, damit Modelle kontinuierlich aus neuen Daten lernen können, ohne das vergangene Wissen zu vergessen, und bringt die KI näher an einen Zustand des ständigen Lernens.

𝕏 in ↑↗

Frequently Asked Questions

Was sind Google Titans?

Wie funktioniert das Gedächtnis der Titanen?

Ist Google Titans besser als GPT-4?

Was ist MIRAS?

Die KI von Google hat sich gerade weiterentwickelt.

TL;DR / Key Takeaways

Warum OpenAI einen 'Code Red' ausgerufen hat

Die Amnesie, die jede KI plagt

Treffen Sie Titans: Die KI, die niemals vergisst.

Der Genius liegt in der 'Überraschung'

Die Konkurrenz besiegen: Titanen gegen die Welt

Über das Gedächtnis: MIRAS und der kontinuierliche Lernende

Ihr neuer Kollege ist ein Agent namens Lux.

Googles zweigleisiger Angriff: Geschwindigkeit und Kontroversen

Die Zahlen lügen nicht: Das Wachstum von Gemini ist real.

Das neue KI-Schlachtfeld ist da.

Häufig gestellte Fragen

Was sind Google Titans?

Wie funktioniert das Gedächtnis der Titanen?

Ist Google Titans besser als GPT-4?

Was ist MIRAS?

Frequently Asked Questions

Read Next

Anthropic's neuer Agent hat gerade No-Code getötet

Dieses Tool zähmt chaotische AI Agents

Die perfekte Erinnerung der KI ist da

Stay Ahead of the AI Curve