OpenAI's Code Red und Garlic-Modell: Sam Altmans Plan, Google zu schlagen

💡

Zusammenfassung / Kernpunkte

Sam Altman hat 'Code Red' ausgerufen, da Googles Gemini droht, ChatGPT vom Thron zu stoßen. OpenAI's geheime Gegenoffensive, ein neues Modell mit dem Codenamen Garlic, ist ihre letzte große Hoffnung, den KI-Krieg zu gewinnen.

Sam Altman schlägt Alarm

Code Red traf OpenAI wie ein Feueralarm in einem Rechenzentrum. Sam Altman informierte die Mitarbeiter, dass das Unternehmen auf „Code Red“ gehe, ein Begriff, der normalerweise für existenzielle Bedrohungen reserviert ist, und befahl den Teams, sich auf ein Ziel zu konzentrieren: ChatGPT bedeutend schneller zu verbessern. Nebenschauplätze, experimentelle Funktionen und hoch riskante Projekte traten plötzlich in den Hintergrund, um den Kern-Chatbot zu stärken, der OpenAI zu einem bekannten Namen gemacht hat.

Google’s Gemini 3 hat den Krisenmoment geschaffen. Nach einem holprigen Rollout der ersten Generation von Gemini präsentierte sich Gemini 3 als brutale Widerlegung der Erzählung „Scaling is over“ und erzielte eine Leistung auf Spitzenebene, während es direkt in Googles massive Vertriebskanäle ausgeliefert wurde. Google sprang heimlich von etwa 450 Millionen auf rund 650 Millionen aktive Gemini-Nutzer in nur wenigen Monaten, während OpenAIs eigenes Wachstum, das sich nahe der Milliarde Nutzer bewegte, endlich sterblich und nicht mehr unvermeidlich wirkte.

Gemini 3 hat mehr als nur Benchmark-Tests gewonnen; es hat die Erzählung umgedreht. Zum ersten Mal wirkte OpenAI wie der selbstzufriedene Platzhirsch und Google wie der hungrige Herausforderer, angetrieben von seiner TPU-Flotte und jahrzehntelanger Infrastrukturarbeit. SemiAnalysis berichtete, dass OpenAI seit GPT-4.0 im Mai 2024 keinen erfolgreichen, breit eingesetzten, vollwertigen Pretraining-Durchlauf für ein neues Grenzmodell abgeschlossen hatte, während Google massive Modelle auf maßgeschneidertem Silizium skalierte.

Laut dem Code Red Memo von Altman lag der Fokus weniger auf IQ-Punkten und mehr auf Erfahrung. Er forderte die Teams auf, Personalisierung, Geschwindigkeit, Zuverlässigkeit und die Vielfalt der Fragen zu verbessern, die ChatGPT täglich zuverlässig beantworten kann. Intern verschob sich die Priorität von glänzenden Demos hin zu der unauffälligen Technik, die darüber entscheidet, ob Menschen tatsächlich einen Chatbot als Standardwerkzeug nutzen.

Dieser Pivot markiert eine leise, aber tiefgreifende strategische Veränderung. Jahrelang verfolgte OpenAI Schlagzeilenmerkmale: Multimodalität, Agenten, Sprache, App-Stores, auffällige Keynotes. Unter Code Red orientiert sich das Mandat stärker an einer klassischen Plattformverteidigung: - ChatGPT schneller erscheinen lassen als Gemini 3 - ChatGPT persönlicher erscheinen lassen als Gemini 3 - ChatGPT seltener ausfallen lassen als Gemini 3

OpenAI versucht nicht mehr nur, die Zukunft der KI zu erfinden. Code Red signalisiert ein Unternehmen, das plötzlich gezwungen ist, die Gegenwart zu verteidigen.

Die Häresie 'Scaling ist tot'

Illustration: Die 'Scaling is Dead'-Heresie

Die Skalierung der Häresie begann als ein Flüstern und verhärtete sich zu einem Dogma. Im vergangenen Jahr haben Ilya Sutskever, Andrej Karpathy und Yann LeCun alle argumentiert, dass das bloße Stapeln von mehr GPUs und Token auf bestehenden LLM-Architekturen abnehmende Erträge erzielt hat. Größer bedeutete nicht länger klüger; es bedeutete einfach teurer.

Forscher wiesen auf eine vermeintliche „Mauer“ im Vortraining hin. Sobald Modelle die GPT-4-Klasse erreichten, schien jeder zusätzliche Dollar an Rechenleistung weniger Fähigkeit zu kaufen, insbesondere bei schwierigen Aufgaben in den Bereichen logisches Denken und Planung. Der neue Konsens: Fortschritt erfordert jetzt frische Algorithmen, neue Architekturen und möglicherweise ganz andere Trainingsparadigmen.

Sutskever bezeichnete es als einen epochalen Wandel im Dwarkesh Patel Podcast: 2012–2020 als das „Zeitalter der Forschung“, 2020–2025 als das „Zeitalter der Skalierung“, und jetzt eine Rückkehr zur Forschung, da 100-mal mehr Rechenleistung keine 100-mal besseren Modelle hervorbringen würde. Karpathy betonte, dass die aktuellen LLMs „an den Grenzen ihres Wachstums angekommen sind.“ LeCun ging weiter und nannte autoregressive Textmodelle eine tote Endstation und plädierte für energiebasierte und weltmodellierte Ansätze.

Diese Erzählung verhärtete sich in Laboren und auf X, wo Memes „Scaling ist vorbei“ als gesunden Menschenverstand darstellen. Wenn führende Persönlichkeiten wiederholt betonen, dass mehr Daten und mehr Rechenleistung keinen Einfluss mehr haben, hören Organisationen auf, auf brute-force Skalierung zu setzen. Sie lenken Budgets von massiven Trainingsläufen in Sicherheitsmaßnahmen, Werkzeuge und kleinere, spezialisierte Systeme um.

SemiAnalysis berichtete, dass OpenAI seit GPT-4.0 im Mai 2024, also vor über 18 Monaten, keinen erfolgreichen vollständigen Pre-Training-Durchlauf für ein breit eingesetztes neues Frontier-Modell abgeschlossen hat. Intern sah das wie ein empirischer Beweis für die Wand aus: Das Training wurde schwieriger, Bugs katastrophaler und die Infrastrukturgrenzen restriktiver.

Google disagierte heimlich. Während die Konkurrenten von Obergrenzen sprachen, investierte Google Geld in seine TPUv5-Flotte, hochbandbreitige Interconnects und Datenpipelines, die speziell für gigantische Multi-Trillionen-Parameter-Mischungen optimiert wurden. Gemini 3 kam als eindeutiges Gegenargument: Skalierung, wenn sie richtig gemacht wird, funktioniert nach wie vor.

Dieses Missverhältnis in den Überzeugungen schuf einen blinden Fleck. Die Wettbewerber gingen davon aus, dass alle dieselbe Hürde überwunden hatten; Google wusste, dass es einfach über die eigene hinweggegangen war. Als Gemini 3 begann, OpenAI in wichtigen Coding- und Denkbenchmarks zu übertreffen, sah die Erzählung „Scaling ist tot“ nicht mehr wie Weisheit, sondern wie ein Eigentor aus.

Googles Gemini durchbricht die Grenzen.

Gemini 3 durchbrach das Narrativ, dass "Scaling tot sei", indem es das eine tat, was Skeptiker als erschöpft ansahen: sich dramatisch zu verbessern, indem es dramatisch größer wurde. Das Flaggschiff-Modell von Google übertraf GPT-4-Klassensysteme in einer Vielzahl öffentlicher Benchmarks, von Programmierung und Mathematik bis hin zu multimodalem Denken, und das bei interaktiven Reaktionszeiten, die für Verbraucher geeignet sind. Für Entwickler, die Gemini 1 und 1.5 als seitliche Upgrades betrachteten, fühlte sich Gemini 3 endlich wie ein klarer generationsübergreifender Sprung an.

Unter der Haube basiert Gemini 3 auf Googles vertikal integriertem KI-Stack: maßgeschneiderter TPU-Silizium, hyperskalierte Rechenzentren und eine Trainingspipeline, die über fast ein Jahrzehnt optimiert wurde. SemiAnalysis berichtet, dass OpenAI seit dem umfassend eingesetzten Pretraining-Lauf von GPT-4.0 im Mai 2024 nicht mehr in der Lage war, einen weiteren großangelegten Pretraining-Lauf abzuschließen, während Google weiterhin immer größere Trainingsläufe auf seiner TPU-Flotte stapelt. Diese Kontinuität ist wichtig, denn Skalierungsgesetze bringen nur dann Vorteile, wenn man tatsächlich weiter skalieren kann.

Die TPU v5 von Google und die aufkommenden Generationen v6/v7 verschaffen einen Kosten- und Durchsatzvorteil, den Standard-GPU-Anbieter nur schwer erreichen können. TPUs integrieren Hochgeschwindigkeits-Speicher, Verbindungen und Matrizen-Einheiten in einem Paket, das speziell für transformerbasierte Arbeitslasten entwickelt wurde, wodurch sowohl der Stromverbrauch als auch der Netzwerkaufwand reduziert werden. Wenn man Hunderte von Tausenden dieser Chips in eng gekoppelten Pods zusammenschalten kann, wird „einfach mehr Rechenleistung hinzufügen“ nicht mehr zu einem Meme, sondern zu einem Fahrplan.

Strategisch ermöglicht dieser Silikon-Vorteil Google, mehr Experimente durchzuführen, längere Trainingszeiten zu realisieren und größere Kontextfenster zu nutzen, ohne dabei Geld zu verbrennen. Die massive Mischung aus Expertenkonfiguration von Gemini 3 – die Token durch spezialisierte Subnetzwerke leitet – erfordert gewaltige Mengen an inter-chip Kommunikation. TPUs, die parallel mit Googles Softwarestack entwickelt wurden, machen dies in Produktionsgröße machbar.

Die Marktreaktion kam schnell. Google behauptet, die Nutzung von Gemini sei innerhalb weniger Monate von etwa 450 Millionen auf 650 Millionen aktive Nutzer gestiegen, hauptsächlich dank Gemini Advanced und Gemini für Workspace. Erstmals begannen Entwickler, die bisher auf OpenAI gesetzt hatten, ernsthaft Agenten, Co-Piloten und Chatbots in das Google AI-Ökosystem zu portieren.

Dieser Wandel zeigt sich in den Werkzeugen. Cloud-Kunden sehen jetzt die Gemini 3-Optionen in Vertex AI, Google Docs, Gmail, Android und Chrome integriert, wodurch die Modellauswahl zu einer Standardeinstellung anstelle eines Forschungsprojekts wird. Für Startups, die ihre Ausgaben im Blick haben, machen günstigere Inferenzmöglichkeiten auf TPUs plus wettbewerbsfähige Qualität Gemini 3 zu einem einfachen A/B-Test gegen GPT-4.1.

Investoren und Rivalen wurden aufmerksam. Berichterstattungen wie OpenAIs Altman erklärt 'Code Rot', um ChatGPT zu verbessern, während Google die KI-Führung bedroht stellte Gemini 3 als die erste echte Bedrohung für ChatGPTs kulturelle und technische Dominanz dar. Sam Altman’s internes Memo zum „Code Rot“ bestätigte lediglich, was die Benchmarks bereits angedeutet hatten: Google hatte die Mauer durchbrochen, von der jeder andere behauptete, sie sei stabil.

Inside OpenAIs Krisenmanagement im All-Hands-On-Deck-Modus

Code Red innerhalb von OpenAI bedeutet nicht Feueralarme und Slogans; es bedeutet einen drastischen Rückruf der Prioritäten. Laut Berichten des Wall Street Journal und internen Memos hat Sam Altman die Teams angewiesen, alles zu stoppen, was nicht direkt dazu beiträgt, ChatGPT schneller, zuverlässiger oder attraktiver für die tägliche Nutzung zu machen.

Projekte, die einst wie die nächsten Einnahmequellen von OpenAI aussahen, sind plötzlich auf Eis gelegt. Die Arbeiten an experimentellen Anzeigen, Einkaufsintegrationen und leichten Unternehmenswetten wurden angehalten oder verlangsamt, damit Ingenieure und Forscher zum Kernmodell-Stack zurückkehren können.

Produktmanager, die im vergangenen Jahr an „AI-nativen“ Produktivitätstools gearbeitet haben, stehen nun vor einem einfacheren Mandat: die täglichen aktiven Nutzer zu verteidigen. Das bedeutet weniger Experimente in angrenzenden Apps und mehr fokussierte Arbeit an der Latenz, Verfügbarkeit und den Sicherheitsvorkehrungen des Flaggschiff-Chatbots von OpenAI.

Altman berichtete angeblich den Mitarbeitern, dass die „tägliche Erfahrung“ von ChatGPT hinter dem liegt, wo sie sein sollte, insbesondere da Google mit Gemini 3 aufholt. Daher ist die Optimierung der Leistung zur neuen Wachstumsstrategie geworden: Hunderte von Millisekunden von den Antwortzeiten abziehen, die Infrastruktur stärken und die Eingabeaufforderungen sowie das Routing so anpassen, dass Benutzer standardmäßig den besten Modellpfad erreichen.

Personalisierung steht im Mittelpunkt dieses Sprints. Die Teams arbeiten daran, die Benutzerprofile zu vertiefen, mehr Kontext über Sitzungen hinweg zu speichern und Ton und Format anzupassen, sodass ChatGPT weniger wie ein generischer Assistent wirkt und mehr wie ein maßgeschneiderter KI-Begleiter, der Ihre Gewohnheiten, Dokumente und Arbeitsabläufe versteht.

Internally beschreiben Ingenieure eine "All-Hands"-Umstrukturierung, die stark an eine Kriegsführung erinnert. Forscher, die an längerfristigen Ideen gearbeitet haben, wurden neu zugewiesen, um kurzfristige Verbesserungen in der Zuverlässigkeit des Denkens, der Mehrschritt-Nutzung von Werkzeugen und der Reduzierung der "Das kann ich nicht helfen"-Sackgassen zu erzielen.

Die Kennzahlen haben sich entsprechend verschoben. Anstatt auffällige Demos zu feiern, verfolgt die Führung jetzt: - Tägliche und wöchentliche aktive Nutzer - Sitzungsdauer und Aufgabenerledigung - Absprungraten, wenn ChatGPT falsch oder zu langsam antwortet

Code Red bedeutet in der Praxis, dass OpenAI jede inkonsistente Antwort, langsame Reaktion oder irrelevante Rückmeldung als existenziellen Fehler behandelt. Mit Garlic, das in den Startlöchern steht, möchte das Unternehmen die Grundlage einer loyalen, engagierten Nutzerbasis, bevor es das Nächste einführt.

Enthüllung von 'Knoblauch': Der Zwillinge-Mörder

Illustration: Die Enthüllung von 'Knoblauch': Der Zwillinge-Killer

Knoblauch ist der Codename, den man wählt, wenn man versucht, etwas Gruseliges abzuwehren. Laut einem detaillierten Bericht von The Information hat OpenAI diesen Herbst still und heimlich mit dem Training von „Knoblauch“ begonnen, dem ersten echten Post-GPT-4-Frontmodell, das intern ausdrücklich als Antwort auf den Aufstieg von Googles Gemini 3 und die Skalierungserfolge durch TPU gerahmt wird. Mark Chen, Chief Research Officer von OpenAI, soll den Mitarbeitern berichtet haben, dass Knoblauch nun die oberste Forschungspriorität des Unternehmens ist.

Anstatt der Größe um ihrer selbst willen nachzutragen, zielt Garlic direkt auf die spezifischen Engpässe beim Pre-Training ab, die Gemini gerade überwunden hat. Google hat gezeigt, dass man weiterhin skalieren kann, wenn der Rechenstapel ausreichend rigoros ist; OpenAI setzt darauf, diese Lücke mit intelligenteren Pre-Training-Rezepten zu schließen: effizientere Datenkurierung, training im Curriculum-Stil und aggressive Mischung-der-Experten-Routen, um die Kosten im Griff zu behalten. Interne Unterlagen, die von The Information zitiert werden, beschreiben Garlic als „Rechenleistung auf GPT-4.5-Niveau, Effizienz auf Gemini-3-Niveau.“

Wo Gemini 3 bei Web-Benchmarks und multimodalen Aufgaben glänzte, konzentriert sich Garlic Berichten zufolge auf wertvolle Arbeitslasten: Programmierung, langfristiges Denken und Werkzeugnutzung. In OpenAIs interner Programmier-Suite, die stark auf Multi-Datei-Refactorings und agentische Arbeitsabläufe ausgerichtet ist, liegt Garlic bereits in frühen Tests vor Gemini 3 Pro und Anthropics Opus 4.5, obwohl es noch nicht vollständig trainiert ist. Ein internes Diagramm, das mit Forschern geteilt wurde, zeigte, dass Garlic bei den pass@1-Coding-Metriken bei vergleichbarer Temperatur um mid-single-digit Prozentpunkte vorn lag.

Die Benchmarks für das logische Denken erzählen eine ähnliche Geschichte. Berichten zufolge übertrifft Garlic Gemini 3 und Opus 4.5 in der privaten Mathematik- und Logikmischung von OpenAI, einschließlich synthetischer Denkprozesse, die darauf ausgelegt sind, oberflächliches Mustererkennen zu bestrafen. Mitarbeiter, die die Zahlen gesehen haben, beschrieben Garlic als “deutlich im Vorteil gegenüber GPT-4.1” und “in einem Wettkampf mit Gemini 3 Ultra” bei schwierigen mehrstufigen Aufgaben, selbst vor den letzten Trainingsphasen und Durchläufen des Reinforcement Learning.

Architektonisch betrachtet sieht Garlic wie eine Evolution und nicht wie ein Neustart aus. Personen, die mit der Arbeit vertraut sind, beschreiben ein Rückgrat im Stil von GPT-4.1 mit einer stärkeren Sparsamkeit, besseren Abruf-Mechanismen und engerer Integration mit dem Tool-Calling-Stack von OpenAI. Das Ziel: ein Modell, das als bevorzugtes Gehirn für Agenten, workflows im Suchstil und Code-Co-Piloten fungieren kann, ohne die Latenzspitzen, die die größten Systeme von heute plagen.

Das Benennen ist der Ausgangspunkt der Spekulationen. Intern wird Garlic nur als Codename verwendet, aber Führungskräfte diskutieren Berichten zufolge, ob es als GPT-5.2 – ein leiser, aber scharfer Upgrade – vorgestellt oder als GPT-5.5 markiert werden soll, um es als die umfassende Antwort des Unternehmens auf Gemini 3 zu vermarkten. Die Zeitpläne, die bei OpenAI zirkulieren, deuten auf einen aggressiven Zeitrahmen hin: eine gestaffelte Einführung für Unternehmenskunden im vierten Quartal und eine breite Verfügbarkeit bis Ende des Jahres, sofern Training und Sicherheitsbewertungen im Zeitplan bleiben.

Die Rückkehr zur brutalen Grenze des Pre-Trainings

Die Muskelgedächtnis ist plötzlich wieder ein strategisches Kapital bei OpenAI. Der Chief Research Officer Mark Chen soll den Mitarbeitern mitgeteilt haben, dass das Unternehmen seine Expertise im Pre-Training verkümmern ließ, während es dem Lernen durch menschliches Feedback, Sicherheitsarbeiten und auffälligen Produkteigenschaften nachjagte – und diese Ära ist jetzt vorbei. Im Rahmen von Code Red rückte das Pre-Training von einem Hintergrundprozess in den Vordergrund.

Für etwa 18 Monate nach dem Abschluss des Trainings von GPT-4o im Mai 2024 hat OpenAI kein neues vollumfängliches Frontier-Pre-Training abgeschlossen, das breitflächig ausgeliefert wurde, so SemiAnalysis. Diese Lücke fiel mit einer Abkehr hin zu RLHF, Tool-Nutzung und Produktivierung zusammen: ChatGPT, Sprachmodi, Agenten und Unternehmensfunktionen. Diese Wetten brachten Nutzer und Einnahmen, schärften jedoch auch eine Kernkompetenz, gerade als Google bewies, dass rohes Skalieren weiterhin die Obergrenze anhebt.

Jetzt baut OpenAI diese Fähigkeit mit einer fast altmodischen, "Grenzlabors von 2020"-Mentalität wieder auf. Chen hat das Vortraining als den schwierigsten und ertragreichsten Teil des Stapels definiert, und Code Red gibt ihm den politischen Rückhalt, um entsprechend einzustellen. Intern sprechen die Führungskräfte darüber, ein "Superstar-Team" aus Systemingenieuren, Optimierungsspezialisten und Datenpipeline-Experimentatoren zusammenzustellen, dessen einziges Mandat darin besteht, eine weitere Größenordnung zu erreichen.

Die rationale Argumentation ist einfach und brutal: Wer die Effizienz des Pre-Trainings besitzt, hat die Oberhand. OpenAI glaubt, dass sich ihr Geheimrezept an Orten befindet, die Außenstehenden nicht leicht zugänglich sind – Datenkuratierungstechniken, Lehrpläne, Optimierungsanpassungen, Mix von Experten-Routing und Tricks zur Ausrichtung der Trainingszeit. Das sind genau die Stellschrauben, die bestimmen, ob ein Dollar an Rechenleistung einen bescheidenen Anstieg oder einen Sprung auf Gemini-3-Niveau produziert.

Führungskräfte sind ebenfalls der Meinung, dass der Markt ihr Schweigen fälschlicherweise als Stagnation interpretiert hat. Während Google TPUv7 und Parameterzahlen zur Schau stellt, setzt OpenAI auf weniger offensichtliche Vorteile: bessere Verlustskalierung bei Billionen-Tokens-Regimes, dichtere Wissensverpackung in kleineren Modellen und Architekturen, die katastrophale Trainingsfehler überstehen. In internen Briefings rund um Garlic hat Chen das Personal auf Berichte wie OpenAI entwickelt das 'Garlic'-Modell, um Googles jüngste Gewinne zu konterkarieren hingewiesen, die die öffentliche Spitze eines viel größeren Eisbergs darstellen.

Code Red bedeutet in der Praxis eine Umverteilung von Ressourcen, abgesagte Nebenprojekte und einen Einstellungsprozess, der die besten Kandidaten direkt ins Pre-Training leitet. Wenn Garlic ankommt und die interne Aufregung erfüllt, möchte OpenAI, dass die Branche eine alte Lektion neu lernt: Alignment-Tricks und UX-Optimierungen sind wichtig, aber der eigentliche Vorteil beginnt immer beim ersten Token des Korpus.

Intelligenz reicht nicht aus: Der Krieg um das Nutzererlebnis

Sam Altmans internes Memo betonte offenbar einen einfachen Punkt: Für „99% der Nutzer“ zählt die alltägliche Erfahrung mehr als abstrakte IQ-Punkte auf einem Vergleichsdiagramm. Das ist eine harte Neuinterpretation des Wettrüstens im Bereich der Frontier-Modelle. Wenn Gemini 3 und Garlic für die meisten Eingaben weitgehend austauschbar sind, gewinnt derjenige, der die Interaktion reibungsloser, schneller und persönlicher gestaltet.

Für typische Nutzer, die um E-Mail-Entwürfe, Zusammenfassungen oder Code-Snippets bitten, fühlen sich die heutigen großen Sprachmodelle bereits „intelligent genug“. Sie benötigen keinen Theorembeweiser auf PhD-Niveau; sie brauchen einen Assistenten, der nicht ins Stocken gerät, nicht glitcht und den Kontext nicht vergisst. Marginale Fortschritte im Reasoning sind weit weniger wichtig als die Frage, ob ChatGPT, Gemini oder Claude sich wie ein verlässliches Werkzeug anfühlt und nicht wie ein launischer Genie.

Das verlagert das Schlachtfeld auf Frameworks: alles, was das Kernmodell umgibt. Altman nannte angeblich hervorhebenswert: - Personalisierungsfunktionen - Geschwindigkeit - Zuverlässigkeit - Umfassendere Fragenabdeckung

Das sind Produktprobleme, keine bloßen Forschungsprobleme, und sie entscheiden, welches Symbol die Nutzer 20 Mal am Tag antippen.

Geschwindigkeit wird zu einem UX-Feature, das mit Genauigkeit gleichzusetzen ist. Google hebt die Reaktionsfähigkeit von Gemini 3 auf seinem TPUv7-Stack hervor; OpenAI muss Garlic und seine Serviinfrastruktur nutzen, um diese Latenz zu erreichen oder zu übertreffen, insbesondere auf Mobilgeräten. Ein Unterschied von 400 Millisekunden in der Reaktionszeit kann darüber entscheiden, ob ein Assistent sofort oder träge wirkt.

Zuverlässigkeit geht über die Betriebszeit hinaus. Nutzer wünschen sich weniger „Damit kann ich nicht helfen“-Sackgassen, weniger halluzinierte Zitationen und ein konsistentes Verhalten auf Web, Desktop und Mobiltelefon. Google gibt 650 Millionen Gemini-Nutzer an; OpenAI schwebt mit ChatGPT nahe der 1 Milliarde. In solch einem Maßstab zieht ein einziger Ausfall oder eine defekte Funktion Wellen durch Klassenzimmer, Büros und Callcenter.

Personalisierung ist der nächste Wettkampf. Wer einen generischen Chatbot in einen beständigen, kontextbewussten Agenten verwandelt, der Vorlieben, Projekte und Stil im Gedächtnis behält, gewinnt den Loyalitätskrieg – lange bevor jemand bemerkt, wer auf der nächsten MMLU-Rangliste die Nase vorn hat.

Der Graben: Kann Markenloyalität die Distribution schlagen?

Illustration: Der Graben: Kann Markentreue den Vertrieb übertreffen?

ChatGPT befindet sich in einer seltenen Kategorie von Tech-Marken, deren Namen über Nacht zu Verben wurden. Die Leute „ChatGPT“ Hausaufgabenaufforderungen, E-Mails und Code, so wie sie Fragen „googeln“. Diese sprachliche Festlegung ist wichtig: Sie kodiert den Chatbot von OpenAI als das Standard-Mentalmodell für KI-Assistenten, selbst wenn Konkurrenten es heimlich in Benchmarks übertreffen.

Die Markenanziehungskraft kollidiert direkt mit Googles Vertriebsmaschine. Google kann Gemini überall dort präsentieren, wo Nutzer bereits aktiv sind: im Suchfeld, in der URL-Leiste von Chrome, in den Seitenleisten von Docs und in der Systemoberfläche von Android. OpenAI hingegen lebt größtenteils in einer Webanwendung, einer mobilen Anwendung und einem verstreuten Ökosystem aus API-Integrationen und Drittanbieter-Hüllen.

Der Vorteil von Google vervielfältigt sich durch die Voreinstellungen. Milliarden von Menschen werden generative KI kennenlernen durch: - Eine Gemini-Antwort über 10 blaue Links - Ein Gemini-Panel in Chrome - Einen Gemini-Vorschlag in Gmail oder Docs

Die meisten dieser Nutzer werden niemals „chatgpt.com“ eintippen oder Gemini mit GPT-4 vergleichen. Sie werden einfach akzeptieren, was die Suchleiste oder das Eingabefeld ihnen bietet.

OpenAIs Wettbewerbsvorteil scheint bei frühen Nutzern und Power-Usern am stärksten zu sein. Entwickler, Forscher und KI-native Fachleute jonglieren bereits mit ChatGPT, Claude, Gemini und offenen Modellen wie Llama oder Mistral, oft über „Router“-Tools, die automatisch das beste Modell auswählen. Für diese Gruppe ist die Marke wichtig, aber Latenz, Kontextlänge, Nutzung der Tools und die Qualität des logischen Denkens entscheiden darüber, welcher Tab angeheftet bleibt.

Massenmarkt-Nutzer verhalten sich anders. Die Geschichte zeigt, dass die meisten Menschen an Standardoptionen festhalten, selbst wenn bessere Tools existieren: Chrome setzte sich gegen Firefox durch, weil Google die Suche kontrollierte, nicht weil Firefox schlechter wurde. Wenn Gemini der allgegenwärtige Assistent in Suchanfragen, Android und Chrome wird, muss OpenAI die Nutzer überzeugen, eine separate App für marginal besser Antworten zu suchen.

Sam Altmans Wette auf die „alltägliche Erfahrung“ erkennt implizit diese Spaltung an. Power-User werden nach dem besten Modell suchen; alle anderen werden sich mit dem begnügen, was schnell, vertraut und kostenlos erscheint. Die Marke ChatGPT gibt OpenAI Zeit, aber Googles Verbreitung verleiht Gemini Reichweite – und in der Konsumententechnologie formt Reichweite normalerweise die nächste Generation von Gewohnheiten.

Das ist kein Duell, sondern ein Royal Rumble.

Code Red bei OpenAI sorgt für eine dramatische Schlagzeile, aber die Darstellung als ein klares Duell zwischen OpenAI und Google übersieht die eigentliche Geschichte. KI ähnelt jetzt eher einer überfüllten Titelseite: OpenAI, Google, Anthropic, Meta, Mistral, Apple, xAI und eine schnell wachsende lange Liste chinesischer Labore und Open-Source-Kollektive. Jede dieser Gruppen optimiert für eine etwas andere Definition von „Intelligenz“, und diese Fragmentierung beschleunigt das Tempo des Wandels.

Anthropic setzt stark auf verfassungsmäßige KI und verkauft Zuverlässigkeit und Sicherheit als Unternehmensmerkmale. Die Claude 3.5-Modelle erscheinen zunehmend in regulierten Branchen, die weniger an rohen Benchmark-Gewinnen interessiert sind und mehr an Auditierbarkeit, Ablehnungsverhalten und stabilen APIs. Das Angebot ist einfach: weniger Überraschungen, bessere Leitplanken, starkes Codieren und Denken ohne das Markenballast von Gemini oder GPT.

Meta hat unterdessen Llama zum standardmäßigen Open-Source-Substrat gemacht. Llama 3.1 und seine 8B/70B-Varianten treiben nun Tausende von Startups, interne Unternehmenswerkzeuge und experimentelle Anwendungen auf Geräten an. Meta tauscht führende Positionen gegen Verbreitung: Wenn Entwickler standardmäßig auf Llama aufbauen, formt Meta leise das Ökosystem, selbst wenn niemand seine offiziellen Apps nutzt.

Mistral spielt das Effizienzspiel. Seine Modelle der Klassen 7B–22B liefern eine überproportionale Leistung bei Durchsatz und Latenz, insbesondere auf handelsüblichen GPUs. Europäische Rechenzentren, kostensensible SaaS-Anbieter und agile Infrastruktur-Startups greifen zunehmend zu Mistral, wenn die Qualität der GPT-4-Klasse übertrieben ist und jede Millisekunde sowie jeder Dollar zählt.

Zoomen Sie heraus, und Sam Altmans Code Red sowie Googles Gemini 3-Inititative wirken als Antrieb für alle anderen. Wie Google einen Angriff auf die KI-Krone wagt beschreibt, setzen die TPU-Ökonomie und massive Pre-Training-Läufe die Erwartungen an die Skalierung zurück. Das zwingt Anthropic, sich in Bezug auf Sicherheit abzugrenzen, Meta dazu, auf permissive Lizenzen zu setzen, und Mistral, die Leistung pro FLOP weiter zu steigern.

Die Nutzer sehen kein Duell; sie sehen ein königliches Chaos aus sich überschneidenden Ökosystemen. Der wahre Gewinner könnte das emergente Verhalten all dieser Modelle sein, die in einer Rückkopplungsschleife aus Wettbewerb, Nachahmung und Überbietung gefangen sind.

Warum dieser erbitterte Wettkampf großartige Nachrichten für Sie ist

Alarmstufe Rot bei OpenAI und ein von TPU angetriebener Vorstoß bei Google klingen erschreckend, wenn man ein konkurrierendes Labor ist. Wenn man ein Nutzer ist, ist es ein Jackpot. Rüstungsrennen in der Technik enden historisch gesehen meist mit leistungsfähigeren Produkten, schnelleren Iterationen und einem gnadenlosen Wettlauf um die Preise zu unterbieten.

Heiße Konkurrenz hat den "LLM-Zugang" bereits von einem 20-Dollar-pro-Monat-Novelty zu einer Ware gemacht. OpenAI, Google, Anthropic, Meta, Mistral und Open-Source-Projekte kämpfen nun darum, mehr Kontext, bessere Werkzeuge und höhere Nutzungslimits für dasselbe oder weniger Geld anzubieten. Unternehmenskäufer drängen leise noch stärker, drücken die coûts pro Sitzplatz und verlangen nutzungsbasierte Rabatte.

Die Modellqualität springt schneller, wenn sich niemand sicher fühlt. Gemini 3 zwang OpenAI zu Garlic, einem erneuerten Pre-Training-Schub nach mehr als einem Jahr ohne eine bedeutende Frontier-Veröffentlichung über GPT-4.0 hinaus. Anthropic antwortete auf GPT-4 mit Claude 3.5 und 4.5; Meta veröffentlicht weiterhin größere Llama-Checkpoints kostenlos und hebt damit das Niveau für alle.

Erwarten Sie in den nächsten 6 bis 12 Monaten nicht nur Schlagzeilen über „GPT-5 vs. Gemini 4“, sondern auch greifbare Verbesserungen, die die Benutzer erleben können:

1Längere Kontextfenster als Standard, nicht nur für Premium.
2Schnellere Reaktionszeiten durch verbesserte Inferenz-Stacks und maßgeschneiderte Siliziumlösungen
3Robustere Werkzeuge: Codeausführung, Browsing und Dateiverwaltung, die tatsächlich im großen Maßstab funktionieren.
4Höhere Zuverlässigkeit bei mehrstufigen Aufgaben und Agenten

Der Preisdruck wird sich verstärken. Google kann Gemini durch Search und Cloud subventionieren, während Microsoft OpenAI-Modelle in 365 und Azure bündeln kann. Diese Cross-Subvention-Dynamik hat historisch die effektiven Preise für Cloud-Computing und Speicher gesenkt; wahrscheinlich wird sie das Gleiche für Tokens, API-Aufrufe und „AI-Sitzplatz“-Lizenzen tun.

Die Benutzererfahrung wird sich schärfen, da Sam Altman ausdrücklich „die tägliche Erfahrung“ zum Schlachtfeld gemacht hat. Erwarten Sie eine reichere Personalisierung, ein Gedächtnis, das über Sitzungen hinweg bestehen bleibt, und Workflows, die eher wie Assistenten in E-Mails, Dokumenten und IDEs aussehen, als wie ein leeres Chatfeld. ChatGPTs Markenschutz hält nur, wenn das Produkt jede Woche offensichtlich besser erscheint.

Am wichtigsten ist, dass kein Labor ins Stocken kommt. Jede Verzögerung bei der Vorab-Training, der Optimierung der Inferenz oder beim UX-Finish wird zu einer Schlagzeile und einem Ereignis, das zu Abwanderung führt. Diese Dringlichkeit bedeutet, dass die Nutzer schnellere Iterationszyklen, mehr Experimente und einen konstanten Strom von Funktionen erhalten, die Wettbewerber sich nicht trauen, nicht zu veröffentlichen.

Häufig gestellte Fragen

Was ist OpenAIs 'Code Red'?

Es handelt sich um eine interne Initiative, die von CEO Sam Altman erklärt wurde, um die Leistung und die Kerntechnologie von ChatGPT dringend zu verbessern, als direkte Reaktion auf die Wettbewerbsbedrohung durch das Gemini 3-Modell von Google.

Was ist das 'Garlic' KI-Modell?

'Knoblauch' ist der interne Codename für ein neues KI-Modell, das von OpenAI entwickelt wird. Es wurde speziell entwickelt, um den jüngsten Fortschritten von Google im Bereich des Pre-Trainings entgegenzuwirken und soll Berichten zufolge in internen Tests gut gegen Gemini 3 abschneiden.

Ist das Skalieren von KI-Modellen tot?

Während einige Experten, darunter der ehemalige Mitbegründer von OpenAI, Ilya Sutskever, vorschlugen, dass das Skalieren an seine Grenzen stößt, bewies Google's Gemini 3, dass erhebliche Fortschritte weiterhin möglich sind. Die Führung von OpenAI behauptet nun, dass das Skalieren nicht tot ist und sie sich wieder darauf konzentrieren.

Warum ist Googles Gemini 3 eine große Bedrohung für ChatGPT?

Gemini 3 hat massive Leistungssteigerungen demonstriert, was darauf hindeutet, dass Googles maßgeschneiderte TPU-Architektur ihnen einen entscheidenden Vorteil beim Skalieren von Modellen verschafft. Dies, zusammen mit Googles umfangreicher Nutzerbasis und Vertriebswegen, stellt die erste große Herausforderung für die Marktführerschaft von OpenAI dar.

𝕏 in ↑↗

One weekly email of tools worth shipping. No drip funnel.

one email per week · unsubscribe in two clicks · no third-party tracking

Häufig gestellte Fragen

Der Graben: Kann Markenloyalität die Distribution schlagen?

See article for details.

Was ist OpenAIs 'Code Red'?

Was ist das 'Garlic' KI-Modell?

Ist das Skalieren von KI-Modellen tot?

Warum ist Googles Gemini 3 eine große Bedrohung für ChatGPT?

OpenAIs Code Red: Knoblauch kommt.

Zusammenfassung / Kernpunkte

Sam Altman schlägt Alarm

Die Häresie 'Scaling ist tot'

Googles Gemini durchbricht die Grenzen.

Inside OpenAIs Krisenmanagement im All-Hands-On-Deck-Modus

Enthüllung von 'Knoblauch': Der Zwillinge-Mörder

Die Rückkehr zur brutalen Grenze des Pre-Trainings

Intelligenz reicht nicht aus: Der Krieg um das Nutzererlebnis

Der Graben: Kann Markenloyalität die Distribution schlagen?

Das ist kein Duell, sondern ein Royal Rumble.

Warum dieser erbitterte Wettkampf großartige Nachrichten für Sie ist

Häufig gestellte Fragen

Was ist OpenAIs 'Code Red'?

Was ist das 'Garlic' KI-Modell?

Ist das Skalieren von KI-Modellen tot?

Warum ist Googles Gemini 3 eine große Bedrohung für ChatGPT?

One weekly email of tools worth shipping. No drip funnel.

Häufig gestellte Fragen

Als Nächstes lesen

Deno's KI-Firewall beendet das Agenten-Chaos

Dieser AI Agent baut Unternehmen für Sie auf

Realitätscheck für KI: Der Benchmark, der LLMs entlarvte

Bleiben Sie der KI voraus