TL;DR / Key Takeaways
Die 20 Milliarden Dollar Täuschung
Überschriften, die schreien, dass NVIDIA Groq für 20 Milliarden Dollar "gekauft" hat, sind zwar hervorragende Thumbnail-Elemente, doch verfehlen sie den Punkt. Dies ist keine einfache Übernahme, bei der ein Unternehmen im anderen verschwindet. Es handelt sich um einen sorgfältig ausgehandelten nicht-exklusiven Lizenzvertrag, verbunden mit einer massiven Migration von Menschen.
NVIDIA besitzt nicht die Unternehmenshülle von Groq. Stattdessen sichert es sich eine Lizenz für Groqs Hochdurchsatz-Inferenztechnologie und wirbt den Gründer Jonathan Ross, Präsident Sunny Madra und eine kritische Masse an leitenden Ingenieuren ab. Groq behält seine Marke, den GroqCloud-Dienst und eine minimale Struktur unter dem neuen CEO Simon Edwards.
Diese Unterscheidung ist wichtig. Eine vollständige Akquisition würde deutlich aggressivere wettbewerbsrechtliche Überprüfungen für ein Unternehmen nach sich ziehen, das bereits schätzungsweise 80–90% des Marktes für Datenzentrum-GPUs kontrolliert. Ein Lizenz- plus Talent-Deal verschafft NVIDIA den größten Vorteil – Zugang zu geistigem Eigentum, Chip-Architekten, wettbewerbliche Neutralisierung – ohne die regulatorischen Belastungen.
Diese Struktur verändert auch Groqs Zukunft. Auf dem Papier bleibt Groq ein unabhängiger Konkurrent im Bereich spezialisierter Inferenz-Chips. In der Praxis verlässt jedoch der avantgardistische Forschungs- und Entwicklungs-Kern das Unternehmen, und die wertvollste Technologie unterstützt nun eher die Festigung von NVIDIAs Burggraben, anstatt ihn zu erodieren.
Die großen Tech-Unternehmen haben dieses Spielbuch in den letzten zwei Jahren verfeinert. Microsofts 650-Millionen-Dollar-Vereinbarung mit Inflection AI, Googles berichteter 2,7-Milliarden-Dollar-Deal mit Character.AI und Amazons Talentakquise von Adept folgen alle demselben Muster: - Die Technologie lizenzieren - Die Gründer und Mitarbeiter einstellen - Ein geschwächtes „unabhängiges“ Start-up zurücklassen
Die Regulierungsbehörden sehen immer noch ein Feld, das mit Logos übersät ist, aber der echte Wettbewerb hat sich bereits konsolidiert. Investoren erhalten bescheidene Renditen von 1–1,5x statt der 5–10x Risiko-Fantasie, während die von ihnen unterstützten Startups Gefahr laufen, zu „Zombieschalen“ zu werden, die in enge, unbedrohliche Nischen gezwungen werden.
Dieser 20-Milliarden-Dollar-Manöver signalisiert, wie die nächste Phase des KI-Rüstungsrennens verlaufen wird. Etablierte Unternehmen werden nicht immer ihre Rivalen direkt aufkaufen; sie werden sie über Verträge und Angebotsunterlagen aushöhlen und dann auf die verbleibenden Hüllen verweisen, als Beweis dafür, dass der Markt weiterhin lebendig ist.
Anatomie eines Unternehmenskaufs
Der Unternehmensübernahme kann man kaum gerecht werden. NVIDIA sichert sich die Krone von Groq: Jonathan Ross, den TPU-Architekten, der Google’s maßgeschneiderte KI-Chips mitgestaltete; Sunny Madra, den Präsidenten, der Groq zu einem ernsthaften Herausforderer im Bereich der Inferenz machte; und eine nicht-exklusive Lizenz für die zentrale LPU-Architektur von Groq. Fügen Sie hochrangige technische Führung und Jahre an Erfahrung in Compiler-, Runtime- und Systemarbeit hinzu, und NVIDIA kauft sich im Grunde einen Abkürzungsweg durch ein Jahrzehnt an F&E.
Groq überlebt auf dem Papier. Der GroqCloud Inferenzdienst läuft weiter, die Groq-Marke bleibt bestehen, und eine abgespeckte Unternehmensstruktur bleibt unter einem neuen CEO unabhängig. Was bleibt, sieht eher wie ein Compliance-Überbleibsel als wie ein Wachstumsunternehmen aus: ein Vorstand, einige Ingenieure und gerade genug operative Kraft, um dies nicht als Schließung zu bezeichnen.
Die Struktur des Deals zeigt fast chirurgische Präzision. NVIDIA umgeht das Chaos einer vollständigen Fusion – es besteht keine Notwendigkeit, die Finanzen zu konsolidieren, langfristige Verbindlichkeiten zu übernehmen oder dieselben Antitrust-Fallen auszulösen, die sein 40 Milliarden Dollar schweres Angebot für Arm im Jahr 2022 vereitelt haben. Stattdessen erhält es die drei Vermögenswerte, die im Krieg um KI-Hardware tatsächlich von Bedeutung sind: - Schlüsselpersonen - Zugang zu grundlegenden IPs - Beseitigung eines glaubwürdigen zukünftigen Wettbewerbers
Die Seite von Groq sieht ganz anders aus. Investoren erhalten Liquidität durch ein Paket von Lizenzen und Anreizen im Wert von 20 Milliarden Dollar, aber der größte Teil des Potenzials geht an NVIDIA mit Ross und seinem Team. Was bleibt, muss nun eine Zukunft ohne den ursprünglichen Visionär, ohne denselben fortschrittlichen F&E-Motor und mit den besten Ideen, die teilweise im führenden GPU-Anbieter produktiv umgesetzt wurden, aufbauen.
Nennen Sie es einen Werttransfer, nicht einen Wertetausch. Geld fließt in eine Richtung, aber strategischer Vorteil fließt in die andere und konzentriert sich in der bereits dominierenden Position von NVIDIA mit 80–90 % im Bereich der GPUs für Rechenzentren. Die verbleibende Einheit von Groq besitzt eine Marke und einen Cloud-Service; NVIDIA verfügt über das Talent, den Einfluss auf die Roadmap und die Fähigkeit, die architektonischen Vorteile von Groq in sein eigenes Ökosystem im großen Maßstab zu integrieren.
Das 'Reverse Acqui-hire' Playbook
Nennen wir es eine Reverse Acqui-Hire: Statt das gesamte Unternehmen zu kaufen, um an die Mitarbeiter zu gelangen, schreibt ein Gigant einen massiven Scheck für Lizenzen, Anreize und „Partnerschaften“, während das Spitzenpersonal leise die Tür hinter sich schließt. Der Kapitalkreis bleibt auf dem Papier intakt, aber das eigentliche Unternehmen wird ausgehöhlt. Was wie ein Handelsgeschäft aussieht, fungiert als heimliche Übernahme von Know-how und Plänen.
Traditionelle Acqui-Hires sind grobe Instrumente. Ein großes Unternehmen erwirbt das Startup vollständig, integriert das Team und stellt entweder das Produkt ein oder beerdigt es. Die Aufsichtsbehörden betrachten dies als eine klare Fusion und Übernahme, die Vorstände stimmen ab, und alle reichen die Unterlagen ein. Reverse Acqui-Hires wenden dieses Konzept um, indem sie Equity und Unternehmenskontrolle technisch voneinander trennen und gleichzeitig die einzigen wichtigen Vermögenswerte verlagern.
Microsofts Deal mit Inflection AI im Jahr 2024 setzte den modernen Maßstab. Microsoft zahlte etwa 650 Millionen Dollar für eine Lizenzvereinbarung und eine Non-Poach-Vereinbarung, und stellte dann den Mitbegründer Mustafa Suleyman, den Mitbegründer Karén Simonyan und die meisten Mitarbeiter in einer neuen internen KI-Gruppe ein. Inflection wandte sich von einem KI-Assistenten für Verbraucher ab und entwickelte ein viel kleineres Unternehmensprodukt, und Berichten zufolge verließen die Investoren die Szene nur mit etwa 1,1–1,5-fachem Gewinn auf ihr Kapital.
Google folgte 2024 mit Character.AI und einigte sich auf ein angeblich 2,7 Milliarden Dollar schweres Lizenz- und Kooperationspaket, während die Mitbegründer Noam Shazeer und Daniel De Freitas zu Google zurückkehrten. Character.AI wandte sich von der Entwicklung von fortschrittlichen LLMs ab, um sich auf seine Verbraucher-Chat-Plattform zu konzentrieren, während der Deal eine Untersuchung des DOJ nach sich zog, ob absichtlich die Fusionsprüfung umgangen wurde. Amazon verfolgte einen ähnlichen Ansatz mit Adept, indem sie CEO David Luan und wichtige Gründer einstellten, während sich Adept auf engere „agentische“ Unternehmenswerkzeuge zurückzog.
NVIDIAs 20-Milliarden-Dollar-Vereinbarung mit Grok passt nahezu perfekt in dieses Muster. Offiziell handelt es sich um eine nicht-exklusive Lizenz für Inferenztechnologien sowie Anreize, während Grok GroqCloud unter einem neuen CEO weiterführt. Die Ankündigung „Groq und Nvidia treten in eine nicht-exklusive Lizenzvereinbarung für Inferenztechnologien ein“ liest sich wie eine Partnerschaft; der Talentfluss und der Zugang zu geistigem Eigentum wirken wie eine Übernahme.
Die Motivation bleibt bei diesenDeals konstant. Etablierte Unternehmen suchen nach erstklassigem Talent, differenzierter IP und weniger glaubwürdigen Konkurrenten, ohne Antitrust-Alarme auszulösen oder sich mit komplizierten Full-Stack-Integrationen herumschlagen zu müssen. Startups erhalten eine „sanfte Landung“ anstelle eines feuerverkaufs bei einem Down-Round; VCs bekommen ihr Geld zurück, vielleicht mit einem kleinen Aufschlag, aber fast nie die 3–10-fachen Erträge, die ihre Modelle annehmen.
Warum Groqs Inferenztechnologie ein Ziel war
KI-Arbeitslasten unterteilen sich in zwei sehr unterschiedliche Aufgaben. Training erstellt ein Modell und verarbeitet massive Datensätze auf Clustern von GPUs über Tage oder Wochen. Inference führt dieses fertige Modell Millionen oder Milliarden von Malen pro Tag aus, beantwortet Anfragen, bewertet Feeds oder generiert in Echtzeit Videos für Endbenutzer.
Training sorgt für Schlagzeilen, aber Inferenz bringt Geld. Jede ChatGPT-Antwort, jede TikTok-Empfehlung oder jeder Anruf mit einem Unternehmens-Copilot ist eine Inferenzanfrage, die Energie und Hardwarezyklen verbraucht. Während die Nutzung explodiert, konzentrieren sich Cloud-Anbieter und Hyperscaler darauf, Bruchteile eines Cent von jeder Anfrage zu sparen.
Groq ging direkt auf dieses Problem mit seiner LPU (Language Processing Unit) Architektur ein. Statt eines flexiblen, massiv parallelen GPUs baute Groq einen deterministischen, kompilergesteuerten Chip, der KI-Diagramme wie eine feste Datenfluss-Pipeline ausführt. Keine Caches, fast keine Verzweigungen und eine streng kontrollierte On-Chip-Speicherung führten zu vorhersehbarer Latenz und extrem hoher Durchsatzrate.
Während NVIDIA-GPUs das Training und die Inferenz jonglieren, ist Groq ausschließlich darauf optimiert, Modelle auszuführen, die bereits existieren. Benchmarks von Groq und unabhängigen Testern zeigten, dass ihre LPU Zehntausende von Tokens pro Sekunde bei großen Sprachmodellen mit Latenzen im einstelligen Millisekundenbereich verarbeiten konnte. Bei bestimmten Transformer-Workloads lieferte die Hardware von Groq mehr Inferenzprozesse pro Watt und pro Dollar als die Spitzen-GPUs für Rechenzentren von NVIDIA.
Dieser Unterschied ist bei Hyperscale entscheidend. Wenn Groq die Inferenzkosten für wichtige Kunden um 30–50 % senken könnte, hätten Cloud-Plattformen und große KI-Labore einen triftigen Grund, den Datenverkehr von NVIDIA-GPUs abzuleiten. Jeder umgeleitete Token-Stream würde die Premiumpreise für NVIDIAs H-Serie-Beschleuniger in Rechenzentren untergraben.
NVIDIAs Rechenzentrumsbetrieb erzielt bereits Bruttomargen von über 70 %, angetrieben durch GPU-basierte Inferenz auf Modellen von OpenAI, Anthropic, Meta und anderen. Eine glaubwürdige, unabhängige Alternative mit besserer Wirtschaftlichkeit bedrohte nicht nur den Verkauf von Einheiten, sondern auch die Preissetzungsmacht in diesem Bereich. Groq musste den gesamten Markt nicht „gewinnen“; es genügte, die Verhandlungen zu verankern.
Durch diese Linse betrachtet, erscheint der Lizenz-Plus-Talent-Deal im Wert von 20 Milliarden Dollar defensiv. NVIDIA sichert sich die Kernarchitekten von Groq, erlangt eine nicht-exklusive Kontrolle über das LPU-IP und bremst einen kostendämpfenden Konkurrenten, bevor Hyperscaler Groq zu einem bedeutenden Hebel gegen sein GPU-Geschäft im Rechenzentrum machen können.
Der Königsmacher: Warum Jonathan Ross wichtig ist
Jonathan Ross sitzt im Zentrum dieses Deals wie ein gravitativer Well. Als der Hauptarchitekt von Googles erstem TPU half er, die moderne Ära der maßgeschneiderten KI-Beschleuniger einzuleiten, und bewies, dass Hyperscaler nicht von handelsüblichen GPUs abhängig sein mussten. Der TPU v1, der 2016 angekündigt wurde, bot eine bis zu 30x–80x bessere Leistung pro Watt bei Inferenzlasten im Vergleich zu zeitgenössischen CPUs und veränderte die internen wirtschaftlichen Rahmenbedingungen von Google für Suche, Übersetzung und Werbung.
Groq war Ross' Antwort auf die Einschränkungen, die er in jener ersten Welle der KI-Silizium-Technologie sah. Während TPUs und GPUs weiterhin komplexe Instruktionsströme und Speicherhierarchien jonglieren, verfolgte Groqs LPU-Architektur einen zielstrebigen Determinismus: einen riesigen, statisch geplanten Datenfluss-Engine, die Token mit atemberaubenden, vorhersehbaren Geschwindigkeiten durch Sprachmodelle schieben konnte. Die Groq-Demos zeigten routinemäßig LLM-Inferenzraten von Hunderttausenden von Token pro Sekunde, mit einer Latenz, die so stabil war, dass sie wie eine flache Linie aussah.
Ross präsentierte Groq als „Inference-First“ in einer Welt, die besessen von Training TOPS ist. Training verkauft Schlagzeilen; Inferenz zahlt die Cloud-Rechnungen. Indem Groq auf Batch-Größe eins und latenzarme Arbeitslasten optimierte – die Grundlagen von Chatbots, Co-Piloten und Echtzeitanwendungen – versuchte Groq, allgemeine Beschleuniger zu überholen und Inferenz in eine eigene Hardware-Kategorie zu verwandeln. Der LPU-Verkauf: weniger Regler, mehr Durchsatz, weniger Jitter.
NVIDIA, Ross ins Boot zu holen, stellt einen strategischen Coup dar. Das Unternehmen dominiert bereits das Marktsegment der Datenzentrum-GPUs, wobei Schätzungen seinen Marktanteil auf 80–90% beziffern, aber es stützt sich immer noch auf eine GPU-orientierte Weltanschauung. Die Rekrutierung des Ingenieurs, der sowohl TPUs als auch LPUs als tragfähig bewiesen hat, verschafft NVIDIA ein Portfolio von Paradigmen: GPU für Flexibilität, DPU für Netzwerktechnologie und nun Ross-gerechtes Inferenz-Silizium-Denken, um seine Position zu stärken.
Hinter der finanziellen Ingenieurskunst verbirgt sich eine brutale Realität: Der AI-Hardware-Krieg ist ein Kampf um einen winzigen Pool von Menschen. Die Architekten, die weltklasse AI-Beschleuniger – auf TPU-, Cerebras- oder Groq-Niveau – entwickelt haben, kann man vielleicht an einer Handvoll abzählen. Wenn NVIDIA einen Scheck über 20 Milliarden Dollar für Lizenzen und Anreize ausstellt, kauft es nicht nur geistiges Eigentum; es sichert sich einen dieser seltenen Köpfe, bevor ein rivalisierendes Cloud- oder souveränes Chip-Programm dies tun kann.
Nvidias unerschütterlicher Software-Schutzwall
CUDA, nicht GPUs, hat NVIDIA's wahre Festung gebaut. 2007 eingeführt, verwandelte CUDA Grafikkarten in allgemeine parallele Computer und gab Forschern ein stabiles Programmiermodell, lange bevor „KI-Beschleuniger“ zu einem Finanzierungspitch wurde. Siebzehn Jahre später betrachtet nahezu jedes Deep-Learning-Framework, von PyTorch bis TensorFlow, CUDA als das Standardziel.
Diese frühe Wette schuf eine brutale Pfadabhängigkeit. Sobald Tausende von Laboren, Forschern und Startups Kernels, Tutorials und Kursmaterialien rund um CUDA erstellten, hatte jedes neue Projekt einen starken Anreiz, in diesem Universum zu bleiben. Jede zusätzliche CUDA-optimierte Veröffentlichung, GitHub-Repo oder Kaggle-Notiz verstärkte die Wahl für das nächste Team.
Netzwerkeffekte durchziehen mittlerweile den gesamten KI-Stack. Universitäten lehren „GPU-Programmierung“, meinen damit aber CUDA; zahllose MOOCs und Lehrbücher integrieren CUDA-Code. Open-Source-Bibliotheken wie cuDNN, NCCL und TensorRT liegen den Produktionssystemen von Google, Meta, OpenAI und fast jedem Cloud-Anbieter zugrunde.
Der Wechsel bedeutet mehr als nur das Neukompilieren. Ein ernsthafter CUDA-Ausstieg erfordert: - Neu schreiben oder Ersetzen von tausenden benutzerdefinierter Kerne - Schulung von Ingenieuren und Überarbeitung der Einstellungsprozesse - Neuer Validierung von Modellen und Infrastruktur für neue Toolchains
Für einen Hyperscaler, der jährlich Milliarden für NVIDIA H100s und H200s ausgibt, handelt es sich um eine mehrjährige Migration im mehrere hundert Millionen Dollar-Bereich. Selbst für ein gut finanziertes Startup kann der Wechsel zu einem Konkurrenz-Stack wie ROCm oder einem maßgeschneiderten SDK die Produkt-Roadmaps ins Stocken bringen und die Kunden-SLAs gefährden.
Architektonisch überlegene Hardware stößt dennoch gegen diese Wand. Cerebras' Wafer-Scale-Engine, Groqs LPUs und eine Welle von Inferenz-ASICs können beeindruckende Benchmarks erzielen, müssen jedoch entweder CUDA emulieren, CUDA über Übersetzungsschichten unterstützen oder Entwickler davon überzeugen, eine weitere Low-Level-API zu erlernen. Jede Schicht der Indirektion erhöht die Latenz, Komplexität oder führt zu fehlenden Funktionen.
In der Zwischenzeit vertieft NVIDIA weiterhin den Graben. CUDA erstreckt sich nun in vertikale Bereiche: cuQuantum für Physik, cuOpt für Logistik, cuGraph für Analytik, sowie enge Integration mit Kubernetes, Slurm und allen großen Clouds. Jede neue Bibliothek verringert die Bereiche, in denen Alternativen sich differenzieren können.
Deshalb sind Deals wie Nvidia, das die Vermögenswerte des KI-Chip-Startups Groq für etwa 20 Milliarden Dollar in seinem größten Deal überhaupt kauft, weniger wichtig für rohes Silizium und mehr für die Frage, wer als nächstes in CUDA einsteigt. Die Wettbewerber kämpfen nicht nur um einen Chip; sie kämpfen gegen einen 17 Jahre alten Software-Ozean.
Der letzte Chip steht? Cerebras’ Gambit
Cerebras befindet sich in einem schnell ausdünnenden Umfeld von unabhängigen KI-Silicon-Startups, die noch nicht in einen Hyperscaler oder GPU-Riesen integriert wurden. Während Groq, Habana Labs und Nervana Systems als Hüllen oder absorbierte Vermögen endeten, hat Cerebras Systems den Gang an die Börse angestrebt und ist strukturell unabhängig geblieben, unterstützt von Hunderten Millionen an Risikokapital und Regierungsverträgen.
Anstatt dem GPU-Playbook von NVIDIA zu folgen, entwickelte Cerebras einen wörtlich genommen plattenförmigen Prozessor, den Wafer-Scale Engine. Version 3 des Chips schneidet eine gesamte 300 mm große Siliziumscheibe in ein einziges Gerät, das Hunderttausende von Kernen enthält und das Netz aus PCIe-Verbindungen und NVLink-Brücken beseitigt, das normalerweise Racks von GPUs miteinander verbindet.
Traditionelle GPU-Cluster verlieren an Leistung, wenn sie Tensoren zwischen Karten und Knoten verschieben; das Design von Cerebras hält alles auf einem Wafer. Durch die Zusammenführung der interchip Kommunikation in eine On-Die-Routing-Lösung behauptet das Unternehmen, massive Fortschritte bei Bandbreite, Latenz und Auslastung für große Modelle zu erzielen, die ansonsten Zyklen mit Warten auf Datenbewegung verbringen.
Statt CUDA auf ihrem eigenen Gebiet zu bekämpfen, hat Cerebras dort agiert, wo das Ökosystem-Lock-in weniger wichtig ist: nationale Labore, Verteidigung und souveräne KI-Projekte. Kunden wie die Argonne National Laboratory, Lawrence Livermore und Sandia National Laboratories legen viel mehr Wert auf rohe Leistung, Datenlokalität und lokale Kontrolle als darauf, ob PyTorch-Operationen sauber auf einen GPU-Kernel abgebildet werden.
Diese Käufer führen bereits maßgeschneiderte Workloads aus – Klimamodelle, nukleare Simulationen, klassifizierte Sprachsysteme – daher sieht das Portieren von Code auf einen neuen Beschleuniger wie ein Rundungsfehler im Vergleich zu den Leistungs- und Sicherheitsgewinnen aus. Cerebras verkauft vollständige CS-3-Systeme als Geräte, effektiv Supercomputer in einem Schrank, die der KI- und HPC-Schulung gewidmet sind.
Um die CUDA-Festung für alle anderen zu umgehen, hat Cerebras stark auf ein Inference-as-a-Service-Modell gesetzt. Anstatt Entwickler zu bitten, Kernel neu zu schreiben, bietet es eine gehostete API, über die man Eingaben senden und Token zurückerhalten kann – die gleiche grundlegende Abstraktion wie bei OpenAI oder Anthropic.
Diese API-Schicht verwandelt die wafer-scale Hardware in ein Implementierungsdetail. Unternehmen kaufen Garantien für Latenz, Durchsatz und Datenaufbewahrung, während Cerebras stillschweigend seine eigene Siliziumtechnologie im Hintergrund integriert und damit die Notwendigkeit umgeht, den Wettkampf um Entwicklerwerkzeuge zu gewinnen, den NVIDIA bereits dominiert.
Silizium vs. Software: Das wahre Schlachtfeld
Silicon-Innovatoren stoßen immer wieder auf denselben Eisberg: Software-Schwerkraft. Cerebras kann einen Tellergroßen Wafer mit 2 Billionen Transistoren und Petabyte pro Sekunde Bandbreite herstellen, aber es muss immer noch Entwickler davon überzeugen, ihre PyTorch-Skripte, die bereits mit einer einzigen Konfigurationsänderung auf NVIDIA-GPUs laufen, zu ändern.
Die Geschichte zeigt, wie das in der Regel endet. Betamax lieferte eine bessere Videoqualität als VHS, aber VHS setzte sich durch, weil Studios, Videotheken und Hardware-Partner sich darauf einigten. Apples technisch elegantes Mac OS und die PowerPC-Hardware verloren in den 90er Jahren gegen Windows auf beige x86-Boxen, da Entwickler der größeren Installationsbasis und den reichhaltigeren Werkzeugen folgten.
Mobile wiederholte das Muster. WebOS und BlackBerry 10 veröffentlichten multitasking- und gestenbasierte Systeme, die ihrer Zeit voraus waren, doch iOS und Android überwältigten sie, indem sie boten: - Größere App-Stores - Bessere SDKs und Dokumentation - Vorhersehbarere Monetarisierung
KI-Hardware steht nun an derselben Weggabelung. Cerebras, Groq und Tenstorrent treiben neuartige Architekturen voran – Wafer-Skalierungs-Engines, LPUs, RISC-V-Beschleuniger – während NVIDIA auf CUDA, cuDNN, TensorRT und enge Integration mit PyTorch/TensorFlow setzt. Die eine Seite verkauft rohe FLOPs und clevere Layouts; die andere bietet einen nahezu reibungslosen Weg vom Forschungspapier zum Produktionscluster an.
Entwickler optimieren für die Zeit bis zum Ergebnis, nicht für theoretische Eleganz. Wenn ein Doktorand ein Open-Source-Modell nehmen, ein paar Pakete pip installieren und innerhalb eines Nachmittags 90 % der Spitzenleistung auf einem H100 erreichen kann, muss die Alternative erheblich besser sein, um neue Werkzeuge, Debugger und Deployment-Workflows zu rechtfertigen. „2x schneller“ auf dem Papier verliert oft gegen „funktioniert mit unserem bestehenden CI-Pipeline.“
Interoperabilität wird zur Waffe. NVIDIAs Stack umfasst: - CUDA auf Kernel-Ebene - cuDNN und cuBLAS für Primitiven - TensorRT und Triton Inference Server für die Bereitstellung - DGX und DGX Cloud für schlüsselfertige Cluster
Diese vertikale Integration bedeutet, dass jedes neue Framework, von JAX bis Mojo, CUDA als das Standardziel behandelt. Konkurrenzfähige Siliziumlösungen müssen diese Umgebung emulieren oder ein paralleles Universum von Tools, Treibern und Bibliotheken aufbauen – eine enorme Belastung sowohl für Anbieter als auch für Nutzer.
Die Marktbeherrschung im Bereich KI wird weniger davon abhängen, wer den seltsamsten Chip ausliefert, sondern vielmehr davon, wer den Entwicklungsstapel von Anfang bis Ende besitzt. Silicon-Geschwindigkeitssteigerungen sind wichtig, aber die Kontrolle über Compiler, Laufzeitumgebungen, Orchestrierung und Cloud-Integrationen entscheidet darüber, wo die nächsten Millionen Modelle trainiert und bereitgestellt werden.
Der Preis eines geräumten Boards
Die Markt-Konsolidierung im Bereich KI-Hardware wirkt nicht mehr abstrakt; sie sieht aus wie ein geräumtes Schachbrett. NVIDIA kontrolliert bereits schätzungsweise 80–90% des GPU-Marktes für Datenzentren, und Deals wie die $20-Milliarden-Vereinbarung mit Groq löschen leise eines der wenigen verbleibenden unabhängigen Puzzlestücke, ohne dabei klassische Antitrust-Auslöser zu aktivieren.
Reverse-Acqui-Hire-Strukturen schaffen einen neuen, erschreckenden Standard für ehrgeizige Hardware-Gründer. Wenn der bestmögliche „Exit“ eine Rendite von 1–1,5x und ein langsames Verschwinden in den Status eines „Zombie-Startups“ bedeutet, ist es für Risikokapitalgeber rationaler, Software auf CUDA-Basis zu finanzieren, anstatt rivalisierendes Silizium, das möglicherweise chirurgisch entschärft wird, bevor es jemals eine Gefahr für NVIDIA darstellt.
Dieser Wandel ist wichtig, weil KI-Hardware kapitalintensiv ist und lange braucht, um sich zu entwickeln. Sieben Jahre und Hunderte Millionen Dollar können nun enden mit: - Herausgelöstem Kernteam - Lizenziertem geistigem Eigentum - Zugrunde liegender Marke als Ablenkung
Für Gründer verengt dieses Handbuch das Overton-Fenster dessen, was als „finanzierbare“ Hardware gilt. Warum ein weiteres Groq oder Habana Labs unterstützen, wenn das wahrscheinliche Ergebnis eine verhandelte Kapitulation gegenüber dem etablierten Anbieter ist, und nicht ein unabhängiger Börsengang, wie ihn Cerebras mit seinem wafer-scale engine anstrebt?
Verbraucher und Unternehmen zahlen letztendlich den Preis. Weniger glaubwürdige Wettbewerber führen zu höheren Preisen für Beschleuniger, längeren Wartelisten für Kapazitäten und tieferer Abhängigkeit von Anbietern in Bezug auf CUDA, DGX-Systeme und NVIDIAs Cloud-Partner, von Amazon bis Oracle.
Sobald die bahnbrechende F&E eines Startups absorbiert ist, drängt die verbleibende Hülle selten den Markt voran. GroqCloud mag weiterhin Inferenzdienste anbieten, aber ohne Jonathan Ross und das ursprüngliche Kernteam sinken die Chancen, eine disruptive nächste Generation von LPU zu liefern, drastisch.
Die Regulierungsbehörden sehen ein Feld, das immer noch überfüllt scheint: Groq existiert weiterhin, Cerebras verkauft nach wie vor Hardware, Cloud-Anbieter entwickeln In-House-Chips. Doch die tatsächliche Wettbewerbsbedrohung – die Teams und das geistige Eigentum, die NVIDIA's Margen untergraben oder CUDAs Schutzmauer erodieren könnten – migriert leise in-house.
Berichterstattung wie NVIDIA „Erwirbt“ Groq fängt diesen Tricksereien ein: Die Illusion von Wettbewerb bleibt auf dem Papier bestehen, während die tatsächlichen Spielfiguren unter einem Logo konsolidiert werden. Das Brett sieht beschäftigt aus, aber das Ergebnis wird zunehmend vorherbestimmt.
Kann Nvidias Machtspiel durchbrochen werden?
NVIDIAs Einfluss auf Hardware für KI scheint absolut zu sein: 80–90 % der Beschleuniger in Rechenzentren, ein 17 Jahre altes CUDA-System und nun eine effektive Kontrolle über die besten Ideen von Groq. Doch Monopole in der Technologie bleiben selten dauerhaft unangefochten; sie erodieren meist an den Rändern, gewöhnlich durch Software.
Eine glaubwürdige, offene Alternative zu CUDA würde zuerst auf den Markt kommen. Nennen wir es ein „Linux für KI“: ein einheitlicher, quelloffener Stack für Training und Inferenz, der effizient auf allem läuft – CPUs, TPUs, benutzerdefinierten ASICs, sogar Exoten wie Cerebras' Wafer-Scale Engine. Einzelne Komponenten existieren bereits in der Wildnis: PyTorch, JAX, Triton, MLIR, TVM, ROCm, oneAPI.
Damit das von Bedeutung ist, müssen Hyperscaler sich abstimmen. Stellen Sie sich vor, Google, Amazon, Microsoft und Meta einigen sich auf ein gemeinsames, niedrigschwelliges Laufzeitsystem und eine Kernelbibliothek und stellen diese überall bereit: in ihren Clouds, auf lokalen Geräten und sogar in Edge-Boxen. Wenn Entwickler ein offenes Stack anvisieren können und erstklassige Leistung auf Silizium ohne NVIDIA erzielen, beginnt die Abhängigkeit von CUDA wie eine Steuer und nicht wie eine Standardoption auszusehen.
Hyperscaler haben auch jeden finanziellen Grund, die Abhängigkeit zu verringern. Das Training von Spitzenmodellen auf H100- und B200-Clustern kostet jährlich Milliarden in Investitions- und Betriebskosten. Googles TPU v5e, AWS Trainium und Inferentia sowie Microsofts Maia-Beschleuniger existieren alle aus einem Grund: um die Gewinnmarge von über 70 % von NVIDIA zurückzugewinnen.
Diese In-House-Chips basieren weiterhin stark auf CUDA-Ära-Abstraktionen – XLA, benutzerdefinierte Compiler und Übersetzungsschichten, die sie für Entwickler wie GPUs "fühlen" lassen. Ein gemeinsamer offener Stack würde es Hyperscalern ermöglichen, ihre eigenen Silizium-Chips einzufügen, ohne jedes Modell neu schreiben zu müssen, während sie leise bessere Preise von NVIDIA verhandeln, da sie endlich glaubwürdige Ausstiegsoptionen haben.
Regulatoren agieren im Hintergrund als grobes Instrument. Das DOJ hat bereits 2022 den 40 Milliarden Dollar schweren Arm-Deal von NVIDIA blockiert und untersucht ähnliche „Reverse Acqui-Hire“-Strukturen bei Google. Eine Welt, in der NVIDIA die dominierende Hardware, die dominant Software und das geistige Eigentum jeder ernsthaften Konkurrenz kontrolliert, scheint wie geschaffen für wettbewerbsrechtliche Prüfungen.
Antitrustmaßnahmen gestalten selten bessere Technologie, können aber Zeit kaufen. Für Cerebras, die Überreste von Groq und die nächste Welle von Chip-Startups könnte dieser Spielraum die einzige Chance sein, etwas Starkes zu entwickeln, das mit der Anziehungskraft von CUDA konkurrieren kann.
Häufig gestellte Fragen
Hat Nvidia Groq tatsächlich für 20 Milliarden Dollar gekauft?
Nvidia hat einen Deal im Wert von 20 Milliarden Dollar für eine nicht-exklusive Technologielizenz strukturiert und um die zentralen Talente von Groq, einschließlich seines Gründers, einzustellen. Groq bleibt ein technisch unabhängiges Unternehmen, jedoch wurde sein Kerngeschäft extrahiert.
Was ist ein 'Reverse Acqui-Hire'?
Es ist eine Strategie, bei der ein großes Unternehmen die Schlüsselkräfte eines Startups anheuert und die IP des Startups lizenziert, ohne eine formelle Übernahme vorzunehmen. Dies vermeidet regulatorische Prüfungen und neutralisiert einen potenziellen Wettbewerber, oft bleibt das Startup als 'Zombie'-Hülle zurück.
Warum wurde Groq als Bedrohung für Nvidia betrachtet?
Groq spezialisiert sich auf hochgeschwindigkeits, latenzarme KI-Inferenz mit seiner einzigartigen LPU (Language Processing Unit) Architektur. Diese Technologie könnte Nvidias Dominanz im zunehmend wichtigen Inferenzmarkt herausgefordert haben.
Wer ist Jonathan Ross und warum ist er wichtig?
Jonathan Ross ist der Gründer von Groq und der ursprüngliche Architekt von Googles TPU (Tensor Processing Unit). Mit seiner Einstellung hat Nvidia einen der besten KI-Chipdesigner der Welt gewonnen und damit verhindert, dass Mitbewerber von seinem Fachwissen profitieren können.