TL;DR / Key Takeaways
La decepción de 20 mil millones de dólares
Los titulares que gritan que NVIDIA “compró” Groq por 20 mil millones de dólares son excelentes para miniaturas, pero no capturan la esencia. No se trata de una adquisición limpia donde una empresa desaparece en otra. Es un acuerdo de licencia no exclusiva cuidadosamente diseñado, acompañado de una migración masiva de personas.
NVIDIA no posee la estructura corporativa de Groq. En su lugar, asegura una licencia para la tecnología de inferencia de alto rendimiento de Groq y contrata al fundador Jonathan Ross, al presidente Sunny Madra y a una masa crítica de ingenieros senior. Groq mantiene su marca, el servicio GroqCloud y una estructura mínima bajo el nuevo CEO Simon Edwards.
Esa distinción es importante. Una adquisición completa desencadenaría un escrutinio antimonopolio mucho más agresivo para una empresa que ya controla aproximadamente el 80-90% del mercado de GPU para centros de datos. Un acuerdo de licencia más talento otorga a NVIDIA la mayor parte de las ventajas—acceso a propiedad intelectual, arquitectos de chips, neutralización competitiva—sin la carga regulatoria.
Esta estructura también redefine el futuro de Groq. En teoría, Groq sigue siendo un competidor independiente en chips de inferencia especializados. En la práctica, su núcleo de I+D de vanguardia se va, y su tecnología más valiosa ahora ayuda a reforzar el foso de NVIDIA en lugar de erosionarlo.
Las grandes tecnológicas han refinado este manual en los últimos dos años. El acuerdo de $650 millones de Microsoft con Inflection AI, el supuesto trato de $2.7 mil millones de Google con Character.AI, y la captura de talento de Amazon de Adept siguen todos el mismo patrón: - Licenciar la tecnología - Contratar a los fundadores y al personal - Dejar atrás una startup "independiente" debilitada
Los reguladores aún ven un campo salpicado de logotipos, pero la verdadera competencia ya se ha consolidado. Los inversores obtienen retornos modestos de 1 a 1.5x en lugar de la fantasía de 5 a 10x de las startups, mientras que las empresas emergentes en las que invirtieron corren el riesgo de convertirse en “cáscaras zombies” obligadas a acomodarse en nichos reducidos y no amenazantes.
Esta maniobra de 20 mil millones de dólares señala cómo se desarrollará la próxima fase de la carrera armamentista de la IA. Los incumbentes no siempre comprarán a sus rivales directamente; los vaciarán a través de contratos y hojas de oferta, y luego señalarán a los restos sobrevivientes como prueba de que el mercado sigue siendo vibrante.
Anatomía de una Opa Corporativa
La captura corporativa es un término que apenas lo describe. NVIDIA asegura las joyas de la corona de Groq: Jonathan Ross, el arquitecto de TPU que ayudó a definir los chips de IA personalizados de Google; Sunny Madra, el presidente que convirtió a Groq en un verdadero competidor en inferencia; y una licencia no exclusiva de la arquitectura central LPU de Groq. Sumemos el liderazgo técnico senior y años de trabajo en compiladores, sistemas en tiempo de ejecución y sistemas, y NVIDIA efectivamente compra un atajo a través de una década de I+D.
Groq, sobre el papel, sobrevive. El servicio de inferencia GroqCloud sigue funcionando, la marca Groq persiste, y una entidad corporativa simplificada permanece independiente bajo un nuevo CEO. Lo que queda se parece más a un artefacto de cumplimiento que a una empresa en crecimiento: una junta directiva, algunos ingenieros y justo la cantidad suficiente de músculo operativo para evitar llamar a esto un cierre.
La estructura del acuerdo muestra casi una precisión quirúrgica. NVIDIA evita el lío de una fusión completa—sin necesidad de consolidar finanzas, asumir responsabilidades a largo plazo o activar las mismas alarmas antimonopolio que hundieron su oferta de 40 mil millones de dólares por Arm en 2022. En su lugar, obtiene los tres activos que realmente importan en las guerras de hardware de IA: - Personas clave - Acceso a la propiedad intelectual fundamental - Eliminación de un rival futuro creíble
El lado de Groq se ve muy diferente. Los inversores obtienen liquidez a través de un paquete de licencias e incentivos de 20 mil millones de dólares, pero la mayor parte del potencial se va con NVIDIA y Ross y su equipo. Lo que queda debe ahora construir un futuro sin el visionario original, sin el mismo motor de I+D en la frontera y con sus mejores ideas parcialmente productizadas dentro del proveedor dominante de GPU.
Llámalo una transferencia de valor, no un intercambio de valor. El dinero fluye en una dirección, pero el apalancamiento estratégico fluye en la otra, concentrándose en la ya dominante posición de NVIDIA del 80–90% en el mercado de GPUs para centros de datos. La entidad restante de Groq posee una marca y un servicio en la nube; NVIDIA posee el talento, la influencia en la hoja de ruta y la capacidad de integrar las ventajas arquitectónicas de Groq en su propio ecosistema a gran escala.
El manual de 'Reverse Acqui-hire'
Llámenlo un acqui-hire inverso: en lugar de comprar toda la empresa para conseguir a las personas, un gigante extiende un cheque monumental por licencias, incentivos y "asociaciones" mientras el talento estrella sale discretamente por la puerta. La tabla de capital permanece intacta en papel, pero la empresa real se va desmoronando. Lo que parece un acuerdo comercial funciona como una adquisición encubierta de cerebros y planes.
Las acqui-hires tradicionales son instrumentos contundentes. Una gran empresa adquiere la startup en su totalidad, absorbe al equipo y, o bien descarta o entierra el producto. Los reguladores ven una transacción M&A clara, las juntas votan y todos presentan la documentación. Los acqui-hires inversos invierten ese guion al mantener el capital y el control corporativo técnicamente separados mientras trasladan los únicos activos que importan.
El acuerdo de Microsoft con Inflection AI en 2024 estableció el modelo moderno. Microsoft pagó aproximadamente 650 millones de dólares por un acuerdo de licencia y un pacto de no competencia, luego contrató al cofundador Mustafa Suleyman, a la cofundadora Karén Simonyan y a la mayor parte del personal en un nuevo grupo de IA interno. Inflection pivotó de un asistente de IA para consumidores a un producto empresarial mucho más pequeño, y los inversores, según informes, se retiraron con solo alrededor de 1.1 a 1.5 veces su capital.
Google siguió con Character.AI en 2024, acordando un paquete de licencia y colaboración reportado de $2.7 mil millones, mientras los cofundadores Noam Shazeer y Daniel De Freitas regresaban a Google. Character.AI se alejó de la construcción de LLMs de vanguardia para enfocarse en su plataforma de chat para consumidores, mientras que el acuerdo atrajo una investigación del DOJ sobre si elude deliberadamente la revisión de la fusión. Amazon realizó una jugada similar con Adept, contratando al CEO David Luan y a los fundadores clave, mientras que Adept se retiró hacia herramientas empresariales más restringidas "agénicas".
El acuerdo de $20 mil millones de NVIDIA con Grok encaja casi a la perfección en ese patrón. Oficialmente, se trata de una licencia de tecnología de inferencia no exclusiva más incentivos, con Grok continuando la operación de GroqCloud bajo un nuevo CEO. El anuncio de Groq y Nvidia Entrando en un Acuerdo de Licencia de Tecnología de Inferencia No Exclusiva se lee como una asociación; el flujo de talento y el acceso a propiedad intelectual se leen como una adquisición.
La motivación se mantiene constante en estos acuerdos. Los incumbentes desean talento de vanguardia, IP diferenciada y menos rivales creíbles, sin activar alarmas antimonopolio ni lidiar con complicadas integraciones de pila completa. Las startups obtienen un "aterrizaje suave" en lugar de una venta urgente a la baja; los VC recuperan su dinero, tal vez un pequeño premium, pero casi nunca los resultados de 3 a 10 veces que sus modelos asumen.
Por qué la tecnología de inferencia de Groq fue un objetivo
Las cargas de trabajo de IA se dividen en dos trabajos muy diferentes. Entrenamiento crea un modelo, procesando enormes conjuntos de datos en clústeres de GPU durante días o semanas. Inferencia ejecuta ese modelo terminado millones o miles de millones de veces al día, respondiendo a solicitudes, clasificando contenidos o generando video en tiempo real para los usuarios finales.
El entrenamiento acapara titulares, pero la inferencia genera dinero. Cada respuesta de ChatGPT, recomendación de TikTok o llamada de copiloto empresarial es una solicitud de inferencia que consume energía y ciclos de hardware. A medida que el uso se dispara, los proveedores de la nube y los hiperescaladores se obsesionan con reducir fracciones de centavo de cada consulta.
Groq abordó directamente ese problema con su LPU (Unidad de Procesamiento de Lenguaje) arquitectura. En lugar de un GPU flexible y masivamente paralelo, Groq construyó un chip determinista, impulsado por compiladores que ejecuta gráficos de IA como un pipeline de flujo de datos fijo. Sin cachés, casi sin bifurcaciones y con memoria en chip estrechamente controlada, significó latencias predecibles y un rendimiento extremadamente alto.
Mientras que las GPU de NVIDIA equilibran el entrenamiento y la inferencia, Groq se optimizó exclusivamente para ejecutar modelos que ya existen. Las pruebas de Groq y de evaluadores independientes mostraron que su LPU manejaba decenas de miles de tokens por segundo en modelos de lenguaje grandes con latencias de un solo dígito en milisegundos. Para ciertas cargas de trabajo de transformadores, el hardware de Groq ofreció más inferencias por vatio y por dólar que las GPU de centros de datos de gama alta de NVIDIA.
Esa diferencia importa a gran escala. Si Groq pudiera reducir el costo de inferencia en un 30–50% para clientes importantes, las plataformas en la nube y los grandes laboratorios de IA tendrían una razón convincente para desviar el tráfico de las GPUs de NVIDIA. Cada flujo de token desviado erosionaría el precio premium de los aceleradores de la serie H de NVIDIA en los centros de datos.
El negocio de centros de datos de NVIDIA ya genera márgenes brutos superiores al 70%, impulsado por la inferencia basada en GPU en modelos de OpenAI, Anthropic, Meta y otros. Una alternativa creíble e independiente con mejores condiciones económicas amenazaba no solo las ventas unitarias, sino también el poder de fijación de precios a lo largo de esa cadena. Groq no necesitaba "ganar" todo el mercado; solo necesitaba anclar las negociaciones.
Visto a través de esa perspectiva, el acuerdo de licencia más talento por 20 mil millones de dólares parece defensivo. NVIDIA asegura a los arquitectos clave de Groq, obtiene un control no exclusivo sobre la propiedad intelectual de LPU y desactiva a un competidor que podría perturbar los costos antes de que los hiperescaladores puedan convertir a Groq en una palanca significativa contra su franquicia de GPU para centros de datos.
El Rey Hacedor: Por qué Jonathan Ross es Importante
Jonathan Ross se sienta en el centro de este acuerdo como un pozo gravitacional. Como el arquitecto principal de la primera TPU de Google, ayudó a iniciar la era moderna de los aceleradores de IA personalizados, demostrando que los hyperscalers no tenían que vivir y morir por las GPUs de consumo. La TPU v1, anunciada en 2016, ofreció un rendimiento de hasta 30x–80x mejor por vatio en cargas de trabajo de inferencia que los CPUs contemporáneos, y reconfiguró la economía interna de Google para la búsqueda, la traducción y los anuncios.
Groq fue la respuesta de Ross a las limitaciones que observó en esa primera ola de silicio para IA. Mientras que las TPUs y GPUs aún manejan flujos de instrucciones complejos y jerarquías de memoria, la arquitectura LPU de Groq perseguía un determinismo de una sola dirección: un enorme motor de flujo de datos programado estáticamente que podría impulsar tokens a través de modelos de lenguaje a velocidades impresionantes y predecibles. Las demostraciones de Groq mostraban rutinariamente inferencias de LLM medidas en cientos de miles de tokens por segundo, con una latencia tan estable que parecía una línea plana.
Ross presentó a Groq como "primero en inferencia" en un mundo obsesionado con el entrenamiento de TOPS. El entrenamiento vende titulares; la inferencia paga las facturas de la nube. Al optimizar para cargas de trabajo de tamaño de lote uno y baja latencia—lo que alimenta los chatbots, copilotos y agentes en tiempo real—Groq intentó superar a los aceleradores de propósito general y convertir la inferencia en su propia categoría de hardware. El argumento del LPU: menos perillas, más rendimiento, menos jitter.
La incorporación de Ross al equipo de NVIDIA equivale a un golpe estratégico. La empresa ya domina los GPUs de centros de datos, con estimaciones que sitúan su participación en el mercado entre el 80% y el 90%, pero aún se basa en una visión del mundo centrada en GPUs. La llegada del ingeniero que demostró la viabilidad tanto de TPUs como de LPUs le proporciona a NVIDIA un portafolio de paradigmas: GPU para flexibilidad, DPU para redes, y ahora el enfoque de silicio de inferencia de grado Ross para consolidar su posición.
Detrás de la ingeniería financiera se encuentra una cruda realidad: la guerra de hardware de IA es una lucha por un pequeño grupo de personas. Se puede contar a los arquitectos que han lanzado aceleradores de IA de clase mundial—clase TPU, clase Cerebras, clase Groq—con tal vez unas pocas docenas de manos. Cuando NVIDIA emite un cheque de $20 mil millones para licencias e incentivos, no solo está comprando propiedad intelectual; está asegurando una de esas mentes raras antes de que un rival en la nube o un programa soberano de chips pueda hacerlo.
El inquebrantable foso de software de Nvidia
CUDA, no las GPU, construyó la verdadera fortaleza de NVIDIA. Lanzado en 2007, CUDA transformó los chips gráficos en computadoras paralelas de propósito general y proporcionó a los investigadores un modelo de programación estable mucho antes de que "acelerador de IA" se convirtiera en un argumento de financiamiento. Diecisiete años después, casi todos los marcos de aprendizaje profundo, desde PyTorch hasta TensorFlow, consideran a CUDA como el objetivo predeterminado.
Esa apuesta temprana creó una dependencia de trayectoria brutal. Una vez que miles de laboratorios, investigadores y startups desarrollaron núcleos, tutoriales y materiales didácticos alrededor de CUDA, cada nuevo proyecto tenía un poderoso incentivo para permanecer en ese universo. Cada artículo adicional optimizado para CUDA, repositorio de GitHub o cuaderno de Kaggle reforzó la elección para el siguiente equipo.
Los efectos de red ahora abarcan toda la pila de IA. Las universidades enseñan "programación en GPU", pero se refieren a CUDA; innumerables cursos en línea y libros de texto integran código CUDA. Bibliotecas de código abierto como cuDNN, NCCL y TensorRT están presentes bajo los sistemas de producción en Google, Meta, OpenAI y casi todos los proveedores de nube.
Cambiar significa más que recompilar. Una salida seria de CUDA requiere: - Reescribir o reemplazar miles de núcleos personalizados - Volver a capacitar a los ingenieros y revisar los procesos de contratación - Revalidar modelos e infraestructura para nuevas cadenas de herramientas
Para un hyperscaler que gasta miles de millones anualmente en NVIDIA H100 y H200, se trata de una migración de varios años y varios cientos de millones de dólares. Incluso para una startup bien financiada, pasar a un stack rival como ROCm o a un SDK a medida puede obstaculizar las hojas de ruta de productos y romper los SLA con los clientes.
El hardware arquitectónicamente superior aún se enfrenta a este obstáculo. El motor de escala de oblea de Cerebras, los LPU de Groq y una ola de ASICs de inferencia pueden presentar benchmarks asombrosos, pero deben emular CUDA, soportar CUDA a través de capas de traducción o convencer a los desarrolladores de aprender otra API de bajo nivel. Cada capa de indirecta añade latencia, complejidad o características faltantes.
NVIDIA, mientras tanto, sigue profundizando la zanja. CUDA ahora se extiende a dominios verticales: cuQuantum para física, cuOpt para logística, cuGraph para análisis, además de una estrecha integración con Kubernetes, Slurm y cada nube importante. Cada nueva biblioteca reduce la superficie donde las alternativas pueden diferenciarse.
Por eso, acuerdos como la compra de los activos de la startup de chips de IA Groq por parte de Nvidia por aproximadamente 20 mil millones de dólares, su mayor acuerdo registrado, importan menos por el silicio en bruto y más por quién se conectará a CUDA a continuación. Los competidores no solo están luchando por un chip; están luchando contra un océano de software de 17 años.
¿El Último Chip en Pie? La Estrategia de Cerebras
Cerebras se encuentra en un campo que se reduce rápidamente de startups de silicio de IA independientes que no han sido absorbidas por un hyperscaler o un gigante de GPU. Mientras que Groq, Habana Labs y Nervana Systems acabaron como cascarones o activos absorbidos, Cerebras Systems ha avanzado hacia una oferta pública inicial y se ha mantenido estructuralmente independiente, respaldada por cientos de millones en financiación de capital de riesgo y contratos gubernamentales.
En lugar de seguir el manual de GPUs de NVIDIA, Cerebras construyó un procesador del tamaño de un plato de cena llamado Wafer-Scale Engine. La versión 3 del chip corta un wafer de silicio de 300 mm en un solo dispositivo, agrupando cientos de miles de núcleos y eliminando la red de enlaces PCIe y puentes NVLink que normalmente conectan los racks de GPUs.
Los clústeres de GPU tradicionales pierden rendimiento enviando tensores entre tarjetas y nodos; el diseño de Cerebras mantiene todo en un solo chip. Al colapsar la comunicación entre chips en el enrutamiento interno, la compañía afirma lograr ganancias masivas en ancho de banda, latencia y utilización para modelos grandes que de otro modo pasarían ciclos esperando el movimiento de datos.
En lugar de combatir a CUDA en su propio terreno, Cerebras ha ido a donde el bloqueo del ecosistema importa menos: laboratorios nacionales, defensa y proyectos de IA soberana. Clientes como Argonne, Lawrence Livermore y los Laboratorios Nacionales Sandia se preocupan mucho más por el rendimiento bruto, la localidad de datos y el control en las instalaciones que por si las operaciones de PyTorch se mapean de manera limpia a un núcleo de GPU.
Esos compradores ya ejecutan cargas de trabajo personalizadas—modelos climáticos, simulaciones nucleares, sistemas de lenguaje clasificado—por lo que portar el código a un nuevo acelerador parece un error de redondeo en comparación con las mejoras en rendimiento y seguridad. Cerebras vende sistemas CS-3 completos como aparatos, efectivamente supercomputadoras en un gabinete dedicadas a la formación de IA y HPC.
Para sortear el cerco de CUDA para los demás, Cerebras ha apostado fuertemente por un modelo de Inferencia como Servicio. En lugar de pedir a los desarrolladores que reescriban núcleos, expone una API alojada donde envías solicitudes y recibes tokens a cambio, la misma abstracción básica que OpenAI o Anthropic.
Esa capa de API convierte el hardware a escala de oblea en un detalle de implementación. Las empresas compran garantías de latencia, rendimiento y residencia de datos, mientras que Cerebras intercambia discretamente su propio silicio bajo el capó, evitando la necesidad de ganar la guerra de herramientas para desarrolladores que NVIDIA ya domina.
Silicón vs. Software: El verdadero campo de batalla
Los innovadores de Silicon siguen encontrándose con el mismo iceberg: la gravedad del software. Cerebras puede fabricar un chip del tamaño de un plato de cena con 2 billones de transistores y un ancho de banda de petabytes por segundo, pero aún tiene que convencer a los desarrolladores de que abandonen los scripts de PyTorch que ya funcionan en GPUs de NVIDIA con un solo cambio de configuración.
La historia muestra cómo suele terminar esto. Betamax ofrecía una mejor calidad de video que VHS, pero VHS ganó porque los estudios, las tiendas de alquiler y los socios de hardware se estandarizaron en él. El técnicamente elegante Mac OS de Apple y el hardware PowerPC perdieron en los 90 ante Windows en las cajas beige x86 porque los desarrolladores siguieron a la base de usuarios más amplia y a las herramientas más ricas.
El móvil repitió el patrón. WebOS y BlackBerry 10 lanzaron sistemas de multitarea y gestos adelantados a su tiempo, pero iOS y Android los superaron al ofrecer: - Tiendas de aplicaciones más grandes - Mejores SDK y documentación - Monetización más predecible
El hardware de IA ahora se encuentra en la misma encrucijada. Cerebras, Groq y Tenstorrent impulsan arquitecturas novedosas: motores a escala de oblea, LPUs, aceleradores RISC-V, mientras que NVIDIA se centra en CUDA, cuDNN, TensorRT y una integración estrecha con PyTorch/TensorFlow. Un lado vende FLOPs en bruto y diseños ingeniosos; el otro ofrece un camino casi sin fricciones desde el artículo de investigación hasta el clúster de producción.
Los desarrolladores optimizan por el tiempo hasta el resultado, no por la elegancia teórica. Si un estudiante de posgrado puede tomar un modelo de código abierto, instalar algunos paquetes y alcanzar el 90% del rendimiento máximo en un H100 en una tarde, la alternativa tiene que ser significativamente mejor para justificar nuevas cadenas de herramientas, depuradores y flujos de trabajo de despliegue. "2x más rápido" en papel a menudo pierde frente a "funciona con nuestra pipeline de CI existente."
La interoperabilidad se convierte en un arma. El conjunto de NVIDIA abarca: - CUDA a nivel de núcleo - cuDNN y cuBLAS para primitivas - TensorRT y Triton Inference Server para despliegue - DGX y DGX Cloud para clústeres llave en mano
Esa integración vertical significa que cada nuevo marco, desde JAX hasta Mojo, trata CUDA como el objetivo predeterminado. El silicio competidor tiene que emular ese entorno o construir un universo paralelo de herramientas, controladores y bibliotecas, lo que representa un enorme impuesto tanto para los proveedores como para los usuarios.
El dominio del mercado en la IA dependerá menos de quién envía el chip más extraño y más de quién posee el stack de desarrollo de principio a fin. Las aceleraciones de silicio son importantes, pero el control sobre los compiladores, entornos de ejecución, orquestación e integraciones en la nube decide dónde se entrenarán y servirán los próximos millones de modelos.
El precio de una pizarra despejada.
La consolidación del mercado en hardware de IA ya no parece abstracta; se asemeja a un tablero de ajedrez despejado. NVIDIA ya controla un estimado del 80-90% del mercado de GPU para centros de datos, y acuerdos como el de $20 mil millones con Groq borran silenciosamente una de las pocas piezas independientes restantes sin activar los clásicos sensores antimonopolio.
Las estructuras de acqui-hire inverso crean un nuevo estándar desalentador para los fundadores de hardware ambiciosos. Si la mejor “salida” es un retorno de 1–1.5x y un lento desvanecimiento hacia el estatus de “startup zombie”, el movimiento racional para el capital de riesgo es financiar software sobre CUDA, en lugar de silicio rival que podría ser desarmado quirúrgicamente antes de que alguna vez amenace a NVIDIA.
Ese cambio es importante porque el hardware de IA requiere una gran cantidad de capital y tarda en madurar. Siete años y cientos de millones de dólares pueden concluir ahora en: - Extracción del equipo central - Licencia del IP a terceros - Marca dejada atrás como un señuelo
Para los fundadores, ese manual limita la ventana de Overton de lo que cuenta como hardware "financiable". ¿Por qué apoyar a otro Groq o Habana Labs cuando el resultado probable es una rendición negociada ante el incumbente, y no una oferta pública independiente como la que está persiguiendo Cerebras con su motor de escala de oblea?
Los consumidores y las empresas son quienes acaban pagando el precio. Menos competidores creíbles significan precios más altos para los aceleradores, listas de espera más largas para la capacidad y un mayor bloqueo por parte del proveedor en CUDA, sistemas DGX y los socios de nube de NVIDIA, desde Amazon hasta Oracle.
Una vez que la I+D de vanguardia de una startup es absorbida, la cáscara restante rara vez impulsa el mercado hacia adelante. GroqCloud puede seguir ofreciendo inferencia, pero sin Jonathan Ross y el equipo central original, sus probabilidades de lanzar un LPU de próxima generación disruptivo se desploman.
Los reguladores ven un campo que aún parece abarrotado: Groq sigue existiendo, Cerebras sigue vendiendo hardware, los proveedores de la nube construyen chips internamente. Sin embargo, la real amenaza competitiva—los equipos y la propiedad intelectual que podrían reducir los márgenes de NVIDIA o erosionar la ventaja de CUDA—se está trasladando silenciosamente hacia adentro.
La cobertura como la de NVIDIA “Adquiere” Groq captura ese truco de manos: la ilusión de competencia persiste en el papel mientras las verdaderas piezas del juego se consolidan bajo un solo logo. El tablero parece estar ocupado, pero el resultado se vuelve cada vez más predecible.
¿Puede romperse el dominio de Nvidia?
El dominio de NVIDIA en hardware de IA parece absoluto: 80-90% de los aceleradores de centros de datos, un stack CUDA con 17 años de antigüedad y ahora control efectivo sobre las mejores ideas de Groq. Sin embargo, los monopolios en tecnología rara vez permanecen incontestados para siempre; se erosionan desde los márgenes, generalmente a través del software.
Una alternativa creíble y abierta a CUDA llegaría primero. Llámalo “Linux para IA”: un conjunto unificado y de código abierto para entrenamiento e inferencia que funcione de manera eficiente en cualquier cosa: CPUs, TPUs, ASICs personalizados, e incluso raridades como el motor de escala de oblea de Cerebras. Ya existen piezas en el mercado: PyTorch, JAX, Triton, MLIR, TVM, ROCm, oneAPI.
Para que eso tenga sentido, los hyperscalers deben alinearse. Imagina a Google, Amazon, Microsoft y Meta acordando un runtime y una biblioteca del kernel en un nivel bajo comunes, y luego implementándolos en todas partes: en sus nubes, en dispositivos locales, e incluso en cajas de edge. Si los desarrolladores pueden orientar un stack abierto y obtener un rendimiento de primera clase en silicio que no sea de NVIDIA, el bloqueo de CUDA empieza a parecer un impuesto, no una norma.
Los hiperescaladores también tienen every razón financiera para reducir la dependencia. Entrenar modelos de frontera en clústeres H100 y B200 cuesta miles de millones anuales en capital y energía. Los aceleradores TPU v5e de Google, Trainium e Inferentia de AWS, y Maia de Microsoft existen por una sola razón: recuperar margen de los más del 70% de ganancias brutas de NVIDIA.
Esos chips internos todavía dependen en gran medida de las abstracciones de la era CUDA: XLA, compiladores personalizados y capas de traducción que los hacen "sentir" como GPUs para los desarrolladores. Un stack abierto compartido permitiría a los hiperescaladores intercambiar su propio silicio sin tener que reescribir cada modelo, mientras negocian silenciosamente mejores precios con NVIDIA porque finalmente tienen opciones creíbles para retirarse.
Los reguladores permanecen en la retaguardia como el instrumento contundente. El DOJ ya bloqueó el acuerdo de NVIDIA por 40 mil millones de dólares con Arm en 2022 y está investigando estructuras similares de "adquisición inversa" en Google. Un mundo donde NVIDIA controle el hardware dominante, el software dominante y la propiedad intelectual de cualquier rival serio parece hecho a medida para el escrutinio antimonopolio.
La acción antimonopolio rara vez diseña mejor tecnología, pero puede comprar tiempo. Para Cerebras, los restos de Groq y la próxima ola de nuevas startups de chips, ese respiro podría ser la única oportunidad que les queda para construir algo lo suficientemente sólido como para competir con la atracción de CUDA.
Preguntas Frecuentes
¿Nvidia realmente compró Groq por 20 mil millones de dólares?
No. Nvidia estructuró un acuerdo de 20 mil millones de dólares para una licencia de tecnología no exclusiva y contratar el talento clave de Groq, incluyendo a su fundador. Groq sigue siendo una empresa técnicamente independiente, pero su valor principal ha sido extraído.
¿Qué es una 'adquisición inversa de talento'?
Es una estrategia en la que una gran empresa contrata el talento clave y licencia la propiedad intelectual de una startup sin una adquisición formal. Esto evita el escrutinio regulatorio mientras neutraliza a un competidor potencial, dejando a menudo a la startup como una 'zombi' vacía.
¿Por qué se consideraba a Groq una amenaza para Nvidia?
Groq se especializa en inferencia de IA de alta velocidad y baja latencia con su única arquitectura LPU (Unidad de Procesamiento del Lenguaje). Esta tecnología podría haber desafiado el dominio de Nvidia en el mercado de inferencia, que es cada vez más crítico.
¿Quién es Jonathan Ross y por qué es importante?
Jonathan Ross es el fundador de Groq y el arquitecto original de la TPU de Google (Unidad de Procesamiento Tensorial). Al contratarlo, Nvidia adquirió a uno de los mejores diseñadores de chips de IA del mundo, impidiendo que los competidores aprovecharan su experiencia.