El acuerdo de $20 mil millones de NVIDIA con Groq: El futuro de los chips de inferencia de IA.

💡

TL;DR / Key Takeaways

NVIDIA acaba de invertir 20 mil millones de dólares en su mayor rival, pero no fue una adquisición tradicional. Aquí está la historia detrás del acuerdo que redefine el futuro de la velocidad de la IA y por qué Jensen Huang está jugando al ajedrez mientras otros juegan a las damas.

El susurro de 20 mil millones de dólares que se escuchó en todo el mundo

Susurros de un acuerdo de $20 mil millones de NVIDIA llegaron a las mesas de operaciones como un fallo en la matriz. No era un titular de compra al estilo de Arm, ni una adquisición limpia, sino un número tan grande que instantáneamente se convirtió en el mayor acuerdo de la empresa. Más grande que cualquier lanzamiento de GPU, más grande que cualquier victoria en diseño de centros de datos—esto era un territorio donde el balance se convierte en un arma.

Para dar una idea de la magnitud, la compra espectacular de NVIDIA de Mellanox en 2019 costó 6.9 mil millones de dólares y reconfiguró todo el mercado de redes de alto rendimiento. Esta nueva transacción efectivamente triplica esa cifra, no orientada a ancho de banda o interconexiones, sino al corazón palpitante de la inferencia de IA. Cuando una empresa que ya vale más de un billón de dólares decide que 20 mil millones es un precio justo por velocidad, latencia y experiencia en silicio, todos prestan atención.

La confusión fue lo primero. NVIDIA dijo que no estaba comprando a Groq directamente, sin embargo, se estaba moviendo dinero por un monto equivalente a la capitalización de mercado completa de un fabricante de chips de tamaño medio. Los inversores intentaron encajar el acuerdo en patrones familiares: fusiones y adquisiciones, asociación estratégica, licencias, pero ninguno encajaba del todo. Los titulares lo llamaban una adquisición; los abogados de NVIDIA se cuidaron mucho de no hacerlo.

La estructura parecía casi intencionalmente extraña. NVIDIA acordó pagar aproximadamente 20 mil millones de dólares por los derechos no exclusivos de la propiedad intelectual central de Groq, más un efectivo "acquihire" de su talento ingenieril más destacado, incluyendo al fundador Jonathan Ross y al presidente Sunny Madra. Groq, la compañía, seguiría existiendo bajo un nuevo liderazgo, mientras que la arquitectura LPU de Groq y la mayor parte de sus activos de chips se integrarían en la órbita de NVIDIA.

Esa asimetría alimentó el temprano sentido de misterio. ¿Por qué gastar dinero a nivel de adquisición sin tomar la plena propiedad o desencadenar una fusión directa? ¿Por qué dejar GroqCloud y partes del negocio fuera del acuerdo mientras se absorben las mentes y los diseños? Para muchos en el exterior, parecía que NVIDIA había pagado un precio premium por la mitad de una empresa.

Detrás del ruido, comenzó a surgir una historia diferente: un movimiento de judo regulatorio envuelto en una estrategia de adquisición de tierras. Al evitar una compra limpia, NVIDIA eludió el tipo de escrutinio antimonopolio que hundió su intento de 40 mil millones de dólares por Arm. Al mismo tiempo, aseguró discretamente a las personas, propiedad intelectual y la hoja de ruta necesarias para dominar la próxima fase de la inteligencia artificial: la inferencia a una velocidad y escala aterradoras.

El Gambito de Jensen: La Adquisición que 'No es una Adquisición'

Ilustración: La Gambito de Jensen: La 'No-adquisición' Adquisición

Jensen Huang no compró Groq tanto como lo reconfiguró. NVIDIA está gastando aproximadamente $20 mil millones en un paquete que combina una licencia amplia y no exclusiva de la propiedad intelectual central de Groq con una adquisición al estilo de Silicon Valley de su equipo clave. En teoría, Groq sobrevive. En la práctica, sus activos más valiosos ahora orbitan alrededor del pozo gravitacional de NVIDIA.

En lugar de adquirir la tabla de capitalización y la estructura corporativa de Groq, NVIDIA otorgó una licencia a su arquitectura LPU, pila de compiladores y patentes de diseño clave. Esa propiedad intelectual viene acompañada de derechos de acceso a largo plazo que le otorgan a NVIDIA todo lo que necesita para integrar los conceptos de silicio de inferencia de Groq en futuras líneas de productos. Un lenguaje no exclusivo mantiene a Groq técnicamente libre para licenciar en otros lugares, pero con sus inventores ausentes, esa opción parece más teórica que real.

Esta estructura entrega a NVIDIA las joyas tecnológicas de Groq sin activar los dispositivos legales que condenaron el acuerdo con ARM. Los reguladores en EE. UU., UE y Reino Unido ya han mostrado una profunda preocupación por el dominio de NVIDIA en la computación de IA. Una adquisición directa de un competidor emergente en inferencia habría invitado a investigaciones de varios años, remedios conductuales o un bloqueo total.

Por el contrario, la licencia de IP y los movimientos de talento suelen pasar desapercibidos por las autoridades antimonopolio como transacciones de "curso ordinario". Sin cambios en el control, sin votación de accionistas, sin fusiones que litigar. NVIDIA puede argumentar plausiblemente que no ha eliminado a un competidor del mercado; Groq sigue existiendo, todavía opera GroqCloud y, en teoría, todavía puede fabricar chips.

El lado humano del trato hace que ese argumento parezca académico. Jonathan Ross, el fundador de Groq y el ingeniero detrás del TPU de Google y el LPU de Groq, se dirige a NVIDIA. El presidente Sunny Madra y una masa crítica de los equipos de arquitectura, compiladores y sistemas de Groq, se informa que lo acompañarán. Lo que queda en Groq se asemeja más a una marca y un servicio en la nube que a una empresa de silicio de pila completa.

Estratégicamente, Huang obtiene exactamente lo que los reguladores temían: un control más estricto sobre la pila de inferencia de IA sin la documentación de una fusión clásica. NVIDIA amplía su alcance desde el entrenamiento de GPU hacia la inferencia de ultra baja latencia, armada con los diseños de Groq y las personas que saben cómo llevarlos más allá.

Conoce al genio que construyó las mentes de IA de Google y Groq.

Jonathan Ross construyó su carrera sobre una simple y brutal restricción: la latencia mata la inteligencia artificial. En Google, transformó ese mantra en silicio, liderando el equipo que creó la Unidad de Procesamiento Tensorial (TPU), el acelerador personalizado que, sin hacer ruido, se convirtió en la columna vertebral de Google Search, Translate, Photos y las recomendaciones de YouTube. Las implementaciones de TPU ahora suman millones de chips, generando trillones de inferencias por día dentro de los centros de datos de Google.

Ross no solo diseñó un chip rápido; rediseñó todo el conjunto en torno a las matemáticas matriciales. Las TPUs descargaron álgebra lineal densa de los CPU y GPU, lo que permitió a Google entrenar y servir modelos a escalas que habrían sido económicamente imposibles en hardware de propósito general. Ese éxito lo consolidó como uno de los pocos ingenieros que han demostrado que pueden ajustar la economía de los hiperescaladores con una sola decisión arquitectónica.

Entonces se fue. Ross fundó Groq con una tesis más aguda: construir un procesador no para gráficos, ni siquiera para IA genérica, sino para la pura velocidad del lenguaje y la inferencia. En lugar del modelo complejo y masivamente paralelo de GPU, la Unidad de Procesamiento del Lenguaje (LPU) de Groq utiliza una arquitectura determinista, de un solo núcleo y extremadamente amplia que ejecuta redes neuronales como una cinta transportadora. Sin cachés, bifurcaciones mínimas, programación precisa.

El hardware y la pila de compiladores de Groq persiguieron una métrica: tokens por segundo. Las demostraciones públicas mostraron que los LPU de Groq transmitían salidas de modelos de lenguaje grandes a cientos de tokens por segundo por usuario, a menudo de 2 a 3 veces más rápido que las configuraciones basadas en GPU comparables dentro de rangos de potencia similares. Para cargas de trabajo sensibles a la latencia—como el trading, agentes de conversación, copilotos en tiempo real—esa diferencia se traduce directamente en ingresos y retención de usuarios.

Por eso Ross se sitúa en el centro de la apuesta de 20 mil millones de dólares de NVIDIA. Jensen Huang no solo está licenciando propiedad intelectual; está importando efectivamente la mente que transformó a Google en una empresa enfocada en TPU y luego construyó un motor de inferencia rival desde cero. Exclusivo: NVIDIA compra los activos de la startup de chips de IA Groq por aproximadamente 20 mil millones de dólares en su mayor acuerdo registrado subraya que este es el mayor acuerdo de NVIDIA hasta la fecha, superando la adquisición de Mellanox por 6.9 mil millones de dólares.

NVIDIA ya domina la formación con GPUs. Ross le proporciona un camino creíble para dominar también la inferencia, al fusionar los ecosistemas de GPU con determinismo estilo LPU y disciplina de compilador. No gastas 20 mil millones de dólares en una licencia y una adquisición de talento a menos que creas que el arquitecto que estás contratando puede definir tu próxima década de silicio.

El reinado de la GPU ha terminado: entra el LPU.

Las GPUs nacieron para dibujar píxeles. Las Unidades de Procesamiento Gráfico sobresalen en arrojar miles de problemas matemáticos paralelos a una pantalla, ideales para juegos en 3D y, más tarde, para procesar enormes entrenamientos de IA. Tratan todo—trazado de rayos, multiplicaciones de matrices, física—como si fuera simplemente otra carga de trabajo paralela vergonzosamente sencilla.

Los LPUs cambian esa lógica. La Unidad de Procesamiento del Lenguaje de Groq no es un mezclador de números de propósito general; es un camino rápido cableado para ejecutar modelos de lenguaje grandes en tiempo de inferencia. Mientras que las GPUs manejan múltiples cargas de trabajo con programación compleja, un LPU ejecuta un único programa, altamente predecible, tan rápido y de manera tan consistente como lo permite la física.

Piensa en una GPU como una extensa biblioteca universitaria. Entrenar un modelo se asemeja a una profunda investigación: escanear millones de páginas, cruzar referencias, revisar hipótesis, iterar durante semanas a través de miles de GPUs. La flexibilidad importa más que el determinismo puro, porque cada ejecución de entrenamiento modifica el “plan de estudios.”

Un LPU se comporta como un motor de búsqueda hiperoptimizado enfocado en esa biblioteca terminada. El modelo ya está entrenado; la inferencia es el acto de hacer una pregunta y retransmitir los tokens. Te preocupan la latencia, el rendimiento y el costo por consulta, no el reorganizar las estanterías cada noche.

Los modelos de lenguaje hacen que esta división sea aún más evidente. Los transformadores generan texto token por token, en una secuencia estricta: el token N+1 depende de los tokens 1 a N. Esa cadena de dependencia parece hostil al paralelismo, pero es increíblemente predecible: mismo gráfico, mismo patrón de memoria, mismo flujo de control para miles de millones de solicitudes.

La arquitectura de Groq se basa en esa predictibilidad. En lugar de ocultar las pausas de memoria con enormes grupos de hilos como lo hace una GPU, un LPU presenta todo el modelo como un flujo de datos estático en el chip, convirtiendo cada paso de token en una etapa temporal de la tubería. Sin ruleta de caché, sin divergencia de warp, solo una cinta transportadora de multiplicaciones de matrices y softmaxes.

NVIDIA ve la escritura en el balance general. El entrenamiento produjo la primera ola de un billón de dólares, pero la inferencia la eclipsará a medida que cada cuadro de búsqueda, chat de servicio al cliente y aplicación de productividad comience a utilizar modelos millones de veces por segundo. Los ingresos se escalan con las consultas, no con la cantidad de veces que entrenas GPT-Siguiente.

Así que el rey de las GPU invirtió en lo que amenaza la supremacía de las GPU. Al gastar aproximadamente 20 mil millones de dólares por derechos no exclusivos sobre la propiedad intelectual de LPU de Groq y reclutar a Jonathan Ross y su equipo, NVIDIA se protege ante un futuro en el que los hiperescaladores estandarizan siliconas de inferencia especializadas. Es mejor poseer la arquitectura ganadora que defender un monopolio en declive sobre el chip de ayer.

Olvídate del entrenamiento: la inferencia es el premio de un billón de dólares.

Ilustración: Olvida el entrenamiento—la inferencia es el premio de un billón de dólares.

Hazle una pregunta a una IA, recibe una respuesta en unos cientos de milisegundos: eso es inferencia. El entrenamiento es el costoso campo de entrenamiento donde un modelo aprende; la inferencia es cada vez que ese modelo hace su trabajo: escribir código, resumir reuniones, generar video o conducir un coche. Es la fase de "hacer" de la IA, y nunca se detiene una vez que se lanza un modelo.

Un modelo de frontera podría entrenarse una vez o unas pocas veces en una supercomputadora, pero puede atender solicitudes miles de millones o billones de veces a lo largo de su vida útil. ChatGPT de OpenAI, Gemini de Google y los servicios basados en Llama de Meta ya procesan decenas de millones de solicitudes por día. A gran escala, el número de inferencias supera los entrenamientos en varios órdenes de magnitud.

Esa asimetría convierte la inferencia en la verdadera máquina de dinero. Cada chat, búsqueda, ticket de soporte al cliente y creativos publicitarios generados por IA alimentan el medidor de inferencia. Los proveedores de servicios en la nube ya cobran por cada 1,000 tokens o por cada llamada a la API, y las implementaciones empresariales miden el uso interno de la misma manera, convirtiendo ciclos de procesamiento en ingresos recurrentes.

NVIDIA entiende que quien controla la inferencia controla la capa de suscripción de la economía de la IA. El entrenamiento es un gasto de capital irregular: enormes clústeres de GPU, amortizados a lo largo de meses. La inferencia se comporta como SaaS: predecible, basada en el uso y estrechamente vinculada al crecimiento de los usuarios. A medida que la IA se infiltra en documentos de Office, sistemas CRM y interfaces de usuario de teléfonos, los volúmenes de inferencia—y las facturas—escala con cada clic.

Tener el mejor hardware de inferencia significa dictar los márgenes operativos de cada servicio de IA construido sobre él. Si tu chip ejecuta un modelo 5 veces más rápido y consume la mitad de energía, puedes optar por ofrecer precios más bajos que tus competidores o quedarte con la diferencia como ganancia. Esa diferencia de costos decide si una consulta de búsqueda de IA cuesta $0.01 o $0.0001, lo que representa la diferencia entre una demostración impresionante y un producto sostenible.

La arquitectura LPU de Groq apunta exactamente a ese cuello de botella: inferencia ultra-bajo-latencia y determinista a gran escala. Al asegurar derechos no exclusivos sobre la propiedad intelectual de Groq e importar a Jonathan Ross y su equipo, NVIDIA está comprando un futuro donde su silicio no solo entrena los modelos, sino que también alimenta los billones de inferencias que siguen.

Los números no mienten: la impresionante velocidad de Groq.

Los números hicieron que Groq fuera imposible de ignorar para NVIDIA. En benchmarks públicos de LLM como Llama 2 y Mixtral, los sistemas LPU de Groq ofrecieron consistentemente una inferencia de aproximadamente 2–3 veces más rápida que los clústeres de GPU de alta gama, manteniendo presupuestos de potencia similares o inferiores. Las implementaciones de demostración mostraron una latencia de extremo a extremo por debajo de 20 ms para modelos de 7B a 13B parámetros, mientras que las pilas de GPU suelen rondar entre 50 y 150 ms, una vez que se consideran los costos de red y de agrupamiento.

Esa velocidad instantánea se traduce directamente en la experiencia del usuario. Un chatbot que responde en 30 ms en lugar de 100 ms se siente menos como un formulario web y más como una conversación en vivo. La traducción en tiempo real deja de sonar como una película doblada y comienza a comportarse como un intérprete humano, con cada frase llegando casi tan pronto como sale de tu boca.

Para los agentes de IA, la latencia es oxígeno. Un agente que encadena 20 llamadas a herramientas en GPUs puede tardar varios segundos en completar una tarea; en los LPU de Groq, el mismo flujo de trabajo puede comprimirse a menos de un segundo. Esa diferencia determina si un asistente de IA puede gestionar una llamada de ventas en vivo, negociar en un juego multijugador o coordinar un enjambre de robots sin chocar con los muebles.

Esos números crearon una vulnerabilidad evidente para NVIDIA. Si los hiperescaladores o las plataformas de código abierto estandarizaban Groq para la inferencia, los centros de datos con gran capacidad gráfica correrían el riesgo de convertirse en reliquias dedicadas únicamente a la capacitación. El movimiento de $20 mil millones de NVIDIA neutralizó de manera efectiva un futuro donde un rival de silicio controlara la capa de inferencia que genera ingresos recurrentes.

Los casos de uso de baja latencia exponen la ventaja de Groq de manera más brutal: - Comercio de alta frecuencia y creación de mercado - Vehículos autónomos y drones - Soporte al cliente en vivo y centros de llamadas - Juegos multijugador y streaming interactivo - Control industrial y robótica

Los analistas señalaron esta amenaza temprano, y la cobertura como Nvidia licencia la tecnología de inferencia de Groq, ejecutivos de Groq se unen al fabricante de chips subraya cómo NVIDIA se movió estratégicamente para atraer la propiedad intelectual y el talento de Groq a su órbita.

Cómo NVIDIA Jugó Ajedrez 4D con los Reguladores

Los reguladores en Washington, Bruselas y Pekín actualmente rodean a NVIDIA como tiburones. La empresa ya controla aproximadamente entre el 70% y el 80% del mercado de aceleradores de IA, y los organismos de control han bloqueado o descomponido acuerdos mucho más pequeños que una compra directa de Groq. Tras la fallida oferta de 40 mil millones de dólares por Arm y el constante escrutinio de la UE y la FTC, una adquisición limpia de un competidor directo de inferencia parecía un viaje automático a los tribunales antimonopolio.

Así que NVIDIA evitó la trampa obvia. En lugar de comprar Groq, pagó aproximadamente 20 mil millones de dólares por una licencia no exclusiva de la propiedad intelectual del núcleo LPU de Groq y, simultáneamente, contrató a Jonathan Ross y a gran parte de su equipo senior. Groq, la fachada corporativa, sobrevive; las mentes y los planos ahora están dentro de NVIDIA.

Los abogados llamarían a esto una transacción de licencias y empleo, no una fusión. Los reguladores, obligados por los Estatutos actuales, luchan por tratar las licencias de propiedad intelectual y el robo de talento como eventos de concentración, incluso cuando el efecto estratégico refleja una adquisición. Sin archivo de cambio de control, sin revisión clásica de fusión, sin el ordenado gráfico HHI que muestra un competidor menos.

Estructuralmente, NVIDIA logró casi todo lo que una adquisición bloqueada habría proporcionado. Aseguró acceso a largo plazo al conjunto de instrucciones de Groq, su pila de compiladores y diseños de hardware, además del capital humano que sabe cómo evolucionarlos. Groq mantiene un derecho teórico a licenciar su propiedad intelectual en otros lugares, pero cualquier rival ahora comienza al menos 18-24 meses detrás de una hoja de ruta de NVIDIA que ya incluye la tecnología de Groq.

Esa etiqueta de "no exclusiva" tiene un gran peso legal mientras oculta una asimetría práctica. NVIDIA puede prepagarse, co-diseñar e integrar estrechamente bloques derivados de Groq en futuros productos de inferencia, optimizando su ecosistema CUDA y su infraestructura de red en torno a ellos. Un licenciatario tardío se enfrentaría a:

1Sin acceso al equipo central original.
2Un objetivo en movimiento mientras NVIDIA itera la arquitectura.
3Compromiso del cliente con el software y la nube de NVIDIA.

Este manual establece un peligroso precedente. Las grandes empresas tecnológicas ahora pueden llevar a cabo adquisiciones de facto a través de licencias de propiedad intelectual, integraciones exclusivas y contrataciones masivas, todas estructuradas para caer fuera de las definiciones clásicas de fusiones. La ley antimonopolio, aún ajustada para ferrocarriles y compañías telefónicas, acaba de ser superada por una empresa que entiende el código y los contratos con igual destreza.

¿Una concha vacía o un nuevo comienzo para Groq?

Groq se despierta la mañana después de un acuerdo de $20 mil millones como un paradoja: un jugador repentinamente rico en efectivo y estratégicamente importante que acaba de perder su cerebro. El nuevo CEO Simon Edwards ahora dirige una empresa cuyo núcleo de propiedad intelectual de chips vive bajo una licencia no exclusiva con NVIDIA, mientras que la mayoría de las personas que lo diseñaron ahora visten chaquetas verdes en Santa Clara.

La joya de la corona que queda de Groq es GroqCloud, la plataforma de inferencia alojada que expone su hardware LPU como una API. Ese servicio ya ha atraído a desarrolladores con demostraciones de latencias de 2 a 3 veces más bajas en la inferencia de modelos de lenguaje grande en comparación con pilas de GPU, y aún controla sus relaciones con los clientes, la facturación y la hoja de ruta. En un mercado donde todos alquilan computación por token, no por transistor, esa capa de abstracción es importante.

Sin embargo, GroqCloud ahora opera en una extraña órbita competitiva. NVIDIA puede exponer la misma propiedad intelectual de LPU licenciada a través de sus propios socios en la nube y plataformas DGX, mientras que Groq intenta diferenciarse en software, herramientas y experiencia del desarrollador. Si NVIDIA reduce precios o agrupa inferencia basada en LPU con su oferta actual de GPU, GroqCloud corre el riesgo de convertirse en la versión boutique de su propia tecnología.

La gravedad del talento plantea un problema aún mayor. Jonathan Ross, Sunny Madra y una masa crítica de arquitectos senior ahora forman parte del organigrama de NVIDIA, no de Groq. Reclutar ingenieros de silicio y sistemas de primer nivel para una empresa que acaba de ver salir por la puerta su propiedad intelectual definitoria requerirá una nueva tesis convincente, no nostalgia por los días de gloria de LPU.

Groq puede intentar pivotar hacia una plataforma de inferencia de IA dedicada, enfocándose en abstracciones de alto nivel: entornos de ejecución administrados, transmisión de ultra-baja latencia, cargas de trabajo especializadas como datos de transacciones financieras o juegos multijugador. También podría dirigirse a clientes de edge y on-prem que desconfían de los hiperescaladores y buscan un proveedor más pequeño y flexible.

La viabilidad a largo plazo depende de si Groq puede ofrecer algo verdaderamente nuevo que NVIDIA no pueda copiar o distribuir de inmediato. Si GroqCloud se convierte meramente en una interfaz de marca para una tecnología que NVIDIA controla y comercializa a escala global, Groq corre el riesgo de reducirse a una nota histórica: una astuta solución regulatoria en el ascenso de NVIDIA hacia el dominio de la inferencia. Si Edwards puede convertir esa incómoda independencia en un laboratorio para ideas más rápidas y extrañas, Groq aún podría tener relevancia en el próximo ciclo de hardware.

El giro de NVIDIA: De rey de las GPU a emperador del silicio en IA

NVIDIA acaba de dejar de pretender que es una empresa de GPU. Una apuesta de 20 mil millones de dólares en la arquitectura LPU de Groq, estructurada como un acuerdo de licencias más una incursión de talento, señala un giro hacia la propiedad de cada parte crítica del silicio de IA, desde el primer token hasta la respuesta final. Las GPU construyeron el auge de la IA; los aceleradores hiperespecializados son la forma en que NVIDIA planea dominar su segundo acto.

En lugar de un acuerdo de trofeo único, esto parece ser la fase uno de una adquisición más amplia de silicio de IA. NVIDIA ya vende H100 y B200 para entrenamiento, Grace Hopper para cargas de trabajo limitadas por memoria, y silicio de red de la adquisición de Mellanox. La propiedad intelectual de Groq completa el componente que falta: inferencia determinista de ultra baja latencia a gran escala.

Los rivales han ejecutado esta estrategia internamente durante años. Google construyó TPUs para escapar de los cuellos de botella de GPU en sus centros de datos. Amazon lanzó Trainium e Inferentia para ajustar costos en AWS. El Neural Engine de Apple convirtió cada iPhone en una caja de inferencia en el dispositivo. El movimiento de NVIDIA dice: en lugar de perder carga de trabajo frente a esos chips personalizados, igualará con su propio portafolio especializado.

NVIDIA ahora persigue una pila que parece menos un "GPU en todas partes" y más un menú de silicio para cada fase de la IA: - Entrenamiento: GPUs de alto rendimiento y aceleradores adyacentes a GPUs - Ajuste fino: componentes optimizados para memoria y de precisión mixta - Inferencia: LPUs y otros diseños obsesionados con la latencia - Redes e interconexiones: NVLink, InfiniBand, interruptores personalizados

La economía de inferencia impulsa este cambio. El entrenamiento ocurre ocasionalmente; la inferencia se ejecuta 24/7, a través de miles de millones de consultas. Los reportes de Groq indican mejoras de 2–3x en puntos de referencia clave de inferencia, combinadas con una ejecución determinista, lo que se traduce directamente en un menor costo por token y mayores márgenes para proveedores de la nube y empresas.

Los reguladores pueden ver un acuerdo de licencia; los clientes verán una hoja de ruta unificada de hardware de NVIDIA. Al incorporar a Jonathan Ross y a gran parte del talento de ingeniería de Groq, mientras licencia propiedad intelectual no exclusiva, NVIDIA obtiene el ingenio y los planos sin desatar una lucha antimonopolio a gran escala. Groq sobrevive como marca, pero NVIDIA controla el centro gravitacional.

NVIDIA también profundiza su ventaja como la "opción predeterminada" para la infraestructura de IA. Si puede ofrecer una única pila de software—CUDA, TensorRT, Triton—en GPU, LPU y lo que venga después, cambiar a Google TPU, AWS Trainium o ASICs personalizados se vuelve aún más difícil. Diversidad de hardware, bloqueo de software.

Visto este contexto, el acuerdo con Groq se lee menos como oportunismo y más como la redacción de una constitución. NVIDIA se está estableciendo como la capa de hardware foundational de la IA, el sustrato de silicio debajo de cada chatbot, copiloto y agente autónomo. Para aquellos que están atentos a los detalles, NVIDIA Anuncia Acuerdo Estratégico de Licencia con Groq para Acelerar la Inferencia de IA es menos un comunicado de prensa y más una declaración de imperio.

Tu futuro en IA acaba de volverse increíblemente más rápido.

Tus aplicaciones de IA acaban de recibir silenciosamente un plan para deshacerse de sus barras de carga. El acuerdo de NVIDIA por 20 mil millones de dólares con Groq apunta al momento exacto en que sientes la IA: la pausa entre presionar enter y recibir una respuesta. Esa pausa es inferencia, y la arquitectura LPU de Groq existe para acabar con ella.

Los modelos más grandes de hoy a menudo responden en 30–800 ms por token, dependiendo del hardware y la red. El hardware de Groq ya ha demostrado una inferencia de 2 a 3 veces más rápida en pruebas clave, con algunas demostraciones públicas transmitiendo tokens a cientos de tokens por segundo. Si integras eso en la pila de NVIDIA, obtienes chatbots que se sienten menos como un sitio web y más como una conversación.

Los asistentes en tiempo real dejan de ser una frase de marketing y comienzan a comportarse como una llamada de sistema. Imagina: - Un asistente de voz que responde en menos de 50 ms, indistinguible de una interrupción humana - Traducción en vivo que sigue el ritmo del habla rápida sin un desagradable retraso - NPCs en el juego que improvisan diálogo y estrategia en cada fotograma, no cada escena

La inteligencia artificial en el dispositivo está lista para ser la siguiente en beneficiarse. A medida que NVIDIA impulsa la inferencia al estilo Groq hacia silicios más eficientes, puedes descargar más trabajo de las GPUs en la nube a chips locales. Esto significa que la resumición compleja, la búsqueda en múltiples documentos o la comprensión de video se pueden ejecutar en una laptop, consola o tablero de un automóvil con una latencia casi imperceptible.

Los desarrolladores obtienen el mayor desbloqueo creativo. Cuando la latencia disminuye de cientos de milisegundos a decenas, puedes encadenar más modelos, ejecutar más agentes en paralelo y mantener ciclos de interacción ajustados sin que los usuarios abandonen. Categorías enteras—copilotos de IA dentro de entornos de desarrollo, asistentes de investigación en tiempo real, sistemas de tutoría adaptativa—de repente se sienten viables a gran escala en lugar de simples demostraciones tecnológicas.

Una menor latencia también se suma al costo. Un silicio de inferencia más rápido y especializado significa más consultas por vatio y por dólar. Esto alienta a los desarrolladores a implementar funciones que habrían sido demasiado caras para mantener “siempre activas”, como el razonamiento en segundo plano, la supervisión continua de documentos o la memoria persistente de NPC en mundos masivos en línea.

La competencia no se quedará quieta. AMD, Intel, Google y un sinfín de startups ahora tienen una señal de $20 mil millones de que la inferencia ultra-rápida es el campo de batalla. Esa carrera armamentista en hardware de IA no solo hará que los modelos sean más inteligentes; llevará la IA verdaderamente instantánea y ambiental a dispositivos convencionales años antes de lo previsto.

Preguntas Frecuentes

¿NVIDIA realmente compró la empresa Groq?

No. NVIDIA estructuró un acuerdo de $20 mil millones para licenciar la propiedad intelectual de Groq de manera no exclusiva y contratar a su talento clave, incluido el fundador Jonathan Ross. Esto permite que Groq siga siendo una empresa independiente, principalmente para evitar regulaciones antimonopolio.

¿Qué es un LPU de Groq y en qué se diferencia de una GPU de NVIDIA?

Una LPU, o Unidad de Procesamiento de Lenguaje, es un chip personalizado diseñado específicamente para la inferencia de IA, la tarea de ejecutar modelos de IA para obtener respuestas. Las GPU son más de propósito general y tradicionalmente han destacado en el entrenamiento de IA, que es un proceso diferente y más intensivo en computación.

¿Por qué es más importante la inferencia de IA que el entrenamiento de IA para los ingresos?

Mientras que entrenar un modelo es una tarea masiva que se realiza una sola vez o de manera ocasional, la inferencia ocurre cada vez que un usuario hace una pregunta o utiliza una función de IA. A medida que miles de millones de personas utilizan la IA a diario, el número de operaciones de inferencia superará exponencialmente las operaciones de entrenamiento, convirtiéndose en la mayor fuente de ingresos escalables y a largo plazo.

¿Quién es Jonathan Ross?

Jonathan Ross es el fundador de Groq y el inventor de su tecnología LPU. Antes de comenzar Groq, fue un ingeniero clave en Google, donde inventó la Unidad de Procesamiento Tensorial (TPU), el chip de IA personalizado de Google.

𝕏 in ↑↗

Frequently Asked Questions

¿Una concha vacía o un nuevo comienzo para Groq?

See article for details.

¿NVIDIA realmente compró la empresa Groq?

¿Qué es un LPU de Groq y en qué se diferencia de una GPU de NVIDIA?

¿Por qué es más importante la inferencia de IA que el entrenamiento de IA para los ingresos?

¿Quién es Jonathan Ross?

La adquisición en la sombra de NVIDIA por 20 mil millones de dólares.

TL;DR / Key Takeaways

El susurro de 20 mil millones de dólares que se escuchó en todo el mundo

El Gambito de Jensen: La Adquisición que 'No es una Adquisición'

Conoce al genio que construyó las mentes de IA de Google y Groq.

El reinado de la GPU ha terminado: entra el LPU.

Olvídate del entrenamiento: la inferencia es el premio de un billón de dólares.

Los números no mienten: la impresionante velocidad de Groq.

Cómo NVIDIA Jugó Ajedrez 4D con los Reguladores

¿Una concha vacía o un nuevo comienzo para Groq?

El giro de NVIDIA: De rey de las GPU a emperador del silicio en IA

Tu futuro en IA acaba de volverse increíblemente más rápido.

Preguntas Frecuentes

¿NVIDIA realmente compró la empresa Groq?

¿Qué es un LPU de Groq y en qué se diferencia de una GPU de NVIDIA?

¿Por qué es más importante la inferencia de IA que el entrenamiento de IA para los ingresos?

¿Quién es Jonathan Ross?

Frequently Asked Questions

Read Next

El nuevo agente de Anthropic acaba de acabar con el No-Code

Esta Herramienta Domestica Agentes de IA Caóticos

La Memoria Perfecta de la IA Ha Llegado

Stay Ahead of the AI Curve