A Aquisição Oculta de US$ 20 Bilhões da NVIDIA

A NVIDIA acaba de investir 20 bilhões de dólares em sua maior rival, mas não foi uma aquisição tradicional. Aqui está a história por trás do acordo que redefine o futuro da velocidade da IA e por que Jensen Huang está jogando xadrez enquanto outros jogam damas.

Stork.AI
Hero image for: A Aquisição Oculta de US$ 20 Bilhões da NVIDIA
💡

TL;DR / Key Takeaways

A NVIDIA acaba de investir 20 bilhões de dólares em sua maior rival, mas não foi uma aquisição tradicional. Aqui está a história por trás do acordo que redefine o futuro da velocidade da IA e por que Jensen Huang está jogando xadrez enquanto outros jogam damas.

O Sussurro de 20 Bilhões de Dólares Ouvido pelo Mundo Inteiro

Os rumores de um acordo de $20 bilhões da NVIDIA chegaram às mesas de negociação como um bug na matriz. Não era uma compra estilo Arm, não era uma aquisição limpa, mas um número tão grande que instantaneamente se tornou o maior negócio da empresa. Maior do que qualquer lançamento de GPU, maior do que qualquer vitória de design em data centers—este era o território de balanços como arma.

Para efeito de comparação, a aquisição impactante da Mellanox pela NVIDIA em 2019 custou US$ 6,9 bilhões e reestruturou todo o mercado de redes de alto desempenho. Esta nova transação efetivamente triplica esse valor, direcionando-se não para largura de banda ou interconexões, mas para o coração pulsante da inferência de IA. Quando uma empresa já avaliada em mais de um trilhão de dólares decide que US$ 20 bilhões é um preço justo por velocidade, latência e expertise em silício, todos prestam atenção.

A confusão surgiu primeiro. A NVIDIA disse que não estava comprando a Groq diretamente, mas uma quantia em dinheiro equivalente ao valor de mercado de um fabricante de chips de médio porte estava sendo movimentada. Investidores tentaram relacionar o negócio a padrões familiares—fusão e aquisição, parceria estratégica, licenciamento—mas nenhum se encaixava perfeitamente. As manchetes chamavam isso de aquisição; os advogados da NVIDIA cuidadosamente não o fizeram.

A estrutura parecia quase intencionalmente estranha. A NVIDIA concordou em pagar cerca de US$ 20 bilhões por direitos não exclusivos sobre a propriedade intelectual central da Groq, além de um eficaz "acquihire" de seu principal talento em engenharia, incluindo o fundador Jonathan Ross e o presidente Sunny Madra. A Groq, a empresa, continuaria a existir sob uma nova liderança, enquanto a arquitetura LPU da Groq e a maioria de seus ativos de chips se transferiram para a órbita da NVIDIA.

Essa assimetria alimentou o sentimento inicial de mistério. Por que gastar dinheiro em nível de aquisição sem assumir a propriedade total ou desencadear uma fusão direta? Por que deixar a GroqCloud e partes do negócio fora do acordo enquanto absorvia as mentes e os planos? Para muitos do lado de fora, parecia que a NVIDIA havia pago um preço premium por metade de uma empresa.

Por trás do barulho, uma história diferente começou a surgir: um movimento de judô regulatório envolto em uma aquisição estratégica de terras. Ao evitar uma compra limpa, a NVIDIA desviou do tipo de escrutínio antitruste que matou sua tentativa de $40 bilhões pela Arm. Ao mesmo tempo, garantiu discretamente as pessoas, a propriedade intelectual e o plano necessário para dominar a próxima fase da IA: inferência em velocidade e escala assustadoras.

O Gambito de Jensen: A Aquisição 'Não-uma-Aquisição'

Ilustração: O Gambito de Jensen: A Aquisição 'Não-uma-Aquisição'
Ilustração: O Gambito de Jensen: A Aquisição 'Não-uma-Aquisição'

Jensen Huang não comprou a Groq, mas a reestruturou. A NVIDIA está gastando cerca de $20 bilhões em um pacote que combina uma licença abrangente e não exclusiva para o IP central da Groq com uma contratação clássica do Vale do Silício de seu time de especialistas. No papel, a Groq sobrevive. Na prática, seus ativos mais valiosos agora orbitam ao redor do poço gravitacional da NVIDIA.

Em vez de adquirir a estrutura de capital e a shell corporativa da Groq, a NVIDIA licenciou sua arquitetura LPU, pilha de compiladores e patentes de design-chave. Essa propriedade intelectual vem acompanhada de direitos de acesso de longo prazo que dão à NVIDIA tudo o que precisa para incorporar os conceitos de silício de inferência da Groq em linhas de produtos futuras. A linguagem não exclusiva mantém a Groq tecnicamente livre para licenciar em outros lugares, mas, com seus inventores ausentes, essa opção parece mais teórica do que real.

Essa estrutura entrega as joias da coroa tecnológica da Groq à NVIDIA sem acionar os alarmes legais que comprometeram o acordo com a ARM. Os reguladores nos EUA, UE e Reino Unido já sinalizaram uma grande preocupação com a dominância da NVIDIA em computação de IA. Uma aquisição direta de um rival em ascensão na inferência teria provocado investigações de vários anos, remédios comportamentais ou uma proibição total.

Em contrapartida, o licenciamento de IP e a movimentação de talentos geralmente passam despercebidos pela fiscalização antitruste como transações de “curso normal”. Sem necessidade de arquivamento de mudança de controle, sem votação dos acionistas, sem fusão a ser litigada. A NVIDIA pode argumentar plausivelmente que não removeu um concorrente do mercado; a Groq ainda existe, ainda opera a GroqCloud e ainda pode, em teoria, fabricar chips.

O lado humano do negócio faz com que esse argumento pareça acadêmico. O fundador da Groq, Jonathan Ross, o engenheiro por trás do TPU do Google e do LPU da Groq, está indo para a NVIDIA. O presidente Sunny Madra e uma massa crítica das equipes de arquitetura, compiladores e sistemas da Groq estão supostamente se juntando a ele. O que resta na Groq se parece mais com uma marca e um serviço em nuvem do que com uma empresa de silício de pilha completa.

Estratégicamente, Huang obtém exatamente o que os reguladores temiam: um controle mais rígido sobre a pilha de inferência de IA sem a trilha documental de uma fusão clássica. A NVIDIA expande seu alcance do treinamento de GPU para a inferência de ultra-baixa latência, armada com os designs da Groq e as pessoas que sabem como levá-los ainda mais longe.

Conheça o Gênio que Construiu as Mentes de IA do Google e da Groq

Jonathan Ross construiu sua carreira em uma simples e brutal limitação: a latência mata a IA. No Google, ele transformou esse mantra em silício, liderando a equipe que criou a Unidade de Processamento Tensorial (TPU), o acelerador personalizado que silenciosamente se tornou a espinha dorsal do Google Search, Translate, Photos e recomendações do YouTube. As implementações de TPU agora somam milhões de chips, gerando trilhões de inferências por dia dentro dos data centers do Google.

Ross não apenas projetou um chip rápido; ele redesenhou toda a pilha em torno da matemática matricial. Os TPUs descarregaram álgebra linear densa das CPUs e GPUs, permitindo que o Google treinasse e atendesse modelos em escalas que teriam sido economicamente impossíveis em hardware de propósito geral. Esse sucesso o consolidou como um dos poucos engenheiros que provaram que podem dobrar a economia de hiperescaladores com uma única decisão de arquitetura.

Então ele saiu. Ross fundou a Groq com uma tese mais afiada: construir um processador não para gráficos, nem mesmo para IA genérica, mas para a velocidade pura da linguagem e da inferência. Em vez do modelo complexo e massivamente paralelo da GPU, a Unidade de Processamento de Linguagem (LPU) da Groq utiliza uma arquitetura determinística, de núcleo único e extremamente ampla que executa redes neurais como uma esteira transportadora. Sem caches, ramificações mínimas, agendamento preciso.

O hardware e a pilha de compiladores da Groq visavam uma métrica: tokens por segundo. Demonstrações públicas mostraram que os LPUs da Groq transmitiam saídas de modelos de linguagem de grande dimensão a centenas de tokens por segundo por usuário, frequentemente de 2 a 3x mais rápidos do que configurações baseadas em GPU comparáveis dentro de limites de potência similares. Para cargas de trabalho sensíveis à latência—como trading, agentes conversacionais e copilotos em tempo real—essa diferença se traduz diretamente em receita e retenção de usuários.

É por isso que Ross ocupa o centro da aposta de US$ 20 bilhões da NVIDIA. Jensen Huang não está apenas licenciado propriedade intelectual; ele está efetivamente importando a mente que transformou o Google em uma empresa voltada para TPU e, em seguida, construiu um motor de inferência rival do zero. Exclusivo: A NVIDIA compra os ativos da startup de chips de IA Groq por cerca de US$ 20 bilhões em seu maior negócio já registrado destaca que este é o maior negócio da NVIDIA até agora, ofuscando a aquisição da Mellanox por US$ 6,9 bilhões.

A NVIDIA já domina o treinamento com GPUs. A Ross oferece um caminho credível para dominar a inferência também, ao fundir ecossistemas de GPU com determinismo ao estilo LPU e disciplina de compilador. Você não gasta $20 bilhões em uma licença e uma aquisição estratégica a menos que acredite que o arquiteto que está contratando pode definir a próxima década de silício da sua empresa.

O reinado da GPU acabou: entre o LPU

As GPUs nasceram para desenhar pixels. Unidades de Processamento Gráfico se destacam em lançar milhares de problemas matemáticos paralelos em uma tela, perfeito para jogos 3D e, mais tarde, para processar enormes cargas de treinamento de IA. Elas tratam tudo—traçado de raios, multiplicações de matrizes, física—como apenas mais uma carga de trabalho embaraçosamente paralela.

Os LPUs invertem essa lógica. A Unidade de Processamento de Linguagem da Groq não é um misturador de números de uso geral; é um caminho rápido e fixo para executar grandes modelos de linguagem durante o tempo de inferência. Enquanto as GPUs gerenciam várias cargas de trabalho com agendamentos complexos, um LPU executa um único programa altamente previsível tão rápido e de forma tão consistente quanto a física permite.

Pense em uma GPU como uma vasta biblioteca universitária. Treinar um modelo se assemelha a uma pesquisa aprofundada: vasculhar milhões de páginas, cruzar fontes, revisar hipóteses, iterar por semanas em milhares de GPUs. A flexibilidade importa mais do que o determinismo puro, pois cada execução de treinamento altera o “programa”.

Um LPU se comporta como um mecanismo de busca hiper-otimizado direcionado para aquela biblioteca finalizada. O modelo já está treinado; a inferência é o ato de fazer uma pergunta e transmitir de volta os tokens. Você se preocupa com latência, throughput e custo por consulta, e não em reorganizar as prateleiras toda noite.

Modelos de linguagem tornam essa divisão ainda mais clara. Transformadores geram texto token por token, em uma sequência rigorosa: o token N+1 depende dos tokens de 1 a N. Essa cadeia de dependência parece hostil ao paralelismo, mas é incrivelmente previsível—mesmo gráfico, mesmo padrão de memória, mesmo fluxo de controle para bilhões de solicitações.

A arquitetura da Groq se aproveita dessa previsibilidade. Em vez de ocultar as interrupções de memória com grandes pools de threads como uma GPU, uma LPU organiza todo o modelo como um fluxo de dados estático no chip, transformando cada etapa de token em uma fase de pipeline cronometrada. Sem roleta de cache, sem divergência de warp, apenas uma esteira transportadora de multiplicações de matrizes e softmaxes.

A NVIDIA vê o que está escrito no balanço patrimonial. O treinamento gerou a primeira onda de um trilhão de dólares, mas a inferência a superará, à medida que cada caixa de busca, chat de atendimento ao cliente e aplicativo de produtividade começar a utilizar modelos milhões de vezes por segundo. A receita cresce com as consultas, não com quantas vezes você treina o GPT-Next.

Então o rei das GPUs investiu naquilo que ameaça a supremacia das GPUs. Ao gastar cerca de $20 bilhões por direitos não exclusivos sobre a propriedade intelectual de LPU da Groq e trazer Jonathan Ross e sua equipe, a NVIDIA se resguarda contra um futuro onde os hyperscalers padronizam o silício especializado para inferência. Melhor possuir a arquitetura vencedora do que defender um monopólio em declínio sobre os chips de ontem.

Esqueça o Treinamento—A Inferência é o Prêmio de Um Trilhão de Dólares

Ilustração: Esqueça o Treinamento—A Inferência é o Prêmio de Trilhões de Dólares
Ilustração: Esqueça o Treinamento—A Inferência é o Prêmio de Trilhões de Dólares

Faça uma pergunta a uma IA, receba uma resposta em alguns milésimos de segundo—isso é inferência. O treinamento é o caro campo de treinamento onde um modelo aprende; a inferência é cada vez que esse modelo faz seu trabalho: escrever código, resumir reuniões, gerar vídeos ou dirigir um carro. É a fase de "ação" da IA, e nunca para uma vez que um modelo é lançado.

Um modelo de fronteira pode ser treinado uma vez ou algumas poucas vezes em um supercomputador, mas pode atender a solicitações bilhões ou trilhões de vezes ao longo de sua vida útil. O ChatGPT da OpenAI, o Gemini do Google e os serviços da Meta baseados em Llama já processam dezenas de milhões de solicitações por dia. Em grande escala, o número de inferências supera os ciclos de treinamento em várias ordens de magnitude.

Essa assimetria transforma a inferência na verdadeira máquina de dinheiro. Cada chat, busca, ticket de suporte ao cliente e criação de anúncios gerados por IA movimentam o medidor de inferência. Os provedores de nuvem já cobram por 1.000 tokens ou por chamada de API, e as implantações empresariais monitoram o uso interno da mesma forma, convertendo ciclos de computação bruta em receita recorrente.

A NVIDIA entende que quem controla a inferência controla a camada de assinatura da economia de IA. O treinamento é um capex irregular: enormes clusters de GPU em um único investimento, amortizados ao longo de meses. A inferência se comporta como SaaS: previsível, baseada em uso e intimamente ligada ao crescimento do usuário. À medida que a IA se infiltra em documentos do Office, sistemas de CRM e interfaces de celular, os volumes de inferência—e as contas—escalam a cada clique.

Possuir o melhor hardware de inferência significa ditar as margens operacionais de cada serviço de IA construído sobre ele. Se seu chip executa um modelo 5x mais rápido com metade da energia, você pode ou oferecer preços mais baixos que os concorrentes ou ficar com a diferença como lucro. Essa diferença de custo decide se uma consulta de busca em IA custa $0,01 ou $0,0001, que é a diferença entre uma demonstração impressionante e um produto sustentável.

A arquitetura LPU da Groq visa exatamente esse gargalo: inferência ultra-baixa latência e determinística em grande escala. Ao garantir direitos não exclusivos sobre a propriedade intelectual da Groq e trazer Jonathan Ross e sua equipe, a NVIDIA está adquirindo um futuro onde seu silício não apenas treina os modelos, mas também alimenta os trilhões de inferências que se seguem.

Números Não Mentem: A Velocidade Impressionante da Groq

Os números tornaram a Groq impossível de ignorar pela NVIDIA. Em benchmarks públicos de LLM, como Llama 2 e Mixtral, os sistemas LPU da Groq demonstraram consistentemente uma inferência 2–3x mais rápida do que os clusters de GPU de alto desempenho, com orçamentos de energia semelhantes ou inferiores. As implantações de demonstração mostraram latência de ponta a ponta abaixo de 20 ms para modelos de 7B–13B de parâmetros, enquanto os clusters de GPU frequentemente ficam entre 50–150 ms quando se considera a sobrecarga de rede e processamento em lote.

Essa velocidade bruta se traduz diretamente na experiência do usuário. Um chatbot que responde em 30 ms em vez de 100 ms parece menos um formulário da web e mais uma conversa ao vivo. A tradução em tempo real deixa de soar como um filme dublado e passa a agir como um intérprete humano, com cada frase chegando quase assim que sai da sua boca.

Para agentes de IA, a latência é oxigênio. Um agente que encadeia 20 chamadas de ferramentas em GPUs pode levar vários segundos para concluir uma tarefa; nos LPUs da Groq, o mesmo fluxo de trabalho pode ser comprimido para menos de um segundo. Essa diferença determina se um assistente de IA pode gerenciar uma chamada de vendas ao vivo, negociar em um jogo multiplayer ou coordenar um enxame de robôs sem colidir com os móveis.

Esses números criaram uma vulnerabilidade evidente para a NVIDIA. Se hiperescaladores ou plataformas de código aberto padronizassem o Groq para inferência, data centers pesados em GPU correriam o risco de se tornarem relíquias apenas de treinamento. O movimento de 20 bilhões de dólares da NVIDIA efetivamente neutralizou um futuro onde uma pilha de silício concorrente dominasse a camada de inferência que gera receita recorrente.

Casos de uso de baixa latência expõem a vantagem da Groq de forma mais brutal: - Comércio de alta frequência e formação de mercado - Veículos autônomos e drones - Suporte ao cliente ao vivo e centrais de atendimento - Jogos multiplayer e streaming interativo - Controle industrial e robótica

Analistas sinalizaram essa ameaça cedo, e a cobertura como A NVIDIA licencia a tecnologia de inferência da Groq, executivos da Groq se juntam ao fabricante de chips destaca como a NVIDIA se moveu estrategicamente para atrair a PI e o talento da Groq para sua órbita.

Como a NVIDIA Jogou Xadrez 4D com Reguladores

Os reguladores em Washington, Bruxelas e Pequim atualmente cercam a NVIDIA como tubarões. A empresa já controla cerca de 70–80% do mercado de aceleradores de IA, e os órgãos de fiscalização bloquearam ou trucidaram negócios muito menores do que uma simples compra da Groq. Após a tentativa frustrada de aquisição da Arm por $40 bilhões e o escrutínio contínuo da UE e da FTC, uma aquisição limpa de um rival direto em inferência parecia uma viagem automática para o tribunal antitruste.

Assim, a NVIDIA evitou a armadilha óbvia. Em vez de comprar a Groq, pagou cerca de 20 bilhões de dólares por uma licença não exclusiva para a propriedade intelectual central de LPU da Groq e simultaneamente contratou Jonathan Ross e grande parte de sua equipe sênior. A Groq, a casca corporativa, sobrevive; as mentes e os planos agora estão dentro da NVIDIA.

Os advogados chamariam isso de uma transação de licenciamento e emprego, não uma fusão. Os reguladores, vinculados às legislações atuais, têm dificuldade em tratar as licenças de propriedade intelectual e o recrutamento de talentos como eventos de concentração, mesmo quando o efeito estratégico é semelhante a uma aquisição. Sem a notificação de mudança de controle, sem a revisão clássica de fusão, sem um gráfico HHI simples mostrando um concorrente a menos.

Estruturalmente, a NVIDIA alcançou quase tudo o que uma aquisição bloqueada teria entregado. Garantiu acesso de longo prazo ao conjunto de instruções da Groq, ao stack de compiladores e aos designs de hardware, além do capital humano que sabe como evoluí-los. A Groq mantém um direito teórico de licenciar sua propriedade intelectual em outros lugares, mas qualquer concorrente agora começa pelo menos 18–24 meses atrás de um roadmap da NVIDIA que já incorpora a tecnologia da Groq.

Esse rótulo de “não exclusivo” carrega um peso legal significativo enquanto oculta uma assimetria prática. A NVIDIA pode pagar antecipadamente, co-desenhar e integrar de forma rigorosa blocos derivados da Groq em futuros produtos de inferência, otimizando seu ecossistema CUDA e a infraestrutura de rede ao redor deles. Um licenciante tardio enfrentaria:

  • 1Sem acesso à equipe principal original
  • 2Um alvo em movimento à medida que a NVIDIA itera a arquitetura.
  • 3Fidelização dos clientes ao software e à infraestrutura em nuvem da NVIDIA

Este manual estabelece um precedente perigoso. As grandes empresas de tecnologia podem agora reunir aquisições de fato por meio de licenças de propriedade intelectual, integrações exclusivas e aquisições em massa, todas estruturadas para escapar das definições clássicas de fusões. A legislação antitruste, ainda ajustada para ferrovias e empresas de telefonia, acaba de ser superada por uma empresa que entende igualmente bem de códigos e contratos.

Uma Casca Oca ou um Novo Começo para a Groq?

Ilustração: Uma Casca Vazia ou um Novo Começo para a Groq?
Ilustração: Uma Casca Vazia ou um Novo Começo para a Groq?

A Groq acorda na manhã seguinte a um acordo de 20 bilhões de dólares como um paradoxo: um jogador repentinamente rico em caixa e estrategicamente importante que acaba de perder sua mente. O novo CEO Simon Edwards agora comanda uma empresa cuja propriedade intelectual de chip principal opera sob uma licença não exclusiva com a NVIDIA, enquanto a maioria das pessoas que o projetou agora está vestindo jaquetas verdes em Santa Clara.

A joia restante da Groq é o GroqCloud, a plataforma de inferência hospedada que expõe seu hardware LPU como uma API. Esse serviço já atraiu desenvolvedores com demonstrações de latência 2 a 3 vezes mais baixa na inferência de modelos de linguagem grande em comparação com pilhas de GPU, e ainda controla seus relacionamentos com os clientes, faturamento e roadmap. Em um mercado onde todos alugam poder computacional por token, e não por transistor, essa camada de abstração é importante.

No entanto, a GroqCloud agora opera em uma estranha órbita competitiva. A NVIDIA pode expor a mesma propriedade intelectual LPU licenciada por meio de seus próprios parceiros de nuvem e plataformas DGX, enquanto a Groq tenta se diferenciar em software, ferramentas e experiência do desenvolvedor. Se a NVIDIA reduzir preços ou incluir inferência baseada em LPU em suas ofertas existentes de GPU, a GroqCloud corre o risco de se tornar a versão boutique de sua própria tecnologia.

A gravidade do talento representa um problema ainda maior. Jonathan Ross, Sunny Madra e uma massa crítica de arquitetos seniores agora fazem parte da estrutura organizacional da NVIDIA, não da Groq. Recrutar engenheiros de silício e sistemas de alto nível para uma empresa que acaba de ver sua propriedade intelectual definidora sair pela porta exigirá uma nova tese convincente, e não nostalgia pelos dias de glória do LPU.

A Groq pode tentar se transformar em uma plataforma de inferência em IA de puro desempenho, focando em abstrações de nível superior: tempos de execução gerenciados, streaming ultrabaixo de latência, cargas de trabalho especializadas como dados de ticks financeiros ou jogos multiplayer. Também poderia buscar clientes em edge e on-premises que desconfiam dos hiperescaladores e desejam um fornecedor menor e mais flexível.

A viabilidade a longo prazo depende de saber se a Groq consegue entregar algo genuinamente novo que a NVIDIA não consiga copiar ou distribuir imediatamente. Se o GroqCloud se tornar apenas um front-end de marca para uma tecnologia que a NVIDIA controla e comercializa de forma eficaz em escala global, a Groq corre o risco de se tornar uma nota de rodapé histórica—uma solução regulatória inteligente na ascensão da NVIDIA à dominância em inferência. Se Edwards conseguir transformar essa independência difícil em um laboratório para ideias mais rápidas e estranhas, a Groq ainda pode ter importância no próximo ciclo de hardware.

A Virada da NVIDIA: De Rei das GPUs a Imperador do Silício em IA

A NVIDIA acabou de parar de fingir que é uma empresa de GPUs. Uma aposta de $20 bilhões na arquitetura LPU da Groq, estruturada como um acordo de licenciamento mais um ataque de talentos, sinaliza uma mudança para possuir cada parte crítica do silício de IA, desde o primeiro token até a resposta final. As GPUs construíram a explosão da IA; aceleradores hiperespecializados são como a NVIDIA planeja dominar seu segundo ato.

Em vez de um contrato de troféu pontual, isso parece ser a fase um de uma captura mais ampla de silício de IA. A NVIDIA já vende H100s e B200s para treinamento, Grace Hopper para cargas de trabalho limitadas por memória e silício de rede da aquisição da Mellanox. A propriedade intelectual da Groq preenche a peça que faltava: inferência determinística de ultra-baixa latência em escala.

Os rivais vêm executando essa estratégia internamente há anos. O Google construiu TPUs para escapar dos gargalos de GPU em seus data centers. A Amazon lançou o Trainium e o Inferentia para otimizar os custos no AWS. O Neural Engine da Apple transformou cada iPhone em uma caixa de inferência local. O movimento da NVIDIA diz: em vez de perder cargas de trabalho para esses chips customizados, ela irá igualar-se a eles com seu próprio portfólio especializado.

A NVIDIA agora persegue uma pilha que parece menos com “GPUs em todo lugar” e mais como um cardápio de silício para cada fase da IA: - Treinamento: GPUs de alto rendimento e aceleradores adjacentes a GPUs - Ajuste fino: componentes otimizados para memória e de precisão mista - Inferência: LPUs e outros designs obsessivos por latência - Rede e interconexão: NVLink, InfiniBand, switches personalizados

A economia da inferência impulsiona essa mudança. O treinamento acontece ocasionalmente; a inferência opera 24 horas por dia, 7 dias por semana, em bilhões de consultas. Os aumentos de 2 a 3 vezes relatados pela Groq em benchmarks chave de inferência, combinados com execução determinística, se traduzem diretamente em custos mais baixos por token e margens mais altas para provedores de nuvem e empresas.

Os reguladores podem ver um acordo de licenciamento; os clientes verão um roteiro unificado de hardware da NVIDIA. Ao trazer Jonathan Ross e grande parte da equipe de engenharia de ponta da Groq para dentro de casa, enquanto licencia IP não exclusivo, a NVIDIA ganha o conhecimento e os projetos sem desencadear uma batalha antitruste em grande escala. A Groq sobrevive como uma marca, mas a NVIDIA controla o centro gravitacional.

A NVIDIA também aprofunda seu diferencial como a "escolha padrão" para infraestrutura de IA. Se conseguir oferecer uma única pilha de software—CUDA, TensorRT, Triton—em GPUs, LPUs e o que vier a seguir, a mudança para TPU do Google, Trainium da AWS ou ASICs personalizados se torna ainda mais difícil. Diversidade de hardware, bloqueio de software.

Visto nesse contexto, o acordo com a Groq parece menos oportunismo e mais como a redação de uma constituição. A NVIDIA está se posicionando como a camada de hardware fundamental da IA, o substrato de silício sob cada chatbot, co-piloto e agente autônomo. Para quem está atento aos detalhes, A NVIDIA Anuncia Acordo de Licenciamento Estratégico com a Groq para Acelerar a Inferência de IA é menos um comunicado de imprensa e mais uma declaração de império.

Seu Futuro em IA Acabou de Ficar Incrivelmente Mais Rápido

Seus aplicativos de IA acabaram de ganhar silenciosamente um roteiro para eliminar suas barras de carregamento. O acordo de $20 bilhões da NVIDIA com a Groq tem como alvo o exato momento em que você sente a IA: a pausa entre pressionar enter e receber uma resposta. Essa pausa é a inferência, e a arquitetura LPU da Groq existe para acabar com isso.

Os maiores modelos de hoje costumam responder em 30 a 800 ms por token, dependendo do hardware e da rede. O hardware da Groq já demonstrou uma inferência 2 a 3 vezes mais rápida em benchmarks chave, com algumas demonstrações públicas transmitindo tokens a centenas de tokens por segundo. Junte isso à pilha da NVIDIA e você obtém chatbots que parecem menos um site e mais uma conversa.

Assistentes em tempo real deixam de ser uma frase de marketing e passam a se comportar como uma chamada de sistema. Imagine: - Um assistente de voz que responde em menos de 50 ms, indistinguível de uma interrupção humana - Tradução ao vivo que acompanha a fala rápida sem buffering constrangedor - NPCs em jogos que improvisam diálogos e estratégias a cada quadro, não a cada cena

A IA no dispositivo está prestes a se beneficiar a seguir. À medida que a NVIDIA expande a inferência no estilo Groq para silício mais eficiente, você pode transferir mais trabalho dos GPUs em nuvem para chips locais. Isso significa que resumos complexos, pesquisas em múltiplos documentos ou compreensão de vídeos podem ser executados em um laptop, console ou painel de carro com uma latência percebida quase inexistente.

Os desenvolvedores obtêm o maior desbloqueio criativo. Quando a latência cai de centenas de milissegundos para dezenas, você pode encadear mais modelos, executar mais agentes em paralelo e manter ciclos de interação apertados sem que os usuários desistam. Categorias inteiras—copilotos de IA dentro de IDEs, assistentes de pesquisa em tempo real, sistemas de tutoria adaptativa—de repente parecem viáveis em escala, em vez de apenas demonstrações tecnológicas.

A menor latência também se combina com o custo. Silício de inferência mais rápido e especializado significa mais consultas por watt e por dólar. Isso incentiva os desenvolvedores a implementar recursos que seriam muito caros para manter "sempre ativos", como raciocínio em segundo plano, monitoramento contínuo de documentos ou memória persistente de NPCs em mundos online massivos.

A concorrência não vai ficar parada. A AMD, Intel, Google e uma enxurrada de startups agora têm um sinal de 20 bilhões de dólares de que a inferência ultra-rápida é o campo de batalha. Essa corrida armamentista em hardware de IA não só tornará os modelos mais inteligentes; ela trará uma IA realmente instantânea e ambiente para dispositivos mainstream anos antes do previsto.

Perguntas Frequentes

A NVIDIA realmente comprou a empresa Groq?

Não. A NVIDIA estruturou um acordo de $20 bilhões para licenciar a propriedade intelectual da Groq de forma não exclusiva e contratar seus talentos-chave, incluindo o fundador Jonathan Ross. Isso permite que a Groq permaneça uma empresa independente, principalmente para evitar regulamentações antitruste.

O que é um Groq LPU e como ele é diferente de uma GPU da NVIDIA?

Uma LPU, ou Unidade de Processamento de Linguagem, é um chip personalizado projetado especificamente para inferência de IA — a tarefa de executar modelos de IA para obter respostas. As GPUs são mais versáteis e tradicionalmente se destacam no treinamento de IA, que é um processo diferente e mais intensivo em computação.

Por que a inferência de IA é mais importante do que o treinamento de IA para a receita?

Enquanto treinar um modelo é uma tarefa massiva e pontual ou ocasional, a inferência ocorre toda vez que um usuário faz uma pergunta ou utiliza uma funcionalidade de IA. Com bilhões de pessoas usando IA diariamente, o número de operações de inferência superará exponencialmente as operações de treinamento, tornando-se a maior fonte de receita escalável a longo prazo.

Quem é Jonathan Ross?

Jonathan Ross é o fundador da Groq e o inventor da sua tecnologia LPU. Antes de iniciar a Groq, ele foi um engenheiro chave no Google, onde inventou a Unidade de Processamento Tensorial (TPU), o chip de IA personalizado do Google.

Frequently Asked Questions

Uma Casca Oca ou um Novo Começo para a Groq?
See article for details.
A NVIDIA realmente comprou a empresa Groq?
Não. A NVIDIA estruturou um acordo de $20 bilhões para licenciar a propriedade intelectual da Groq de forma não exclusiva e contratar seus talentos-chave, incluindo o fundador Jonathan Ross. Isso permite que a Groq permaneça uma empresa independente, principalmente para evitar regulamentações antitruste.
O que é um Groq LPU e como ele é diferente de uma GPU da NVIDIA?
Uma LPU, ou Unidade de Processamento de Linguagem, é um chip personalizado projetado especificamente para inferência de IA — a tarefa de executar modelos de IA para obter respostas. As GPUs são mais versáteis e tradicionalmente se destacam no treinamento de IA, que é um processo diferente e mais intensivo em computação.
Por que a inferência de IA é mais importante do que o treinamento de IA para a receita?
Enquanto treinar um modelo é uma tarefa massiva e pontual ou ocasional, a inferência ocorre toda vez que um usuário faz uma pergunta ou utiliza uma funcionalidade de IA. Com bilhões de pessoas usando IA diariamente, o número de operações de inferência superará exponencialmente as operações de treinamento, tornando-se a maior fonte de receita escalável a longo prazo.
Quem é Jonathan Ross?
Jonathan Ross é o fundador da Groq e o inventor da sua tecnologia LPU. Antes de iniciar a Groq, ele foi um engenheiro chave no Google, onde inventou a Unidade de Processamento Tensorial , o chip de IA personalizado do Google.
🚀Discover More

Stay Ahead of the AI Curve

Discover the best AI tools, agents, and MCP servers curated by Stork.AI. Find the right solutions to supercharge your workflow.

Back to all posts