TL;DR / Key Takeaways
A Decepção de 20 Bilhões de Dólares
As manchetes gritando que a NVIDIA “comprou” a Groq por 20 bilhões de dólares fazem boas miniaturas, mas perdem o ponto. Não se trata de uma aquisição simples onde uma empresa desaparece na outra. É um acordo de licenciamento não exclusivo cuidadosamente elaborado, acompanhado por uma migração maciça de pessoas.
A NVIDIA não possui a estrutura corporativa da Groq. Em vez disso, ela garante uma licença para a tecnologia de inferência de alto rendimento da Groq e contrata o fundador Jonathan Ross, o presidente Sunny Madra e uma massa crítica de engenheiros seniores. A Groq mantém sua marca, o serviço GroqCloud e uma estrutura mínima sob o novo CEO Simon Edwards.
Essa distinção é importante. Uma aquisição completa acionaria um exame antitruste muito mais agressivo para uma empresa que já controla cerca de 80–90% do mercado de GPU para data centers. Um acordo de licença com aquisição de talento dá à NVIDIA a maior parte da vantagem—acesso à propriedade intelectual, arquitetos de chip, neutralização da concorrência—sem a carga regulatória.
Essa estrutura também reformula o futuro da Groq. No papel, a Groq continua sendo um concorrente independente em chips de inferência especializados. Na prática, seu núcleo de P&D de ponta sai pela porta, e sua tecnologia mais valiosa agora ajuda a reforçar a NVIDIA em vez de erosioná-la.
As grandes tecnologias aprimoraram esse manual nos últimos dois anos. O acordo de $650 milhões da Microsoft com a Inflection AI, o suposto negócio de $2,7 bilhões do Google envolvendo a Character.AI, e a captura de talentos da Amazon da Adept seguem todos o mesmo padrão: - Licenciar a tecnologia - Contratar os fundadores e a equipe - Deixar para trás uma startup "independente" enfraquecida
Os reguladores ainda veem um campo pontilhado de logotipos, mas a verdadeira competição já se consolidou. Os investidores obtêm retornos modestos de 1 a 1,5x em vez da fantasia de venture de 5 a 10x, enquanto as startups que apoiaram correm o risco de se tornarem “conchas zumbis” forçadas a se aventurar em nichos estreitos e não ameaçadores.
Essa manobra de US$ 20 bilhões sinaliza como a próxima fase da corrida armamentista de IA será conduzida. Os incumbentes não vão sempre comprar seus rivais diretamente; eles os esvaziarão por meio de contratos e propostas, para então apontar para as cascas sobreviventes como prova de que o mercado continua vibrante.
Anatomia de uma Aquisição Corporativa
O ataque corporativo mal se resume a isso. A NVIDIA assegura as joias da coroa da Groq: Jonathan Ross, o arquiteto de TPU que ajudou a definir os chips personalizados de IA do Google; Sunny Madra, o presidente que transformou a Groq em uma verdadeira concorrente em inferência; e uma licença não exclusiva da arquitetura LPU da Groq. Adicione liderança técnica sênior e anos de trabalho em compiladores, runtime e sistemas, e a NVIDIA efetivamente compra um atalho por uma década de P&D.
A Groq, no papel, sobrevive. O serviço de inferência GroqCloud continua em funcionamento, a marca Groq persiste e uma entidade corporativa enxuta permanece independente sob um novo CEO. O que resta se parece mais com um artefato de conformidade do que com uma empresa em crescimento: um conselho, alguns engenheiros e músculo operacional suficiente para evitar chamar isso de fechamento.
A estrutura do negócio demonstra uma precisão quase cirúrgica. A NVIDIA evita a confusão de uma fusão completa—sem necessidade de consolidar finanças, assumir responsabilidades de longo prazo ou acionar os mesmos gatilhos antitruste que derrubaram sua oferta de US$ 40 bilhões pela Arm em 2022. Em vez disso, ela obtém os três ativos que realmente importam nas guerras de hardware de IA: - Pessoas-chave - Acesso ao IP central - Remoção de um concorrente futuro credível
O lado da Groq é muito diferente. Os investidores obtêm liquidez através de um pacote de licenças e incentivos de $20 bilhões, mas a maior parte do potencial de crescimento sai pela porta com a NVIDIA, junto com Ross e sua equipe. O que permanece agora deve construir um futuro sem o visionário original, sem o mesmo motor de P&D em fronteira e com as suas melhores ideias parcialmente produto dentro do fornecedor dominante de GPUs.
Chame isso de transferência de valor, e não de troca de valor. O dinheiro flui em uma direção, mas a alavancagem estratégica flui na outra, concentrando-se na já dominante posição da NVIDIA de 80–90% no mercado de GPUs para data centers. A entidade remanescente da Groq possui uma marca e um serviço de nuvem; a NVIDIA detém o talento, a influência do roadmap e a capacidade de integrar as vantagens arquitetônicas da Groq em seu próprio ecossistema em larga escala.
O Playbook do 'Acqui-hire Reverso'
Chame isso de acqui-hire reverso: em vez de comprar toda a empresa para obter as pessoas, uma gigante escreve um enorme cheque para licenças, incentivos e "parcerias", enquanto o talento principal sai discretamente pela porta. A estrutura acionária permanece intacta no papel, mas a empresa real é esvaziada. O que parece um acordo comercial funciona como uma aquisição furtiva de mentes e planos.
Acqui-hires tradicionais são instrumentos contundentes. Uma grande empresa adquire a startup completamente, absorve a equipe e, ou descontinua ou entoca o produto. Os reguladores veem uma transação de fusão e aquisição limpa, as diretorias votam e todos apresentam a papelada. Acqui-hires reversos invertem esse roteiro ao manter a equidade e o controle corporativo tecnicamente separados enquanto relocam os únicos ativos que realmente importam.
O acordo da Microsoft com a Inflection AI em 2024 estabeleceu o modelo moderno. A Microsoft pagou cerca de 650 milhões de dólares por um contrato de licenciamento e um acordo de não concorrência, em seguida, contratou o cofundador Mustafa Suleyman, o cofundador Karén Simonyan e a maior parte da equipe para um novo grupo interno de IA. A Inflection mudou de um assistente de IA para consumidor para um produto empresarial muito menor, e os investidores supostamente saíram com apenas cerca de 1,1 a 1,5 vez o capital investido.
O Google seguiu com a Character.AI em 2024, concordando com um pacote de licenciamento e colaboração de US$ 2,7 bilhões, enquanto os cofundadores Noam Shazeer e Daniel De Freitas retornaram ao Google. A Character.AI desviou o foco de construir LLMs de fronteira para se concentrar em sua plataforma de chat para consumidores, enquanto o acordo gerou uma investigação do DOJ sobre se ele intencionalmente evitou a revisão da fusão. A Amazon fez um movimento similar com a Adept, contratando o CEO David Luan e fundadores chave, enquanto a Adept se retraiu para ferramentas empresariais mais “agentes”.
O acordo de US$ 20 bilhões da NVIDIA com a Grok se encaixa nesse padrão quase perfeitamente. Oficialmente, trata-se de uma licença de tecnologia de inferência não exclusiva, além de incentivos, com a Grok continuando a operar o GroqCloud sob um novo CEO. O anúncio Grok e NVIDIA Firmam Acordo de Licenciamento de Tecnologia de Inferência Não Exclusivo parece uma parceria; o fluxo de talentos e o acesso à propriedade intelectual parecem uma aquisição.
A motivação permanece consistente nessas transações. As empresas consolidadas buscam talentos inovadores, propriedade intelectual diferenciada e menos concorrentes credíveis, sem acionar alarmes antitruste ou lidar com integrações complexas. As startups conseguem um "aterrissagem suave" em vez de uma venda de liquidação em rodada baixa; os investidores de capital de risco recebem seu dinheiro de volta, talvez um pequeno prêmio, mas quase nunca os resultados de 3 a 10 vezes que seus modelos assumem.
Por que a tecnologia de inferência da Groq foi um alvo
As cargas de trabalho de IA se dividem em dois trabalhos muito diferentes. Treinamento cria um modelo, processando enormes conjuntos de dados em clusters de GPUs durante dias ou semanas. Inferência executa esse modelo finalizado milhões ou bilhões de vezes por dia, respondendo a solicitações, classificando feeds ou gerando vídeos em tempo real para os usuários finais.
O treinamento atrai manchetes, mas a inferência gera dinheiro. Cada resposta do ChatGPT, recomendação do TikTok ou chamada de copiloto empresarial é um pedido de inferência que consome energia e ciclos de hardware. À medida que o uso explode, os provedores de nuvem e os hiperescaladores se obsessam em economizar frações de centavo em cada consulta.
A Groq abordou diretamente esse problema com sua arquitetura LPU (Unidade de Processamento de Linguagem). Em vez de uma GPU flexível e massivamente paralela, a Groq construiu um chip determinístico, orientado por compilador, que executa gráficos de IA como um pipeline de fluxo de dados fixo. Sem caches, quase sem ramificações e com memória on-chip rigorosamente controlada, resultou em latência previsível e throughput extremamente alto.
Enquanto as GPUs NVIDIA equilibram treinamento e inferência, a Groq é otimizada apenas para executar modelos que já existem. Os benchmarks da Groq e de testadores independentes mostraram que sua LPU processa dezenas de milhares de tokens por segundo em grandes modelos de linguagem com latências de milissegundos de um dígito. Para certas cargas de trabalho de transformadores, o hardware da Groq ofereceu mais inferências por watt e por dólar do que as GPUs de data center da NVIDIA de ponta.
Essa diferença é importante em grande escala. Se a Groq conseguisse reduzir o custo de inferência em 30 a 50% para clientes importantes, plataformas de nuvem e grandes laboratórios de IA teriam um motivo convincente para desviar o tráfego dos GPUs da NVIDIA. Cada fluxo de token desviado corroeria o preço premium dos aceleradores H da NVIDIA nos datacenters.
O negócio de data center da NVIDIA já apresenta margens brutas superiores a 70%, impulsionadas por inferência baseada em GPU em modelos da OpenAI, Anthropic, Meta e outros. Uma alternativa independente e credível, com melhores condições econômicas, ameaçava não apenas as vendas de unidades, mas também o poder de precificação em toda a cadeia. A Groq não precisava "vencer" todo o mercado; apenas precisava ancorar as negociações.
Visto por essa perspectiva, o acordo de licença e talentos de $20 bilhões parece defensivo. A NVIDIA garante os principais arquitetos da Groq, ganha um controle não exclusivo sobre a propriedade intelectual do LPU e neutraliza um concorrente disruptivo de custo antes que os hyperscalers possam transformar a Groq em uma alavanca significativa contra sua franquia de GPUs para data centers.
O Criador de Reis: Por que Jonathan Ross é Importante
Jonathan Ross ocupa o centro deste negócio como um poço gravitacional. Como o principal arquiteto do primeiro TPU do Google, ele ajudou a dar início à era moderna dos aceleradores de IA personalizados, provando que os hyperscalers não precisavam viver e morrer por GPUs de mercado. O TPU v1, anunciado em 2016, ofereceu de 30x a 80x melhor desempenho por watt em cargas de trabalho de inferência em comparação com CPUs contemporâneas, e reformulou a economia interna do Google para busca, tradução e anúncios.
Groq foi a resposta de Ross para as limitações que viu naquela primeira onda de silício para IA. Enquanto TPUs e GPUs ainda lidam com fluxos de instruções complexos e hierarquias de memória, a arquitetura LPU da Groq buscou um determinismo focado: um enorme motor de fluxo de dados com agendamento estático que poderia processar tokens em modelos de linguagem a velocidades previsíveis e impressionantes. As demonstrações da Groq mostraram rotineiramente inferência de LLM medida em centenas de milhares de tokens por segundo, com latências tão estáveis que pareciam uma linha plana.
Ross apresentou a Groq como “primeiro em inferência” em um mundo obcecado por treinamento TOPS. Treinamento vende manchetes; inferência paga as contas da nuvem. Ao otimizar para cargas de trabalho de tamanho de lote um, com baixa latência—o que sustenta chatbots, copilotos e agentes em tempo real—, a Groq tentou ultrapassar aceleradores de uso geral e transformar a inferência em sua própria categoria de hardware. O argumento do LPU: menos ajustes, mais throughput, menos jitter.
A inclusão de Ross na NVIDIA representa um golpe estratégico. A empresa já domina GPUs para data centers, com estimativas apontando sua participação entre 80% e 90% do mercado, mas ainda se apoia em uma visão centrada em GPUs. Trazer o engenheiro que provou a viabilidade tanto dos TPUs quanto dos LPUs proporciona à NVIDIA um portfólio de paradigmas: GPU para flexibilidade, DPU para redes e agora um pensamento em silício de inferência no nível de Ross para consolidar sua posição.
Por trás da engenharia financeira, existe uma realidade contundente: a guerra do hardware de IA é uma luta por um pequeno número de pessoas. Você pode contar os arquitetos que conseguiram lançar aceleradores de IA de classe mundial—classe TPU, classe Cerebras, classe Groq—em talvez algumas dezenas de mãos. Quando a NVIDIA assina um cheque de 20 bilhões de dólares para licenças e incentivos, não está apenas comprando propriedade intelectual; está garantindo uma dessas mentes raras antes que um programa rival de nuvem ou de chip soberano possa fazê-lo.
A Barreira de Software Intransponível da Nvidia
CUDA, e não as GPUs, construiu a verdadeira fortaleza da NVIDIA. Lançado em 2007, CUDA transformou chips gráficos em computadores paralelos de propósito geral e ofereceu aos pesquisadores um modelo de programação estável muito antes de “acelerador de IA” se tornar um apelo de financiamento. Dezessete anos depois, quase todos os frameworks de aprendizado profundo, do PyTorch ao TensorFlow, tratam o CUDA como o alvo padrão.
Aquela aposta inicial criou uma dependência brutal de trajetória. Uma vez que milhares de laboratórios, pesquisadores e startups escreveram núcleos, tutoriais e materiais de curso em torno do CUDA, todo novo projeto tinha um poderoso incentivo para permanecer nesse universo. Cada artigo otimizado para CUDA adicional, repositório no GitHub ou notebook no Kaggle reforçava a escolha para a próxima equipe.
Os efeitos de rede agora abrangem toda a pilha de IA. As universidades ensinam "programação em GPU", mas se referem ao CUDA; inúmeros MOOCs e livros didáticos incorporam código CUDA. Bibliotecas de código aberto como cuDNN, NCCL e TensorRT sustentam sistemas de produção no Google, Meta, OpenAI e quase todos os provedores de nuvem.
Mudar de plataforma significa mais do que apenas recompilar. Uma saída séria do CUDA requer: - Reescrever ou substituir milhares de kernels personalizados - Reposicionar engenheiros e revisar processos de contratação - Revalidar modelos e infraestrutura para novas ferramentas
Para um hyperscaler que gasta bilhões anualmente em NVIDIA H100s e H200s, isso representa uma migração de vários anos e centenas de milhões de dólares. Mesmo para uma startup bem financiada, mudar para uma pilha concorrente como ROCm ou um SDK sob medida pode atrasar os planos de produto e comprometer os SLAs com os clientes.
Hardware arquitetonicamente superior ainda esbarra nesse obstáculo. O motor em escala de wafer da Cerebras, os LPUs da Groq e uma onda de ASICs de inferência podem apresentar benchmarks impressionantes, mas precisam ou emular CUDA, suportar CUDA por meio de camadas de tradução, ou convencer os desenvolvedores a aprender mais uma API de baixo nível. Cada camada de indirection adiciona latência, complexidade ou recursos ausentes.
Enquanto isso, a NVIDIA continua aprofundando a vala. O CUDA agora se estende para domínios verticais: cuQuantum para física, cuOpt para logística, cuGraph para análises, além de uma integração estreita com Kubernetes, Slurm e todas as principais nuvens. Cada nova biblioteca reduz a área em que alternativas podem se diferenciar.
É por isso que negócios como a compra pela Nvidia dos ativos da startup de chips de IA Groq por cerca de US$ 20 bilhões, a maior negociação registrada, importam menos pelo silício bruto e mais por quem se conectará ao CUDA a seguir. Os concorrentes não estão apenas lutando por um chip; eles estão lutando contra um mar de software de 17 anos.
O Último Chip em Pé? O Gambito da Cerebras
A Cerebras está situada em um campo que se estreita rapidamente de startups independentes de silício para IA que ainda não foram incorporadas a um hiperescalador ou a um gigante de GPUs. Enquanto Groq, Habana Labs e Nervana Systems acabaram como cascas ou ativos absorvidos, Cerebras Systems avançou em direção a um IPO e permaneceu estruturalmente independente, respaldada por centenas de milhões em financiamento de capital de risco e contratos governamentais.
Em vez de seguir o manual de GPUs da NVIDIA, a Cerebras construiu um processador do tamanho de um prato de jantar chamado Wafer-Scale Engine. A versão 3 do chip recorta uma inteira wafer de silício de 300 mm em um único dispositivo, reunindo centenas de milhares de núcleos e eliminando a teia de conexões PCIe e pontes NVLink que normalmente conectam racks de GPUs.
Os clusters de GPU tradicionais consomem desempenho ao transferir tensores entre placas e nós; o design da Cerebras mantém tudo em um único wafer. Ao colapsar a comunicação entre chips em roteamento na própria placa, a empresa afirma obter ganhos massivos em largura de banda, latência e utilização para modelos grandes que, de outra forma, passam ciclos aguardando a movimentação de dados.
Em vez de lutar contra a CUDA em seu próprio território, a Cerebras foi para onde a dependência do ecossistema importa menos: laboratórios nacionais, defesa e projetos de IA soberana. Clientes como os Laboratórios Nacionais Argonne, Lawrence Livermore e Sandia se preocupam muito mais com a capacidade de processamento bruto, localidade de dados e controle local do que com a compatibilidade das operações do PyTorch com um núcleo de GPU.
Esses compradores já executam tarefas personalizadas—modelos climáticos, simulações nucleares, sistemas de linguagem classificados—portanto, mover o código para um novo acelerador parece um erro de arredondamento em comparação com os ganhos de desempenho e segurança. A Cerebras vende sistemas completos CS-3 como equipamentos, efetivamente supercomputadores em um gabinete dedicados ao treinamento de IA e HPC.
Para contornar o fosso do CUDA para todos os outros, a Cerebras se concentrou fortemente em um modelo de Inferência como um Serviço. Em vez de pedir aos desenvolvedores que reescrevam kernels, ela expõe uma API hospedada onde você envia prompts e recebe tokens de volta, a mesma abstração básica que a OpenAI ou a Anthropic.
Essa camada de API transforma o hardware em escala de wafer em um detalhe de implementação. As empresas compram garantias de latência, capacidade de processamento e residência de dados, enquanto a Cerebras, em silêncio, troca seu próprio silício por trás dos panos, evitando a necessidade de vencer a guerra de ferramentas para desenvolvedores que a NVIDIA já domina.
Silício vs. Software: O Verdadeiro Campo de Batalha
Inovadores de silício continuam esbarrando no mesmo iceberg: gravidade do software. A Cerebras pode fabricar um wafer do tamanho de um prato de jantar com 2 trilhões de transistores e uma largura de banda de petabytes por segundo, mas ainda precisa convencer os desenvolvedores a abandonarem scripts do PyTorch que já funcionam em GPUs da NVIDIA com uma única alteração de configuração.
A história mostra como isso geralmente termina. O Betamax entregou uma qualidade de vídeo melhor do que o VHS, mas o VHS venceu porque estúdios, locadoras e parceiros de hardware padronizaram-se nele. O Mac OS, tecnicamente elegante da Apple, e o hardware PowerPC perderam os anos 90 para o Windows em caixas x86 bege porque os desenvolvedores seguiram a base de instalação maior e as ferramentas mais sofisticadas.
O mobile repetiu o padrão. O WebOS e o BlackBerry 10 lançaram sistemas de multitarefa e gestos à frente de seu tempo, mas iOS e Android os esmagaram ao oferecer: - Lojas de aplicativos maiores - Melhores SDKs e documentação - Monetização mais previsível
O hardware de IA agora se encontra na mesma encruzilhada. Cerebras, Groq e Tenstorrent impulsionam arquiteturas inovadoras—motores de wafer-scale, LPUs, aceleradores RISC-V—enquanto a NVIDIA investe pesado em CUDA, cuDNN, TensorRT e integração estreita com PyTorch/TensorFlow. Um lado vende FLOPs brutos e layouts engenhosos; o outro oferece um caminho quase sem atrito da pesquisa acadêmica para o cluster de produção.
Desenvolvedores otimizam para o tempo de resultado, não para a elegância teórica. Se um estudante de pós-graduação pode pegar um modelo open-source, instalar alguns pacotes com pip e alcançar 90% do desempenho máximo em um H100 em uma tarde, a alternativa precisa ser dramaticamente melhor para justificar novas ferramentas, depuradores e fluxos de trabalho de implementação. "2x mais rápido" no papel muitas vezes perde para "funciona com nosso pipeline CI existente."
A interoperabilidade se torna uma arma. A pilha da NVIDIA abrange: - CUDA no nível do kernel - cuDNN e cuBLAS para primitivas - TensorRT e Triton Inference Server para implantação - DGX e DGX Cloud para clusters prontos para uso
Essa integração vertical significa que cada nova estrutura, do JAX ao Mojo, trata o CUDA como o alvo padrão. O silício concorrente tem que emular esse ambiente ou construir um universo paralelo de ferramentas, drivers e bibliotecas—um enorme ônus tanto para os fornecedores quanto para os usuários.
A dominância no mercado de IA dependerá menos de quem lança o chip mais peculiar e mais de quem possui a pilha de desenvolvimento de ponta a ponta. Aceleradores de silício são importantes, mas o controle sobre compiladores, ambientes de execução, orquestração e integrações com a nuvem decide onde os próximos milhões de modelos serão treinados e servidos.
O Preço de uma Tabela Limpa
A consolidação do mercado de hardware de IA não parece mais abstrata; parece um tabuleiro de xadrez limpo. A NVIDIA já controla cerca de 80–90% do mercado de GPUs para data centers, e acordos como o da Groq, no valor de 20 bilhões de dólares, apagam discretamente uma das poucas peças independentes restantes sem ativar os clássicos alarmes antitruste.
Estruturas de acqui-hire reverso criam um novo padrão desalentador para fundadores ambiciosos de hardware. Se o melhor "exit" é um retorno de 1 a 1,5 vezes e um lento desaparecimento para o status de "startup zumbi", o movimento racional para o capital de risco é financiar software em cima do CUDA, e não silício rival que pode ser desativado cirurgicamente antes de representar uma ameaça à NVIDIA.
Essa mudança importa porque o hardware de IA é intensivo em capital e demora a amadurecer. Sete anos e centenas de milhões de dólares podem agora resultar em: - Equipe principal extraída - Propriedade intelectual licenciada - Marca deixada para trás como um disfarce
Para os fundadores, esse manual reduz a janela de Overton do que conta como hardware "financiável". Por que financiar outra Groq ou Habana Labs quando o resultado provável é uma rendição negociada ao incumbente, e não um IPO independente como o que a Cerebras está buscando com seu motor em escala de wafer?
Os consumidores e as empresas acabam pagando o preço. Menos concorrentes credíveis significam preços mais altos para os aceleradores, listas de espera mais longas para capacidade e um bloqueio mais profundo de fornecedores nos sistemas CUDA, DGX e nos parceiros de nuvem da NVIDIA, da Amazon à Oracle.
Uma vez que a pesquisa e desenvolvimento de fronteira de uma startup é absorvida, a estrutura remanescente raramente impulsiona o mercado. A GroqCloud pode continuar oferecendo inferência, mas sem Jonathan Ross e a equipe original, suas chances de lançar uma LPU de próxima geração disruptiva despencam.
Os reguladores veem um campo que ainda parece lotado: a Groq ainda existe, a Cerebras ainda vende hardware, provedores de nuvem constroem chips internos. No entanto, a real ameaça competitiva—as equipes e a propriedade intelectual que poderiam reduzir as margens da NVIDIA ou erosionar a proteção do CUDA—migre silenciosamente para dentro das empresas.
A cobertura como a de NVIDIA "Adquire" Groq captura essa habilidade de ilusão: a ilusão de competição persiste no papel enquanto as verdadeiras peças do jogo se consolidam sob um único logo. O tabuleiro parece movimentado, mas o resultado se torna cada vez mais predeterminado.
A Dominância da Nvidia Pode Ser Quebrada?
O domínio da NVIDIA no hardware de IA parece absoluto: 80-90% dos aceleradores de data center, uma pilha CUDA de 17 anos e agora um controle efetivo sobre as melhores ideias da Groq. No entanto, os monopólios na tecnologia raramente permanecem contestados para sempre; eles se erosam pelas bordas, geralmente por meio de software.
Uma alternativa credível e aberta ao CUDA surgiria primeiro. Chame-a de “Linux para IA”: uma pilha unificada de código aberto para treinamento e inferência que funciona de forma eficiente em qualquer coisa—CPUs, TPUs, ASICs personalizados, até mesmo coisas inusitadas como o motor de escala de wafer da Cerebras. Peças já existem no mercado: PyTorch, JAX, Triton, MLIR, TVM, ROCm, oneAPI.
Para que isso tenha importância, os hyperscalers precisam se alinhar. Imagine o Google, a Amazon, a Microsoft e a Meta concordando com um runtime de baixo nível e uma biblioteca de kernel comuns, e depois distribuindo isso em todos os lugares: suas nuvens, equipamentos no local e até caixas de borda. Se os desenvolvedores puderem direcionar um stack aberto e obter desempenho de primeira linha em silício não NVIDIA, a dependência do CUDA começará a parecer um imposto, e não uma default.
Os hyperscalers também têm todos os motivos financeiros para reduzir a dependência. Treinar modelos de ponta em clusters H100 e B200 custa bilhões anualmente em capex e energia. Os aceleradores TPU v5e do Google, Trainium e Inferentia da AWS, e Maia da Microsoft existem por uma razão: recuperar margem dos mais de 70% de lucro bruto da NVIDIA.
Esses chips internos ainda dependem fortemente de abstrações da era CUDA — XLA, compiladores personalizados e camadas de tradução que os fazem “parecer” GPUs para os desenvolvedores. Um stack aberto compartilhado permitiria que os hyperscalers trocassem seu próprio silício sem reescrever cada modelo, enquanto negociavam discretamente preços melhores com a NVIDIA, porque finalmente têm opções de saída credíveis.
Os reguladores ficam em segundo plano como o instrumento contundente. O DOJ já bloqueou o acordo de US$ 40 bilhões da NVIDIA com a Arm em 2022 e está investigando estruturas similares de “aquisicão reversa” no Google. Um mundo onde a NVIDIA controla o hardware dominante, o software dominante e a propriedade intelectual de qualquer rival sério parece feito sob medida para o escrutínio antitruste.
A ação antitruste raramente cria tecnologias melhores, mas pode comprar tempo. Para a Cerebras, os vestígios da Groq e a próxima geração de startups de chips, esse espaço para respirar pode ser a única chance restante de construir algo forte o suficiente para competir com a gravidade do CUDA.
Perguntas Frequentes
A Nvidia realmente adquiriu a Groq por 20 bilhões de dólares?
Não. A Nvidia estruturou um acordo de US$ 20 bilhões para uma licença de tecnologia não exclusiva e para contratar o talento essencial da Groq, incluindo seu fundador. A Groq permanece uma empresa tecnicamente independente, mas seu valor central foi extraído.
O que é um 'reverse acqui-hire'?
É uma estratégia em que uma grande empresa contrata o talento chave e licencia a propriedade intelectual de uma startup, sem uma aquisição formal. Isso evita o escrutínio regulatório enquanto neutraliza um potencial concorrente, frequentemente deixando a startup como um 'zumbi'.
Por que a Groq foi considerada uma ameaça à Nvidia?
A Groq se especializa em inferência de IA de alta velocidade e baixa latência com sua arquitetura única de LPU (Unidade de Processamento de Linguagem). Essa tecnologia poderia ter desafiado a dominância da Nvidia no mercado de inferência, que se torna cada vez mais crítico.
Quem é Jonathan Ross e por que ele é importante?
Jonathan Ross é o fundador da Groq e o arquiteto original da TPU (Unidade de Processamento Tensor) do Google. Ao contratá-lo, a Nvidia adquiriu um dos principais designers de chips de IA do mundo, impedindo que concorrentes aproveitassem sua expertise.