Skip to content

A IA da Xiaomi é Impossivelmente Rápida

A Xiaomi acaba de lançar um modelo de IA que gera mais de 1.000 tokens por segundo em GPUs padrão, superando o GPT-4. Este avanço no 'codesign modelo-sistema' pode mudar fundamentalmente as aplicações de IA em tempo real.

Nora Vance
Hero image for: A IA da Xiaomi é Impossivelmente Rápida

Resumo / Pontos-chave

  • A Xiaomi acaba de lançar um modelo de IA que gera mais de 1.000 tokens por segundo em GPUs padrão, superando o GPT-4.
  • Este avanço no 'codesign modelo-sistema' pode mudar fundamentalmente as aplicações de IA em tempo real.

A Barreira dos Mil Tokens Foi Quebrada

Xiaomi, em colaboração com o parceiro de sistemas TileRT, revelou o modelo **MiMo V2.5 Pro UltraSpeed**, uma IA Mixture-of-Experts (MoE) de 1 trilhão de parâmetros. Este novo concorrente quebra os benchmarks anteriores para a velocidade de inferência de modelos de linguagem grandes. Sua principal afirmação: gerar texto a mais de 1.000 tokens por segundo, com algumas demonstrações atingindo picos próximos a 1.200 TPS.

Para colocar isso em perspectiva, modelos de ponta atuais como GPT-4 ou Claude 4 Opus geralmente entregam cerca de 50-60 tokens por segundo. Isso frequentemente resulta em atrasos perceptíveis no raciocínio para tarefas complexas. O desempenho do MiMo V2.5 Pro UltraSpeed representa um aumento impressionante de 15 a 20 vezes, um salto de ordem de magnitude que redefine fundamentalmente os limites práticos da interação e capacidade da IA em tempo real.

O que torna esta conquista particularmente disruptiva é sua pegada de hardware notavelmente modesta. Em vez de depender de silício especializado e personalizado ou de grandes data centers, este gigante de um trilhão de parâmetros opera eficientemente em infraestrutura padrão e prontamente disponível. Ele funciona em um único servidor equipado com apenas oito commodity GPUs, demonstrando um nível sem precedentes de codesign e otimização modelo-sistema para implantação generalizada.

Por Dentro da Pilha de Velocidade de Três Camadas

O MiMo V2.5 Pro UltraSpeed da Xiaomi atinge seus impressionantes mais de 1.000 tokens por segundo através de um "codesign modelo-sistema extremo", atacando a latência de três ângulos sincronizados. A primeira camada aborda a largura de banda da memória, um gargalo crítico para um modelo Mixture-of-Experts de 1 trilhão de parâmetros. A Xiaomi implementou a MXFP4 Quantization, comprimindo os parâmetros do MoE Expert para 4 bits. Isso aliviou significativamente a pressão da memória, enquanto o Quantization-Aware Training (QAT) preservou a precisão quase idêntica do modelo, mantendo maior precisão nas camadas de roteamento centrais.

Em segundo lugar, o modelo mudou radicalmente a previsão de tokens com a DFlash speculative decoding. Ao contrário dos métodos padrão que adivinham tokens um por um, o DFlash prevê um bloco inteiro de tokens ocultos simultaneamente através de uma passagem direta paralela. Isso permite que o modelo dê "saltos massivos de oito tokens para frente". Para tarefas de codificação, o modelo principal aceita uma média de 6,3 de cada oito tokens que o DFlash adivinha, acelerando drasticamente a saída.

Finalmente, a terceira camada elimina as pausas em nível de microssegundos inerentes à execução da GPU. A TileRT, parceira de sistemas da Xiaomi, desenvolveu um tempo de execução de persistent GPU kernel que permanece residente na GPU. Usando a especialização de warp, ele atribui funções permanentes às seções de hardware, permitindo movimento de dados, computação e comunicação simultâneos. Isso garante que o pipeline de execução literalmente nunca pare, mantendo um impulso contínuo para uma velocidade incomparável.

Testes no Mundo Real: Velocidade Incrível, Código Frágil

O MiMo V2.5 Pro UltraSpeed da Xiaomi demonstra uma taxa de transferência bruta surpreendente em testes controlados. Um desafio difícil do LeetCode viu o modelo Mixture-of-Experts atingir um pico impressionante de 3.451 tokens por segundo, gerando código complexo em velocidades nunca antes vistas para um modelo de 1 trilhão de parâmetros. Em outra demonstração impressionante, ele construiu rapidamente um jogo funcional em Three.js em menos de um minuto, mostrando sua capacidade de traduzir prompts em aplicações funcionais com velocidade notável.

No entanto, esta velocidade impressionante frequentemente vem com ressalvas significativas. Ao lidar com tarefas mais complexas e de várias etapas, o MiMo V2.5 Pro UltraSpeed frequentemente exibia falhas críticas. Tentativas de gerar uma página web explicativa de matemática abrangente, no estilo Khan Academy, por exemplo, resultaram em saídas congeladas e contexto completamente perdido, interrompendo a geração inteiramente após apenas alguns minutos. Mesmo quando simplificado, o código resultante frequentemente apresentava funcionalidade quebrada, com apenas as seções iniciais funcionando de forma confiável, enquanto os componentes posteriores permaneciam não funcionais ou vazios.

O MiMo V2.5 Pro UltraSpeed claramente prioriza a velocidade bruta de geração, representando um feito de engenharia único em throughput de tokens. Embora seu desempenho em tarefas de codificação estreitas e de alta velocidade seja incomparável, sua capacidade e confiabilidade gerais ainda não rivalizam com a compreensão matizada ou a saída consistente de modelos de ponta como Claude Opus ou GPT-4. Essa compensação destaca um caminho divergente no desenvolvimento de IA, focando na velocidade em detrimento do raciocínio complexo e sustentado. Para aqueles interessados na arquitetura subjacente e seu desempenho, mais detalhes estão disponíveis na Xiaomi MiMo Home.

Por que o 'Codesign Modelo-Sistema' Muda o Jogo

Em sua essência, o ritmo vertiginoso do MiMo V2.5 Pro UltraSpeed deriva do codesign extremo modelo-sistema. Essa filosofia envolve otimizar meticulosamente a arquitetura do modelo e o tempo de execução do hardware subjacente simultaneamente, extraindo o desempenho máximo de cada componente. É assim que a Xiaomi forçou um modelo Mixture-of-Experts de 1 trilhão de parâmetros a gerar texto em velocidades de microssegundos em hardware padrão.

Essa abordagem integrada desafia fundamentalmente o mercado de aceleradores de IA caros e especializados. Em vez de silício personalizado, a Xiaomi e a TileRT demonstraram esta inferência sem precedentes de mais de 1.000 tokens/segundo em um único servidor padrão equipado com oito GPUs comerciais. Isso maximiza o potencial do hardware existente, democratizando o acesso a capacidades de IA de ponta por uma fração do custo.

A latência de milissegundos resultante desbloqueia uma nova classe de aplicações anteriormente confinadas a discussões teóricas. Estas incluem: - Algoritmos de negociação em tempo real que reagem às mudanças do mercado instantaneamente - Agentes de codificação autônomos gerando código pronto para produção em segundos - Sistemas de detecção de fraude instantâneos operando na velocidade da transação, prevenindo perdas antes que ocorram

Essa mudança de paradigma sugere que os futuros avanços da IA podem não depender exclusivamente de chips cada vez maiores e mais especializados, mas sim de uma integração mais inteligente e eficiente em toda a pilha do sistema.

Perguntas Frequentes

O que é Xiaomi MiMo V2.5 Pro UltraSpeed?

É um modelo de IA Mixture-of-Experts de 1 trilhão de parâmetros desenvolvido pela Xiaomi e TileRT, capaz de gerar texto a mais de 1.000 tokens por segundo em hardware padrão e comercial.

Como o modelo MiMo UltraSpeed atinge velocidades tão altas?

Ele usa uma estratégia de três partes chamada 'codesign extremo modelo-sistema': quantização MXFP4 para reduzir o uso de memória, decodificação especulativa DFlash para prever blocos de tokens em paralelo, e um kernel de GPU persistente TileRT para eliminar a latência de hardware.

Qual hardware é necessário para executar o modelo MiMo UltraSpeed?

As velocidades relatadas foram alcançadas em um único servidor padrão equipado com oito GPUs comerciais, não em hardware de IA especializado ou construído sob medida.

O modelo MiMo UltraSpeed é tão capaz quanto modelos como GPT-4 ou Claude Opus?

Embora excepcionalmente rápido, testes mostram que atualmente possui limitações. Pode produzir saídas quebradas ou incompletas em tarefas complexas, indicando uma troca entre velocidade bruta e as capacidades de raciocínio dos principais modelos de fronteira.

Found this useful? Share it.

One short daily email of tools worth shipping. No drip funnel.

one email a day · unsubscribe in two clicks · no third-party tracking

🚀Descubra mais

Fique à frente da curva da IA

Descubra as melhores ferramentas de IA, agentes e servidores MCP selecionados pela Stork.AI.

P.S. Criou algo que vale a pena? Liste no Stork