O cérebro da IA acaba de receber uma atualização massiva.

A era dos chatbots de IA simples acabou. Uma nova onda de modelos que podem 'pensar' continuamente chegou, e está prestes a mudar tudo, desde a ciência até a robótica.

Hero image for: O cérebro da IA acaba de receber uma atualização massiva.
💡

TL;DR / Key Takeaways

A era dos chatbots de IA simples acabou. Uma nova onda de modelos que podem 'pensar' continuamente chegou, e está prestes a mudar tudo, desde a ciência até a robótica.

O Arquiteto dos Transformers Diz que É Hora de Seguir em Frente

O arquiteto do boom da inteligência artificial moderna agora quer matar sua própria criação. Llion Jones, um dos oito autores do artigo "Attention Is All You Need" do Google, de 2017, está argumentando que a era dos transformadores está chegando ao fim e que é "hora de ir além dos transformadores." De sua nova posição como CTO e co-fundador do Sakana AI Labs, Jones está apoiando uma arquitetura radicalmente diferente chamada Máquinas de Pensamento Contínuo, que trata o pensamento como um processo, e não como um único evento.

Transformers transformaram a previsão da próxima palavra em uma interface universal, impulsionando o GPT-4, Gemini, Claude e quase todos os principais modelos de linguagem de grande porte. Mas simplesmente escalá-los—mais parâmetros, mais dados, mais GPUs—começou a apresentar retornos decrescentes, conforme trabalhos recentes sobre “limites em escala” sugerem que os ganhos marginais encolhem mesmo com os custos de treinamento explodindo para dezenas ou centenas de milhões de dólares por modelo de fronteira. A crítica central: esses sistemas ainda enfrentam dificuldades com raciocínio em múltiplas etapas, lógica frágil e tarefas que exigem planejamento a longo prazo em vez de regurgitar padrões.

Essa crítica tem um peso diferente vinda de alguém que ajudou a projetar a atenção desde o início. Quando um arquiteto original de transformadores diz que o campo precisa de novos projetos, isso sinaliza que grandes laboratórios já estão em busca de paradigmas pós-transformador, em vez de assumir que curvas de escalonamento irão salvá-los. Jones e Sakana estão apostando em neuroevolução e sistemas dinâmicos — procurando redes que evoluem seu estado interno ao longo do tempo, mais próximo de como os cérebros biológicos operam.

As Máquinas de Pensamento Contínuo, conforme descrito no trabalho de Sakana, dão a cada "neurônio" uma pequena memória e uma regra de atualização local, permitindo que milhares desses mini-cérebros interajam ao longo de muitos passos internos. Em vez de uma única passagem direta do prompt à resposta, o modelo executa "ticks" internos onde revisita o problema, refina representações intermediárias e pode até mudar de ideia antes de emitir uma saída. Essa mudança transforma o cálculo de correspondência de padrões estáticos em um processo contínuo.

Esta é a linha de falha emergente: modelos que apenas preveem o próximo token versus sistemas que processam informações ao longo do tempo. A mudança de Jones marca o início de uma nova corrida para construir IA que não apenas complete nossas frases, mas que realmente pense entre elas.

A Aposta Radical da Sakana AI: A Máquina de Pensamento Contínuo

Ilustração: A Aposta Radical da Sakana AI: A Máquina de Pensamento Contínuo
Ilustração: A Aposta Radical da Sakana AI: A Máquina de Pensamento Contínuo

A Sakana AI Labs está apostando que Máquinas de Pensamento Contínuo são o que vem após os transformadores. Co-fundada por Llion Jones, um dos oito autores por trás de “Attention Is All You Need”, a startup baseada em Tóquio acaba de levantar uma Série B para seguir com as MTPC como uma ruptura limpa em relação à arquitetura que sustentou o GPT-4, Gemini e Claude.

Em vez de disparar uma vez e esquecer, o CTM trata o pensamento como um processo interno contínuo. Um transformador padrão realiza uma única passagem para frente sobre seu prompt, produz um token de saída e, em seguida, descarta quase todo o estado interno; o CTM continua “refletindo” sobre um problema, atualizando suas dinâmicas internas ao longo de muitos pequenos passos antes de se comprometer com uma resposta.

Cada "neurônio" do CTM se comporta menos como um multiplicador simples e mais como um mini-cérebro com sua própria memória. Os neurônios carregam um pequeno vetor de estado que persiste ao longo do tempo, permitindo que se lembrem do que aconteceu há alguns momentos, se atualizem e influenciem cálculos futuros com base nessa história em evolução.

O artigo de Sakana descreve o modelo como um enxame sincronizado dessas unidades com estado. Em vez de tratar as ativações como números isolados, o CTM acompanha como as atividades neuronais sobem e descem juntas; esses padrões de sincronização—quem “dança” em fase com quem—tornam-se a moeda representacional central, análoga ao disparo rítmico em circuitos neuronais biológicos.

Isso torna o CTM fundamentalmente diferente dos neurônios sem estado nas pilhas de transformadores atuais. Os LLMs convencionais simulam deliberação empilhando mais camadas ou amostrando mais tokens, mas cada camada ainda apenas calcula f(x) e segue em frente; nenhuma unidade individual carrega uma memória de seu próprio comportamento passado.

O CTM também incorpora um tempo de "reflexão" explícito. O sistema pode operar por um número variável de ciclos internos—curtos para tarefas fáceis e mais longos para as difíceis—antes de apresentar um resultado, refletindo como os humanos levam mais tempo em um labirinto complicado ou em um quebra-cabeça matemático.

Sakana apresenta isso não como um ajuste de desempenho, mas como uma reinvenção completa do que é um modelo. Em vez de blocos de alimentação para frente maiores, o CTM propõe um sistema dinâmico em evolução contínua como o substrato básico do raciocínio de máquina.

Dentro do CTM: Neurônios com Memórias e Mentes Próprias

O CTM começa redefinindo o que um neurônio pode ser. Em vez de uma unidade simples de “Eu vi isso, eu produzo aquilo”, cada neurônio do CTM carrega seu próprio estado interno — um pequeno bloco de notas que persiste ao longo dos passos de tempo. Milhares desses mini-cérebro atualizam suas memórias a cada instante, como pequenas criaturas mantendo diários do que acabaram de ver e do que esperam ver a seguir.

Esses diários são importantes porque o CTM não pensa em apenas imagens instantâneas. O modelo passa por múltiplos ciclos internos, atualizando o estado de cada neurônio repetidamente antes de se comprometer com uma resposta. Problemas difíceis acionam mais ciclos, então o sistema, na verdade, escolhe quanto tempo pensar, em vez de estar preso a uma única passagem para cada entrada.

A representação também é diferente. Em vez de tratar o significado como um vetor estático, o CTM codifica seus “pensamentos” na forma como as atividades neuronais aumentam e diminuem em conjunto ao longo do tempo — sincronização como representação. Quando as ativações de dois neurônios pulsarem em sincronia, o CTM considera esse ritmo coordenado como um sinal de que eles estão codificando conjuntamente algum conceito.

Imagine um estádio de dançarinos apresentando uma rotina coreografada com precisão. A pose de um único dançarino pouco significa; o sentido surge de quem se move com quem e quando. O CTM baseia-se nesses padrões temporais de sincronia, utilizando-os como subsistema para conceitos, planos e etapas de raciocínio intermediárias.

Fazer os neurônios se comportarem assim não é algo que se pode programar manualmente. A Sakana AI se baseia na neuroevolução, utilizando algoritmos evolutivos para explorar regras de atualização de neurônios, padrões de conectividade e comportamentos dinâmicos. Em vez de uma descida de gradiente pura que molda uma arquitetura fixa, a evolução propõe novos designs de mini-cérebro estranhos, e apenas os mais capazes sobrevivem.

Isso representa uma ruptura radical em relação aos modelos de linguagem de grande escala convencionais, onde quase tudo — desde os padrões de atenção até as formas das camadas — é resultado da descida do gradiente em uma pilha de transformadores. Aqui, a descida do gradiente se torna uma ferramenta dentro de um processo de busca maior que pode mutar, recombinar e descartar comportamentos de neurônios em massa. O resultado é um zoológico de tipos de neurônios especializados com dinâmicas surpreendentemente ricas.

Essa mudança em direção à computação dinâmica e com estado ecoa trabalhos mais amplos sobre aprendizado contínuo e aninhado provenientes do Google e de outros. Leitores que acompanham essas tendências podem Conferir As últimas notícias de IA que anunciamos em novembro - atualizações de IA do Google para ver como grandes laboratórios também estão investigando arquiteturas que pensam ao longo do tempo, em vez de em explosões rápidas. Juntas, elas apontam para sistemas de IA que se parecem menos com calculadoras estáticas e mais com processos de pensamento em evolução, sempre ativos.

Por que 'Pensar Mais Longo' Libera um Pensamento Mais Profundo

Os cérebros se tornam mais interessantes quando param de responder instantaneamente e começam a entrar em um ciclo. Máquinas de Pensamento Contínuo incorporam esse ciclo no nível do hardware do pensamento, proporcionando ao modelo “marcos internos” explícitos onde ele pode atualizar seu próprio estado oculto, reconsiderar planos parciais e só então se manifestar. Esses marcos se assemelham bastante a um ciclo de relógio para a cognição: passos de raciocínio discretos e contáveis que ocorrem inteiramente dentro da rede, sem emitir texto intermediário ou chamadas de ferramentas.

Cada pulso avança a dinâmica interna de milhares de pequenos neurônios com estado. Em vez de um único avanço do input para o output, o CTM executa o mesmo circuito neural repetidamente, permitindo que a informação se propague, se estabilize e, às vezes, se reverta. Mais pulsos significam literalmente mais tempo de raciocínio, e o sistema pode aumentar isso para problemas mais difíceis, assim como os humanos refletem sobre um quebra-cabeça complicado.

Essa capacidade extra se manifesta de maneira mais clara em tarefas onde transformadores geralmente encontram dificuldades. Em experimentos de resolução de labirintos, agentes CTM podem planejar caminhos através de labirintos maiores do que qualquer um que tenham visto durante o treinamento, extrapolando efetivamente sua estratégia em vez de memorizar layouts. Cada avanço interno permite que o modelo "ande" mentalmente mais alguns passos, volte de becos sem saída e propague restrições pela grade.

Transformadores padrão enfrentam dificuldades aqui porque comprimem todo o labirinto e a solução em uma ou duas passagens de atenção. O comprimento do contexto e a contagem de parâmetros se tornam limites difíceis. O loop iterativo do CTM desacopla a profundidade do raciocínio do tamanho do modelo: uma rede pequena ainda pode levar 50, 100 ou 500 ciclos se o problema exigir, trocando tempo por insights.

Pesquisadores também desafiaram o CTM em tarefas algorítmicas simples. O modelo aprendeu algoritmos simples como regras de "inverter a resposta" em quebra-cabeças matemáticos e ordenar números em ordem crescente. Críticamente, ele fez isso de forma procedural: os números se movem para seus lugares ao longo de sucessivos ticks, espelhando passes de ordenação de livros didáticos em vez de correspondência de padrão em uma única tentativa.

Esse sabor procedural conecta o CTM diretamente à obsessão da indústria por raciocínio deliberado e em múltiplas etapas. A família o1 da OpenAI, o "prompting" de "chain-of-thought" do Google e agentes que utilizam ferramentas acrescentam laços extras em torno dos transformers. O CTM incorpora o laço na própria arquitetura, transformando o raciocínio em múltiplas etapas de uma hack de prompt em um primitivo computacional de primeira classe.

A Revolução da Eficiência da Deepseek para Longo Contexto

Ilustração: A Revolução da Eficiência da Deepseek para Longos Contextos
Ilustração: A Revolução da Eficiência da Deepseek para Longos Contextos

Arquiteturas inspiradas no cérebro, como a CTM, chamam a atenção, mas uma revolução mais silenciosa pode ser tão importante quanto: tornar os transformadores de hoje radicalmente mais baratos de escalar. É aí que entra o Deepseek Sparse Attention (DSA), não substituindo os transformadores, mas atacando seu gargalo mais problemático.

A autoatenção padrão sofre com uma matemática brutal. Para um contexto de N tokens, os custos de atenção escalam como O(N²) porque cada token se compara a todos os outros tokens. Ao aumentar o contexto de 8.000 para 1.000.000 de tokens, você não apenas adiciona custo, mas o explode por um fator de 15.625.

Aquela parede quadrática destrói muitos sonhos sobre modelos de "contexto infinito" que lembram todo o código, conversas de vários dias ou extensos arquivos de pesquisa. Mesmo com clusters de GPU, lidar com centenas de milhares de tokens em precisão total consome memória, energia e orçamentos de latência. Você sente esse custo toda vez que modelos de longo contexto desaceleram drasticamente.

A resposta da Deepseek: não atenda a tudo, atenda ao que importa. DSA adiciona um novo módulo, o chamado indexador relâmpago, à pilha de transformadores para que cada token possa rapidamente priorizar o passado em vez de reexaminá-lo de forma ingênua.

O indexador relâmpago atua como um mecanismo de busca por token. Para cada novo token, ele rapidamente analisa todos os tokens anteriores, atribui uma pontuação de relevância e seleciona apenas os melhores K candidatos para atenção total. K permanece pequeno e fixo — dezenas ou centenas — enquanto N pode aumentar para milhões.

Pense nisso como ler apenas as anotações destacadas em um livro didático, em vez de reler cada linha de cada página antes de responder a uma pergunta. Você ainda fundamenta sua resposta no livro, mas passa os capítulos irrelevantes e os rabiscos nas margens que teriam desperdiçado tempo.

Por trás das cenas, isso transforma a atenção de quadrática para aproximadamente O(N·K), que se comporta de forma linear enquanto K permanecer limitado. Essa mudança desbloqueia contextos extremamente longos no hardware atual, tornando a "inteligência de fronteira" menos sobre adicionar mais GPUs ao problema e mais sobre ser mais inteligente em relação a onde os modelos buscam informações.

Tornando o Contexto de Mil Tokens uma Realidade

O contexto de milhões de tokens costumava soar como uma fantasia de marketing. A Atenção Espessa e Esparsa (DSA) da Deepseek transforma isso em uma questão de orçamento. Ao fazer com que a computação e a memória escalem de forma aproximadamente linear com o comprimento da sequência, em vez de quadrática, a DSA reduz drasticamente o custo de análise de grandes históricos, desde registros de chat até bases de código.

A abordagem tradicional de atenção faz com que cada token se compare a todos os outros tokens. Com 128 mil tokens, isso já significa mais de 16 bilhões de comparações par-a-par por camada; com 1 milhão de tokens, você ultrapassa um trilhão de interações e o hardware colapsa. O indexador relâmpago da DSA contorna isso pontuando a relevância e atendendo apenas aos top-K tokens que importam.

Mudanças nas escalas lineares alteram o que os engenheiros se atrevem a lançar. Janelas de contexto de 256K ou 512K tokens passam de “demonstração uma vez em um cluster A100” para “executar diariamente para os clientes sem pegar fogo.” Contextos de um milhão de tokens deixam de ser projetos científicos e começam a parecer uma SKU viável para copilotos empresariais e ferramentas de pesquisa.

Repositórios de software inteiros agora podem caber em um único contexto: cada microserviço, cada migração, cada teste instável. Um modelo de longo contexto pode rastrear um bug a partir de um rastreio de pilha recente, voltando por anos de commits, documentos de design e threads de problemas, e propor uma solução que respeite tudo isso. Refatorações complexas em centenas de arquivos se tornam uma única passagem de raciocínio em vez de uma cadeia frágil de solicitações.

Agentes de aprendizado por reforço se beneficiam ainda mais. Com histórias de um milhão de tokens, um sistema de RL pode condicionar em: - Meses de trajetórias de jogo - Registros completos de negociação em diferentes regimes - Execuções de robótica de longo prazo com falhas raras

Essa profundidade permite que os agentes aprendam com casos extremos sem truncar a configuração que os causou. A modelagem de longo contexto também potencializa assistentes científicos como os descritos em Acelerando a Ciência com GPT-5 – OpenAI, que podem manter registros completos de experimentos, revisões de literatura e dados brutos na memória ativa. A eficiência no estilo DSA torna-se um facilitador fundamental para a próxima onda de agentes de IA cientes do contexto que raciocinam sobre mundos inteiros, e não apenas fragmentos.

O Novo Emprego do GPT-5: Impulsionando a Descoberta Científica

O GPT-5 está silenciosamente se preparando para um novo papel: parceiro de laboratório de alguns dos humanos mais inteligentes do planeta. O mais recente programa de pesquisa da OpenAI coloca o modelo em laboratórios reais em Oxford, Cambridge, Harvard e outras instituições de topo, não para resumir livros didáticos, mas para lidar com problemas vivos e não resolvidos.

De acordo com o relatório da OpenAI "Acelerando a Ciência com o GPT-5", pesquisadores usaram o modelo em questões de ponta em biologia, química e física. Estas não eram enigmas de referência ou tarefas sintéticas; eram os mesmos problemas complexos e de alto risco que normalmente consomem meses de tempo de pós-doutorado e recursos de bolsas.

A descrição do trabalho do GPT-5 parece menos com "cientista robô" e mais com um parceiro de pesquisa super-rápido e conhecedor. Cientistas o solicitaram para propor hipóteses, projetar experimentos, criticar métodos e vasculhar enormes literaturas que nenhum humano consegue acompanhar totalmente. O modelo gerou mecanismos candidatos, sugeriu controles alternativos e reformulou matemática densa ou provas em passos mais claros e verificáveis.

A OpenAI enfatiza que os humanos permaneceram firmemente no controle. Cada sugestão do GPT-5 passou por especialistas na área que filtraram, corrigiram e, às vezes, descartaram suas ideias. O sistema atuou como um multiplicador de força: acelerando a revisão de literatura, destacando artigos obscuros, mas relevantes, e enumerando casos extremos que pesquisadores atarefados poderiam perder.

As anedotas iniciais do estudo soam como truques de produtividade para o método científico. Um grupo usou o GPT-5 para: - Escanear centenas de artigos em busca de resultados conflitantes - Propor explicações unificadas para as discrepâncias - Elaborar novos experimentos para testar essas explicações

Outra equipe recorreu ao GPT-5 para explorar espaços de design combinatório que se expandem além da memória de trabalho humana—otimizando parâmetros, materiais ou estruturas moleculares em milhares de possibilidades. O modelo fez a busca tediosa; os humanos decidiram quais direções realmente faziam sentido.

De maneira crucial, a OpenAI não apresenta o GPT-5 como um oráculo que “resolve a ciência”. Em vez disso, o artigo o define como cognição aumentada para laboratórios: um sistema que condensa dias de leitura em minutos, gera dezenas de próximos passos plausíveis e libera os pesquisadores humanos para passarem mais tempo em julgamento, intuição e experiências práticas.

Desvendando Mistérios Médicos e Resolvendo Problemas Antigos de Matemática

Ilustração: Desbloqueando Mistérios Médicos e Resolvendo Problemas Antigos de Matemática
Ilustração: Desbloqueando Mistérios Médicos e Resolvendo Problemas Antigos de Matemática

A aceleração da ciência parece abstrata até que o GPT-5 comece a reescrever cadernos de laboratório e artigos de teoria dos números em tempo real.

Os próprios estudos de caso da OpenAI leem como ficção especulativa. Em um experimento, imunologistas alimentaram o GPT-5 com um gráfico inédito de um estudo humano: uma série temporal mostrando um estranho pico e queda em uma população específica de células imunológicas após o tratamento. Ninguém na equipe tinha uma explicação mecanicista satisfatória para o padrão.

O GPT-5 não apenas resumiu o gráfico; propôs um novo mecanismo biológico. O modelo sugeriu que um aumento transient em uma citocina particular poderia desencadear uma expansão de curto prazo de um subtipo de células T, seguida de exaustão e contração, e até apontou para vias de sinalização específicas e artigos anteriores que se adequavam ao formato da curva. Os pesquisadores destacaram a hipótese, realizaram análises complementares e, mais tarde, confirmaram que a via sugerida estava alinhada com dados experimentais adicionais.

Esse fluxo de trabalho é mais importante do que a vitória isolada. O GPT-5 efetivamente passou de "descrição de dados" para "teoria mecanicista", um passo que os cientistas humanos geralmente guardam como trabalho criativo central. A OpenAI relata que, em vários projetos de biologia, o GPT-5 passou de apenas limpar conjuntos de dados para propor mecanismos passíveis de teste, classificando explicações candidatas e sugerindo quais experimentos realizar primeiro.

A matemática proporcionou um exemplo ainda mais contundente. Dois matemáticos que trabalhavam em um problema de Erdos de décadas atrás haviam levado uma prova de combinatória a um obstáculo teimoso. Eles tinham uma pilha de argumentos parciais e lemas mal-sucedidos, mas nenhuma maneira clara de avançar em um passo crítico.

O GPT-5 absorveu todo o caderno de anotações: provas em LaTeX, tentativas sem saída e anotações informais. Em vez de forçar a álgebra, o modelo destacou uma simetria oculta em como uma certa configuração extremal se comportava sob uma transformação que os autores haviam tratado como irrelevante. Essa percepção inovadora sugeriu um parâmetro de indução diferente e uma nova maneira de particionar os objetos em questão, que os matemáticos então formalizaram em um passo de prova válido.

A OpenAI apresenta isso não como "IA prova Erdős", mas como o GPT-5 atuando como um terceiro colaborador que nunca se cansa de reler o mesmo rascunho de 40 páginas. O sistema traz à tona reestruturações não óbvias que os co-autores humanos então verificam, corrigem ou descartam.

A versatilidade se manifesta fora dos painéis brancos e dos laboratórios úmidos também. Na robótica, o GPT-5 revisou algoritmos de planejamento de movimento e controle, identificou casos extremos onde as garantias de segurança falharam silenciosamente e propôs formulações alternativas que preencheram essas lacunas — transformando um modelo de texto em um detector de falhas vagante para sistemas físicos.

O Novo Método Científico: Humano + IA

Novos fluxos de trabalho começam a parecer menos com gênios solitários e mais com laboratórios mistos de humanos e máquinas. Pesquisadores nos experimentos do GPT-5 não pediram ao modelo "uma resposta"; trataram-no como um motor de busca de ideias, testando centenas de hipóteses candidatas, ajustes e casos extremos enquanto direcionavam a agenda geral.

Os humanos ainda delimitam o espaço do problema. Eles decidem qual via biológica é relevante, qual conjectura na teoria dos números vale a pena investigar e quais ajustes experimentais o modelo pode realizar. Essa intuição humana sobre o que é interessante, plausível ou eticamente aceitável não surge do descenso de gradiente.

Uma vez que o objetivo é definido, o GPT‑5 se torna um multiplicador de força. Ele expande rapidamente o espaço de busca: propondo mecanismos alternativos para uma doença, sugerindo regimes de parâmetros não ortodoxos para um experimento ou revelando artigos obscuros nas áreas de imunologia, estatística e topologia que compartilham uma estrutura ocultada. Pense nele como um pós-doc incansável que nunca para de ler.

Um padrão emerge nos estudos de caso médicos e matemáticos. Humanos: - Especificam restrições e critérios de sucesso - Curam dados, priors e suposições do domínio - Interrogam o raciocínio do modelo linha por linha - Decidem quais saídas justificam experimentos no mundo real

O GPT‑5, em contraste, brilha quando: - Gera hipóteses novas em grande escala - Conecta subcampos distantes por meio de analogias e formalismos compartilhados - Testa ideias com exemplos contrários e cenários adversariais - Automatiza verificações simbólicas ou estatísticas tediosas

Esta divisão de trabalho pressupõe supervisão especializada, pois o modelo ainda apresenta alucinações. O GPT-5 pode fabricar citações, adaptar-se excessivamente a peculiaridades do prompt ou recomendar com confiança um experimento que viole uma regra oculta na biologia ou na matemática subjacente.

A sensibilidade ao prompt também se torna um risco metodológico. Pequenas mudanças na forma como uma pergunta é formulada podem fazer com que o modelo passe de uma derivação correta para um erro algébrico ou conceitual sutil, mas fatal, especialmente em cadeias de raciocínio com múltiplos passos. Os pesquisadores nesses projetos, portanto, utilizaram templates de prompt rigorosos, execuções redundantes e verificações cruzadas com ferramentas tradicionais.

Visto de forma otimista, este é um novo método científico: os humanos fornecem julgamento e valores, enquanto sistemas como o GPT‑5 industrializam a geração e a falsificação de ideias. Para mais exemplos desse fluxo de trabalho híbrido em laboratórios, confira As Últimas Notícias de IA e Avanços em IA que Mais Importam: 2025.

O Que Esses Avanços Significam para 2025

De repente, o progresso da IA não corre mais em uma única via. Máquinas de Pensamento Contínuo, Atenção Espalhada Deepseek e os esboços do co-piloto científico do GPT-5 apontam para três eixos ortogonais de mudança: novas arquiteturas semelhantes ao cérebro, truques de eficiência brutais para longos contextos e modelos que param de conversar e começam a fazer ciência de verdade.

CTM da Sakana AI, impulsionado pelo coautor Llion Jones, rompe com a regra de "um passe para frente, uma resposta". Seus neurônios carregam seu próprio estado, sincronizam-se como osciladores e iteram através de tique-taques internos até que uma solução emergente apareça, possibilitando a resolução de labirintos, ordenação algorítmica e agentes de aprendizado por reforço que pensam várias vezes antes de agir.

O Sparse Attention do Deepseek ataca um gargalo diferente: o custo. A atenção padrão escala de forma quadrática com o comprimento da sequência; com 1 milhão de tokens, isso se torna praticamente absurdo tanto para memória quanto para FLOPs. O indexador veloz do Deepseek reduz o contexto aos top‑K tokens relevantes, fazendo janelas de milhões de tokens se comportarem mais como operações de custo linear em vez de uma explosão computacional.

O trabalho científico do GPT-5 da OpenAI muda a questão de "quão grande é seu modelo?" para "o que ele pode realmente descobrir?" Em suas próprias avaliações, o GPT-5 ajudou a gerar hipóteses, projetar experimentos e depurar códigos para tarefas do mundo real em biologia, química e matemática, transformando os LLMs em colaboradores que podem fechar ciclos de pesquisa completos, em vez de apenas completar PDFs.

Juntas, essas mudanças marcam uma ruptura com os últimos cinco anos da cultura de “apenas escalar”. Apostas arquitetônicas como CTM, jogadas de eficiência como DSA e implantações direcionadas por domínio como GPT-5-para-ciência sinalizam uma estratégia mais pluralista: sistemas especializados, módulos de raciocínio personalizados e fluxos de trabalho onde humanos e modelos ocupam papéis distintos.

Espere que os próximos 6 a 12 meses sejam dominados por híbridos. Pilhas de fronteira da OpenAI, Google e outros provavelmente manterão transformadores para linguagem, mas adicionarão: - Módulos recorrentes no estilo CTM para raciocínio de longo prazo - Camadas de atenção esparsa para contextos de milhões de tokens - Agentes de domínio ajustados especificamente para trabalho de laboratório, código ou busca de teoremas

Estes documentos não parecem curiosidades acadêmicas isoladas; eles se parecem com roteiros. O CTM esboça um sistema de controle pós-transformador, o Deepseek mostra como ampliar janelas de contexto sem sobrecarregar as GPUs, e o agente científico do GPT-5 delineia como esses sistemas se conectam a laboratórios reais e grupos de pesquisa. Juntos, eles se assemelham menos a demonstrações e mais a projetos para a próxima geração de infraestrutura de IA que sustentará silenciosamente as maiores descobertas de 2025.

Perguntas Frequentes

O que são Máquinas de Pensamento Contínuo (CTM)?

CTM é uma nova arquitetura de IA proposta pela Sakana AI que vai além dos transformers de passagem única. Ela utiliza neurônios com memória e um 'tempo de reflexão' iterativo para resolver problemas passo a passo, imitando mais de perto o raciocínio humano.

Como o CTM é diferente da IA como o ChatGPT?

Enquanto modelos como o ChatGPT geram respostas em uma única passagem para cada token, os CTMs refinam internamente seus pensamentos em múltiplas etapas antes de produzir uma resposta. Isso lhes permite lidar com tarefas de raciocínio mais complexas e em várias etapas.

O GPT-5 já está sendo utilizado para pesquisas científicas?

Sim, de acordo com um artigo da OpenAI, uma versão pré-lançamento do GPT-5 está sendo usada em colaboração com universidades de destaque para acelerar pesquisas no mundo real em biologia, matemática e ciência da computação, atuando como um parceiro especialista em pesquisa.

O que torna o novo mecanismo de atenção da Deepseek tão eficiente?

A Atenção Escassa da Deepseek (DSA) utiliza um 'indexador relâmpago' para identificar e focar apenas nas partes mais relevantes de um contexto extenso. Isso evita o enorme custo computacional da atenção padrão, permitindo que modelos lidem com contextos de milhões de tokens de forma muito mais eficiente.

Frequently Asked Questions

O que são Máquinas de Pensamento Contínuo (CTM)?
CTM é uma nova arquitetura de IA proposta pela Sakana AI que vai além dos transformers de passagem única. Ela utiliza neurônios com memória e um 'tempo de reflexão' iterativo para resolver problemas passo a passo, imitando mais de perto o raciocínio humano.
Como o CTM é diferente da IA como o ChatGPT?
Enquanto modelos como o ChatGPT geram respostas em uma única passagem para cada token, os CTMs refinam internamente seus pensamentos em múltiplas etapas antes de produzir uma resposta. Isso lhes permite lidar com tarefas de raciocínio mais complexas e em várias etapas.
O GPT-5 já está sendo utilizado para pesquisas científicas?
Sim, de acordo com um artigo da OpenAI, uma versão pré-lançamento do GPT-5 está sendo usada em colaboração com universidades de destaque para acelerar pesquisas no mundo real em biologia, matemática e ciência da computação, atuando como um parceiro especialista em pesquisa.
O que torna o novo mecanismo de atenção da Deepseek tão eficiente?
A Atenção Escassa da Deepseek utiliza um 'indexador relâmpago' para identificar e focar apenas nas partes mais relevantes de um contexto extenso. Isso evita o enorme custo computacional da atenção padrão, permitindo que modelos lidem com contextos de milhões de tokens de forma muito mais eficiente.
🚀Discover More

Stay Ahead of the AI Curve

Discover the best AI tools, agents, and MCP servers curated by Stork.AI. Find the right solutions to supercharge your workflow.

Back to all posts