A Revelação Secreta da AGI do GPT-5

Um vídeo viral afirma que o GPT-5 passou em um teste de IA considerado intransponível, alcançando inteligência em nível humano. A verdade é muito mais interessante e revela o verdadeiro segredo para acelerar a IAG.

Hero image for: A Revelação Secreta da AGI do GPT-5
💡

TL;DR / Key Takeaways

Um vídeo viral afirma que o GPT-5 passou em um teste de IA considerado intransponível, alcançando inteligência em nível humano. A verdade é muito mais interessante e revela o verdadeiro segredo para acelerar a IAG.

O Teste que Foi Criado para Quebrar a IA

Os rumores sobre uma suposta quebra de paradigma do GPT-5 começaram com um gráfico: uma suposta pontuação de 75–76% no novo benchmark ARC-AGI-2, confortavelmente acima da média de cerca de 60% dos humanos que fazem testes. A história, amplificada no X e no YouTube, apresentou isso como o momento em que uma IA finalmente superou os humanos em um teste explicitamente criado para selecionar a AGI.

ARC-AGI vem de François Chollet, um pesquisador da Google DeepMind que passou anos argumentando que aumentar o tamanho dos modelos de linguagem não é o mesmo que construir inteligência geral. Seu benchmark ARC (Abstraction and Reasoning Corpus), e sua nova variante ARC-AGI-2, visa o tipo de raciocínio fluido que os humanos usam para resolver quebra-cabeças que nunca viram antes.

Em vez de perguntas de trivia ou problemas de livro didático, o ARC-AGI apresenta pequenas grades coloridas e pede ao modelo que infira a regra oculta. Cada tarefa inclui apenas três exemplos de entrada e saída, seguidos de uma quarta entrada onde o modelo deve gerar a grade de saída correta do zero. Sem instruções, sem rótulos, sem múltipla escolha.

O benchmark mede inteligência fluida: descoberta de padrões, raciocínio composicional e generalização a partir de quase nenhum dado. Utiliza uma métrica rigorosa Pass@2 — os modelos têm no máximo duas tentativas por tarefa, sem crédito parcial e com atenção ao custo computacional por solução.

Esse design torna o ARC-AGI brutalmente difícil para grandes modelos de linguagem. LLMs se destacam quando podem se basear em padrões memorizados de textos em escala da web, mas os quebra-cabeças do ARC-AGI são gerados proceduralmente e visuais, não linguísticos, e deliberadamente diferentes de qualquer coisa nos corpora de treinamento comuns.

Classificações padrão como MMLU, GSM8K ou HumanEval frequentemente borram a linha entre raciocínio e memória. Os benchmarks se infiltram nos dados de treinamento; os fornecedores de modelos ajustam diretamente em formatos de perguntas semelhantes; as pontuações aumentam de maneiras que podem dizer mais sobre contaminação de dados do que sobre compreensão genuína.

O ARC-AGI avança na direção oposta. As tarefas são "fáceis para humanos/duras para IA", com solucionadores humanos alcançando efetivamente quase 100% quando têm tempo, enquanto os primeiros modelos de fronteira obtiveram dígitos únicos no ARC-AGI-2. Essa diferença é a razão pela qual uma pontuação alegada de 75% do GPT-5, mesmo que não verificada, acionou alarmes: se for verdade, isso indicaria uma IA que não apenas reproduz conhecimento, mas que desvendaria novas regras da maneira que as pessoas fazem.

Pensando em Grades: O Que Torna o ARC Tão Difícil

Ilustração: Pensando em Grades: O Que Torna o ARC Tão Difícil
Ilustração: Pensando em Grades: O Que Torna o ARC Tão Difícil

Quadrados coloridos em uma grade não parecem um teste de Turing, mas o ARC-AGI transforma essa estética de brinquedo infantil em uma ferramenta para IA. Cada quebra-cabeça apresenta uma pequena quantidade de grades de entrada e grades de saída correspondentes, e em seguida pede ao modelo para transformar uma nova grade usando a mesma regra oculta: talvez refletir os blocos azuis, aumentar uma forma vermelha em um pixel ou deletar tudo, exceto o maior componente conectado.

Os humanos olham para esses exemplos e quase imediatamente começam a narrar a estrutura: “Ah, a linha amarela marca o centro,” ou “o padrão se repete a cada três células.” Para os modelos atuais, essas mesmas grades de 10×10 ou 20×20 são um campo minado combinatório. Cada pixel colorido multiplica o número de possíveis transformações que poderiam se ajustar aos dados, e nada no corpus de pré-treinamento de um modelo de linguagem se parece muito com isso.

O criador da ARC, François Chollet, projetou-o como um teste puro de inteligência fluida: a capacidade de raciocinar em situações novas, descobrir padrões e recombinar conceitos rapidamente. Isso contrasta com a inteligência cristalizada, que se baseia em fatos memorizados e templates familiares—onde os grandes modelos de linguagem se destacam ao regurgitar e remixar texto em escala da web.

No ARC-AGI-2, não há divisão de treinamento para memorizar e nenhuma sobreposição de conjuntos de dados para explorar. Os modelos veem apenas de 3 a 5 pares de entrada-saída por tarefa e devem generalizar para um novo exemplo. Nenhuma atualização de gradientes, nenhum ajuste fino ocorre; tudo acontece no momento do teste, dentro dos pesos existentes do modelo e de qualquer estrutura que os rodeie.

Para manter os sistemas honestos, o ARC-AGI-2 utiliza uma métrica Pass@2: um modelo tem no máximo duas tentativas por tarefa. Não há crédito parcial por "quase certo", e não há oportunidade de tentar milhares de amostras até encontrar uma que funcione. Os benchmarks também acompanham a eficiência, contando quanto de processamento cada tentativa consome, o que penaliza a enumeração forçada de programas candidatos.

Os humanos, por outro lado, resolvem esses quebra-cabeças em poucos minutos, muitas vezes com uma única ideia clara. Essa diferença — entre o "óbvio" humano e o "opaco" da máquina — expõe o quanto os melhores modelos de hoje ainda estão atrasados na verdadeira abstração, mesmo enquanto dominam exames baseados em conhecimento cristalizado.

A Revolução da 'Desatadura' que Ninguém Previu

Destravar soa como um termo de alinhamento de nicho, mas Leopold Aschenbrenner o usa para nomear algo brutalmente simples: os modelos atuais são inteligentes, mas artificialmente limitados. Seu artigo "Consciência Situacional" de 2024 argumenta que uma grande fração dos ganhos de curto prazo virá não de modelos maiores, mas da remoção dessas amarras.

A analogia é contundente. Pedir a um LLM que resolva um problema matemático difícil de uma só vez é como exigir que um humano dê a resposta imediatamente, sem rascunho, sem revisões. O prompting em cadeia de raciocínio atuou como esse rascunho, transformando "chatbots que adivinham" em sistemas capazes de percorrer raciocínios multietapas e, de repente, dominar problemas muito mais difíceis.

Os modelos de fronteira de hoje continuam severamente limitados. Aschenbrenner destaca que eles: - Não possuem memória de longo prazo robusta - Não conseguem usar um computador ou sistema de arquivos de maneira fluida - Raramente “pensam antes de falar” com deliberação interna prolongada - Operam principalmente em chats curtos e em linha única em vez de projetos persistentes

Desfazer as amarras significa corrigir essas limitações com andaimes: uso de ferramentas, ciclos de planejamento, memória externa, orquestração de múltiplos agentes e mais capacidade computacional em tempo de teste. Fundamentalmente, muda o que você pode fazer com os mesmos pesos base, razão pela qual Aschenbrenner o classifica como um progresso algorítmico em vez de apenas um polimento de experiência do usuário.

Você já pode ver isso nos números. O meta-sistema da Poetic supostamente eleva uma variante do GPT-5 de um desempenho de ARC-AGI-2 próximo ao nível humano (~60%) para cerca de 75–76%, e eleva modelos estilo Grok-4 de ~56–57% para ~72% em testes de raciocínio similares, tudo isso sem um modelo base maior. A linha Gemini 3 do Google mostra o mesmo padrão: de menos de 30% para a metade dos 40%, depois para além das bases humanas em tarefas no estilo ARC através de sucessivas passagens de desbloqueio.

Essa dinâmica reformula cronogramas. Se apenas desbloquear pode proporcionar aumentos de 10 a 20 pontos em benchmarks que supostamente exigiriam a próxima geração de modelos, você não precisa mais esperar por execuções de treinamento em escala GPT-6 para ver mudanças significativas. A própria mensagem da OpenAI Introduzindo o GPT-5 - OpenAI se baseia em temas semelhantes: mais ferramentas, mais contexto, mais autonomia acumulada sobre a escala bruta.

A previsão de Aschenbrenner é contundente: até 2027, a contínua desobstrução transformará o chatbot de hoje em algo que se comporta muito mais como um agente e um colega de trabalho do que como uma caixa de busca falante.

Dentro Poético: A Estratégia 'Gerente de IA'

Poetic está no centro da história do GPT-5 ARC. O vídeo da TheAIGRID credita a empresa por construir um “desengavetador” de estruturas em torno de um modelo OpenAI de fronteira, não treinando um novo cérebro do zero. Sua afirmação: um meta-sistema que leva o GPT-5 de um desempenho de aproximadamente nível humano ARC-AGI-2 para um relatado 75–76%, sem aumentar os pesos subjacentes.

No cerne da abordagem da Poetic está um "Gerente de IA." Em vez de enviar uma única chamada de modelo gigante para cada quebra-cabeça, o gerente inspeciona a grade, propõe um plano de alto nível e, em seguida, o decompõe em subproblemas. Cada subproblema é direcionado a um modelo de trabalhador especializado—alguns ajustados para reconhecimento de padrões, outros para geração de código, busca ou verificação.

Crucialmente, este gerente não apenas sugere e reza. Ele pode: - Escrever e executar código contra a grade do enigma - Inspecionar saídas intermediárias e compará-las ao alvo - Ramificar em estratégias alternativas quando um caminho parece errado - Decidir quando parar uma vez que uma solução correta apareça

Esse ciclo—planejar, agir, verificar, revisar—transforma o ARC de um jogo de adivinhação único em uma busca iterativa. O sistema pode realizar dezenas de chamadas de trabalhadores baratas em vez de depender de um único modelo avançado caro. Poetic argumenta que isso economiza imensas quantidades de computação em tarefas de raciocínio difíceis, pois o gerente interrompe rapidamente sempre que uma saída candidata corresponde exatamente à grade requerida.

Contrastando com a configuração padrão de LLM monolítico. No mundo básico, você envia um único prompt para um grande modelo, recebe uma resposta e paga o preço total, mesmo que a saída falhe. Não há decomposição explícita, nem um bloco de notas persistente, nem autocorreção além de um usuário apertar "tente novamente".

A arquitetura multi-agente e autocorrigível da Poetic externaliza de forma eficaz o que a cadeia de pensamento apenas sugere. Em vez de induzir um único modelo a pensar passo a passo, o gerente orquestra uma equipe, aloca poder computacional durante o teste conforme necessário e elimina caminhos sem saída. Em um benchmark como o ARC-AGI-2, esse tipo de meta-raciocínio pode ser mais relevante do que mais 10 bilhões de parâmetros.

Verificação da Realidade: A Verdadeira Classificação ARC-AGI

Ilustração: Verificação da Realidade: O Verdadeiro Classificador ARC-AGI
Ilustração: Verificação da Realidade: O Verdadeiro Classificador ARC-AGI

A realidade bate assim que você abre a tabela de classificação atual do Prêmio ARC. A pontuação viral de 75% do GPT-5 simplesmente não existe lá, nem em nenhum outro lugar que seja verificado de forma independente. Em vez disso, os números públicos pintam um quadro muito mais realista—e ainda assim surpreendente—de onde os modelos atuais estão.

Na placa principal ARC-AGI-2, o GPT-5 básico alcança uma pontuação Pass@2 de apenas 9,9%. Isso o coloca na mesma coorte problemática de outros modelos de ponta: Claude Opus 4 com 8,6%, várias variantes do Gemini 3 na casa dos dígitos baixos, e muitos sistemas languindo entre 2% e 6%. O Grok-4 "Thinking" lidera essa tabela inicial com 16,0%, longe de ser o material para celebrações de vitória em AGI.

Role para baixo e o suposto modelo milagroso aparece em uma nova versão: GPT-5.2, um sistema mais recente da OpenAI que de repente muda a curva. No ranking oficial de "sistemas" da ARC-AGI-2, o GPT-5.2 registra cerca de 53–54% de Pass@2. Essa pontuação mais que triplica os 9,9% do GPT-5 e aproximadamente triplica os 17,6% reportados do GPT-5.1, enquanto supera confortavelmente estrelas anteriores como o Gemini 3 Pro, que está em cerca de 45%.

No entanto, os humanos ainda possuem esse parâmetro de referência. A média de desempenho humano no ARC-AGI-2 está em torno de 60% para testadores médios, com conjuntos validados se aproximando de 98–100% quando você conta apenas as tarefas resolvidas por pelo menos duas das nove ou dez pessoas. Todo o objetivo do ARC é que esses quebra-cabeças em grade parecem "óbvios" para os humanos, mas permanecem brutalmente opacos para as máquinas.

Esse contexto faz com que a afirmação de 75–76% pareça mais uma estratégia de marketing do que uma medição. Nenhuma entrada em ranking público, artigo ou atualização do Prêmio ARC mostra qualquer variante do GPT-5, sistema Poetic ou configuração Grok ultrapassando a média humana de 60%, muito menos superando isso por 15 pontos. Se tal desempenho existir, ele está fora dos registros, não verificável e fora das normas de benchmarks competitivos.

Nada disso diminui o quão chocante é o resultado verificado de 53–54% do GPT-5.2. Uma única família de modelos saltando de menos de 20% para mais de 50% no ARC-AGI-2 em uma geração representa uma mudança significativa no desempenho em razão abstrata. O nível humano ainda está fora de alcance, mas a lacuna se estreitou muito mais rápido do que quase todos previram.

Por que 54% é Mais Impressionante do que 100%

O progresso do ARC-AGI nunca se apresentou como uma curva suave. Por anos, modelos de ponta oscilavam entre 0% e 6% em quebra-cabeças do estilo ARC, mostrando efetivamente nenhuma inteligência fluida apesar de enormes cargas de treinamento. Eles eram capazes de se sair bem em exames de ordem e entrevistas de programação, mas falhavam em um grid 5×5 de quadrados coloridos.

É por isso que 54% é mais importante do que um hipotético 100%. Alcançar os meados de 50 no ARC-AGI-2, como se diz que o GPT-5.2 faz, significa que os modelos passaram de "basicamente quebrados" para "resolvendo a maioria dos problemas que um humano inteligente consegue". Isso é uma mudança de fase qualitativa, e não um mero aumento de referência marginal.

O ARC-AGI-2 utiliza Pass@2: duas tentativas, sem crédito parcial, avaliação sensível ao custo. Modelos de fronteira anteriores, como GPT-5, Claude Opus 4 e Grok-4 Thinking, ficaram na faixa de um dígito até os baixos dois dígitos. Um salto para ~53-54% mais do que triplica essas pontuações, enquanto humanos médios ficam em torno de 60% e referências humanas selecionadas atingem 98-100%.

Crucialmente, esse salto não veio apenas do aumento do tamanho do modelo. Veio do desimpedimento: melhor busca, raciocínio em rascunho, uso de ferramentas e orquestração estilo gestor em torno do modelo base. A abordagem “IA gestora” da Poetic — roteirizando tarefas, decompondo problemas, iterando soluções — incorpora o progresso algorítmico que Leopold Aschenbrenner destacou como o próximo grande motor de capacidade.

A tese de Aschenbrenner era simples: os modelos são muito mais capazes do que suas saídas ingênuas de uma única tentativa sugerem. Adicione pensamento estruturado, memória e ferramentas, e você desbloqueia uma inteligência adormecida. O salto da ARC de 0–6% para mais de 50% é a versão gráfica desse argumento.

Sam Altman apontou repetidamente a ARC como um parâmetro “real” para AGI, precisamente porque resiste à memorização e a truques de engenharia de prompts. Fontes internas da OpenAI relatam que monitoram as curvas da ARC mais de perto do que testes padronizados chamativos. Quando essa linha se curva acentuadamente para cima, as pessoas que estão construindo AGI prestam atenção.

Qualquer pessoa pode navegar pelos rankings públicos e metodologia em **ARC Prize - Abstract Reasoning Corpus**. O título não é a perfeição; é que a curva finalmente se moveu.

Além da Escala: O Novo Caminho para a AGI

As leis de escalabilidade tiveram um bom desempenho. Durante a maior parte dos últimos cinco anos, o progresso em grandes modelos de linguagem seguiu uma receita simples: mais parâmetros, mais dados, mais capacidade computacional. De GPT-3 a GPT-4 a GPT-5, parecia uma linha reta em um gráfico log-log, com curvas de desempenho que se encaixavam perfeitamente em equações de lei de potência.

O ARC-AGI-2 quebra essa história discretamente. Modelos como GPT-5.2 saltam de dígitos baixos de dois índices em tarefas anteriores no estilo ARC para cerca de 53–54% no ARC-AGI-2 não porque alguém treinou um monstro de trilhões de parâmetros, mas porque os pesquisadores mudaram a forma como os modelos pensam no momento do teste. O design do sistema e os algoritmos, e não a escala bruta, proporcionaram essa mudança significativa.

François Chollet, que criou o benchmark ARC original, defende isso há anos. Em sua opinião, a verdadeira inteligência geral não pode existir em um bloco estático de pesos pré-treinados que apenas regurgita correlações. Ela requer sistemas que possam construir e revisar hipóteses em tempo real, explorar espaços de soluções e adaptar suas estratégias à medida que encontram novas tarefas.

Essa filosofia se reflete diretamente no design da ARC. Cada quebra-cabeça apresenta apenas 3 a 5 exemplos de entrada e saída e, em seguida, uma grade de teste completamente nova; nenhum conjunto de treinamento em escala de internet pode te salvar. Para resolver esses problemas, um modelo deve realizar aprendizado em tempo de teste: inferir regras, buscar por transformações candidatas e auto-corrigir sob restrições rigorosas de computação.

“Desbloqueio” é o que acontece quando você leva isso a sério e envolve um poderoso modelo base em uma estrutura que permite que ele se comporte mais como um cientista do que como um motor de preenchimento automático. O artigo "Consciência Situacional" de Leopold Aschenbrenner destaca coisas como estímulos de cadeia de pensamento, uso de ferramentas e planejamento de longo prazo como ajustes simples que desbloqueiam capacidades latentes. A arquitetura manager-LLM da Poetic é essa ideia transformada em um produto.

Em vez de um único grande passe para frente, o Poetic orquestra múltiplos modelos, ferramentas e tentativas sob uma IA gerenciadora que decide como gastar a capacidade computacional. Isso é uma inovação arquitetônica, não uma de escalabilidade. O "Pensamento" do Grok-4 pulando de ~56–57% para ~72% em testes internos de raciocínio, ou as variantes do Gemini 3 subindo de menos de 30% para nível humano em tarefas do estilo ARC, vieram desse tipo de desimpedimento a nível de sistema.

Se esse padrão se mantiver, a AGI pode chegar menos como um único modelo colossal e mais como um conjunto bem integrado de componentes adaptáveis. A força bruta construiu os motores; uma arquitetura inteligente pode finalizar o carro.

Os Marcos Estão Mudando: ARC-AGI-3 e Além

Ilustração: As Metas Estão Mudando: ARC-AGI-3 e Além
Ilustração: As Metas Estão Mudando: ARC-AGI-3 e Além

O ARC-AGI-2 já é impressionante, mas seus criadores não estão parados. A equipe do ARC Prize está trabalhando silenciosamente no ARC-AGI-3, um benchmark de próxima geração previsto para cerca de 2026, projetado especificamente para desafiar modelos que parecem inteligentes apenas em testes estáticos.

Em vez de grades coloridas como quebra-cabeças fixos, o ARC-AGI-3 irá inserir modelos em um ambiente desconhecido e pedir que descubram o que é importante. Pense menos em “resolva este padrão” e mais em “você está em um estranho micromundo com objetos e regras; descubra como funciona e, em seguida, alcance um objetivo.”

Essa mudança transforma o padrão de correspondência passivo em raciocínio interativo. Os modelos precisarão interagir com o ambiente, conduzir experimentos e atualizar suas hipóteses quando algo falhar, muito mais parecido com como os humanos aprendem a usar uma nova ferramenta, jogo ou interface.

O novo padrão de referência visa habilidades que os modelos de ponta de hoje em dia frequentemente simulam com sugestões inteligentes. Para ter sucesso, uma IA precisará:

  • 1Explore de forma eficiente em vez de clicar aleatoriamente.
  • 2Defina seus próprios subobjetivos sem precisar de orientação.
  • 3Construa e revise um modelo de mundo a partir de feedback escasso.
  • 4Planeje sequências de ações em várias etapas e execute-as de forma confiável.

O ARC-AGI-3 também ataca uma das maiores muletas nas avaliações atuais: instruções densas. Em vez de uma especificação em linguagem natural dizendo ao modelo exatamente o que fazer, o sistema frequentemente terá que inferir a tarefa a partir de alguns exemplos, recompensas parciais ou até mesmo apenas "fazer algo bom acontecer".

Isso torna-se um teste de agência, e não apenas de raciocínio. Um sistema que pode decidir de forma autônoma: “Eu devo mapear este espaço, catalogar o comportamento dos objetos e, em seguida, procurar um caminho para o objetivo”, parece muito mais próximo do “colega de trabalho de IA” que Leopold Aschenbrenner previu do que de um caixa de bate-papo que espera por comandos.

Se o ARC-AGI-2 mede se um modelo pode resolver um quebra-cabeça difícil quando você lhe dá as regras de forma detalhada, o ARC-AGI-3 pergunta se ele pode entrar em um novo mundo e ensinar a si mesmo as regras. Cruzar essa lacuna — de solucionador de problemas para agente adaptável — é o próximo verdadeiro desafio no caminho para a AGI.

Como a IA 'Desencadeada' Mudará Seu Fluxo de Trabalho

Desbloquear o potencial da IA deixa de ser abstrato no momento em que uma IA para de agir como uma janela de bate-papo e começa a se comportar como um colega que possui parte do seu trabalho. A aposta de Leopold Aschenbrenner é específica: até 2027, a maioria dos trabalhadores do conhecimento interagirá diariamente com agentes que planejam, lembram e executam, não apenas respondem perguntas. Essa mudança transforma a "engenharia de comandos" em algo mais próximo da gestão e colaboração.

Imagine um agente de gerenciamento de projetos integrado ao Slack e ao Jira da sua empresa. Você define um objetivo—“lançar o novo fluxo de integração até 15 de março”—e ele decompõe o trabalho, cria tickets, negocia dependências com outros agentes e contata humanos apenas para aprovações ou decisões que exigem julgamento. Ele rastreia gráficos de queima, prevê atrasos usando a velocidade histórica e elabora automaticamente atualizações para as partes interessadas.

Um engenheiro de software pode entregar a um sistema não restrito um monólito bagunçado e dizer: “Encontre gargalos de desempenho e proponha um plano de migração para serviços.” O agente examina o repositório, constrói gráficos de chamadas, executa perfis em um ambiente de testes, abre pull requests com refatorações e escreve testes de regressão. Engenheiros humanos revisam e orientam, mas o trabalho maçante de explorar código legado e ligar o boilerplate desaparece na maior parte.

Os analistas de mercado poderiam transferir projetos de pesquisa inteiros em vez de consultas avulsas. Um agente com ferramentas web ao vivo e acesso à API poderia: - Coletar discursos de resultados e relatórios 10-K em um setor - Rastrear dados de preço, sentimento e volume em tempo real - Executar análises de cenário e simulações de Monte Carlo em modelos de fluxo de caixa - Sintetizar um resumo de 20 páginas com gráficos, alertas e negociações recomendadas

Referências como ARC-AGI-2 e conjuntos de dados no Repositório de Referências do GPT-5 impulsionam essa transformação de forma silenciosa, mas a experiência superficial parece mundana: menos abas, menos reuniões, menos documentos de status que você escreve à mão. A mágica vem de desobstruir as restrições que Aschenbrenner menciona—janelas de contexto curtas, falta de ferramentas, ausência de memória de longo prazo, nenhum ciclo de planejamento—e envolver os modelos em uma estrutura que os corrige.

Seu trabalho, enquanto isso, deixa de ser “digite um prompt inteligente, receba uma resposta inteligente.” Você precisará definir objetivos de forma clara, negociar compromissos e revisar planos da mesma forma que faria com um colega júnior. A colaboração envolve estabelecer limites, verificar raciocínios e integrar agentes aos fluxos de trabalho existentes, em vez de cuidar de um chatbot.

A Verdadeira Corrida da IA É Sobre Sistemas, Não Tamanho

O alvoroço viral em torno de um GPT-5 secreto que supostamente "passou" no ARC-AGI-2 com 75% de acertos acabou se revelando errado. No entanto, a história, acidentalmente, tocou em uma verdade mais profunda: a fronteira não está mais dentro de um único grande modelo, ela reside nos sistemas que o cercam.

A própria tabela de pontuação do ARC Prize mostra o GPT-5 com 9,9% e o GPT-5.2 em torno de 53–54%, longe dos alegados 75–76%. Essa discrepância entre o rumor e a realidade destaca quanto do progresso atual se deve a melhor orquestração, pesquisa e ferramentas, em vez de um novo cérebro mágico de trilhões de parâmetros.

Os modelos fundamentais ainda são importantes; o GPT-5.2 aproximadamente triplicou a pontuação de 17,6% do GPT-5.1 no ARC-AGI-2. Mas os maiores avanços agora vêm do “desbloqueio” desses modelos com apoios: IA de gerência, uso de ferramentas, memória de longo prazo e planejamento em múltiplas etapas que extraem um raciocínio muito mais eficaz a partir dos mesmos pesos subjacentes.

Essa mudança reescreve silenciosamente o panorama competitivo. Você não precisa mais possuir um data center hiperscala para competir; você precisa projetar a pilha agencial mais inteligente em cima de qualquer acesso à API que você puder comprar.

Um pequeno laboratório pode pegar um modelo pronto e adicionar: - Um planejador que decompõe problemas em subobjetivos - Um roteador de ferramentas que chama código, busca e solucionadores especializados - Um verificador que faz uma verificação cruzada e itera sobre as respostas

Em tarefas semelhantes ao ARC, essas adições podem significar a diferença entre desempenho de um dígito e desempenho próximo ao humano.

O suposto “gerenciador de IA” da Poetic se encaixa nesse arco: um controlador que decide qual modelo chamar, quantas amostras gerar e quando tentar novamente ou escalar. Independentemente de os números do GPT-5 se sustentarem, a arquitetura aponta na direção certa: sistemas que tratam os LLMs como componentes, e não como oráculos.

Essa é a verdadeira corrida: quem consegue construir os sistemas de raciocínio mais capazes e eficientes em custo por dólar de computação, não quem pode anunciar a maior contagem bruta de parâmetros. O tamanho do modelo ainda proporciona margem, mas a liberação das limitações determina quanto dessa margem se transforma em capacidade utilizável.

Assista à desobstrução como o fio condutor entre chatbots e colegas de trabalho. O caminho mais rápido das LLMs de hoje para os agentes de amanhã passa pela engenharia de sistemas, não apenas por GPUs maiores.

Perguntas Frequentes

Qual é o marco de referência ARC-AGI-2?

É um teste desenvolvido por Francois Chollet para medir a 'inteligência fluida' de uma IA — sua capacidade de resolver quebra-cabeças de raciocínio abstrato e novo com muito poucos exemplos, algo que os humanos acham fácil, mas que a IA atual enfrenta dificuldades.

O que significa 'destravar' uma IA?

Criado por Leopold Aschenbrenner, 'desobstrução' refere-se à melhoria do desempenho de uma IA removendo suas limitações, não aumentando o modelo base. Isso é feito construindo sistemas mais inteligentes ao seu redor, como adicionar memória, ferramentas ou estruturas de raciocínio passo a passo.

O GPT-5 realmente passou no benchmark de nível humano?

Não. Apesar das alegações virais, as tabelas de classificação oficiais mostram que o GPT-5.2 obteve cerca de 54% no ARC-AGI-2, um salto significativo, mas ainda abaixo da média humana de ~60-100%. O progresso vem de técnicas de "desbloqueio", não apenas do poder do modelo base.

Quem é Leopold Aschenbrenner?

Ele é um ex-pesquisador da OpenAI conhecido por seu detalhado artigo de 2024, 'Consciência Situacional: A Década à Frente', que discute a rápida progressão estratégica em direção à AGI e populariza conceitos como 'desobstrução'.

Frequently Asked Questions

Qual é o marco de referência ARC-AGI-2?
É um teste desenvolvido por Francois Chollet para medir a 'inteligência fluida' de uma IA — sua capacidade de resolver quebra-cabeças de raciocínio abstrato e novo com muito poucos exemplos, algo que os humanos acham fácil, mas que a IA atual enfrenta dificuldades.
O que significa 'destravar' uma IA?
Criado por Leopold Aschenbrenner, 'desobstrução' refere-se à melhoria do desempenho de uma IA removendo suas limitações, não aumentando o modelo base. Isso é feito construindo sistemas mais inteligentes ao seu redor, como adicionar memória, ferramentas ou estruturas de raciocínio passo a passo.
O GPT-5 realmente passou no benchmark de nível humano?
Não. Apesar das alegações virais, as tabelas de classificação oficiais mostram que o GPT-5.2 obteve cerca de 54% no ARC-AGI-2, um salto significativo, mas ainda abaixo da média humana de ~60-100%. O progresso vem de técnicas de "desbloqueio", não apenas do poder do modelo base.
Quem é Leopold Aschenbrenner?
Ele é um ex-pesquisador da OpenAI conhecido por seu detalhado artigo de 2024, 'Consciência Situacional: A Década à Frente', que discute a rápida progressão estratégica em direção à AGI e populariza conceitos como 'desobstrução'.
🚀Discover More

Stay Ahead of the AI Curve

Discover the best AI tools, agents, and MCP servers curated by Stork.AI. Find the right solutions to supercharge your workflow.

Back to all posts