Resumo / Pontos-chave
O Velho Oeste da AGI Acabou
A busca pela Inteligência Artificial Geral (AGI) impulsiona uma corrida global feroz, muitas vezes caótica, entre os principais laboratórios de IA. Bilhões de dólares e incontáveis horas são investidos no desenvolvimento de sistemas capazes de cognição em nível humano, mas a linha de chegada para este empreendimento monumental permanece indefinida. Cada grande player declara a AGI como seu objetivo final, mas nenhum concorda sobre o que alcançá-la realmente implica, criando um cenário de "Velho Oeste" onde o progresso é subjetivo e muitas vezes inquantificável.
Grandes laboratórios oferecem visões marcadamente diferentes para a AGI, destacando a falta de consenso da indústria. A OpenAI a define como "um sistema altamente autônomo que supera os humanos na maioria dos trabalhos economicamente valiosos", enfatizando a utilidade econômica.
Em contraste, o co-fundador do Google DeepMind, Shane Legg, descreve uma AGI como "um agente artificial que pode, pelo menos, fazer o tipo de coisas cognitivas que as pessoas tipicamente podem fazer". Francis Chollet, criador do ARC benchmark, enquadra a inteligência em torno da eficiência na aquisição de habilidades – quão rapidamente um sistema aprende novos conceitos.
Esta profunda ambiguidade definicional torna quase impossível qualquer avaliação objetiva do progresso da AGI. Sem uma compreensão compartilhada do alvo, a indústria recorre a avaliações subjetivas, "baseadas em sensações", das capacidades da IA. Essas avaliações são frequentemente impulsionadas por pontuações de benchmark impressionantes, mas restritas, que frequentemente sofrem de contaminação de dados ou memorização, obscurecendo a verdadeira inteligência generalizada.
O problema torna-se claro: como se mede com precisão o avanço em direção a um objetivo que nem sequer pode ser consistentemente definido? Este desafio fundamental tem atormentado a comunidade de IA, criando um ambiente especulativo onde avanços genuínos são difíceis de distinguir de meras melhorias incrementais. O artigo recente do Google DeepMind confronta diretamente este vácuo de medição, propondo uma mudança radical na forma como avaliamos sistemas inteligentes.
O Novo Livro de Regras do Google para a Inteligência
Silenciosamente, em 16 de março de 2026, o Google DeepMind revelou um artigo marcante pronto para redefinir a busca pela Inteligência Artificial Geral. Intitulado 'Measuring Progress Towards AGI: A Cognitive Framework', este documento aborda diretamente o atual "Velho Oeste" da AGI, propondo uma abordagem estruturada e científica para a avaliação. Ele substitui as linhas de chegada arbitrárias dos benchmarks existentes por um livro de regras abrangente para a própria inteligência, fundamentado em décadas de ciência cognitiva humana.
A proposta central do DeepMind defende uma mudança radical de pontuações de benchmark únicas e manipuláveis que frequentemente deturpam as verdadeiras capacidades de uma IA. Em vez disso, o artigo postula a necessidade de um perfil cognitivo completo, modelado meticulosamente na inteligência humana. Este framework avalia as capacidades de um sistema de IA em 10 faculdades cognitivas distintas — incluindo percepção, raciocínio e cognição social — comparando diretamente seu desempenho com distribuições humanas reais. Isso garante uma compreensão holística do panorama intelectual de uma IA, indo além da mera conclusão de tarefas para avaliar a inteligência genuína.
Crucialmente, o framework faz uma distinção fundamental: ele se concentra diretamente no *que* um sistema pode realizar, não em *como* ele o alcança. Se uma AI utiliza transformer architectures, diffusion models, ou mecanismos inteiramente novos é irrelevante para sua avaliação. A ênfase do artigo permanece unicamente nos resultados observáveis e nas habilidades intelectuais demonstráveis, separando a avaliação da implementação tecnológica subjacente. Esta abordagem de "caixa preta" garante ampla aplicabilidade e prepara a avaliação para o futuro à medida que as tecnologias de AI continuam a evoluir.
Esta iniciativa representa um passo crucial para injetar o tão necessário rigor científico na conversa sobre AGI. Ao fornecer uma linguagem comum e um protocolo de avaliação padronizado e multidimensional, a Google DeepMind visa unificar os esforços de pesquisa em todo o mundo. Procura estabelecer um padrão universal, permitindo que laboratórios em todo o mundo meçam o progresso de forma objetiva e colaborativa, transformando a corrida pela AGI de um sprint caótico num empreendimento científico transparente e partilhado. Este framework oferece uma base robusta para acompanhar o verdadeiro avanço em direção à inteligência geral de nível humano.
Desconstruindo a Mente: As 10 Faculdades
O novo framework da Google DeepMind ancora-se numa taxonomia cognitiva precisa, uma classificação estruturada das habilidades mentais. Esta não é uma lista arbitrária inventada para AI; em vez disso, ela se baseia diretamente em décadas de pesquisa estabelecida em ciência cognitiva, psicologia e neurociência. O framework mapeia deliberadamente como a inteligência humana tem sido estudada, fornecendo uma base robusta e empiricamente fundamentada para avaliar sistemas artificiais. Esta escolha fundamental move a discussão sobre AGI da abstração filosófica para a comparação mensurável e científica.
Centrais a esta taxonomia são 10 faculdades cognitivas distintas, identificadas como os blocos de construção fundamentais da inteligência observada em humanos: - Percepção: Extrair e processar informações sensoriais. - Geração: Produzir saídas úteis como texto, fala ou ações. - Atenção: Focar recursos cognitivos em informações relevantes. - Aprendizagem: Adquirir novos conhecimentos e adaptar-se após a implantação. - Memória: Armazenar e recuperar informações ao longo do tempo, e esquecer dados desatualizados. - Raciocínio: Tirar conclusões válidas através de várias inferências lógicas. - Metacognição: Conhecimento e monitoramento dos próprios processos cognitivos, incluindo autoconsciência da incerteza. - Funções Executivas: Planejar, inibir impulsos e mudar estratégias para atingir objetivos. - Resolução de Problemas: Aplicar múltiplas faculdades para encontrar soluções para desafios novos. - Cognição Social: Compreender sinais sociais, inferir os pensamentos dos outros e cooperar apropriadamente.
Estas dez faculdades formam coletivamente um perfil abrangente, projetado para avaliar sistemas de AI contra todo o espectro das capacidades cognitivas humanas. Em vez de uma única "pontuação AGI" facilmente manipulável, a Google DeepMind propõe avaliar o desempenho da AI em cada uma dessas dimensões, comparando-o diretamente com as referências humanas. Esta abordagem granular promete uma avaliação muito mais objetiva e informativa do verdadeiro progresso intelectual de uma AI.
Significativamente, o artigo enfatiza a avaliação *do que* um sistema pode realizar, não *como* ele o alcança. Esta distinção crucial garante que a estrutura permaneça agnóstica à tecnologia, aplicável a qualquer arquitetura de AI, de transformers a designs inovadores, sem viés para metodologias específicas. Para um aprofundamento nos detalhes da estrutura, consulte o Measuring Progress Towards AGI: A Cognitive Framework - Google Blog. O hackathon Kaggle que o acompanha, com seu prêmio total de US$ 200.000, sublinha ainda mais o compromisso da Google DeepMind em construir colaborativamente avaliações robustas, particularmente para áreas complexas como Metacognition e cognição social, onde a lacuna de avaliação é atualmente a maior. Seções futuras aprofundarão cada uma dessas 10 faculdades em detalhes, explorando os métodos de avaliação propostos pela Google DeepMind e as profundas implicações para o desenvolvimento da AGI.
Blocos de Construção da Cognição (Parte 1)
O artigo inovador da Google DeepMind, 'Measuring Progress Towards AGI: A Cognitive Framework', apresenta uma rigorosa taxonomia cognitiva de 10 faculdades para avaliar a AI. Esta estrutura detalhada estabelece "blocos de construção" essenciais da cognição, começando com as cinco primeiras faculdades fundamentais que governam como um sistema inteligente interage e processa seu mundo. Esses componentes vão além de benchmarks simplistas para definir capacidades matizadas.
Percepção se apresenta como a faculdade inicial, avaliando a capacidade de uma AI de interpretar dados sensoriais, não apenas detectá-los. Isso inclui compreender uma cena visual complexa, reconhecer objetos, relacionamentos e contexto, ou interpretar com precisão os significados sutis na fala humana e no texto escrito. Ela mede a capacidade do sistema de extrair significado rico e acionável de dados brutos.
Em seguida, Geração avalia a capacidade de uma AI de produzir saídas úteis, coerentes e muitas vezes inovadoras. Isso varia desde a criação de texto articulado e contextualmente relevante e a síntese de fala com som natural, até a execução de ações precisas de computador e movimentos motores em ambientes físicos ou virtuais. Ela mede a habilidade de uma AI em traduzir a compreensão interna em resultados tangíveis e externos.
A terceira faculdade crucial, Atenção, examina a capacidade de uma AI, semelhante à humana, de focar recursos cognitivos seletivamente. Isso significa concentrar-se em informações salientes dentro de um vasto conjunto de dados, enquanto filtra eficazmente as distrações irrelevantes. Os modelos atuais de AI frequentemente processam tudo simultaneamente; a verdadeira atenção significa uma mudança de paradigma em direção a um processamento mais eficiente e orientado a objetivos.
Aprendizagem e Memória formam o quarto e quinto pilares interconectados. A Aprendizagem avalia a capacidade de uma AI para continual learning, adquirindo novos conhecimentos e adaptando comportamentos em tempo real pós-implantação, semelhante a um humano dominando um novo jogo de cartas ou se ajustando a um novo emprego. A Memória complementa isso, medindo a capacidade do sistema de armazenar e recuperar informações de forma robusta por longos períodos, e igualmente importante, de esquecer inteligentemente dados desatualizados ou irrelevantes, prevenindo a sobrecarga cognitiva.
As Ordens Superiores do Pensamento (Parte 2)
Além das funções sensoriais e de memória fundamentais, a estrutura da Google DeepMind eleva cinco faculdades cognitivas complexas, cruciais para alcançar inteligência em nível humano. O Raciocínio forma um pilar crítico, permitindo que os sistemas tirem conclusões válidas através de várias formas lógicas. Isso inclui raciocínio dedutivo, raciocínio indutivo, raciocínio analógico e inferência matemática, indo além da memorização mecânica para a verdadeira compreensão.
Talvez a lacuna mais significativa na IA atual, a Metacognição, avalia a autoconsciência de uma IA e a compreensão do seu próprio conhecimento. Um sistema pode "saber o que sabe", expressar incerteza ou articular suas limitações quando confrontado com novas consultas? Os modelos atuais são notoriamente conhecidos por "dar a resposta errada com confiança", carecendo dessa capacidade vital de monitorar seus próprios processos cognitivos, embora Claude tenha começado a exibir sinais incipientes.
Em seguida, as Funções Executivas governam a capacidade de uma IA para controle de alto nível e ação estratégica. Essas habilidades, frequentemente comparadas ao CEO do cérebro, englobam planejamento sofisticado, a capacidade crítica de inibir impulsos e a mudança dinâmica de estratégias em resposta a condições variáveis. Elas permitem que uma IA defina um objetivo e o persiga diligentemente, ajustando sua abordagem e mantendo o foco por períodos prolongados para alcançar objetivos complexos.
A Resolução de Problemas sintetiza essas diversas habilidades cognitivas para enfrentar desafios novos e do mundo real. Essa faculdade exige que uma IA integre percepção, raciocínio, planejamento e aprendizado, aplicando-os de forma coesa para encontrar soluções eficazes em domínios desconhecidos. Ela representa a capacidade de um sistema para inteligência adaptativa, indo além de respostas pré-programadas para abordar genuinamente situações novas e complexas que exigem soluções criativas.
Finalmente, a Cognição Social aborda a capacidade de uma IA de navegar pelas complexidades da interação e colaboração humanas. Isso envolve a compreensão de sinais sociais sutis, a inferência precisa das intenções e pensamentos de outras pessoas, a cooperação eficaz, a negociação de resultados e a resposta apropriada em situações sociais intrincadas. É indispensável para sistemas que operam em ambientes centrados no ser humano, indo além de tarefas isoladas para o engajamento colaborativo dentro de dinâmicas sociais complexas.
Esta taxonomia abrangente, introduzida no artigo "Measuring Progress Towards AGI: A Cognitive Framework" em 16 de março de 2026, foca no *que* um sistema realiza, não em *como* ele o faz. O framework da DeepMind ignora explicitamente arquiteturas subjacentes como transformers ou diffusion models, priorizando o comportamento inteligente observável. Ele fornece uma lente universal para medir o progresso em direção à AGI, independentemente de abordagens tecnológicas específicas ou mecanismos internos.
O Confronto Humano Definitivo
O framework da Google DeepMind culmina em um protocolo de avaliação rigoroso de três estágios, projetado para fornecer uma avaliação abrangente e imparcial da inteligência da IA. Essa abordagem sistemática visa ir além de evidências anedóticas e benchmarks de métrica única, estabelecendo um novo padrão para rastrear o progresso em direção à AGI.
Primeiro, a fase de avaliação cognitiva envolve submeter a IA a um amplo conjunto de tarefas, cada uma meticulosamente projetada para isolar e testar uma faculdade cognitiva específica. Crucialmente, essas tarefas permanecem privadas e retidas, verificadas independentemente por terceiros. Essa medida rigorosa combate diretamente a questão generalizada da contaminação de dados, garantindo que a IA não tenha simplesmente memorizado respostas durante o treinamento, o que inflaria falsamente sua inteligência percebida.
Em seguida, o framework estabelece linhas de base humanas robustas. Pesquisadores administram as mesmas tarefas, sob condições idênticas, a uma amostra grande e demograficamente representativa de adultos humanos, todos possuindo pelo menos um nível de educação de ensino médio. Esta etapa gera uma distribuição genuína do desempenho humano, fornecendo o contexto essencial do mundo real contra o qual as capacidades da IA podem ser medidas com precisão.
Finalmente, o processo gera perfis cognitivos detalhados. Os desenvolvedores traçam o desempenho da IA em cada uma das dez faculdades diretamente contra a distribuição humana coletada. O gráfico de radar resultante oferece uma representação visual imediata e intuitiva, destacando precisamente onde um sistema de IA se destaca e onde fica aquém em comparação com as habilidades humanas típicas. Para mais informações sobre as características específicas, consulte Google DeepMind Plans to Track AGI Progress With These 10 Traits of General Intelligence.
Esses perfis podem ilustrar sistemas com desempenho abaixo da mediana humana em várias áreas, ou aqueles que a excedem em todas as dez faculdades. Mesmo um sistema que atinja o 99th percentile em todas as áreas, igualando ou superando quase todos os humanos na amostra em cada tarefa, representa um marco profundo, embora o artigo observe cautelosamente que isso não provaria definitivamente a AGI devido às limitações inerentes de qualquer amostra finita de capacidade humana.
O Que Este 'IQ Test' Ainda Não Aborda
O "cognitive framework" da Google DeepMind oferece uma avaliação robusta, mas o próprio artigo reconhece abertamente limitações críticas. Nenhuma avaliação única pode capturar todo o espectro da inteligência, e este "IQ test" proposto para IA não é exceção.
Crucialmente, o framework mede exclusivamente a capacidade cognitiva, não a velocidade de execução. Uma IA pode demonstrar raciocínio perfeito, mas se levar minutos para processar uma decisão de milissegundos, ela permanece impraticável para aplicações do mundo real, como veículos autônomos, high-frequency trading ou robótica cirúrgica, onde a resposta oportuna é primordial.
Além do intelecto bruto, o framework ignora as propensões do sistema inerentes de uma IA. Ele não pode quantificar se um agente é inerentemente avesso ao risco, imprudente, conservador ou agressivo. Tais tendências são primordiais para a implantação ética e o alinhamento com os valores humanos, especialmente em cenários de alto risco onde o caráter operacional de uma IA importa tanto quanto sua competência.
Outro desafio significativo surge do problema "modelo versus sistema". Uma IA deve ser avaliada usando seu conjunto completo de ferramentas externas, semelhante a permitir uma calculadora durante um IQ test humano? Google DeepMind propõe avaliar o sistema completo, incluindo o acesso a ferramentas, mas em tarefas especificamente projetadas para que essas ajudas não trivializem o desafio cognitivo subjacente que está sendo medido.
Essa abordagem matizada visa evitar que uma IA simplesmente descarregue tarefas cognitivas complexas para utilitários externos sem demonstrar compreensão intrínseca. O objetivo permanece medir a *inteligência*, não meramente o uso eficiente de ferramentas, garantindo que o framework diferencie entre a verdadeira destreza cognitiva e funções de consulta sofisticadas.
Essas lacunas reconhecidas destacam que mesmo um "IQ test" cognitivo meticulosamente projetado para sistemas de IA permanece um trabalho em andamento. Embora definir *o que* a inteligência implica seja um passo monumental, entender *como* ela se manifesta em ambientes dinâmicos e carregados de valores exigirá uma evolução adicional das metodologias de avaliação.
Uma Caçada de $200.000 Pelos Elos Mais Fracos da AGI
O framework da Google DeepMind vai além das propostas teóricas. Para operacionalizar imediatamente sua ambiciosa taxonomia cognitiva, o Google lançou um Kaggle hackathon concomitantemente com o lançamento do artigo. Essa medida transformou o exercício acadêmico em uma iniciativa concreta e impulsionada pela comunidade.
O hackathon oferece um substancial prêmio total de US$ 200.000, incentivando pesquisadores e desenvolvedores globalmente. Este investimento significativo visa a colaboração massiva para a criação de tarefas de avaliação reais, abordando diretamente a necessidade da estrutura por avaliações novas e imparciais em suas dez faculdades. O Google entende o desafio monumental de construir esses testes do zero.
Crucialmente, o hackathon visa cinco faculdades cognitivas específicas onde os métodos atuais de avaliação de IA são mais fracos ou inexistentes. Estas incluem: - Aprendizagem - Metacognição - Atenção - Funções executivas - Cognição social
Estas categorias representam alguns dos aspectos mais complexos e semelhantes aos humanos da inteligência, apresentando um obstáculo considerável para uma avaliação robusta e não manipulável. Os benchmarks existentes frequentemente ficam aquém nessas áreas matizadas.
Ao envolver a comunidade global de IA, o Google DeepMind busca desenvolver rapidamente os testes sofisticados e direcionados essenciais para seu protocolo de avaliação de três estágios. Essa abordagem colaborativa visa preencher as lacunas mais significativas em nossa capacidade coletiva de medir e compreender a verdadeira inteligência de máquina, transformando um artigo acadêmico em um padrão vivo e em evolução. O hackathon significa um compromisso com a implementação prática, não apenas com a conceituação.
Este é o Único Teste Decisivo?
O "Measuring Progress Towards AGI: A Cognitive Framework" do Google DeepMind estabelece um novo padrão ouro para a avaliação abrangente de AGI, mas existe dentro de um ecossistema mais amplo de benchmarks críticos. A comunidade de pesquisa em IA utiliza diversas avaliações, cada uma projetada para iluminar facetas distintas da inteligência de máquina. De forma proeminente, o ARC-AGI, ou o Abstraction and Reasoning Corpus, desenvolvido pelo pesquisador de IA do Google François Chollet, oferece uma perspectiva nitidamente contrastante.
O ARC-AGI de Chollet apresenta um tipo de desafio profundamente diferente. Ao contrário da extensa taxonomia cognitiva do Google DeepMind, que mapeia a inteligência em 10 faculdades distintas, o ARC-AGI foca estritamente na inteligência fluida e na capacidade de inferir regras a partir de exemplos mínimos. Ele compreende quebra-cabeças visuais abstratos, exigindo que um agente observe pares de input-output e, em seguida, aplique a transformação aprendida a um novo input não visto. A demanda central é a generalização genuína além dos dados de training.
Criticamente, os modelos de IA de ponta atuais, apesar de suas impressionantes proezas em geração de linguagem, síntese de imagens e jogos estratégicos complexos, alcançam pontuações próximas de zero no ARC-AGI. Esses modelos, frequentemente treinados em vastos conjuntos de dados, se destacam no reconhecimento de padrões dentro de distribuições familiares. No entanto, eles consistentemente falham quando confrontados com o raciocínio indutivo fundamental e a resolução de problemas novos exigidos pelos quebra-cabeças de Chollet, tarefas que uma criança humana poderia compreender intuitivamente.
Essa disparidade marcante ilustra vividamente a "fronteira irregular" do progresso da IA. As máquinas agora rotineiramente superam o desempenho humano em domínios altamente especializados como Go, xadrez ou até mesmo geração avançada de código. No entanto, elas simultaneamente lutam com o que parecem ser tarefas trivialmente simples para humanos, como compreender relações causais básicas ou adaptar-se a estruturas de problemas abstratas e totalmente novas sem programação explícita. A estrutura do Google DeepMind visa mapear essa paisagem desigual de forma abrangente, enquanto o ARC-AGI expõe uma lacuna persistente e crítica nas habilidades cognitivas fundamentais da IA. Ambos os tipos de benchmarks são indispensáveis para realmente compreender e navegar no complexo caminho para a AGI.
Adeus Intuições, Olá Ciência
O novo framework do Google DeepMind marca uma mudança profunda, redefinindo fundamentalmente a busca pela Inteligência Artificial Geral. Isso não é meramente mais um benchmark; estabelece uma mudança de paradigma para todo o campo, substituindo alegações especulativas por uma metodologia rigorosa e científica.
Longe vão os dias de pronunciamentos vagos e demonstrações selecionadas a dedo. Os pesquisadores agora podem ir além de "vibes" subjetivas e evidências anedóticas, fundamentando o progresso da AGI em um padrão quantificável e verificável. As 10 faculdades cognitivas propostas e o protocolo de avaliação em três estágios oferecem uma lente objetiva para avaliar as capacidades em relação ao desempenho humano real.
Esta taxonomia cognitiva granular fornece uma ferramenta de diagnóstico inestimável. Os desenvolvedores agora podem identificar fraquezas específicas em seus modelos, identificando precisamente quais faculdades — seja metacognição, funções executivas ou cognição social — exigem desenvolvimento adicional. Este mapa cognitivo transforma a pesquisa em AGI de um esforço disperso em um desafio de engenharia direcionado e sistemático.
O hackathon Kaggle de $200.000 que o acompanha sublinha ainda mais o compromisso do Google com esta abordagem científica. Ao convidar a comunidade de pesquisa global para construir avaliações para estas faculdades específicas, o Google está ativamente promovendo um caminho colaborativo e baseado em dados em direção à AGI, em vez de uma competição interna e opaca.
Em última análise, este framework eleva a conversa sobre AGI. A questão não é mais apenas *se* podemos construir máquinas verdadeiramente inteligentes, mas *como* iremos medir, verificar e navegar sistematicamente nossa jornada em direção a elas. Ele inaugura uma era de verificação científica para a inteligência artificial.
Perguntas Frequentes
O que é o novo framework AGI do Google?
É uma proposta do Google DeepMind para medir o progresso em direção à AGI, testando sistemas de IA em 10 faculdades cognitivas centrais, comparando seu desempenho diretamente com as referências humanas, em vez de usar uma única pontuação.
Quais são as 10 faculdades cognitivas no framework?
As 10 faculdades são Perception, Generation, Attention, Learning, Memory, Reasoning, Metacognition, Executive Functions, Problem Solving e Social Cognition.
Como isso é diferente dos benchmarks de IA existentes?
Ao contrário dos benchmarks que testam habilidades específicas como codificação ou matemática, este framework fornece um perfil cognitivo holístico. Ele visa prevenir o 'ensino para o teste' usando tarefas privadas e verificadas por terceiros.
Este novo framework significa que a AGI está próxima?
Não. O framework em si é uma ferramenta de medição, não uma alegação de conquista. Ele foi projetado para fornecer um roteiro científico claro para acompanhar o progresso em direção à AGI, movendo a conversa da especulação para a evidência empírica.