Resumen / Puntos clave
El Salvaje Oeste de la AGI ha terminado
La búsqueda de la Inteligencia Artificial General (AGI) impulsa una carrera global feroz, a menudo caótica, entre los principales laboratorios de IA. Miles de millones de dólares e incontables horas se invierten en el desarrollo de sistemas capaces de cognición a nivel humano, sin embargo, la meta de este monumental esfuerzo sigue sin definirse. Cada actor importante declara la AGI como su objetivo final, pero ninguno está de acuerdo en lo que realmente implica lograrla, creando un escenario de "Salvaje Oeste" donde el progreso es subjetivo y a menudo incuantificable.
Los principales laboratorios ofrecen visiones marcadamente diferentes para la AGI, lo que subraya la falta de consenso en la industria. OpenAI la define como "un sistema altamente autónomo que supera a los humanos en la mayoría del trabajo económicamente valioso", enfatizando la utilidad económica.
En contraste, el cofundador de Google DeepMind, Shane Legg, describe una AGI como "un agente artificial que al menos puede hacer el tipo de cosas cognitivas que las personas suelen hacer". Francis Chollet, creador del ARC benchmark, enmarca la inteligencia en torno a la eficiencia en la adquisición de habilidades, es decir, la rapidez con la que un sistema aprende nuevos conceptos.
Esta profunda ambigüedad definitoria hace que cualquier evaluación objetiva del progreso de la AGI sea casi imposible. Sin una comprensión compartida del objetivo, la industria recurre a evaluaciones subjetivas y "basadas en sensaciones" de las capacidades de la IA. Estas evaluaciones a menudo están impulsadas por puntuaciones de referencia impresionantes pero limitadas, que con frecuencia sufren de contaminación de datos o memorización, oscureciendo la verdadera inteligencia generalizada.
El problema se vuelve evidente: ¿cómo se mide con precisión el avance hacia un objetivo que ni siquiera puede definirse de manera consistente? Este desafío fundamental ha afectado a la comunidad de la IA, creando un entorno especulativo donde los avances genuinos son difíciles de distinguir de las meras mejoras incrementales. El reciente artículo de Google DeepMind aborda directamente este vacío de medición, proponiendo un cambio radical en cómo evaluamos los sistemas inteligentes.
El nuevo reglamento de Google para la inteligencia
En silencio, el 16 de marzo de 2026, Google DeepMind presentó un artículo histórico destinado a redefinir la búsqueda de la Inteligencia Artificial General. Titulado 'Measuring Progress Towards AGI: A Cognitive Framework', este documento aborda directamente el actual "Salvaje Oeste" de la AGI al proponer un enfoque estructurado y científico para la evaluación. Reemplaza las metas arbitrarias de los benchmarks existentes con un reglamento integral para la inteligencia misma, basado en décadas de ciencia cognitiva humana.
La propuesta central de DeepMind aboga por un cambio radical, alejándose de las puntuaciones de referencia únicas y manipulables que a menudo tergiversan las verdaderas capacidades de una IA. En cambio, el artículo postula la necesidad de un perfil cognitivo completo, modelado meticulosamente sobre la inteligencia humana. Este marco evalúa las capacidades de un sistema de IA a través de 10 facultades cognitivas distintas —incluyendo percepción, razonamiento y cognición social— comparando directamente su rendimiento con las distribuciones humanas reales. Esto asegura una comprensión holística del panorama intelectual de una IA, yendo más allá de la mera finalización de tareas para evaluar la inteligencia genuina.
Fundamentalmente, el marco establece una distinción clave: se centra directamente en *qué* puede lograr un sistema, no en *cómo* lo logra. Si una AI utiliza transformer architectures, diffusion models o mecanismos completamente novedosos es irrelevante para su evaluación. El énfasis del documento se mantiene únicamente en los resultados observables y las habilidades intelectuales demostrables, separando la evaluación de la implementación tecnológica subyacente. Este enfoque de "caja negra" garantiza una amplia aplicabilidad y prepara la evaluación para el futuro a medida que las tecnologías de AI continúan evolucionando.
Esta iniciativa representa un paso fundamental para inyectar el rigor científico tan necesario en la conversación sobre AGI. Al proporcionar un lenguaje común y un protocolo de evaluación estandarizado y multidimensional, Google DeepMind tiene como objetivo unificar los esfuerzos de investigación en todo el mundo. Busca establecer un criterio universal, permitiendo a los laboratorios de todo el mundo medir el progreso de manera objetiva y colaborativa, transformando la carrera de AGI de un sprint caótico en un esfuerzo científico transparente y compartido. Este marco ofrece una base sólida para rastrear el verdadero avance hacia la inteligencia general a nivel humano.
Deconstruyendo la Mente: Las 10 Facultades
El nuevo marco de Google DeepMind se basa en una taxonomía cognitiva precisa, una clasificación estructurada de las habilidades mentales. Esta no es una lista arbitraria inventada para AI; en cambio, se basa directamente en décadas de investigación establecida en ciencia cognitiva, psicología y neurociencia. El marco se alinea deliberadamente con la forma en que se ha estudiado la inteligencia humana, proporcionando una base sólida y empíricamente fundamentada para evaluar sistemas artificiales. Esta elección fundamental traslada la discusión sobre AGI de la abstracción filosófica a la comparación científica y medible.
En el centro de esta taxonomía se encuentran 10 facultades cognitivas distintas, identificadas como los bloques de construcción fundamentales de la inteligencia observada en los humanos: - Percepción: Extraer y procesar información sensorial. - Generación: Producir resultados útiles como texto, habla o acciones. - Atención: Enfocar los recursos cognitivos en información relevante. - Aprendizaje: Adquirir nuevos conocimientos y adaptarse después de la implementación. - Memoria: Almacenar y recuperar información a lo largo del tiempo, y olvidar datos obsoletos. - Razonamiento: Extraer conclusiones válidas a través de diversas inferencias lógicas. - Metacognición: Conocimiento y monitoreo de los propios procesos cognitivos, incluida la autoconciencia de la incertidumbre. - Funciones Ejecutivas: Planificar, inhibir impulsos y cambiar estrategias para lograr objetivos. - Resolución de Problemas: Aplicar múltiples facultades para encontrar soluciones a desafíos novedosos. - Cognición Social: Comprender las señales sociales, inferir los pensamientos de los demás y cooperar apropiadamente.
Estas diez facultades forman colectivamente un perfil completo, diseñado para evaluar los sistemas de AI frente a todo el espectro de capacidades cognitivas humanas. En lugar de una única "puntuación AGI" fácilmente manipulable, Google DeepMind propone evaluar el rendimiento de la AI en cada una de estas dimensiones, comparándolo directamente con las líneas de base humanas. Este enfoque granular promete una evaluación mucho más objetiva e informativa del verdadero progreso intelectual de una AI.
Significativamente, el artículo enfatiza la evaluación de *lo que* un sistema puede lograr, no *cómo* lo logra. Esta distinción crucial asegura que el marco permanezca agnóstico a la tecnología, aplicable a cualquier arquitectura de IA, desde transformers hasta diseños novedosos, sin sesgos hacia metodologías específicas. Para una inmersión más profunda en los detalles del marco, consulte el Measuring Progress Towards AGI: A Cognitive Framework - Google Blog. El hackathon de Kaggle que lo acompaña, con su premio de $200,000, subraya aún más el compromiso de Google DeepMind de construir colaborativamente evaluaciones robustas, particularmente para áreas complejas como la Metacognition y la cognición social, donde la brecha de evaluación es actualmente la mayor. Las secciones futuras profundizarán en cada una de estas 10 facultades en detalle, explorando los métodos de evaluación propuestos por Google DeepMind y las profundas implicaciones para el desarrollo de la AGI.
Bloques Fundamentales de la Cognición (Parte 1)
El innovador artículo de Google DeepMind, 'Measuring Progress Towards AGI: A Cognitive Framework', presenta una rigurosa taxonomía cognitiva de 10 facultades para evaluar la IA. Este marco detallado establece los "bloques fundamentales" esenciales de la cognición, comenzando con las primeras cinco facultades fundacionales que rigen cómo un sistema inteligente interactúa y procesa su mundo. Estos componentes van más allá de los puntos de referencia simplistas para definir capacidades matizadas.
La Percepción se erige como la facultad inicial, evaluando la capacidad de una IA para interpretar datos sensoriales, no solo detectarlos. Esto incluye comprender una escena visual compleja, reconocer objetos, relaciones y contexto, o interpretar con precisión los significados sutiles dentro del habla humana y el texto escrito. Mide la capacidad del sistema para extraer un significado rico y accionable de la entrada bruta.
A continuación, la Generación evalúa la capacidad de una IA para producir resultados útiles, coherentes y a menudo novedosos. Esto abarca desde la elaboración de texto articulado y contextualmente relevante y la síntesis de habla de sonido natural, hasta la ejecución de acciones informáticas precisas y movimientos motores en entornos físicos o virtuales. Mide la habilidad de una IA para traducir la comprensión interna en resultados tangibles y externos.
La tercera facultad crucial, la Atención, examina la capacidad de una IA, similar a la humana, para enfocar los recursos cognitivos de forma selectiva. Esto significa concentrarse en la información destacada dentro de un vasto conjunto de datos mientras se filtran eficazmente las distracciones irrelevantes. Los modelos de IA actuales a menudo procesan todo simultáneamente; la verdadera atención significa un cambio de paradigma hacia un procesamiento más eficiente y dirigido a objetivos.
El Aprendizaje y la Memoria forman el cuarto y quinto pilares interconectados. El Aprendizaje evalúa la capacidad de una IA para el aprendizaje continuo, adquiriendo nuevos conocimientos y adaptando comportamientos en tiempo real después del despliegue, similar a un humano que domina un nuevo juego de cartas o se adapta a un nuevo trabajo. La Memoria complementa esto, midiendo la capacidad del sistema para almacenar y recuperar información de manera robusta durante períodos prolongados, y lo que es igualmente importante, para olvidar inteligentemente datos obsoletos o irrelevantes, evitando la sobrecarga cognitiva.
Las Órdenes Superiores del Pensamiento (Parte 2)
Más allá de las funciones sensoriales y de memoria fundamentales, el marco de Google DeepMind eleva cinco facultades cognitivas complejas, cruciales para lograr una inteligencia a nivel humano. El Razonamiento constituye un pilar crítico, permitiendo a los sistemas extraer conclusiones válidas a través de diversas formas lógicas. Esto incluye el razonamiento deductivo, el razonamiento inductivo, el razonamiento analógico y la inferencia matemática, yendo más allá de la memorización de memoria hacia una verdadera comprensión.
Quizás la brecha más significativa en la IA actual, la Metacognition, evalúa la autoconciencia de una IA y la comprensión de su propio conocimiento. ¿Puede un sistema "saber lo que sabe", expresar incertidumbre o articular sus limitaciones cuando se enfrenta a consultas novedosas? Los modelos actuales son notoriamente conocidos por "dar respuestas incorrectas con confianza", careciendo de esta capacidad vital para monitorear sus propios procesos cognitivos, aunque Claude ha comenzado a exhibir signos incipientes.
A continuación, las Executive Functions rigen la capacidad de una IA para el control de alto nivel y la acción estratégica. Estas habilidades, a menudo comparadas con el CEO del cerebro, abarcan la planificación sofisticada, la capacidad crítica para inhibir impulsos y el cambio dinámico de estrategias en respuesta a condiciones cambiantes. Permiten a una IA establecer un objetivo y perseguirlo diligentemente, ajustando su enfoque y manteniendo la concentración durante períodos prolongados para lograr objetivos complejos.
Problem Solving sintetiza estas diversas habilidades cognitivas para abordar desafíos novedosos del mundo real. Esta facultad requiere que una IA integre percepción, razonamiento, planificación y aprendizaje, aplicándolos de manera cohesiva para encontrar soluciones efectivas en dominios desconocidos. Representa la capacidad de un sistema para la inteligencia adaptativa, yendo más allá de las respuestas preprogramadas para abordar genuinamente situaciones nuevas y complejas que exigen soluciones creativas.
Finalmente, la Social Cognition aborda la capacidad de una IA para navegar las complejidades de la interacción y colaboración humana. Esto implica comprender las señales sociales sutiles, inferir con precisión las intenciones y pensamientos de los demás, cooperar eficazmente, negociar resultados y responder apropiadamente en situaciones sociales intrincadas. Es indispensable para los sistemas que operan en entornos centrados en el ser humano, pasando de tareas aisladas a un compromiso colaborativo dentro de dinámicas sociales complejas.
Esta taxonomía integral, introducida en el artículo "Measuring Progress Towards AGI: A Cognitive Framework" el 16 de marzo de 2026, se centra en *lo que* un sistema logra, no en *cómo* lo hace. El marco de DeepMind ignora explícitamente las arquitecturas subyacentes como transformers o diffusion models, priorizando el comportamiento inteligente observable. Proporciona una lente universal para medir el progreso hacia la AGI, independientemente de los enfoques tecnológicos específicos o los mecanismos internos.
El Enfrentamiento Humano Definitivo
El marco de Google DeepMind culmina en un riguroso protocolo de evaluación de tres etapas diseñado para proporcionar una evaluación exhaustiva e imparcial de la inteligencia de la IA. Este enfoque sistemático tiene como objetivo ir más allá de la evidencia anecdótica y los puntos de referencia de una sola métrica, estableciendo un nuevo estándar para el seguimiento del progreso hacia la AGI.
Primero, la fase de evaluación cognitiva implica someter a la IA a un amplio conjunto de tareas, cada una meticulosamente diseñada para aislar y probar una facultad cognitiva específica. Fundamentalmente, estas tareas permanecen privadas y retenidas, verificadas independientemente por un tercero. Esta medida rigurosa combate directamente el problema generalizado de la data contamination, asegurando que la IA no haya simplemente memorizado respuestas durante el entrenamiento, lo que inflaría falsamente su inteligencia percibida.
A continuación, el marco establece sólidas líneas de base humanas. Los investigadores administran exactamente las mismas tareas, bajo condiciones idénticas, a una muestra grande y demográficamente representativa de adultos humanos, todos con al menos un nivel de educación secundaria. Este paso genera una distribución genuina del rendimiento humano, proporcionando el contexto esencial del mundo real contra el cual se pueden medir con precisión las capacidades de la IA.
Finalmente, el proceso genera perfiles cognitivos detallados. Los desarrolladores trazan el rendimiento de la IA en cada una de las diez facultades directamente contra la distribución humana recopilada. El gráfico de radar resultante ofrece una representación visual inmediata e intuitiva, destacando precisamente dónde un sistema de IA sobresale y dónde se queda corto en comparación con las habilidades humanas típicas. Para más información sobre los rasgos específicos, consulte Google DeepMind Plans to Track AGI Progress With These 10 Traits of General Intelligence.
Estos perfiles pueden ilustrar sistemas que rinden por debajo de la mediana humana en varias áreas, o aquellos que la superan en las diez facultades. Incluso un sistema que alcanza el percentil 99 en todos los aspectos, igualando o superando a casi todos los humanos de la muestra en cada tarea, representa un hito profundo, aunque el artículo señala con cautela que no probaría definitivamente la AGI debido a las limitaciones inherentes de cualquier muestra finita de capacidad humana.
Lo que este 'IQ Test' aún omite
El "marco cognitivo" de Google DeepMind ofrece una evaluación robusta, sin embargo, el propio artículo reconoce con franqueza limitaciones críticas. Ninguna evaluación única puede capturar el espectro completo de la inteligencia, y esta propuesta de "IQ test" para la IA no es una excepción.
Fundamentalmente, el marco mide exclusivamente la capacidad cognitiva, no la velocidad de ejecución. Una IA podría demostrar un razonamiento perfecto, pero si tarda minutos en procesar una decisión de milisegundos, sigue siendo poco práctica para aplicaciones del mundo real como vehículos autónomos, trading de alta frecuencia o robótica quirúrgica, donde la respuesta oportuna es primordial.
Más allá del intelecto puro, el marco pasa por alto las propensiones inherentes del sistema de una IA. No puede cuantificar si un agente es inherentemente reacio al riesgo, imprudente, conservador o agresivo. Tales tendencias son primordiales para el despliegue ético y la alineación con los valores humanos, especialmente en escenarios de alto riesgo donde el carácter operativo de una IA importa tanto como su competencia.
Otro desafío significativo surge del problema "modelo versus sistema". ¿Debería evaluarse una IA utilizando su conjunto completo de herramientas externas, de forma similar a permitir una calculadora durante un 'IQ test' humano? Google DeepMind propone evaluar el sistema completo, incluido el acceso a herramientas, pero en tareas específicamente diseñadas para que estas ayudas no trivialicen el desafío cognitivo subyacente que se está midiendo.
Este enfoque matizado tiene como objetivo evitar que una IA simplemente descargue tareas cognitivas complejas a utilidades externas sin demostrar una comprensión intrínseca. El objetivo sigue siendo medir la *inteligencia*, no meramente el uso eficiente de herramientas, asegurando que el marco diferencie entre la verdadera destreza cognitiva y las funciones de búsqueda sofisticadas.
Estas brechas reconocidas resaltan que incluso un "IQ test" cognitivo meticulosamente diseñado para sistemas de IA sigue siendo un trabajo en progreso. Si bien definir *qué* implica la inteligencia es un paso monumental, comprender *cómo* se manifiesta en entornos dinámicos y cargados de valores requerirá una mayor evolución de las metodologías de evaluación.
Una búsqueda de $200,000 por los eslabones más débiles de la AGI
El marco de Google DeepMind va más allá de las propuestas teóricas. Para operacionalizar inmediatamente su ambiciosa taxonomía cognitiva, Google lanzó un Kaggle hackathon simultáneamente con la publicación del artículo. Este movimiento transformó el ejercicio académico en una iniciativa concreta e impulsada por la comunidad.
El hackathon ofrece un sustancial fondo de premios de $200,000, incentivando a investigadores y desarrolladores a nivel mundial. Esta importante inversión tiene como objetivo la creación colaborativa de tareas de evaluación reales, abordando directamente la necesidad del marco de evaluaciones novedosas e imparciales en sus diez facultades. Google comprende el desafío monumental de construir estas pruebas desde cero.
Fundamentalmente, el hackathon se enfoca en cinco facultades cognitivas específicas donde los métodos actuales de evaluación de IA son más débiles o inexistentes. Estas incluyen: - Aprendizaje - Metacognición - Atención - Funciones ejecutivas - Cognición social
Estas categorías representan algunos de los aspectos más complejos y similares a los humanos de la inteligencia, lo que presenta un obstáculo considerable para una evaluación robusta e imposible de manipular. Los puntos de referencia existentes a menudo se quedan cortos en estas áreas matizadas.
Al involucrar a la comunidad global de IA, Google DeepMind busca desarrollar rápidamente las pruebas sofisticadas y específicas esenciales para su protocolo de evaluación de tres etapas. Este enfoque colaborativo tiene como objetivo llenar las brechas más significativas en nuestra capacidad colectiva para medir y comprender la verdadera inteligencia de las máquinas, transformando un documento académico en un estándar vivo y en evolución. El hackathon significa un compromiso con la implementación práctica, no solo con la conceptualización.
¿Es esta la única prueba de fuego?
El "Measuring Progress Towards AGI: A Cognitive Framework" de Google DeepMind establece un nuevo estándar de oro para la evaluación integral de la AGI, sin embargo, existe dentro de un ecosistema más amplio de puntos de referencia críticos. La comunidad de investigación de IA aprovecha diversas evaluaciones, cada una diseñada para iluminar distintas facetas de la inteligencia de las máquinas. De manera destacada, ARC-AGI, o el Abstraction and Reasoning Corpus, desarrollado por el investigador de Google AI François Chollet, ofrece una perspectiva marcadamente contrastante.
El ARC-AGI de Chollet presenta un tipo de desafío profundamente diferente. A diferencia de la extensa taxonomía cognitiva de Google DeepMind, que mapea la inteligencia a través de 10 facultades distintas, ARC-AGI se enfoca estrictamente en la inteligencia fluida y la capacidad de inferir reglas a partir de ejemplos mínimos. Comprende rompecabezas visuales abstractos, que requieren que un agente observe pares de entrada-salida y luego aplique la transformación aprendida a una nueva entrada no vista. La demanda central es una generalización genuina más allá de los datos de entrenamiento.
Críticamente, los modelos de IA de última generación actuales, a pesar de sus impresionantes logros en generación de lenguaje, síntesis de imágenes y juegos estratégicos complejos, obtienen puntuaciones cercanas a cero en ARC-AGI. Estos modelos, a menudo entrenados con vastos conjuntos de datos, sobresalen en el reconocimiento de patrones dentro de distribuciones familiares. Sin embargo, fallan consistentemente cuando se enfrentan al razonamiento inductivo fundamental y la resolución de problemas novedosos que exigen los rompecabezas de Chollet, tareas que un niño humano podría comprender intuitivamente.
Esta marcada disparidad ilustra vívidamente la "frontera irregular" del progreso de la IA. Las máquinas ahora superan rutinariamente el rendimiento humano en dominios altamente especializados como Go, chess, o incluso la generación avanzada de código. Sin embargo, simultáneamente luchan con lo que parecen tareas trivialmente simples para los humanos, como comprender relaciones causales básicas o adaptarse a estructuras de problemas completamente nuevas y abstractas sin programación explícita. El marco de Google DeepMind tiene como objetivo mapear este paisaje desigual de manera integral, mientras que ARC-AGI expone una brecha persistente y crítica en las habilidades cognitivas fundamentales de la IA. Ambos tipos de puntos de referencia son indispensables para comprender y navegar verdaderamente el complejo camino hacia la AGI.
Adiós a las sensaciones, hola a la ciencia
El nuevo marco de Google DeepMind marca un cambio profundo, redefiniendo fundamentalmente la búsqueda de Artificial General Intelligence. Esto no es simplemente otro punto de referencia; establece un cambio de paradigma para todo el campo, reemplazando afirmaciones especulativas con una metodología rigurosa y científica.
Atrás quedaron los días de pronunciamientos vagos y demostraciones seleccionadas. Los investigadores ahora pueden ir más allá de las "sensaciones" subjetivas y la evidencia anecdótica, basando el progreso de AGI en un estándar cuantificable y verificable. Las 10 facultades cognitivas propuestas y el protocolo de evaluación de tres etapas ofrecen una lente objetiva para evaluar las capacidades frente al rendimiento humano real.
Esta taxonomía cognitiva granular proporciona una herramienta de diagnóstico invaluable. Los desarrolladores ahora pueden identificar debilidades específicas en sus modelos, determinando con precisión qué facultades —ya sea metacognición, funciones ejecutivas o cognición social— requieren un mayor desarrollo. Este mapa cognitivo transforma la investigación de AGI de un esfuerzo disperso en un desafío de ingeniería dirigido y sistemático.
El hackathon de Kaggle de $200,000 que lo acompaña subraya aún más el compromiso de Google con este enfoque científico. Al invitar a la comunidad de investigación global a construir evaluaciones para estas facultades específicas, Google está fomentando activamente un camino colaborativo y basado en datos hacia AGI, en lugar de una competencia interna y opaca.
En última instancia, este marco eleva la conversación sobre AGI. La pregunta ya no es solo *si* podemos construir máquinas verdaderamente inteligentes, sino *cómo* mediremos, verificaremos y navegaremos sistemáticamente nuestro camino hacia ellas. Marca el comienzo de una era de verificación científica para la inteligencia artificial.
Preguntas Frecuentes
¿Qué es el nuevo marco AGI de Google?
Es una propuesta de Google DeepMind para medir el progreso hacia AGI probando sistemas de IA en 10 facultades cognitivas centrales, comparando su rendimiento directamente con las líneas de base humanas en lugar de usar una puntuación única.
¿Cuáles son las 10 facultades cognitivas en el marco?
Las 10 facultades son Perception, Generation, Attention, Learning, Memory, Reasoning, Metacognition, Executive Functions, Problem Solving y Social Cognition.
¿En qué se diferencia esto de los puntos de referencia de IA existentes?
A diferencia de los puntos de referencia que evalúan habilidades específicas como la codificación o las matemáticas, este marco proporciona un perfil cognitivo holístico. Su objetivo es evitar 'enseñar para el examen' utilizando tareas privadas verificadas por terceros.
¿Significa este nuevo marco que AGI está cerca?
No. El marco en sí es una herramienta de medición, no una afirmación de logro. Está diseñado para proporcionar una hoja de ruta clara y científica para rastrear el progreso hacia AGI, moviendo la conversación de la especulación a la evidencia empírica.