Googles neues AGI-Framework: Ein kognitiver Test für KI-Intelligenz

Zusammenfassung / Kernpunkte

Führende KI-Labore eilen auf AGI zu, ohne sich einig zu sein, was es ist. Google DeepMind hat gerade einen wissenschaftlichen Rahmen vorgestellt, um die Debatte zu beenden, und dieser basiert auf dem menschlichen Geist.

Der Wilde Westen der AGI ist vorbei

Das Streben nach Artificial General Intelligence (AGI) treibt einen erbitterten, oft chaotischen, globalen Wettlauf unter führenden KI-Laboren an. Milliarden von Dollar und unzählige Stunden fließen in die Entwicklung von Systemen, die zu menschlicher Kognition fähig sind, doch die Ziellinie für dieses monumentale Unterfangen bleibt undefiniert. Jeder große Akteur erklärt AGI zu seinem ultimativen Ziel, aber keiner ist sich einig, was das Erreichen wirklich bedeutet, wodurch ein „Wilder Westen“-Szenario entsteht, in dem Fortschritt subjektiv und oft unquantifizierbar ist.

Große Labore bieten stark unterschiedliche Visionen für AGI an, was den Mangel an Konsens in der Branche unterstreicht. OpenAI definiert es als „ein hochautonomes System, das Menschen bei den meisten wirtschaftlich wertvollen Arbeiten übertrifft“, wobei der wirtschaftliche Nutzen betont wird.

Im Gegensatz dazu beschreibt Google DeepMind Mitbegründer Shane Legg eine AGI als „einen künstlichen Agenten, der zumindest die kognitiven Dinge tun kann, die Menschen typischerweise tun können.“ Francis Chollet, Schöpfer des ARC benchmark, fasst Intelligenz als Effizienz des Kompetenzerwerbs auf – wie schnell ein System neue Konzepte lernt.

Diese tiefgreifende definitorische Unklarheit macht jede objektive Bewertung des AGI-Fortschritts nahezu unmöglich. Ohne ein gemeinsames Verständnis des Ziels verfällt die Branche in subjektive, „stimmungsbasierte“ Bewertungen der KI-Fähigkeiten. Diese Bewertungen werden oft durch beeindruckende, aber eng gefasste Benchmark-Ergebnisse angetrieben, die häufig unter Datenkontamination oder Auswendiglernen leiden und die wahre generalisierte Intelligenz verschleiern.

Das Problem wird deutlich: Wie misst man den Fortschritt auf ein Ziel hin, das nicht einmal konsistent definiert werden kann? Diese grundlegende Herausforderung hat die KI-Gemeinschaft geplagt und ein spekulatives Umfeld geschaffen, in dem echte Durchbrüche schwer von bloßen inkrementellen Verbesserungen zu unterscheiden sind. Google DeepMind's jüngstes Papier stellt sich diesem Messvakuum direkt und schlägt eine radikale Verschiebung in der Bewertung intelligenter Systeme vor.

Googles neues Regelwerk für Intelligenz

Still und leise enthüllte Google DeepMind am 16. März 2026 ein wegweisendes Papier, das die Suche nach Artificial General Intelligence neu definieren soll. Unter dem Titel 'Measuring Progress Towards AGI: A Cognitive Framework' befasst sich dieses Dokument direkt mit dem aktuellen AGI-„Wilden Westen“, indem es einen strukturierten, wissenschaftlichen Ansatz zur Bewertung vorschlägt. Es ersetzt die willkürlichen Ziellinien bestehender Benchmarks durch ein umfassendes Regelwerk für Intelligenz selbst, das auf Jahrzehnten menschlicher Kognitionswissenschaft basiert.

DeepMinds Kernvorschlag plädiert für eine radikale Abkehr von einzelnen, manipulierbaren Benchmark-Ergebnissen, die oft die wahren Fähigkeiten einer KI falsch darstellen. Stattdessen postuliert das Papier die Notwendigkeit eines vollständigen kognitiven Profils, das akribisch nach menschlicher Intelligenz modelliert ist. Dieser Rahmen bewertet die Fähigkeiten eines KI-Systems über 10 verschiedene kognitive Fähigkeiten – einschließlich Wahrnehmung, Argumentation und sozialer Kognition – und vergleicht seine Leistung direkt mit realen menschlichen Verteilungen. Dies gewährleistet ein ganzheitliches Verständnis der intellektuellen Landschaft einer KI, das über die bloße Aufgabenerfüllung hinausgeht, um echte Intelligenz zu bewerten.

Entscheidend ist, dass das Framework eine grundlegende Unterscheidung trifft: Es konzentriert sich ausschließlich darauf, was ein System leisten kann, nicht darauf, wie es dies erreicht. Ob eine AI Transformer-Architekturen, Diffusion Models oder völlig neuartige Mechanismen nutzt, ist für ihre Bewertung irrelevant. Der Schwerpunkt des Papiers liegt ausschließlich auf beobachtbaren Ergebnissen und nachweisbaren intellektuellen Fähigkeiten, wodurch die Bewertung von der zugrunde liegenden technologischen Implementierung getrennt wird. Dieser „Black-Box“-Ansatz gewährleistet eine breite Anwendbarkeit und macht die Bewertung zukunftssicher, während sich AI-Technologien weiterentwickeln.

Diese Initiative stellt einen entscheidenden Schritt dar, um die AGI-Diskussion mit dringend benötigter wissenschaftlicher Strenge zu versehen. Durch die Bereitstellung einer gemeinsamen Sprache und eines standardisierten, mehrdimensionalen Bewertungs-Protokolls zielt Google DeepMind darauf ab, Forschungsbemühungen weltweit zu vereinheitlichen. Es soll ein universeller Maßstab etabliert werden, der es Laboren weltweit ermöglicht, Fortschritte objektiv und kollaborativ zu messen, wodurch das AGI-Rennen von einem chaotischen Sprint in ein transparentes, gemeinsames wissenschaftliches Unterfangen verwandelt wird. Dieses Framework bietet eine robuste Grundlage, um den wahren Fortschritt hin zu menschenähnlicher allgemeiner Intelligenz zu verfolgen.

Dekonstruktion des Geistes: Die 10 Fähigkeiten

Das neue Framework von Google DeepMind verankert sich in einer präzisen kognitiven Taxonomie, einer strukturierten Klassifikation mentaler Fähigkeiten. Dies ist keine willkürliche Liste, die für AI erfunden wurde; stattdessen stützt sie sich direkt auf jahrzehntelange etablierte Forschung in Kognitionswissenschaft, Psychologie und Neurowissenschaften. Das Framework bildet bewusst ab, wie menschliche Intelligenz untersucht wurde, und bietet eine robuste, empirisch fundierte Grundlage für die Bewertung künstlicher Systeme. Diese grundlegende Entscheidung verschiebt die AGI-Diskussion von philosophischer Abstraktion zu messbarem, wissenschaftlichem Vergleich.

Im Mittelpunkt dieser Taxonomie stehen 10 unterschiedliche kognitive Fähigkeiten, die als die grundlegenden Bausteine der beim Menschen beobachteten Intelligenz identifiziert wurden: - Wahrnehmung: Extrahieren und Verarbeiten sensorischer Informationen. - Generierung: Erzeugen nützlicher Ausgaben wie Text, Sprache oder Handlungen. - Aufmerksamkeit: Fokussierung kognitiver Ressourcen auf relevante Informationen. - Lernen: Erwerb neuen Wissens und Anpassung nach der Bereitstellung. - Gedächtnis: Speichern und Abrufen von Informationen über die Zeit hinweg und Vergessen veralteter Daten. - Schlussfolgern: Ziehen gültiger Schlussfolgerungen durch verschiedene logische Inferenzen. - Metakognition: Wissen über und Überwachung der eigenen kognitiven Prozesse, einschließlich des Selbstbewusstseins über Unsicherheit. - Exekutive Funktionen: Planen, Impulse hemmen und Strategien wechseln, um Ziele zu erreichen. - Problemlösung: Anwendung mehrerer Fähigkeiten, um Lösungen für neuartige Herausforderungen zu finden. - Soziale Kognition: Verstehen sozialer Hinweise, Schlussfolgern der Gedanken anderer und angemessenes Kooperieren.

Diese zehn Fähigkeiten bilden zusammen ein umfassendes Profil, das darauf ausgelegt ist, AI-Systeme anhand des gesamten Spektrums menschlicher kognitiver Fähigkeiten zu bewerten. Anstatt eines einzelnen, leicht manipulierbaren „AGI-Scores“ schlägt Google DeepMind vor, die AI-Leistung über jede dieser Dimensionen hinweg zu bewerten und sie direkt mit menschlichen Baselines zu vergleichen. Dieser granulare Ansatz verspricht eine weitaus objektivere und informativere Bewertung des wahren intellektuellen Fortschritts einer AI.

Bemerkenswerterweise betont das Papier die Bewertung dessen, was ein System leisten kann, nicht wie es dies erreicht. Diese entscheidende Unterscheidung stellt sicher, dass das Framework technologieunabhängig bleibt und auf jede AI-Architektur, von transformers bis hin zu neuartigen Designs, anwendbar ist, ohne Voreingenommenheit gegenüber spezifischen Methoden. Für einen tieferen Einblick in die Besonderheiten des Frameworks verweisen wir auf den Measuring Progress Towards AGI: A Cognitive Framework - Google Blog. Der begleitende Kaggle-Hackathon mit einem Preispool von 200.000 US-Dollar unterstreicht zusätzlich das Engagement von Google DeepMind, gemeinsam robuste Evaluierungen zu entwickeln, insbesondere für komplexe Bereiche wie Metacognition und soziale Kognition, wo die Evaluierungslücke derzeit am größten ist. Zukünftige Abschnitte werden jede dieser 10 Fähigkeiten detailliert behandeln und die von Google DeepMind vorgeschlagenen Bewertungsmethoden sowie die tiefgreifenden Auswirkungen auf die AGI-Entwicklung untersuchen.

Bausteine der Kognition (Teil 1)

Das bahnbrechende Papier von Google DeepMind, 'Measuring Progress Towards AGI: A Cognitive Framework', führt eine rigorose kognitive Taxonomie mit 10 Fähigkeiten zur Bewertung von AI ein. Dieses detaillierte Framework etabliert wesentliche „Bausteine“ der Kognition, beginnend mit den ersten fünf grundlegenden Fähigkeiten, die bestimmen, wie ein intelligentes System mit seiner Welt interagiert und diese verarbeitet. Diese Komponenten gehen über vereinfachte Benchmarks hinaus, um nuancierte Fähigkeiten zu definieren.

Wahrnehmung ist die anfängliche Fähigkeit, die die Fähigkeit einer AI bewertet, sensorische Daten zu interpretieren, nicht nur zu erkennen. Dies umfasst das Verstehen einer komplexen visuellen Szene, das Erkennen von Objekten, Beziehungen und Kontext oder das genaue Interpretieren der subtilen Bedeutungen in menschlicher Sprache und geschriebenem Text. Sie misst die Kapazität des Systems, reichhaltige, umsetzbare Bedeutung aus Rohdaten zu extrahieren.

Als Nächstes bewertet Generierung die Fähigkeit einer AI, nützliche, kohärente und oft neuartige Ausgaben zu produzieren. Dies reicht von der Erstellung artikulierter, kontextrelevanter Texte und der Synthese natürlich klingender Sprache bis hin zur Ausführung präziser Computeraktionen und motorischer Bewegungen in physischen oder virtuellen Umgebungen. Sie misst die Fähigkeit einer AI, internes Verständnis in greifbare, externe Ergebnisse zu übersetzen.

Die dritte entscheidende Fähigkeit, Aufmerksamkeit, untersucht die menschenähnliche Kapazität einer AI, kognitive Ressourcen selektiv zu fokussieren. Dies bedeutet, sich auf relevante Informationen innerhalb eines riesigen Datensatzes zu konzentrieren und gleichzeitig irrelevante Ablenkungen effektiv herauszufiltern. Aktuelle AI-Modelle verarbeiten oft alles gleichzeitig; wahre Aufmerksamkeit bedeutet einen Paradigmenwechsel hin zu effizienterer, zielgerichteter Verarbeitung.

Lernen und Gedächtnis bilden die vierte und fünfte miteinander verbundene Säule. Lernen bewertet die Fähigkeit einer AI zum kontinuierlichen Lernen, neue Kenntnisse zu erwerben und Verhaltensweisen in Echtzeit nach der Bereitstellung anzupassen, ähnlich wie ein Mensch ein neues Kartenspiel meistert oder sich an eine neue Arbeitsstelle anpasst. Gedächtnis ergänzt dies, indem es die Fähigkeit des Systems misst, Informationen über längere Zeiträume robust zu speichern und abzurufen, und ebenso wichtig, veraltete oder irrelevante Daten intelligent zu vergessen, um eine kognitive Überlastung zu verhindern.

Die höheren Denkordnungen (Teil 2)

Jenseits grundlegender sensorischer und Gedächtnisfunktionen hebt das Framework von Google DeepMind fünf komplexe kognitive Fähigkeiten hervor, die entscheidend für das Erreichen menschlicher Intelligenz sind. Reasoning bildet eine kritische Säule, die es Systemen ermöglicht, gültige Schlussfolgerungen durch verschiedene logische Formen zu ziehen. Dies umfasst deductive reasoning, inductive reasoning, analogical reasoning und mathematical inference, wodurch über reines Auswendiglernen hinaus echtes Verständnis erreicht wird.

Die vielleicht bedeutendste Lücke in der aktuellen KI, Metacognition, bewertet das Selbstbewusstsein und das Verständnis einer KI für ihr eigenes Wissen. Kann ein System „wissen, was es weiß“, Unsicherheit ausdrücken oder seine Grenzen artikulieren, wenn es mit neuen Anfragen konfrontiert wird? Heutige Modelle geben bekanntermaßen „zuversichtlich die falsche Antwort“, da ihnen diese entscheidende Fähigkeit fehlt, ihre eigenen kognitiven Prozesse zu überwachen, obwohl Claude erste Anzeichen zeigt.

Als Nächstes steuern Executive Functions die Fähigkeit einer KI zur hochrangigen Kontrolle und strategischen Handlung. Diese Fähigkeiten, oft mit dem CEO des Gehirns verglichen, umfassen ausgeklügelte Planung, die kritische Fähigkeit, Impulse zu hemmen, und das dynamische Wechseln von Strategien als Reaktion auf sich ändernde Bedingungen. Sie ermöglichen es einer KI, ein Ziel zu setzen und es gewissenhaft zu verfolgen, ihren Ansatz anzupassen und über längere Zeiträume den Fokus zu behalten, um komplexe Ziele zu erreichen.

Problem Solving synthetisiert diese vielfältigen kognitiven Fähigkeiten, um neuartige, reale Herausforderungen zu bewältigen. Diese Fähigkeit erfordert von einer KI, Wahrnehmung, Argumentation, Planung und Lernen zu integrieren und sie kohärent anzuwenden, um effektive Lösungen in unbekannten Bereichen zu finden. Sie repräsentiert die Kapazität eines Systems für adaptive Intelligenz, die über vorprogrammierte Antworten hinausgeht, um neue und komplexe Situationen, die kreative Lösungen erfordern, wirklich anzugehen.

Schließlich befasst sich Social Cognition mit der Fähigkeit einer KI, die Komplexität menschlicher Interaktion und Zusammenarbeit zu bewältigen. Dies beinhaltet das Verstehen subtiler sozialer Hinweise, das genaue Ableiten der Absichten und Gedanken anderer, effektives Kooperieren, das Aushandeln von Ergebnissen und das angemessene Reagieren in komplexen sozialen Situationen. Sie ist unerlässlich für Systeme, die in menschenzentrierten Umgebungen agieren und über isolierte Aufgaben hinausgehen, um sich kollaborativ in komplexe soziale Dynamiken einzubringen.

Diese umfassende Taxonomie, vorgestellt im Paper „Measuring Progress Towards AGI: A Cognitive Framework“ am 16. März 2026, konzentriert sich darauf, was ein System leistet, nicht wie es dies tut. Das Framework von DeepMind ignoriert explizit zugrunde liegende Architekturen wie transformers oder diffusion models und priorisiert beobachtbares intelligentes Verhalten. Es bietet eine universelle Linse, um den Fortschritt in Richtung AGI zu messen, unabhängig von spezifischen technologischen Ansätzen oder internen Mechanismen.

Der ultimative menschliche Showdown

Das Framework von Google DeepMind kulminiert in einem rigorosen, dreistufigen Evaluierungsprotokoll, das darauf ausgelegt ist, eine umfassende, unvoreingenommene Bewertung der KI-Intelligenz zu liefern. Dieser systematische Ansatz zielt darauf ab, über anekdotische Evidenz und Einzelmetrik-Benchmarks hinauszugehen und einen neuen Standard für die Verfolgung des Fortschritts in Richtung AGI zu etablieren.

Zuerst beinhaltet die Phase der cognitive assessment die KI einer breiten Palette von Aufgaben zu unterziehen, die jeweils sorgfältig darauf ausgelegt sind, eine spezifische kognitive Fähigkeit zu isolieren und zu testen. Entscheidend ist, dass diese Aufgaben privat und zurückgehalten bleiben und von einer dritten Partei unabhängig überprüft werden. Diese strenge Maßnahme bekämpft direkt das weit verbreitete Problem der data contamination und stellt sicher, dass die KI während des Trainings nicht einfach Antworten auswendig gelernt hat, was ihre wahrgenommene Intelligenz fälschlicherweise aufblähen würde.

Als Nächstes etabliert das Framework robuste menschliche Baselines. Forscher verabreichen genau dieselben Aufgaben unter identischen Bedingungen einer großen, demografisch repräsentativen Stichprobe menschlicher Erwachsener, die alle mindestens einen Schulabschluss auf Gymnasialniveau besitzen. Dieser Schritt erzeugt eine echte Verteilung der menschlichen Leistung und liefert den wesentlichen realen Kontext, anhand dessen die Fähigkeiten der KI genau gemessen werden können.

Schließlich generiert der Prozess detaillierte kognitive Profile. Entwickler tragen die Leistung der KI in jeder der zehn Fähigkeiten direkt gegen die gesammelte menschliche Verteilung auf. Das resultierende Radardiagramm bietet eine sofortige, intuitive visuelle Darstellung, die genau hervorhebt, wo ein KI-System im Vergleich zu typischen menschlichen Fähigkeiten überragt und wo es Defizite aufweist. Weitere Informationen zu den spezifischen Merkmalen finden Sie unter Google DeepMind Plans to Track AGI Progress With These 10 Traits of General Intelligence.

Diese Profile können Systeme veranschaulichen, die in mehreren Bereichen unter dem menschlichen Median liegen, oder solche, die ihn in allen zehn Fähigkeiten übertreffen. Selbst ein System, das durchweg das 99. Perzentil erreicht und fast jeden Menschen in der Stichprobe bei jeder Aufgabe erreicht oder übertrifft, stellt einen tiefgreifenden Meilenstein dar, obwohl das Papier vorsichtig anmerkt, dass dies aufgrund der inhärenten Einschränkungen jeder endlichen Stichprobe menschlicher Fähigkeiten AGI nicht definitiv beweisen würde.

Was dieser 'IQ Test' noch vermisst

Das „cognitive framework“ von Google DeepMind bietet eine robuste Bewertung, doch das Papier selbst räumt offen kritische Einschränkungen ein. Keine einzelne Bewertung kann das gesamte Spektrum der Intelligenz erfassen, und dieser vorgeschlagene „IQ Test“ für KI ist keine Ausnahme.

Entscheidend ist, dass das Framework ausschließlich die kognitive Fähigkeit misst, nicht die Ausführungsgeschwindigkeit. Eine KI mag perfekte Schlussfolgerungen demonstrieren, aber wenn sie Minuten braucht, um eine Millisekunden-Entscheidung zu verarbeiten, bleibt sie für reale Anwendungen wie autonome Fahrzeuge, Hochfrequenzhandel oder chirurgische Robotik, wo eine zeitnahe Reaktion von größter Bedeutung ist, unpraktisch.

Über den reinen Intellekt hinaus übersieht das Framework die inhärenten Systemtendenzen einer KI. Es kann nicht quantifizieren, ob ein Agent von Natur aus risikoscheu, rücksichtslos, konservativ oder aggressiv ist. Solche Tendenzen sind für den ethischen Einsatz und die Übereinstimmung mit menschlichen Werten von größter Bedeutung, insbesondere in Hochrisikoszenarien, in denen der operative Charakter einer KI ebenso wichtig ist wie ihre Kompetenz.

Eine weitere erhebliche Herausforderung ergibt sich aus dem Problem „Modell versus System“. Sollte eine KI mit ihrer gesamten Palette externer Tools bewertet werden, ähnlich wie die Verwendung eines Taschenrechners bei einem menschlichen IQ Test? Google DeepMind schlägt vor, das komplette System, einschließlich des Zugangs zu Tools, zu bewerten, jedoch bei Aufgaben, die speziell so konzipiert sind, dass diese Hilfsmittel die zugrunde liegende kognitive Herausforderung nicht trivialisieren.

Dieser nuancierte Ansatz zielt darauf ab, zu verhindern, dass eine KI komplexe kognitive Aufgaben einfach an externe Hilfsprogramme auslagert, ohne intrinsisches Verständnis zu demonstrieren. Das Ziel bleibt, Intelligenz zu messen, nicht nur effiziente Werkzeugnutzung, um sicherzustellen, dass das Framework zwischen wahrer kognitiver Leistungsfähigkeit und ausgeklügelten Nachschlagefunktionen unterscheidet.

Diese anerkannten Lücken verdeutlichen, dass selbst ein sorgfältig konzipierter kognitiver „IQ Test“ für KI-Systeme weiterhin ein Work-in-Progress ist. Während die Definition, was Intelligenz beinhaltet, ein monumentaler Schritt ist, wird das Verständnis, wie sie sich in dynamischen, wertebehafteten Umgebungen manifestiert, eine weitere Entwicklung der Bewertungsmethoden erfordern.

Eine 200.000-Dollar-Jagd nach den schwächsten Gliedern der AGI

Das Framework von Google DeepMind geht über theoretische Vorschläge hinaus. Um seine ehrgeizige kognitive Taxonomie sofort zu operationalisieren, startete Google zeitgleich mit der Veröffentlichung des Papiers einen Kaggle hackathon. Dieser Schritt verwandelte die akademische Übung in eine konkrete, gemeinschaftsgetriebene Initiative.

Der Hackathon bietet einen beträchtlichen $200.000 Preispool, der Forscher und Entwickler weltweit motiviert. Diese bedeutende Investition zielt darauf ab, die Erstellung tatsächlicher Bewertungsaufgaben per Crowdsourcing zu ermöglichen und damit direkt den Bedarf des Frameworks an neuartigen, unvoreingenommenen Bewertungen über seine zehn Fakultäten hinweg zu decken. Google versteht die monumentale Herausforderung, diese Tests von Grund auf neu zu entwickeln.

Entscheidend ist, dass der Hackathon fünf spezifische kognitive Fakultäten ins Visier nimmt, in denen die aktuellen KI-Bewertungsmethoden am schwächsten oder nicht existent sind. Dazu gehören: - Learning - Metacognition - Attention - Executive functions - Social cognition

Diese Kategorien repräsentieren einige der komplexesten und menschenähnlichsten Aspekte der Intelligenz und stellen eine beträchtliche Hürde für eine robuste, nicht manipulierbare Bewertung dar. Bestehende Benchmarks reichen in diesen nuancierten Bereichen oft nicht aus.

Durch die Einbindung der globalen KI-Community versucht Google DeepMind, die anspruchsvollen, zielgerichteten Tests, die für sein three-stage evaluation protocol unerlässlich sind, schnell zu entwickeln. Dieser kollaborative Ansatz zielt darauf ab, die größten Lücken in unserer kollektiven Fähigkeit zur Messung und zum Verständnis echter Maschinenintelligenz zu schließen und ein akademisches Papier in einen lebendigen, sich entwickelnden Standard zu verwandeln. Der Hackathon signalisiert ein Engagement für die praktische Umsetzung, nicht nur für die Konzeptualisierung.

Ist dies der einzige Lackmustest?

Google DeepMind's „Measuring Progress Towards AGI: A Cognitive Framework“ etabliert einen neuen Goldstandard für eine umfassende AGI-Bewertung, existiert jedoch innerhalb eines breiteren Ökosystems kritischer Benchmarks. Die KI-Forschungsgemeinschaft nutzt vielfältige Bewertungen, die jeweils darauf ausgelegt sind, unterschiedliche Facetten der Maschinenintelligenz zu beleuchten. Insbesondere ARC-AGI, oder der Abstraction and Reasoning Corpus, entwickelt vom Google AI-Forscher François Chollet, bietet eine stark kontrastierende Perspektive.

Chollet's ARC-AGI stellt eine grundlegend andere Art von Herausforderung dar. Im Gegensatz zu Google DeepMind's umfassender kognitiver Taxonomie, die Intelligenz über 10 verschiedene Fakultäten abbildet, konzentriert sich ARC-AGI eng auf fluid intelligence und die Fähigkeit, Regeln aus minimalen Beispielen abzuleiten. Es umfasst abstrakte visuelle Rätsel, die von einem Agenten verlangen, Input-Output-Paare zu beobachten und dann die gelernte Transformation auf einen neuen, ungesehenen Input anzuwenden. Die Kernanforderung ist eine echte Generalisierung über die Trainingsdaten hinaus.

Entscheidend ist, dass aktuelle hochmoderne KI-Modelle, trotz ihrer beeindruckenden Leistungen in Sprachgenerierung, Bildsynthese und komplexen strategischen Spielen, auf ARC-AGI Werte nahe Null erreichen. Diese Modelle, oft auf riesigen Datensätzen trainiert, zeichnen sich durch Mustererkennung innerhalb bekannter Verteilungen aus. Sie versagen jedoch konsequent, wenn sie mit dem grundlegenden induktiven Denken und der neuartigen Problemlösung konfrontiert werden, die von Chollet's puzzles gefordert werden – Aufgaben, die ein menschliches Kind intuitiv erfassen könnte.

Diese starke Disparität veranschaulicht anschaulich die „gezackte Grenze“ des KI-Fortschritts. Maschinen übertreffen die menschliche Leistung routinemäßig in hochspezialisierten Bereichen wie Go, chess oder sogar fortgeschrittener Code-Generierung. Dennoch kämpfen sie gleichzeitig mit Aufgaben, die für Menschen trivial einfach erscheinen, wie dem Verständnis grundlegender kausaler Beziehungen oder der Anpassung an völlig neue, abstrakte Problemstrukturen ohne explizite Programmierung. Google DeepMind’s framework zielt darauf ab, diese ungleichmäßige Landschaft umfassend abzubilden, während ARC-AGI eine hartnäckige und kritische Lücke in den grundlegenden kognitiven Fähigkeiten der KI aufdeckt. Beide Arten von Benchmarks sind unerlässlich, um den komplexen Weg zur AGI wirklich zu verstehen und zu navigieren.

Adieu Stimmungen, Hallo Wissenschaft

Das neue Framework von Google DeepMind markiert einen tiefgreifenden Wandel, der das Streben nach Künstlicher Allgemeiner Intelligenz grundlegend neu definiert. Dies ist nicht nur ein weiterer Benchmark; es etabliert einen Paradigmenwechsel für das gesamte Feld und ersetzt spekulative Behauptungen durch eine rigorose, wissenschaftliche Methodik.

Vorbei sind die Zeiten vager Ankündigungen und handverlesener Demos. Forscher können sich nun über subjektive „Vibes“ und anekdotische Beweise hinwegsetzen und den AGI-Fortschritt auf einen quantifizierbaren, überprüfbaren Standard stützen. Die vorgeschlagenen 10 kognitiven Fähigkeiten und das dreistufige Bewertungsprotokoll bieten eine objektive Linse, um Fähigkeiten anhand der tatsächlichen menschlichen Leistung zu beurteilen.

Diese granulare kognitive Taxonomie bietet ein unschätzbares Diagnosewerkzeug. Entwickler können nun spezifische Schwächen in ihren Modellen identifizieren und genau bestimmen, welche Fähigkeiten – sei es Metakognition, Exekutivfunktionen oder soziale Kognition – weiterer Entwicklung bedürfen. Diese kognitive Karte verwandelt die AGI-Forschung von einem breit gestreuten Ansatz in eine gezielte, systematische technische Herausforderung.

Der begleitende $200.000 Kaggle Hackathon unterstreicht Googles Engagement für diesen wissenschaftlichen Ansatz zusätzlich. Indem Google die globale Forschungsgemeinschaft einlädt, Evaluierungen für diese spezifischen Fähigkeiten zu entwickeln, fördert es aktiv einen kollaborativen, datengesteuerten Weg zur AGI, anstatt eines internen, undurchsichtigen Wettbewerbs.

Letztendlich hebt dieses Framework die AGI-Diskussion auf eine neue Ebene. Die Frage ist nicht mehr nur, ob wir wirklich intelligente Maschinen bauen können, sondern wie wir unseren Weg zu ihnen wissenschaftlich messen, überprüfen und systematisch gestalten werden. Es läutet eine Ära der wissenschaftlichen Überprüfung für künstliche Intelligenz ein.

Häufig gestellte Fragen

Was ist Googles neues AGI-Framework?

Es ist ein Vorschlag von Google DeepMind, den Fortschritt in Richtung AGI zu messen, indem KI-Systeme über 10 zentrale kognitive Fähigkeiten hinweg getestet und ihre Leistung direkt mit menschlichen Baselines verglichen werden, anstatt einen einzelnen Score zu verwenden.

Was sind die 10 kognitiven Fähigkeiten im Framework?

Die 10 Fähigkeiten sind Perception, Generation, Attention, Learning, Memory, Reasoning, Metacognition, Executive Functions, Problem Solving und Social Cognition.

Wie unterscheidet sich dies von bestehenden KI-Benchmarks?

Im Gegensatz zu Benchmarks, die spezifische Fähigkeiten wie Programmieren oder Mathematik testen, bietet dieses Framework ein ganzheitliches kognitives Profil. Es zielt darauf ab, 'Teaching to the Test' zu verhindern, indem private, von Dritten verifizierte Aufgaben verwendet werden.

Bedeutet dieses neue Framework, dass AGI nahe ist?

Nein. Das Framework selbst ist ein Messinstrument, keine Behauptung einer Errungenschaft. Es wurde entwickelt, um einen klaren, wissenschaftlichen Fahrplan zur Verfolgung des Fortschritts in Richtung AGI zu liefern und die Diskussion von Spekulationen zu empirischen Beweisen zu verlagern.

𝕏 in ↑↗

One weekly email of tools worth shipping. No drip funnel.

one email per week · unsubscribe in two clicks · no third-party tracking

Google hat gerade die Regeln für AGI neu geschrieben