Кратко / Главное
Дикий Запад AGI закончился
Стремление к искусственному общему интеллекту (AGI) подпитывает ожесточенную, часто хаотичную, глобальную гонку среди ведущих лабораторий ИИ. Миллиарды долларов и бесчисленные часы вкладываются в разработку систем, способных к когнитивным способностям человеческого уровня, однако финишная черта этого монументального предприятия остается неопределенной. Каждый крупный игрок заявляет AGI своей конечной целью, но никто не согласен с тем, что на самом деле означает ее достижение, создавая сценарий «Дикого Запада», где прогресс субъективен и часто не поддается количественной оценке.
Крупные лаборатории предлагают совершенно разные видения AGI, подчеркивая отсутствие консенсуса в отрасли. OpenAI определяет его как «высокоавтономную систему, которая превосходит людей в большинстве экономически ценных работ», подчеркивая экономическую полезность.
Напротив, соучредитель Google DeepMind Шейн Легг описывает AGI как «искусственного агента, который может, по крайней мере, выполнять те виды когнитивных задач, которые обычно могут выполнять люди». Фрэнсис Шолле, создатель бенчмарка ARC, определяет интеллект вокруг эффективности приобретения навыков – насколько быстро система изучает новые концепции.
Эта глубокая неопределенность в определениях делает любую объективную оценку прогресса AGI почти невозможной. Без общего понимания цели отрасль по умолчанию использует субъективные, «основанные на ощущениях» оценки возможностей ИИ. Эти оценки часто обусловлены впечатляющими, но узкими результатами бенчмарков, которые часто страдают от загрязнения данных или запоминания, скрывая истинный обобщенный интеллект.
Проблема становится очевидной: как точно измерить продвижение к цели, которую даже нельзя последовательно определить? Эта фундаментальная проблема преследовала сообщество ИИ, создавая спекулятивную среду, где подлинные прорывы трудно отличить от простых инкрементальных улучшений. Недавняя статья Google DeepMind напрямую решает эту проблему вакуума измерений, предлагая радикальный сдвиг в том, как мы оцениваем интеллектуальные системы.
Новый свод правил Google для интеллекта
Тихо, 16 марта 2026 года, Google DeepMind представил знаковую статью, призванную переопределить стремление к Artificial General Intelligence. Под названием 'Measuring Progress Towards AGI: A Cognitive Framework,' этот документ напрямую решает проблему нынешнего «Дикого Запада» AGI, предлагая структурированный, научный подход к оценке. Он заменяет произвольные финишные черты существующих бенчмарков всеобъемлющим сводом правил для самого интеллекта, основанным на десятилетиях когнитивной науки человека.
Основное предложение DeepMind выступает за радикальный отход от единичных, поддающихся манипуляции результатов бенчмарков, которые часто искажают истинные возможности ИИ. Вместо этого, статья утверждает необходимость полного когнитивного профиля, тщательно смоделированного по человеческому интеллекту. Эта структура оценивает возможности системы ИИ по 10 различным когнитивным способностям — включая восприятие, рассуждение и социальное познание — напрямую сравнивая ее производительность с реальными человеческими распределениями. Это обеспечивает целостное понимание интеллектуального ландшафта ИИ, выходя за рамки простого выполнения задач для оценки подлинного интеллекта.
Ключевым моментом является то, что фреймворк проводит фундаментальное различие: он сосредоточен исключительно на *том, что* система может выполнить, а не на *том, как* она это делает. Использует ли ИИ архитектуры transformer, diffusion models или совершенно новые механизмы, не имеет значения для его оценки. Акцент в статье остается исключительно на наблюдаемых результатах и демонстрируемых интеллектуальных способностях, отделяя оценку от базовой технологической реализации. Этот подход «черного ящика» обеспечивает широкую применимость и перспективность оценки по мере развития технологий ИИ.
Эта инициатива представляет собой ключевой шаг к привнесению столь необходимой научной строгости в дискуссию об AGI. Предоставляя общий язык и стандартизированный, многомерный протокол оценки, Google DeepMind стремится объединить исследовательские усилия по всему миру. Цель состоит в том, чтобы установить универсальный эталон, позволяющий лабораториям по всему миру объективно и совместно измерять прогресс, превращая гонку AGI из хаотичного спринта в прозрачное, совместное научное предприятие. Этот фреймворк предлагает прочную основу для отслеживания истинного прогресса в направлении общего интеллекта человеческого уровня.
Деконструкция разума: 10 способностей
Новый фреймворк Google DeepMind основывается на точной когнитивной таксономии, структурированной классификации умственных способностей. Это не произвольный список, придуманный для ИИ; вместо этого он напрямую опирается на десятилетия устоявшихся исследований в области когнитивной науки, психологии и нейронауки. Фреймворк намеренно соотносится с тем, как изучался человеческий интеллект, обеспечивая прочную, эмпирически обоснованную базу для оценки искусственных систем. Этот фундаментальный выбор переводит дискуссию об AGI из философской абстракции в измеримое, научное сравнение.
В основе этой таксономии лежат 10 различных когнитивных способностей, идентифицированных как фундаментальные строительные блоки интеллекта, наблюдаемые у людей: - Perception (Восприятие): Извлечение и обработка сенсорной информации. - Generation (Генерация): Производство полезных результатов, таких как текст, речь или действия. - Attention (Внимание): Сосредоточение когнитивных ресурсов на релевантной информации. - Learning (Обучение): Приобретение новых знаний и адаптация после развертывания. - Memory (Память): Хранение и извлечение информации с течением времени, а также забывание устаревших данных. - Reasoning (Рассуждение): Выведение обоснованных заключений посредством различных логических выводов. - Metacognition (Метапознание): Знание и мониторинг собственных когнитивных процессов, включая самосознание неопределенности. - Executive Functions (Исполнительные функции): Планирование, подавление импульсов и переключение стратегий для достижения целей. - Problem Solving (Решение проблем): Применение нескольких способностей для поиска решений новых задач. - Social Cognition (Социальное познание): Понимание социальных сигналов, вывод о мыслях других и соответствующее сотрудничество.
Эти десять способностей в совокупности формируют всеобъемлющий профиль, предназначенный для оценки систем ИИ по всему спектру человеческих когнитивных возможностей. Вместо единого, легко поддающегося манипуляциям «AGI score», Google DeepMind предлагает оценивать производительность ИИ по каждому из этих измерений, напрямую сравнивая ее с человеческими базовыми показателями. Этот детализированный подход обещает гораздо более объективную и информативную оценку истинного интеллектуального прогресса ИИ.
Примечательно, что в статье подчеркивается оценка *того, что* система может выполнить, а не *того, как* она это делает. Это ключевое различие гарантирует, что фреймворк остается технологически независимым, применимым к любой архитектуре ИИ, от transformers до новых разработок, без предвзятости к конкретным методологиям. Для более глубокого изучения специфики фреймворка обратитесь к Measuring Progress Towards AGI: A Cognitive Framework - Google Blog. Сопутствующий хакатон Kaggle с призовым фондом в $200 000 еще больше подчеркивает приверженность Google DeepMind совместному созданию надежных оценок, особенно для таких сложных областей, как Metacognition и социальное познание, где разрыв в оценке в настоящее время наибольший. В будущих разделах будет подробно рассмотрена каждая из этих 10 способностей, предложенные Google DeepMind методы оценки и глубокие последствия для развития AGI.
Строительные блоки познания (Часть 1)
Новаторская статья Google DeepMind «Measuring Progress Towards AGI: A Cognitive Framework» представляет строгую когнитивную таксономию из 10 способностей для оценки ИИ. Этот подробный фреймворк устанавливает основные «строительные блоки» познания, начиная с первых пяти фундаментальных способностей, которые определяют, как интеллектуальная система взаимодействует со своим миром и обрабатывает его. Эти компоненты выходят за рамки упрощенных бенчмарков, чтобы определить тонкие возможности.
Perception является начальной способностью, оценивающей способность ИИ интерпретировать сенсорные данные, а не просто их обнаруживать. Это включает понимание сложной визуальной сцены, распознавание объектов, взаимосвязей и контекста, или точную интерпретацию тонких значений в человеческой речи и письменном тексте. Она измеряет способность системы извлекать богатое, действенное значение из необработанных входных данных.
Далее, Generation оценивает способность ИИ производить полезные, связные и часто новые результаты. Это варьируется от создания четкого, контекстуально релевантного текста и синтеза естественно звучащей речи до выполнения точных компьютерных действий и моторных движений в физической или виртуальной среде. Она измеряет умение ИИ преобразовывать внутреннее понимание в ощутимые, внешние результаты.
Третья важнейшая способность, Attention, исследует человекоподобную способность ИИ избирательно фокусировать когнитивные ресурсы. Это означает сосредоточение на важной информации в огромном наборе данных при эффективном отфильтровывании нерелевантных отвлекающих факторов. Современные модели ИИ часто обрабатывают все одновременно; истинное внимание означает сдвиг парадигмы в сторону более эффективной, целенаправленной обработки.
Learning и Memory образуют четвертый и пятый взаимосвязанные столпа. Learning оценивает способность ИИ к continual learning, приобретению новых знаний и адаптации поведения в реальном времени после развертывания, подобно тому, как человек осваивает новую карточную игру или приспосабливается к новой работе. Memory дополняет это, измеряя способность системы надежно хранить и извлекать информацию в течение длительных периодов, и, что не менее важно, разумно забывать устаревшие или нерелевантные данные, предотвращая когнитивную перегрузку.
Высшие порядки мышления (Часть 2)
Помимо базовых сенсорных и мнемонических функций, фреймворк Google DeepMind выделяет пять сложных когнитивных способностей, имеющих решающее значение для достижения интеллекта человеческого уровня. Reasoning является критическим столпом, позволяющим системам делать обоснованные выводы с помощью различных логических форм. Это включает дедуктивное рассуждение, индуктивное рассуждение, аналоговое рассуждение и математический вывод, выходя за рамки механического запоминания к истинному пониманию.
Возможно, самый значительный пробел в современном AI, Metacognition, оценивает самосознание AI и понимание им собственного знания. Может ли система «знать, что она знает», выражать неуверенность или формулировать свои ограничения при столкновении с новыми запросами? Сегодняшние модели, как известно, «уверенно дают вам неправильный ответ», лишенные этой жизненно важной способности отслеживать свои собственные когнитивные процессы, хотя Claude начал проявлять зарождающиеся признаки.
Далее, Executive Functions управляют способностью AI к высокоуровневому контролю и стратегическим действиям. Эти способности, часто сравниваемые с генеральным директором мозга, включают сложное планирование, критическую способность подавлять импульсы и динамическое переключение стратегий в ответ на меняющиеся условия. Они позволяют AI ставить цель и усердно ее преследовать, корректируя свой подход и сохраняя фокус в течение длительных периодов для достижения сложных целей.
Решение проблем синтезирует эти разнообразные когнитивные способности для решения новых, реальных задач. Эта способность требует от AI интегрировать восприятие, рассуждение, планирование и обучение, применяя их согласованно для поиска эффективных решений в незнакомых областях. Она представляет собой способность системы к адаптивному интеллекту, выходя за рамки заранее запрограммированных ответов для подлинного решения новых и сложных ситуаций, требующих творческих решений.
Наконец, Social Cognition затрагивает способность AI ориентироваться в сложностях человеческого взаимодействия и сотрудничества. Это включает понимание тонких социальных сигналов, точное выведение намерений и мыслей других, эффективное сотрудничество, согласование результатов и адекватное реагирование в сложных социальных ситуациях. Это незаменимо для систем, работающих в человеко-ориентированных средах, переходящих от изолированных задач к совместному участию в сложных социальных динамиках.
Эта всеобъемлющая таксономия, представленная в статье "Measuring Progress Towards AGI: A Cognitive Framework" 16 марта 2026 года, фокусируется на *том, что* система достигает, а не на *том, как* она это делает. Фреймворк DeepMind явно игнорирует базовые архитектуры, такие как transformers или diffusion models, отдавая приоритет наблюдаемому интеллектуальному поведению. Он предоставляет универсальный инструмент для измерения прогресса в направлении AGI, независимо от конкретных технологических подходов или внутренних механизмов.
Окончательное противостояние человека
Фреймворк Google DeepMind завершается строгим трехэтапным протоколом оценки, разработанным для обеспечения всесторонней, непредвзятой оценки интеллекта AI. Этот систематический подход направлен на выход за рамки анекдотических свидетельств и однократных метрических бенчмарков, устанавливая новый стандарт для отслеживания прогресса в направлении AGI.
Во-первых, фаза когнитивной оценки включает в себя подвергание AI широкому набору задач, каждая из которых тщательно разработана для изоляции и проверки конкретной когнитивной способности. Важно отметить, что эти задачи остаются конфиденциальными и отложенными, независимо проверяемыми третьей стороной. Эта строгая мера напрямую борется с распространенной проблемой загрязнения данных, гарантируя, что AI не просто запомнил ответы во время обучения, что ложно завысило бы его воспринимаемый интеллект.
Далее, фреймворк устанавливает надежные человеческие базовые показатели. Исследователи дают точно такие же задачи, в идентичных условиях, большой, демографически репрезентативной выборке взрослых людей, все из которых имеют как минимум среднее образование. Этот шаг генерирует подлинное распределение человеческой производительности, обеспечивая необходимый реальный контекст, на фоне которого можно точно измерять возможности AI.
Наконец, процесс генерирует подробные когнитивные профили. Разработчики сопоставляют производительность ИИ по каждой из десяти способностей непосредственно с собранным распределением человеческих данных. Полученная радарная диаграмма предлагает немедленное, интуитивно понятное визуальное представление, точно показывая, где система ИИ превосходит и где отстает по сравнению с типичными человеческими способностями. Подробнее о конкретных чертах см. Google DeepMind Plans to Track AGI Progress With These 10 Traits of General Intelligence.
Эти профили могут иллюстрировать системы, работающие ниже медианы человеческих способностей в нескольких областях, или те, которые превосходят ее по всем десяти способностям. Даже система, достигающая 99-го процентиля по всем показателям, соответствующая или превосходящая почти каждого человека в выборке по каждой задаче, представляет собой значительный рубеж, хотя в статье осторожно отмечается, что это не будет окончательным доказательством AGI из-за присущих ограничений любой конечной выборки человеческих возможностей.
Чего все еще не хватает этому «IQ-тесту»
«Когнитивная структура» Google DeepMind предлагает надежную оценку, однако сама статья откровенно признает критические ограничения. Ни одна отдельная оценка не может охватить весь спектр интеллекта, и этот предложенный «IQ-тест» для ИИ не является исключением.
Критически важно, что эта структура измеряет исключительно когнитивные способности, а не скорость выполнения. ИИ может демонстрировать идеальное рассуждение, но если ему требуются минуты для обработки решения, принимаемого за миллисекунду, он остается непрактичным для реальных приложений, таких как автономные транспортные средства, высокочастотная торговля или хирургическая робототехника, где своевременный отклик имеет первостепенное значение.
Помимо чистого интеллекта, эта структура упускает из виду присущие ИИ системные склонности. Она не может количественно оценить, является ли агент по своей природе склонным к риску, безрассудным, консервативным или агрессивным. Такие тенденции имеют первостепенное значение для этичного развертывания и соответствия человеческим ценностям, особенно в сценариях с высокими ставками, где операционный характер ИИ важен так же, как и его компетентность.
Еще одна серьезная проблема возникает из-за проблемы «модель против системы». Следует ли оценивать ИИ, используя полный набор его внешних инструментов, подобно тому, как разрешается использовать калькулятор во время человеческого IQ-теста? Google DeepMind предлагает оценивать полную систему, включая доступ к инструментам, но на задачах, специально разработанных таким образом, чтобы эти вспомогательные средства не упрощали измеряемую когнитивную задачу.
Этот тонкий подход направлен на то, чтобы предотвратить простое перекладывание ИИ сложных когнитивных задач на внешние утилиты без демонстрации внутреннего понимания. Цель по-прежнему состоит в том, чтобы измерять *интеллект*, а не просто эффективное использование инструментов, гарантируя, что структура различает истинное когнитивное мастерство и сложные функции поиска.
Эти признанные пробелы подчеркивают, что даже тщательно разработанный когнитивный «IQ-тест» для систем ИИ остается незавершенной работой. Хотя определение того, *что* влечет за собой интеллект, является монументальным шагом, понимание того, *как* он проявляется в динамичных, ценностно-нагруженных средах, потребует дальнейшего развития методологий оценки.
Охота за $200 000 на самые слабые звенья AGI
Структура Google DeepMind выходит за рамки теоретических предложений. Чтобы немедленно ввести в действие свою амбициозную когнитивную таксономию, Google запустила Kaggle hackathon одновременно с выпуском статьи. Этот шаг превратил академическое упражнение в конкретную, управляемую сообществом инициативу.
Хакатон предлагает существенный призовой фонд в размере $200 000, стимулируя исследователей и разработчиков по всему миру. Эти значительные инвестиции направлены на краудсорсинг создания реальных оценочных задач, напрямую удовлетворяя потребность фреймворка в новых, непредвзятых оценках по всем его десяти факультетам. Google понимает монументальную задачу создания этих тестов с нуля.
Что особенно важно, хакатон нацелен на пять конкретных когнитивных способностей, где текущие методы оценки ИИ являются наиболее слабыми или отсутствуют. К ним относятся: - Обучение - Метапознание - Внимание - Исполнительные функции - Социальное познание
Эти категории представляют собой одни из самых сложных и человекоподобных аспектов интеллекта, что является значительным препятствием для надежной, неуязвимой для обмана оценки. Существующие бенчмарки часто не справляются в этих тонких областях.
Привлекая мировое сообщество ИИ, Google DeepMind стремится быстро разработать сложные, целенаправленные тесты, необходимые для своего трехэтапного протокола оценки. Этот совместный подход направлен на заполнение наиболее значительных пробелов в нашей коллективной способности измерять и понимать истинный машинный интеллект, превращая академическую статью в живой, развивающийся стандарт. Хакатон означает приверженность практической реализации, а не только концептуализации.
Это единственный лакмусовый тест?
Работа Google DeepMind «Измерение прогресса на пути к AGI: Когнитивная структура» устанавливает новый золотой стандарт для всесторонней оценки AGI, однако она существует в более широкой экосистеме критически важных бенчмарков. Исследовательское сообщество ИИ использует разнообразные оценки, каждая из которых предназначена для освещения различных аспектов машинного интеллекта. Примечательно, что ARC-AGI, или Abstraction and Reasoning Corpus, разработанный исследователем ИИ Google Франсуа Шоллеттом, предлагает совершенно иную перспективу.
ARC-AGI Шоллетта представляет собой совершенно иной вид вызова. В отличие от обширной когнитивной таксономии Google DeepMind, которая отображает интеллект по 10 различным способностям, ARC-AGI узко фокусируется на гибком интеллекте и способности выводить правила из минимальных примеров. Он состоит из абстрактных визуальных головоломок, требующих от агента наблюдения за парами вход-выход, а затем применения изученного преобразования к новому, невиданному входу. Основное требование — подлинная обобщающая способность за пределами обучающих данных.
Критически важно, что современные модели ИИ, несмотря на их впечатляющие достижения в генерации языка, синтезе изображений и сложных стратегических играх, набирают почти нулевые баллы по ARC-AGI. Эти модели, часто обучаемые на огромных наборах данных, превосходно справляются с распознаванием образов в знакомых распределениях. Однако они постоянно терпят неудачу, сталкиваясь с фундаментальным индуктивным рассуждением и решением новых проблем, требуемых головоломками Шоллетта, задачами, которые человеческий ребенок мог бы понять интуитивно.
Это резкое несоответствие ярко иллюстрирует «неровный фронт» прогресса ИИ. Машины теперь регулярно превосходят человеческую производительность в узкоспециализированных областях, таких как Go, шахматы или даже продвинутая генерация кода. Тем не менее, они одновременно испытывают трудности с тем, что кажется тривиально простыми задачами для человека, такими как понимание базовых причинно-следственных связей или адаптация к совершенно новым, абстрактным структурам проблем без явного программирования. Фреймворк Google DeepMind призван всесторонне отобразить этот неравномерный ландшафт, в то время как ARC-AGI выявляет постоянный и критический пробел в фундаментальных когнитивных способностях ИИ. Оба типа бенчмарков незаменимы для истинного понимания и навигации по сложному пути к AGI.
Долой догадки, да здравствует наука
Новая структура Google DeepMind знаменует собой глубокий сдвиг, фундаментально переопределяя стремление к искусственному общему интеллекту (AGI). Это не просто очередной бенчмарк; она устанавливает смену парадигмы для всей области, заменяя спекулятивные утверждения строгой, научной методологией.
Прошли времена расплывчатых заявлений и выборочных демонстраций. Исследователи теперь могут выйти за рамки субъективных «ощущений» и анекдотических свидетельств, основывая прогресс AGI на поддающемся количественной оценке, проверяемом стандарте. Предложенные 10 когнитивных способностей и трехэтапный протокол оценки предлагают объективную призму для оценки возможностей по сравнению с реальной производительностью человека.
Эта детализированная когнитивная таксономия предоставляет бесценный диагностический инструмент. Разработчики теперь могут точно определить конкретные слабые места в своих моделях, точно выявляя, какие именно способности — будь то метапознание, исполнительные функции или социальное познание — требуют дальнейшего развития. Эта когнитивная карта превращает исследования AGI из разрозненных усилий в целенаправленную, систематическую инженерную задачу.
Сопутствующий хакатон Kaggle с призовым фондом в $200 000 еще раз подчеркивает приверженность Google этому научному подходу. Приглашая мировое исследовательское сообщество к созданию оценок для этих конкретных способностей, Google активно способствует совместному, основанному на данных пути к AGI, а не внутренней, непрозрачной конкуренции.
В конечном итоге, эта структура поднимает дискуссию об AGI на новый уровень. Вопрос больше не в том, *можем ли* мы создать по-настоящему интеллектуальные машины, а в том, *как* мы будем научно измерять, проверять и систематически прокладывать наш путь к ним. Она открывает эру научной верификации для искусственного интеллекта.
Часто задаваемые вопросы
Что такое новая структура AGI от Google?
Это предложение Google DeepMind для измерения прогресса в AGI путем тестирования систем ИИ по 10 основным когнитивным способностям, напрямую сравнивая их производительность с человеческими базовыми показателями, а не используя единую оценку.
Какие 10 когнитивных способностей входят в структуру?
10 способностей: Восприятие, Генерация, Внимание, Обучение, Память, Рассуждение, Метапознание, Исполнительные функции, Решение проблем и Социальное познание.
Чем это отличается от существующих бенчмарков ИИ?
В отличие от бенчмарков, которые проверяют конкретные навыки, такие как программирование или математика, эта структура предоставляет целостный когнитивный профиль. Она направлена на предотвращение «натаскивания на тест» путем использования частных, проверенных третьей стороной задач.
Означает ли эта новая структура, что AGI близок?
Нет. Сама структура является инструментом измерения, а не заявлением о достижении. Она разработана для предоставления четкой, научной дорожной карты для отслеживания прогресса в AGI, переводя разговор от спекуляций к эмпирическим данным.