Google이 AGI의 규칙을 새로 썼다

최고의 AI 연구소들은 AGI가 무엇인지 합의하지 못한 채 AGI를 향해 경쟁하고 있습니다. Google DeepMind는 이 논쟁을 끝낼 과학적 프레임워크를 발표했으며, 이는 인간의 마음에 기반을 두고 있습니다.

Stork.AI
Hero image for: Google이 AGI의 규칙을 새로 썼다
💡

요약 / 핵심 포인트

최고의 AI 연구소들은 AGI가 무엇인지 합의하지 못한 채 AGI를 향해 경쟁하고 있습니다. Google DeepMind는 이 논쟁을 끝낼 과학적 프레임워크를 발표했으며, 이는 인간의 마음에 기반을 두고 있습니다.

AGI의 무법천지 시대는 끝났다

인공 일반 지능(AGI)의 추구는 선도적인 AI 연구소들 사이에서 치열하고 종종 혼란스러운 글로벌 경쟁을 촉발합니다. 인간 수준의 인지 능력을 갖춘 시스템을 개발하는 데 수십억 달러와 셀 수 없는 시간이 투입되지만, 이 기념비적인 노력의 결승선은 여전히 정의되지 않고 있습니다. 모든 주요 플레이어는 AGI를 궁극적인 목표로 선언하지만, 이를 달성하는 것이 진정으로 무엇을 의미하는지에 대해서는 아무도 동의하지 않아, 진전이 주관적이고 종종 정량화할 수 없는 '무법천지' 시나리오를 만듭니다.

주요 연구소들은 AGI에 대해 극명하게 다른 비전을 제시하며, 업계의 합의 부족을 부각합니다. OpenAI는 AGI를 "대부분의 경제적으로 가치 있는 작업에서 인간을 능가하는 고도로 자율적인 시스템"으로 정의하며, 경제적 유용성을 강조합니다.

대조적으로, Google DeepMind 공동 창립자 Shane Legg는 AGI를 "사람들이 일반적으로 할 수 있는 종류의 인지적 작업을 최소한 수행할 수 있는 인공 에이전트"로 묘사합니다. ARC benchmark의 창시자인 Francis Chollet은 지능을 기술 습득 효율성, 즉 시스템이 새로운 개념을 얼마나 빠르게 학습하는지에 초점을 맞춰 설명합니다.

이러한 심오한 정의적 모호성은 AGI 진행 상황에 대한 객관적인 평가를 거의 불가능하게 만듭니다. 목표에 대한 공유된 이해가 없으면, 업계는 AI 능력에 대한 주관적이고 '느낌 기반' 평가에 의존하게 됩니다. 이러한 평가는 종종 인상적이지만 좁은 벤치마크 점수에 의해 좌우되며, 이는 데이터 오염이나 암기 문제로 인해 진정한 일반화된 지능을 가리는 경우가 많습니다.

문제는 명확해집니다: 일관되게 정의조차 할 수 없는 목표를 향한 발전을 어떻게 정확하게 측정할 수 있을까요? 이 근본적인 도전은 AI 커뮤니티를 괴롭혀왔으며, 진정한 돌파구를 단순한 점진적 개선과 구별하기 어려운 투기적인 환경을 조성했습니다. Google DeepMind의 최근 논문은 이러한 측정 공백에 직접적으로 맞서며, 지능형 시스템을 평가하는 방식에 대한 급진적인 변화를 제안합니다.

Google의 새로운 지능 규칙서

삽화: Google의 새로운 지능 규칙서
삽화: Google의 새로운 지능 규칙서

2026년 3월 16일, Google DeepMind는 인공 일반 지능(Artificial General Intelligence)의 추구를 재정의할 획기적인 논문을 조용히 공개했습니다. 'AGI를 향한 진전 측정: 인지 프레임워크(Measuring Progress Towards AGI: A Cognitive Framework)'라는 제목의 이 문서는 평가에 대한 구조화되고 과학적인 접근 방식을 제안함으로써 현재 AGI의 '무법천지' 상황에 직접적으로 대처합니다. 이는 기존 벤치마크의 임의적인 결승선을 수십 년간의 인간 인지 과학에 기반을 둔 지능 자체에 대한 포괄적인 규칙서로 대체합니다.

DeepMind의 핵심 제안은 AI의 진정한 능력을 종종 잘못 나타내는 단일하고 조작 가능한 벤치마크 점수에서 벗어나 급진적인 변화를 옹호합니다. 대신, 이 논문은 인간 지능을 정교하게 모델링한 완전한 인지 프로필(full cognitive profile)의 필요성을 주장합니다. 이 프레임워크는 지각, 추론, 사회적 인지를 포함한 10가지 뚜렷한 인지 능력(cognitive faculties)에 걸쳐 AI 시스템의 능력을 평가하며, 실제 인간 분포와 직접적으로 성능을 비교합니다. 이는 단순한 작업 완료를 넘어 진정한 지능을 평가하기 위해 AI의 지적 지형에 대한 전체적인 이해를 보장합니다.

결정적으로, 이 프레임워크는 근본적인 구분을 짓습니다: 시스템이 *무엇을* 달성할 수 있는지에 전적으로 초점을 맞추며, *어떻게* 달성하는지는 고려하지 않습니다. AI가 transformer architectures, diffusion models 또는 완전히 새로운 메커니즘을 사용하는지는 평가에 무관합니다. 이 논문은 오직 관찰 가능한 결과와 입증 가능한 지적 능력에만 중점을 두며, 평가를 근본적인 기술 구현과 분리합니다. 이러한 '블랙박스' 접근 방식은 AI 기술이 계속 발전함에 따라 광범위한 적용 가능성과 평가의 미래 경쟁력을 보장합니다.

이 이니셔티브는 AGI 논의에 절실히 필요한 과학적 엄격함을 주입하는 중추적인 움직임을 나타냅니다. 공통 언어와 표준화된 다차원 평가 프로토콜을 제공함으로써 Google DeepMind는 전 세계 연구 노력을 통합하는 것을 목표로 합니다. 이는 전 세계 연구실이 객관적이고 협력적으로 진전을 측정할 수 있도록 보편적인 척도를 확립하여, AGI 경쟁을 혼란스러운 단거리 경주에서 투명하고 공유된 과학적 노력으로 전환하고자 합니다. 이 프레임워크는 인간 수준의 일반 지능을 향한 진정한 발전을 추적하기 위한 견고한 기반을 제공합니다.

마음 해체하기: 10가지 능력

Google DeepMind의 새로운 프레임워크는 정신 능력의 구조화된 분류인 정밀한 인지 분류 체계에 기반을 둡니다. 이것은 AI를 위해 임의로 만들어진 목록이 아닙니다. 대신, 인지 과학, 심리학, 신경 과학 분야에서 수십 년간 확립된 연구에서 직접 가져온 것입니다. 이 프레임워크는 인간 지능이 어떻게 연구되어 왔는지에 의도적으로 매핑되어, 인공 시스템을 평가하기 위한 견고하고 경험적으로 입증된 기반을 제공합니다. 이러한 근본적인 선택은 AGI 논의를 철학적 추상화에서 측정 가능하고 과학적인 비교로 전환시킵니다.

이 분류 체계의 핵심은 인간에게서 관찰되는 지능의 근본적인 구성 요소로 식별되는 10가지 개별적인 인지 능력입니다: - 지각: 감각 정보를 추출하고 처리합니다. - 생성: 텍스트, 음성 또는 행동과 같은 유용한 결과물을 생성합니다. - 주의: 관련 정보에 인지 자원을 집중합니다. - 학습: 새로운 지식을 습득하고 배포 후 적응합니다. - 기억: 시간이 지남에 따라 정보를 저장하고 검색하며, 오래된 데이터를 잊습니다. - 추론: 다양한 논리적 추론을 통해 타당한 결론을 도출합니다. - 메타인지: 불확실성에 대한 자기 인식을 포함하여 자신의 인지 과정에 대한 지식과 모니터링입니다. - 실행 기능: 목표 달성을 위해 계획하고, 충동을 억제하며, 전략을 전환합니다. - 문제 해결: 새로운 도전에 대한 해결책을 찾기 위해 여러 능력을 적용합니다. - 사회 인지: 사회적 신호를 이해하고, 타인의 생각을 추론하며, 적절하게 협력합니다.

이 10가지 능력은 총체적으로 포괄적인 프로필을 형성하며, AI 시스템을 인간 인지 능력의 전체 스펙트럼에 대해 평가하도록 설계되었습니다. 단일하고 쉽게 조작될 수 있는 'AGI 점수' 대신, Google DeepMind는 AI 성능을 이러한 각 차원에 걸쳐 평가하고, 이를 인간 기준선과 직접 비교할 것을 제안합니다. 이러한 세분화된 접근 방식은 AI의 진정한 지적 발전에 대해 훨씬 더 객관적이고 유익한 평가를 약속합니다.

특히, 이 논문은 시스템이 *무엇*을 달성할 수 있는지 평가하는 데 중점을 두며, *어떻게* 달성하는지는 강조하지 않습니다. 이러한 중요한 구분은 프레임워크가 기술에 구애받지 않고, transformers부터 새로운 디자인에 이르기까지 어떤 AI 아키텍처에도 특정 방법론에 대한 편향 없이 적용될 수 있도록 보장합니다. 프레임워크의 세부 사항에 대해 더 자세히 알아보려면 Measuring Progress Towards AGI: A Cognitive Framework - Google Blog를 참조하십시오. 20만 달러의 상금이 걸린 Kaggle 해커톤은 Google DeepMind가 특히 Metacognition 및 사회적 인지와 같이 현재 평가 격차가 가장 큰 복잡한 영역에 대한 강력한 평가를 공동으로 구축하려는 노력을 더욱 강조합니다. 향후 섹션에서는 이 10가지 능력 각각에 대해 자세히 다루며, Google DeepMind가 제안하는 평가 방법과 AGI 개발에 대한 심오한 함의를 탐구할 것입니다.

인지의 구성 요소 (1부)

Google DeepMind의 획기적인 논문인 'Measuring Progress Towards AGI: A Cognitive Framework'는 AI 평가를 위한 엄격한 10가지 인지 능력 분류 체계를 소개합니다. 이 상세한 프레임워크는 지능형 시스템이 세상과 상호 작용하고 처리하는 방식을 지배하는 처음 다섯 가지 기초적인 능력부터 시작하여 인지의 필수적인 "구성 요소"를 확립합니다. 이러한 구성 요소는 단순한 벤치마크를 넘어 미묘한 능력을 정의합니다.

Perception(지각)은 초기 능력으로, AI가 감각 데이터를 단순히 감지하는 것을 넘어 해석하는 능력을 평가합니다. 여기에는 복잡한 시각적 장면을 이해하고, 객체, 관계 및 맥락을 인식하거나, 인간의 음성 및 서면 텍스트 내의 미묘한 의미를 정확하게 해석하는 것이 포함됩니다. 이는 시스템이 원시 입력에서 풍부하고 실행 가능한 의미를 추출하는 능력을 측정합니다.

다음으로, Generation(생성)은 AI가 유용하고 일관되며 종종 새로운 결과물을 생산하는 능력을 평가합니다. 이는 명확하고 맥락에 맞는 텍스트를 작성하고 자연스러운 음성을 합성하는 것부터 물리적 또는 가상 환경에서 정확한 컴퓨터 동작 및 운동 움직임을 실행하는 것에 이르기까지 다양합니다. 이는 AI가 내부 이해를 유형의 외부 결과로 변환하는 기술을 측정합니다.

세 번째 중요한 능력인 Attention(주의)은 AI가 인지 자원을 선택적으로 집중하는 인간과 유사한 능력을 면밀히 조사합니다. 이는 방대한 데이터 세트 내에서 중요한 정보에 집중하면서 관련 없는 방해 요소를 효과적으로 걸러내는 것을 의미합니다. 현재 AI 모델은 종종 모든 것을 동시에 처리합니다. 진정한 주의는 보다 효율적이고 목표 지향적인 처리로의 패러다임 전환을 의미합니다.

Learning(학습)과 Memory(기억)는 네 번째와 다섯 번째 상호 연결된 기둥을 형성합니다. Learning은 AI의 continual learning(지속적 학습) 능력을 평가하며, 새로운 카드 게임을 마스터하거나 새로운 직업에 적응하는 인간과 유사하게 배포 후 실시간으로 새로운 지식을 습득하고 행동을 조정하는 것을 포함합니다. Memory는 이를 보완하여 시스템이 장기간에 걸쳐 정보를 견고하게 저장하고 검색하는 능력, 그리고 인지 과부하를 방지하기 위해 오래되거나 관련 없는 데이터를 지능적으로 잊는 능력을 측정합니다.

고차원적 사고 (2부)

삽화: 고차원적 사고 (2부)
삽화: 고차원적 사고 (2부)

기초적인 감각 및 기억 기능을 넘어, Google DeepMind의 프레임워크는 인간 수준의 지능을 달성하는 데 중요한 다섯 가지 복잡한 인지 능력을 강조합니다. Reasoning(추론)은 다양한 논리적 형태를 통해 시스템이 타당한 결론을 도출할 수 있도록 하는 중요한 기둥을 형성합니다. 여기에는 연역적 추론, 귀납적 추론, 유추적 추론 및 수학적 추론이 포함되며, 단순 암기를 넘어 진정한 이해로 나아갑니다.

현재 AI의 가장 중요한 격차 중 하나인 Metacognition은 AI의 자기 인식과 자신의 지식에 대한 이해를 평가합니다. 시스템이 "자신이 무엇을 아는지" 알 수 있는지, 불확실성을 표현할 수 있는지, 또는 새로운 질문에 직면했을 때 자신의 한계를 명확히 설명할 수 있을까요? 오늘날의 모델들은 자신의 인지 과정을 모니터링하는 이 중요한 능력이 부족하여 악명 높게도 "자신감 있게 틀린 답을 제공"하지만, Claude는 초기 징후를 보이기 시작했습니다.

다음으로, Executive Functions는 AI의 고수준 제어 및 전략적 행동 능력을 관장합니다. 종종 뇌의 CEO에 비유되는 이러한 능력은 정교한 계획, 충동을 억제하는 중요한 능력, 그리고 변화하는 조건에 따라 전략을 동적으로 전환하는 것을 포함합니다. 이는 AI가 목표를 설정하고 부지런히 추구하며, 접근 방식을 조정하고 복잡한 목표를 달성하기 위해 장기간 집중력을 유지할 수 있도록 합니다.

Problem Solving은 이러한 다양한 인지 능력을 종합하여 새롭고 실제적인 문제에 도전합니다. 이 능력은 AI가 지각, 추론, 계획 및 학습을 통합하고, 이를 응집력 있게 적용하여 익숙하지 않은 영역에서 효과적인 해결책을 찾는 것을 요구합니다. 이는 시스템의 적응형 지능 능력을 나타내며, 미리 프로그래밍된 반응을 넘어 창의적인 해결책을 요구하는 새롭고 복잡한 상황에 진정으로 대처합니다.

마지막으로, Social Cognition은 AI가 인간 상호작용 및 협업의 복잡성을 탐색하는 능력을 다룹니다. 이는 미묘한 사회적 신호를 이해하고, 타인의 의도와 생각을 정확하게 추론하며, 효과적으로 협력하고, 결과를 협상하며, 복잡한 사회적 상황에서 적절하게 반응하는 것을 포함합니다. 이는 인간 중심 환경에서 작동하는 시스템에 필수적이며, 고립된 작업을 넘어 복잡한 사회 역학 내에서의 협력적 참여로 나아갑니다.

2026년 3월 16일 논문 "Measuring Progress Towards AGI: A Cognitive Framework"에서 소개된 이 포괄적인 분류 체계는 시스템이 *무엇을* 달성하는지에 초점을 맞추며, *어떻게* 달성하는지는 다루지 않습니다. DeepMind의 프레임워크는 transformers 또는 diffusion models와 같은 기본 아키텍처를 명시적으로 무시하고, 관찰 가능한 지능형 행동을 우선시합니다. 이는 특정 기술적 접근 방식이나 내부 메커니즘에 관계없이 AGI를 향한 진행 상황을 측정하는 보편적인 렌즈를 제공합니다.

궁극의 인간 대결

Google DeepMind의 프레임워크는 AI 지능에 대한 포괄적이고 편향 없는 평가를 제공하도록 설계된 엄격한 3단계 평가 프로토콜로 마무리됩니다. 이 체계적인 접근 방식은 일화적인 증거와 단일 지표 벤치마크를 넘어 AGI를 향한 진행 상황을 추적하는 새로운 표준을 수립하는 것을 목표로 합니다.

첫째, 인지 평가 단계는 AI를 광범위한 작업 세트에 노출시키는 것을 포함하며, 각 작업은 특정 인지 능력을 분리하고 테스트하도록 세심하게 설계되었습니다. 결정적으로, 이 작업들은 비공개로 유지되며 제3자에 의해 독립적으로 검증됩니다. 이 엄격한 조치는 만연한 data contamination 문제를 직접적으로 해결하여, AI가 훈련 중에 단순히 답을 암기하여 인지된 지능을 거짓으로 부풀리지 않았음을 보장합니다.

다음으로, 이 프레임워크는 견고한 인간 기준선을 설정합니다. 연구원들은 동일한 작업을 동일한 조건에서 고등학교 교육 수준 이상을 가진 대규모의 인구 통계학적으로 대표적인 성인 표본에게 적용합니다. 이 단계는 인간 성과의 진정한 분포를 생성하여, AI 능력을 정확하게 측정할 수 있는 필수적인 실제 세계 맥락을 제공합니다.

마지막으로, 이 과정은 상세한 인지 프로필을 생성합니다. 개발자들은 AI의 성능을 10가지 능력 각각에 대해 수집된 인간 분포와 직접 비교하여 플로팅합니다. 결과로 나오는 레이더 차트는 AI 시스템이 일반적인 인간 능력과 비교하여 정확히 어디에서 뛰어나고 어디에서 부족한지를 즉각적이고 직관적인 시각적 표현으로 보여줍니다. 특정 특성에 대한 자세한 내용은 Google DeepMind Plans to Track AGI Progress With These 10 Traits of General Intelligence를 참조하십시오.

이러한 프로필은 여러 영역에서 인간 중앙값 이하의 성능을 보이는 시스템이나, 10가지 능력 모두에서 이를 초과하는 시스템을 보여줄 수 있습니다. 모든 분야에서 99번째 백분위수를 달성하여 샘플 내 거의 모든 인간을 모든 작업에서 능가하거나 일치하는 시스템조차도 심오한 이정표를 나타내지만, 이 논문은 유한한 인간 능력 샘플의 내재된 한계로 인해 AGI를 결정적으로 증명하지는 못한다고 신중하게 언급합니다.

이 'IQ Test'가 여전히 놓치고 있는 것

Google DeepMind의 "인지 프레임워크"는 강력한 평가를 제공하지만, 논문 자체는 중요한 한계를 솔직하게 인정합니다. 어떤 단일 평가도 지능의 전체 스펙트럼을 포착할 수 없으며, AI를 위한 이 제안된 "IQ test"도 예외는 아닙니다.

결정적으로, 이 프레임워크는 실행 속도가 아닌 인지 능력만을 측정합니다. AI가 완벽한 추론을 보여줄 수 있지만, 밀리초 단위의 결정을 처리하는 데 몇 분이 걸린다면, 적시 대응이 가장 중요한 자율 주행 차량, 고빈도 거래 또는 수술 로봇과 같은 실제 응용 분야에서는 비실용적입니다.

순수한 지능을 넘어, 이 프레임워크는 AI의 내재된 시스템 성향을 간과합니다. 에이전트가 본질적으로 위험 회피적인지, 무모한지, 보수적인지, 공격적인지를 정량화할 수 없습니다. 이러한 경향은 윤리적 배포와 인간 가치와의 정렬에 가장 중요하며, 특히 AI의 운영 특성이 그 능력만큼이나 중요한 고위험 시나리오에서는 더욱 그렇습니다.

또 다른 중요한 도전 과제는 "모델 대 시스템" 문제에서 발생합니다. AI가 인간 IQ 테스트 중 계산기를 허용하는 것과 유사하게, 외부 도구의 전체 세트를 사용하여 평가되어야 할까요? Google DeepMind는 도구 접근을 포함한 완전한 시스템을 평가할 것을 제안하지만, 이러한 보조 도구가 측정되는 근본적인 인지적 도전을 사소하게 만들지 않도록 특별히 설계된 작업에서 평가해야 한다고 말합니다.

이 미묘한 접근 방식은 AI가 본질적인 이해를 보여주지 않고 단순히 복잡한 인지 작업을 외부 유틸리티에 오프로드하는 것을 방지하는 것을 목표로 합니다. 목표는 효율적인 도구 사용이 아니라 *지능*을 측정하는 것이며, 프레임워크가 진정한 인지 능력과 정교한 조회 기능 사이를 구별하도록 보장합니다.

이러한 인정된 간극은 AI 시스템을 위한 세심하게 설계된 인지적 "IQ test"조차도 여전히 진행 중인 작업임을 강조합니다. *무엇이* 지능을 의미하는지 정의하는 것은 기념비적인 단계이지만, 역동적이고 가치 지향적인 환경에서 *어떻게* 나타나는지 이해하려면 평가 방법론의 추가적인 발전이 필요할 것입니다.

AGI의 가장 약한 고리를 찾는 20만 달러의 사냥

삽화: AGI의 가장 약한 고리를 찾는 20만 달러의 사냥
삽화: AGI의 가장 약한 고리를 찾는 20만 달러의 사냥

Google DeepMind의 프레임워크는 이론적인 제안을 넘어섭니다. 야심찬 인지 분류법을 즉시 실행하기 위해 Google은 논문 발표와 동시에 Kaggle hackathon을 시작했습니다. 이 움직임은 학술적 활동을 구체적이고 커뮤니티 주도적인 이니셔티브로 전환시켰습니다.

해커톤은 전 세계 연구원과 개발자들에게 동기를 부여하는 상당한 20만 달러의 상금 풀을 제공합니다. 이 중요한 투자는 프레임워크가 10개 학부에 걸쳐 새롭고 편향되지 않은 평가를 필요로 하는 점을 직접적으로 해결하기 위해 실제 평가 작업의 생성을 크라우드소싱하는 것을 목표로 합니다. Google은 이러한 테스트를 처음부터 구축하는 엄청난 과제를 이해하고 있습니다.

결정적으로, 해커톤은 현재 AI 평가 방법이 가장 취약하거나 존재하지 않는 다섯 가지 특정 인지 능력을 목표로 합니다. 여기에는 다음이 포함됩니다: - 학습 (Learning) - 메타인지 (Metacognition) - 주의력 (Attention) - 실행 기능 (Executive functions) - 사회적 인지 (Social cognition)

이러한 범주는 지능의 가장 복잡하고 인간적인 측면 중 일부를 나타내며, 견고하고 조작 불가능한 평가에 상당한 장애물을 제시합니다. 기존 벤치마크는 이러한 미묘한 영역에서 종종 부족합니다.

전 세계 AI 커뮤니티를 참여시킴으로써 Google DeepMind는 3단계 평가 프로토콜에 필수적인 정교하고 목표 지향적인 테스트를 신속하게 개발하고자 합니다. 이 협력적 접근 방식은 진정한 기계 지능을 측정하고 이해하는 우리의 집단적 능력에서 가장 중요한 격차를 메우고, 학술 논문을 살아있는 진화하는 표준으로 전환하는 것을 목표로 합니다. 해커톤은 단순히 개념화가 아닌 실제 구현에 대한 약속을 의미합니다.

이것이 유일한 리트머스 시험인가?

Google DeepMind의 "AGI를 향한 진전 측정: 인지 프레임워크"는 포괄적인 AGI 평가를 위한 새로운 황금 표준을 확립하지만, 이는 중요한 벤치마크의 더 넓은 생태계 내에 존재합니다. AI 연구 커뮤니티는 기계 지능의 뚜렷한 측면을 밝히도록 설계된 다양한 평가를 활용합니다. 특히, Google AI 연구원 François Chollet이 개발한 ARC-AGI, 즉 Abstraction and Reasoning Corpus는 극명하게 대조되는 관점을 제공합니다.

Chollet의 ARC-AGI는 근본적으로 다른 종류의 도전을 제시합니다. 지능을 10개의 뚜렷한 능력으로 매핑하는 Google DeepMind의 광범위한 인지 분류와 달리, ARC-AGI는 유동 지능과 최소한의 예시로부터 규칙을 추론하는 능력에 좁게 초점을 맞춥니다. 이는 에이전트가 입력-출력 쌍을 관찰한 다음 학습된 변환을 새롭고 보지 못한 입력에 적용하도록 요구하는 추상적인 시각 퍼즐로 구성됩니다. 핵심 요구 사항은 훈련 데이터를 넘어선 진정한 일반화입니다.

결정적으로, 현재 최첨단 AI 모델은 언어 생성, 이미지 합성 및 복잡한 전략 게임에서 인상적인 업적에도 불구하고 ARC-AGI에서 거의 0에 가까운 점수를 얻습니다. 방대한 데이터셋으로 훈련된 이 모델들은 익숙한 분포 내에서 패턴 인식에 탁월합니다. 그러나 Chollet의 퍼즐이 요구하는 근본적인 귀납적 추론과 새로운 문제 해결에 직면했을 때, 인간 어린이가 직관적으로 이해할 수 있는 작업임에도 불구하고 일관되게 실패합니다.

이러한 극명한 격차는 AI 발전의 "들쭉날쭉한 경계"를 생생하게 보여줍니다. 기계는 이제 Go, chess 또는 고급 코드 생성과 같은 고도로 전문화된 영역에서 인간의 성능을 일상적으로 능가합니다. 그러나 동시에 기본적인 인과 관계를 이해하거나 명시적인 프로그래밍 없이 완전히 새롭고 추상적인 문제 구조에 적응하는 것과 같이 인간에게는 사소하게 간단해 보이는 작업에서 어려움을 겪습니다. Google DeepMind의 프레임워크는 이 불균일한 지형을 포괄적으로 매핑하는 것을 목표로 하는 반면, ARC-AGI는 AI의 기초적인 인지 능력에 지속적이고 중요한 격차를 드러냅니다. 두 가지 유형의 벤치마크 모두 AGI로 가는 복잡한 경로를 진정으로 이해하고 탐색하는 데 필수적입니다.

감성 대신 과학으로

Google DeepMind의 새로운 프레임워크는 인공 일반 지능(AGI) 추구의 근본적인 재정의를 의미하는 심오한 변화를 나타냅니다. 이것은 단순히 또 다른 벤치마크가 아니라, 추측성 주장을 엄격하고 과학적인 방법론으로 대체하며 전체 분야의 paradigm shift를 확립합니다.

모호한 발표와 선별된 데모의 시대는 지났습니다. 연구자들은 이제 주관적인 '느낌'과 일화적인 증거를 넘어, AGI의 발전을 정량화 가능하고 검증 가능한 표준에 기반을 둘 수 있습니다. 제안된 10가지 인지 능력과 3단계 평가 프로토콜은 실제 인간의 성능과 비교하여 능력을 평가하는 객관적인 렌즈를 제공합니다.

이 세분화된 cognitive taxonomy는 귀중한 진단 도구를 제공합니다. 개발자들은 이제 모델의 특정 약점을 정확히 찾아내어, Metacognition, Executive Functions, 또는 Social Cognition 중 어떤 능력이 추가 개발을 필요로 하는지 정확히 식별할 수 있습니다. 이 인지 지도는 AGI 연구를 무작위적인 노력에서 목표 지향적이고 체계적인 엔지니어링 과제로 전환합니다.

함께 진행되는 20만 달러 규모의 Kaggle 해커톤은 이러한 과학적 접근 방식에 대한 Google의 의지를 더욱 강조합니다. 전 세계 연구 커뮤니티를 초대하여 이러한 특정 능력에 대한 평가를 구축하도록 함으로써, Google은 내부의 불투명한 경쟁 대신 AGI를 향한 협력적이고 데이터 중심적인 경로를 적극적으로 육성하고 있습니다.

궁극적으로, 이 프레임워크는 AGI 논의의 수준을 높입니다. 질문은 더 이상 우리가 진정으로 지능적인 기계를 만들 수 *있는지*가 아니라, 우리가 그것들을 향한 여정을 어떻게 과학적으로 측정하고, 검증하며, 체계적으로 나아갈 것인가입니다. 이는 인공지능을 위한 scientific verification 시대를 엽니다.

자주 묻는 질문

Google의 새로운 AGI 프레임워크는 무엇인가요?

Google DeepMind가 제안한 것으로, 단일 점수를 사용하는 대신 10가지 핵심 인지 능력에 걸쳐 AI 시스템을 테스트하고 그 성능을 인간의 기준선과 직접 비교하여 AGI를 향한 진행 상황을 측정하는 것입니다.

프레임워크의 10가지 인지 능력은 무엇인가요?

10가지 능력은 Perception, Generation, Attention, Learning, Memory, Reasoning, Metacognition, Executive Functions, Problem Solving, Social Cognition입니다.

이것은 기존 AI 벤치마크와 어떻게 다른가요?

코딩이나 수학과 같은 특정 기술을 테스트하는 벤치마크와 달리, 이 프레임워크는 전체적인 인지 프로필을 제공합니다. 이는 비공개적이고 제3자가 검증한 작업을 사용하여 '시험에 맞춰 가르치기'를 방지하는 것을 목표로 합니다.

이 새로운 프레임워크가 AGI가 임박했다는 것을 의미하나요?

아니요. 프레임워크 자체는 성과 주장이 아닌 측정 도구입니다. 이는 AGI를 향한 진행 상황을 추적하기 위한 명확하고 과학적인 로드맵을 제공하여, 논의를 추측에서 경험적 증거로 옮기도록 설계되었습니다.

자주 묻는 질문

이것이 유일한 리트머스 시험인가?
Google DeepMind의 "AGI를 향한 진전 측정: 인지 프레임워크"는 포괄적인 AGI 평가를 위한 새로운 황금 표준을 확립하지만, 이는 중요한 벤치마크의 더 넓은 생태계 내에 존재합니다. AI 연구 커뮤니티는 기계 지능의 뚜렷한 측면을 밝히도록 설계된 다양한 평가를 활용합니다. 특히, Google AI 연구원 François Chollet이 개발한 ARC-AGI, 즉 Abstraction and Reasoning Corpus는 극명하게 대조되는 관점을 제공합니다.
Google의 새로운 AGI 프레임워크는 무엇인가요?
Google DeepMind가 제안한 것으로, 단일 점수를 사용하는 대신 10가지 핵심 인지 능력에 걸쳐 AI 시스템을 테스트하고 그 성능을 인간의 기준선과 직접 비교하여 AGI를 향한 진행 상황을 측정하는 것입니다.
프레임워크의 10가지 인지 능력은 무엇인가요?
10가지 능력은 Perception, Generation, Attention, Learning, Memory, Reasoning, Metacognition, Executive Functions, Problem Solving, Social Cognition입니다.
이것은 기존 AI 벤치마크와 어떻게 다른가요?
코딩이나 수학과 같은 특정 기술을 테스트하는 벤치마크와 달리, 이 프레임워크는 전체적인 인지 프로필을 제공합니다. 이는 비공개적이고 제3자가 검증한 작업을 사용하여 '시험에 맞춰 가르치기'를 방지하는 것을 목표로 합니다.
이 새로운 프레임워크가 AGI가 임박했다는 것을 의미하나요?
아니요. 프레임워크 자체는 성과 주장이 아닌 측정 도구입니다. 이는 AGI를 향한 진행 상황을 추적하기 위한 명확하고 과학적인 로드맵을 제공하여, 논의를 추측에서 경험적 증거로 옮기도록 설계되었습니다.
🚀더 알아보기

AI 트렌드를 앞서가세요

Stork.AI가 엄선한 최고의 AI 도구, 에이전트, MCP 서버를 만나보세요.

모든 게시물로 돌아가기