GPT-5의 ARC-AGI 벤치마크 점수: AI 추론의 획기적인 발전

💡

TL;DR / Key Takeaways

바이럴 비디오는 GPT-5가 불가능한 AI 테스트를 통과했다고 주장하며, 인간 수준의 지능을 달성했다고 합니다. 진실은 훨씬 더 흥미롭고 AGI 가속화의 진정한 비밀을 드러냅니다.

AI를 무너뜨리기 위해 만들어진 테스트

비밀의 GPT-5 돌파구에 대한 소문은 한 차트로 시작되었다: 새로운 ARC-AGI-2 벤치마크에서 주장된 75-76% 점수는 평균 약 60%인 인간 응시자들보다 훨씬 높은 수치였다. X와 유튜브에서 확대된 이 이야기는 AI가 AGI를 가르는 테스트에서 마침내 인간을 이긴 순간으로 묘사되었다.

ARC-AGI는 프랑수아 숄레트에서 출처를 두고 있으며, 그는 구글 딥마인드의 연구자로서 언어 모델을 확장하는 것이 일반 지능을 구축하는 것과 같지 않다는 주장을 수년간 해왔습니다. 그의 ARC(추상화 및 추론 집합) 벤치마크와 그 새로운 변형인 ARC-AGI-2는 인간이 한 번도 보지 못한 퍼즐을 해결하는 데 사용하는 유연한 추론 유형을 겨냥하고 있습니다.

ARC-AGI는 퀴즈 질문이나 교과서 문제 대신 작은 색깔 그리드를 제시하고 모델이 숨겨진 규칙을 추론하도록 요구합니다. 각 작업에는 세 가지 입력-출력 예시가 포함되어 있고, 그 후 모델이 처음부터 올바른 출력 그리드를 생성해야 하는 네 번째 입력이 있습니다. 지침, 레이블, 객관식 문항은 없습니다.

이 벤치마크는 유동 지능을 측정합니다: 패턴 발견, 구성적 추론, 그리고 거의 데이터가 없는 상태에서의 일반화. 이는 엄격한 Pass@2 지표를 사용하며, 모델은 각 작업에 대해 최대 두 번의 시도를 할 수 있으며, 부분 점수는 없고 솔루션 당 계산 비용에 유의합니다.

그 디자인은 ARC-AGI가 대형 언어 모델에게 극단적으로 어렵게 만듭니다. LLM은 웹 규모의 텍스트에서 암기한 패턴에 의존할 수 있을 때 뛰어난 성능을 발휘하지만, ARC-AGI의 퍼즐은 절차적으로 생성되고 시각적이며 언어적이지 않으며, 공통 훈련 데이터와는 전혀 다르게 의도적으로 설계되었습니다.

표준 리더보드인 MMLU, GSM8K 또는 HumanEval은 종종 추론과 회상 사이의 경계를 흐릿하게 만듭니다. 벤치마크가 훈련 데이터에 누수되고, 모델 공급업체가 유사한 질문 형식에 직접적으로 파인튜닝을 수행하며, 점수는 진정한 이해보다는 데이터 오염에 대해 더 많은 것을 말할 수 있는 방식으로 상승합니다.

ARC-AGI는 반대 방향으로 나아갑니다. 작업은 “인간에게는 쉬운/AI에게는 어려운” 형태로, 인간 해결자들은 시간만 주어진다면 100%에 가까운 성과를 내지만, 초기 프론티어 모델들은 ARC-AGI-2에서 단지 한 자릿수 점수를 기록했습니다. 이 격차가 75%의 GPT-5 점수 주장이 경고 신호를 발생시키는 이유입니다. 만약 사실이라면, 이는 AI가 단순히 지식을 반복하는 것이 아니라, 사람들처럼 새로운 규칙을 깨고 있다는 신호가 될 것입니다.

그리드로 생각하기: ARC를 어렵게 만드는 요인

격자 위의 색칠된 네모들은 튜링 테스트처럼 들리지 않지만, ARC-AGI는 그 어린이 장난감의 미학을 AI를 위한 날카로운 도구로 바꿉니다. 각 퍼즐은 소수의 작은 입력 격자와 일치하는 출력 격자를 보여주고, 모델에게 동일한 숨겨진 규칙을 사용하여 새로운 격자를 변형하라고 요청합니다: 파란 블록을 미러링하거나, 빨간 형상을 한 픽셀만큼 키우거나, 가장 큰 연결된 구성 요소를 제외한 모든 것을 삭제하는 등의 작업입니다.

인간은 이러한 예시를 보고 거의 즉시 구조를 설명하기 시작합니다: “오, 노란 선이 중심을 표시하고 있어,” 또는 “패턴은 매 세 개의 셀마다 반복돼.” 현재 모델들에게는 그런 10×10 또는 20×20 격자가 조합론적 지뢰밭과 같습니다. 하나하나의 색깔이 입혀진 픽셀이 데이터에 맞는 가능한 변형의 수를 곱하며, 언어 모델의 사전 훈련 코퍼스에서는 이와 비슷한 것이 전혀 없습니다.

ARC의 창조자인 프랑수아 숄레(François Chollet)는 이를 순수한 유동 지능 테스트로 설계했습니다: 새로운 상황에서 추론하고, 패턴을 발견하며, 개념을 즉석에서 재조합하는 능력. 이는 결정적 지능과 대조를 이루며, 결정적 지능은 암기한 사실들과 익숙한 템플릿에 의존합니다. 대규모 언어 모델이 웹 규모의 텍스트를 재생산하고 재혼합하는 데 빛을 발하는 영역입니다.

ARC-AGI-2에서는 암기할 훈련 분할이 없고 활용할 데이터셋 중복도 없습니다. 모델은 작업당 단 3-5개의 입력-출력 쌍만 보고 새로운 예제에 일반화해야 합니다. 그래디언트 업데이트도 없고, 미세 조정도 발생하지 않으며, 모든 것은 테스트 시간에 모델의 기존 가중치와 그 주변에 있는 어떤 구조물 안에서 발생합니다.

시스템을 정직하게 유지하기 위해, ARC-AGI-2는 Pass@2 메트릭을 사용합니다: 모델은 각 작업에 대해 최대 두 번의 추측만 할 수 있습니다. "거의 맞다"는 것에 대한 부분 점수는 없으며, 수천 개의 샘플을 무작위로 시도하면서 하나가 맞을 때까지 기다릴 기회도 없습니다. 벤치마크는 또한 효율성을 추적하여 각 시도가 소모하는 컴퓨팅 양을 계산하며, 이는 후보 프로그램을 무작정 나열하는 행위를 처벌합니다.

대조적으로, 인간은 이러한 퍼즐을 몇 분 만에, 종종 하나의 명확한 통찰로 해결합니다. 이 간극—인간의 "명백함"과 기계의 "불투명함" 사이—은 오늘날 가장 우수한 모델들이 여전히 진정한 추상화에서 얼마나 뒤처져 있는지를 드러내며, 그들이 응고된 지식에 기초한 시험에서는 지배적임에도 불구하고 그렇습니다.

예상치 못한 '탈구속' 혁명

언홉블링(Unhobbling)은 특화된 정렬 용어처럼 들리지만, 레오폴드 아쉔브레너(Leopold Aschenbrenner)는 이를 잔인할 만큼 간단한 것을 지칭하는 데 사용합니다: 현재 모델들은 똑똑하지만 인위적으로 제한되어 있습니다. 그의 2024년 "상황 인식" 논문은 가까운 시일 내의 엄청난 이익의 상당 부분이 더 큰 모델이 아니라 이러한 족쇄를 제거하는 데서 올 것이라고 주장합니다.

그의 비유는 강하게 와닿는다. LLM에게 어려운 수학 문제를 한 번에 풀어내라고 요구하는 것은 인간에게 즉각적으로 답을 내놓으라고 요구하는 것과 같다. 메모도 없이, 수정도 없이 말이다. 사고의 연쇄 유도는 그런 메모장 역할을 하여 "추측하는 챗봇"을 다단계 추론을 통해 문제를 해결할 수 있는 시스템으로 변화시켰고, 갑자기 훨씬 더 어려운 문제들도 쉽게 풀 수 있게 되었다.

오늘날의 최전선 모델들은 여전히 제한적입니다. 아셴브레너는 그들이: - 견고한 장기 기억력이 없다 - 컴퓨터나 파일 시스템을 유연하게 사용할 수 없다 - 대개 내부적으로 깊이 고민하기 전에 "말을 하기"가 드물다 - 지속적인 프로젝트보다 짧고 단일 스레드의 대화에서 주로 작동한다라고 지적합니다

언홉블링(Unhobbling)은 도구 사용, 계획 루프, 외부 기억, 다중 에이전트 오케스트레이션, 더 많은 테스트 시간 계산 등을 통해 이러한 제약을 수정하는 것을 의미합니다. 본질적으로, 이는 동일한 기본 가중치로 수행할 수 있는 작업을 변화시킵니다. 이 때문에 아센브레너는 이를 단순한 사용자 경험 개선이 아닌 알고리즘적 진전으로 분류합니다.

이것은 이미 숫자에서 확인할 수 있습니다. 포에틱의 메타 시스템은 보고서에 따르면 대략 인간 수준의 ARC-AGI-2 성능(~60%)에서 약 75-76%로 끌어올리며, Grok-4 스타일 모델은 유사한 추리 테스트에서 ~56-57%에서 ~72%로 향상시킵니다. 이는 더 큰 기본 모델 없이 이뤄진 것입니다. 구글의 제미니 3 라인도 같은 패턴을 보입니다: 30% 미만에서 40대 중반으로, 그리고 ARC 스타일 작업에서 연속적인 개선을 통해 인간 기반선을 넘어서는 성과를 나타냅니다.

그 역동성은 시간 개념을 재구성합니다. 단순히 제약을 없애는 것만으로도 다음 세대 모델이 필요할 것으로 예상되던 기준에서 10~20 포인트 점프를 이끌어낼 수 있다면, 더 이상 GPT-6 수준의 훈련을 기다릴 필요가 없습니다. OpenAI의 GPT-5 소개 - OpenAI 메시지도 유사한 주제에 의존하고 있습니다: 더 많은 도구, 더 많은 맥락, 그리고 원초적 규모 위에 더해진 더 많은 주체성.

아셴브레너의 예측은 직설적이다: 2027년까지 계속해서 장애를 제거하면 오늘날의 챗봇은 단순한 대화형 검색 상자보다 훨씬 더 에이전트와 동료처럼 행동하는 존재로 변화할 것이다.

내부 시적: '매니저 AI' 전략

시적 요소는 GPT-5 ARC 이야기의 중심에 자리 잡고 있습니다. TheAIGRID의 비디오는 회사가 새로운 뇌를 처음부터 훈련시키는 것이 아니라 OpenAI 모델 주위에 “자유롭게 하는” 발판을 구축했다고 인정합니다. 그들의 주장은 기초 가중치를 확장하지 않고도 GPT-5를 대략 인간 수준의 ARC-AGI-2 성능에서 보고된 75–76%까지 끌어올리는 메타 시스템입니다.

Poetic의 접근 방식의 핵심에는 "매니저 AI"가 있습니다. 각 퍼즐에 대해 단일 대형 모델 호출을 하는 대신, 매니저는 격자를 검사하고 고위 계획을 제안한 다음 이를 하위 문제로 분해합니다. 각 하위 문제는 패턴 인식, 코드 생성, 검색 또는 검증을 위해 조정된 전문 작업자 모델로 라우팅됩니다.

중요하게도, 이 관리자는 단순히 프롬프트를 주고 기도하는 것이 아닙니다. 그는 다음을 할 수 있습니다: - 퍼즐 그리드에 대해 코드를 작성하고 실행할 수 있습니다. - 중간 출력을 검토하고 목표와 비교할 수 있습니다. - 경로가 잘못된 것으로 보일 때 대안 전략으로 분기할 수 있습니다. - 올바른 해결책이 나타나면 언제 멈출지를 결정할 수 있습니다.

그 루프—계획, 실행, 점검, 수정—는 ARC를 일회성 추측 게임에서 반복적인 탐색으로 바꿉니다. 이 시스템은 단일 비싼 경계 모델을 고집하는 대신 수십 개의 저렴한 작업자 호출을 실행할 수 있습니다. Poetic은 이것이 어려운 추론 작업에서 막대한 컴퓨트 비용을 절약한다고 주장하며, 관리자가 후보 출력이 요구하는 그리드와 정확히 일치할 때 조기에 중단합니다.

표준 단일형 LLM 설정과 대비해 보십시오. 기준 세계에서는 하나의 프롬프트를 하나의 대형 모델에 보내고 하나의 답변을 받으며, 결과가 실패하더라도 전체 가격을 지불합니다. 명시적인 분해가 없고, 지속적인 스크래치패드도 없으며, 사용자가 "다시 시도"를 누르는 것을 제외하고는 자기 수정이 없습니다.

포에틱의 다중 에이전트 자기 수정 아키텍처는 연쇄적 사고가 암시하는 것 이상으로 효과적으로 외부화합니다. 단일 모델을 단계별로 사고하도록 유도하기보다는, 관리자는 팀을 구성하고 필요에 따라 테스트 시간의 컴퓨팅 리소스를 할당하며, 비효율적인 경로를 제거합니다. ARC-AGI-2와 같은 벤치마크에서는 이러한 구조화된 메타 추론이 추가적인 100억 개의 매개변수보다 더 중요할 수 있습니다.

현실 확인: 실제 ARC-AGI 리더보드

현실은 실제 ARC Prize 리더보드를 열자마자 다가옵니다. 바이럴한 75% GPT-5 점수는 거기나 독립적으로 검증된 다른 곳 어디에서도 존재하지 않습니다. 대신, 공개된 수치들은 현재 모델들이 어디에 위치해 있는지를 훨씬 더 현실적이면서도 여전히 놀라운 모습으로 보여줍니다.

주요 ARC-AGI-2 보드에서 기본 GPT-5는 9.9%의 Pass@2 점수를 기록했습니다. 이는 Claude Opus 4의 8.6%, 다양한 Gemini 3 변형 모델들이 낮은 두 자리 수에서 머무르고, 많은 시스템들이 2%에서 6% 사이에서 고군분투하는 것과 같은 어려운 집단에 위치하게 만듭니다. Grok-4 “Thinking”이 16.0%로 초기 표에서 선두를 달리고 있지만, AGI의 승리 행진을 말하기에는 부족합니다.

더 아래로 스크롤하면 예상되는 기적의 모델이 다른 모습으로 나타납니다: GPT-5.2, 갑자기 곡선을 바꾸는 최신 OpenAI 시스템입니다. 공식 ARC-AGI-2 “시스템” 리더보드에서 GPT-5.2는 약 53–54%의 Pass@2를 기록합니다. 이 점수는 GPT-5의 9.9%를 세 배 이상 초과하며, GPT-5.1의 보고된 17.6%도 대략 세 배로 늘어납니다. 또한, 약 45%를 기록한 이전의 스타인 Gemini 3 Pro를 편안하게 내리치고 있습니다.

그러나 인간이 여전히 이 기준을 소유하고 있습니다. ARC-AGI-2의 인간 기준은 평균 시험 응시자의 경우 약 60%에 해당하며, 검증된 세트는 적어도 아홉 개 또는 열 개의 사람 중 두 명 이상이 해결한 작업만 계산할 경우 98–100%에 접근합니다. ARC의 전체 요점은 이러한 그리드 퍼즐이 인간에게는 "명확한" 느낌이지만 기계에게는 여전히 잔인하게 불투명하다는 것입니다.

그 맥락은 75-76% 주장이 측정이 아닌 마케팅처럼 보이게 합니다. 공개 리더보드 항목, 논문 또는 ARC 상 업데이트에서 어떤 GPT-5 변형, Poetic 시스템, 또는 Grok 구성도 인간 평균 60%를 넘거나 그 이상으로 15포인트를 초과한 적이 없습니다. 그러한 성과가 존재한다면, 그것은 기록되지 않고, 검증할 수 없으며, 경쟁 기준의 규범 밖에 있습니다.

이 모든 것이 확인된 53-54% GPT-5.2 결과의 충격성을 감소시키지는 않는다. 한 모델 계열이 한 세대 만에 ARC-AGI-2에서 20% 미만에서 50% 이상으로 도약하는 것은 추상적 사고 성능의 큰 변화를 나타낸다. 인간 수준에는 아직 도달하지 못했지만, 그 격차는 거의 모든 사람이 예측한 것보다 훨씬 더 빠르게 좁혀졌다.

왜 54%가 100%보다 더 인상적인가?

ARC-AGI의 발전은 결코 매끄러운 곡선처럼 보이지 않았다. 수년 동안 최첨단 모델들은 ARC 스타일 퍼즐에서 0%에서 6% 사이를 맴돌며 괴물 같은 훈련을 거쳤음에도 불구하고 실질적인 유동 지능을 보여주지 못했다. 이들은 변호사 시험과 코딩 인터뷰에서는 뛰어난 성과를 내었지만, 5×5 크기의 색깔 있는 정사각형 그리드에서는 크게 실패했다.

그렇기 때문에 54%가 가상의 100%보다 더 중요합니다. GPT-5.2가 보도된 대로 ARC-AGI-2에서 중반 50대에 도달했다는 것은 모델이 "기본적으로 고장 나 있는" 상태에서 "밝은 인간이 해결할 수 있는 대부분의 문제를 해결하는" 상태로 전환되었다는 것을 의미합니다. 이는 미세한 기준점 향상이 아닌 질적인 단계 변화입니다.

ARC-AGI-2는 Pass@2를 사용합니다: 두 번의 추측, 부분 점수 없음, 비용 민감 평가. GPT-5, Claude Opus 4, Grok-4 Thinking과 같은 이전 프론티어 모델들은 단일 자릿수에서 낮은 십 대에 집계되었습니다. 약 53–54%로 점프하면 이 점수를 세 배 이상 초과하게 되며, 평균 인간은 약 60%에, 선별된 인간 기준은 98–100%에 도달합니다.

중요하게도, 그 도약은 단순히 모델 크기를 확장하는 것에서 비롯된 것이 아니었습니다. 그것은 제약을 벗어난 것입니다: 더 나은 검색, 스크래치패드 추론, 도구 사용, 그리고 기본 모델 주변의 매니저 스타일의 오케스트레이션에서 나왔습니다. Poetic의 "매니저 AI" 접근 방식은 작업을 경로 지정하고, 문제를 분해하며, 해결책을 반복하는 방식으로, 레오폴드 아센브레너가 능력의 다음 큰 동력으로 지적한 알고리즘적 진전을 구현하고 있습니다.

아슈벤너의 주장은 간단했습니다: 모델은 그들의 단순한 일회성 출력이 제시하는 것보다 훨씬 더 많은 능력을 가지고 있습니다. 구조적인 사고, 기억, 도구를 추가하면 잠재된 지능이 발휘됩니다. ARC의 0-6%에서 50% 이상으로의 도약은 그 주장의 그래프적 표현입니다.

샘 올트먼은 ARC를 "진짜" AGI 척도로 여러 차례 지목했으며, 이는 메모리나 프롬프트 엔지니어링 해킹에 저항하기 때문입니다. OpenAI 내부자들은 눈길을 끄는 표준화된 테스트보다 ARC 곡선을 더 면밀히 추적하는 것으로 전해집니다. 그 곡선이 급격히 상승할 때, AGI를 구축하는 사람들은 주목합니다.

누구나 **ARC Prize - Abstract Reasoning Corpus**에서 공개 리더보드와 방법론을 탐색할 수 있습니다. 헤드라인은 완벽함이 아니라, 곡선이 마침내 움직였다는 것입니다.

확장 이상의: AGI로 가는 새로운 길

스케일링 법칙은 좋은 성과를 거두었습니다. 지난 5년 동안, 대형 언어 모델의 발전은 간단한 레시피를 따랐습니다: 더 많은 매개변수, 더 많은 데이터, 더 많은 컴퓨팅. GPT-3에서 GPT-4, GPT-5로 가는 과정은 로그-로그 차트에서 직선처럼 보였고, 성능 곡선은 깔끔하게 멱법칙 방정식에 맞았습니다.

ARC-AGI-2가 그 이야기를 조용히 전파합니다. GPT-5.2와 같은 모델은 이전 ARC 스타일 작업에서 낮은 두 자릿수에서 ARC-AGI-2에서 약 53-54%로 뛰어오른 것은 누군가가 트릴리언 매개 변수의 거대 모델을 훈련시켰기 때문이 아니라 연구자들이 테스트 시 모델의 사고 방식을 변경했기 때문입니다. 시스템 설계와 알고리즘이 원시 규모가 아닌 성과의 변화를 가져왔습니다.

원래 ARC 벤치마크를 만든 프랑수아 숄레(F françois Chollet)는 여러 해 동안 이 주장을 해왔습니다. 그의 관점에서, 진정한 일반 지능은 단지 상관관계를 재생산하는 정적이고 사전 훈련된 가중치 덩어리 안에는 존재할 수 없습니다. 이는 즉시 가설을 세우고 수정하며, 해결 공간을 탐색하고 새로운 과제에 직면할 때 전략을 조정할 수 있는 시스템을 요구합니다.

이 철학은 ARC의 디자인에 직접적으로 나타납니다. 각 퍼즐은 3-5개의 입력-출력 예시를 제공하고 그 다음에는 완전히 새로운 테스트 그리드가 이어집니다. 인터넷 규모의 훈련 세트가 당신을 구해주지 않습니다. 이를 해결하기 위해서는 모델이 테스트 시간 학습을 수행해야 합니다: 규칙을 추론하고, 후보 변환을 검색하며, 제한된 계산 비용 하에 스스로 수정해야 합니다.

“Unhobbling”은 이를 진지하게 받아들이고 강력한 기본 모델을 과학자처럼 행동하게 하는 지지대에 감싸는 것입니다. 레오폴드 아셴브레너의 “상황 인식” 논문에서는 사유 과정 촉진, 도구 사용, 장기 계획 수립과 같은 간단한 조정이 잠재 능력을 열 수 있다고 언급합니다. Poetic의 관리자-LLM 아키텍처는 그 아이디어가 제품으로 전환된 것입니다.

하나의 거대한 전방 패스 대신, Poetic는 컴퓨팅 자원을 어떻게 사용할지를 결정하는 관리 AI 아래에서 여러 모델, 도구 및 재시도를 조율합니다. 이것은 확장 기술이 아닌 아키텍처 혁신입니다. Grok-4 "Thinking"이 내부 추론 테스트에서 ~56–57%에서 ~72%로 상승하거나 Gemini 3 변형이 ARC 스타일 과제에서 30% 미만에서 인간 수준으로 올라가는 것은 이러한 시스템 수준의 제약 해제로부터 나온 것입니다.

그 패턴이 유지된다면, AGI는 단일 거대한 모델로 등장하기보다는 적응형 구성 요소의 긴밀하게 통합된 스택으로 나타날 가능성이 높습니다. 힘으로 엔진을 만들었지만, 정교한 아키텍처가 자동차를 완성할 수 있습니다.

골대가 움직이고 있다: ARC-AGI-3 및 그 이후

ARC-AGI-2는 이미 잔인하지만, 그 제작자들은 가만히 있지 않습니다. ARC Prize 팀은 정적 테스트에서만 똑똑해 보이는 모델들을 파괴하기 위해 특별히 설계된 차세대 벤치마크 ARC-AGI-3를 2026년경에 출시할 예정이며, 조용히 작업 중입니다.

색상이 있는 격자 대신 고정된 퍼즐로, ARC-AGI-3는 모델을 알려지지 않은 환경에 투입하고 무엇이 중요한지 파악하도록 요청할 것입니다. “이 패턴을 해결하세요”보다는 “당신은 사물과 규칙이 있는 이상한 미세 세계에 있고, 어떻게 작동하는지 발견한 다음 목표를 달성하세요”에 가깝습니다.

그 전환은 수동적인 패턴 인식에서 상호작용적 추론으로 나아갑니다. 모델은 환경을 탐색하고, 실험을 수행하며, 무언가가 잘못될 때 가설을 업데이트할 필요가 있으며, 이는 인간이 새로운 도구, 게임 또는 인터페이스를 배우는 방식과 훨씬 더 가깝습니다.

새로운 기준은 오늘날의 최첨단 모델들이 주로 교묘한 프롬프트로 속이는 기술을 목표로 합니다. 성공하기 위해 AI는 다음과 같은 사항이 필요합니다:

1무작정 클릭하는 대신 효율적으로 탐색하세요.
2스스로 매뉴얼 없이 세부 목표를 설정하다
3희소한 피드백을 바탕으로 세계 모델을 구축하고 수정하다.
4다단계 행동 시퀀스를 계획하고 신뢰성 있게 실행하세요.

ARC-AGI-3는 현재 평가에서 가장 큰 약점 중 하나인 밀집된 지침을 공격합니다. 모델이 정확히 무엇을 해야 하는지를 설명하는 자연어 명세 대신, 시스템은 종종 몇 가지 예시, 부분 보상 또는 단순히 "좋은 결과를 만들어라"와 같은 지시를 통해 작업을 추론해야 합니다.

이것은 단순한 추론이 아닌 주체성의 테스트가 됩니다. “이 공간을 매핑하고, 객체 행동을 기록한 다음, 목표에 대한 경로를 찾아야 한다”고 자율적으로 결정할 수 있는 시스템은 프롬프트를 기다리는 챗박스보다 레오폴드 아셴브레너가 예측한 “AI 동료”에 훨씬 더 가까워 보입니다.

ARC-AGI-2가 모델이 규칙을 주입해줄 때 어려운 퍼즐을 해결할 수 있는지를 측정한다면, ARC-AGI-3는 모델이 새로운 세계에 들어가 스스로 규칙을 배울 수 있는지를 묻습니다. 문제 해결자에서 적응 가능한 에이전트로의 그 격차를 넘는 것이 AGI로 가는 길에 있어 다음의 진정한 장애물입니다.

'구속받지 않는' AI가 여러분의 업무 흐름을 어떻게 변화시킬까요?

언홉블링은 AI가 단순한 채팅 윈도우에서 벗어나 당신의 일의 일부를 소유한 동료처럼 행동하는 순간 추상적이지 않게 됩니다. 레오폴드 아센브레너의 예측은 구체적입니다: 2027년까지 대부분의 지식 근로자는 질문에 답하는 것뿐만 아니라 계획하고, 기억하며, 실행하는 에이전트와 매일 상호작용하게 될 것입니다. 이러한 변화는 "프롬프트 엔지니어링"을 관리 및 협업에 더 가까운 것으로 바꿉니다.

당신의 회사의 Slack과 Jira에 내장된 프로젝트 관리자 에이전트를 상상해보세요. 당신은 목표를 설정합니다—“3월 15일까지 새로운 온보딩 흐름을 배포한다”—그리고 에이전트는 작업을 분해하고, 티켓을 생성하며, 다른 에이전트와의 의존성을 협상하고, 승인이나 판단이 필요한 결정만을 위해 사람에게 알립니다. 에이전트는 소진 차트를 추적하고, 역사적 속도를 기반으로 지연을 예측하며, 이해관계자 업데이트를 자동으로 초안 작성합니다.

소프트웨어 엔지니어는 제약 없는 시스템에 지저분한 모놀리스를 전달하며 “성능 병목 현상을 찾아내고 서비스로 이전할 계획을 제안하라”고 말할 수 있다. 에이전트는 저장소를 탐색하고, 호출 그래프를 구축하며, 스테이징 환경에서 프로파일링을 실행하고, 리팩토링을 포함한 풀 리퀘스트를 열고, 회귀 테스트를 작성한다. 인간 엔지니어는 검토하고 방향을 제시하지만, 레거시 코드를 탐색하고 보일러플레이트를 연결하는 번거로운 작업은 대부분 사라진다.

시장 분석가들은 일회성 쿼리 대신 전체 연구 프로젝트를 처리할 수 있습니다. 실시간 웹 도구와 API 접근 권한을 가진 에이전트는 다음과 같은 작업을 수행할 수 있습니다: - 특정 산업의 수익 전화 및 10-K 보고서를 수집할 수 있습니다. - 실시간으로 가격, 감정, 거래량 데이터를 추적할 수 있습니다. - 현금 흐름 모델에 대해 시나리오 분석 및 몬테카를로 시뮬레이션을 실행할 수 있습니다. - 차트, 주의 사항 및 추천 거래를 포함한 20페이지 분량의 보고서를 종합할 수 있습니다.

ARC-AGI-2와 GPT-5 벤치마크 저장소와 같은 벤치마크와 데이터셋은 조용히 이 변화를 이끌고 있지만, 표면적인 경험은 평범하게 느껴진다: 탭이 줄어들고, 회의가 줄어들며, 손으로 작성하는 상태 문서도 줄어든다. 마법은 아슈렌브레너가 지적한 제약 조건을 해소하는 데서 온다—짧은 맥락 창, 도구 부족, 장기 기억 없음, 계획 루프 부재—그리고 모델을 수정하는 비계 구조로 감싸는 것에서 온다.

한편, 당신의 업무는 “영리한 프롬프트를 입력하고 영리한 답변을 받는 것”이 아닙니다. 목표를 명확하게 정의하고, 상충되는 요소들을 조율하며, 주니어 팀원과 함께하는 것처럼 계획을 검토해야 합니다. 협업은 경계선을 설정하고, 논리를 점검하며, 챗봇을 돌보는 대신 기존 워크플로에 에이전트를 통합하는 것을 의미합니다.

진정한 AI 경쟁은 규모가 아니라 시스템에 관한 것이다.

비밀 GPT-5가 75%의 확률로 ARC-AGI-2를 "통과"했다는 소문은 잘못된 것으로 드러났습니다. 그러나 이 이야기는 우연히도 더 깊은 진리에 도달했습니다: 최첨단은 더 이상 단일 거대한 모델 내에 존재하지 않고, 그 주위에 감싸진 시스템에 존재합니다.

ARC 프라이즈의 리더보드에 따르면 GPT-5는 9.9%, GPT-5.2는 약 53-54%로, 주장된 75-76%와는 거리가 멉니다. 이러한 소문과 현실 간의 간극은 오늘날의 진보가 마법 같은 새로운 조정천조 개념이 아니라 더 나은 조정, 검색 및 도구에서 얼마나 많은지를 강조합니다.

기초 모델은 여전히 중요하며, GPT-5.2는 GPT-5.1의 17.6% ARC-AGI-2 점수를 대략 세 배로 늘렸습니다. 그러나 지금 가장 큰 도약은 그러한 모델을 관리 AI, 도구 사용, 장기 기억, 다단계 계획을 통해 "제약을 해제"함으로써 이루어집니다. 이러한 방법은 동일한 기본 가중치에서 훨씬 더 효과적인 추론을 이끌어냅니다.

그 변화는 조용히 경쟁 환경을 다시 쓰고 있습니다. 이제 경쟁하기 위해 하이퍼스케일 데이터 센터를 소유할 필요가 없습니다. 당신이 구매할 수 있는 모든 API 접근 위에 가장 스마트한 행위자 스택을 설계할 필요가 있습니다.

작은 연구소는 기성 모델을 사용하여 다음을 추가할 수 있습니다: - 문제를 하위 목표로 분해하는 계획기 - 코드를 호출하고 검색하며 전문 솔버를 연결하는 도구 라우터 - 답변을 교차 검증하고 반복하는 검증기

ARC와 같은 작업에서 이러한 추가 사항은 한 자릿수 성과와 인간에 근접한 성과 사이의 차이를 의미할 수 있습니다.

포에틱의 소문난 "매니저 AI"는 이 흐름에 적합합니다: 어떤 모델을 호출할지, 얼마나 많은 샘플을 생성할지, 언제 재시도하거나 상승시킬지를 결정하는 컨트롤러입니다. GPT-5의 성능이 유지되든 그렇지 않든, 이 아키텍처는 올바른 방향을 가리킵니다: LLM을 오라클이 아닌 구성 요소로 취급하는 시스템입니다.

그것이 진정한 경쟁입니다: 얼마나 비용 효율적인 추론 시스템을 달러당 계산 능력으로 구축할 수 있는지가 중요하며, 가장 많은 원시 매개변수 수를 공개하는 것이 아닙니다. 모델 크기가 여전히 여유를 확보하지만, 그 여유가 얼마나 사용 가능한 능력으로 전환될지는 제한을 해제하는 데 달려 있습니다.

챗봇에서 동료로 이어지는 과정을 주목하세요. 오늘날의 대규모 언어 모델(LLM)에서 내일의 에이전트로 가는 가장 빠른 경로는 더 큰 GPU가 아닌 시스템 엔지니어링을 통해 이루어집니다.

자주 묻는 질문

ARC-AGI-2 벤치마크란 무엇인가요?

프랑수아 숄레가 설계한 이 테스트는 AI의 '유동 지능'을 측정하기 위한 것으로, 매우 적은 예시를 가지고 새로운 추상적 추론 문제를 해결하는 능력을 평가합니다. 이는 인간에게는 간단하지만 현재의 AI는 어려움을 겪고 있는 부분입니다.

AI의 '언호블링(unhobbling)'이란 무엇을 의미하나요?

레오폴드 아센브레너가 만든 '언호블링'은 기본 모델을 확장하는 대신 AI의 성능을 제한 요소를 제거함으로써 향상시키는 것을 의미합니다. 이는 메모리, 도구 또는 단계별 추론 프레임워크와 같은 더 똑똑한 시스템을 주변에 구축함으로써 이루어집니다.

GPT-5가 실제로 인간 수준의 기준을 통과했나요?

아니요. 바이럴 주장에도 불구하고 공식 리더보드에서는 GPT-5.2가 ARC-AGI-2에서 약 54% 점수를 기록하며, 이는 상당한 도약이지만 여전히 평균 인간 점수인 ~60-100%에는 미치지 못합니다. 이러한 진전은 단순히 기본 모델의 성능이 아닌 '제약 해제' 기술에서 비롯된 것입니다.

레오폴드 아셴브레너는 누구인가요?

그는 '상황 인식: 다가오는 10년'이라는 상세한 2024년 논문으로 잘 알려진 전 OpenAI 연구원으로, AGI에 대한 빠른 전략적 발전을 논의하고 '제한 해제'와 같은 개념을 대중화하고 있습니다.

𝕏 in ↑↗

Frequently Asked Questions

왜 54%가 100%보다 더 인상적인가?

ARC-AGI의 발전은 결코 매끄러운 곡선처럼 보이지 않았다. 수년 동안 최첨단 모델들은 ARC 스타일 퍼즐에서 0%에서 6% 사이를 맴돌며 괴물 같은 훈련을 거쳤음에도 불구하고 실질적인 유동 지능을 보여주지 못했다. 이들은 변호사 시험과 코딩 인터뷰에서는 뛰어난 성과를 내었지만, 5×5 크기의 색깔 있는 정사각형 그리드에서는 크게 실패했다.

'구속받지 않는' AI가 여러분의 업무 흐름을 어떻게 변화시킬까요?

언홉블링은 AI가 단순한 채팅 윈도우에서 벗어나 당신의 일의 일부를 소유한 동료처럼 행동하는 순간 추상적이지 않게 됩니다. 레오폴드 아센브레너의 예측은 구체적입니다: 2027년까지 대부분의 지식 근로자는 질문에 답하는 것뿐만 아니라 계획하고, 기억하며, 실행하는 에이전트와 매일 상호작용하게 될 것입니다. 이러한 변화는 "프롬프트 엔지니어링"을 관리 및 협업에 더 가까운 것으로 바꿉니다.

ARC-AGI-2 벤치마크란 무엇인가요?

AI의 '언호블링(unhobbling)'이란 무엇을 의미하나요?

GPT-5가 실제로 인간 수준의 기준을 통과했나요?

레오폴드 아셴브레너는 누구인가요?

GPT-5의 비밀 AGI 돌파구

TL;DR / Key Takeaways

AI를 무너뜨리기 위해 만들어진 테스트

그리드로 생각하기: ARC를 어렵게 만드는 요인

예상치 못한 '탈구속' 혁명

내부 시적: '매니저 AI' 전략

현실 확인: 실제 ARC-AGI 리더보드

왜 54%가 100%보다 더 인상적인가?

확장 이상의: AGI로 가는 새로운 길

골대가 움직이고 있다: ARC-AGI-3 및 그 이후

'구속받지 않는' AI가 여러분의 업무 흐름을 어떻게 변화시킬까요?

진정한 AI 경쟁은 규모가 아니라 시스템에 관한 것이다.

자주 묻는 질문

ARC-AGI-2 벤치마크란 무엇인가요?

AI의 '언호블링(unhobbling)'이란 무엇을 의미하나요?

GPT-5가 실제로 인간 수준의 기준을 통과했나요?

레오폴드 아셴브레너는 누구인가요?

Frequently Asked Questions

Read Next

구글의 AI 코더가 등장했습니다. 정말 놀랍습니다.

이 인공지능은 유실된 잠재 고객을 현금으로 바꿉니다.

AI가 라디오 파장을 장악했다.

Stay Ahead of the AI Curve