클로드 4.5: 구글을 제친 AI

Anthropic가 막 Claude Opus 4.5를 출시하며, 구글의 최신 Gemini 3 Pro에 정면으로 도전장을 내밀었습니다. 이제 코딩, 추론 및 에이전트 AI의 미래를 지배하는 모델이 무엇인지 알아보세요.

Stork.AI
Hero image for: 클로드 4.5: 구글을 제친 AI
💡

TL;DR / Key Takeaways

Anthropic가 막 Claude Opus 4.5를 출시하며, 구글의 최신 Gemini 3 Pro에 정면으로 도전장을 내밀었습니다. 이제 코딩, 추론 및 에이전트 AI의 미래를 지배하는 모델이 무엇인지 알아보세요.

AI 아레나가 폭발적으로 성장했습니다.

구글의 제미니 3 프로는 왕관을 쓰기에도 채 한 순간이 지나지 않아 새로운 도전자가 등장했습니다. 제미니 3 프로가 AI 트위터 스레드와 벤치마크 차트를 지배한 지 불과 며칠 만에 앤트로픽이 오푸스 4.5를 출시하며 “누가 정상인가?”라는 이야기의 전개를 즉각적으로 다시 쓰게 만들었습니다.

제미나이 3 프로는 가혹한 기준을 제시했습니다. 뛰어난 코딩 성능으로 개발자들을 놀라게 했고, 나나반 프로를 통해 놀라운 그래픽을 선보였으며, 가장 신뢰받는 코딩 벤치마크 중 하나인 SWE-검증에서 76.2%의 점수를 기록했습니다. 잠시 동안, 구글이 추론, 다중 모드 이해 및 코드 생성 분야에서 왕관을 확고히 한 것처럼 보였습니다.

Opus 4.5는 "소소한" 업그레이드로 소개되지만, 이 수준에서는 소소함이 거대한 모습으로 다가옵니다. SWE-Verified에서 Opus 4.5는 80.9%로 점프하며, Gemini 3 Pro의 76.2%와의 상당한 차이를 보입니다. 각 퍼센트 포인트를 획득하는 것이 고통스러운 벤치마크에서 말이죠. OS World의 컴퓨터 사용 벤치마크에서도 Opus 4.5는 66.3%를 기록하며 Claude Sonnet 4.5의 62.9%를 초과, 실제로 데스크탑 환경을 구동하는 새 모델 최고치를 세웠습니다.

기준선은 이제 단순한 리더보드가 아닌 복싱 스코어 카드처럼 읽힙니다. Opus 4.5는 에이전트형 터미널 코딩 및 도구 사용에서는 Gemini 3 Pro를 압도하지만, Gemini와 OpenAI의 최신 GPT 라인이 여전히 대결을 갖는 몇 가지 “전통적인” 시험인 GPQA와 MMU에서는 약간 뒤처지고 있습니다. 350일 동안 사업을 운영하는 장기 시뮬레이션인 Vending Bench 2와 같은 경우에도 Gemini 3 Pro는 좁은 격차로 우위를 유지하며, 시뮬레이션된 이익은 약 $5,500인 반면 Opus 4.5는 약 $5,000에 그칩니다.

이 기사에서는 Opus 4.5와 Gemini 3 Pro를 코딩, 추론, 컴퓨터 사용, 다중 모드 작업 및 비용 효율성을 기준으로 직접 비교하여 2025년 말에 어떤 모델이 실제로 최신 기술을 대표하는지를 살펴봅니다. Anthropic, Google 및 OpenAI는 이제 제품 키노트와 같은 짧은 기간에 “정점의 왕”을 빠르게 반복합니다. 사용자에게 이러한 무기 경쟁은 더 저렴한 토큰, 더 스마트한 에이전트 및 귀하의 앱을 작성할 뿐만 아니라 설치, 테스트 및 야간에 스프레드시트를 조용히 실행할 수 있는 모델로 직접 이어집니다.

코드의 세계에 새로운 보안관이 등장하다

A New Sheriff in the World of Code
A New Sheriff in the World of Code

이번 주에 눈에 띄지 않게 새로운 리더보드가 SWE-verified에서 변경되었습니다. 이곳은 실제 소프트웨어 엔지니어링을 측정하려고 노력하는 몇 안 되는 코딩 벤치마크 중 하나입니다. Opus 4.5는 80.9의 점수를 기록하며 Gemini 3 Pro의 76.2를 충분히 큰 차이로 초과했습니다. 이는 잡음일 가능성이 적습니다. SWE-verified는 코드가 컴파일되는지 여부뿐만 아니라 대규모 다중 파일 프로젝트에서 전체 테스트 스위트를 통과하는지 여부도 확인하므로, 4점 이상의 차이는 보다 신뢰할 수 있는 엔드-투-엔드 구현을 나타냅니다.

숫자는 이제 Anthropic의 원샷 마인크래프트 클론을 통해 더 구체화되었습니다. Opus 4.5는 단 한 번의 실행으로 약 3,500줄의 코드를 생성하여, 여러 생태계를 갖춘 세계 생성, 기본 제작, 게임 루프를 인간이 부분 출력을 조합하지 않고 연결했습니다. 그 정도 규모의 장기 코드 생성은 모델이 잘하지 못하는 모든 것에 압박을 주고 있습니다: API를 정확하게 유지하고, 순환 수입을 피하며, 수백 번의 호출에 걸쳐 일관된 데이터 구조를 유지하는 것입니다.

앤트로픽은 또한 악명이 높은 내부 엔지니어링 자택 시험인 Opus 4.5를 실행했습니다. 이 시험은 기업들이 수석 후보자를 선별하기 위해 사용하는 몇 시간에 걸친 과제가 포함되어 있습니다. 회사에 따르면, Opus 4.5는 그 시험을 치른 모든 인류보다 더 높은 점수를 기록했으며, 정확성뿐만 아니라 속도와 아키텍처 품질에서도 우수한 성과를 보였습니다. 이 결과는 외부에서 재검증이 필요하겠지만, 공공 코딩 벤치마크에서 제시하는 사항과 일치합니다.

개발자들이 가장 큰 변화를 느낄 곳은 주체적 터미널 코딩(Agentic Terminal Coding)이다. 자율적인 커맨드 라인 작업을 측정하는 Terminal-Bench에서, Opus 4.5는 59.3을 기록하며 Gemini 3 Pro의 54.2에 비해 상당한 차이를 보인다. 이는 AI가 실제 시스템에서 셸 명령을 실행할 때 큰 장점이 된다. 주체적 터미널 코딩은 모델이 명령의 순서를 계획하고, 이를 실행하며, 오류를 점검하고, 돌보는 이 없이 복구하는 것을 의미한다.

개발자에게 이는 수작업으로 진행되던 작업의 안전한 자동화로 이어집니다: 개발 환경을 설정하고 구성하고, 마이그레이션을 수행하고 수정하며, 로그를 확인하여 회귀를 추적하고, 크론 작업 및 CI 스크립트를 연결하는 것입니다. 일반적인 컴퓨터 사용에서 OS 월드 리더십과 결합된 Opus 4.5는 코드 자동 완성 도구처럼 보이기보다는 터미널 안에 사는 주니어 엔지니어처럼 보이기 시작합니다.

원시 정보 전쟁

원시 지능 벤치마크에 따르면 코딩 점수에서 제시되는 것보다 치열한 경쟁이 존재합니다. ARC-AGI-2에서 Anthropic은 Opus 4.5가 약 37-38%의 정확도를 기록하며 이전의 몇 가지 기준을 두 배로 뛰어넘고, 비슷한 "사고 예산"을 사용하는 Gemini 3 Pro보다 약 6% 포인트 앞선다고 보고했습니다. Anthropic의 Claude Opus 4.5 공식 발표에서 강조된 이 결과는 퀴즈 추억보다는 추상적 패턴 발견에 관심이 있는 경우 출시된 최전선 모델 중 가장 우수한 성능을 자랑합니다.

ARC-AGI-2는 암기하기 어려운 이상하고 합成적인 퍼즐에 대한 구성적 추론을 강조합니다. Anthropic이 내부 "사고"에 사용되는 맥락을 0에서 64K 토큰으로 높이면, Opus 4.5의 지능 곡선은 경쟁자들보다 더 빠르게 상승하여 비용 대비 성과 그래프의 상단 왼쪽에서 최고의 성능을 발휘합니다. Gemini의 공개되지 않은 Deep Think 변형은 여전히 더 높은 원시 점수를 기록하지만, Opus 4.5는 훨씬 적은 토큰 낭비로 그런 이득을 관리하며 작업당 더 낮은 비용으로 운영됩니다.

일반 지식 및 시험 스타일 벤치마크는 보다 복잡한 이야기를 전달합니다. GPQA와 MMU 스타일의 “인류의 마지막 시험” 세트에서 Opus 4.5는 Gemini 3 Pro에 비해 약간 뒤처지며, 일부 하위 테스트에서는 GPT 5.1보다 조금 낮은 성과를 보입니다. Gemini는 장기적인 학술 QA, 밀집 독해, 도표, 차트 및 텍스트가 혼합된 다중 모드 질문에서 여전히 강력한 모습을 보이고 있습니다.

컴퓨터 사용에서 Opus 4.5는 분명한 기준을 세웁니다. 실제 GUI 작업의 전반적인 성공을 측정하는 OS World 벤치마크에서 앱 설치, 설정 조정, 파일 시스템 탐색 등을 대상으로 Opus 4.5는 66.3%의 성공률을 기록합니다. 이 결과는 이전 챔피언인 Claude Sonnet 4.5의 62.9%를 능가하며, 실제로 데스크톱을 구동하는 프런티어 모델에서 새로운 기준을 세웁니다.

모든 리더보드를 소유한 연구소는 없습니다. Opus 4.5는 ARC-AGI-2, OS World, SWE-Verified 및 여러 에이전트 사용성과 도구 사용 테스트에서 우위를 점하고 있지만, Gemini 3 Pro나 GPT 모델은 여전히 특정 시험, 다중 모달 작업 및 비즈니스 에이전트 벤치마크에서 앞서 있습니다. 그러나 명확한 패턴이 있습니다: Opus 4.5의 추론 및 컴퓨터 사용 능력 향상은 단 하나의 승리보다 더 중요합니다. 이는 에이전트가 더 오랫동안 생각하고, 더 신뢰성 있게 행동하며, 복잡한 실제 작업 흐름에서 계속 집중할 수 있도록 직접 연결되기 때문입니다. 자세한 내용은 Claude Opus 4.5 vs. ChatGPT 5.1 vs. Google Gemini 3 Pro - 기술 비교를 참조하세요.

350일간 비즈니스 운영하기

벤딩 벤치는 현대 AI에 대한 가장 유의미한 스트레스 테스트 중 하나로 조용히 자리잡았습니다: 300-350 게임일 동안 운영되는 시뮬레이션 자판기 사업으로, 장기 계획, 재고 전략, 기본적인 재무 감각을 요구합니다. 정적인 퍼즐을 푸는 대신, 모델은 제품을 연구하고, 고객 수요를 추론하며, 현금 흐름을 관리하고, 기계를 재고로 채우는 동시에 엉뚱한 방향으로 흐르지 않아야 합니다.

벤딩 벤치 2에서 Gemini 3 Pro는 여전히 최고 자리를 지키고 있습니다. 거의 1년의 시뮬레이션 운영 끝에 500달러의 초기 자본에서 시작하여 5,500달러에 가까운 이익을 달성했습니다. 이 마진은 중요합니다. 왜냐하면 이 벤치마크의 모든 달러는 어떤 스낵을 구매할지, 얼마나 공격적으로 재고를 보충할지, 성과가 좋지 않은 제품에서 언제 방향을 전환할지를 포함한 수십 가지의 작은 결정에서 비롯되기 때문입니다.

Opus 4.5는 여기서 1위를 차지하지는 않지만, 그 상승세는 무시하기 어렵습니다. 이 모델은 약 $4,967의 수익을 기록하며, 초기 $500에서 거의 10배 성장했습니다. 같은 테스트에서 Claude Sonnet 4.5의 약 $3,800 결과에 비해 상당한 도약을 나타냅니다. 실질적으로, Anthropic의 플래그십 모델은 이제 혼란스러운 인턴이 아닌 조심스러운 주니어 운영자처럼 행동하고 있습니다.

이 긴 수평의 주도적인 기준들은 주요 IQ 점수나 코딩 리더보드와는 다른 능력의 축을 드러냅니다. 이들은 모델이 수백 단계 동안 과업에 집중할 수 있는지, 일관된 비즈니스 전략을 유지할 수 있는지, 단일 잘못된 주문에 모든 자본을 소비하는 것과 같은 치명적인 실수를 피할 수 있는지를 측정합니다. 모델이 확장됨에 따라 Vending Bench 수치가 상승하여, 원시 매개변수 수와 더 나은 훈련이 시간이 지남에 따라 더 안정적이고 덜 엉망인 의사결정으로 직접 이어진다는 것을 시사합니다.

알파 아레나는 같은 아이디어를 더 혹독한 영역으로 밀어넣습니다: 거의 실시간 암호화폐 거래. 시즌 2에는 참가자들 중에 제미니 3 프로와 클로드 소네트 4.5가 포함되어 있지만, 오푸스 4.5는 공식 명단에서 뚜렷하게 빠져 있습니다. 현재 2위에 있는 “미스터리 모델”은 GPT 5.1 바로 뒤에 있으며, 앤트로픽이 오푸스 4.5의 위험 감수를 조용히 테스트하고 있다는 추측을 불러일으키고 있습니다.

AI 오케스트레이터의 부상

Rise of the AI Orchestrator
Rise of the AI Orchestrator

AI 오케스트레이터의 출현은 Anthropic이 Opus 4.5와 함께 조용히 출시한 가장 중요한 것일 수 있습니다. Opus 4.5는 단일 거대 모델을 최종적인 두뇌로 취급하는 대신, Haiku 4.5와 같은 더 작고 저렴한 모델들이 수행한 작업을 계획하고 위임하며 검토하는 관리자처럼 점점 더 행동합니다. 이러한 패턴은 Vending Bench와 같은 장기 과제에서 나타나며, 300~350개의 시뮬레이션된 일수에 걸쳐 지속적인 일관성이 단일 응답보다 더 중요합니다.

멀티 에이전트 설정은 이제 복잡한 연구 스타일의 작업 부하에서 단일 에이전트 기준을 꾸준히 능가하고 있습니다. 하나의 Opus 4.5 인스턴스에 광범위한 브리핑을 주면—과학 분야를 조사하고, 경쟁자를 맵핑하며, 제품 사양서를 초안하는 등의 작업을—Haiku 4.5 하위 에이전트를 생성하여 문서를 스크랩하고, 논문을 요약하며, 아이디어를 병렬로 테스트할 수 있습니다. Vending Bench 2부터 OS World 스타일의 컴퓨터 사용에 이르기까지 장기 실행되고 도구가 많은 워크플로우를 스트레스 테스트하는 벤치마크는 노동 분담의 이점을 통해 높은 성공률과 더 적은 탈선으로 보상합니다.

경제적 논리는 이 아키텍처를 원자재 능력만큼이나 끌어당깁니다. 모든 서브태스크의 모든 토큰에 대해 Opus 4.5를 실행하는 것은 Haiku 4.5가 훨씬 저렴한 비용으로 처리할 수 있는 보일러플레이트 요약 및 단순 변환에 비싼 용량을 낭비하는 것입니다. 계획을 세우고, 문제를 분해하거나, 갈등을 해결할 때만 “어렵게 생각”하고 나머지 실행을 오프로드하는 오케스트레이터 모델은 모든 일을 혼자 하는 지나치게 자격이 있는 계약자보다는 팀을 조정하는 인간 관리자가 일하는 방식처럼 더 잘 확장됩니다.

매니저–팀 패턴은 검색과 연구를 넘어 일반화됩니다. 코딩에서는 Opus 4.5 오케스트레이터가 시스템을 설계하고, 인터페이스를 정의한 다음, Haiku 4.5 에이전트를 생성하여 모듈을 구현하고, 테스트를 작성하며, Terminal-Bench 스타일 도구 명령을 실행한 후 최종 통합 및 리뷰를 수행할 수 있습니다. 창의적인 작업의 경우, 최상위 모델이 캠페인을 개략적으로 설명하고, 하위 에이전트가 카피 변형을 초안하고, 비주얼을 스토리보드화하며, 콘텐츠를 플랫폼에 맞게 조정할 수 있습니다.

비즈니스 분석은 가장 크게 변화할 수 있습니다. 오케스트레이터는 한 에이전트에게 Claude for Chrome을 통해 지저분한 웹 데이터를 스프레드시트로 가져오도록 지시하고, 다른 에이전트에게는 Claude for Excel에서 데이터를 정리하고 구조화하도록 하며, 세 번째 에이전트에게는 시나리오를 실행하고 결론을 검증하도록 지시할 수 있습니다. 이러한 오케스트레이션 패턴이 확립됨에 따라 "AI 사용"은 단일 모델과 대화하는 것처럼 보이지 않고, 매우 유능한 단일 디렉터가 이끄는 가상 회사를 고용하는 것처럼 보이게 됩니다.

제미니 3 프로가 여전히 최고의 자리를 차지하고 있는 곳

멀티모달은 여전히 제미니 3 프로의 본토입니다. 오푸스 4.5가 코드 및 추상적 추론에서 그보다 앞서 나가지만, 제미니 3 프로는 텍스트, 이미지 및 레이아웃이 동시에 중요할 때 더 깔끔하고 신뢰할 수 있는 결과를 제공합니다. 특히 스크린샷, 차트 및 임베디드 미디어가 섞인 프로덕션 워크플로우에서 더욱 그렇습니다.

그래픽 생성에서 가장 뚜렷한 격차가 나타납니다. 구글의 나나밴드 프로는 제미니 3 프로와 함께 제공되며 “정말 놀라운” 일러스트레이션과 UI 목업을 생성하여 전용 이미지 모델에 더 가까운 느낌을 줍니다. 반면, 오퍼스 4.5는 여전히 텍스트 중심 시스템으로, 이미지를 보는 것이 가능하지만 진정한 비주얼 네이티브라고 보기 어렵습니다.

비디오 이해는 제미니 3 프로가 우위를 점하는 또 다른 분야입니다. 이 시스템은 클립 전반에 걸쳐 객체와 사람을 추적하고, 장면 변경을 따르며, 특정 시간대에서 발생하는 일에 대해 보다 일관되게 세부적인 질문에 답할 수 있습니다. 회의를 요약하고, 교육 영상을 주석 처리하거나, 사용자 연구 영상을 분석하는 팀들에게 제미니 3 프로는 여전히 더 안전한 선택입니다.

문서가 많은 작업 흐름도 같은 방향으로 기울어집니다. Gemini 3 Pro에 밀집된 표, 차트 및 도표로 가득한 200페이지의 연례 보고서를 제공하면, 일반적으로 구조를 유지하고, 수치를 교차 참조하며, 시각적 맥락을 온전히 보존합니다. Opus 4.5는 PDF를 파싱할 수 있지만, Gemini 3 Pro는 복잡한 시각적 레이아웃 안에 숫자가 있을 때 실수를 덜 범하는 경향이 있습니다. 더 자세한 정보는 Anthropic Claude Opus 4.5 공식 발표를 참조하십시오.

동적인 웹 UI 생성은 Gemini 3 Pro의 가장 underrated 장점일 수 있습니다. 디자인 사양을 읽고, 반응형 HTML/CSS/JS를 생성하며, 디자이너와 함께 스크린샷을 공유 언어로 사용하여 레이아웃을 반복할 수 있습니다. Nanaband Pro와 함께 사용하면 전체 흐름—랜딩 페이지, 대시보드, 마케팅 사이트—를 단 하나의 채팅 스레드를 떠나지 않고 프로토타입 할 수 있습니다.

그 강점의 조합 덕분에 Gemini 3 Pro는 다음과 같은 사용자에게 기본 선택이 됩니다: - 비주얼, 스토리보드 및 인터랙티브 목업을 제작하는 창의적인 전문가 - 슬라이드 덱, BI 대시보드 및 시각적으로 풍부한 PDF에서 작업하는 데이터 분석가 - UI 세련미에 의존하는 인터랙티브 웹 앱 및 내부 도구를 개발하는 개발자

이러한 트레이드오프를 평가하는 모든 사람은 **Google DeepMind Gemini 공식 문서** 의 공식 능력 매트릭스에서 시작한 다음, 비용, 지연 시간, 그리고 자신의 작업 부하가 실제로 시각 우선인지 텍스트 또는 코드 중심인지에 대한 비율을 고려해야 합니다.

10억 달러의 질문: 비용 대 IQ

지능 곡선 또는 가격 곡선이라고 부르든, 최전선 모델들은 이제 두 개의 축이 있는 그래프에 존재합니다: 원시 능력과 Anthropic이 "사고 예산"이라고 부르는 것. 모델을 통해 더 많은 토큰을 밀어 넣으면—8K, 16K, 32K, 64K의 의도적인 추론—성능은 상승하지만, 비용은 비선형적으로 증가합니다. 산업계는 이제 각 단계에서 달러당 얼마나 많은 IQ를 얻을 수 있는지를 최적화하고 있습니다.

안트로픽의 차트는 이를 로그 비용 축으로 나타냅니다. 오른쪽으로 갈수록 컴퓨팅 비용이 크게 증가하지만, Opus 4.5의 "연어" 곡선은 ARC-AGI2의 왼쪽 위에 가까이 위치해 있습니다: 비교적 낮은 작업당 비용으로 높은 점수를 기록합니다. 구글의 아직 출시되지 않은 Gemini 3 Deep Think는 비용이 급격히 증가하는 지점에서 더욱 높은 점수를 기록하고 있으며, 출시된 Gemini 3 Pro는 비슷한 사고 예산에서 Opus 4.5에 뒤처지고 있습니다.

그러한 포지셔닝은 앤트로픽 CEO 다리오 아모데이가 주장하는 더욱 대담한 주장으로 이어집니다: 약 10분의 1의 자본 지출로 경쟁 연구소와 비슷한 결과를 얻을 수 있다는 것입니다. 만약 이 주장이 사실이라면, 그 이점은 더욱 커집니다—더 저렴한 실험, 더 많은 훈련 시도, 그리고 도구 사용 및 자율 행동과 같은 것들에 대한 더 빠른 반복이 가능합니다. 오푸스 4.5의 최첨단 ARC-AGI2 및 OS 월드 점수는 효율성이 손익계산서뿐만 아니라 벤치마크에서도 나타나고 있음을 시사합니다.

구매자에게는 비용-편익 이야기가 작업 기준으로 나뉩니다. 순수한 논리로 볼 때—SWE-검증된 코딩(80.9)과 제미니 3 프로의 76.2, 터미널 벤치, ARC-AGI2, 자판기 벤치와 같은 장기 에이전트 작업에서 오푸스 4.5는 종종 제미니의 딥 싱크 스타일 모드보다 낭비된 토큰이 적으면서 목표 품질에 도달합니다. 복잡한 백엔드 시스템, 에이전트 또는 자동화 운영의 단위 경제에 관심이 있다면, 오푸스 4.5는 해결된 작업당 효율적인 비용이 낮을 가능성이 높습니다.

다중 모달로 전환하면 계산이 달라집니다. Gemini 3 Pro의 이미지, 비디오 및 문서 처리, 그리고 Nanaban Pro와 같은 도구를 통한 생성은 전체 작업 흐름을 단일 호출로 압축할 수 있으며, 이는 여러 텍스트 전용 단계를 대체해 약간 더 비쌉니다. 시각적 IO가 지배하는 모든 것—UI 목업, 마케팅 자산, 슬라이드 덱, 비디오 이해—에서 Gemini 3 Pro는 종종 제공물당 비용에서 승리합니다. 비록 Opus 4.5는 '사고'의 토큰당 비용이 더 저렴하더라도 말입니다.

당신의 데스크탑, 이제 슈퍼 충전되었습니다.

Your Desktop, Now Supercharged
Your Desktop, Now Supercharged

벤치마크는 제품에 적용될 때만 의미가 있으며, 앤트로픽은 시간을 낭비하지 않고 있습니다. 오푸스 4.5와 함께, 이 회사는 크롬용 클로드엑셀용 클로드라는 두 가지 기능을 출시하고 있으며, 이는 컴퓨터 사용 및 장기 계획에서의 벤치마크 승리를 직장에서 노트북으로 실행할 수 있는 것으로 전환합니다.

Claude for Chrome는 Opus 4.5의 OS World 컴퓨터 사용 벤치마크에서 66.3%의 성공률을 직접 활용하며, 이는 현재 출시된 최전선 모델 중 가장 우수한 성과입니다. 단순히 페이지를 요약하는 것에 그치지 않고, Claude는 브라우저를 조작할 수 있습니다: 다단계 흐름을 클릭하고, 양식을 작성하며, 대시보드를 탐색하고, 텍스트, 이미지, 그리고 독특한 레이아웃이 혼합된 잘 정리되지 않은 사이트에서 데이터를 추출할 수 있습니다.

이는 Vending Bench와 같은 벤치마크가 시뮬레이션하려는 작업의 종류에 중요합니다. 제품 조사, 가격 비교, 재고 추적 또는 수십 개의 탭에서 경쟁자를 관찰하는 작업은 수백 단계에 걸쳐 일관성을 유지할 수 있는 AI 오케스트레이터에게 위임되는 일이 됩니다. 단순히 질문에 답하는 채팅 창이 아닙니다.

Excel을 위한 Claude는 사무 작업의 또 다른 반쪽인 숫자와 구조에 초점을 맞추고 있습니다. Opus 4.5는 대규모의 복잡한 스프레드시트를 처리하고, 각 시트와 수식이 하는 일을 설명하며, 통합 문서 간의 의존성을 추적하고, 일반적으로 수시간 동안 피벗 테이블을 바라봐야 하는 인간 분석가가 필요한 이상 현상을 찾아냅니다.

설명을 넘어, Anthropic은 명백히 분석과 계획을 겨냥하고 있습니다. Claude for Excel은 원시 데이터를 가져와 열을 정규화하고, 계산된 필드를 생성하며, 차트를 작성한 다음 경향과 권장 사항을 종합할 수 있습니다. 이는 Opus 4.5가 대리 도구 사용 및 터미널 스타일 작업에서 이미 Gemini 3 Pro보다 우수한 성과를 내는, 다단계이며 도구에 의존하는 워크플로우의 정확한 예입니다.

Anthropic은 또한 이러한 점에서 가장 중요한 곳에 접근성을 맞추고 있습니다. Claude for Chrome은 모든 Max 사용자에게 배포되고 있으며, Claude for Excel은 Max, 팀 및 기업 고객에게 베타로 확장되고 있습니다. 이 그룹은 브라우저 기반 SaaS와 방대한 재무 모델에 가장 많이 활용될 가능성이 높습니다. 더 많은 정보는 Gemini 3.0 vs GPT-5.1 vs Claude 4.5 vs Grok 4.1: 포괄적인 AI 모델 비교를 참조하세요.

이러한 출시들은 Anthropic이 특정 강점을 상품화하고 있음을 보여줍니다: 최신 컴퓨터 사용, 강력한 스프레드시트 처리, 그리고 긴밀하고 일관된 작업 관리. Opus 4.5는 단순히 합성 테스트에서 높은 점수를 기록하는 데 그치지 않고, 현대 업무를 실행하는 일상 소프트웨어 스택에 이러한 기능들을 조용히 통합하고 있습니다.

자율성의 경계

자율성은 이제 실험실에서 작동하는 정의를 갖게 되었습니다: R&D4. Anthropic의 분류법에 따르면, 이는 AI가 문헌 검토, 실험 설계, 기본 분석 및 보고서를 작성하는 일을 완전 자동화할 수 있는 지점을 나타내며, 이 과정에서 최소한의 인간의 감독만 필요합니다. 이는 일반적인 "AGI"가 아니라, AI가 Notion 작업 공간과 Jira 보드에 투입되어 간단히 일을 수행할 수 있는 지점입니다.

앤트로픽은 오퍼스 4.5가 그 기준을 충족하지 않는다고 명시적으로 말합니다. 이 모델은 여전히 프로젝트 중 요구사항이 바뀌거나 이해관계자 간의 의견이 다를 때 폭넓은 상황 판단력이 부족합니다. 또한 애매한 지침을 해석하고, 잘못된 아이디어에 대해 반박하며, 상충하는 우선순위를 가진 여러 사람과 협력하는 등 실제 연구 작업의 복잡한 부분에서도 어려움을 겪습니다.

Anthropic의 자체 발표에 묻혀 있는 경고가 그 고지보다 더 흥미롭다. “매우 효과적인 기반 구조”—계획 레이어, 메모리 시스템, 도구 API 및 인간 개입 체크—를 통해 Anthropic은 Opus 4.5와 같은 모델이 R&D4와 “그리 멀지 않다”고 말하고 있다. 실제로 이는 작업을 하위 작업으로 나누고 이를 Haiku 4.5와 같은 저렴한 모델로 라우팅하며 수백 단계에 걸쳐 긴 시간 계획을 유지하는 오케스트레이션 프레임워크를 의미한다.

개발자들은 이미 이를 연결하고 있습니다. Opus 4.5를 벡터 검색, 코드 실행 및 Anthropic Python SDK Repository와 같은 도구를 통한 브라우저 제어와 결합한 에이전틱 스택은 며칠 간의 연구 루프를 운영할 수 있습니다: 논문을 스크랩하고, 방법을 요약하며, 실험을 생성하고, 자율적으로 연구 노트를 업데이트합니다. 이제 제약 조건은 순수한 IQ만이 아니라 그 지능을 어떻게 잘 제약하고 감사할 수 있는지가 되었습니다.

구글의 알파 진화 프로젝트는 이 기조가 어디로 향할지를 미리 보여줍니다. 초기 보고서에서 구글은 오래되고 약한 모델을 긴 진화 루프에 감싸—자동화된 가설 생성, 시뮬레이션, 평가 및 선택—그럼에도 불구하고 진정으로 새로운 과학적 결과를 도출해냈습니다. 이 돌파구는 단일 거대한 두뇌에서 나온 것이 아니라, 모델을 더 큰 자율 파이프라인의 구성 요소로 취급하는 시스템에서 나온 것입니다.

Opus 4.5와 더 강력한 비계는 일반 지식 작업을 지향하는 동일한 패턴처럼 보입니다. R&D4를 넘어가면 "초급 연구원"이라는 직무 설명은 더 이상 직업이 아닌 시스템 구성으로 바뀌게 됩니다.

AI 군비 경쟁에서 당신의 다음 행동

AI 팀은 이제 간단한 갈림길에 직면해 있습니다: 각 모델을 실제로 수익을 창출하거나 절약하는 일에 맞춤화하는 것입니다. SWE-Verified (Opus 4.5 80.9점 vs Gemini 3 Pro 76.2점)와 Vending Bench 2 (Gemini 3 Pro 약 $5,500 vs Opus 4.5 약 $5,000)과 같은 기준은 이제 제품 선택, 인력 계획 및 클라우드 요금에 직접적으로 연결됩니다.

Opus 4.5를 선택하세요: - 고급 코딩: 장기적인 리팩토링, 프레임워크 마이그레이션, 멀티 레포 디버깅 등 SWE-검증 및 터미널 벤치 점수가 중요한 경우. - 주도적인 오케스트레이션: Claude Sonnet과 Haiku 4.5에 더 저렴한 하위 작업을 위임하는 Opus “오케스트레이터”, 특히 OS World 스타일의 컴퓨터 사용 워크플로우에서. - 복잡한 추론: ARC-AGI-2 수준의 추상 문제, 며칠에 걸친 연구 및 R&D4 스타일의 “주니어 연구원” 자동화에서 사고 토큰이 원초적 출력량보다 우세한 경우.

Gemini 3 Pro를 선택하세요: - 다중 모드 작업: 밀집된 PDF, UI 목업, 그리고 이미지와 문서 이해력이 여전히 뛰어난 시각적으로 복잡한 대시보드. - 창의적 생성: 마케팅 캠페인, 스토리보드, 그리고 Nanaban Pro와 같은 시스템을 통한 고화질 그래픽. - 비디오 및 동적 미디어: 타임라인 추론, 장면 분석, 그리고 Opus 4.5가 아직 끝에서 끝까지 대응할 수 없는 텍스트-이미지-비디오 혼합 프로젝트.

실무자를 위한 전략: 듀얼 스택을 표준화하십시오. 특히 몇 시간 또는 며칠 간 실행되는 에이전트의 경우 Opus 4.5를 논리 및 코딩의 기반으로 사용하고, 시각적, 영화적 또는 브랜드 지향적인 모든 요소는 Gemini 3 Pro로 라우팅하십시오. 작업 유형, 컨텍스트 크기 및 지연 예산을 살펴보는 사용량 라우터 뒤에 두 가지를 통합한 후, 품질 기준을 충족하는 가장 저렴한 모델을 선택하십시오.

Anthropic, Google 등으로부터의 빠르고 도약적인 출시는 최첨단 AI에 대한 지속 가능한 독점의 개념을 지워버렸습니다. 지능 곡선은 이제 다년 주기가 아닌 60~90일 주기로 업데이트되며, 각 새로운 모델은 수익성 있게 자동화할 수 있는 작업을 재조정합니다.

6개월 후에는 최소한 하나의 자율성 단계가 추가될 것으로 기대하십시오: 단순히 "입문 연구원" 작업을 수행하는 에이전트뿐만 아니라 웹, 모바일 및 데이터 스택을 아우르는 제품을 설계, 출시 및 A/B 테스트하는 에이전트도 포함됩니다—당신은 조용히 새로운 곡선의 정점에 있는 모델로 바꿀 수 있습니다.

🚀Discover More

Stay Ahead of the AI Curve

Discover the best AI tools, agents, and MCP servers curated by Stork.AI. Find the right solutions to supercharge your workflow.

Back to all posts