Skip to content

Anthropic의 Fable 5: 벤치마크를 깨뜨린 AI

Anthropic은 전설적인 'Mythos' 모델의 공개 버전인 Claude Fable 5를 출시했습니다. 이 모델은 이미 모든 주요 벤치마크를 장악하고 있으며, 복잡하고 장기적인 작업에서 전례 없는 능력을 보여주고 있습니다.

Theo Brandt
Hero image for: Anthropic의 Fable 5: 벤치마크를 깨뜨린 AI

요약 / 핵심 포인트

Anthropic은 전설적인 'Mythos' 모델의 공개 버전인 Claude Fable 5를 출시했습니다. 이 모델은 이미 모든 주요 벤치마크를 장악하고 있으며, 복잡하고 장기적인 작업에서 전례 없는 능력을 보여주고 있습니다.

Mythos의 전설이 현실이 되다

Anthropic은 전설적인 'Mythos' 모델의 공개적으로 사용 가능하며 안전하게 보호된 화신인 **Claude Fable 5**를 방금 공개했습니다. 이 AI는 한때 일반 공개하기에는 너무 강력하다고 여겨졌으며, 그 거칠고 억제되지 않은 힘과 "전 세계를 파괴할" 잠재력에 대한 소문이 무성했습니다.

Mythos는 은밀한 이니셔티브인 Project Glasswing 깊숙한 곳에서 시작되었으며, 그곳에서 놀라운 능력을 선보였습니다. 이 모델은 수천 개의 심각도 높은 취약점을 발견하며 "국가 수준의 사이버 공격 능력"을 입증했습니다. 여기에는 OpenBSD의 27년 된 결함과 Firefox의 271개 버그가 포함되었는데, 이는 이전 모델인 Opus 4.6보다 무려 10배나 많은 수치입니다. 이것은 단순한 모델이 아니었습니다. Fable 5를 탄생시킨 "추가적인 안전장치"를 필요로 하는 디지털 무기였습니다.

이제 Anthropic은 Fable 5를 AI 계층 구조에 대한 직접적인 도전으로 포지셔닝하며 승부수를 띄웁니다. 이 모델은 OpenAI, Google, 그리고 심지어 자체 이전 챔피언인 **Claude Opus 4.8**의 최고 모델들을 능가하는 것을 목표로 합니다. Fable 5는 Anthropic의 핵심 분석 벤치마크에서 90%를 돌파한 최초의 모델이며, 이전 Opus 모델들보다 10점 향상된 수치를 보여줍니다. 이 모델은 Claude Opus 4.8의 88.6%에 비해 SWE-bench Verified 리더보드에서 93.9%로 선두를 차지하며, Anthropic이 최첨단 AI 왕관을 차지하려는 분명한 의도를 보여줍니다.

벤치마크는 거짓말하지 않는다: 새로운 왕이 즉위하다

숫자는 거짓말하지 않습니다. Anthropic의 Claude Fable 5는 frontier AI 능력의 기준을 새로 설정하며, 중요한 산업 벤치마크에서 시장을 정의하는 성능을 제공했습니다. 이 모델은 SWE-bench, FrontierCode, GDPval과 같은 평가에서 Opus 4.8을 포함한 지구상의 다른 모든 모델을 완전히 압도합니다. 이 모델은 소프트웨어 엔지니어링, 지식 작업, 비전 및 과학 연구에서 탁월한 성능을 발휘하며, 거의 모든 AI 능력 테스트 벤치마크에서 최첨단입니다.

Fable 5는 복잡하고 장기적인 분석 작업을 위한 Anthropic의 핵심 분석 벤치마크에서 90%를 돌파하는 중요한 첫 기록을 달성했습니다. 이는 이전 Opus 모델들보다 전례 없는 10점 향상을 나타내며, AI가 복잡하고 다단계 문제를 처리하는 능력의 새로운 시대를 알립니다. GDPval에서 44개 직업과 9개 주요 부문에 걸쳐 평가된 이 모델의 경제적으로 가치 있는 지식 작업 숙련도는 인간 전문가 수준에 근접합니다.

AI 환경의 예리한 관찰자인 Matthew Berman은 이 모델과 함께한 한 주 후, 주저 없이 이를 "지구상 최고의 모델"이라고 선언했습니다. 그는 Fable 5의 능력, 특히 장기적인 작업에 대한 능력을 칭찬하며, "이 모델에게 너무 복잡한 작업은 찾을 수 없었다"고 언급했습니다. Berman은 이 모델이 "느리게 느껴질지라도" 가능한 모든 해결책을 탐색하려는 열의를 강조했으며, 궁극적으로 유체 역학 시뮬레이션과 같은 비할 데 없는 결과를 만들어냈다고 말했습니다. 이 모델은 단순히 테스트를 통과하는 것을 넘어, 한계를 재정의합니다.

숫자를 넘어서: 장기적인 작업 마스터하기

Claude Fable 5가 현재 군림하는 단순한 벤치마크 점수를 넘어, 진정한 전략적 이점은 바로 장기적인 작업에 있습니다. 이것들은 단순한 Q&A가 아닙니다. 지속적인 인간의 개입 없이 자율적인 계획, 다단계 실행, 그리고 복잡한 프로젝트의 반복적인 개선을 요구합니다. Fable 5의 아키텍처는 이러한 지속적인 추론을 위해 특별히 설계되었으며, 이는 실제 애플리케이션에서 새로운 수준의 생산성을 가능하게 하는 중요한 차별점입니다.

Matthew Berman의 리뷰는 Fable 5가 생성한 놀라운 fluid dynamics simulation을 강조하며 이 기능을 생생하게 보여주었습니다. 이것은 미리 준비된 데모가 아니었습니다. 모델이 실시간으로 복잡한 시스템을 자율적으로 생성하고 조작하여, 이전 모델들이 관리할 수 있었던 것보다 훨씬 뛰어난 advanced generative and reasoning capabilities를 시연한 것입니다. 이것은 단순한 problem-solving을 넘어섭니다. 이는 proactive project management입니다.

종종 '느림'으로 인식되는 이 모델의 체계적인 접근 방식은 사실 버그가 아니라 기능입니다. 이는 철저함에 대한 의도적인 투자입니다. Fable 5는 모든 가능한 solution path를 철저히 탐색하여, 빠르지만 최적이 아닌 결과보다는 최적의 결과를 보장합니다. 이러한 신중한 프로세스는 Fable 5가 복잡하고 long-running tasks를 위한 Anthropic's core analytics benchmark에서 90%를 돌파한 최초의 모델인 이유를 설명합니다. 이는 이전 Opus models보다 10점 향상된 수치입니다. Anthropic의 모델 출시에 대한 더 깊은 통찰력을 얻으려면 Claude Fable 5 and Claude Mythos 5 - Anthropic를 참조하십시오.

성능 대 안전: Anthropic의 전략적 도박

Anthropic은 단순히 새로운 모델을 출시하는 것이 아닙니다. 그들은 계산된 이중 출시를 실행하고 있습니다. Claude Fable 5는 강력한 safeguards를 갖추고 일반적인 사용을 위해 길들여진 "Mythos-class" 모델로 대중에게 공개됩니다. 한편, cyber safeguards가 해제된 full-power Claude Mythos 5는 검증된 Glasswing partners와 특정 biology researchers를 위해 예약되어 있습니다. 이것은 단순히 capability에 대한 것이 아닙니다. 이는 raw power와 responsible deployment의 균형을 맞추는 전략적 gambit입니다.

Project Glasswing을 기억하십니까? 원래 Mythos Preview는 OpenBSD의 27년 된 flaw를 포함하여 수천 개의 high-severity vulnerabilities를 식별하며 "nation-state level cyber offensive capabilities"를 시연했습니다. Anthropic은 이러한 능력을 가진 모델이 신중하게 통제된 출시를 요구한다는 것을 이해하고 있으며, 따라서 이중 계층 접근 방식을 취합니다. 그들은 자신들이 무엇을 가지고 있는지 알고 있습니다.

이 새로운 표준을 활용하고 싶으십니까? Fable 5는 Claude API 및 Bedrock과 같은 플랫폼을 통해 제공됩니다. frontier model치고는 가격이 공격적입니다: 100만 input tokens당 $10, 100만 output tokens당 $50입니다. 이것은 단순히 더 강력한 도구가 아닙니다. 이는 frontier AI를 안전하게 배포하는 새로운 산업 표준을 제시하며, 혁신이 신중함에 의해 억압될 필요가 없음을 증명합니다. Anthropic은 모두에게 그 방법을 보여주었습니다.

자주 묻는 질문

Claude Fable 5는 무엇입니까?

Claude Fable 5는 Anthropic에서 새로 공개된 AI 모델입니다. 이는 advanced safety guardrails를 갖춘 'Mythos-class' 모델로, 복잡하고 long-horizon tasks를 위해 설계되었습니다.

Fable 5는 Mythos 5와 어떻게 다릅니까?

Fable 5는 일반적인 사용을 위해 안전하게 만들어진 Mythos 모델 버전입니다. full Claude Mythos 5 모델은 safeguards가 적으며, security 및 biology research를 위한 specialized partners에게만 제한됩니다.

Claude Fable 5가 다른 모델보다 나은 점은 무엇입니까?

Fable 5는 SWE-bench 및 GDPval과 같은 benchmarks에서 Claude Opus 4.8을 능가하며 우위를 점하고 있다고 보고됩니다. 주요 강점은 sustained reasoning이 필요한 복잡하고 multi-step problems를 처리하는 것입니다.

Claude Fable 5는 누구를 위한 것입니까?

이 모델은 정교한 software engineering, scientific research, 그리고 자동화될 수 있는 long-running analytical tasks와 같이 야심차고 복잡한 문제를 다루는 developers 및 researchers를 위해 설계되었습니다.

Found this useful? Share it.

One short daily email of tools worth shipping. No drip funnel.

one email a day · unsubscribe in two clicks · no third-party tracking

🚀더 알아보기

AI 트렌드를 앞서가세요

Stork.AIが엄선한 최고의 AI 도구, 에이전트, MCP 서버를 만나보세요.

P.S. 쓸 만한 걸 만드셨나요? Stork에 등록