Claude의 새로운 AI에 숨겨진 세금이 있다

Anthropic이 벤치마크를 압도하고 멋진 UI를 디자인하는 코딩 강자 Claude Opus 4.7을 출시했습니다. 하지만 조용한 토크나이저 변경으로 인해 동일한 프롬프트에 대해 35% 더 많은 비용을 지불할 수 있습니다.

Stork.AI
Hero image for: Claude의 새로운 AI에 숨겨진 세금이 있다
💡

요약 / 핵심 포인트

Anthropic이 벤치마크를 압도하고 멋진 UI를 디자인하는 코딩 강자 Claude Opus 4.7을 출시했습니다. 하지만 조용한 토크나이저 변경으로 인해 동일한 프롬프트에 대해 35% 더 많은 비용을 지불할 수 있습니다.

최고의 AI 코더가 방금 급여 인상을 받았다

Anthropic의 최신 플래그십 모델인 Opus 4.7은 개발자와 크리에이터를 위한 강력한 업그레이드로, AI 기능의 상당한 도약을 약속합니다. 2026년 4월 16일에 출시된 이 버전은 코드 생성 및 시각적 이해와 같은 중요한 영역에서 한계를 뛰어넘어 Claude 경험을 진정으로 향상시킵니다. 그 출시는 빠르게 진화하는 AI 환경에서 즉시 최고 수준의 경쟁자로 자리매김하게 합니다.

인상적인 성능 향상에도 불구하고, Opus 4.7은 개발자들이 해결해야 할 숨겨진 비용을 수반합니다. Anthropic은 토큰당 일관된 가격을 유지하지만, 업데이트된 토크나이저와 새로운 기본 설정으로 인해 동일한 입력 프롬프트가 실제로는 훨씬 더 많은 토큰을 소비할 수 있으며, 이는 더 높은 운영 비용으로 이어집니다. 이러한 미묘한 변화는 처음에는 무료 성능 향상으로 보이는 것에 '숨겨진 세금'을 부과합니다.

Opus 4.7은 급진적으로 개선된 코딩 벤치마크를 보여줍니다. 이전 버전인 Opus 4.6보다 SWE-bench Pro에서 10% 향상되어 인상적인 64.3%를 달성했습니다. SWE-bench Verified에서는 87.6%를 기록하여 7%의 향상을 반영합니다. 이러한 수치는 복잡한 코드 추론, 시스템 엔지니어링 및 장기 자율 작업에 대한 우수한 도구로서의 입지를 확고히 합니다.

코딩 외에도 Opus 4.7은 멀티모달 지원을 극적으로 향상시킵니다. 이 모델은 이제 가장 긴 가장자리에서 최대 2,576 픽셀, 약 3.75 메가픽셀의 고해상도 이미지를 처리하며, 이는 이전 모델의 해상도보다 3배 높습니다. 이러한 개선은 복잡한 문서 및 차트에서 데이터 추출과 같은 작업을 크게 향상시키며, 최근 반응형 카페 웹사이트를 만드는 테스트에서 입증된 바와 같이 더욱 '세련되고 창의적인' UI 디자인을 생성합니다.

토큰 소비 증가는 두 가지 주요 변경 사항에서 비롯됩니다. 업데이트된 토크나이저는 동일한 입력 콘텐츠를 데이터 유형에 따라 약 1.0에서 1.35배 더 많은 토큰으로 매핑합니다. 또한, Opus 4.7은 더 높은 노력 수준에서 '더 많이 생각'하는데, 이는 모든 플랜에 대해 새로운 `xhigh` 노력 수준이 활성화된 Claude Code의 기본 동작입니다. 이러한 심층적인 추론은 신뢰성을 향상시키지만, 필연적으로 더 많은 출력 토큰을 소모하여 비용에 직접적인 영향을 미칩니다.

코드를 압도하고, 사실을 더듬는가?

삽화: 코드를 압도하고, 사실을 더듬는가?
삽화: 코드를 압도하고, 사실을 더듬는가?

Opus 4.7은 코드 생성 및 문제 해결에서 진정으로 탁월하며, 이전 버전에 비해 강력한 발전을 보여줍니다. 이 모델은 SWE-bench Pro에서 10% 향상되어 인상적인 64.3%의 정확도를 달성하여 Opus 4.6을 크게 능가했습니다. 이러한 상당한 개선은 Opus 4.7을 복잡한 소프트웨어 엔지니어링 과제를 해결하는 개발자를 위한 강력한 도구로 자리매김하게 합니다.

코딩 우위를 더욱 확고히 하면서, Opus 4.7은 SWE-bench Verified에서도 7% 향상되어 87.6%를 기록했습니다. 이러한 벤치마크 승리는 장기 자율성, 시스템 엔지니어링 및 복잡한 코드 추론 작업을 처리하는 모델의 능력을 향상시키려는 Anthropic의 노력을 강조합니다.

역설적으로, 이러한 코딩의 승리는 사이버 보안 점수의 의아한 하락과 함께 나타납니다. Anthropic 자체 벤치마크는 이 영역에서 약간의 감소를 보여주는데, 이는 Opus 4.7 내에 구현된 새롭고 엄격한 보호 조치의 의도적인 결과입니다. 회사는 금지되거나 고위험 사이버 보안 사용을 나타내는 요청을 차단하기 위해 이러한 강화된 사이버 보호 기능을 의도적으로 구축했습니다.

이 전략적 선택은 모델이 사이버 보안 성능을 인위적으로 낮게 유지한다는 것을 의미합니다. Anthropic은 이러한 상호 작용을 통해 배우고, 미공개된 Mythos-class와 같이 더욱 강력하면서도 안전한 미래 모델 개발에 정보를 제공하며, 순수한 기능과 책임감 있는 AI 설계 사이의 긴장감을 강조합니다.

프로그래밍 능력에도 불구하고, Opus 4.7은 많은 고급 AI 애플리케이션에 필수적인 핵심 기능인 긴 문맥 이해에서 우려스러운 퇴보를 보입니다. 내부 'needle-in-a-haystack' 평가는 Opus 4.6에 비해 긴 문맥 성능에서 극적인 "급락(nose dive)"을 보고했습니다. 이는 Opus 4.7이 방대한 텍스트 깊숙이 묻혀 있는 특정 정보를 검색하는 데 더 어려움을 겪는다는 것을 시사합니다.

이러한 예상치 못한 하락은 방대한 문서를 처리하거나, 긴 대화를 요약하거나, 장기간의 다중 세션 작업에서 일관성을 유지할 때 모델의 신뢰성에 대한 중요한 의문을 제기합니다. 깊은 문맥 인식을 위해 Claude에 의존하는 사용자에게는 이러한 잠재적 저하가 실제 사용에 심각한 영향을 미칠 수 있습니다.

오래된 프롬프트에 작별을 고하세요

Opus 4.7은 지시 따르기에 근본적으로 다른 접근 방식을 도입하여, 기존의 프롬프트 전략에 대한 완전한 재평가를 요구합니다. 지시를 느슨하게 해석하거나 덜 강조된 부분을 건너뛰는 경향이 있던 이전 Claude 모델과 달리, Opus 4.7은 비할 데 없는 문자 그대로의 해석과 정밀함을 위해 설계되었습니다. 이러한 근본적인 변화는 이제 모델이 제공된 모든 지시를 엄격하게 준수하며, 사용자가 모델과 상호 작용하는 방식을 근본적으로 변화시키는 정확성으로 명령을 실행한다는 것을 의미합니다.

이전의, 더 관대한 모델을 위해 설계된 프롬프트를 사용하는 사용자들은 거의 확실히 예상치 못하거나 지나치게 문자 그대로의 출력을 접하게 될 것입니다. 이전 버전이 의도를 추론하거나 특정 지시를 다른 지시보다 우선시했을 수 있는 반면, Opus 4.7은 프롬프트의 모든 부분을 동일한 비중으로 실행합니다. 이는 새로워진 엄격함을 고려하여 프롬프트가 세심하게 작성되지 않았다면 바람직하지 않은 결과를 초래할 수 있으며, 복잡한 워크플로우를 방해하고 상당한 디버깅을 요구할 수 있습니다.

이러한 중요한 변화는 기존 프롬프트 라이브러리에 대한 포괄적인 감사 및 재평가를 필요로 합니다. 개발자와 크리에이터는 이제 프롬프트를 세심하게 다듬어 모든 모호성을 제거하고 모든 지시가 명확하고 의도적임을 보장해야 합니다. 이러한 정밀한 패러다임에 적응하는 것은 선택 사항이 아니라, 특히 다단계 지시에 대한 정확한 준수가 가장 중요한 복잡한 코딩 및 에이전트 작업에서 Opus 4.7의 향상된 기능을 완전히 활용하기 위한 필수 요구 사항입니다.

모델의 향상된 지시 따르기 기능을 활용한다는 것은 프롬프트 엔지니어링에 대한 보다 체계적인 접근 방식을 수용하는 것을 의미합니다. 그러나 그 보상은 입력이 모델의 문자 그대로의 해석과 일치할 경우 매우 정확하고 예측 가능한 결과를 제공할 수 있는 모델입니다. 프롬프트 개선에 대한 이러한 투자는 Opus 4.7의 진정한 잠재력을 발휘하게 하여, 복잡한 작업을 위한 더욱 신뢰할 수 있고 강력한 도구로 변화시킬 것입니다. 광범위한 프롬프트 전면 개편을 계획하는 분들을 위해 최신 토큰화 및 가격 구조를 이해하는 것이 중요합니다. 자세한 정보는 Anthropic의 Model Pricing | Anthropic 페이지를 참조하십시오.

이제 지불하게 될 35%의 '토크나이저 세금'

Opus 4.7은 Anthropic의 주력 모델이 텍스트를 처리하는 방식에 근본적인 변화를 도입하여, 개발자와 파워 유저의 운영 비용에 직접적인 영향을 미칩니다. Anthropic은 모델의 토크나이저, 즉 입력 텍스트를 AI가 이해할 수 있는 개별 단위로 분해하는 내부 메커니즘을 업데이트했습니다. 이러한 기술적 조정은 내부 처리를 개선하는 동시에 사용자에게 상당한 재정적 영향을 미칩니다.

이전에는 주어진 입력 프롬프트가 API 요금 청구를 위해 예측 가능한 수의 토큰에 매핑되었습니다. Opus 4.7에서는 콘텐츠 유형에 따라 동일한 입력이 이제 1.0배에서 1.35배 더 많은 토큰에 매핑될 수 있습니다. Anthropic이 원래의 토큰당 가격을 유지함에도 불구하고, 사용자들은 사실상 동일한 정보에 대해 더 많은 비용을 지불하게 됩니다. 이러한 토큰 소비 증가는 모든 API 호출에 대한 교활한 "토크나이저 세금"으로 작용하여 운영 비용을 조용히 증가시킵니다.

복잡한 코딩 작업을 위해 Opus 4.7을 사용하는 API 개발자의 실제 사례를 고려해 봅시다. 이전에는 Opus 4.6에서 100만 토큰당 Anthropic의 입력 가격인 $15.00로 1,000 토큰을 소비했던 입력 프롬프트는 $0.015의 비용이 들었을 것입니다. 이것은 간단한 계산이었습니다.

새로운 토크나이저를 사용하면 동일한 1,000 토큰 입력이 Opus 4.7에서는 최대 1,350 토큰으로 변환될 수 있습니다. 이는 동일한 프롬프트에 대해 새로운 입력 비용이 $0.02025로 직접적으로 증가하는 것을 의미하며, 토크나이저 변경만으로 지출이 35%나 급증한 것입니다. 이 "세금"은 Opus 4.7이 더 높은 노력 수준에서 "더 많이 생각하는" 경향을 고려하기 전에도 적용되며, 이는 전체 토큰 소비를 더욱 증가시킵니다.

개발자들은 이제 이러한 증가하는 비용을 완화하기 위해 토큰 수를 세심하게 모니터링하고 프롬프트 전략을 조정해야 합니다. 토크나이저에 대한 겉보기에는 사소한 기술 업데이트는 예산 예측과 프롬프트 최적화에 대한 완전한 재평가를 요구하며, 강력한 업그레이드를 더 비싼 제안으로 바꾸고 있습니다. 예측 가능한 토큰 사용은 끝났고, 신중한 비용 관리 시대가 도래했습니다.

귀하의 AI는 기본적으로 초과 근무 중입니다.

삽화: 귀하의 AI는 기본적으로 초과 근무 중입니다.
삽화: 귀하의 AI는 기본적으로 초과 근무 중입니다.

Opus 4.7은 `high`와 `max` 추론 설정 사이에 위치하는 새로운 `xhigh` 노력 수준을 도입합니다. 이 추가 기능은 개발자에게 모델 처리 방식에 대한 더 세밀한 제어를 제공하여, 더 깊은 계산적 사고와 응답 지연 시간 사이의 균형을 맞춥니다. 이러한 더 높은 노력 수준에서 Opus 4.7은 특히 에이전트 설정의 후반 단계에서 "더 많이 생각"하며, 이는 복잡하고 어려운 문제에 대한 신뢰성을 크게 향상시킵니다.

이러한 향상된 추론에는 중요하고 종종 숨겨진 비용이 따릅니다. Anthropic은 모든 플랜의 Claude Code에서 extra high 노력 수준을 기본값으로 설정했습니다. 사용자 개입 없이 Opus 4.7은 이제 기본적으로 초과 근무를 하며, 사용자들이 프롬프트에 대해 예상하는 것보다 훨씬 더 많은 토큰을 소비합니다. 이 변경 사항은 모델의 장황함이 증가함에 따라 이전에 논의된 "토크나이저 세금"에 직접적으로 기여합니다.

이를 관점에서 보면, Opus 4.7의 새로운 `extra high` 노력 수준은 Opus 4.6의 *max* 노력 수준과 거의 동일한 양의 토큰을 사용합니다. 이는 Opus 4.6의 최고 설정에서의 성능에 익숙한 사용자들이 이제 Opus 4.7에서 일상적인 작업에도 불구하고 기본적으로 유사한 토큰 소모율을 얻게 된다는 것을 의미합니다. 이 기본값은 운영 비용에 극적으로 영향을 미칩니다.

그러나 현명한 개발자들은 이 새로운 비용 환경을 전략적으로 탐색할 수 있습니다. 전문가들은 최적의 균형을 찾기 위해 다양한 노력 수준을 테스트할 것을 강력히 권장합니다. 핵심 권장 사항: Claude Code의 기본 설정을 `extra high` 대신 `high`로 변경하십시오.

겉보기에는 사소한 이 조정은 상당한 이점을 가져옵니다. Opus 4.7의 `high` 노력 수준은 Opus 4.6의 `max` 노력 수준보다 실제로 *더 높은 점수*를 기록하며, 이 모든 것이 더 적은 토큰을 사용합니다. 이 단일 구성 변경을 통해 사용자들은 이전 세대의 최고 성능보다 우수한 성능을 달성할 수 있지만, 토큰 소비와 관련 비용을 현저히 줄일 수 있습니다. 이는 출력 품질과 지출을 모두 최적화하는 명확한 경로를 제시합니다.

궁극의 UI 디자인 대결

순수한 코딩 능력 외에도, Anthropic은 Opus 4.7의 향상된 UI 디자인 기능도 강조했습니다. `index.html` 파일만 필요한 간단한 '카페 웹사이트' 테스트에서 Opus 4.7은 이전 버전인 Opus 4.6과 경쟁 모델인 Gemini 3.1 및 GPT 5.4와 겨루었습니다. 이 실제 시나리오는 모델의 창의적인 재능과 단순한 개념을 시각적으로 매력적인 웹 페이지로 변환하는 능력을 평가하는 것을 목표로 했습니다.

Opus 4.7은 '꽤 괜찮은' 결과를 내놓았는데, 세련된 글꼴과 잘 통합된 Unsplash 이미지를 사용하여 반응형 카페 웹사이트를 생성했습니다. 이 디자인은 진정한 카페 분위기를 자아내며, Opus 4.6의 결과물보다 확실히 발전했음을 보여주었습니다. 이전 버전은 덜 매력적인 그라데이션 배경과 전반적으로 덜 세련된 미학을 특징으로 하는 덜 다듬어진 버전을 생성하여, Opus 4.7의 개선이 명확하게 드러났습니다.

그러나 진정한 놀라움은 이 특정 창의적 작업에서 선호되는 디자인으로 떠오른 Gemini 3.1에서 나왔습니다. 그 결과물은 인상적인 고정 배경, 잘 구현된 이미지 섹션, 그리고 테스터들을 감동시킨 멋지게 배치된 메뉴를 자랑했습니다. Gemini 3.1은 강력한 시각적 재능을 보여주며, 순수한 코딩 능력이 항상 UI 디자인에서 우월한 미적 판단과 동일하지 않음을 입증했습니다.

반대로, GPT 5.4는 훨씬 뒤처진 꼴찌를 차지했습니다. 생성된 웹사이트는 흐릿한 카드 요소의 과도한 사용으로 특징지어지는 일반적이고 즉시 알아볼 수 있는 'GPT 느낌'으로 고통받았습니다. 이 디자인은 원하는 카페 분위기를 포착하는 데 실패했으며, 동료 모델들과 비교했을 때 창의적이고 스타일적인 해석에 대한 모델의 어려움을 강조했습니다.

이 UI 디자인 대결은 벤치마크가 기술적 성능을 정량화하는 반면, 주관적인 창의적 작업은 종종 독특한 모델의 개성과 강점을 드러낸다는 점을 강조합니다. 이러한 미묘한 차이를 이해하는 것은 다양한 프로젝트에 적합한 AI를 선택하는 개발자에게 매우 중요합니다. 이 모델들의 경제적 함의와 진화하는 토큰 사용에 대한 자세한 내용은 독자들이 Claude Opus 4.7 Pricing: The Real Cost Story Behind the “Unchanged” Price Tag - Finout에서 살펴볼 수 있습니다.

한 번에 풀스택 앱 구축하기

단순한 단일 페이지 웹사이트를 넘어, 현대 AI 코딩 능력의 궁극적인 테스트는 풀스택 애플리케이션을 처음부터 구축하는 것입니다. 우리는 선도적인 모델들에게 포괄적인 개인 금융 대시보드를 구축하도록 도전했으며, 선호하는 기술 스택을 선택하고 핵심 기능을 구현할 완전한 자율성을 부여했습니다. 이 복잡한 작업은 UI 디자인뿐만 아니라 백엔드 로직, 데이터 관리 및 아키텍처 의사 결정을 탐구합니다.

Opus 4.7은 경쟁 모델들이 따라올 수 없는 수준의 통합과 디자인 일관성을 보여주며 진정으로 인상적인 초기 결과를 내놓았습니다. 생성된 애플리케이션은 신중하게 선택된 색상 구성표를 갖춘 깔끔하고 직관적인 사용자 인터페이스를 특징으로 했습니다. 그 미적 매력은 즉시 눈에 띄었으며, '세련되고 창의적인' UI 생성에 대한 모델의 자랑스러운 개선 사항을 반영했습니다.

기능적으로, 프론트엔드 구성 요소는 견고하고 잘 구현되었습니다. 사용자는 다양한 요소와 상호 작용하고, 금융 데이터를 입력하며, 대시보드의 여러 섹션을 탐색할 수 있었습니다. 코드는 현대 웹 개발 원칙에 대한 강력한 이해를 보여주며, 첫눈에 프로덕션 준비가 된 것처럼 느껴지는 반응형의 매력적인 사용자 경험을 제공했습니다.

그러나 Opus 4.7의 정교한 결과물은 선택된 아키텍처 깊숙이 치명적인 설계 결함을 안고 있었습니다. 인상적인 프론트엔드에도 불구하고, 모델은 모든 사용자 데이터를 처리하기 위해 인메모리 데이터베이스 솔루션을 선택했습니다. 이 근본적인 선택은 애플리케이션의 실제 유용성을 심각하게 훼손했으며, 모든 금융 추적 도구에 치명적인 결함을 초래했습니다.

in-memory database는 사용자 계정부터 거래 내역까지 모든 정보가 애플리케이션의 활성 메모리에만 상주한다는 것을 의미합니다. 결과적으로 서버 또는 애플리케이션 프로세스를 다시 시작하면 저장된 모든 데이터가 즉시 지워집니다. 이러한 완전한 data persistence의 부재는 재무 대시보드를 의도된 목적에 전혀 비실용적으로 만듭니다.

Opus 4.7은 복잡하고 잘 구조화된 코드와 매력적인 UI를 생성하는 데 탁월한 능력을 보여주었지만, 아키텍처 결정에서 중대한 맹점을 드러냈습니다. 이 모델은 개인 금융 애플리케이션의 가장 중요한 측면인 민감한 금융 정보의 안전하고 영구적인 저장에 우선순위를 두지 못했습니다. 이러한 간과는 가장 진보된 AI 코더에게도 지속적인 과제, 즉 명시적인 지시를 넘어 암묵적인 사용자 요구 사항을 이해하는 것이 중요함을 강조합니다.

경쟁사들의 성과는 어떠한가

삽화: 경쟁사들의 성과는 어떠한가
삽화: 경쟁사들의 성과는 어떠한가

Opus 4.7이 자체 tech stack을 선택하고 단 한 번의 시도로 실행 가능한 애플리케이션을 제공하며 개인 금융 대시보드를 성공적으로 아키텍처를 설계하고 구축한 후, 비교 분석 결과 선도적인 모델들 간의 극명한 차이가 드러났습니다. 고수준 프롬프트에서 응집력 있고 기능적인 full-stack 솔루션을 생성하는 Opus 4.7의 능력은 실용적인 소프트웨어 개발에서 경쟁사들에게 강력한 기준을 제시합니다.

Anthropic의 이전 버전인 Opus 4.6은 더 복합적인 결과를 보여주었습니다. 사용자 인터페이스는 4.7의 결과물보다 덜 인상적이고 미학적으로 세련되지 못했지만, 이 모델은 백엔드 지속성에 대한 더 강력한 이해를 보여주었습니다. persistent SQLite database를 올바르게 구현했으며 기능적인 애플리케이션에 필수적인 더 많은 작동 기능을 제공했습니다. 이 이전 모델은 핵심 애플리케이션 로직을 우선시하여 시각적 완성도와 견고한 기반 기능성 사이의 미묘한 균형을 강조합니다.

OpenAI의 GPT-5.4는 full-stack 작업에서 크게 어려움을 겪었으며, 기능적으로 사용할 수 없는 결과물을 내놓았습니다. 응집력 있거나 실행 가능한 애플리케이션을 제공하지 못했으며, 상당한 수동 개입이 필요한 단편적인 코드를 생성했습니다. 또한, 이 모델은 최신 프레임워크에 대한 숙련도를 보여주는 대신 일반 JavaScript와 HTML에 의존하는 기술적으로 기본적인 접근 방식을 택했습니다. 이러한 결과는 복잡하고 다중 구성 요소 애플리케이션 생성에서 GPT-5.4를 훨씬 뒤처지게 만듭니다.

Google의 Gemini 3.1은 이 까다로운 테스트에서 가장 비효율적인 성능을 보였습니다. 초기 프롬프트에서 실행 가능한 애플리케이션을 생성하는 데 근본적으로 실패했으며, 부분적인 기능조차 달성하기 위해 여러 차례의 후속 상호작용과 광범위한 사용자 안내가 필요했습니다. 상당한 외부 개입 없이 독립적이고 실행 가능한 프로젝트를 생성할 수 없는 이러한 능력은 자율적인 full-stack 개발 시나리오에서의 현재 한계를 강조하며, 이 벤치마크에서 가장 능력이 부족한 것으로 평가됩니다.

간단한 카페 웹사이트 UI 테스트와 더 복잡한 개인 금융 대시보드 full-stack 챌린지 모두에서 얻은 이러한 결과는 현재 AI 코딩 환경의 명확한 그림을 그립니다. Opus 4.7은 현대적인 디자인 원칙과 견고한 기능성을 갖춘 세련되고 실행 가능한 애플리케이션을 만드는 데 탁월하지만, 경쟁사들은 미학적 품질, 기능적 완전성, 또는 광범위한 사용자 안내 및 반복적인 프롬프트 없이 작동하는 제품을 제공하는 중요한 능력 중 하나에서 종종 부족함을 보입니다. 이러한 성능 격차는 복잡하고 다면적인 코드 생성에서 Opus 4.7의 현재 선두를 확고히 합니다.

Mythos를 만나보세요: 아직 가질 수 없는 AI

Opus 4.7이 공개적으로 사용 가능한 가장 유능한 모델로 군림하는 동안에도, Anthropic 자체 벤치마크는 숨겨진 더 강력한 AI인 Mythos를 드러냅니다. 내부 평가에서 시연된 이 고급 모델은 최신 Claude 반복 모델조차 능가하지만, 개발자와 크리에이터에게는 여전히 접근할 수 없습니다. 그 존재는 AI 연구실 내에서 발생하고 있는 빠르고 종종 눈에 띄지 않는 발전을 강조합니다.

Anthropic은 현재 심각한 안전 문제로 인해 Mythos의 공개 출시를 보류하고 있습니다. 이 모델의 엄청난 능력, 특히 오용 가능성은 광범위하게 배포되기 전에 강력한 안전 장치와 광범위한 테스트를 필요로 합니다. 이러한 신중한 접근 방식은 혁신과 책임감 있는 AI 개발 사이의 균형을 맞추기 위한 업계의 지속적인 노력을 보여줍니다.

Opus 4.7은 이러한 섬세한 균형 잡기에서 중추적이고 전략적인 역할을 합니다. Anthropic은 새로운 cyber safeguards를 위한 중요한 테스트베드로 특별히 설계하여, 금지되거나 고위험 사이버 보안 사용을 나타내는 요청을 적극적으로 차단합니다. 이러한 의도적인 설계 선택은 Opus 4.7의 독특한 성능 이상 현상을 설명합니다: Opus 4.6에 비해 사이버 보안 벤치마크 점수가 약간, 통제된 하락을 보이며, 이는 잠재적 위험을 완화하기 위한 인위적인 제약 역할을 합니다.

이러한 엄격한 프로토콜 하에 Opus 4.7의 배포에서 수집된 실제 데이터는 매우 중요합니다. 이를 통해 Anthropic은 안전 메커니즘의 효과를 엄격하게 평가하고 강력한 AI와 잠재적 위협 간의 복잡한 상호 작용을 이해할 수 있습니다. 이러한 반복적인 학습 과정은 미래 모델을 개선하는 데 필수적입니다.

궁극적으로 Opus 4.7은 Mythos-class models의 궁극적이고 안전한 도입을 향한 중요하고 기초적인 단계를 나타냅니다. 그 공개 출시는 고급 안전 기능을 검증하기 위한 통제된 환경을 제공하여, 더 강력하면서도 안전한 AI 시스템을 위한 길을 닦습니다. Mythos 또는 그 후속 모델이 마침내 출시될 때, 엄격한 안전성 검증 후에만 전례 없는 기능을 제공하며 소프트웨어 개발을 근본적으로 재편할 것을 약속합니다.

평결: 결함 있는 걸작인가?

Opus 4.7은 획기적인 코딩 및 UI 디자인 기능을 제공하며 미묘한 그림을 제시합니다. Opus 4.6에 비해 SWE-bench Pro에서 10% 도약하고 Verified benchmarks에서 7% 향상된 점수는 그 순수한 힘을 보여주며, 테스트에서 인상적인 풀스택 앱 생성을 입증합니다. 그러나 이러한 향상된 성능은 상당한 비용 증가, 특히 기존 프롬프트에 대한 잠재적인 35%의 'tokenizer tax'와 함께 찾아옵니다. 또한, 일부 needle-in-a-haystack 벤치마크가 Opus 4.6에 비해 성능 저하를 시사하면서 장문 컨텍스트 신뢰성에 대한 의문이 지속됩니다.

Anthropic이 Claude Code에서 새로운 `extra high` 노력 수준을 기본값으로 설정한 결정은 토큰 소비를 더욱 악화시킵니다. 이 설정은 어려운 문제에 대한 더 깊은 추론과 향상된 신뢰성을 약속하지만, 개발자에게는 더 높은 운영 비용으로 직결됩니다. 사용자는 성능과 경제적 효율성 사이의 더 나은 균형을 찾기 위해 `high` 노력 수준을 탐색하면서 이러한 설정을 적극적으로 관리해야 합니다. 이러한 경계심은 지속적인 개발 작업, 특히 에이전트 설정에 있어 매우 중요합니다.

복잡한 코딩 작업, 정교한 시스템 엔지니어링, 그리고 세련된 UI 디자인에 있어 Opus 4.7은 경이로운 도구로, 아마도 공개적으로 사용 가능한 최고의 모델일 것입니다. 더 문자적인 지시 따르기는 프롬프트 개선을 요구하지만, 정확한 결과물로 정밀함에 보상합니다. 개발자는 향상된 멀티모달 지원과 자체 검증을 활용하여 다중 세션 워크플로우에서도 놀랍도록 견고한 결과를 얻을 수 있습니다.

결론적으로, Opus 4.7은 결함 있는 걸작입니다. 특정 영역에서는 비할 데 없지만, 사용자가 헤쳐나가야 할 숨겨진 비용과 잠재적인 긴 컨텍스트 약점이 있습니다. 이는 사용에 있어 더욱 전략적인 접근 방식을 요구하며, 노력 수준과 프롬프트 최적화에 대한 의식적인 선택을 해야 합니다. Anthropic의 최신 업데이트에 대해 어떻게 생각하시나요? 현재 개발에 주로 사용하는 AI 모델은 무엇이며, Opus 4.7의 장단점에 대해 어떻게 생각하시나요?

자주 묻는 질문

Claude Opus 4.7의 주요 업그레이드는 무엇인가요?

Opus 4.7은 코딩, 에이전트적 추론, 고해상도 비전에서 주요 개선 사항을 제공하며, 이전 버전에 비해 SWE-bench Pro 벤치마크에서 10% 향상된 성능을 보입니다.

Opus 4.7은 동일한 프롬프트에 대해 왜 더 많은 비용이 드나요?

동일한 텍스트를 최대 35% 더 많은 토큰으로 매핑할 수 있는 업데이트된 토크나이저를 사용합니다. Claude Code의 기본 "매우 높음" 노력 수준과 결합되어, 토큰당 가격은 변함없지만 작업당 비용이 효과적으로 증가합니다.

Opus 4.7의 긴 컨텍스트 성능은 4.6과 비교하여 어떤가요?

바늘 찾기 테스트와 같은 일부 사용자 테스트 및 벤치마크는 긴 컨텍스트 검색에서 상당한 퇴보를 보여주며, 이는 다른 기능을 향상시키기 위해 잠재적인 절충이 이루어졌음을 시사합니다.

코딩에 있어서 Claude Opus 4.7이 GPT-5.4보다 더 나은가요?

풀스택 애플리케이션 테스트 결과, Opus 4.7은 깔끔한 UI를 갖춘 훨씬 더 완전하고 잘 설계된 애플리케이션을 생성한 반면, GPT-5.4는 기본적이고 사용할 수 없는 프로젝트를 생성했습니다.

자주 묻는 질문

코드를 압도하고, 사실을 더듬는가?
See article for details.
평결: 결함 있는 걸작인가?
Opus 4.7은 획기적인 코딩 및 UI 디자인 기능을 제공하며 미묘한 그림을 제시합니다. Opus 4.6에 비해 SWE-bench Pro에서 10% 도약하고 Verified benchmarks에서 7% 향상된 점수는 그 순수한 힘을 보여주며, 테스트에서 인상적인 풀스택 앱 생성을 입증합니다. 그러나 이러한 향상된 성능은 상당한 비용 증가, 특히 기존 프롬프트에 대한 잠재적인 35%의 'tokenizer tax'와 함께 찾아옵니다. 또한, 일부 needle-in-a-haystack 벤치마크가 Opus 4.6에 비해 성능 저하를 시사하면서 장문 컨텍스트 신뢰성에 대한 의문이 지속됩니다.
Claude Opus 4.7의 주요 업그레이드는 무엇인가요?
Opus 4.7은 코딩, 에이전트적 추론, 고해상도 비전에서 주요 개선 사항을 제공하며, 이전 버전에 비해 SWE-bench Pro 벤치마크에서 10% 향상된 성능을 보입니다.
Opus 4.7은 동일한 프롬프트에 대해 왜 더 많은 비용이 드나요?
동일한 텍스트를 최대 35% 더 많은 토큰으로 매핑할 수 있는 업데이트된 토크나이저를 사용합니다. Claude Code의 기본 "매우 높음" 노력 수준과 결합되어, 토큰당 가격은 변함없지만 작업당 비용이 효과적으로 증가합니다.
Opus 4.7의 긴 컨텍스트 성능은 4.6과 비교하여 어떤가요?
바늘 찾기 테스트와 같은 일부 사용자 테스트 및 벤치마크는 긴 컨텍스트 검색에서 상당한 퇴보를 보여주며, 이는 다른 기능을 향상시키기 위해 잠재적인 절충이 이루어졌음을 시사합니다.
코딩에 있어서 Claude Opus 4.7이 GPT-5.4보다 더 나은가요?
풀스택 애플리케이션 테스트 결과, Opus 4.7은 깔끔한 UI를 갖춘 훨씬 더 완전하고 잘 설계된 애플리케이션을 생성한 반면, GPT-5.4는 기본적이고 사용할 수 없는 프로젝트를 생성했습니다.
🚀더 알아보기

AI 트렌드를 앞서가세요

Stork.AI가 엄선한 최고의 AI 도구, 에이전트, MCP 서버를 만나보세요.

모든 게시물로 돌아가기