Claude Opus 4.7 리뷰: 결함 있는 업그레이드인가, 아니면 완전한 재앙인가?

요약 / 핵심 포인트

Anthropic이 Claude Opus 4.7을 막 출시하며 신급 AI 기능을 약속했다. 그러나 Matthew Berman과 같은 최고 전문가들은 심각한 결함을 밝혀내고 있으며, 이는 엄청난 퇴보가 될 수 있다.

AI 세계가 숨죽이다

저명한 AI 전문가이자 Forward Future의 설립자인 Matthew Berman은 직설적으로 말했다. 그의 YouTube 영상 "Seeing if Opus 4.7 sucks [LIVE]"는 즉시 도발적인 분위기를 조성하며, 인공지능 발전의 기본 서사에 도전했다. 이러한 직설적이고 거침없는 접근 방식은 Anthropic의 최신 플래그십 모델인 Claude Opus 4.7에 대한 기대로 가득 찬 커뮤니티의 관심을 사로잡았다. Berman의 제목만으로도 마케팅 과장을 넘어 실제 성능을 면밀히 조사하는 비판적인 심층 분석을 예고했으며, 그의 자료인 "The Subtle Art of Not Being Replaced" 및 "Humanity's Last Prompt Engineering Guide"의 정서를 반영했다.

Anthropic은 Claude Opus 4.7을 현재까지 가장 유능한 Opus 모델로 포지셔닝했다. 인상적인 1M 컨텍스트 윈도우를 특징으로 하는 하이브리드 추론 강자이다. 2026년 4월 16일 출시된 이 모델은 상당한 기대를 안고 등장했다. 업계는 특히 다음과 같은 분야에서 AI 기능의 결정적인 도약을 기대했다: - Agentic coding - 고급 비전 처리 - 복잡한 다단계 추론

개인 개발자부터 대규모 기업 사용자까지 아우르는 AI 커뮤니티는 Opus 4.7을 간절히 기다렸다. 주요 플랫폼 전반에 걸친 광범위한 가용성은 광범위한 통합을 약속했다: - Claude Pro, Max, Team, Enterprise 사용자 - Claude Platform API를 통한 개발자 - Amazon Bedrock, Google Cloud의 Vertex AI, Microsoft Foundry 통합 - GitHub Copilot에 출시 예정

개발자들은 더 야심찬 프로젝트를 해결할 강력한 도구를 기대했으며, 기업들은 효율성 향상과 혁신적인 솔루션을 모색했다. 이는 모델의 기본 가격인 백만 입력 토큰당 5달러, 백만 출력 토큰당 25달러를 정당화했다. 그러나 업데이트된 토크나이저는 동일한 입력에 대해 실제 비용을 최대 35%까지 증가시킬 수 있어, 또 다른 면밀한 조사의 층을 더했다.

공식적인 주장과 초기 흥분 뒤에는 중요한 질문이 끓어올랐다: Opus 4.7이 약속을 이행했는가, 아니면 Anthropic이 실수했는가? 선전된 개선에도 불구하고, Berman의 분석을 포함한 소문과 전문가 분석은 잠재적인 퇴보를 시사했다. 보고서에 따르면 장문 컨텍스트 검색 성능이 크게 감소했으며, MRCR 벤치마크는 Opus 4.6의 78.3%에서 하락한 것으로 알려졌다. 커뮤니티는 답을 기다렸다: 이것이 Anthropic의 혁신적인 도약이었을까, 아니면 최첨단 AI 모델에 대한 기대를 재정의할 수 있는 중대한 실책이었을까?

Anthropic이 약속한 것: 새로운 개척지

Anthropic은 2026년 4월 16일 Claude Opus 4.7을 공식적으로 공개하며, 현재까지 가장 유능하고 야심찬 모델로 포지셔닝했다. 회사는 이 새로운 반복을 중요한 도약으로 제시했으며, 향상된 agentic coding, 고급 비전 기능, 강력한 엔터프라이즈급 추론이라는 세 가지 핵심 기둥 위에 구축되었다. 이 출시는 자율 AI가 달성할 수 있는 것의 경계를 재정의하고, 성능 기대치에 대한 높은 기준을 설정하는 것을 목표로 했다.

Anthropic의 Opus 4.7에 대한 주장은 특히 대담했으며, 정교하고 다단계적인 과제를 해결하는 능력에 중점을 두었습니다. 그들은 이 모델이 고수준 지침으로부터 복잡한 소프트웨어를 자율적으로 구축할 수 있다고 주장했는데, 이는 더욱 독립적인 AI 에이전트를 향한 중요한 진전입니다. 또한, 고급 비전 기능은 고해상도 문서와 복잡한 시각 데이터를 분석하여 다양한 형식에서 더 깊은 이해와 통찰력 추출을 용이하게 했습니다. 이 모델의 1M context window는 이러한 기능을 뒷받침하며 방대한 양의 정보를 처리하고 추론할 수 있도록 했습니다.

광범위한 가용성은 Anthropic의 또 다른 전략적 움직임을 나타냅니다. Opus 4.7은 Claude Pro, Max, Team, Enterprise 구독자를 포함한 광범위한 사용자에게 일반적으로 접근 가능해졌습니다. 개발자와 대규모 조직을 위해 Anthropic은 여러 플랫폼을 통해 원활한 통합을 보장했습니다: - The Claude Platform API - Amazon Bedrock - Google Cloud's Vertex AI - Microsoft Foundry 이러한 광범위한 배포 전략은 Anthropic이 Opus 4.7을 기존 AI 생태계에 깊이 통합하여 개발 및 배포를 위한 보편적인 도구로 만들려는 의도를 강조합니다. GitHub Copilot에 출시되면서 개발자 워크플로우에서의 입지를 더욱 공고히 했습니다.

Opus 4.7에 대한 Anthropic의 마케팅 언어는 명백히 단정적이었으며, 이 모델을 LLM 분야의 선두 경쟁자들과 직접적으로 대치시켰습니다. 회사는 Opus 4.7이 복잡한 다중 모달 작업에서 뛰어난 성능을 발휘하며, 높은 신뢰성과 정확성을 요구하는 중요한 비즈니스 애플리케이션에 적합하다는 의미의 "enterprise-grade"라는 별칭을 강조했습니다. 이 전략적 메시지는 모델의 복잡한 문제 해결 능력과 견고한 배포를 강조하여 고가치 엔터프라이즈 시장을 사로잡는 것을 목표로 했습니다.

Opus 4.7의 가격 구조는 프리미엄 포지셔닝을 반영했습니다. Anthropic은 백만 input tokens당 5달러, 백만 output tokens당 25달러로 기본 비용을 책정했습니다. 그러나 종종 간과되는 중요한 세부 사항은 업데이트된 tokenizer의 영향이었는데, 이는 동일한 입력 볼륨을 처리하는 데 있어 실질적인 비용을 최대 35%까지 증가시킬 수 있었습니다. 이러한 비용 고려 사항은 대규모 배포를 계획하는 조직에게 중요한 요소가 되었으며, 모델의 전반적인 가치 제안에 또 다른 층을 더했습니다.

방 안의 코끼리: 컨텍스트 실패

Anthropic의 Opus 4.7은 모든 고급 AI의 기본 역량인 long-context retrieval에서 가장 우려스러운 퇴보를 겪고 있습니다. 벤치마크에 따르면 Mean Reciprocal Rank (MRCR)가 이전 Opus 4.6의 78.3%에서 끔찍한 32.2%로 치명적인 하락을 보였습니다. 이는 사소한 성능 저하가 아닙니다. 이는 방대하고 여러 페이지로 구성된 입력에서 정보를 처리하고 정확하게 회상하는 모델의 능력에 심각한 저하를 나타냅니다.

MRCR은 AI 모델이 방대한 텍스트 "건초 더미" 속에서 특정 정보 "바늘"을 얼마나 효과적으로 찾아낼 수 있는지를 정량화하는 중요한 지표입니다. MRCR이 높을수록 모델이 올바른 답변을 신속하게, 종종 초기 제안 중 상위권에서 식별하며, 이는 견고한 컨텍스트 이해를 의미합니다. 32.2%로 급락했다는 것은 Opus 4.7이 이제 중요한 세부 사항을 자주 식별하지 못하거나, 출력물 깊숙이 파묻어 사실상 접근 불가능하게 만든다는 것을 의미합니다. 이는 확장된 1M context window의 유용성을 심각하게 저해하여 복잡한 문서 분석에 신뢰할 수 없게 만듭니다.

이러한 needle-in-a-haystack 시나리오에서의 심각한 실패는 Anthropic이 홍보했던 많은 enterprise-grade 애플리케이션을 훼손합니다. 대규모 데이터셋에서 정확하고 시기적절한 정보에 의존하는 전문가들에게 미치는 실제적인 영향을 고려해 보십시오: - 광범위한 과학 문헌, 법적 선례 또는 역사적 기록 보관소에서 연구 결과를 종합하려는 연구원들. 그들은 모델이 중요한 사실이나 반론을 정확히 찾아낼 것이라고 신뢰할 수 없습니다. - 방대한 코드베이스를 탐색하고, 복잡한 시스템을 디버깅하거나, 광범위한 API 문서를 해석하는 개발자들. 모델은 중요한 함수 정의나 모호한 오류 메시지를 놓칠 수 있습니다. - 수백 페이지에 달하는 포괄적인 보고서에서 정확한 데이터 포인트, 추세 또는 규제 조항을 추출해야 하는 금융 및 시장 분석가들. 단 하나의 수치를 간과하는 것이 심각한 오류로 이어질 수 있습니다.

이러한 사용자들에게 Opus 4.7이 특정 사실을 안정적으로 기억하지 못하는 능력은 이를 현저히 덜 유용하게 만들고, 심지어 역효과를 낳습니다. 모델은 이해해야 할 바로 그 컨텍스트 내에 포함된 중요한 정보를 효과적으로 "잊거나" 간과하여, 큰 context window를 자산이 아닌 부채로 만듭니다.

Anthropic은 Opus 4.7을 agentic coding, advanced vision, 그리고 정교한 enterprise-grade reasoning 분야의 발전을 자랑하는 우수한 모델로 선전했습니다. 따라서, 이러한 근본적인 능력의 급격한 저하는 개발 및 테스트에 대한 즉각적이고 심각한 의문을 제기합니다. 어떻게 더 유능하다고 알려진 모델이 핵심 기능, 특히 광고된 강점에 매우 중요한 기능에서 이처럼 심각하고 직관에 반하는 퇴보를 보일 수 있었을까요? 이 명백한 간과는 발전이라는 서사에 정면으로 모순되며, 모델의 전반적인 신뢰성에 긴 그림자를 드리웁니다. 모델의 발표된 기능에 대한 자세한 내용은 Anthropic의 공식 발표를 참조하십시오: Introducing Claude Opus 4.7 - Anthropic.

예상치 못한 비용

Anthropic의 Opus 4.7은 광고되지 않은 재정적 영향을 동반했으며, 이는 API 사용량을 모니터링하는 개발자들에게 즉시 명백해졌습니다. 새롭고 더 장황한 tokenizer는 동일한 입력 텍스트에 대한 token 수를 상당히 부풀려, 실제 비용을 최대 35%까지 효과적으로 인상시킵니다. 게시된 요금은 입력 token 백만 개당 $5, 출력 token 백만 개당 $25로 유지되지만, 이러한 비공개 변경은 개발자들이 동일한 계산 노력에 대해 훨씬 더 많은 비용을 지불하게 됨을 의미하며, 모든 상호작용에 숨겨진 추가 요금을 발생시킵니다.

이러한 재정적 불투명성을 더욱 악화시키는 것은, Anthropic이 설명할 수 없이 thinking tokens에 대한 투명성을 제거했다는 점입니다. 이전 Opus 버전들은 내부 처리 단계에 대한 중요한 통찰력을 제공하여 개발자들이 API 소비를 더 정확하게 예측하고 관리할 수 있도록 했습니다. 이러한 갑작스러운 가시성 부족은 이제 엔지니어들이 어둠 속에서 작업하도록 강요하며, 비용을 정확하게 예측하고 복잡한 prompt engineering 전략을 최적화하는 능력을 저해합니다.

이 새로운 비용 패러다임은 Opus 4.7의 경쟁적 위치를 이전 모델인 Opus 4.6과 경쟁 모델 모두에 대해 근본적으로 변화시킵니다. Opus 4.6은 예산에 민감한 enterprise 배포에 중요한, 더 예측 가능한 비용 모델을 제공했습니다. 이제 Anthropic의 플래그십 모델은 OpenAI 또는 Google의 제품과 비교할 때 덜 투명하고 잠재적으로 훨씬 더 비싼 제안을 제시하며, 이들 경쟁사에서는 개발자들이 유사한 기능에 대해 더 명확한 가격 구조를 종종 찾을 수 있습니다.

핵심적인 질문은 여전히 남아있습니다: Opus 4.7의 홍보된 성능 향상이 증가하고 예측하기 어려운 이러한 지출을 진정으로 정당화하는가? Anthropic은 에이전트 코딩, 고급 비전, 엔터프라이즈급 추론의 발전을 핵심 판매 포인트로 강조합니다. 그러나 이러한 개선 사항들은 이제 더 높은 실질적인 가격대와 MRCR benchmark에서 입증된 바와 같이 모델의 장문 맥락 검색에서의 놀라운 퇴보와 비교 평가되어야 합니다. 많은 개발자들에게 가치 제안은 상당히 불분명해졌으며, AI 투자 전략에 대한 신중한 재평가를 요구하고 있습니다.

'Adaptive Thinking': 기능인가, 결함인가?

Anthropic은 논란의 여지없이 Extended Thinking 토글을 제거했습니다. 이 기능은 이전에 사용자에게 Claude Opus의 추론 깊이에 대한 세부적인 제어 권한을 부여하는 중요한 기능이었습니다. 이 사용자 제어 메커니즘은 전문가들이 복잡한 문제 해결 과정을 통해 모델을 명시적으로 안내하여, 중요한 애플리케이션에 대한 철저함을 보장했습니다. 이 기능의 사라짐은 사용자가 모델의 인지 과정과 상호 작용하는 방식에 있어 중대한 변화를 의미합니다.

이러한 명시적인 제어를 대체하는 것은 사용자 입력이나 투명성 없이 작동하는 자율 기능인 Adaptive Thinking입니다. Anthropic은 이 새로운 시스템이 어떻게 작동하는지, 언제 활성화되는지, 어떤 매개변수를 고려하는지에 대해 거의 명확성을 제공하지 않습니다. 사용자들은 이제 모델의 내부 숙고 단계를 영향을 미치거나 심지어 이해할 수도 없는 블랙박스에 직면했습니다.

에이전트 코딩이나 엔터프라이즈급 추론과 같은 복잡하고 다단계적인 작업의 경우, 모델의 사고 과정을 지시할 수 있는 능력은 필수적입니다. 이러한 직접적인 사용자 제어를 잃는 것은 중요한 워크플로우에 필수적인 예측 가능성과 신뢰성을 훼손하는 상당한 다운그레이드처럼 느껴집니다. 이러한 변화는 사용자들이 불투명하고 자동화된 시스템에 주도권을 넘겨주도록 강요합니다.

사용자 피드백은 귀중한 도구의 상실에 대한 광범위한 불만을 즉시 드러냈습니다. 많은 전문가들은 피상적인 응답을 방지하고 포괄적인 분석을 보장하기 위해 'Extended Thinking' 토글에 의존했습니다. 통제 불가능한 'Adaptive Thinking' 시스템으로의 전환은 많은 이들에게 무력감을 안겨주었으며, 고급 AI 상호 작용에서 사용자 주도권에 대한 Anthropic의 약속에 의문을 제기하게 만들었습니다.

매튜 버먼의 라이브 분해

매튜 버먼의 라이브 스트림은 도발적으로 "Opus 4.7이 형편없는지 확인하기"라는 제목으로, Anthropic의 최신 플래그십 모델에 대한 냉혹하고 실제적인 평가를 제공했습니다. 프롬프트 엔지니어와 AI 빌더들에게 영향력 있는 목소리로서, 버먼의 분해는 Anthropic의 약속과 Opus 4.7의 실제 성능 사이의 중요한 불일치를 신속하게 드러냈습니다. 그의 엄격한 테스트는 모델의 퇴보에 대한 명확한 증거를 제공했습니다.

버먼의 라이브 시연은 Opus 4.7이 장문 맥락 검색에서 겪는 어려움을 반복적으로 드러냈으며, 이는 MRCR 벤치마크의 놀라운 하락과 일치했습니다. 그는 모델이 환각을 일으키거나 대화 초반의 정보를 완전히 기억하지 못하는 특정 프롬프트를 제시했는데, 이는 이전 모델인 Opus 4.6이 훨씬 더 높은 신뢰성으로 처리했던 작업이었습니다. 이는 복잡하고 다단계적인 작업에 대한 "엔터프라이즈급 추론" 주장을 직접적으로 훼손했습니다.

그의 전문가 의견은 Opus 4.7이 그의 청중에게 제공하는 실용적 유용성이 감소했음을 강조했습니다. 자료로 "Download The Subtle Art of Not Giving a Fck of Not Giving a Fck"와 "Download Humanity's Last Prompt Engineering Guide"를 포함하는 버먼은 예측 불가능한 맥락 처리가 전문 AI 개발에 있어 모델을 신뢰할 수 없게 만든다고 강조했습니다. 그는 Anthropic이 에이전트 코딩과 고급 비전의 개선을 선전했지만, 모델이 장기적인 상호 작용에서 일관된 이해를 유지할 수 없다면 이러한 기능들은 대체로 무의미해진다고 지적했습니다.

Berman의 발견은 온라인에서 확산되는 광범위한 사용자 정서와 깊이 공명합니다. 개발자 커뮤니티의 수많은 보고서는 일관성 없는 성능과 핵심 기능의 눈에 띄는 저하에 대한 그의 관찰을 뒷받침합니다. 숨겨진 비용 증가를 고려할 때 이러한 광범위한 불만은 더욱 심화됩니다. 새로운 tokenizer는 동일한 입력에 대해 실제 비용을 최대 35%까지 효과적으로 부풀려, 효율성 감소에 대한 좌절감을 가중시킵니다.

사용자 제어 'Extended Thinking' 토글의 제거는 Berman의 우려를 더욱 악화시켰으며, 투명성 부족과 사용자 주도권 상실을 시사합니다. 그의 라이브 teardown은 중요한 공개 감사 역할을 하여, Opus 4.7이 공식적인 주장에도 불구하고 많은 중요한 애플리케이션에 있어 상당한 퇴보를 의미한다는 서사를 굳혔습니다. Anthropic의 공식 발표 및 모델 액세스 방법에 대한 자세한 내용은 Anthropic releases Claude Opus 4.7: How to try it, benchmarks, safety | Mashable과 같은 자료를 참조할 수 있습니다.

좋은 코드가 나빠질 때

Opus 4.7의 지나치게 조심스러운 Claude Code에 대한 보고서가 빠르게 나타났으며, 무해한 코드 조각을 유해하다고 자주 표시했습니다. 이러한 공격적인 보안 태세는 Anthropic의 고급 agentic coding 약속에 의존하는 개발자들 사이에서 즉각적인 우려를 불러일으켰습니다. 모델의 과도한 경계는 도움이 되기보다는 방해가 되었습니다.

개발자들은 간단하고 무해한 코드가 경고를 유발하는 수많은 사례를 공유했습니다. 파일 처리를 위한 기본적인 Python 함수, 일반적인 유틸리티 스크립트 또는 심지어 표준 라이브러리 import조차도 완벽하게 안전함에도 불구하고 때때로 "악성 코드" 또는 "보안 위험" 경고를 받았습니다. 이는 답답하고 비효율적인 사용자 경험을 만들었습니다.

이러한 끊임없는 오탐(false positives)은 신뢰할 수 있는 코딩 보조 도구로서 Opus 4.7에 대한 개발자 신뢰를 심각하게 침식합니다. 각 잘못된 플래그는 수동 검토 및 재정의를 요구하여 효율적인 워크플로우를 방해하고 AI 코딩 도구가 제공해야 할 생산성 향상을 무효화합니다. 엔지니어는 지나치게 의심 많은 AI에 작업을 자신 있게 위임할 수 없습니다.

코드 무결성과 보안이 가장 중요한 기업 사용자에게 이러한 신뢰성 부족은 상당한 장벽이 됩니다. 무해한 코드를 자주 오인하는 모델을 통합하는 것은 용납할 수 없는 마찰과 중요한 개발 주기에서의 잠재적 지연을 초래합니다. 오탐의 비용은 어떠한 인지된 이점보다 빠르게 커집니다.

업계 전문가들은 Opus 4.7의 과민성이 안전 정렬 프로토콜에 대한 공격적인 업데이트에서 비롯된 것으로 추측합니다. Anthropic은 잠재적인 오용이나 유해 코드 생성을 방지하기 위해 안전 장치를 상당히 강화했을 수 있으며, 의도치 않게 과도한 주의를 기울이는 시스템을 만들었을 수 있습니다. 이러한 절충은 실용적인 유용성보다 안전을 우선시했습니다.

견고한 안전성과 실용적인 유용성의 균형을 맞추는 것은 모든 대규모 언어 모델 개발자에게 중요한 과제로 남아 있습니다. Opus 4.7의 코딩 문제는 진정으로 유해한 출력을 방지하는 것과 지나치게 제한적이고 조심스러운 접근 방식으로 합법적인 개발을 억압하는 것 사이의 미묘한 경계를 강조합니다. 현재 구현은 후자에 너무 치우쳐 있습니다.

Matthew Berman의 라이브 teardown은 이러한 상당한 코딩 문제를 관찰했을 가능성이 높으며, 그의 도발적인 "sucks" 평가에 또 다른 층을 더합니다. 모델이 안전한 코드와 안전하지 않은 코드를 정확하게 구별하지 못하는 능력은 그 가치를 떨어뜨리며, 특히 신뢰와 정밀성을 요구하는 자랑스러운 agentic coding 기능에 있어서 더욱 그렇습니다.

유령에 대한 벤치마킹

Anthropic이 출시되지 않은 'Mythos' 모델과 Opus 4.7을 벤치마킹하는 끈질긴 전술은 AI 커뮤니티를 점점 더 좌절시키고 있습니다. 끊임없이 지평선 너머에 있는 이 가상의 경쟁자는 실질적인 기준점이라기보다는 마케팅 유령에 가깝게 작용하여 사용자들과 개발자들 모두 그러한 비교의 관련성에 의문을 제기하게 만듭니다. 이 전략은 현재의 역량을 보여주는 것보다 Opus 4.7의 즉각적이고 관찰된 성능 문제로부터 의도적으로 주의를 분산시키는 것처럼 느껴집니다.

GPT-5.4 또는 Gemini 1.5 Pro와 같은 실제의 강력한 경쟁자들과 Opus 4.7의 역량을 시연하는 대신, Anthropic은 계속해서 미래의, 검증되지 않은 이상을 지적합니다. 이러한 관행은 중요한 실제 평가를 회피하여 기업과 개발자들이 Opus 4.7의 진정한 경쟁적 위치를 정확하게 평가하는 것을 극도로 어렵게 만듭니다. 공식적이고 투명한 데이터 없이는 현재 시장 리더들과의 객관적인 비교는 사실상 불가능해집니다.

이러한 마케팅 접근 방식은 적극적으로 신뢰를 침식합니다. 유령 모델과의 벤치마킹은 현재 경쟁에 정면으로 맞설 의지가 없거나, 어쩌면 Opus 4.7이 직접적이고 객관적인 비교에서 어려움을 겪고 있다는 암묵적인 인정일 수 있습니다. 이러한 전술은 잠재적 채택자들이 고위험 AI 통합에 필수적인 검증 가능하고 직접적인 성능 지표에 의존하기보다는 모델의 진정한 가치에 대해 추측하게 만듭니다.

업계는 더 많은 투명성과 책임감을 요구합니다. Anthropic은 Opus 4.7을 기존 시장 리더들과 공개적으로 벤치마킹하여 구매 및 개발 결정에 진정으로 도움이 되는 구체적이고 비교 가능한 데이터를 제공해야 합니다. 'Mythos' 신기루를 넘어서는 것은 커뮤니티의 신뢰를 재건하고, 모델이 내일 약속하는 것이 아니라 오늘 제공하는 것으로 평가받는 정직하고 경쟁적인 혁신 환경을 조성하는 데 중요합니다.

평결: Opus 4.7은 퇴보인가?

Anthropic의 Opus 4.7은 극명한 이분법을 보여줍니다: 광고된 발전과 문서화된 퇴보. Anthropic은 에이전트 코딩, 고급 비전 및 엔터프라이즈급 추론에서 상당한 발전을 선전했지만, 이 모델은 전반적인 유용성에 도전하는 중요한 문제점들도 도입했습니다. 이것은 단순한 업그레이드가 아니라, 역량의 복잡한 재우선순위화입니다.

Opus 4.7이 "형편없다"? 전적으로 그렇지는 않지만, 중요한 영역에서는 확실히 실망스럽습니다. Opus 4.6에서 78.3%였던 MRCR benchmark가 하락한 것으로 입증된 장문 맥락 검색 성능의 치명적인 하락은 많은 사용자에게 심각한 퇴보를 의미합니다. 또한, 새로운 토크나이저의 영향으로 유효 비용이 최대 35% 증가하여 예상치 못한 재정적 부담을 가중시킵니다.

사용자 제어 'Extended Thinking' 토글의 제거와 Claude Code가 오탐에 대해 지나치게 조심스럽다는 보고는 상황을 더욱 복잡하게 만듭니다. Matthew Berman의 라이브 티어다운과 커뮤니티 피드백은 이러한 문제들을 지속적으로 강조하며, 상당한 절충점을 가진 업그레이드의 모습을 그립니다.

사용자를 위한 권장 사항은 미묘합니다: - 업그레이드: Opus 4.7이 명확한 이점을 보이는 새로운 에이전트 코딩 및 고급 비전 기능을 우선시하는 개발자 또는 기업은 고려해야 합니다. - 대기: 장문 맥락 검색에 크게 의존하거나 증가된 유효 비용에 민감한 사용자는 보류해야 합니다. - 피하기: 워크플로우가 'Extended Thinking' 기능에 의존하거나 애플리케이션이 Claude Code의 보고된 주의사항에 심각하게 영향을 받는 경우, Opus 4.7은 다운그레이드일 수 있습니다.

AI의 발전은 선형적이지 않은 경우가 많습니다. Opus 4.7은 이러한 현실을 강조하며, 새로운 기능이 중요하고 때로는 설명할 수 없는 퇴보와 함께 나타날 수 있음을 보여줍니다. Opus 4.7은 Claude Opus 4.7 on Vertex AI | Google Cloud Blog를 포함한 다양한 플랫폼에서 일반적으로 사용할 수 있지만, 사용자들은 배포 전에 상당한 약점에 대비하여 특정 강점을 신중하게 평가해야 합니다. Anthropic이 미출시 'Mythos' 모델에 대해 지속적으로 벤치마킹하는 것은 현재 제공되는 제품의 진정한 상태에 대한 커뮤니티의 피로감과 불확실성을 가중시킬 뿐입니다.

기로에 선 Anthropic

Anthropic은 OpenAI 및 Google과 같은 경쟁자들이 공격적인 출시 주기를 추진하는 초경쟁적인 AI 환경을 헤쳐나가고 있습니다. 이러한 치열한 환경은 모든 실수를 증폭시키며, 회사가 혁신하는 동시에 신뢰성과 사용자 신뢰를 유지해야 하는 엄청난 압력을 가합니다. Opus 4.7은 이러한 미묘한 균형을 명백히 맞추지 못하여 치열한 경쟁 시장에서 입지를 위태롭게 했습니다.

에이전트 코딩 및 고급 비전 분야에서 약속된 발전은 핵심 기능에 영향을 미치는 충격적인 퇴보와 함께 나타났습니다. 장문 컨텍스트 검색을 위한 MRCR benchmark의 치명적인 하락은 발전이라는 서사와 직접적으로 모순되었습니다. 또한, 새로운 토크나이저는 동일한 입력에 대해 운영 비용을 최대 35%까지 효과적으로 증가시켜 기업 사용자 및 개발자에게 숨겨진 재정적 부담을 안겨주었습니다.

사용자 제어 "Extended Thinking" 토글을 제거하고 불투명한 "Adaptive Thinking" 기능으로 대체한 것은 사용자 신뢰를 더욱 약화시켰습니다. 이러한 변경은 세부적인 제어를 제한했으며, Opus 4.7의 Claude Code가 지나치게 조심스럽고 오탐에 취약하다는 보고에 기여했습니다. Anthropic이 미출시 "Mythos" 모델에 대해 지속적으로 벤치마킹하는 것에 대한 커뮤니티의 피로감은 또한 이상적인 비교보다는 투명성에 대한 증가하는 요구를 강조합니다.

신뢰를 되찾기 위해 Anthropic은 안정성과 투명성을 우선시해야 합니다. 특히 컨텍스트 실패와 숨겨진 비용 증가와 같은 핵심적인 퇴보를 해결하는 것이 가장 중요합니다. 모호한 벤치마크 대신 모델 동작에 대한 사용자 제어를 복원하고 명확하고 실행 가능한 로드맵을 제공하는 것은 사용자 기반에 대한 새로운 약속을 의미할 것입니다. 향후 릴리스는 실제 시나리오에서 가시적인 개선을 보여주어야 합니다.

이 사건은 전체 AI 산업에 대한 가혹한 교훈이 됩니다. 입증 가능하고 일관된 실제 성능이 흔들릴 때 마케팅 과대광고와 내부 벤치마크는 거의 의미가 없습니다. 개발의 투명성, 한계에 대한 솔직한 소통, 그리고 신뢰성에 대한 끊임없는 집중이 미래 역량에 대한 거창한 주장보다 선행되어야 합니다. Matthew Berman의 도발적인 제목인 "Seeing if Opus 4.7 sucks"는 불행히도 선견지명이 있었음이 입증되었으며, 꾸밈없는 진실에 대한 커뮤니티의 긴급한 요구를 강조합니다.

자주 묻는 질문

Claude Opus 4.7의 주요 새로운 기능은 무엇인가요?

Anthropic은 Opus 4.7이 에이전트 코딩에서 향상된 성능, 복잡한 문서를 분석하기 위한 훨씬 더 나은 비전 기능, 그리고 재무 분석과 같은 전문 작업에 대한 개선된 추론 능력을 가지고 있다고 주장합니다.

Opus 4.7의 가장 큰 비판점은 무엇인가요?

주요 비판점으로는 장문 컨텍스트 검색 성능의 심각한 하락, 비용을 최대 35%까지 증가시키는 새로운 토크나이저, 'Extended Thinking'과 같은 사용자 제어 기능 제거, 그리고 지나치게 민감한 코드 인터프리터가 있습니다.

Claude Opus 4.7으로 업그레이드해야 할까요?

사용 사례에 따라 다릅니다. 최첨단 비전 또는 에이전트 코딩이 필요한 경우 테스트해 볼 가치가 있습니다. 하지만 긴 컨텍스트 검색 또는 예측 가능한 비용에 의존한다면, 당분간 이전 버전이나 경쟁 제품을 고수하는 것이 좋습니다.

매튜 버먼은 누구인가요?

매튜 버먼은 'Forward Future' 브랜드의 AI 전문가이자 크리에이터입니다. 그는 새로운 AI 도구 및 모델에 대한 비판적이고 과장 없는 리뷰와 실용적인 가이드를 제공하는 것으로 알려져 있습니다.

𝕏 in ↑↗

One weekly email of tools worth shipping. No drip funnel.

one email per week · unsubscribe in two clicks · no third-party tracking

Anthropic의 AI 도박: Opus 4.7은 형편없을까?