AnthropicのAIギャンブル:Opus 4.7はひどいのか?

AnthropicはClaude Opus 4.7をリリースしたばかりで、神レベルのAI機能を約束している。しかし、Matthew Bermanのような一流の専門家は深刻な欠陥を明らかにしており、それが大規模な後退となる可能性がある。

Stork.AI
Hero image for: AnthropicのAIギャンブル:Opus 4.7はひどいのか?
💡

要約 / ポイント

AnthropicはClaude Opus 4.7をリリースしたばかりで、神レベルのAI機能を約束している。しかし、Matthew Bermanのような一流の専門家は深刻な欠陥を明らかにしており、それが大規模な後退となる可能性がある。

AIの世界が息をのむ

著名なAI専門家でありForward Futureの創設者であるMatthew Bermanは、言葉を濁さなかった。彼のYouTubeビデオ「Seeing if Opus 4.7 sucks [LIVE]」は、人工知能の進歩という既定の物語に異議を唱え、即座に挑発的なトーンを設定した。この直接的で遠慮のないアプローチは、Anthropicの最新フラッグシップモデルであるClaude Opus 4.7への期待で既に溢れていたコミュニティの注目を集めた。Bermanのタイトルだけでも、マーケティングの誇大宣伝を超えて実世界のパフォーマンスを精査する批判的な深掘りを示唆しており、「The Subtle Art of Not Being Replaced」や「Humanity's Last Prompt Engineering Guide」といった彼のリソースの感情を反映している。

AnthropicはClaude Opus 4.7を、印象的な1Mのコンテキストウィンドウを特徴とするハイブリッド推論の強力なモデルとして、これまでのOpusモデルの中で最も高性能なものと位置付けた。2026年4月16日にリリースされたこのモデルは、大きな期待とともに登場した。業界は、特に次のような分野でのAI機能の決定的な飛躍を期待していた: - エージェントコーディング - 高度な画像処理 - 複雑な多段階推論

個人開発者から大企業ユーザーまで、AIコミュニティはOpus 4.7を心待ちにしていた。主要プラットフォームでの幅広い利用可能性は、広範な統合を約束した: - Claude Pro、Max、Team、Enterpriseユーザー - Claude Platform APIを介した開発者 - Amazon Bedrock、Google CloudのVertex AI、Microsoft Foundryでの統合 - GitHub Copilotでの展開

開発者はより野心的なプロジェクトに取り組むための堅牢なツールを望み、企業は効率向上と革新的なソリューションを求めており、100万入力トークンあたり5ドル、100万出力トークンあたり25ドルというモデルの基本価格を正当化していた。しかし、更新されたトークナイザーは、同じ入力に対して実質的なコストを最大35%増加させる可能性があり、さらなる精査の層を加えている。

公式の主張と初期の興奮の裏で、Opus 4.7は約束を果たしたのか、それともAnthropicはつまずいたのか、という重要な疑問がくすぶっていた。謳われた改善にもかかわらず、Berman氏を含む噂や専門家の分析は、潜在的な退行を示唆していた。報告によると、長文コンテキスト検索パフォーマンスが大幅に低下し、MRCRベンチマークはOpus 4.6の78.3%から低下したとされている。コミュニティは答えを待っていた:これはAnthropicにとって革新的な飛躍なのか、それともフロンティアAIモデルへの期待を再定義する可能性のある重大な誤りなのか?

Anthropicが約束したもの:新たなフロンティア

イラスト:Anthropicが約束したもの:新たなフロンティア
イラスト:Anthropicが約束したもの:新たなフロンティア

Anthropicは2026年4月16日にClaude Opus 4.7を正式に発表し、これをこれまでで最も高性能で野心的なモデルと位置付けた。同社はこの新しいイテレーションを、強化されたエージェントコーディング、高度なビジョン機能、堅牢なエンタープライズグレードの推論という3つの主要な柱に基づいて構築された、大きな飛躍として提示した。このリリースは、自律型AIが達成できることの境界線を再定義し、その性能に対する高い期待を設定することを目的としていた。

AnthropicのOpus 4.7に対する主張は特に大胆で、洗練された多段階の課題に取り組む能力に焦点を当てていました。彼らは、このモデルが高レベルの指示から複雑なソフトウェアを自律的に構築できると主張し、より独立したAI agentsへの重要な一歩を示しました。さらに、その高度なビジョンにより、高解像度のドキュメントや複雑な視覚データの分析が可能になり、多様な形式からのより深い理解と洞察の抽出を促進しました。モデルの1M context windowはこれらの機能を支え、膨大な量の情報を処理し、推論することを可能にしました。

広範な利用可能性は、Anthropicにとって別の戦略的な動きとなりました。Opus 4.7は、Claude Pro、Max、Team、およびEnterpriseの購読者を含む幅広いユーザーに一般的に利用可能になりました。開発者や大規模組織向けには、Anthropicは複数のプラットフォームを通じてシームレスな統合を保証しました。 - The Claude Platform API - Amazon Bedrock - Google Cloud's Vertex AI - Microsoft Foundry この広範な展開戦略は、AnthropicがOpus 4.7を既存のAIエコシステムに深く組み込み、開発と展開のための遍在するツールにする意図を強調しました。GitHub Copilotでの展開は、開発者のワークフローにおけるその存在感をさらに強固なものにしました。

AnthropicのOpus 4.7に対するマーケティング言語は、断固として積極的であり、LLM分野の主要な競合他社に対して直接モデルを位置づけました。同社は、Opus 4.7の複雑なマルチモーダルタスクにおける優れたパフォーマンスと、「enterprise-grade」という名称を強調し、高い信頼性と精度を必要とする重要なビジネスアプリケーションへの適合性を示しました。この戦略的なメッセージングは、高価値のエンタープライズ市場を獲得することを目的とし、モデルの複雑な問題解決能力と堅牢な展開を強調しました。

Opus 4.7の価格構造は、そのプレミアムな位置付けを反映していました。Anthropicは、基本コストを100万入力トークンあたり5ドル、100万出力トークンあたり25ドルに設定しました。しかし、見過ごされがちな重要な詳細として、更新されたtokenizerの影響がありました。これにより、同じ入力ボリュームを処理する場合、実質的なコストが最大35%増加する可能性がありました。このコストの考慮は、大規模な展開を計画している組織にとって重要な要素となり、モデルの全体的な価値提案に別の層を追加しました。

部屋の中の象:コンテキストの失敗

AnthropicのOpus 4.7は、あらゆる高度なAIにとって基礎的な能力である長文コンテキスト検索において、最も憂慮すべき退行に直面しています。ベンチマークは、平均逆数順位 (MRCR)の壊滅的な低下を示しており、以前のOpus 4.6の78.3%から悲惨な32.2%に急落しました。これはわずかなパフォーマンスの低下ではありません。広範な複数ページの入力から情報を処理し、正確に想起するモデルの能力が深刻に劣化していることを示しています。

MRCRは、AIモデルが広大なテキストの「干し草の山」の中から特定の情報の「針」をどれだけ効果的に見つけられるかを定量化する重要な指標です。MRCRが高いほど、モデルが正しい答えを迅速に、しばしば最初の提案の上位で特定することを示し、堅牢なコンテキスト理解を意味します。32.2%への急落は、Opus 4.7が重要な詳細を特定できないか、出力の奥深くに埋もれさせてしまい、実質的にアクセス不能になることが頻繁にあることを意味します。これにより、その広範な1M context windowの有用性が著しく損なわれ、複雑なドキュメント分析には信頼できないものとなっています。

干し草の山から針を見つける」ようなシナリオにおけるこの深刻な失敗は、Anthropicが宣伝していた多くのエンタープライズグレードのアプリケーションを損なうものです。大規模なデータセットから正確かつタイムリーな情報に依存する専門家にとっての実用的な影響を考えてみましょう。 - 広範な科学文献、判例、または歴史的アーカイブから調査結果を統合しようとする研究者。彼らは、モデルが重要な事実や反論を正確に特定することを信頼できません。 - 広大なコードベースをナビゲートし、複雑なシステムをデバッグし、または膨大なAPIドキュメントを解釈する開発者。モデルは、重要な関数定義や不明瞭なエラーメッセージを見落とす可能性があります。 - 何百ページにもわたる包括的なレポートから、正確なデータポイント、トレンド、または規制条項を抽出する必要がある金融および市場アナリスト。単一の数字を見落とすことが、重大なエラーにつながる可能性があります。

これらのユーザーにとって、Opus 4.7が特定の事実を確実に想起できないことは、その有用性を著しく低下させ、さらには逆効果にさえなります。モデルは、理解すべきコンテキスト内に埋め込まれた重要な情報を事実上「忘れ」たり見落としたりし、その大きなコンテキストウィンドウを資産ではなく負債に変えてしまいます。

Anthropicは、Opus 4.7を、エージェントコーディング、高度なビジョン、洗練されたエンタープライズグレードの推論における進歩を誇る優れたモデルとして宣伝していました。したがって、このような基本的な能力の劇的な劣化は、その開発とテストに関して即座に深刻な疑問を投げかけます。より高性能であるとされるモデルが、特にその宣伝された強みに不可欠な中核機能において、これほど深刻で直感に反する後退を示すことができたのでしょうか?この明白な見落としは、進歩という物語に直接矛盾し、モデル全体の信頼性に暗い影を落とします。モデルの発表された機能の詳細については、Anthropicの公式リリースを参照してください:Introducing Claude Opus 4.7 - Anthropic

予期せぬコスト

AnthropicのOpus 4.7は、宣伝されていない財政的影響を伴って登場し、API使用状況を監視している開発者にはすぐに明らかになりました。新しい、より冗長なトークナイザーは、同一の入力テキストに対するトークン数を大幅に膨らませ、実質的に実際のコストを最大35%増加させます。公開されている料金は入力トークン100万あたり5ドル、出力トークン100万あたり25ドルですが、この舞台裏での変更は、開発者が同じ計算作業に対してかなりの追加料金を支払うことを意味し、すべてのインタラクションに隠れた追加料金を生み出しています。

この財政的な不透明性をさらに悪化させることに、Anthropicは不可解にも思考トークンに関する透明性を排除しました。以前のOpusのイテレーションでは、内部処理ステップに関する重要な洞察が提供され、開発者はAPI消費をより正確に予測し管理することができました。この突然の可視性の欠如は、現在、エンジニアが暗闇の中で作業することを余儀なくさせ、費用を正確に予測し、複雑なプロンプトエンジニアリング戦略を最適化する能力を妨げています。

この新しいコストパラダイムは、Opus 4.7の、その前身であるOpus 4.6および競合モデルに対する競争上の地位を根本的に変化させます。Opus 4.6は、予算を重視するエンタープライズ展開にとって重要な、より予測可能なコストモデルを提供していました。現在、Anthropicのフラッグシップモデルは、開発者が同等の機能に対してより明確な料金体系を見つけることが多いOpenAIやGoogleの提供物と比較して、透明性が低く、潜在的にはるかに高価な提案となっています。

重要な疑問は残ります。Opus 4.7が謳う性能向上は、この増加し、予測しにくい支出を本当に正当化するのでしょうか?Anthropicは、agentic coding、advanced vision、およびenterprise-grade reasoningにおける進歩を主要なセールスポイントとして強調しています。しかし、これらの改善は、より高い実質価格と、MRCR benchmarkによって示されるように、モデルのlong-context retrievalにおける憂慮すべき退行と比較検討される必要があります。多くの開発者にとって、価値提案はかなり不明瞭になり、AI投資戦略の慎重な再評価が求められます。

「Adaptive Thinking」:機能か、それとも欠陥か?

イラスト:「Adaptive Thinking」:機能か、それとも欠陥か?
イラスト:「Adaptive Thinking」:機能か、それとも欠陥か?

Anthropicは、以前はユーザーにClaude Opusの推論深度に対するきめ細かな制御を可能にしていた重要な機能であるExtended Thinkingトグルを物議を醸しながら削除しました。このユーザー制御メカニズムにより、専門家は複雑な問題解決においてモデルを明示的にガイドし、高リスクのアプリケーションにおいて徹底性を確保することができました。その消失は、ユーザーがモデルの認知プロセスとどのように相互作用するかに大きな変化をもたらします。

この明示的な制御に代わるのが、ユーザー入力や透明性なしに動作する自律的な機能であるAdaptive Thinkingです。Anthropicは、この新しいシステムがどのように機能するのか、いつアクティブになるのか、どのようなパラメータを考慮するのかについてほとんど説明していません。ユーザーは今やブラックボックスに直面しており、モデルの内部的な熟考段階に影響を与えたり、理解したりすることさえできません。

agentic codingやenterprise-grade reasoningのような複雑な多段階タスクでは、モデルの思考プロセスを指示する能力は不可欠であることが証明されています。この直接的なuser controlを失うことは、重大なダウングレードのように感じられ、重要なワークフローに不可欠な予測可能性と信頼性を損ないます。この変更により、ユーザーは不透明な自動化システムに主体性を譲り渡すことを余儀なくされます。

ユーザーからのフィードバックは、貴重なツールの喪失に対する広範な不満をすぐに浮き彫りにしました。多くの専門家は、表面的な応答を防ぎ、包括的な分析を確実にするために「Extended Thinking」トグルに依存していました。制御不能な「Adaptive Thinking」システムへの移行は、多くの人に無力感を与え、高度なAIインタラクションにおけるユーザーの主体性に対するAnthropicのコミットメントを疑問視させています。

Matthew Bermanのライブ分解

Matthew Bermanのライブストリームは、「Opus 4.7がひどいかどうか見てみよう」という挑発的なタイトルで、Anthropicの最新のフラッグシップモデルの厳しく現実的な評価を提供しました。prompt engineersやAIビルダーにとって影響力のある声として、Bermanの分解は、Anthropicの約束とOpus 4.7の実際のパフォーマンスとの間の重大な矛盾をすぐに明らかにしました。彼の厳格なテストは、モデルの退行の具体的な証拠を提供しました。

Bermanのライブデモンストレーションは、Opus 4.7がlong-context retrievalに苦戦していることを繰り返し露呈し、MRCR benchmarkにおける憂慮すべき低下を反映していました。彼は、モデルが会話の初期の情報から幻覚を見たり、完全に情報を思い出せなかったりする特定のプロンプトを提示しました。これは、その前身であるOpus 4.6がはるかに高い信頼性で処理していたタスクです。これは、複雑な多段階操作に対する「enterprise-grade reasoning」の主張を直接的に損なうものでした。

彼の専門家の意見は、Opus 4.7の聴衆にとってのpractical utilityの低下を浮き彫りにしました。Bermanは、「Download The Subtle Art of Not Giving a F*ck of Not Giving a F*ck」や「Download Humanity's Last Prompt Engineering Guide」などのリソースを持つ人物ですが、予測不可能なコンテキスト処理が、プロのAI開発にとってモデルを信頼できないものにしていると強調しました。彼は、Anthropicがagentic codingとadvanced visionの改善を謳っている一方で、モデルが長時間のインタラクションにわたって首尾一貫した理解を維持できない場合、これらの機能はほとんど無関係になることを指摘しました。

バーマン氏の発見は、オンラインで渦巻く広範なユーザー感情と深く共鳴しています。開発者コミュニティからの多数の報告が、彼の指摘する一貫性のないパフォーマンスと中核機能の著しい劣化を裏付けています。この広範な不満は、隠れたコスト増加によってさらに強まっています。新しいトークナイザーは、同一の入力に対して実質的な費用を最大35%も膨らませ、効果の低下に対する不満をさらに募らせています。

ユーザーが制御できる「Extended Thinking」トグルの削除は、バーマン氏の懸念をさらに悪化させ、透明性とユーザーの主体性の欠如を示唆しています。彼のライブティアダウンは重要な公開監査として機能し、Opus 4.7が公式の主張にもかかわらず、多くの重要なアプリケーションにとって大きな後退であることを裏付けるものとなりました。Anthropicの公式発表とモデルへのアクセス方法に関する詳細については、Anthropic releases Claude Opus 4.7: How to try it, benchmarks, safety | Mashableなどのリソースを参照してください。

良いコードが悪くなるとき

Opus 4.7の過度に慎重なClaude Codeが、無害なスニペットを有害であると頻繁にフラグ付けしているという報告がすぐに浮上しました。この攻撃的なセキュリティ態勢は、Anthropicの高度なagentic codingの約束に依存していた開発者の間で即座に懸念を引き起こしました。モデルの過剰な警戒は、助けになるどころか、むしろ障害となりました。

開発者たちは、単純で無害なコードがアラートをトリガーする数多くの事例を共有しました。ファイル処理のための基本的なPython関数、一般的なユーティリティスクリプト、あるいは標準ライブラリのインポートでさえ、完全に安全であるにもかかわらず、「マルウェア」または「セキュリティリスク」の警告を受けることがありました。これは、フラストレーションのたまる非効率なユーザーエクスペリエンスを生み出しました。

この絶え間ない誤検知の発生は、信頼できるコーディングアシスタントとしてのOpus 4.7に対する開発者の信頼を著しく損なっています。誤ったフラグが立つたびに手動でのレビューと上書きが必要となり、効率的なワークフローを妨げ、AIコーディングツールが提供するはずの生産性向上を打ち消しています。エンジニアは、過度に疑り深いAIに自信を持ってタスクを委任することはできません。

コードの整合性とセキュリティが最重要視されるエンタープライズユーザーにとって、この信頼性の欠如は大きな障壁となります。無害なコードを頻繁に誤認識するモデルを統合することは、許容できない摩擦と、重要な開発サイクルにおける潜在的な遅延を引き起こします。誤警報のコストは、認識されているいかなる利益をもすぐに上回ります。

業界の専門家は、Opus 4.7の過敏性が、その安全性アライメントプロトコルへの積極的な更新に起因していると推測しています。Anthropicは、潜在的な悪用や有害なコードの生成を防ぐためにガードレールを大幅に強化した可能性があり、意図せず過度な注意を払うシステムを作り出してしまったのかもしれません。このトレードオフは、実用性よりも安全性を優先したものです。

堅牢な安全性と実用性のバランスを取ることは、すべての大規模言語モデル開発者にとって依然として重要な課題です。Opus 4.7のコーディング問題は、真に有害な出力を防ぐことと、過度に制限的で慎重なアプローチによって正当な開発を阻害することとの間の微妙な境界線を浮き彫りにしています。現在の実装は、後者に偏りすぎています。

Matthew Berman氏のライブティアダウンは、これらの重大なコーディングの苦戦を観察した可能性が高く、彼の挑発的な「sucks」という評価に別の側面を加えています。モデルが安全なコードと安全でないコードを正確に識別できないことは、その価値を低下させ、特に信頼と精度を必要とするその自慢のagentic coding機能にとっては致命的です。

幽霊とのベンチマーク

図:幽霊とのベンチマーク
図:幽霊とのベンチマーク

Anthropicの未公開モデル「Mythos」に対するOpus 4.7のベンチマークという執拗な戦術は、AIコミュニティをますます苛立たせている。この仮説上の競合は、常に地平線上にあるものの、具体的な評価基準というよりもマーケティング上の幻影として機能しており、ユーザーも開発者も同様に、そのような比較の妥当性に疑問を抱いている。この戦略は、現在の実力を示すというよりも、Opus 4.7の差し迫った、観察されているパフォーマンス課題から意図的に目をそらすもののように感じられる。

Anthropicは、GPT-5.4やGemini 1.5 Proのような実際の強力なライバルに対してOpus 4.7の能力を実証する代わりに、常に将来の未検証の理想を指し示している。この慣行は、重要な実世界での評価を回避し、企業や開発者がOpus 4.7の真の競争力を正確に評価することを極めて困難にしている。公式で透明性のあるデータがなければ、利用可能な市場リーダーとの客観的な比較は事実上不可能となる。

このマーケティングアプローチは積極的に信頼を損なう。ゴーストモデルに対するベンチマークは、現在の競争に正面から向き合うことをためらっているか、あるいはOpus 4.7が直接的かつ客観的な比較で苦戦しているという暗黙の承認を示唆している。このような戦術は、潜在的な採用者にモデルの真の価値について推測させることになり、高リスクのAI統合に不可欠な検証可能な直接比較のパフォーマンス指標に依拠させることを妨げる。

業界はより高い透明性と説明責任を求めている。Anthropicは、Opus 4.7を既存の市場リーダーに対して公然とベンチマークし、購入および開発の意思決定に真に役立つ具体的で比較可能なデータを提供する必要がある。「Mythos」という蜃気楼を超えていくことは、コミュニティの信頼を再構築し、モデルが明日約束するものではなく、今日提供するもので評価される正直で競争力のあるイノベーションの環境を育む上で極めて重要である。

評決:Opus 4.7は後退か?

AnthropicのOpus 4.7は、宣伝された進歩と記録された退行という明確な二面性を示している。Anthropicはエージェントコーディング、高度なビジョン、エンタープライズグレードの推論において大きな進歩を謳ったが、このモデルは全体的な有用性を損なう重大な後退ももたらした。これは単純なアップグレードではなく、機能の複雑な再優先順位付けである。

Opus 4.7は「ひどい」のか?完全にそうとは言えないが、重要な領域で確かに期待を裏切る。Opus 4.6でのMRCRベンチマークが78.3%から低下したことによって示される、long-context retrievalパフォーマンスの壊滅的な低下は、多くのユーザーにとって深刻な退行を意味する。さらに、新しいトークナイザーの影響により、実質的なコストが最大35%増加し、予期せぬ財政的負担が加わっている。

ユーザーが制御する「Extended Thinking」トグルの削除と、Claude Codeが誤検知に対して過度に慎重であるという報告は、状況をさらに複雑にしている。Matthew Bermanのライブ分解とコミュニティのフィードバックは、これらの問題を一貫して浮き彫りにしており、大きなトレードオフを伴うアップグレードの姿を描いている。

ユーザーへの推奨事項は微妙である: - アップグレード: Opus 4.7が明らかな進歩を示している新しいエージェントコーディングや高度なビジョン機能を優先する開発者や企業は、検討すべきである。 - 待機: long-context retrievalに大きく依存しているユーザーや、実質的なコスト増加に敏感なユーザーは、見送るべきである。 - 回避: ワークフローが「Extended Thinking」機能に依存している場合、またはアプリケーションがClaude Codeの報告されている慎重さによって重大な影響を受ける場合、Opus 4.7はダウングレードとなる可能性がある。

AIの進歩は直線的であることは稀です。Opus 4.7はこの現実を浮き彫りにし、新機能が重要な、そして時には説明のつかない退行とともに登場する可能性があることを示しています。Opus 4.7は、Claude Opus 4.7 on Vertex AI | Google Cloud Blogを含む様々なプラットフォームで一般提供されていますが、ユーザーは展開前にその特定の強みをそのかなりの弱点と慎重に比較評価する必要があります。Anthropicが未リリースの「Mythos」モデルに対して継続的にベンチマークを行っていることは、現在の提供物の真の状態に関するコミュニティの疲労と不確実性を増すばかりです。

岐路に立つAnthropic

Anthropicは、OpenAIやGoogleのような競合他社が積極的なリリースサイクルを推進する、超競争的なAIの状況を乗り切っています。この激しい環境は、あらゆる誤りを増幅させ、信頼性とユーザーの信頼を維持しながら革新するという、企業に多大なプレッシャーをかけています。これはOpus 4.7が明らかに達成できなかったデリケートなバランスであり、激しく競争の激しい市場での地位を危険にさらしています。

エージェント的コーディングと高度なビジョンにおける約束された進歩は、コア機能に影響を与える憂慮すべき退行とともに現れました。長文コンテキスト検索におけるMRCR benchmarkの壊滅的な低下は、進歩の物語と直接矛盾しました。さらに、新しいtokenizerは、同じ入力に対して運用コストを最大35%増加させ、企業ユーザーや開発者にとって隠れた財政的負担を生み出しました。

ユーザーが制御する「Extended Thinking」トグルを削除し、不透明な「Adaptive Thinking」機能に置き換えたことは、ユーザーの信頼をさらに損ないました。この変更は、きめ細やかな制御を制限し、Opus 4.7上のClaude Codeが過度に慎重で誤検知を起こしやすいという報告の一因となりました。Anthropicが未リリースの「Mythos」モデルに対して一貫してベンチマークを行っていることに対するコミュニティの疲労も、願望的な比較よりも透明性を求める声が高まっていることを浮き彫りにしています。

信頼を取り戻すために、Anthropicは安定性と透明性を優先する必要があります。特にコンテキストの失敗と隠れたコスト増加という、核となる退行に対処することが最も重要です。モデルの動作に対するユーザー制御を復活させ、曖昧なベンチマークではなく、明確で実用的なロードマップを提供することは、ユーザーベースへの新たなコミットメントを示すでしょう。将来のリリースでは、現実世界のシナリオで具体的な改善を示す必要があります。

この出来事は、AI業界全体にとって厳しい教訓となります。実証可能で一貫した現実世界でのパフォーマンスが揺らぐとき、マーケティングの誇大宣伝や内部ベンチマークはほとんど意味をなしません。開発における透明性、限界に関する正直なコミュニケーション、そして信頼性への絶え間ない集中が、将来の能力に関する壮大な主張に先行しなければなりません。Matthew Bermanの挑発的なタイトル「Seeing if Opus 4.7 sucks」は、残念ながら先見の明があることが証明され、コミュニティが率直な真実を緊急に求めていることを浮き彫りにしました。

よくある質問

Claude Opus 4.7の主な新機能は何ですか?

Anthropicは、Opus 4.7がエージェント的コーディングのパフォーマンスを向上させ、複雑なドキュメントを分析するための大幅に優れたvision機能、および財務分析のような専門的なタスクのための推論能力を改善したと主張しています。

Opus 4.7に対する最大の批判は何ですか?

主な批判には、長文コンテキスト検索パフォーマンスの深刻な低下、コストを最大35%増加させる新しいtokenizer、「Extended Thinking」のようなユーザー制御の削除、および過度に敏感なcode interpreterが含まれます。

Claude Opus 4.7にアップグレードすべきですか?

ユースケースによります。最先端のビジョンやエージェントコーディングが必要な場合は、試す価値があるかもしれません。しかし、長文のコンテキスト検索や予測可能なコストを重視するなら、今のところ以前のバージョンや競合他社にとどまる方が良いでしょう。

Matthew Bermanとは誰ですか?

Matthew Bermanは、AIの専門家であり、「Forward Future」ブランドの生みの親です。彼は、新しいAIツールやモデルに関する批判的で誇張のないレビューと実用的なガイドを提供することで知られています。

🚀もっと見る

AI最前線をキャッチアップ

Stork.AIが厳選したAIツール、エージェント、MCPサーバーをご覧ください。

すべての記事に戻る