要約 / ポイント
最高のAIコーダーが昇給した
Anthropicの最新フラッグシップモデルであるOpus 4.7は、開発者やクリエイターにとって強力なアップグレードとして登場し、AI機能の大幅な飛躍を約束します。2026年4月16日にリリースされたこのイテレーションは、Claude体験を真に向上させ、コード生成や視覚理解といった重要な分野で限界を押し広げています。その登場により、急速に進化するAI業界において、すぐにトップティアの競争相手としての地位を確立しました。
印象的なパフォーマンス向上にもかかわらず、Opus 4.7には開発者が対処しなければならない隠れたコストが伴います。Anthropicはトークンあたりの価格を一定に保っていますが、更新されたトークナイザーと新しいデフォルト設定により、同じ入力プロンプトが実際には大幅に多くのトークンを消費する可能性があり、運用コストの増加につながります。この微妙な変化は、当初は無料のパフォーマンス向上に見えるものに「秘密の税金」を導入します。
Opus 4.7は、コーディングベンチマークの大幅な改善を示しています。SWE-bench Proにおいて、前身のOpus 4.6を10%上回り、驚異的な64.3%を達成しました。SWE-bench Verifiedでは、モデルは87.6%を記録し、7%の向上を反映しています。これらの数値は、複雑なコード推論、システムエンジニアリング、および長期間にわたる自律タスクのための優れたツールとしての地位を確固たるものにしています。
コーディングを超えて、Opus 4.7はマルチモーダルサポートを劇的に向上させます。このモデルは、最長辺で最大2,576ピクセル、約3.75メガピクセル(以前のモデルの3倍の解像度)の入力に対応し、より高解像度の画像を処理できるようになりました。この強化により、複雑なドキュメントやチャートからのデータ抽出、およびレスポンシブなカフェウェブサイトを作成する最近のテストで示されたように、より「上品で創造的な」UIデザインの生成といったタスクが大幅に改善されます。
トークン消費量の増加は、主に2つの変更に起因します。更新されたトークナイザーは、同じ入力コンテンツをデータタイプに応じて約1.0から1.35倍多くのトークンにマッピングします。さらに、Opus 4.7はより高い努力レベルで「より多く考える」ようになり、これはClaude Codeのデフォルトの動作であり、すべてのプランで新しい`xhigh`努力レベルが有効になっています。このより深い推論は信頼性を向上させますが、必然的に多くの出力トークンを消費し、コストに直接影響を与えます。
コードを打ち破り、事実につまずく?
Opus 4.7は、コード生成と問題解決において真に優れており、その前身と比較して堅牢な進歩を示しています。このモデルはSWE-bench Proで10%の飛躍を達成し、驚異的な64.3%の精度に達し、Opus 4.6を大幅に上回りました。この大幅な改善により、Opus 4.7は複雑なソフトウェアエンジニアリングの課題に取り組む開発者にとって強力なツールとしての地位を確立しています。
コーディングにおける優位性をさらに確固たるものにするため、Opus 4.7はSWE-bench Verifiedでも7%の向上を記録し、87.6%のスコアを達成しました。これらのベンチマークでの勝利は、Anthropicがモデルの長期間にわたる自律性、システムエンジニアリング、および複雑なコード推論タスクを処理する能力を強化することへのコミットメントを強調しています。
逆説的に、これらのコーディングの成功は、サイバーセキュリティスコアの不可解な低下と同時に現れています。Anthropic自身のベンチマークは、この分野でわずかな低下を示しており、これはOpus 4.7に実装された新しい厳格な保護策の意図的な結果です。同社は、禁止されている、または高リスクのサイバーセキュリティ使用を示すリクエストをブロックするために、これらの強化されたサイバー保護を意図的に構築しました。
この戦略的な選択は、モデルがサイバーセキュリティのパフォーマンスを、本来達成できるはずのレベルよりも意図的に低く保つことを意味します。Anthropicはこれらの相互作用から学び、未リリースのMythos-classのような、より強力でありながら安全な将来のモデルの開発に役立てることを目指しており、生の能力と責任あるAI設計との間の緊張を浮き彫りにしています。
そのプログラミング能力にもかかわらず、Opus 4.7は、多くの高度なAIアプリケーションにとって重要な能力である長文コンテキスト理解において、懸念される退行を抱えています。内部の「干し草の山から針を探す」評価では、Opus 4.6と比較して、長文コンテキストパフォーマンスが劇的に「急降下」したと報告されています。これは、Opus 4.7が膨大なテキストの奥深くに埋もれた特定の情報を検索するのに、より苦労することを示唆しています。
この予期せぬ低下は、広範なドキュメントの処理、長時間の会話の要約、または長期間にわたる複数セッションのタスクでの一貫性の維持において、モデルの信頼性について重大な疑問を投げかけます。Claudeの深い文脈認識に依存しているユーザーにとって、この潜在的な劣化は実際の使用に深刻な影響を与える可能性があります。
古いプロンプトに別れを告げましょう
Opus 4.7は、指示の解釈において根本的に異なるアプローチを導入しており、確立されたプロンプト戦略の完全な再評価を要求します。以前のClaudeモデルが指示を緩やかに解釈したり、強調されていない部分をスキップしたりすることが多かったのとは異なり、Opus 4.7は比類のない文字通りの解釈と精度を実現するように設計されています。この根本的な変化は、モデルが提供されたすべての指示に厳密に従い、ユーザーがモデルとどのように対話すべきかを根本的に変える正確さでコマンドを実行することを意味します。
古い、より寛容なモデル向けに設計されたプロンプトを使用するユーザーは、予期せぬ、または過度に文字通りの出力に遭遇する可能性が非常に高いでしょう。以前のバージョンが意図を推測したり、特定の指示を他の指示よりも優先したりしたかもしれないのに対し、Opus 4.7はプロンプトのすべての部分を等しい重みで実行します。これは、その新たな厳密さを考慮してプロンプトが綿密に作成されていない場合、望ましくない結果につながる可能性があり、複雑なワークフローを台無しにし、かなりのデバッグを要求する可能性があります。
この重要な変更は、既存のプロンプトライブラリの包括的な監査と再評価を必要とします。開発者とクリエイターは、曖昧さを排除し、すべての指示が明確かつ意図的であることを確認するために、プロンプトを綿密に洗練させる必要があります。この正確なパラダイムに適応することは、単なる選択肢ではなく、特に多段階の指示への厳密な遵守が最も重要となる複雑なコーディングやエージェントタスクにおいて、Opus 4.7の強化された能力を最大限に活用するための要件です。
モデルの改善された指示追従能力を活用するということは、プロンプトエンジニアリングに対してより規律あるアプローチを採用することを意味します。しかし、その見返りとして、入力がその文字通りの解釈と一致していれば、非常に正確で予測可能な結果を提供できるモデルが得られます。プロンプトの洗練へのこの投資は、Opus 4.7の真の可能性を解き放ち、複雑なタスクのためのより信頼性が高く強力なツールへと変貌させるでしょう。広範なプロンプトの刷新を計画している方にとって、最新のトークン化と料金体系を理解することは不可欠です。詳細については、AnthropicのModel Pricing | Anthropicページを参照してください。
あなたが今支払っている35%の「トークナイザー税」
Opus 4.7は、Anthropicの主力モデルがテキストを処理する方法に根本的な変化をもたらし、開発者やパワーユーザーの運用コストに直接影響を与えます。Anthropicは、AIが理解するために入力テキストを個別の単位に分解する内部メカニズムであるモデルのトークナイザーを更新しました。この技術的な調整は、内部処理を改善する一方で、ユーザーにとって大きな金銭的影響を伴います。
以前は、特定の input prompt は API 請求のために予測可能な数の tokens にマッピングされていました。Opus 4.7 では、まったく同じ input がコンテンツタイプに応じて1.0倍から1.35倍のtokensにマッピングされるようになりました。Anthropic が元の per-token 料金を維持しているにもかかわらず、ユーザーは実質的に同じ情報に対してより多く支払うことになります。この token 消費量の増加は、すべての API 呼び出しに対する陰湿な「tokenizer tax」として機能し、運用費用を静かに膨らませます。
複雑なコーディングタスクに Opus 4.7 を使用する API 開発者の実例を考えてみましょう。以前 Opus 4.6 で 100万 tokens あたり $15.00 という Anthropic の input 価格で 1,000 tokens を消費していた input prompt は、$0.015 の費用がかかっていました。これは簡単な計算でした。
新しい tokenizer では、同じ 1,000-token の input が Opus 4.7 では最大 1,350 tokens に変換される可能性があります。これは、まったく同じ prompt に対して $0.02025 という新しい input コストに直接つながり、tokenizer の変更のみによって支出が35%も大幅に増加します。この「tax」は、Opus 4.7 がより高い effort level で「より多く考える」傾向があることを考慮する前にも適用され、これにより全体の token 消費量がさらに膨らみます。
開発者は、これらの高騰するコストを軽減するために、token 数を綿密に監視し、prompting 戦略を調整する必要があります。tokenizer への一見些細な技術的アップデートは、予算予測と prompt 最適化の完全な再評価を要求し、強力なアップグレードをより高価な提案に変えてしまいます。予測可能な token 使用は終わり、慎重なコスト管理の時代が到来しました。
あなたの AI は(デフォルトで)残業しています
Opus 4.7 は、`high` と `max` の推論設定の間に位置する新しい `xhigh` effort level を導入します。この追加により、開発者はモデルの処理をより細かく制御できるようになり、より深い計算思考と応答レイテンシのバランスを取ることができます。これらのより高い effort level では、Opus 4.7 は特に agentic settings の後のターンで「より多く考え」、複雑で困難な問題に対する信頼性を大幅に向上させます。
この強化された推論には、重要でありながらしばしば隠されたコストが伴います。Anthropic は、すべてのプランで Claude Code の extra high effort level を デフォルト に設定しました。ユーザーの介入なしに、Opus 4.7 はデフォルトで残業しており、ユーザーが prompt に対して予想するよりも大幅に多くの tokens を消費しています。この変更は、モデルの冗長性が増加するため、以前議論した「Tokenizer Tax」に直接貢献します。
これをより明確にするために、Opus 4.7 の新しい `extra high` effort level は、Opus 4.6 の *max* effort level とほぼ同じ量の tokens を使用します。これは、Opus 4.6 の最高設定でのパフォーマンスに慣れているユーザーが、Opus 4.7 では日常的なタスクであっても、ベースラインとして同様の token 消費率を得ていることを意味します。このデフォルト設定は、運用コストに劇的な影響を与えます。
しかし、賢明な開発者は、この新しいコスト状況を戦略的に乗り切ることができます。専門家は、最適なバランスを見つけるためにさまざまな effort level をテストすることを強く推奨しています。重要な推奨事項は、Claude Code の デフォルト 設定を `extra high` ではなく `high` に変更することです。
この一見些細な調整は、大きな利益をもたらします。Opus 4.7 の `high` effort level は、Opus 4.6 の `max` effort level を実際に*上回り*、しかもより少ない tokens を使用します。この単一の構成変更を行うことで、ユーザーは前世代のピークと比較して優れたパフォーマンスを達成できるだけでなく、token 消費量とそれに対応するコストを大幅に削減できます。これは、出力品質と支出の両方を最適化するための明確な道筋を示します。
究極の UI Design Showdown
生のコーディング能力を超えて、AnthropicはOpus 4.7のUIデザイン能力の向上も宣伝しました。`index.html`ファイルのみを必要とする簡単な「カフェウェブサイト」テストでは、Opus 4.7がその前身であるOpus 4.6、そして競合のGemini 3.1およびGPT 5.4と対決しました。この実世界のシナリオは、モデルの創造性と、シンプルなコンセプトを視覚的に魅力的なウェブページに変換する能力を評価することを目的としていました。
Opus 4.7は「かなり良い」結果をもたらし、センスの良いフォントと適切に統合されたUnsplash画像を備えたレスポンシブなカフェウェブサイトを生成しました。そのデザインは本物のカフェの雰囲気を呼び起こし、Opus 4.6の出力からの明確な進歩を示しました。その前身は、魅力に欠けるグラデーション背景と全体的に洗練されていない美学を特徴とする、より未熟なバージョンを生成しており、Opus 4.7の改善は明白でした。
しかし、本当の驚きはGemini 3.1から来ました。これは、この特定のクリエイティブなタスクにおいて好ましいデザインとして浮上しました。その出力は、印象的な固定背景、うまく実行された画像セクション、そしてテスターを感心させた見事に配置されたメニューを誇っていました。Gemini 3.1は強力な視覚的センスを示し、生のコーディング能力が必ずしもUIデザインにおける優れた美的判断に等しいわけではないことを証明しました。
対照的に、GPT 5.4ははるか後方の最下位に終わりました。生成されたウェブサイトは、ぼやけたカード要素の過剰な使用によって特徴づけられる、一般的で一目でわかる「GPTのルックアンドフィール」に悩まされました。このデザインは、望ましいカフェの雰囲気を捉えることができず、競合と比較してモデルの創造的、様式的な解釈における苦戦を浮き彫りにしました。
このUIデザイン対決は、ベンチマークが技術的パフォーマンスを定量化する一方で、主観的な創造的タスクがしばしばモデルの明確な個性と強みを明らかにすることを示しています。これらのニュアンスを理解することは、多様なプロジェクトに適したAIを選択する開発者にとって極めて重要です。これらのモデルの経済的影響と進化するトークン使用量に関する詳細については、読者はClaude Opus 4.7 Pricing: The Real Cost Story Behind the “Unchanged” Price Tag - Finoutを参照してください。
ワンショットでフルスタックアプリを構築する
単純なシングルページウェブサイトを超えて、現代のAIコーディング能力の究極のテストは、ゼロからフルスタックアプリケーションを構築することです。私たちは主要なモデルに、包括的な個人財務ダッシュボードを構築するよう挑戦し、好みの技術スタックを選択し、コア機能を実装する完全な自律性を与えました。この複雑なタスクは、UIデザインだけでなく、バックエンドロジック、データ管理、およびアーキテクチャの意思決定も探ります。
Opus 4.7は、競合他社に匹敵しない統合レベルとデザインの一貫性を示す、真に印象的な初期結果をもたらしました。生成されたアプリケーションは、慎重に選択された配色を持つ、クリーンで直感的なユーザーインターフェースを特徴としていました。その美的魅力はすぐに際立ち、「センスが良く創造的」なUI生成におけるモデルの謳われた改善を反映していました。
機能的には、フロントエンドコンポーネントは堅牢で適切に実装されていました。ユーザーはさまざまな要素と対話し、財務データを入力し、ダッシュボードの異なるセクションをナビゲートできました。このコードは、現代のウェブ開発原則を強く理解していることを示し、一見して本番環境に対応できると感じる、レスポンシブで魅力的なユーザーエクスペリエンスを生み出しました。
しかし、Opus 4.7の洗練された出力は、選択されたアーキテクチャの奥深くに重大な設計上の欠陥を抱えていました。印象的なフロントエンドにもかかわらず、モデルはすべてのユーザーデータを処理するためにインメモリデータベースソリューションを選択しました。この根本的な選択は、アプリケーションの実用性を著しく損ない、あらゆる財務追跡ツールにとって致命的な欠陥をもたらしました。
インメモリデータベースとは、ユーザーアカウントから取引履歴まで、すべての情報がアプリケーションのアクティブメモリのみに存在することを意味します。その結果、サーバーまたはアプリケーションプロセスが再起動されると、保存されているすべてのデータが瞬時に消去されます。この完全なdata persistenceの欠如は、財務ダッシュボードをその意図された目的には全く実用性のないものにします。
Opus 4.7は、複雑で構造化されたコードと魅力的なUIsを生成する上で卓越したスキルを示しましたが、そのアーキテクチャ上の決定には重大な盲点がありました。このモデルは、個人財務アプリケーションの最も重要な側面である、機密性の高い財務情報の安全かつ永続的な保存を優先しませんでした。この見落としは、最も高度なAI codersにとっても継続的な課題、つまり明示的な指示を超えた暗黙的なユーザー要件の理解を浮き彫りにしています。
競合他社との比較
Opus 4.7が個人財務ダッシュボードの設計と構築に成功し、独自のtech stackを選択し、単一のパスで実行可能なアプリケーションを提供した後、比較分析は主要モデル間で顕著な違いを明らかにしました。高レベルのpromptから一貫性のある機能的なfull-stack solutionを生成するその能力は、実用的なソフトウェア開発において競合他社にとって手ごわい基準を設定します。
Anthropicの以前のイテレーションであるOpus 4.6は、より入り混じった結果を示しました。そのuser interfaceは4.7の出力よりも印象的ではなく、美的にも洗練されていませんでしたが、このモデルはbackend persistenceについてより強力な理解を示しました。persistent SQLite databaseを正しく実装し、機能的なアプリケーションにとって重要なより多くの動作する機能を提供しました。この古いモデルはcore application logicを優先し、視覚的な洗練さと堅牢な基盤機能との間の微妙なトレードオフを浮き彫りにしました。
OpenAIのGPT-5.4は、full-stack taskに著しく苦戦し、機能的に使用できない試みを生み出しました。一貫性のある実行可能なアプリケーションを提供できず、かなりの手動介入を必要とする断片的なコードを生成しました。さらに、このモデルは技術的に基本的なアプローチを選択し、最新のframeworksの習熟度を示す代わりに、プレーンなJavaScriptとHTMLに依存しました。この出力は、GPT-5.4を複雑な多コンポーネントアプリケーション生成において大きく後れを取らせています。
GoogleのGemini 3.1は、この要求の厳しいテストで最も効果の低いパフォーマンスを示しました。最初のpromptから実行中のアプリケーションを生成することに根本的に失敗し、部分的な機能を実現するためにも複数のフォローアップインタラクションと広範なユーザーガイダンスを必要としました。重大な外部介入なしに自己完結型の実行可能プロジェクトを生成できないことは、自律的なfull-stack developmentシナリオにおける現在の限界を浮き彫りにし、このbenchmarkで最も能力が低いと評価されます。
シンプルなカフェウェブサイトUI testと、より複雑な個人財務ダッシュボードのfull-stack challengeの両方からのこれらの結果は、現在のAI coding landscapeを明確に示しています。Opus 4.7は、最新のデザイン原則と堅牢な機能を備えた洗練された実行可能なアプリケーションの作成に優れていますが、そのライバルは、美的品質、機能的完全性、または広範なユーザーガイダンスと反復的なpromptingなしに動作する製品を提供するという重要な能力のいずれかで劣ることがよくあります。このパフォーマンスギャップは、複雑で多面的なコード生成におけるOpus 4.7の現在のリードを確固たるものにしています。
Mythosのご紹介:まだ手に入れられないAI
「Opus 4.7」が最も高性能な公開モデルとして君臨する一方で、Anthropic独自のベンチマークは、隠された、より強力なAIである「Mythos」の存在を明らかにしています。この先進的なモデルは、社内評価で最新のClaudeの反復をも凌駕することが実証されていますが、開発者やクリエイターにはまだ利用できません。その存在は、AI研究ラボ内で起こっている、しばしば目に見えない急速な進歩を浮き彫りにしています。
Anthropicは現在、重大な安全性への懸念から「Mythos」の一般公開を控えています。このモデルの計り知れない能力、特に悪用の可能性は、広範な展開の前に堅牢なガードレールと徹底的なテストを必要とします。この慎重なアプローチは、イノベーションと責任あるAI開発のバランスを取るという業界の継続的な課題を浮き彫りにしています。
「Opus 4.7」は、このデリケートなバランスの取れた行動において、極めて重要な戦略的役割を果たしています。Anthropicは、新しい「cyber safeguards」のための重要なテストベッドとしてこれを特別に設計し、禁止されている、または高リスクのサイバーセキュリティ利用を示すリクエストを積極的にブロックしています。この意図的な設計選択が、「Opus 4.7」の独自の性能異常を説明しています。「Opus 4.6」と比較して、サイバーセキュリティのベンチマークスコアがわずかに、しかし意図的に低下しているのは、潜在的なリスクを軽減するための人工的な制約として機能しています。
これらの厳格なプロトコル下での「Opus 4.7」の展開から収集された実世界のデータは、非常に貴重です。これにより、Anthropicは安全メカニズムの有効性を厳密に評価し、強力なAIと潜在的な脅威との間の複雑な相互作用を理解することができます。この反復的な学習プロセスは、将来のモデルを洗練させる上で不可欠です。
最終的に、「Opus 4.7」は、「Mythos-class models」の最終的な安全な導入に向けた、極めて重要で基礎的な一歩を表しています。その一般公開は、高度な安全機能を検証するための管理された環境を提供し、より強力でありながら安全なAIシステムへの道を開きます。「Mythos」またはその後継モデルが最終的に登場する際には、厳格な安全検証を経て初めて、前例のない機能を提供し、ソフトウェア開発を根本的に変革することが期待されます。
評決:欠陥のある傑作か?
「Opus 4.7」は、画期的なコーディングおよびUIデザイン機能を提供し、微妙な側面を示しています。「Opus 4.6」と比較して「SWE-bench Pro」で10%、「Verified benchmarks」で7%の向上は、その生来のパワーを示しており、我々のテストでは印象的なフルスタックアプリ生成能力を発揮しました。しかし、この性能向上には大幅なコスト増が伴い、特に既存のプロンプトに対して潜在的に35%の「tokenizer tax」が発生する可能性があります。さらに、その長文コンテキストの信頼性については疑問が残っており、一部の「needle-in-a-haystack benchmarks」では「Opus 4.6」と比較して性能の低下が示唆されています。
AnthropicがClaude Codeで新しい`extra high`の努力レベルをデフォルトとした決定は、トークン消費をさらに悪化させます。この設定は、より深い推論と難しい問題に対する信頼性の向上を約束する一方で、開発者にとっては直接的な運用コストの増加につながります。ユーザーはこれらの設定を積極的に管理し、パフォーマンスと経済的効率のより良いバランスを取るために`high`の努力レベルを検討する必要があります。この注意深さは、特に「agentic settings」における継続的な開発作業にとって極めて重要になります。
複雑なコーディングタスク、複雑なシステムエンジニアリング、洗練されたUIデザインにおいて、「Opus 4.7」は驚異的なツールであり、おそらく最高の公開モデルです。そのより文字通りの指示追従はプロンプトの洗練を要求しますが、精度に対して非常に正確な出力で報います。開発者は、その強化されたマルチモーダルサポートと自己検証を活用することで、マルチセッションワークフロー全体にわたっても驚くほど堅牢な成果を得ることができます。
結局のところ、Opus 4.7は欠点のある傑作です。特定のドメインでは比類ないものの、隠れたコストと、ユーザーが対処しなければならない潜在的な長文コンテキストの弱点があります。その使用にはより戦略的なアプローチが求められ、労力レベルとプロンプトの最適化について意識的な選択をする必要があります。Anthropicの最新アップデートについてどう思いますか?現在、開発に最もよく使うAIモデルは何ですか?Opus 4.7のトレードオフについてどう考えますか?
よくある質問
Claude Opus 4.7の主なアップグレードは何ですか?
Opus 4.7は、コーディング、エージェント的推論、高解像度ビジョンにおいて大幅な改善を提供し、SWE-bench Proベンチマークで前身モデルを10%上回る飛躍を見せています。
Opus 4.7は、同じプロンプトでも使用コストが高くなるのはなぜですか?
同じテキストを最大35%多くのトークンにマッピングできる、更新されたトークナイザーを使用しています。Claude Codeのデフォルトの「extra high」労力レベルと組み合わせることで、トークンあたりの価格は変わらないにもかかわらず、タスクあたりのコストが実質的に増加します。
Opus 4.7の長文コンテキスト性能は4.6と比較してどうですか?
一部のユーザーテストや「needle-in-a-haystack」テストのようなベンチマークでは、長文コンテキスト検索において大幅な退行が見られ、他の機能を強化するために潜在的なトレードオフが行われた可能性が示唆されています。
コーディングにおいて、Claude Opus 4.7はGPT-5.4よりも優れていますか?
フルスタックアプリケーションのテストに基づくと、Opus 4.7はクリーンなUIを備えた、はるかに完成度が高く、よく設計されたアプリケーションを生成しましたが、GPT-5.4は基本的で使い物にならないプロジェクトを生成しました。