クロード4.5:グーグルの座を奪ったAI

AnthropicはClaude Opus 4.5を発表し、Googleの新しいGemini 3 Proに直接挑戦する驚くべき力技を見せました。どのモデルが現在、コーディング、推論、エージェントAIの未来で優位に立っているのかを発見してください。

Stork.AI
Hero image for: クロード4.5:グーグルの座を奪ったAI
💡

TL;DR / Key Takeaways

AnthropicはClaude Opus 4.5を発表し、Googleの新しいGemini 3 Proに直接挑戦する驚くべき力技を見せました。どのモデルが現在、コーディング、推論、エージェントAIの未来で優位に立っているのかを発見してください。

AIアリーナが爆発的な成長を遂げました

GoogleのGemini 3 Proは、その戴冠を楽しむ暇もなく、新たな挑戦者が舞台に登場しました。Gemini 3 ProがAI Twitterスレッドやベンチマークチャートを支配してわずか数日後、AnthropicがOpus 4.5を発表し、「誰がトップなのか?」という物語の書き換えを瞬時に強いました。

Gemini 3 Proは厳しい基準を設定しました。優れたコーディングパフォーマンスで開発者を驚かせ、Nanaban Proによって目を見張るようなグラフィックスを実現し、最も評価されているコーディングベンチマークの一つであるSWE-Verifiedで76.2%のスコアを獲得しました。しばらくの間、Googleが推論、マルチモーダル理解、コード生成の分野で王冠を手にしたように見えました。

Opus 4.5は「控えめな」アップグレードとして登場しますが、このレベルでは控えめが巨大に見えます。SWE-Verifiedでは、Opus 4.5は80.9%に跳ね上がり、Gemini 3 Proの76.2%との間に大きな差をつけています。このベンチマークでは、1ポイント獲得するのも痛みを伴います。OS Worldのコンピュータ使用ベンチマークでは、Opus 4.5は66.3%を記録し、Claude Sonnet 4.5の62.9%に対して新しいリリースモデルの高記録を樹立しました。デスクトップ環境を実際に駆動する能力を示しています。

ベンチマークは単なるリーダーボードではなく、ボクシングのスコアカードのように見えてきました。Opus 4.5はエージェント型端末のコーディングやツール使用においてGemini 3 Proを上回っていますが、GPQAやMMUのような「古典的」な試験ではわずかに後れを取っています。これらの試験では、GeminiとOpenAIの最新のGPTシリーズが互いに競り合っています。長期的な「350日間ビジネスを運営する」シミュレーションであるVending Bench 2においても、Gemini 3 Proは狭いリードを維持しており、シミュレーションされた利益は約$5,500に対して、Opus 4.5は約$5,000です。

この記事では、Opus 4.5 と Gemini 3 Pro をコーディング、推論、コンピュータ使用、マルチモーダル作業、コスト効率において比較し、どのモデルが2025年後半の最新鋭を実際に表しているかを検証します。Anthropic、Google、OpenAIは今や非常に速いペースで進化しており、「山の頂点の王者」は製品の基調講演と同じくらいの期間しか持続しません。ユーザーにとって、この軍拡競争は直接的により安価なトークン、より賢いエージェント、そしてアプリを作成するだけでなく、インストールし、テストし、あなたが眠っている間に静かにスプレッドシートを実行できるモデルへとつながります。

コードの世界に新たな保安官が登場

Blog illustration

今週、SWE-verifiedで新しいリーダーボードが静かに更新され、実際のソフトウェアエンジニアリングを測定しようとする数少ないコーディングベンチマークの一つとなっています。Opus 4.5は80.9のスコアを記録し、Gemini 3 Proの76.2を大きな差で上回りました。この差はノイズの可能性が低いことを示唆しています。SWE-verifiedは、コードがコンパイルされるかどうかだけでなく、大規模なマルチファイルプロジェクトでフルテストスイートを通過するかどうかもチェックするため、4ポイント以上の差はより信頼性の高いエンドツーエンドの実装を示しています。

数値は、Anthropicが現在披露している一発勝負のMinecraftクローンでより具体的になります。Opus 4.5は、わずか一度の処理で約3,500行のコードを生成し、複数のバイオームが組み込まれたワールド生成、基本的なクラフト、そして人間が部分的な出力をつなぎ合わせることなく、ゲームループを実現しました。その規模での長文コード生成は、APIの整合性を保つこと、循環インポートを避けること、そして何百もの呼び出しにわたって一貫したデータ構造を維持することなど、モデルが苦手とするすべてのことにストレスがかかります。

Anthropicは、悪名高い内部エンジニアリングの持ち帰り試験でOpus 4.5を実行しました。この種の試験は、企業が上級候補者を絞り込むために使う数時間に及ぶ課題です。同社によれば、Opus 4.5はその試験を受けたすべての人間を、正確さだけでなく速度やアーキテクチャの質においても上回ったとのことです。この結果は外部での再現が必要ですが、一般的なコーディングベンチマークが示唆していることと一致します。

開発者が最も変化を感じるのがエージェント・ターミナルコーディングです。自律的なコマンドライン作業を測定するTerminal-Benchでは、Opus 4.5は59.3、Gemini 3 Proは54.2であり、実際のシステム上でAIにシェルコマンドを実行させる際には大きな差となります。エージェント・ターミナルコーディングとは、モデルがコマンドのシーケンスを計画し、それを実行し、エラーを検査し、保護者なしで回復することを意味します。

開発者にとって、それは手動で行われていた作業をより安全に自動化することを意味します。具体的には、開発環境のセットアップと構成、マイグレーションの実行と修正、リグレッションを追跡するためのログの監視、CronジョブやCIスクリプトの設定などです。一般的なコンピュータ使用においてオペレーティングシステムの世界でリーダーであるOpus 4.5は、コードオートコンプリートのようには見えず、まるでターミナル内に住むジュニアエンジニアのように思えてきます。

生の情報を巡る戦い

生の知能ベンチマークは、コーディングスコアが示唆するよりも厳しい戦いがあることを示しています。ARC-AGI-2において、AnthropicはOpus 4.5が約37~38%の精度に達し、いくつかの初期のベースラインを2倍以上上回り、類似の「思考予算」においてGemini 3 Proを約6パーセントポイント差で上回ると述べています。この結果は、Anthropic自らのClaude Opus 4.5公式発表で強調されており、雑学の再生ではなく抽象的なパターンの発見に関心がある場合、リリースされた最前線モデルの中で最先端の地位を占めています。

ARC-AGI-2は、記憶に頼らない奇妙で合成的なパズルに対する構成的推論を強調しています。Anthropicが内部の「思考」に使用されるコンテキストを0から64Kトークンまで引き上げると、Opus 4.5の知能曲線はライバルを凌ぐスピードで上昇し、費用対スコアのプロットで左上のパフォーマンスを達成します。Geminiの未公開のDeep Thinkバリエーションは依然として高い生のスコアを記録していますが、Opus 4.5はトークンの無駄を大幅に減らし、タスクあたりのコストも低い状態で成果を上手に管理しています。

一般的な知識と試験形式のベンチマークは、より微妙な物語を語ります。GPQAおよびMMUスタイルの「人類最後の試験」スイートにおいて、Opus 4.5はGemini 3 Proにはわずかに劣るものの、いくつかのサブテストではGPT 5.1にも迫ります。Geminiは、長文の学術的なQA、濃密な読解力、図表やテキストを組み合わせたマルチモーダルな質問において引き続き強い印象を与えています。

Opus 4.5がはっきりとした旗を立てるのはコンピュータの使用においてです。実際のGUIタスク—アプリのインストール、設定の調整、ファイルシステムのナビゲーション—のエンド・ツー・エンドの成功を測定するOS Worldベンチマークでは、Opus 4.5は66.3%の成功率を記録しました。この結果は、62.9%の前チャンピオンであるClaude Sonnet 4.5を上回り、実際にデスクトップを操作するフロンティアモデルとして新たな高水準を設けました。

どのラボもすべてのリーダーボードを支配しているわけではありません。Opus 4.5はARC-AGI-2、OS World、SWE-Verified、そしていくつかのエージェントによるターミナルおよびツール使用テストでリードしていますが、Gemini 3 ProやGPTモデルは特定の試験やマルチモーダルタスク、ビジネスエージェントのベンチマークでは依然として優位です。しかしそのパターンは明確です:Opus 4.5の推論とコンピュータ使用能力の飛躍は、単なる一つの勝利以上の重要性を持っています。なぜなら、それは長期的に考え、より信頼性高く行動し、混沌とした現実のワークフローにおいてタスクに留まることができるエージェントへと直接つながるからです。

350日間のビジネス運営

Vending Benchは、現代のAIにとって最も明らかなストレステストの一つとなっています。それは、300〜350のゲーム内日数を通じて運営されるシミュレーションの自動販売機ビジネスで、長期的な計画、在庫戦略、基本的な財務感覚が求められます。静的なパズルを解くのではなく、モデルは製品をリサーチし、顧客の需要を推測し、キャッシュフローを管理し、無駄に逸脱することなく機械を補充し続けなければなりません。

Vending Bench 2では、Gemini 3 Proが依然として王座を維持しています。約1年間のシミュレーション運用の結果、500ドルの種資本から始めて、利益は5,500ドルにわずかに届かない数字となっています。このマージンは重要です。なぜなら、このベンチマークのすべてのドルは、どのスナックを購入するか、どれだけ積極的に在庫を補充するか、パフォーマンスが良くない製品からいつ方向転換するかといった数十の小さな決断から生まれたものだからです。

Opus 4.5はここで第一位を獲得するわけではありませんが、その跳躍は無視できません。モデルは約4,967ドルの利益で終了し、初期の500ドルからほぼ10倍の成長を遂げ、同じテストでのClaude Sonnet 4.5の約3,800ドルの結果を大きく上回ります。実際には、Anthropicのフラッグシップは、120日目に何をしていたかを忘れてしまった困惑したインターンではなく、慎重な若手オペレーターのように振る舞っています。

この長期のエージェンティックベンチマークは、見出しのIQスコアやコーディングリーダーボードとは異なる能力の軸を明らかにします。これらは、モデルが数百ステップにわたって作業を維持し、一貫したビジネス戦略を維持し、単一の悪い注文にすべての資本を燃やすといった壊滅的なミスを避けることができるかどうかを測定します。モデルがスケールアップするにつれて、ベンディングベンチの数値は上昇し、パラメータの生の数とより良いトレーニングが時間の経過とともにより安定した、狂気の少ない意思決定に直接つながることを示唆しています。

アルファアリーナは、このアイデアをより厳しい領域へと推し進めています:ライブに近い暗号通貨取引です。シーズン2では、参加者の中にジェミニ3プロとクロードソネット4.5が登場しますが、オーパス4.5は公式ロスターから著しく欠けています。現在、GPT 5.1のすぐ後ろの2位に位置する高性能の**「ミステリーモデル」**は、アンソロピックがリーダーボードに名前を掲げる前にオーパス4.5のリスク許容度を静かにテストしているのではないかという憶測を呼び起こしています。

AIオーケストレーターの台頭

Blog illustration

AIオーケストレーターの台頭は、AnthropicがOpus 4.5と共に静かにリリースした最も重要な機能かもしれません。単一の巨大モデルを最終的な頭脳として扱う代わりに、Opus 4.5はますます、Haiku 4.5のような小型で安価なモデルが行う作業を計画し、委任し、レビューするマネージャーのように振る舞います。このパターンは、Vending Benchのような長期のタスクに現れ、300〜350日間のシミュレーションにわたる持続的な一貫性が、単一の応答よりも重要です。

マルチエージェントのセットアップは、現在、複雑な研究スタイルの作業負荷において単一エージェントのベースラインを一貫して上回っています。Opus 4.5 の一例に広範なブリーフを与えると、科学分野を調査し、競合をマッピングし、製品仕様をドラフトすることができます。そして、それはドキュメントをスクレイピングし、論文を要約し、アイデアを並行してテストするために Haiku 4.5 のサブエージェントを立ち上げることができます。長時間実行されるツール重視のワークフロー、Vending Bench 2からOS Worldスタイルのコンピュータ使用に至るまでのベンチマークは、その労働の分業を評価し、成功率を高め、脱線を減少させます。

経済的論理は、このアーキテクチャを生み出す要因となるだけでなく、生の能力とも同様に重要です。すべてのサブタスクの各トークンに対してOpus 4.5を実行することは、高価なリソースを無駄にし、Haiku 4.5がわずかなコストで処理できる定型的な要約や単調な変換に浪費されます。計画、問題の分解、または対立の解決時にのみ「懸命に考え」、それ以外は実行をオフロードするオーケストレーターモデルは、すべてを行う孤独な過剰資格の請負業者よりも、チームを調整する人間のマネージャーのようにスケールします。

そのマネージャー–チームのパターンは、検索や研究を超えて一般化されます。コーディングにおいては、Opus 4.5オーケストレーターがシステムを設計し、インターフェースを定義し、その後Haiku 4.5エージェントを生成してモジュールを実装し、テストを記述し、Terminal-Benchスタイルのツールコマンドを実行し、最後に統合とレビューを行います。クリエイティブな作業においては、トップレベルのモデルがキャンペーンの概要を描き、サブエージェントがコピーのバリエーションをドラフトし、ビジュアルのストーリーボードを作成し、プラットフォームにコンテンツを適応させます。

ビジネス分析は最も変化する可能性があります。オーケストレーターは、あるエージェントにClaude for Chromeを介して混乱したウェブデータをスプレッドシートに引き出させ、別のエージェントにそれをクリーンアップし整理させ、さらに別のエージェントにシナリオを実行させて結論を妥当性検証させることができます。これらのオーケストレーションパターンが定型化するにつれて、「AIを使う」ということは単一のモデルとチャットすることから、非常に優れたディレクターが率いるバーチャル企業を雇うように見えてきます。

ジェミニ3プロが依然として圧倒的な存在である理由

マルチモーダルはGemini 3 Proの得意分野です。Opus 4.5がコードや抽象的な推論でその境界を超える一方で、Gemini 3 Proはテキスト、画像、レイアウトが同時に重要な場合でも、特にスクリーンショット、チャート、埋め込みメディアが混在する制作ワークフローにおいて、よりクリーンで信頼性の高い結果を提供します。

グラフィックス生成は最も顕著なギャップを示しています。GoogleのNanaband Proは、Gemini 3 Proに組み込まれており、「まさに信じられないほど」のイラストやUIモックアップを生成します。それは、付け足し的な機能ではなく、専用の画像モデルにより近い感覚をもたらします。それに対してOpus 4.5は、依然として画像を見ることができるテキスト優先のシステムとして振る舞い、本物のビジュアルネイティブではありません。

ビデオの理解は、Gemini 3 Proが他を引き離すもう一つの分野です。オブジェクトや人をクリップ間で追跡し、シーンの変化に対応し、特定のタイムスタンプで何が起こるかについての詳細な質問に対して、Opusよりも高い一貫性で回答できます。会議を要約したり、トレーニング映像に注釈を付けたり、ユーザーリサーチの動画を分析したりするチームにとって、Gemini 3 Proは信頼できる選択肢のままです。

文書が多いワークフローも同様です。Gemini 3 Proに密な表、グラフ、ダイアグラムが満載の200ページの年次報告書を入力すると、通常は構造を保持し、数字を相互参照し、視覚的なコンテキストを intactに保ちます。Opus 4.5はPDFを解析できますが、Gemini 3 Proは複雑な視覚レイアウト内に数字が存在する際に、誤りを少なくする傾向があります。

ダイナミックなウェブUI生成は、Gemini 3 Proの最も過小評価されている利点かもしれません。デザイン仕様を読み取り、レスポンシブなHTML/CSS/JSを生成し、デザイナーと連携してレイアウトを反復することができ、スクリーンショットを共有言語として利用します。Nanaband Proと組み合わせることで、ランディングページ、ダッシュボード、マーケティングサイトなど、全体のフローをプロトタイプすることができ、1つのチャットスレッドから離れることなく実現します。

その強みの組み合わせにより、Gemini 3 Proは以下の人々にとってのデフォルトの選択肢となります: - ビジュアル、ストーリーボード、インタラクティブなモックアップを作成するクリエイティブプロフェッショナル - スライドデッキ、BIダッシュボード、視覚的に豊かなPDFに生きるデータアナリスト - UIの洗練さに依存するインタラクティブなウェブアプリや社内ツールを開発する開発者

これらのトレードオフを評価する際は、まず **Google DeepMind Gemini 公式ドキュメント** にある公式の能力マトリックスを参照し、その後にコスト、レイテンシー、およびワークロードがどれほど視覚中心なのか、対してテキストやコードが重いのかを考慮してください。

十億ドルの疑問:コスト対IQ

それを「インテリジェンスカーブ」または価格曲線と呼ぶかもしれませんが、最前線のモデルは今や生の能力とAnthropicが「思考予算」と呼ぶものの2軸のグラフ上に存在しています。モデルにより多くのトークンを通す—8K、16K、32K、64Kの意図的な推論—と、パフォーマンスは向上しますが、コストは非線形に増加します。業界は現在、ピークスコアだけでなく、それぞれの段階でドルあたりのIQを最適化しています。

Anthropicの独自のチャートは、これを対数コスト軸でプロットしています。右に移動するごとに計算支出の大きなジャンプを表していますが、Opus 4.5の「サーモン」曲線はARC-AGI2の左上に密着しており、比較的低コストで高スコアを達成しています。Googleの未発表のGemini 3 Deep Thinkはさらに高い点を推移していますが、はるかに急なコストポイントでのことです。一方、リリースされたGemini 3 Proは、比較可能な思考予算の中でOpus 4.5に遅れを取っています。

そのポジショニングは、AnthropicのCEOダリオ・アモデイによる大胆な主張を支えています:おおよそ十分の一の資本支出で競合ラボと同等の成果を出すというものです。もしこれが正しければ、その利点は積み重なり、より安価な実験、より多くのトレーニングラン、ツール利用や自律的行動に関する迅速なイテレーションが可能になります。オーパス4.5の最先端ARC-AGI2とOSワールドスコアは、その効率性が損益計算書だけでなく、ベンチマークにも表れていることを示唆しています。

購入者にとって、コストと利益のストーリーはタスクに沿って分かれます。純粋な論理に基づいて見ると、SWE-Verifiedコーディング(80.9対Gemini 3 Proの76.2)、Terminal-Bench、ARC-AGI2、販売ベンチのような長期的エージェントタスクでは、Opus 4.5はしばしばGeminiのDeep Thinkスタイルのモードよりも無駄なトークンが少なく、目標の品質に達します。複雑なバックエンドシステム、エージェント、または自動化されたオペレーションのユニットエコノミクスが重要であれば、Opus 4.5は解決されたタスクあたりの実質コストが低くなる可能性が高いです。

マルチモーダルに切り替えると、計算が変わります。Gemini 3 Proの画像、動画、文書の取り扱いと、Nanaban Proのようなツールを用いた生成は、従来のテキストのみのステップを置き換える、わずかに高価な単一の呼び出しに全体のワークフローを圧縮することができます。視覚的なIOが支配するものであれば—UIモック、マーケティング資産、スライドデッキ、動画理解—Gemini 3 Proは、たとえOpus 4.5が「思考」のトークンあたりではより安価であっても、配信物あたりのコストでしばしば勝るのです。

あなたのデスクトップ、今すぐスーパーチャージ!

Blog illustration

ベンチマークは製品に反映される時のみ意味を持ち、Anthropicはその時間を無駄にしていません。Opus 4.5に加え、同社はClaude for ChromeClaude for Excelを展開しており、これによりコンピュータ利用や長期計画におけるベンチマークの成果を、仕事でノートパソコン上で実行できる形に変えています。

Claude for Chromeは、Opus 4.5のOSワールドコンピュータ使用ベンチマークにおける66.3%の成功率を直接活用し、現在リリースされたフロンティアモデルの中で最も優れた性能を誇ります。単にページを要約するだけでなく、Claudeはブラウザを操作できるようになります。複数のステップを踏むフローをクリックし、フォームに入力し、ダッシュボードをナビゲートし、テキスト、画像、奇妙なレイアウトが混在する構造が不十分なサイトからデータを引き出すことができます。

それは、Vending Benchのようなベンチマークがシミュレーションしようとするタスクの種類にとって重要です。製品のリサーチ、価格の比較、在庫の追跡、または数十のタブを通じて競合他社を監視することは、何百ものステップを通じて一貫性を保つことができるAIオーケストレーターの仕事になります。本当に質問に答えるだけのチャットウィンドウではありません。

Excel向けのClaudeは、オフィスの単調作業のもう一方の半分、すなわち数字と構造に焦点を当てています。Opus 4.5は、大規模で複雑なスプレッドシートを取り込み、各シートや数式の機能を説明し、ワークブック間の依存関係を追跡し、通常は人間のアナリストが何時間もピボットテーブルを見つめる必要がある異常を明らかにします。

説明を超えて、Anthropicは明確に分析と計画をターゲットにしています。Claude for Excelは、生のエクスポートを受け取り、列を正規化し、計算フィールドを生成し、チャートを作成し、トレンドや推奨事項を統合することができます。これはまさに、Opus 4.5が既にGemini 3 Proをエージェントのツール使用とターミナルスタイルのタスクで上回っているような、多段階のツールを多用するワークフローです。

Anthropicは、重要な場面でのアクセスを整えています。Claude for Chromeは全てのMaxユーザーに展開されており、Claude for ExcelはMax、チーム、およびエンタープライズ顧客向けにベータ版が拡大しています。これは、ブラウザベースのSaaSや広範な財務モデルの中にいる可能性が最も高いグループです。

これらのローンチを総合すると、Anthropicが特定の強みを製品化していることがわかります:最先端のコンピュータ利用、優れたスプレッドシート処理、そして長期的で一貫したタスク管理です。Opus 4.5は、合成テストで高得点を出すだけでなく、現代の仕事を支える日常的なソフトウェアスタックにこれらの機能を静かに組み込んでいます。

自律の閾値

自律性は、現在のラボ内での具体的な定義を持っています:R&D4。アンソロピックの分類によれば、これはAIが「文献レビュー、実験デザイン、基本的な分析、レポート作成」を行い、軽い人間の監視のみで作業を「完全に自動化」できる段階を示しています。これは一般的な「AGI」ではなく、AIがNotionのワークスペースやJiraのボードに配置され、単に仕事をこなすことができる段階です。

Anthropicは、Opus 4.5がその基準を満たしていないことを明言しています。このモデルは、特にプロジェクトの途中で要件が変わったり、利害関係者間で意見が対立した際の広範な状況判断に欠けています。また、不明確な指示の解決や、悪いアイデアに対する反論、対立する優先順位を持つ複数の人間との調整といった、実際の研究作業の厄介な部分にも苦労しています。

Anthropic自身のリリースに埋もれた注意点は、免責事項よりも興味深い。「高度に効果的なスキャフォールディング」—計画レイヤー、メモリシステム、ツールAPI、人間のチェック—を用いて、AnthropicはOpus 4.5のようなモデルがR&D4から「それほど遠くない」と述べています。実際には、これは作業をサブタスクに分割し、Haiku 4.5のような安価なモデルにルーティングし、数百ステップにわたって長期的なアジェンダを維持するオーケストレーションフレームワークを意味します。

開発者たちはすでにこれを構築しています。Opus 4.5をベクター検索、コード実行、ブラウザ制御と組み合わせるエージェンティックスタックは、Anthropic Python SDK Repositoryなどのツールを介して、数日間の研究ループを実行できます:論文を収集し、手法を要約し、実験を生成し、自動的にラボノートを更新します。制約はもはや生のIQだけではなく、その知能をいかに制約し監査するかにあります。

GoogleのAlpha Evolveプロジェクトは、これがどこに向かうのかのプレビューを提供しています。初期の報告では、Googleは古い弱いモデルを厳密な進化ループの中に組み込み、自動仮説生成、シミュレーション、評価、選択を行いながら、本当に新しい科学的成果を引き出すことに成功しました。この画期的な成果は、単一の巨大な頭脳からではなく、モデルをより大きな自律的なパイプラインの一部として扱うシステムから生まれました。

オーパス4.5プラスの堅牢な足場は、一般的な知識作業を指向した同じパターンのように見えます。R&D4を越えると、「エントリーレベルの研究者」という職業名は単なる職務記述ではなく、システム設定となります。

AI軍拡競争におけるあなたの次の一手

AIチームは、今や明確な選択の岐路に立っています:各モデルを実際に利益を生むか、コストを削減する作業にマッチさせることです。SWE-Verified(Opus 4.5が80.9に対してGemini 3 Proは76.2)やVending Bench 2(Gemini 3 Proが約5,500ドル、Opus 4.5が約5,000ドル)のようなベンチマークは、製品選択、スタッフ計画、クラウド料金に直接影響を与えます。

Opus 4.5 の選択理由: - 高度なコーディング:長期的なリファクタリング、フレームワークの移行、SWE-VerifiedおよびTerminal-Benchスコアが重要なマルチリポジトリのデバッグ。 - エージェンティックオーケストレーション:Claude SonnetおよびHaiku 4.5に安価なサブタスクを委任するOpusの“オーケストレーター”、特にOS Worldスタイルのコンピュータ使用ワークフローにおいて。 - 複雑な推論:ARC-AGI-2レベルの抽象的な問題、数日の研究、R&D4スタイルの“エントリーレベル研究者”の自動化において、思考トークンが生の出力量を超える。

Gemini 3 Proを選ぶ理由: - マルチモーダル作業:密度の高いPDF、UIモックアップ、視覚的に複雑なダッシュボードで、その画像と文書の理解が依然として優れています。 - クリエイティブ生成:マーケティングキャンペーン、ストーリーボード、高忠実度グラフィックスをNanaban Proのようなシステムを通じて作成できます。 - 動画と動的メディア:タイムライン推論、シーン分析、テキスト・画像・動画プロジェクトの混合において、Opus 4.5がまだエンドツーエンドで匹敵できないものです。

プラクティショナー向けの戦略:デュアルスタックを標準化します。特に数時間から数日間実行されるエージェントにはOpus 4.5を論理的およびコーディングの基盤として使用し、視覚的、映画的、またはブランドに関連するすべてのものをGemini 3 Proにルーティングします。それらをタスクの種類、コンテキストサイズ、レイテンシー予算を考慮した使用ルーターの背後にラップし、品質基準を満たす最もコスト効率の良いモデルを選択します。

AnthropicやGoogleなどからの迅速で飛躍的なリリースにより、最先端のAIに関する持続的な独占の概念は消え去りました。知能の進化は今や60~90日の周期で更新され、多年にわたるものではなくなり、すべての新しいモデルはどのタスクが収益化可能な自動化を行えるかを再編成します。

半年後、少なくとももう一つの自律的なレベルが期待されます。それは「エントリーレベルの研究者」のワークフローを実行するだけでなく、ウェブ、モバイル、データスタック全体で製品を設計、立ち上げ、A/Bテストを行うエージェントです—あなたが静かに新しい曲線の頂点にあるモデルを切り替える間に。

🚀Discover More

Stay Ahead of the AI Curve

Discover the best AI tools, agents, and MCP servers curated by Stork.AI. Find the right solutions to supercharge your workflow.

Back to all posts