要約 / ポイント
Anthropicは、伝説的な「Mythos」モデルの公開バージョンである Claude Fable 5 をリリースしました。これはすでに主要なあらゆるベンチマークを席巻し、複雑な長期的タスクにおいて前例のないスキルを発揮しています。
Mythosの伝説が現実となる
Anthropicは、伝説的な「Mythos」モデルの、一般公開され保護された化身である Claude Fable 5 を解き放ちました。このAIはかつて、その生々しく抑制されていない力と「全世界を破壊する」可能性について囁かれ、一般公開にはあまりにも強力すぎると見なされていました。
Mythosは、秘密裏に進められたイニシアチブである Project Glasswing の奥深くで生まれ、驚くべき能力を発揮しました。それは「国家レベルのサイバー攻撃能力」を示し、数千もの高深刻度脆弱性を発見しました。これには、OpenBSDの27年前の欠陥やFirefoxの271のバグが含まれており、これは前身である Opus 4.6 の実に10倍にあたります。これは単なるモデルではなく、デジタル兵器であり、Fable 5 を生み出した「追加のガードレール」が必要とされました。
今、AnthropicはFable 5をAIの階層への直接的な挑戦として位置づけ、その手札を切っています。OpenAI、Google、さらには自社の元チャンピオンである Claude Opus 4.8 のトップモデルを凌駕することを目指しています。Fable 5は、Anthropicのコア分析ベンチマークで初めて90%を突破し、以前のOpusモデルから10ポイントの飛躍を遂げました。SWE-bench Verifiedのリーダーボードでは、Claude Opus 4.8の88.6%に対し93.9%でリードしており、AnthropicがフロンティアAIの王冠を掴むという明確な意図を示しています。
ベンチマークは嘘をつかない:新王の誕生
数字は嘘をつきません。Anthropicの Claude Fable 5 は、フロンティアAI 能力の基準を再設定し、重要な業界ベンチマーク全体で市場を定義するパフォーマンスを発揮しました。SWE-bench、FrontierCode、GDPvalなどの評価において、Opus 4.8を含む地球上の他のあらゆるモデルを完全に凌駕しています。このモデルは、AI能力のほぼすべてのテスト済みベンチマークで最先端であり、ソフトウェアエンジニアリング、ナレッジワーク、ビジョン、科学研究において優れています。
Fable 5 は、複雑で長期にわたる分析タスク向けのAnthropicのコア分析ベンチマークで 90% を突破するという重要な初の成果を達成しました。これは以前のOpusモデルから前例のない10ポイントの飛躍を意味し、AIが複雑な多段階問題を処理する能力の新時代を告げています。GDPvalで44の職種と9つの主要セクターにわたって評価された、経済的に価値のあるナレッジワークにおけるモデルの熟練度は、人間の専門家レベルに近づいています。
AIの状況を鋭く観察しているMatthew Bermanは、モデルを1週間使用した後、「地球上で最高のモデル」であると断言しました。彼はFable 5の能力、特に長期的タスクにおけるその手腕を称賛し、「これには複雑すぎるタスクを見つけることができなかった」と述べました。Bermanは、たとえ「遅い」と感じても、あらゆる可能な解決策を探求しようとするその意欲を強調し、最終的には流体力学シミュレーションのような比類のない結果を生み出しました。このモデルは単にテストに合格するだけでなく、限界を再定義します。
数字を超えて:長期的タスクの習得
Claude Fable 5 が現在君臨する生のベンチマークスコアを超えて、その真の戦略的優位性があります。それは、長期的タスク です。これらは単純なQ&Aではなく、絶え間ない人間の介入なしに、自律的な計画、多段階の実行、そして複雑なプロジェクトの反復的な洗練を要求します。Fable 5のアーキテクチャは、この持続的な推論のために特別に設計されており、実世界のアプリケーションで新たなレベルの生産性を解き放つ重要な差別化要因となっています。
Matthew Bermanのレビューは、Fable 5が生成した見事な流体力学シミュレーションを強調し、この機能を鮮やかに示しました。これは事前に用意されたデモではなく、モデルが複雑なシステムをリアルタイムで自律的に作成・操作し、その前身が管理できた範囲をはるかに超える高度な生成および推論能力を実証したものです。これは単なる問題解決を超え、プロアクティブなプロジェクト管理です。
その体系的なアプローチは、しばしば「遅さ」と認識されますが、実際にはバグではなく機能であり、徹底性への意図的な投資です。Fable 5は、考えられるすべての解決策の経路を徹底的に探索し、迅速だが最適ではない結果ではなく、最適な結果を保証します。この熟慮されたプロセスは、複雑で長期間にわたるタスクに対するAnthropicのコア分析ベンチマークで90%を突破した最初のモデルである理由を説明しており、以前のOpusモデルから10ポイントの飛躍です。Anthropicのモデルリリースに関するより深い洞察については、Claude Fable 5 and Claude Mythos 5 - Anthropicをご覧ください。
パワー対安全性:Anthropicの戦略的ギャンビット
Anthropicは単に新しいモデルをリリースするだけでなく、計算されたデュアルリリースを実行しています。Claude Fable 5は、堅牢なセーフガードを備え、一般用途向けに調整された「Mythos-class」モデルとして公開されます。一方、サイバーセーフガードが解除されたフルパワーのClaude Mythos 5は、厳選されたGlasswingパートナーと特定の生物学研究者向けに予約されています。これは単なる能力の問題ではなく、生のパワーと責任ある展開のバランスを取る戦略的なギャンビットです。
Project Glasswingを覚えていますか?オリジナルのMythos Previewは、「国家レベルのサイバー攻撃能力」を実証し、OpenBSDの27年前の欠陥を含む数千の高深刻度脆弱性を特定しました。Anthropicは、そのような偉業を成し遂げることができるモデルには慎重に管理されたリリースが必要であることを理解しており、それが2段階のアプローチの理由です。彼らは自分たちが何を持っているかを知っています。
この新しい標準を活用したいですか?Fable 5は、Claude APIやBedrockのようなプラットフォームを通じて利用可能です。フロンティアモデルとしては積極的な価格設定で、入力トークン100万あたり10ドル、出力トークン100万あたり50ドルです。これは単に強力なツールであるだけでなく、フロンティアAIを安全に展開するための新しい業界基準を設定し、イノベーションが注意によって抑制される必要がないことを証明しています。Anthropicは、その方法を皆に示しました。
よくある質問
Claude Fable 5とは何ですか?
Claude Fable 5は、Anthropicが提供する新しい公開AIモデルです。高度な安全ガードレールを備えた「Mythos-class」モデルで、複雑で長期的なタスク向けに設計されています。
Fable 5はMythos 5とどう違うのですか?
Fable 5は、一般利用向けに安全性が確保されたMythosモデルのバージョンです。フルバージョンのClaude Mythos 5モデルは、セーフガードが少なく、セキュリティおよび生物学研究のための専門パートナーに限定されています。
Claude Fable 5が他のモデルよりも優れている点は何ですか?
Fable 5は、SWE-benchやGDPvalなどのベンチマークで優位に立ち、Claude Opus 4.8をも凌駕すると報じられています。その主要な強みは、持続的な推論を必要とする複雑な多段階問題を処理することです。
Claude Fable 5は誰のためのものですか?
これは、複雑なソフトウェアエンジニアリング、科学研究、自動化可能な長期間にわたる分析タスクなど、野心的で複雑な問題に取り組む開発者や研究者向けに設計されています。
