Anthropicが開発者にとってClaudeがなぜ「賢くなくなった」のかを説明

💡

要約 / ポイント

Anthropicは、AIモデルであるClaudeを開発者にとって悪化させたことを認めたばかりです。彼らが犯した3つの重大な間違いと、それがAIの未来にとって何を意味するのかを発見してください。

ささやきキャンペーンが轟音となる

最近、XやRedditのようなソーシャルメディアプラットフォームに開発者からの苦情が殺到し、Claudeのコーディング能力が著しく低下していることが詳細に報告されました。AIアシスタントに依存しているプログラマーは、その出力品質が著しく低下していることを報告し、広範な不満を引き起こしました。多くの人がClaudeが突然「賢くなくなった」と表現し、以前は簡単に処理できていたタスクに苦戦していると述べました。

この現象は新しいものではありません。ユーザーは、公式な承認よりもずっと前から、モデルのパフォーマンスの低下、つまりAI「ナーフ」をしばしば感じ取っています。Claudeの複雑さに精通している開発者たちは、すぐに変化を察知しました。彼らの逸話的な証拠は、かつて信頼できたツールが、特に複雑なコーディングセッション中に、忘れっぽく反復的になっているという一貫した状況を描き出しました。

その集団的な不安は、Anthropicがついに事後分析を公開し、広範な疑念を裏付けたときに確信へと変わりました。同社がClaudeのパフォーマンスに影響を与える特定の変更を認めたことで、開発者コミュニティの不満は「だから言っただろう」という感覚に変わりました。この透明性は、遅れたものではありましたが、根本的な問題に対する重要な洞察を提供しました。

Anthropicの説明は、Claude Codeの劣化に関する3つの主要な理由を詳述しています。 - デフォルトの推論努力を「高」から「中」に削減したことは、レイテンシを減らすことを目的としていましたが、意図せずにより困難なコーディングタスクでの能力を犠牲にしました。 - 致命的なバグにより、Claudeはアイドルセッションごとに以前の推論を破棄し、忘れっぽく反復的に見えるようになりました。 - 冗長性を減らすことを意図した変更されたシステムプロンプトは、コード品質に重大な影響を与え、Anthropicはその変更を元に戻すことを余儀なくされました。

決定的に重要なのは、パフォーマンスの問題が、コアのClaudeモデル自体ではなく、「ハーネス」— Claude Codeとして知られる特定の実装 — に起因していたことです。この区別は、一見些細な調整が甚大な影響を及ぼしうるAIパイプライン全体の脆弱性を浮き彫りにします。批評家たちは、徹底的なリリース前検証なしにこのような影響の大きい変更を展開することは「狂気の沙汰」であるとみなし、Anthropicのテストプロトコルを即座に疑問視しました。

Anthropicの前例のない告白

その後、Anthropicは「最近のClaude Code品質レポートに関する更新」を公開し、前例のないレベルの率直さを示しました。このブログ投稿は、増え続ける開発者からの苦情に直接対処し、実際にClaude Codeのパフォーマンスを低下させた正確な技術的誤りを詳述しました。同社の公的な認容は、しばしば不透明なAI業界における企業透明性の注目すべきケーススタディとして際立ち、説明責任の新たな基準を打ち立てました。

事後分析では、観測されたコーディング能力の低下の背後にある3つの主要な理由が綿密に詳述されました。 - Anthropicは、Claude Codeのデフォルトの推論努力を「高」から「中」に変更したことを認めました。この変更は、レイテンシを削減し、モデルを高速化するために実装されましたが、より深い分析的思考を必要とする複雑なプログラミングタスクでの有効性を意図せず損ないました。 - 致命的なバグが発生し、Claudeはアイドルセッションごとに以前の推論を破棄するようになりました。この根本的な欠陥により、モデルは忘れっぽく反復的に見え、コンテキストの保持が最も重要となる複数ターンのコーディング対話に深刻な影響を与えました。 - 最初は冗長性を減らし、出力を合理化することを意図したシステムプロンプトの変更は、予期せずコード品質を非常に深刻に低下させたため、Anthropicはその変更を迅速に元に戻し、その有害な影響を認めざるを得ませんでした。

AIコミュニティのメンバーやテックメディアは、驚き、批判、そして渋々ながらの敬意が入り混じった反応を示しました。Better Stackのクリエイターのように、このような変更がデプロイ前に十分にテストされなかったことに衝撃を表明する人もいましたが、多くの人はAnthropicの徹底的な透明性を称賛しました。この率直さは、他のテクノロジー大手企業が主力製品の同様のパフォーマンス低下問題に通常対処する方法とは対照的でした。

ほとんどの企業、特に競争の激しいAI分野では、しばしば曖昧な声明に頼ったり、「進化する使用パターン」に問題を帰したり、あるいは完全に沈黙したりして、ユーザーに憶測と不満を募らせます。しかし、Anthropicが内部の誤りを明らかにするという決定は、大きな信頼を築きました。それは開発者の不満を無視するのではなく、彼らのワークフローへの具体的な影響を認め、その不満を正当化しました。このレベルのオープンさは、急速に進化するAIモデルの開発とデプロイの状況において、誠実さと説明責任の新たな、より高い基準を設定します。

誤り #1: スピードのために頭脳を犠牲にする

Anthropicが最初に認めた誤りは、Claude Code内の重要なバックエンド調整に関わるものでした。エンジニアはモデルのデフォルトの推論努力を「高」から「中」に格下げしました。この変更は、Claudeが各ユーザーのクエリに費やす計算リソースと内部処理サイクルを直接決定し、その分析深度を効果的に低下させました。

「中」の推論への移行は、Claudeが内部反復を少なくし、より複雑でない問題分解を行うことを意味しました。明示的な目標はレイテンシを減らし、応答時間を加速することでしたが、このスピードの追求は意図せずモデルの綿密さを犠牲にしました。開発者は、特に複雑な論理的思考を必要とするシナリオにおいて、生成されたコードの品質と精度が著しく低下していることを観察しました。

この運用上の変更は、スピードとパフォーマンスの間の古典的なエンジニアリングのトレードオフ、つまり大規模言語モデルにとって特に困難なジレンマを例示しています。異なり、

誤り #2: 健忘バグ

Anthropicの事後分析は、2番目の重大な失策を明らかにしました。それはClaude Codeを悩ませていた深刻な欠陥である「健忘バグ」です。この陰湿な欠陥により、AIはユーザーが非アクティブな期間の後、以前の推論と会話コンテキストを完全に破棄しました。開発者がインタラクションを一時停止するたびに、たとえ短時間であっても、Claude Codeは短期記憶をリセットし、議論されたすべてを効果的に「忘れ」、最初からやり直すことを強制しました。

この記憶喪失は、開発者の生産性とワークフローの継続性にとって壊滅的であることが判明しました。Claude Codeと協力して、複雑な複数ファイルの問題をデバッグし、広範なコンテキストとアーキテクチャの詳細を提供するプログラマーを想像してみてください。

短い中断の後（おそらくテストスイートを実行したり、ドキュメントを参照したりするため）、AIは何も覚えていない状態で戻ってきました。それは頻繁に問題の再説明を要求し、すでに却下された解決策を繰り返し提示し、数時間分の以前の指示を無視したコードを生成し、多大なフラストレーションと無駄な労力につながりました。

あらゆる高度なAIアシスタントの核となる有用性は、会話コンテキストと永続的な記憶を維持する能力に決定的にかかっています。この継続的な理解の糸がなければ、AIは以前のインタラクションに基づいて段階的に構築したり、複雑な問題に対して一貫性のある進化する解決策を提供したりすることはできません。アイドル期間後に「古い推論」を保持できないClaude Codeの能力は、その協調的な可能性を根本的に損ない、フラストレーションのたまるステートレスなチャットボットに変えてしまいました。

誤り #3: 裏目に出たプロンプト

Anthropicの3度目の誤りは、Claude Codeのシステムプロンプトに対する一見無害な変更でした。開発者は、モデルの冗長性を減らし、より簡潔で直接的なコード出力を引き出すことを明確な目標としてプロンプトを変更しました。この調整は、インタラクションを効率化し、不要な会話の装飾なしに回答を提供することを目的としていました。

しかし、この小さな変更は、プロンプトエンジニアリングにおけるバタフライ効果の典型的な例として、大規模で意図しない波及効果を生み出しました。初期の指示に対するわずかな変更が、モデルの解釈フレームワークを劇的に変え、生成されるコードの品質と正確性の著しい低下につながりました。新しいプロンプトによって制約されたモデルは、以前は容易に処理していた複雑な論理構造や微妙なコーディングタスクに苦戦しました。

コード品質への影響は非常に深刻になり、Anthropicはシステムプロンプトを元の状態に戻すしかありませんでした。この迅速なロールバックは、高度なファインチューニングされたAIシステムの極端な脆弱性を浮き彫りにしています。基本的な指示に対するわずかな調整でさえパフォーマンスを不安定にさせ、これらの複雑なニューラルネットワーク内の複雑な依存関係を明らかにします。

Anthropicの経験は、プロンプトエンジニアリングに求められるデリケートなバランスを浮き彫りにしています。開発者は、小さな変更が予測可能な結果をもたらすと安易に仮定することはできません。むしろ、予期せぬ退行を防ぐためには、細心の注意を払ったテストと検証が不可欠です。この出来事は、AIモデルの慎重に調整されたパフォーマンスがいかに簡単に崩壊しうるかという厳しい教訓となっています。

問題はモデルではなく、ハーネスにある

Anthropicの事後分析は、重要なニュアンスを明らかにしました。問題は、コアとなるClaude基盤モデル自体に起因するものではありませんでした。開発者は、基盤となるAIの上に構築された独立したアプリケーションであるClaude Codeの性能低下を経験しました。この区別は、最近のパフォーマンス問題の実際の原因を理解するために極めて重要です。

大規模言語モデルの領域における「ハーネス」とは、基盤モデルを特定のタスクに最適化する洗練されたレイヤーを指します。それは、モデルの動作と出力を導くように設計された、慎重にキュレーションされたコンポーネントの組み合わせを含みます。これらの要素は、LLMの一般的な能力を専門分野に適合させるために不可欠です。

ハーネスの主要なコンポーネントには、モデルのペルソナと指示を方向付ける洗練されたシステムプロンプトや、外部情報にアクセスするための検索メカニズムが含まれます。デフォルトの「reasoning effort」レベルなどの設定も、ハーネスの管轄下にあります。Anthropicが認めた3つの間違い — reasoning effortの変更、amnesiaバグ、および変更されたシステムプロンプト — はすべて、このClaude Codeハーネスに対する変更であり、ベースモデルに対するものではありませんでした。

この関係を高性能レーシングカーに例えてみましょう。強力なエンジンは、本質的に有能で堅牢なコアとなるClaude基盤モデルを表します。そしてハーネスは、特定のレーストラックとドライビングスタイルに合わせて細心の注意を払って構成された、特定のトランスミッション、サスペンションチューニング、空力設定です。調整が不十分なトランスミッションや不正確なサスペンション設定は、エンジンが完璧であっても、車のパフォーマンスを著しく妨げます。

Anthropicの過ちは、適切なテストなしに車のチューニングを調整するようなものであり、コーディング品質の低下に直接つながりました。基盤となるClaudeエンジンは変更されていませんでしたが、Claude Code harness内の動作パラメータが損なわれました。これらの設定がLLMのパフォーマンスにどのように影響するかについての詳細は、謎が解明：AnthropicがClaudeのharnessesと操作指示の変更が劣化の原因である可能性を明らかに | VentureBeat をご覧ください。

この一件は、高度なAIを展開することの複雑さを浮き彫りにしています。LLMの運用上のharnessへのわずかな調整でさえ、その認識される知能と有用性を劇的に変える可能性があり、広範な展開前の厳格なテストの極めて重要な必要性を強調しています。コアモデルの能力は決して疑問視されていませんでした。問題はその特定のアプリケーションでした。

コミュニティの反応：「信じられない」彼らはこれをテストしなかった

Anthropicの告白に続き、テックコミュニティの怒りがすぐに広がりました。Better Stackのビデオ「Claude ACTUALLY got dumber...」は、その感情を浮き彫りにし、作成者は、Anthropicが厳格なテストなしにこれほど影響力のある変更を展開したことに不信感を表明しました。「これらの変更を公開する前にテストしないのは、私にとっては少し信じられないことです」とビデオは述べ、開発者の広範な不満を捉えました。

この的を射た批判は、プロフェッショナル間の基本的な期待を強調しています。彼らが生活のために依存するツールは安定性を要求します。複雑なシステムにAIを統合する開発者にとって、Claude Codeのような重要なAPIからの予期せぬパフォーマンスの劣化は容認できません。生産性とプロジェクトのタイムラインへの即時の影響は甚大になります。

シリコンバレーの長年の「迅速に動き、破壊する」という精神は、基盤となるAIツールに適用される場合、ますます厳しく問われています。迅速な反復がイノベーションを促進する一方で、プロフェッショナルユーザーのコア機能を損なう未テストの変更を出荷することは、信頼を損なうリスクがあります。高度なプログラミングタスク向けに設計されたClaude Codeのようなモデルは、異なる展開基準を必要とします。

Anthropicが認めた過ち — デフォルトのreasoning effortを「高」から「中」に変更したこと、アイドルセッション後にメモリ消去バグを導入したこと、そして冗長性を減らすためにsystem promptを変更したこと — は、重大な変更を表しています。各変更は、適切にテストされていれば、公開前に結果として生じるパフォーマンスの劣化を警告するはずでした。問題は「harness」、Claude Codeにあり、コアモデルではありませんでしたが、ユーザーエクスペリエンスは損なわれたままでした。

しかし、generative AIの効果的なregression testsを開発することは、独自の課題を提示します。出力が概ね決定論的である従来のソフトウェアとは異なり、AIモデルは多様で不正確な応答を生成します。自動評価指標は、コード生成における微妙な品質の変化を捉えるのに苦労することが多く、人間が関与する評価を不可欠にする一方で、リソース集約型にします。

これらの複雑さにもかかわらず、コミュニティはプロフェッショナルグレードのAIに対して堅牢な検証を期待しています。この一件は、非決定論的システムにおける微妙だが重要なregressionを特定できる高度なテスト手法の必要性を浮き彫りにしています。開発者の信頼を再構築するには、謝罪以上のものが必要です。それは、厳格な品質保証への明確なコミットメントを要求します。

LLM展開のハイリスクな世界

Anthropicの認める事態は、単一の製品の誤りを超え、AI業界全体を覆うシステム的な課題を反映しています。大規模言語モデル開発の最前線で活動する企業は、急速に進化する市場で競争力を維持するために、絶え間ないアップデートと新機能を提供し、革新への途方もないプレッシャーに直面しています。この容赦ないAI arms raceは、徹底的な検証よりも速度を優先することがよくあります。

このような迅速な開発サイクルは、従来のソフトウェアに典型的な包括的な実世界テストなしに変更を展開することに頻繁につながります。結果として、予期せぬ退行がすり抜け、ユーザーエクスペリエンスと信頼に直接影響を与える可能性があります。Claude Codeに関する事件は、これらの高いリスクをはっきりと想起させます。

これらの継続的なアップデートの真の影響を評価することは、手ごわい課題を提示します。複雑なLLMのパフォーマンス、特にコーディングのような創造的で微妙なタスクの評価は、単純で定量化可能な指標では測れません。MMLUやHumanEvalのような学術的なベンチマークは基礎的な洞察を提供しますが、開発者が実際に遭遇する複雑で多段階的、かつ文脈に依存するシナリオを捉えることはめったにありません。

従来のソフトウェアテストは、明確な合否基準や特定のパフォーマンス指標に依存することがよくあります。しかし、LLMの場合、「より良い」モデルは創造性や一貫性において微妙な改善を示すかもしれませんが、「より悪い」モデルは論理的一貫性の低下や幻覚の増加に悩まされる可能性があり、これらすべてを大規模に客観的に定量化することは困難です。このため、実用的なアプリケーションにおけるbenchmarking LLM performanceは非常に困難になります。

AnthropicによるClaude Codeへの調整、例えばデフォルトのreasoning effortを「high」から「medium」に変更したり、冗長性を減らすためにシステムプロンプトを修正したりしたことは、この複雑さを示しています。これらの見かけ上些細な設定変更は、レイテンシやユーザーエクスペリエンスを最適化することを意図していましたが、コーディング品質の大幅な劣化につながりました。広範な展開の前にこのような微妙な退行を検出するには、業界がまだ完成に苦労している洗練された、文脈を認識する評価システムが必要です。

Anthropicのテスト手順に関するコミュニティの「異常な」反応は、より広範な業界の脆弱性を浮き彫りにしています。LLMの広大でしばしば主観的なアプリケーション空間全体にわたる有用性を真に反映できる堅牢で動的な評価フレームワークを開発することは、すべての主要なAI開発者にとって依然として重要で未解決の問題です。

Anthropicのつまずきから得られた教訓

AnthropicのClaude Codeに関する最近のつまずきは、AI業界全体にとって非常に貴重なマスタークラスを提供します。開発チームは、一見些細な設定変更やプロンプトの変更が、重大なパフォーマンスの低下やユーザーの不満につながる可能性があることを認識する必要があります。速度のために実装されたデフォルトのreasoning effortを「high」から「medium」への変更は、複雑なコーディングタスクの能力を劇的に損ないました。

さらに、陰湿な「Amnesia Bug」は、アイドルセッションごとにClaudeが以前の推論を破棄するように仕向け、セッションの連続性を妨げ、対話が忘れっぽく反復的になるようにしました。冗長性を減らすことを意図した、一見無害なsystem promptへの変更でさえ、コード品質に大きな影響を与え、即座に元に戻すことになりました。これら3つの要因は、一見小さな変更が加えられた際のLLM展開の根深い脆弱性を集合的に示しています。

重要なことに、このインシデントは、中核となる基盤モデルとその特定のアプリケーションハーネスとの間の区別を浮き彫りにしています。基盤となるClaudeモデルは堅牢なままでしたが、『Claude Code』ハーネスはこれらの外部変更により影響を受けました。これは、AI製品のあらゆる層に対して、内部ベンチマークを超えて広範な定性的ユーザーフィードバックを含む、厳格で多角的なテストの必要性を示しています。

Better Stackの動画作成者が正しく指摘したように、包括的な検証なしにこのような影響の大きい変更を推進することは『非常識』に思えます。企業は定量的な指標だけに頼ることはできません。現実世界の開発者のワークフローと期待は、多様なシナリオにわたる徹底した本番前テストを要求します。これには、長期的なインタラクションパターン、セッション管理、そしてAIの動作がアイドルセッション中に微妙に変化する可能性のある方法を評価し、公開前に堅牢性を確保することが含まれます。

最終的に、Anthropicが『最近のClaude Code品質レポートに関する更新』を公開するという選択は、企業の透明性の長期的な価値に対する強力な証拠となります。たとえ厳しい世間の監視下であっても、過ちを認め、技術的な誤りを明確に説明することは、ごまかすよりも大きな信頼を培います。他のAI開発者もこの例に倣い、オープンであることは困難であっても、ユーザーベースとの回復力と信頼性を築くことを理解すべきです。業界の反応に関するさらなる洞察については、Anthropic admits it dumbed down Claude when trying to make it smarter - The Registerをお読みください。

Claudeの信頼回復への道

Anthropicは、Claude Codeを悩ませていた問題を迅速に修正しました。彼らは、コード品質に大きな影響を与えていたシステムプロンプトの変更を完全に元に戻し、アイドルセッション後にClaudeが推論を放棄し、忘れっぽく反復的になる原因となっていた『健忘バグ』に対する重要な修正を展開しました。同社はまた、Claude Codeのデフォルトの『推論努力』を『中』から『高』に戻し、生の速度よりも能力を優先することを約束し、パフォーマンスと安定性の継続的な改善を誓いました。

精度に依存する開発者コミュニティからの信頼を取り戻すには、バグを修正するだけでは不十分です。Anthropicは、Better Stackの動画で強調された『非常識な』テスト不足に対処するため、より堅牢なデプロイ前テストプロトコルを実装する必要があります。これには、厳格な内部A/Bテスト、重要な変更に対するカナリアデプロイメント、および公開前にリグレッションを捕捉するための専用の内部開発者向けフィードバックループが含まれる可能性が高いです。

内部プロセスを超えて、Anthropicは信頼性に対する外部からの評判を再構築する必要があります。これには、詳細な変更ログとClaude Codeの公開ロードマップを通じた透明性の向上が求められます。専用フォーラム、技術ブリーフィング、またはオープンベータプログラムを介した開発者コミュニティとの直接的な関与は、新たな信頼を育み、品質保証への積極的なアプローチを示す上で極めて重要となるでしょう。

最終的に、ClaudeのインシデントはAIの状況における極めて重要な変化を浮き彫りにしています。開発者はもはやAIコーディングアシスタントを実験的な目新しさとして見ていません。これらのツールは今や彼らの日常のワークフローに不可欠な要素であり、揺るぎない信頼性と一貫性を要求します。LLMプロバイダーの将来の成功は、予測可能で高品質なパフォーマンスを提供し、ユーザーベースとの深い信頼感を育む能力にかかっています。

よくある質問

Claudeのコーディング性能はなぜ悪化したのですか？

Anthropicは3つの理由を認めました。デフォルトの「reasoning effort」を下げてレイテンシを削減したこと、バグによりアイドル期間後に会話を「忘れる」ようになったこと、そして冗長性を減らすように設計されたシステムプロンプトの変更がコード品質に悪影響を与えたことです。

コアのClaudeモデルは実際に性能が低下したのでしょうか？

いいえ。Anthropicによると、コアのClaudeモデル自体は劣化していませんでした。問題は、「Claude Code」ハーネスに特有のものでした。これは、プログラミングタスクのためにモデルを囲むシステムとプロンプトのことです。

AnthropicはClaude Codeを修正するためにどのような変更を行いましたか？

Anthropicは、コード品質を損ねたシステムプロンプトの変更を元に戻し、記憶喪失を引き起こしたバグを修正しました。また、推論努力の設定において、レイテンシとパフォーマンスのバランスを取る作業も進めています。

AIの「ハーネス」とは何ですか？

AIハーネスとは、コーディングのような特定のタスクのために汎用ベースモデルを適応させるために使用される、特定の構成、システムプロンプト、および指示のセットを指します。これは、コアモデルの上にあるアプリケーション層です。

𝕏 in ↑↗

AnthropicがClaudeを壊したことを認める