要約 / ポイント
私たちが信頼していたAIベンチマークは壊れている
かつてSWEbenchは、AIのコーディング能力を評価するための揺るぎない標準であり、開発者や研究者が大規模言語モデルのソフトウェアエンジニアリング能力を測定するために信頼するベンチマークでした。主にバグ修正に焦点を当てたその構造化されたタスクは、初期のAIエージェントにとって客観的な成績表となることを約束しました。しかし、その信頼は失われました。業界では現在、SWEbenchは壊れていると広く認識されています。
根本的な欠陥がベンチマークを蝕み、そのスコアを無意味なものにしています。蔓延するデータ汚染は、モデルがトレーニング中にしばしば解答を見ていたことを意味し、人為的にパフォーマンスを水増ししていました。これに加えて、SWE-bench Verifiedで監査された問題の少なくとも59.4%には欠陥のあるテストケースが含まれており、有効な解答を誤って却下していました。さらに、SWEbenchの狭い範囲、つまり87%のバグ修正タスクの80%以上がわずか5つのPythonリポジトリから供給され、問題の半分が2020年以前のものであることは、現実世界のコーディング課題を反映していませんでした。
この一連の問題は、不合理なスコアカードに帰結しました。Claude Opus 4.7のようなモデルがGPT-5.5を数ポイント上回るという不可解な結果は、広範な開発者の経験や実際の使用における「肌感覚」と真っ向から矛盾していました。OpenAI自身もこの問題を認識し、フロンティア評価のためにSWE-bench Verifiedを廃止し、「改善がモデルの現実世界でのソフトウェア開発能力における意味のある改善を反映しなくなった」と述べています。かつてAI評価の柱であったこの信用を失ったベンチマークは、今や警告の物語として機能しています。
DeepSWE:AIコーダーのための現実チェック
Datacurveは、agentic AIの時代のために綿密に設計された堅牢な代替ベンチマーク、DeepSWEを発表しました。この新しい標準は、SWEbenchのような古い評価を無効にした広範なデータ汚染と「ゲーミング」に直接対抗します。DeepSWEの設計は、モデルが事前に見た解答を単に思い出すことを防ぎ、真の課題解決能力を示すことを強制します。
DeepSWEの metodology は、その前身とは大きく異なります。91の多様なオープンソースリポジトリにわたって、完全にゼロから書かれた113のオリジナルで長期間にわたるタスクを特徴としています。この包括的なスイートは、5つの重要なプログラミング言語をカバーしています。 - TypeScript - Go - Python - JavaScript - Rust これらのタスクは、SWE-bench Proよりも平均して5.5倍多くのコード変更を要求し、単純なバグ修正ではなく、複雑で多面的なエンジニアリング課題に取り組むAIの能力を厳密にテストします。
決定的に重要なのは、DeepSWEの構造、つまり本質的に複雑なタスクに対して短く高レベルなプロンプトを提示する方法が、シニア開発者がAIアシスタントに仕事を委任する方法を反映している点です。このアプローチにより、AIの現実世界での有用性と長期的なソフトウェアエンジニアリング能力をはるかに現実的かつ実践的にテストできます。例えば、DeepSWEでの初期評価では、GPT-5.5が70%であるのに対し、Claude Opus 4.7は54%と示されており、水増しされたSWEbenchのスコアよりも実際の開発者の経験をより正確に反映しています。
GPT-5.5 vs. Claude Opus:明らかになった真のスコア
SWE-benchのような従来のベンチマークは、Claude Opus 4.7がGPT-5.5に対してわずかなリードを示すという接戦の様相を呈していましたが、DeepSWEは全く異なる現実を明らかにしました。Datacurveの厳格な新基準では、GPT-5.5が圧倒的な70%の成功率を達成しました。対照的に、Claude Opus 4.7はわずか54%にとどまりました。
DeepSWEにおけるこの16ポイントという大きな差は、単なる統計的な異常ではありません。それは能力における根本的な違いを示しています。DeepSWEのタスクはゼロから作成され、古いリポジトリからのバグ修正だけでなく、新規で未見のシナリオにおける真の問題解決能力とエージェント的スキルを評価するように設計されています。古いベンチマークとは異なり、DeepSWEはモデルがトレーニングデータの汚染や単純な想起を利用するのを防ぎ、深く推論し、汎用的な知能を適用することを強制します。
GPT-5.5の圧倒的なパフォーマンスは、その優れた推論能力と、複雑で長期的なソフトウェアエンジニアリングの課題を乗り越える能力を強調しており、これは現実世界での委任において極めて重要な要素です。これは、モデルの実用性において顕著な違いを報告する開発者の意見と直接一致しています。Claude Opus 4.8やGemini 3.1 Proのような新しいイテレーションは改善を示していますが、このより挑戦的で現実世界を反映したベンチマークではGPT-5.5に引き続き遅れをとっており、現在の最先端を示しています。
リーダーボードを超えて:AIを評価する新しいルール
業界のリーダーは、単純な想起ベースの評価を放棄する必要があります。AI評価の未来は、DeepSWEや進化するSWE-bench Proのような汚染耐性のある多段階ベンチマークを求めています。DeepSWEの113のタスクは、91の多様なオープンソースリポジトリと5つのプログラミング言語(TypeScript, Go, Python, JavaScript, Rust)にまたがり、先行するベンチマークよりも平均で5.5倍多くのコード変更を必要とし、現実世界の複雑さを反映しています。
開発者や技術幹部は、誇張されたベンチマークスコアに深い懐疑心を持って接するべきです。OpenAI自身もSWE-bench Verifiedを廃止し、その改善がトレーニングへの露出を反映したものであり、現実世界での能力向上ではないことを認めました。代わりに、DeepSWEが単なる想起を超えて明らかにすることを特別に設計された、真の推論、計画、および新しい問題解決を要求するタスクでのパフォーマンスを優先してください。
AIコーディングアシスタントの真価は、2019年の些細なバグを修正すること(一般的なSWE-benchのシナリオ)ではありません。究極の課題は、高レベルの目標から完全に新しい機能を自律的に設計し、実装することにあります。DeepSWEは、この重要なスキルを測定し始めており、エージェント時代における最先端AIの能力を定義する、複雑で独創的な長期的なソフトウェアエンジニアリングタスクを反映しています。
よくある質問
SWEbenchベンチマークの何が問題なのですか?
SWEbench、特にSWE-bench Verifiedは、データ汚染(モデルがトレーニング中に解答を見た可能性がある)、欠陥のあるテストケース、および古いPythonのバグ修正に焦点を絞りすぎている点で批判されており、現代のAI問題解決スキルを測るには不十分な指標となっています。
DeepSWEとは何ですか、そしてどのように異なりますか?
DeepSWEは、5つの言語でゼロから書かれた独創的で複雑なソフトウェアエンジニアリングタスクを特徴とする新しいAIコーディングベンチマークです。これは、単なる想起ではなく、真の問題解決能力とエージェント的スキルをテストするように設計されており、現実世界の開発者の課題をよりよく反映しています。
DeepSWEによると、現在コーディングに最適なAIモデルはどれですか?
最新のDeepSWEの結果によると、OpenAIのGPT-5.5は70%の解決率で大幅なリードを保っており、54%を記録したClaude Opus 4.7のような競合他社をはるかに上回っています。
SWEbenchとDeepSWEはなぜAIモデルに対してこれほど異なるランキングを与えるのですか?
これらのベンチマークは異なるスキルをテストします。SWEbenchは、モデルがトレーニング中に見た可能性のある既知の問題の解決策を想起する能力のテストとなっています。DeepSWEは、最小限の指示から全く新しい複雑な問題を推論し解決する能力をテストします。