Skip to content

SWEbench レビュー

SWEbenchは、大規模言語モデルのソフトウェアエンジニアリング能力を評価するためのベンチマークであり、主に実際のGitHubイシューからのバグ修正に焦点を当てています。

shipped 2026年6月1日aifreemium
SWEbench - AI tool for swebench. Professional illustration showing core functionality and features.
12024年8月13日にリリースされたSWE-bench Verifiedは、エンジニアによって解決可能と確認された500の問題で構成されています。
22024年6月27日、SWE-benchは再現性を高めるため、Dockerを使用した完全にコンテナ化された評価ハーネスに移行しました。
32024年4月2日現在、SWE-agentはSWE-benchの全テストセットで最先端の結果を達成しました。
4SWE-Smith Multilingualは、2026年1月13日までに6,099の検証済みパッチでJavaScriptのサポートに拡大しました。

Stork Quadrant

Dead Man Walking· 12/100

An LLM can do most of what this tool's UI promises. No moat, no agent presence.

SWEbench is a benchmark, not a product — its value is being the agreed-upon measuring stick the industry uses to compare models. That brand authority is real: when Anthropic, OpenAI, and Google all cite your numbers, you have cultural lock-in that's hard to dislodge. But benchmarks get gamed, forked, and superseded fast. The data moat is thin — the GitHub issues and PRs are public — so the real moat is being first and cited enough that switching costs are social, not technical.

Claude Sonnet 4.6, scored 2026-06-01

Defensibility · 22/100

  • Physical-world coupling
  • Regulatory moat
  • Network liquidity
  • Proprietary refreshing data
  • High-trust catastrophic workflows
  • Multi-party coordination
  • Brand / community / taste

An LLM alone could replace

  • Generate a set of coding tasks or bug-fix prompts for testing an LLM
  • Evaluate whether a code patch is correct by describing expected behavior
  • Summarize model performance across a set of software engineering tasks
  • Write test cases to validate bug fixes

Agent-Readiness · 0/100

  • Verified MCP
  • Listed on agent surfaces
  • Usage-based pricing
  • Headless agent auth
  • Public OpenAPI
  • Active changelog
  • llms.txt

How to defend

Continuously expand the benchmark with harder, more diverse, and more recent tasks that can't be memorized by training data. Build the coordination layer — become the neutral third-party evaluation infrastructure that labs pay to run certified evals on, adding a trust and process moat on top of the brand.

  • Ship an MCP server and list it on Stork — biggest single point gain (+25).
  • Get listed in the Anthropic MCP registry, Cursor, or Claude Desktop (+20).
  • Add a usage-based or per-call tier; per-seat-only pricing dies when agents replace seats (+15).
  • Expose API-key auth with a self-serve sandbox tier; remove sales-call gates (+15).
  • Publish an OpenAPI spec at /openapi.json or /.well-known/openapi (+10).

SWEbench at a Glance

Pricing
freemium
Key Features
Evaluates large language models on real-world software issues from GitHub. · Includes SWE-bench Verified, a subset of 500 engineer-confirmed solvable problems. · SWE-bench++ extends the benchmark with 1865 tasks across 41 professional repositories.
Alternatives
HumanEval, LiveCodeBench, ClassEval, APPS (Automated Programming Progress Standard)
</>Embed "Featured on Stork" Badge
Badge previewBadge preview light
<a href="https://www.stork.ai/en/swebench" target="_blank" rel="noopener noreferrer"><img src="https://www.stork.ai/api/badge/swebench?style=dark" alt="SWEbench - Featured on Stork.ai" height="36" /></a>
[![SWEbench - Featured on Stork.ai](https://www.stork.ai/api/badge/swebench?style=dark)](https://www.stork.ai/en/swebench)

overview

SWEbenchとは?

SWEbenchは、大規模言語モデル(LLM)の開発者や研究者が大規模言語モデルのソフトウェアエンジニアリング能力を評価できるようにする、研究イニシアチブによって開発されたベンチマークツールです。主に、AIコーディングエージェントがGitHubからの実際のソフトウェア問題を解決する能力を評価することに焦点を当てています。このプラットフォームは、コードベースと問題の説明を提供することで複雑なコーディング課題をシミュレートし、LLMに問題を解決するパッチの生成をタスクとして与えます。SWEbenchは、ソフトウェア開発におけるAIの厳格な評価プラットフォームとして機能し、大規模な既存のコードベース内で実際のバグを理解し、ナビゲートし、修正する、または機能を実装するAIコーディングエージェントの能力をベンチマークします。高いベンチマークを設定することで、AIモデルのコーディング標準、生産性、およびバグ解決の改善を促進することを目指しています。

quick facts

基本情報

属性
開発者Research Initiative
ビジネスモデルフリーミアム
価格フリーミアム(研究目的のコアベンチマークは無料)
データソースGitHubからの実際のソフトウェア問題
APIの利用可否いいえ
ユーザーデータでのトレーニング常時

features

SWEbenchの主な機能

SWEbenchは、実際のソフトウェアエンジニアリングの課題に焦点を当て、AIコーディングモデルの厳格な評価と開発のために設計された包括的な機能セットを提供します。

  • 1大規模言語モデルのソフトウェアエンジニアリング能力を実際の課題で評価します。
  • 2実用的な関連性のために、主にGitHubイシューからのバグ修正に焦点を当てています。
  • 3前処理されたデータセットを使用してAIコーディングモデルのトレーニングをサポートします。
  • 4既存のAIモデルでソフトウェア問題解決のための推論実行を可能にします。
  • 5カスタムリポジトリから新しいSWE-benchタスクを作成できます。
  • 6異なるAIコーディングシステムのパフォーマンスをベンチマークし、比較することを容易にします。
  • 7再現性のある評価のために、Dockerを使用した完全にコンテナ化された評価ハーネスを提供します。
  • 8エンジニアによって解決可能と確認された500の問題のサブセットであるSWE-bench Verifiedを含みます。
  • 9画像や図などの視覚要素を含むイシューを統合するSWE-bench Multimodalを特徴とします(2025年1月13日現在)。
  • 10Modalを介したクラウドベースの評価を提供します(2025年1月11日現在)。

use cases

SWEbenchは誰が使うべきか?

SWEbenchは、ソフトウェアエンジニアリングにおける人工知能の開発、評価、および応用に従事する特定の読者向けに設計されています。

  • 1**大規模言語モデル(LLM)開発者および研究者:** 実際のソフトウェアエンジニアリングタスクでLLMを評価し、パフォーマンスを比較するため。
  • 2**AIシステム開発者:** 異なるAIコーディングシステムのパフォーマンスをベンチマークし比較し、ソフトウェア開発ライフサイクル(SDLC)を強化するため。
  • 3**ソフトウェアエンジニアおよびエンジニアリングチーム:** AIエージェントの実際のコーディングスキルを特定し、バグ解決のためにAIを統合する可能性を探るため。
  • 4**機械学習実務者:** 前処理されたデータセットを使用してAIコーディングモデルをトレーニングし、既存のAIモデルで推論を実行するため。
  • 5**NLP研究者:** 複雑なコード理解および生成タスクにおける自然言語処理の応用を探求するため。

pricing

SWEbenchの価格とプラン

SWEbenchはフリーミアムモデルで運営されており、主に研究ベンチマークとして機能します。コアベンチマーク、データセット、および評価ハーネスは通常無料で利用でき、学術研究および開発活動をサポートします。高度な機能や専用サポートを備えた特定の商用またはエンタープライズレベルの提供は、公には詳細が明らかにされていません。

  • 1無料ティア: 研究および学術用途向けのコアベンチマーク、データセット、および評価ツールへのアクセス。
  • 2プレミアムティア: 公には詳細が明らかにされていません。エンタープライズまたは高度な評価サービスの可能性は存在するかもしれませんが、具体的には明記されていません。

competitors

SWEbenchと競合他社

SWEbenchは、LLMのエンドツーエンドのソフトウェアエンジニアリング能力を評価するための主要なベンチマークとして位置付けられており、特に実際のバグ修正に焦点を当てています。実際のGitHubイシューとリポジトリレベルの問題解決に重点を置くことで、他のベンチマークと差別化を図っています。

1

HumanEval is a benchmark dataset developed by OpenAI specifically for evaluating large language models on code generation tasks, focusing on understanding programming tasks and producing syntactically correct and functionally accurate code.

SWEbench focuses on real-world bug fixes in existing codebases, requiring models to handle long contexts and operate within execution environments. HumanEval, in contrast, primarily assesses the ability to generate standalone functions from docstrings and unit tests, making it a simpler, function-level code generation benchmark.

2
LiveCodeBench

LiveCodeBench evaluates LLMs on 400 problems from competitive programming platforms, focusing on code generation, self-repair, and test output prediction, with problems updated over time to reduce data contamination.

While SWEbench focuses on fixing real-world bugs in existing repositories, LiveCodeBench emphasizes competitive programming challenges and the ability to self-repair code, often using problems released after a model's training cutoff to ensure genuine generalization.

3

ClassEval is a manually constructed benchmark that measures how well LLMs can generate full classes of code, including tasks with library, field, or method dependencies, reflecting real-world software engineering scenarios.

SWEbench evaluates bug-fixing capabilities within large, existing codebases, whereas ClassEval specifically assesses the generation of complete, interdependent code classes, moving beyond isolated functions to more complex structural coding tasks.

4

APPS is a large-scale code generation benchmark comprising 10,000 problems collected from open-access competitive coding websites, ranging from one-line solutions to substantial algorithmic challenges.

SWEbench is centered on resolving real-world software issues and generating patches for bugs in existing repositories. APPS, conversely, evaluates an LLM's ability to generate satisfactory Python code from natural language specifications, primarily focusing on algorithmic problem-solving rather than bug fixing in a pre-existing codebase.

5
Real-World Software Engineering Tasks (Upwork Benchmark)

This benchmark evaluates LLMs on real-world software engineering tasks sourced directly from Upwork freelance jobs, including both coding ability and engineering management decisions, with actual dollar values attached.

Both SWEbench and this benchmark focus on real-world software engineering problems. However, the Upwork benchmark uniquely ties performance to economic value and includes higher-level engineering management decisions, whereas SWEbench is specifically focused on generating patches to fix GitHub issues.

よくある質問

+SWEbenchとは何ですか?

SWEbenchは、大規模言語モデル(LLM)の開発者や研究者が大規模言語モデルのソフトウェアエンジニアリング能力を評価できるようにする、研究イニシアチブによって開発されたベンチマークツールです。主に、AIコーディングエージェントがGitHubからの実際のソフトウェア問題を解決する能力を評価することに焦点を当てています。

+SWEbenchは無料ですか?

SWEbenchはフリーミアムモデルで運営されています。コアベンチマーク、データセット、および評価ハーネスは通常無料で利用でき、主に学術研究および開発活動をサポートします。特定の商用またはエンタープライズレベルの提供は、公には詳細が明らかにされていません。

+SWEbenchの主な機能は何ですか?

SWEbenchの主な機能には、実際のGitHubバグ修正におけるLLMの評価、AIコーディングモデルのトレーニングサポート、既存モデルでの推論の有効化、カスタムリポジリからの新規タスク作成の許可、および包括的なベンチマークの促進が含まれます。また、コンテナ化された評価ハーネスを提供し、SWE-bench VerifiedやSWE-bench Multimodalのような専門バージョンも含まれています。

+SWEbenchは誰が使用すべきですか?

SWEbenchは主に、実際のソフトウェアエンジニアリングタスク、特にバグ解決におけるAIの能力を評価および改善することに焦点を当てている大規模言語モデル(LLM)開発者および研究者、AIシステム開発者、ソフトウェアエンジニア、機械学習実務者、およびNLP研究者を対象としています。

+SWEbenchは代替品と比較してどうですか?

SWEbenchは、合成的にバグが仕込まれた関数レベルの問題を使用するHumanEvalFixとは異なり、GitHubイシューからの実際の、リポジトリレベルのバグ修正に焦点を当てることで差別化を図っています。RepoFixEvalとは範囲が似ていますが、SWEbenchは明示的に3段階の評価フレームワークを使用していません。LiveCodeBenchと比較すると、SWEbenchはバグ修正に特化しており、LiveCodeBenchはより広範なコーディング能力の評価を提供します。SM-100に対しては、SWEbenchが主にPythonに焦点を当てているのに対し、SM-100はソフトウェアメンテナンスタスクのために複数のプログラミング言語をカバーしています。

For builders

This page is doing a job for someone else’s tool.

AI agents read it. Buyers find it. Backlinks accrue. Your tool can have one too — live in 24 hours, indexed by Claude, ChatGPT, and Perplexity, queryable via MCP.