SWEbenchは無料ですか？

SWEbenchはフリーミアムモデルで運営されています。コアベンチマーク、データセット、および評価ハーネスは通常無料で利用でき、主に学術研究および開発活動をサポートします。特定の商用またはエンタープライズレベルの提供は、公には詳細が明らかにされていません。

SWEbenchの主な機能は何ですか？

SWEbenchの主な機能には、実際のGitHubバグ修正におけるLLMの評価、AIコーディングモデルのトレーニングサポート、既存モデルでの推論の有効化、カスタムリポジリからの新規タスク作成の許可、および包括的なベンチマークの促進が含まれます。また、コンテナ化された評価ハーネスを提供し、SWE-bench VerifiedやSWE-bench Multimodalのような専門バージョンも含まれています。

SWEbenchは誰が使用すべきですか？

SWEbenchは主に、実際のソフトウェアエンジニアリングタスク、特にバグ解決におけるAIの能力を評価および改善することに焦点を当てている大規模言語モデル（LLM）開発者および研究者、AIシステム開発者、ソフトウェアエンジニア、機械学習実務者、およびNLP研究者を対象としています。

SWEbenchは代替品と比較してどうですか？

SWEbenchは、合成的にバグが仕込まれた関数レベルの問題を使用するHumanEvalFixとは異なり、GitHubイシューからの実際の、リポジトリレベルのバグ修正に焦点を当てることで差別化を図っています。RepoFixEvalとは範囲が似ていますが、SWEbenchは明示的に3段階の評価フレームワークを使用していません。LiveCodeBenchと比較すると、SWEbenchはバグ修正に特化しており、LiveCodeBenchはより広範なコーディング能力の評価を提供します。SM-100に対しては、SWEbenchが主にPythonに焦点を当てているのに対し、SM-100はソフトウェアメンテナンスタスクのために複数のプログラミング言語をカバーしています。

AIツール

SWEbench レビュー

Name: SWEbench
Availability: OnlineOnly
Author: Stork.AI

SWEbenchは、大規模言語モデルのソフトウェアエンジニアリング能力を評価するためのベンチマークであり、主に実際のGitHubイシューからのバグ修正に焦点を当てています。

shipped 2026年6月1日aifreemium

SWEbench - AI tool for swebench. Professional illustration showing core functionality and features.

注目ポイント

12024年8月13日にリリースされたSWE-bench Verifiedは、エンジニアによって解決可能と確認された500の問題で構成されています。

22024年6月27日、SWE-benchは再現性を高めるため、Dockerを使用した完全にコンテナ化された評価ハーネスに移行しました。

32024年4月2日現在、SWE-agentはSWE-benchの全テストセットで最先端の結果を達成しました。

4SWE-Smith Multilingualは、2026年1月13日までに6,099の検証済みパッチでJavaScriptのサポートに拡大しました。

Stork’s verdict on SWEbench

SWEbenchはLLMのバグ修正スキルの再現可能な評価を提供しますが、エンジニア向けのコーディングツールではなく、研究者向けのベンチマークです。

SWEbench reviewed by Stork AI · stork.ai/ja/swebench

仕様

GitHub

リポジトリを見る →

API提供状況

はい、公開API

overview

SWEbenchとは？

SWEbenchは、大規模言語モデル（LLM）の開発者や研究者が大規模言語モデルのソフトウェアエンジニアリング能力を評価できるようにする、研究イニシアチブによって開発されたベンチマークツールです。主に、AIコーディングエージェントがGitHubからの実際のソフトウェア問題を解決する能力を評価することに焦点を当てています。このプラットフォームは、コードベースと問題の説明を提供することで複雑なコーディング課題をシミュレートし、LLMに問題を解決するパッチの生成をタスクとして与えます。SWEbenchは、ソフトウェア開発におけるAIの厳格な評価プラットフォームとして機能し、大規模な既存のコードベース内で実際のバグを理解し、ナビゲートし、修正する、または機能を実装するAIコーディングエージェントの能力をベンチマークします。高いベンチマークを設定することで、AIモデルのコーディング標準、生産性、およびバグ解決の改善を促進することを目指しています。

features

SWEbenchの主な機能

SWEbenchは、実際のソフトウェアエンジニアリングの課題に焦点を当て、AIコーディングモデルの厳格な評価と開発のために設計された包括的な機能セットを提供します。

大規模言語モデルのソフトウェアエンジニアリング能力を実際の課題で評価します。
実用的な関連性のために、主にGitHubイシューからのバグ修正に焦点を当てています。
前処理されたデータセットを使用してAIコーディングモデルのトレーニングをサポートします。
既存のAIモデルでソフトウェア問題解決のための推論実行を可能にします。
カスタムリポジトリから新しいSWE-benchタスクを作成できます。
異なるAIコーディングシステムのパフォーマンスをベンチマークし、比較することを容易にします。
再現性のある評価のために、Dockerを使用した完全にコンテナ化された評価ハーネスを提供します。
エンジニアによって解決可能と確認された500の問題のサブセットであるSWE-bench Verifiedを含みます。
画像や図などの視覚要素を含むイシューを統合するSWE-bench Multimodalを特徴とします（2025年1月13日現在）。
Modalを介したクラウドベースの評価を提供します（2025年1月11日現在）。

use cases

SWEbenchは誰が使うべきか？

SWEbenchは、ソフトウェアエンジニアリングにおける人工知能の開発、評価、および応用に従事する特定の読者向けに設計されています。

大規模言語モデル（LLM）開発者および研究者: 実際のソフトウェアエンジニアリングタスクでLLMを評価し、パフォーマンスを比較するため。
AIシステム開発者: 異なるAIコーディングシステムのパフォーマンスをベンチマークし比較し、ソフトウェア開発ライフサイクル（SDLC）を強化するため。
ソフトウェアエンジニアおよびエンジニアリングチーム: AIエージェントの実際のコーディングスキルを特定し、バグ解決のためにAIを統合する可能性を探るため。
機械学習実務者: 前処理されたデータセットを使用してAIコーディングモデルをトレーニングし、既存のAIモデルで推論を実行するため。
NLP研究者: 複雑なコード理解および生成タスクにおける自然言語処理の応用を探求するため。

pricing

SWEbenchの価格とプラン

SWEbenchはフリーミアムモデルで運営されており、主に研究ベンチマークとして機能します。コアベンチマーク、データセット、および評価ハーネスは通常無料で利用でき、学術研究および開発活動をサポートします。高度な機能や専用サポートを備えた特定の商用またはエンタープライズレベルの提供は、公には詳細が明らかにされていません。

無料ティア: 研究および学術用途向けのコアベンチマーク、データセット、および評価ツールへのアクセス。
プレミアムティア: 公には詳細が明らかにされていません。エンタープライズまたは高度な評価サービスの可能性は存在するかもしれませんが、具体的には明記されていません。

類似ツール

SWEbenchと競合他社

SWEbenchは、LLMのエンドツーエンドのソフトウェアエンジニアリング能力を評価するための主要なベンチマークとして位置付けられており、特に実際のバグ修正に焦点を当てています。実際のGitHubイシューとリポジトリレベルの問題解決に重点を置くことで、他のベンチマークと差別化を図っています。

HumanEvalOn Stork Compare

HumanEval is a benchmark dataset developed by OpenAI specifically for evaluating large language models on code generation tasks, focusing on understanding programming tasks and producing syntactically correct and functionally accurate code.

SWEbench focuses on real-world bug fixes in existing codebases, requiring models to handle long contexts and operate within execution environments. HumanEval, in contrast, primarily assesses the ability to generate standalone functions from docstrings and unit tests, making it a simpler, function-level code generation benchmark.

LiveCodeBench↗

LiveCodeBench evaluates LLMs on 400 problems from competitive programming platforms, focusing on code generation, self-repair, and test output prediction, with problems updated over time to reduce data contamination.

While SWEbench focuses on fixing real-world bugs in existing repositories, LiveCodeBench emphasizes competitive programming challenges and the ability to self-repair code, often using problems released after a model's training cutoff to ensure genuine generalization.

ClassEvalOn Stork Compare

ClassEval is a manually constructed benchmark that measures how well LLMs can generate full classes of code, including tasks with library, field, or method dependencies, reflecting real-world software engineering scenarios.

SWEbench evaluates bug-fixing capabilities within large, existing codebases, whereas ClassEval specifically assesses the generation of complete, interdependent code classes, moving beyond isolated functions to more complex structural coding tasks.

APPS (Automated Programming Progress Standard)On Stork Compare

APPS is a large-scale code generation benchmark comprising 10,000 problems collected from open-access competitive coding websites, ranging from one-line solutions to substantial algorithmic challenges.

SWEbench is centered on resolving real-world software issues and generating patches for bugs in existing repositories. APPS, conversely, evaluates an LLM's ability to generate satisfactory Python code from natural language specifications, primarily focusing on algorithmic problem-solving rather than bug fixing in a pre-existing codebase.

Real-World Software Engineering Tasks (Upwork Benchmark)↗

This benchmark evaluates LLMs on real-world software engineering tasks sourced directly from Upwork freelance jobs, including both coding ability and engineering management decisions, with actual dollar values attached.

Both SWEbench and this benchmark focus on real-world software engineering problems. However, the Upwork benchmark uniquely ties performance to economic value and includes higher-level engineering management decisions, whereas SWEbench is specifically focused on generating patches to fix GitHub issues.

SWEbench を訪問↗

コンタクト

𝕏

X / Twittertwitter.com/SWEbench

⌘

GitHubgithub.com/swe-bench/SWE-bench

AI Reputation Report

Is SWEbench yours?

ChatGPT, Perplexity, Gemini, Claude & Grok answer buyer questions about SWEbench every day. See whether they name SWEbench — or send buyers to a rival.

See what AI saysfree preview