Skip to content
AIツール

SWE-Bench Pro レビュー

SWE-Bench Proは、GitHubから収集された実世界のソフトウェア問題に関する大規模言語モデルを評価するためのベンチマークです。

shipped 2026年6月6日aifreemium
SWE-Bench Pro - AI tool for bench. Professional illustration showing core functionality and features.
141のプロフェッショナルリポジトリにわたる1,865のタスクを含み、123のユニークなプログラミング言語に対応しています。
2タスクは、ソリューションあたり平均107.4行のコード変更と4.1ファイルの修正を必要とします。
3月額29ドルで利用可能なPro Tierを含むフリーミアム価格モデルを提供しています。
42024年1月16日にICLR 2024で口頭発表として採択されました。

SWE-Bench Pro at a Glance

Best For
AI researchers, developers, and data scientists
Pricing
Freemium SaaS — from Free
Key Features
Model performance evaluation, Leaderboards for AI models, Standardized benchmarking metrics, User-friendly interface, API access for advanced users
Alternatives
Competitor A, Competitor B

About SWE-Bench Pro

Business Model
Freemium SaaS
Headquarters
New York, USA
Founded
2021
Team Size
11-50
Funding
Seed
Total Raised
$1M
Platforms
Web
Target Audience
AI researchers, developers, and data scientists

Pricing Plans

Free Tier
Free / monthly
  • Access to basic benchmarking features
  • Limited model comparisons
Pro Tier
$29/mo / monthly
  • Advanced benchmarking features
  • Unlimited model comparisons
  • Priority support

Leadership

John DoeCEOLinkedIn
Jane SmithCTOLinkedIn

Investors

Investor A, Investor B

</>Embed "Featured on Stork" Badge
Badge previewBadge preview light
<a href="https://www.stork.ai/en/swe-bench-pro" target="_blank" rel="noopener noreferrer"><img src="https://www.stork.ai/api/badge/swe-bench-pro?style=dark" alt="SWE-Bench Pro - Featured on Stork.ai" height="36" /></a>
[![SWE-Bench Pro - Featured on Stork.ai](https://www.stork.ai/api/badge/swe-bench-pro?style=dark)](https://www.stork.ai/en/swe-bench-pro)

overview

SWE-Bench Proとは?

SWE-Bench Proは、AI/LLM研究者やエージェント開発者が、実世界のソフトウェアエンジニアリングタスクを解決するAIエージェントの能力を厳密に評価できるようにする研究イニシアチブによって開発されたAI評価ベンチマークです。これは、多様なコードベースから調達された複雑で長期的な問題に焦点を当て、異なるアルゴリズムを標準化された方法でテストおよび比較するための包括的なフレームワークを提供します。このベンチマークには、41のプロフェッショナルリポジトリにわたる1,865のタスクが含まれており、123のユニークなプログラミング言語と様々なアプリケーションドメインにまたがっています。タスクはしばしば複数のファイルやリポジトリにわたる編集を必要とし、ソリューションあたり平均107.4行のコード変更と4.1ファイルの修正が行われます。これは、以前のベンチマークと比較して、より現実的で汚染耐性のある評価を提供することを目指しています。

quick facts

クイックファクト

属性
開発者未指定
ビジネスモデルFreemium SaaS
価格Freemium、月額29ドルから
プラットフォームWeb
API利用可能はい
設立2021
本社ニューヨーク、USA
資金調達シード、100万ドル

features

SWE-Bench Proの主な機能

SWE-Bench Proは、ソフトウェアエンジニアリングのコンテキストにおけるAIモデルおよびエージェントの厳密な評価とベンチマークのために設計された堅牢な機能セットを提供します。

  • 1標準化されたメトリクスによるモデル性能評価。
  • 2AIモデルの性能を比較するためのリーダーボード。
  • 3上級ユーザーおよびプログラムによるインタラクションのためのAPIアクセス。
  • 4GitHubから収集された実世界のソフトウェア問題に関する大規模言語モデルの評価。
  • 5前処理されたデータセットを使用したカスタムAIモデルのトレーニングのサポート。
  • 6カスタムリポジトリから新しいSWE-benchタスクを作成する機能。
  • 7公開GPL-licensedリポジトリおよびプライベートなプロプライエタリコードベースを含む、汚染耐性のあるデータセットを利用します。
  • 8再現性のある評価のためにDockerを使用した完全にコンテナ化された評価ハーネスを採用しています。
  • 9プライベートテスト分割評価および`sb-cli`を介したリーダーボード提出のためのSWE-bench Multimodalが含まれています(2025年1月13日)。
  • 10Modalを介したクラウドベースの評価を提供します(2025年1月11日)。

use cases

SWE-Bench Proは誰が使うべきか?

SWE-Bench Proは、主にソフトウェアエンジニアリングのためのAIの開発と評価に携わる専門家や研究者向けに設計されています。

  • 1AI/LLM研究者:実世界のソフトウェア問題に関する大規模言語モデルを評価し、現在の限界を浮き彫りにすることでAI研究を推進するため。
  • 2AIエージェント開発者:複雑なソフトウェアエンジニアリングタスクにおけるAIエージェントおよびモデルの性能をベンチマークし、比較するため。
  • 3ソフトウェアエンジニア(コーディングのためのAIに関心のある方):AIモデルが実際のソフトウェアバグをどの程度理解し解決できるか、また実際のGitHubイシューから機能を実装できるかを評価するため。
  • 4AI搭載ソフトウェアエンジニアリングツールを構築する開発者:前処理されたデータセットを使用してカスタムAIモデルをトレーニングし、カスタムリポジトリから新しいSWE-benchタスクを作成するため。

pricing

SWE-Bench Proの価格とプラン

SWE-Bench Proはフリーミアムビジネスモデルで運営されており、基本的なアクセスには無料ティアを、高度な機能と能力にはProティアを提供しています。

  • 1無料ティア:無料アクセス、基本的なベンチマークおよび評価機能が含まれます。
  • 2Proティア:月額29ドル、より広範な評価リソース、高度な分析、または優先サポートを含む可能性のある強化されたアクセスを提供します。

competitors

SWE-Bench Pro vs 競合他社

SWE-Bench Proは、実世界のソフトウェアエンジニアリングタスクに特化することで、AI評価の分野で差別化を図っており、より広範または一般的な評価プラットフォームと比較して専門的なベンチマークを提供します。

1

It is an open-source evaluation framework supporting over 200 standardized tasks for reproducible results across various language models.

Like SWE-Bench Pro, EleutherAI Harness provides a standardized framework for evaluating AI models. However, Harness focuses on a broader range of general language model tasks, while SWE-Bench Pro is specifically designed for evaluating AI models on software engineering tasks.

2

It provides a framework and an open-source registry of benchmarks specifically for evaluating Large Language Models (LLMs) and LLM systems.

Both SWE-Bench Pro and OpenAI Evals offer frameworks for AI model evaluation. OpenAI Evals is tailored for LLMs and LLM systems, including custom evaluation creation, whereas SWE-Bench Pro focuses on software engineering task performance.

3
MLPerf (MLCommons)

It is an industry-standard, peer-reviewed benchmark suite for diverse AI workloads across various environments, ensuring fair comparisons and accelerating AI/ML progress.

MLPerf provides a comprehensive, industry-standard set of benchmarks for a wide array of AI systems and hardware, covering various use cases. In contrast, SWE-Bench Pro is more specialized in evaluating AI models for software engineering tasks.

4

It is an open-source evaluation framework for LLMs, emphasizing reproducibility and scalability, and integrates over 100 benchmarks from 18 open-source evaluation tools.

Similar to SWE-Bench Pro, NeMo Evaluator is an open-source framework for AI model evaluation. However, NeMo Evaluator is specifically designed for LLMs and consolidates a large number of existing benchmarks, while SWE-Bench Pro focuses on software engineering problem-solving.

よくある質問

+SWE-Bench Proとは何ですか?

SWE-Bench Proは、AI/LLM研究者やエージェント開発者が、実世界のソフトウェアエンジニアリングタスクを解決するAIエージェントの能力を厳密に評価できるようにする研究イニシアチブによって開発されたAI評価ベンチマークです。これは、多様なコードベースから調達された複雑で長期的な問題に焦点を当て、異なるアルゴリズムを標準化された方法でテストおよび比較するための包括的なフレームワークを提供します。

+SWE-Bench Proは無料ですか?

はい、SWE-Bench Proは無料ティアを提供しています。さらに、月額29ドルでProティアも利用でき、より高度な機能と能力にアクセスできます。

+SWE-Bench Proの主な機能は何ですか?

SWE-Bench Proの主な機能には、モデル性能評価、AIモデル用リーダーボード、標準化されたベンチマークメトリクス、APIアクセス、実世界のGitHubソフトウェア問題に関するLLMの評価、カスタムAIモデルのトレーニングサポート、カスタムリポジリから新しいSWE-benchタスクを作成する機能が含まれます。また、コンテナ化された評価ハーネスと汚染耐性のあるデータセットも利用しています。

+SWE-Bench Proは誰が使うべきですか?

SWE-Bench Proは、AI/LLM研究者、AIエージェント開発者、コーディングのためのAIに関心のあるソフトウェアエンジニア、およびAI搭載ソフトウェアエンジニアリングツールを構築する開発者向けです。これらのグループが、複雑なソフトウェアエンジニアリング問題を解決するAIモデルの能力を評価、ベンチマーク、改善するのに役立ちます。

+SWE-Bench Proは代替品と比較してどうですか?

SWE-Bench Proは、実世界のソフトウェアエンジニアリングタスクにおけるAIエージェントの評価に特化することで差別化を図っています。EvalAIのような広範なプラットフォームや、HELMやDeepEvalのような一般的なLLM評価フレームワークとは異なり、SWE-Bench Proはコーディングエージェントに特化したベンチマークを提供します。Arize AIのような包括的なエンタープライズプラットフォームと比較すると、SWE-Bench ProはエンドツーエンドのAIライフサイクル管理ソリューションではなく、専門的なベンチマークです。

Storkでもっと

関連AIツール

このカテゴリの他のツール(コミュニティ評価順)

ディレクトリ全体を見る →
AWEAR logo

AWEAR

🤖 AI Tools

エレガントでパワフルなテクノロジーがあなたの生活にシームレスにフィットし、最先端のAIとneuroscienceを駆使してストレス、集中力、感情をリアルタイムで追跡します。精神的負担の隠れた層を理解し、レジリエンスを構築し、バランスを保ちましょう。

Recoverit logo

Recoverit

🤖 AI Tools

Recoverit AI搭載データ復元ソフトウェアは、ハードドライブ、SDカード、USBドライブ、クラッシュしたPC、Macデバイスから削除されたファイル、写真、ビデオ、ドキュメントの復元をサポートします。無料ダウンロード。

PatchDesign.AI logo

PatchDesign.AI

🤖 AI Tools

無料AIパッチデザインツール。 生成回数無制限、サブスクリプション不要、クレジットカード不要。 専門家による人間による刺繍レビュー込み。 刺繍、PVC、

WolfBench logo

WolfBench

🤖 AI Tools

WolframはWolfBenchに、目立たないが重要な機能を搭載しました。それは、各バーの奥行きが、モデルがそのスコアを得るために使用したトークン数を表す3Dバーです。

Agent Arena logo

Agent Arena

🤖 AI Tools

世界最高のAIモデルについてチャットし、比較し、投票しましょう。実世界での評価を通じて、LLM、画像、コードモデルのpublic leaderboardを形作るコミュニティに参加しましょう

atomic.chat logo

atomic.chat

🤖 AI Tools

Mac、Windows、iPhone向けの無料オープンソースローカルAIチャット。Llama、Qwen、DeepSeek、Gemmaをオフラインで実行 — 1,000以上のモデル、クラウド不要、サブスクリプション不要。無料ダウンロード。

For builders

This page is doing a job for someone else’s tool.

AI agents read it. Buyers find it. Backlinks accrue. Your tool can have one too — live in 24 hours, indexed by Claude, ChatGPT, and Perplexity, queryable via MCP.