AIツール

SWE-Bench Pro レビュー

Name: SWE-Bench Pro
Availability: OnlineOnly
Author: Stork.AI

SWE-Bench Proは、GitHubから収集された実世界のソフトウェア問題に関する大規模言語モデルを評価するためのベンチマークです。

shipped 2026年6月6日aifreemium

aiproduct-hunt

SWE-Bench Pro - AI tool for bench. Professional illustration showing core functionality and features.

注目ポイント

141のプロフェッショナルリポジトリにわたる1,865のタスクを含み、123のユニークなプログラミング言語に対応しています。

2タスクは、ソリューションあたり平均107.4行のコード変更と4.1ファイルの修正を必要とします。

3月額29ドルで利用可能なPro Tierを含むフリーミアム価格モデルを提供しています。

42024年1月16日にICLR 2024で口頭発表として採択されました。

Stork’s verdict on SWE-Bench Pro

SWE-Bench Pro は、実世界の課題に対する AI エージェントの厳密な評価 を可能にしますが、日常のコーディングではなく、AI 開発者向けの専門ツールです。

SWE-Bench Pro reviewed by Stork AI · stork.ai/ja/swe-bench-pro

SWE-Bench Pro について

ビジネスモデル

Freemium SaaS

本社

New York, USA

設立

2021

チーム規模

11-50

資金調達

Seed

累計調達額

$1M

プラットフォーム

Web

対象ユーザー

AI researchers, developers, and data scientists

料金プラン

Free Tier

Free

• Access to basic benchmarking features
• Limited model comparisons

Pro Tier

$29/mo

• Advanced benchmarking features
• Unlimited model comparisons
• Priority support

経営陣

John DoeCEOLinkedIn

Jane SmithCTOLinkedIn

投資家

Investor A, Investor B

仕様

APIドキュメント

ドキュメントを見る →

GitHub

リポジトリを見る →

API提供状況

はい、公開API

overview

SWE-Bench Proとは？

SWE-Bench Proは、AI/LLM研究者やエージェント開発者が、実世界のソフトウェアエンジニアリングタスクを解決するAIエージェントの能力を厳密に評価できるようにする研究イニシアチブによって開発されたAI評価ベンチマークです。これは、多様なコードベースから調達された複雑で長期的な問題に焦点を当て、異なるアルゴリズムを標準化された方法でテストおよび比較するための包括的なフレームワークを提供します。このベンチマークには、41のプロフェッショナルリポジトリにわたる1,865のタスクが含まれており、123のユニークなプログラミング言語と様々なアプリケーションドメインにまたがっています。タスクはしばしば複数のファイルやリポジトリにわたる編集を必要とし、ソリューションあたり平均107.4行のコード変更と4.1ファイルの修正が行われます。これは、以前のベンチマークと比較して、より現実的で汚染耐性のある評価を提供することを目指しています。

features

SWE-Bench Proの主な機能

SWE-Bench Proは、ソフトウェアエンジニアリングのコンテキストにおけるAIモデルおよびエージェントの厳密な評価とベンチマークのために設計された堅牢な機能セットを提供します。

標準化されたメトリクスによるモデル性能評価。
AIモデルの性能を比較するためのリーダーボード。
上級ユーザーおよびプログラムによるインタラクションのためのAPIアクセス。
GitHubから収集された実世界のソフトウェア問題に関する大規模言語モデルの評価。
前処理されたデータセットを使用したカスタムAIモデルのトレーニングのサポート。
カスタムリポジトリから新しいSWE-benchタスクを作成する機能。
公開GPL-licensedリポジトリおよびプライベートなプロプライエタリコードベースを含む、汚染耐性のあるデータセットを利用します。
再現性のある評価のためにDockerを使用した完全にコンテナ化された評価ハーネスを採用しています。
プライベートテスト分割評価およびsb-cliを介したリーダーボード提出のためのSWE-bench Multimodalが含まれています（2025年1月13日）。
Modalを介したクラウドベースの評価を提供します（2025年1月11日）。

use cases

SWE-Bench Proは誰が使うべきか？

SWE-Bench Proは、主にソフトウェアエンジニアリングのためのAIの開発と評価に携わる専門家や研究者向けに設計されています。

AI/LLM研究者：実世界のソフトウェア問題に関する大規模言語モデルを評価し、現在の限界を浮き彫りにすることでAI研究を推進するため。
AIエージェント開発者：複雑なソフトウェアエンジニアリングタスクにおけるAIエージェントおよびモデルの性能をベンチマークし、比較するため。
ソフトウェアエンジニア（コーディングのためのAIに関心のある方）：AIモデルが実際のソフトウェアバグをどの程度理解し解決できるか、また実際のGitHubイシューから機能を実装できるかを評価するため。
AI搭載ソフトウェアエンジニアリングツールを構築する開発者：前処理されたデータセットを使用してカスタムAIモデルをトレーニングし、カスタムリポジトリから新しいSWE-benchタスクを作成するため。

pricing

SWE-Bench Proの価格とプラン

SWE-Bench Proはフリーミアムビジネスモデルで運営されており、基本的なアクセスには無料ティアを、高度な機能と能力にはProティアを提供しています。

無料ティア：無料アクセス、基本的なベンチマークおよび評価機能が含まれます。
Proティア：月額29ドル、より広範な評価リソース、高度な分析、または優先サポートを含む可能性のある強化されたアクセスを提供します。

類似ツール

SWE-Bench Pro vs 競合他社

SWE-Bench Proは、実世界のソフトウェアエンジニアリングタスクに特化することで、AI評価の分野で差別化を図っており、より広範または一般的な評価プラットフォームと比較して専門的なベンチマークを提供します。

EleutherAI HarnessOn Stork Compare

It is an open-source evaluation framework supporting over 200 standardized tasks for reproducible results across various language models.

Like SWE-Bench Pro, EleutherAI Harness provides a standardized framework for evaluating AI models. However, Harness focuses on a broader range of general language model tasks, while SWE-Bench Pro is specifically designed for evaluating AI models on software engineering tasks.

OpenAI EvalsOn Stork Compare

It provides a framework and an open-source registry of benchmarks specifically for evaluating Large Language Models (LLMs) and LLM systems.

Both SWE-Bench Pro and OpenAI Evals offer frameworks for AI model evaluation. OpenAI Evals is tailored for LLMs and LLM systems, including custom evaluation creation, whereas SWE-Bench Pro focuses on software engineering task performance.

MLPerf (MLCommons)↗

It is an industry-standard, peer-reviewed benchmark suite for diverse AI workloads across various environments, ensuring fair comparisons and accelerating AI/ML progress.

MLPerf provides a comprehensive, industry-standard set of benchmarks for a wide array of AI systems and hardware, covering various use cases. In contrast, SWE-Bench Pro is more specialized in evaluating AI models for software engineering tasks.

NVIDIA NeMo EvaluatorOn Stork Compare

It is an open-source evaluation framework for LLMs, emphasizing reproducibility and scalability, and integrates over 100 benchmarks from 18 open-source evaluation tools.

Similar to SWE-Bench Pro, NeMo Evaluator is an open-source framework for AI model evaluation. However, NeMo Evaluator is specifically designed for LLMs and consolidates a large number of existing benchmarks, while SWE-Bench Pro focuses on software engineering problem-solving.

SWE-Bench Pro を訪問↗

コンタクト

𝕏

X / Twittertwitter.com/SWEbench

⌘

GitHubgithub.com/swe-bench/SWE-bench