Outil d'IA

Revue de SWE-Bench Pro

Name: SWE-Bench Pro
Availability: OnlineOnly
Author: Stork.AI

SWE-Bench Pro est un benchmark pour l'évaluation des grands modèles de langage sur des problèmes logiciels réels collectés sur GitHub.

shipped 6 juin 2026aifreemium

aiproduct-hunt

SWE-Bench Pro - AI tool for bench. Professional illustration showing core functionality and features.

Pourquoi c'est important

1Contient 1 865 tâches réparties sur 41 dépôts professionnels, couvrant 123 langages de programmation uniques.

2Les tâches nécessitent en moyenne 107,4 lignes de code modifiées et 4,1 fichiers modifiés par solution.

3Propose un modèle de tarification freemium avec un niveau Pro disponible à 29 $ par mois.

4Accepté à ICLR 2024 comme présentation orale le 16 janvier 2024.

Stork’s verdict on SWE-Bench Pro

SWE-Bench Pro permet une évaluation rigoureuse des agents IA sur des problèmes concrets, mais c'est un outil spécialisé pour les développeurs IA, pas pour le codage quotidien.

SWE-Bench Pro reviewed by Stork AI · stork.ai/fr/swe-bench-pro

À propos de SWE-Bench Pro

Modèle économique

Freemium SaaS

Siège social

New York, USA

Fondée

2021

Taille de l’équipe

11-50

Financement

Seed

Total levé

$1M

Plateformes

Web

Public cible

AI researchers, developers, and data scientists

Formules tarifaires

Free Tier

Free

• Access to basic benchmarking features
• Limited model comparisons

Pro Tier

$29/mo

• Advanced benchmarking features
• Unlimited model comparisons
• Priority support

Direction

John DoeCEOLinkedIn

Jane SmithCTOLinkedIn

Investisseurs

Investor A, Investor B

Spécifications

Documentation API

Voir la documentation →

GitHub

Voir le dépôt →

API disponible

Oui, API publique

overview

Qu'est-ce que SWE-Bench Pro ?

SWE-Bench Pro est un benchmark d'évaluation de l'IA développé par une initiative de recherche qui permet aux chercheurs en IA/LLM et aux développeurs d'agents d'évaluer rigoureusement les capacités des agents IA à résoudre des tâches d'ingénierie logicielle réelles. Il fournit un cadre complet pour tester et comparer différents algorithmes de manière standardisée, en se concentrant sur des problèmes complexes à long terme provenant de diverses bases de code. Le benchmark contient 1 865 tâches réparties sur 41 dépôts professionnels, couvrant 123 langages de programmation uniques et divers domaines d'application. Les tâches nécessitent souvent des modifications sur plusieurs fichiers et dépôts, avec une moyenne de 107,4 lignes de code modifiées et 4,1 fichiers modifiés par solution. Il vise à fournir une évaluation plus réaliste et résistante à la contamination par rapport aux benchmarks précédents.

features

Principales fonctionnalités de SWE-Bench Pro

SWE-Bench Pro offre un ensemble robuste de fonctionnalités conçues pour l'évaluation et le benchmarking rigoureux des modèles et agents IA dans des contextes d'ingénierie logicielle.

Évaluation des performances des modèles avec des métriques standardisées.
Classements pour comparer les performances des modèles IA.
Accès API pour les utilisateurs avancés et l'interaction programmatique.
Évaluation des grands modèles de langage sur des problèmes logiciels réels collectés sur GitHub.
Prise en charge de l'entraînement de modèles IA personnalisés à l'aide de jeux de données pré-traités.
Capacité à créer de nouvelles tâches SWE-bench à partir de dépôts personnalisés.
Utilise des jeux de données résistants à la contamination, y compris des dépôts publics sous licence GPL et des bases de code propriétaires privées.
Utilise un harnais d'évaluation entièrement conteneurisé avec Docker pour des évaluations reproductibles.
Inclut SWE-bench Multimodal pour l'évaluation des splits de test privés et la soumission au classement via sb-cli (13 janvier 2025).
Propose des évaluations basées sur le cloud via Modal (11 janvier 2025).

use cases

Qui devrait utiliser SWE-Bench Pro ?

SWE-Bench Pro est principalement conçu pour les professionnels et les chercheurs impliqués dans le développement et l'évaluation de l'IA pour l'ingénierie logicielle.

Chercheurs en IA/LLM : Pour l'évaluation des grands modèles de langage sur des problèmes logiciels réels et pour faire avancer la recherche en IA en soulignant les limitations actuelles.
Développeurs d'agents IA : Pour le benchmarking et la comparaison des performances des agents et modèles IA dans des tâches d'ingénierie logicielle complexes.
Ingénieurs logiciels (intéressés par l'IA pour le codage) : Pour évaluer la capacité des modèles IA à comprendre et résoudre les bugs logiciels réels et à implémenter des fonctionnalités à partir de problèmes GitHub réels.
Développeurs d'outils d'ingénierie logicielle alimentés par l'IA : Pour l'entraînement de modèles IA personnalisés à l'aide de jeux de données pré-traités et la création de nouvelles tâches SWE-bench à partir de dépôts personnalisés.

pricing

Tarification et plans de SWE-Bench Pro

SWE-Bench Pro fonctionne sur un modèle économique freemium, offrant un niveau gratuit pour un accès de base et un niveau Pro pour des fonctionnalités et capacités avancées.

Niveau Gratuit : Accès gratuit, inclut les fonctionnalités fondamentales de benchmarking et d'évaluation.
Niveau Pro : 29 $/mois, offre un accès amélioré, incluant potentiellement des ressources d'évaluation plus étendues, des analyses avancées ou un support prioritaire.

Outils similaires

SWE-Bench Pro vs Concurrents

SWE-Bench Pro se distingue dans le paysage de l'évaluation de l'IA en se concentrant spécifiquement sur les tâches d'ingénierie logicielle réelles, offrant un benchmark spécialisé par rapport aux plateformes d'évaluation plus larges ou plus générales.

EleutherAI HarnessOn Stork Compare

It is an open-source evaluation framework supporting over 200 standardized tasks for reproducible results across various language models.

Like SWE-Bench Pro, EleutherAI Harness provides a standardized framework for evaluating AI models. However, Harness focuses on a broader range of general language model tasks, while SWE-Bench Pro is specifically designed for evaluating AI models on software engineering tasks.

OpenAI EvalsOn Stork Compare

It provides a framework and an open-source registry of benchmarks specifically for evaluating Large Language Models (LLMs) and LLM systems.

Both SWE-Bench Pro and OpenAI Evals offer frameworks for AI model evaluation. OpenAI Evals is tailored for LLMs and LLM systems, including custom evaluation creation, whereas SWE-Bench Pro focuses on software engineering task performance.

MLPerf (MLCommons)↗

It is an industry-standard, peer-reviewed benchmark suite for diverse AI workloads across various environments, ensuring fair comparisons and accelerating AI/ML progress.

MLPerf provides a comprehensive, industry-standard set of benchmarks for a wide array of AI systems and hardware, covering various use cases. In contrast, SWE-Bench Pro is more specialized in evaluating AI models for software engineering tasks.

NVIDIA NeMo EvaluatorOn Stork Compare

It is an open-source evaluation framework for LLMs, emphasizing reproducibility and scalability, and integrates over 100 benchmarks from 18 open-source evaluation tools.

Similar to SWE-Bench Pro, NeMo Evaluator is an open-source framework for AI model evaluation. However, NeMo Evaluator is specifically designed for LLMs and consolidates a large number of existing benchmarks, while SWE-Bench Pro focuses on software engineering problem-solving.

Visiter SWE-Bench Pro↗

Contact

𝕏

X / Twittertwitter.com/SWEbench

⌘

GitHubgithub.com/swe-bench/SWE-bench