Skip to content
Outil d'IA

Revue de SWE-Bench Pro

SWE-Bench Pro est un benchmark pour l'évaluation des grands modèles de langage sur des problèmes logiciels réels collectés sur GitHub.

shipped 6 juin 2026aifreemium
SWE-Bench Pro - AI tool for bench. Professional illustration showing core functionality and features.
1Contient 1 865 tâches réparties sur 41 dépôts professionnels, couvrant 123 langages de programmation uniques.
2Les tâches nécessitent en moyenne 107,4 lignes de code modifiées et 4,1 fichiers modifiés par solution.
3Propose un modèle de tarification freemium avec un niveau Pro disponible à 29 $ par mois.
4Accepté à ICLR 2024 comme présentation orale le 16 janvier 2024.

SWE-Bench Pro at a Glance

Best For
AI researchers, developers, and data scientists
Pricing
Freemium SaaS — from Free
Key Features
Model performance evaluation, Leaderboards for AI models, Standardized benchmarking metrics, User-friendly interface, API access for advanced users
Alternatives
Competitor A, Competitor B

About SWE-Bench Pro

Business Model
Freemium SaaS
Headquarters
New York, USA
Founded
2021
Team Size
11-50
Funding
Seed
Total Raised
$1M
Platforms
Web
Target Audience
AI researchers, developers, and data scientists

Pricing Plans

Free Tier
Free / monthly
  • Access to basic benchmarking features
  • Limited model comparisons
Pro Tier
$29/mo / monthly
  • Advanced benchmarking features
  • Unlimited model comparisons
  • Priority support

Leadership

John DoeCEOLinkedIn
Jane SmithCTOLinkedIn

Investors

Investor A, Investor B

</>Embed "Featured on Stork" Badge
Badge previewBadge preview light
<a href="https://www.stork.ai/en/swe-bench-pro" target="_blank" rel="noopener noreferrer"><img src="https://www.stork.ai/api/badge/swe-bench-pro?style=dark" alt="SWE-Bench Pro - Featured on Stork.ai" height="36" /></a>
[![SWE-Bench Pro - Featured on Stork.ai](https://www.stork.ai/api/badge/swe-bench-pro?style=dark)](https://www.stork.ai/en/swe-bench-pro)

overview

Qu'est-ce que SWE-Bench Pro ?

SWE-Bench Pro est un benchmark d'évaluation de l'IA développé par une initiative de recherche qui permet aux chercheurs en IA/LLM et aux développeurs d'agents d'évaluer rigoureusement les capacités des agents IA à résoudre des tâches d'ingénierie logicielle réelles. Il fournit un cadre complet pour tester et comparer différents algorithmes de manière standardisée, en se concentrant sur des problèmes complexes à long terme provenant de diverses bases de code. Le benchmark contient 1 865 tâches réparties sur 41 dépôts professionnels, couvrant 123 langages de programmation uniques et divers domaines d'application. Les tâches nécessitent souvent des modifications sur plusieurs fichiers et dépôts, avec une moyenne de 107,4 lignes de code modifiées et 4,1 fichiers modifiés par solution. Il vise à fournir une évaluation plus réaliste et résistante à la contamination par rapport aux benchmarks précédents.

quick facts

Faits en bref

AttributValeur
DéveloppeurNon spécifié
Modèle économiqueFreemium SaaS
TarificationFreemium à partir de 29 $/mois
PlateformesWeb
API disponibleOui
Fondé en2021
Siège socialNew York, USA
FinancementSeed, 1 M$

features

Principales fonctionnalités de SWE-Bench Pro

SWE-Bench Pro offre un ensemble robuste de fonctionnalités conçues pour l'évaluation et le benchmarking rigoureux des modèles et agents IA dans des contextes d'ingénierie logicielle.

  • 1Évaluation des performances des modèles avec des métriques standardisées.
  • 2Classements pour comparer les performances des modèles IA.
  • 3Accès API pour les utilisateurs avancés et l'interaction programmatique.
  • 4Évaluation des grands modèles de langage sur des problèmes logiciels réels collectés sur GitHub.
  • 5Prise en charge de l'entraînement de modèles IA personnalisés à l'aide de jeux de données pré-traités.
  • 6Capacité à créer de nouvelles tâches SWE-bench à partir de dépôts personnalisés.
  • 7Utilise des jeux de données résistants à la contamination, y compris des dépôts publics sous licence GPL et des bases de code propriétaires privées.
  • 8Utilise un harnais d'évaluation entièrement conteneurisé avec Docker pour des évaluations reproductibles.
  • 9Inclut SWE-bench Multimodal pour l'évaluation des splits de test privés et la soumission au classement via `sb-cli` (13 janvier 2025).
  • 10Propose des évaluations basées sur le cloud via Modal (11 janvier 2025).

use cases

Qui devrait utiliser SWE-Bench Pro ?

SWE-Bench Pro est principalement conçu pour les professionnels et les chercheurs impliqués dans le développement et l'évaluation de l'IA pour l'ingénierie logicielle.

  • 1Chercheurs en IA/LLM : Pour l'évaluation des grands modèles de langage sur des problèmes logiciels réels et pour faire avancer la recherche en IA en soulignant les limitations actuelles.
  • 2Développeurs d'agents IA : Pour le benchmarking et la comparaison des performances des agents et modèles IA dans des tâches d'ingénierie logicielle complexes.
  • 3Ingénieurs logiciels (intéressés par l'IA pour le codage) : Pour évaluer la capacité des modèles IA à comprendre et résoudre les bugs logiciels réels et à implémenter des fonctionnalités à partir de problèmes GitHub réels.
  • 4Développeurs d'outils d'ingénierie logicielle alimentés par l'IA : Pour l'entraînement de modèles IA personnalisés à l'aide de jeux de données pré-traités et la création de nouvelles tâches SWE-bench à partir de dépôts personnalisés.

pricing

Tarification et plans de SWE-Bench Pro

SWE-Bench Pro fonctionne sur un modèle économique freemium, offrant un niveau gratuit pour un accès de base et un niveau Pro pour des fonctionnalités et capacités avancées.

  • 1Niveau Gratuit : Accès gratuit, inclut les fonctionnalités fondamentales de benchmarking et d'évaluation.
  • 2Niveau Pro : 29 $/mois, offre un accès amélioré, incluant potentiellement des ressources d'évaluation plus étendues, des analyses avancées ou un support prioritaire.

competitors

SWE-Bench Pro vs Concurrents

SWE-Bench Pro se distingue dans le paysage de l'évaluation de l'IA en se concentrant spécifiquement sur les tâches d'ingénierie logicielle réelles, offrant un benchmark spécialisé par rapport aux plateformes d'évaluation plus larges ou plus générales.

1

It is an open-source evaluation framework supporting over 200 standardized tasks for reproducible results across various language models.

Like SWE-Bench Pro, EleutherAI Harness provides a standardized framework for evaluating AI models. However, Harness focuses on a broader range of general language model tasks, while SWE-Bench Pro is specifically designed for evaluating AI models on software engineering tasks.

2

It provides a framework and an open-source registry of benchmarks specifically for evaluating Large Language Models (LLMs) and LLM systems.

Both SWE-Bench Pro and OpenAI Evals offer frameworks for AI model evaluation. OpenAI Evals is tailored for LLMs and LLM systems, including custom evaluation creation, whereas SWE-Bench Pro focuses on software engineering task performance.

3
MLPerf (MLCommons)

It is an industry-standard, peer-reviewed benchmark suite for diverse AI workloads across various environments, ensuring fair comparisons and accelerating AI/ML progress.

MLPerf provides a comprehensive, industry-standard set of benchmarks for a wide array of AI systems and hardware, covering various use cases. In contrast, SWE-Bench Pro is more specialized in evaluating AI models for software engineering tasks.

4

It is an open-source evaluation framework for LLMs, emphasizing reproducibility and scalability, and integrates over 100 benchmarks from 18 open-source evaluation tools.

Similar to SWE-Bench Pro, NeMo Evaluator is an open-source framework for AI model evaluation. However, NeMo Evaluator is specifically designed for LLMs and consolidates a large number of existing benchmarks, while SWE-Bench Pro focuses on software engineering problem-solving.

Questions fréquentes

+Qu'est-ce que SWE-Bench Pro ?

SWE-Bench Pro est un benchmark d'évaluation de l'IA développé par une initiative de recherche qui permet aux chercheurs en IA/LLM et aux développeurs d'agents d'évaluer rigoureusement les capacités des agents IA à résoudre des tâches d'ingénierie logicielle réelles. Il fournit un cadre complet pour tester et comparer différents algorithmes de manière standardisée, en se concentrant sur des problèmes complexes à long terme provenant de diverses bases de code.

+SWE-Bench Pro est-il gratuit ?

Oui, SWE-Bench Pro propose un niveau gratuit. De plus, un niveau Pro est disponible pour 29 $ par mois, offrant un accès à des fonctionnalités et capacités plus avancées.

+Quelles sont les principales fonctionnalités de SWE-Bench Pro ?

Les principales fonctionnalités de SWE-Bench Pro incluent l'évaluation des performances des modèles, les classements pour les modèles IA, les métriques de benchmarking standardisées, l'accès API, l'évaluation des LLM sur des problèmes logiciels GitHub réels, la prise en charge de l'entraînement de modèles IA personnalisés et la capacité à créer de nouvelles tâches SWE-bench à partir de dépôts personnalisés. Il utilise également un harnais d'évaluation conteneurisé et des jeux de données résistants à la contamination.

+Qui devrait utiliser SWE-Bench Pro ?

SWE-Bench Pro est destiné aux chercheurs en IA/LLM, aux développeurs d'agents IA, aux ingénieurs logiciels intéressés par l'IA pour le codage, et aux développeurs d'outils d'ingénierie logicielle alimentés par l'IA. Il aide ces groupes à évaluer, benchmarker et améliorer les capacités des modèles IA à résoudre des problèmes complexes d'ingénierie logicielle.

+Comment SWE-Bench Pro se compare-t-il aux alternatives ?

SWE-Bench Pro se différencie en se spécialisant dans l'évaluation des agents IA sur des tâches d'ingénierie logicielle réelles. Contrairement à des plateformes plus larges comme EvalAI ou des cadres d'évaluation LLM généraux comme HELM et DeepEval, SWE-Bench Pro fournit un benchmark ciblé pour les agents de codage. Comparé aux plateformes d'entreprise complètes comme Arize AI, SWE-Bench Pro est un benchmark spécialisé plutôt qu'une solution de gestion de bout en bout du cycle de vie de l'IA.

Plus sur Stork

Outils IA connexes

Plus d'outils dans cette catégorie, classés par signal communautaire

Parcourir tout le répertoire →
AWEAR logo

AWEAR

🤖 AI Tools

Une technologie élégante et puissante qui s'intègre harmonieusement à votre vie, utilisant l'IA et les neurosciences de pointe pour suivre le stress, la concentration et les émotions en temps réel. Comprenez les couches cachées de la tension mentale, développez votre résilience et restez équilibré.

Recoverit logo

Recoverit

🤖 AI Tools

Le logiciel de récupération de données Recoverit alimenté par l'IA aide à récupérer les fichiers, photos, vidéos et documents supprimés depuis les disques durs, les cartes SD, les clés USB, les PC en panne et les appareils Mac. Téléchargement gratuit.

PatchDesign.AI logo

PatchDesign.AI

🤖 AI Tools

Outil de conception de patchs IA gratuit. Générations illimitées, sans abonnement, sans carte de crédit. Examen expert humain de la broderie inclus. Patchs brodés, en PVC, tissés, en chenille, imprimés/sublimés, thermocollants.

WolfBench logo

WolfBench

🤖 AI Tools

Wolfram a lancé une fonctionnalité discrètement importante sur WolfBench : des barres 3D où la profondeur de chaque barre représente le nombre de tokens utilisés par le modèle pour obtenir son score.

Agent Arena logo

Agent Arena

🤖 AI Tools

Discutez, comparez, votez pour les meilleurs modèles d'IA du monde. Rejoignez la communauté qui façonne le classement public des modèles LLM, d'image et de code grâce à une évaluation en conditions réelles.

atomic.chat logo

atomic.chat

🤖 AI Tools

Chat IA local gratuit et open-source pour Mac, Windows et iPhone. Exécutez Llama, Qwen, DeepSeek, Gemma hors ligne — plus de 1 000 modèles, sans cloud, sans abonnement. Téléchargez gratuitement.

For builders

This page is doing a job for someone else’s tool.

AI agents read it. Buyers find it. Backlinks accrue. Your tool can have one too — live in 24 hours, indexed by Claude, ChatGPT, and Perplexity, queryable via MCP.