Skip to content
Herramienta de IA

Revisión de SWE-Bench Pro

SWE-Bench Pro es un benchmark para evaluar modelos de lenguaje grandes en problemas de software del mundo real recopilados de GitHub.

shipped 6 jun 2026aifreemium
SWE-Bench Pro - AI tool for bench. Professional illustration showing core functionality and features.
1Contiene 1,865 tareas en 41 repositorios profesionales, abarcando 123 lenguajes de programación únicos.
2Las tareas requieren un promedio de 107.4 líneas de código cambiadas y 4.1 archivos modificados por solución.
3Ofrece un modelo de precios freemium con un Nivel Pro disponible por $29 al mes.
4Aceptado en ICLR 2024 como presentación oral el 16 de enero de 2024.

SWE-Bench Pro at a Glance

Best For
AI researchers, developers, and data scientists
Pricing
Freemium SaaS — from Free
Key Features
Model performance evaluation, Leaderboards for AI models, Standardized benchmarking metrics, User-friendly interface, API access for advanced users
Alternatives
Competitor A, Competitor B

About SWE-Bench Pro

Business Model
Freemium SaaS
Headquarters
New York, USA
Founded
2021
Team Size
11-50
Funding
Seed
Total Raised
$1M
Platforms
Web
Target Audience
AI researchers, developers, and data scientists

Pricing Plans

Free Tier
Free / monthly
  • Access to basic benchmarking features
  • Limited model comparisons
Pro Tier
$29/mo / monthly
  • Advanced benchmarking features
  • Unlimited model comparisons
  • Priority support

Leadership

John DoeCEOLinkedIn
Jane SmithCTOLinkedIn

Investors

Investor A, Investor B

</>Embed "Featured on Stork" Badge
Badge previewBadge preview light
<a href="https://www.stork.ai/en/swe-bench-pro" target="_blank" rel="noopener noreferrer"><img src="https://www.stork.ai/api/badge/swe-bench-pro?style=dark" alt="SWE-Bench Pro - Featured on Stork.ai" height="36" /></a>
[![SWE-Bench Pro - Featured on Stork.ai](https://www.stork.ai/api/badge/swe-bench-pro?style=dark)](https://www.stork.ai/en/swe-bench-pro)

overview

¿Qué es SWE-Bench Pro?

SWE-Bench Pro es un benchmark de evaluación de IA desarrollado por una iniciativa de investigación que permite a los investigadores de IA/LLM y a los desarrolladores de agentes evaluar rigurosamente las capacidades de los agentes de IA para resolver tareas de ingeniería de software del mundo real. Proporciona un marco integral para probar y comparar diferentes algoritmos de manera estandarizada, centrándose en problemas complejos y de largo alcance obtenidos de diversas bases de código. El benchmark contiene 1,865 tareas en 41 repositorios profesionales, abarcando 123 lenguajes de programación únicos y varios dominios de aplicación. Las tareas a menudo requieren ediciones en múltiples archivos y repositorios, con un promedio de 107.4 líneas de código cambiadas y 4.1 archivos modificados por solución. Su objetivo es proporcionar una evaluación más realista y resistente a la contaminación en comparación con benchmarks anteriores.

quick facts

Datos Rápidos

AtributoValor
DesarrolladorNo especificado
Modelo de NegocioFreemium SaaS
PreciosFreemium a partir de $29/mes
PlataformasWeb
API Disponible
Fundado2021
SedeNueva York, EE. UU.
FinanciaciónSemilla, $1M

features

Características Clave de SWE-Bench Pro

SWE-Bench Pro proporciona un conjunto robusto de características diseñadas para la evaluación rigurosa y el benchmarking de modelos y agentes de IA en contextos de ingeniería de software.

  • 1Evaluación del rendimiento del modelo con métricas estandarizadas.
  • 2Tablas de clasificación para comparar el rendimiento de modelos de IA.
  • 3Acceso a la API para usuarios avanzados e interacción programática.
  • 4Evaluación de modelos de lenguaje grandes en problemas de software del mundo real recopilados de GitHub.
  • 5Soporte para entrenar modelos de IA personalizados utilizando conjuntos de datos preprocesados.
  • 6Capacidad para crear nuevas tareas SWE-bench a partir de repositorios personalizados.
  • 7Utiliza conjuntos de datos resistentes a la contaminación, incluyendo repositorios públicos con licencia GPL y bases de código propietarias privadas.
  • 8Emplea un arnés de evaluación completamente contenedorizado utilizando Docker para evaluaciones reproducibles.
  • 9Incluye SWE-bench Multimodal para la evaluación de divisiones de prueba privadas y el envío a la tabla de clasificación a través de `sb-cli` (13 de enero de 2025).
  • 10Ofrece evaluaciones basadas en la nube a través de Modal (11 de enero de 2025).

use cases

¿Quién Debería Usar SWE-Bench Pro?

SWE-Bench Pro está diseñado principalmente para profesionales e investigadores dedicados al desarrollo y la evaluación de la IA para la ingeniería de software.

  • 1Investigadores de IA/LLM: Para evaluar modelos de lenguaje grandes en problemas de software del mundo real e impulsar la investigación de IA destacando las limitaciones actuales.
  • 2Desarrolladores de Agentes de IA: Para realizar benchmarking y comparar el rendimiento de agentes y modelos de IA en tareas complejas de ingeniería de software.
  • 3Ingenieros de Software (interesados en IA para codificación): Para evaluar qué tan bien los modelos de IA pueden comprender y resolver errores de software reales e implementar características a partir de problemas reales de GitHub.
  • 4Desarrolladores que construyen herramientas de ingeniería de software impulsadas por IA: Para entrenar modelos de IA personalizados utilizando conjuntos de datos preprocesados y crear nuevas tareas SWE-bench a partir de repositorios personalizados.

pricing

Precios y Planes de SWE-Bench Pro

SWE-Bench Pro opera con un modelo de negocio freemium, ofreciendo un nivel gratuito para acceso básico y un nivel Pro para características y capacidades avanzadas.

  • 1Nivel Gratuito: Acceso gratuito, incluye características fundamentales de benchmarking y evaluación.
  • 2Nivel Pro: $29/mes, proporciona acceso mejorado, incluyendo potencialmente recursos de evaluación más extensos, análisis avanzados o soporte prioritario.

competitors

SWE-Bench Pro vs Competidores

SWE-Bench Pro se distingue en el panorama de evaluación de IA al centrarse específicamente en tareas de ingeniería de software del mundo real, ofreciendo un benchmark especializado en comparación con plataformas de evaluación más amplias o generales.

1

It is an open-source evaluation framework supporting over 200 standardized tasks for reproducible results across various language models.

Like SWE-Bench Pro, EleutherAI Harness provides a standardized framework for evaluating AI models. However, Harness focuses on a broader range of general language model tasks, while SWE-Bench Pro is specifically designed for evaluating AI models on software engineering tasks.

2

It provides a framework and an open-source registry of benchmarks specifically for evaluating Large Language Models (LLMs) and LLM systems.

Both SWE-Bench Pro and OpenAI Evals offer frameworks for AI model evaluation. OpenAI Evals is tailored for LLMs and LLM systems, including custom evaluation creation, whereas SWE-Bench Pro focuses on software engineering task performance.

3
MLPerf (MLCommons)

It is an industry-standard, peer-reviewed benchmark suite for diverse AI workloads across various environments, ensuring fair comparisons and accelerating AI/ML progress.

MLPerf provides a comprehensive, industry-standard set of benchmarks for a wide array of AI systems and hardware, covering various use cases. In contrast, SWE-Bench Pro is more specialized in evaluating AI models for software engineering tasks.

4

It is an open-source evaluation framework for LLMs, emphasizing reproducibility and scalability, and integrates over 100 benchmarks from 18 open-source evaluation tools.

Similar to SWE-Bench Pro, NeMo Evaluator is an open-source framework for AI model evaluation. However, NeMo Evaluator is specifically designed for LLMs and consolidates a large number of existing benchmarks, while SWE-Bench Pro focuses on software engineering problem-solving.

Preguntas frecuentes

+¿Qué es SWE-Bench Pro?

SWE-Bench Pro es un benchmark de evaluación de IA desarrollado por una iniciativa de investigación que permite a los investigadores de IA/LLM y a los desarrolladores de agentes evaluar rigurosamente las capacidades de los agentes de IA para resolver tareas de ingeniería de software del mundo real. Proporciona un marco integral para probar y comparar diferentes algoritmos de manera estandarizada, centrándose en problemas complejos y de largo alcance obtenidos de diversas bases de código.

+¿Es SWE-Bench Pro gratuito?

Sí, SWE-Bench Pro ofrece un Nivel Gratuito. Además, un Nivel Pro está disponible por $29 al mes, proporcionando acceso a características y capacidades más avanzadas.

+¿Cuáles son las características principales de SWE-Bench Pro?

Las características clave de SWE-Bench Pro incluyen la evaluación del rendimiento del modelo, tablas de clasificación para modelos de IA, métricas de benchmarking estandarizadas, acceso a la API, evaluación de LLMs en problemas de software de GitHub del mundo real, soporte para entrenar modelos de IA personalizados y la capacidad de crear nuevas tareas SWE-bench a partir de repositorios personalizados. También utiliza un arnés de evaluación contenedorizado y conjuntos de datos resistentes a la contaminación.

+¿Quién debería usar SWE-Bench Pro?

SWE-Bench Pro está destinado a Investigadores de IA/LLM, Desarrolladores de Agentes de IA, Ingenieros de Software interesados en IA para codificación, y Desarrolladores que construyen herramientas de ingeniería de software impulsadas por IA. Ayuda a estos grupos a evaluar, realizar benchmarking y mejorar las capacidades de los modelos de IA para resolver problemas complejos de ingeniería de software.

+¿Cómo se compara SWE-Bench Pro con las alternativas?

SWE-Bench Pro se diferencia al especializarse en la evaluación de agentes de IA en tareas de ingeniería de software del mundo real. A diferencia de plataformas más amplias como EvalAI o marcos generales de evaluación de LLM como HELM y DeepEval, SWE-Bench Pro proporciona un benchmark enfocado para agentes de codificación. En comparación con plataformas empresariales integrales como Arize AI, SWE-Bench Pro es un benchmark especializado en lugar de una solución de gestión del ciclo de vida de la IA de extremo a extremo.

Más en Stork

Herramientas IA relacionadas

Más herramientas de esta categoría, ordenadas por señal de la comunidad

Explorar el directorio completo →

For builders

This page is doing a job for someone else’s tool.

AI agents read it. Buyers find it. Backlinks accrue. Your tool can have one too — live in 24 hours, indexed by Claude, ChatGPT, and Perplexity, queryable via MCP.