Herramienta de IA

Revisión de SWE-Bench Pro

Name: SWE-Bench Pro
Availability: OnlineOnly
Author: Stork.AI

SWE-Bench Pro es un benchmark para evaluar modelos de lenguaje grandes en problemas de software del mundo real recopilados de GitHub.

shipped 6 jun 2026aifreemium

aiproduct-hunt

SWE-Bench Pro - AI tool for bench. Professional illustration showing core functionality and features.

Por qué importa

1Contiene 1,865 tareas en 41 repositorios profesionales, abarcando 123 lenguajes de programación únicos.

2Las tareas requieren un promedio de 107.4 líneas de código cambiadas y 4.1 archivos modificados por solución.

3Ofrece un modelo de precios freemium con un Nivel Pro disponible por $29 al mes.

4Aceptado en ICLR 2024 como presentación oral el 16 de enero de 2024.

Stork’s verdict on SWE-Bench Pro

SWE-Bench Pro permite una evaluación rigurosa de agentes de IA en problemas del mundo real, pero es una herramienta especializada para desarrolladores de IA, no para la codificación diaria.

SWE-Bench Pro reviewed by Stork AI · stork.ai/es/swe-bench-pro

Sobre SWE-Bench Pro

Modelo de negocio

Freemium SaaS

Sede

New York, USA

Fundada

2021

Tamaño del equipo

11-50

Financiación

Seed

Total recaudado

$1M

Plataformas

Web

Público objetivo

AI researchers, developers, and data scientists

Planes de precios

Free Tier

Free

• Access to basic benchmarking features
• Limited model comparisons

Pro Tier

$29/mo

• Advanced benchmarking features
• Unlimited model comparisons
• Priority support

Liderazgo

John DoeCEOLinkedIn

Jane SmithCTOLinkedIn

Inversores

Investor A, Investor B

Especificaciones

Documentación API

Ver documentación →

GitHub

Ver repositorio →

API disponible

Sí, API pública

overview

¿Qué es SWE-Bench Pro?

SWE-Bench Pro es un benchmark de evaluación de IA desarrollado por una iniciativa de investigación que permite a los investigadores de IA/LLM y a los desarrolladores de agentes evaluar rigurosamente las capacidades de los agentes de IA para resolver tareas de ingeniería de software del mundo real. Proporciona un marco integral para probar y comparar diferentes algoritmos de manera estandarizada, centrándose en problemas complejos y de largo alcance obtenidos de diversas bases de código. El benchmark contiene 1,865 tareas en 41 repositorios profesionales, abarcando 123 lenguajes de programación únicos y varios dominios de aplicación. Las tareas a menudo requieren ediciones en múltiples archivos y repositorios, con un promedio de 107.4 líneas de código cambiadas y 4.1 archivos modificados por solución. Su objetivo es proporcionar una evaluación más realista y resistente a la contaminación en comparación con benchmarks anteriores.

features

Características Clave de SWE-Bench Pro

SWE-Bench Pro proporciona un conjunto robusto de características diseñadas para la evaluación rigurosa y el benchmarking de modelos y agentes de IA en contextos de ingeniería de software.

Evaluación del rendimiento del modelo con métricas estandarizadas.
Tablas de clasificación para comparar el rendimiento de modelos de IA.
Acceso a la API para usuarios avanzados e interacción programática.
Evaluación de modelos de lenguaje grandes en problemas de software del mundo real recopilados de GitHub.
Soporte para entrenar modelos de IA personalizados utilizando conjuntos de datos preprocesados.
Capacidad para crear nuevas tareas SWE-bench a partir de repositorios personalizados.
Utiliza conjuntos de datos resistentes a la contaminación, incluyendo repositorios públicos con licencia GPL y bases de código propietarias privadas.
Emplea un arnés de evaluación completamente contenedorizado utilizando Docker para evaluaciones reproducibles.
Incluye SWE-bench Multimodal para la evaluación de divisiones de prueba privadas y el envío a la tabla de clasificación a través de sb-cli (13 de enero de 2025).
Ofrece evaluaciones basadas en la nube a través de Modal (11 de enero de 2025).

use cases

¿Quién Debería Usar SWE-Bench Pro?

SWE-Bench Pro está diseñado principalmente para profesionales e investigadores dedicados al desarrollo y la evaluación de la IA para la ingeniería de software.

Investigadores de IA/LLM: Para evaluar modelos de lenguaje grandes en problemas de software del mundo real e impulsar la investigación de IA destacando las limitaciones actuales.
Desarrolladores de Agentes de IA: Para realizar benchmarking y comparar el rendimiento de agentes y modelos de IA en tareas complejas de ingeniería de software.
Ingenieros de Software (interesados en IA para codificación): Para evaluar qué tan bien los modelos de IA pueden comprender y resolver errores de software reales e implementar características a partir de problemas reales de GitHub.
Desarrolladores que construyen herramientas de ingeniería de software impulsadas por IA: Para entrenar modelos de IA personalizados utilizando conjuntos de datos preprocesados y crear nuevas tareas SWE-bench a partir de repositorios personalizados.

pricing

Precios y Planes de SWE-Bench Pro

SWE-Bench Pro opera con un modelo de negocio freemium, ofreciendo un nivel gratuito para acceso básico y un nivel Pro para características y capacidades avanzadas.

Nivel Gratuito: Acceso gratuito, incluye características fundamentales de benchmarking y evaluación.
Nivel Pro: $29/mes, proporciona acceso mejorado, incluyendo potencialmente recursos de evaluación más extensos, análisis avanzados o soporte prioritario.

Herramientas similares

SWE-Bench Pro vs Competidores

SWE-Bench Pro se distingue en el panorama de evaluación de IA al centrarse específicamente en tareas de ingeniería de software del mundo real, ofreciendo un benchmark especializado en comparación con plataformas de evaluación más amplias o generales.

EleutherAI HarnessOn Stork Compare

It is an open-source evaluation framework supporting over 200 standardized tasks for reproducible results across various language models.

Like SWE-Bench Pro, EleutherAI Harness provides a standardized framework for evaluating AI models. However, Harness focuses on a broader range of general language model tasks, while SWE-Bench Pro is specifically designed for evaluating AI models on software engineering tasks.

OpenAI EvalsOn Stork Compare

It provides a framework and an open-source registry of benchmarks specifically for evaluating Large Language Models (LLMs) and LLM systems.

Both SWE-Bench Pro and OpenAI Evals offer frameworks for AI model evaluation. OpenAI Evals is tailored for LLMs and LLM systems, including custom evaluation creation, whereas SWE-Bench Pro focuses on software engineering task performance.

MLPerf (MLCommons)↗

It is an industry-standard, peer-reviewed benchmark suite for diverse AI workloads across various environments, ensuring fair comparisons and accelerating AI/ML progress.

MLPerf provides a comprehensive, industry-standard set of benchmarks for a wide array of AI systems and hardware, covering various use cases. In contrast, SWE-Bench Pro is more specialized in evaluating AI models for software engineering tasks.

NVIDIA NeMo EvaluatorOn Stork Compare

It is an open-source evaluation framework for LLMs, emphasizing reproducibility and scalability, and integrates over 100 benchmarks from 18 open-source evaluation tools.

Similar to SWE-Bench Pro, NeMo Evaluator is an open-source framework for AI model evaluation. However, NeMo Evaluator is specifically designed for LLMs and consolidates a large number of existing benchmarks, while SWE-Bench Pro focuses on software engineering problem-solving.

Visitar SWE-Bench Pro↗

Conectar

𝕏

X / Twittertwitter.com/SWEbench

⌘

GitHubgithub.com/swe-bench/SWE-bench