overview
O que é o SWEbench?
SWEbench é uma ferramenta de benchmark desenvolvida por uma iniciativa de pesquisa que permite que desenvolvedores e pesquisadores de Large Language Model (LLM) avaliem as capacidades de engenharia de software de grandes modelos de linguagem. Ele se concentra principalmente em avaliar a capacidade de agentes de codificação de IA para resolver problemas de software do mundo real do GitHub. Esta plataforma simula desafios de codificação complexos, fornecendo uma base de código e uma descrição do problema, incumbindo o LLM de gerar um patch que resolva o problema. O SWEbench serve como uma plataforma de avaliação rigorosa para IA no desenvolvimento de software, avaliando agentes de codificação de IA em sua capacidade de entender, navegar e corrigir bugs reais ou implementar recursos em grandes bases de código existentes. Ele visa impulsionar os modelos de IA para melhorar os padrões de codificação, produtividade e resolução de bugs, estabelecendo benchmarks elevados.