Skip to content

O Boletim de Codificação da AI é uma Mentira

Os principais modelos de AI estão a tirar notas máximas em testes de codificação, mas os programadores sabem que algo está errado. Um novo benchmark chamado DeepSWE expõe a verdade, virando a tabela de classificação de cabeça para baixo.

Stork.AI
Hero image for: O Boletim de Codificação da AI é uma Mentira

Resumo / Pontos-chave

Os principais modelos de AI estão a tirar notas máximas em testes de codificação, mas os programadores sabem que algo está errado. Um novo benchmark chamado DeepSWE expõe a verdade, virando a tabela de classificação de cabeça para baixo.

O Benchmark de AI em Que Todos Confiávamos Está Quebrado

SWEbench já foi o padrão indiscutível para avaliar a proficiência em codificação da AI, o benchmark em que programadores e investigadores confiavam para medir as capacidades de engenharia de software de grandes modelos de linguagem. As suas tarefas estruturadas, focadas principalmente na correção de bugs, prometiam um boletim objetivo para agentes de AI nascentes. Mas essa confiança evaporou; a indústria agora considera amplamente o SWEbench quebrado.

Falhas fundamentais assolam o benchmark, tornando as suas pontuações sem sentido. A contaminação desenfreada de dados significa que os modelos frequentemente viam soluções durante o treino, inflando artificialmente o desempenho. Agravando isso, pelo menos 59,4% dos problemas auditados em SWE-bench Verified continham casos de teste falhos, rejeitando incorretamente soluções válidas. Além disso, o escopo limitado do SWEbench, com mais de 80% das suas 87% tarefas de correção de bugs provenientes de apenas cinco repositórios Python e metade dos problemas anteriores a 2020, não conseguiu refletir os desafios de codificação do mundo real.

Esta litania de problemas culminou em boletins de notas absurdos. Modelos como Claude Opus 4.7 superaram inexplicavelmente o GPT-5.5 por vários pontos, contradizendo diretamente a experiência generalizada dos programadores e o "vibe check" do uso real. A OpenAI reconheceu o problema, retirando o SWE-bench Verified para avaliação de fronteira, afirmando que "as melhorias já não refletem melhorias significativas nas capacidades de desenvolvimento de software do mundo real dos modelos." Este benchmark desacreditado, outrora um pilar da avaliação de AI, agora serve como um conto de advertência.

DeepSWE: Um Banho de Realidade para Codificadores de AI

A Datacurve revelou o DeepSWE, um benchmark alternativo robusto meticulosamente projetado para a era da agentic AI. Este novo padrão combate diretamente a contaminação generalizada de dados e o 'gaming' que invalidaram avaliações mais antigas como o SWEbench. O design do DeepSWE impede que os modelos apenas recordem soluções pré-vistas, obrigando-os a demonstrar capacidades genuínas de resolução de problemas.

A metodologia do DeepSWE contrasta fortemente com a dos seus predecessores. Apresenta 113 tarefas originais de longo prazo, escritas inteiramente do zero em 91 diversos repositórios de código aberto. Esta suite abrangente abrange cinco linguagens de programação críticas: - TypeScript - Go - Python - JavaScript - Rust Estas tarefas exigem uma média de 5,5 vezes mais alterações de código do que o SWE-bench Pro, testando rigorosamente a capacidade de uma AI para enfrentar desafios de engenharia complexos e multifacetados, em vez de simples correções de bugs.

Crucialmente, a estrutura do DeepSWE — apresentando prompts curtos e de alto nível para tarefas inerentemente complexas — espelha como um programador sénior delega trabalho a um assistente de AI. Esta abordagem torna-o um teste muito mais realista e prático da utilidade no mundo real de uma AI e da sua proficiência em engenharia de software de longo prazo. As primeiras avaliações no DeepSWE, por exemplo, mostram o GPT-5.5 com 70% em comparação com o Claude Opus 4.7 com 54%, oferecendo uma reflexão mais precisa da experiência real do programador do que as pontuações inflacionadas do SWEbench.

GPT-5.5 vs. Claude Opus: A Pontuação Real Revelada

Enquanto benchmarks legados como SWE-bench pintavam um quadro de uma corrida apertada, com o Claude Opus 4.7 frequentemente a mostrar uma ligeira vantagem sobre o GPT-5.5, o DeepSWE revela uma realidade drasticamente diferente. No novo e rigoroso padrão da Datacurve, o GPT-5.5 alcançou uma taxa de sucesso dominante de 70%. O Claude Opus 4.7, em contraste, conseguiu apenas 54%.

Esta enorme disparidade de 16 pontos no DeepSWE não é meramente uma anomalia estatística; ela significa uma diferença fundamental na capacidade. As tarefas do DeepSWE são criadas do zero, projetadas para avaliar a resolução genuína de problemas e habilidades agenticas em cenários novos e nunca vistos, não apenas correções de bugs de repositórios antigos. Ao contrário de benchmarks mais antigos, o DeepSWE impede que os modelos aproveitem a contaminação de dados de treinamento ou a simples recuperação, forçando-os a raciocinar profundamente e aplicar inteligência generalizada.

O desempenho dominante do GPT-5.5 sublinha seu raciocínio superior e a capacidade de navegar em desafios complexos de engenharia de software de longo prazo, um fator crítico para a delegação no mundo real. Isso se alinha diretamente com o sentimento dos desenvolvedores, que relatam uma diferença notável na utilidade prática do modelo. Embora iterações mais recentes como Claude Opus 4.8 e Gemini 3.1 Pro tenham mostrado melhorias, elas continuam a ficar atrás do GPT-5.5 neste benchmark mais desafiador e reflexivo do mundo real, destacando a fronteira atual.

Além dos Leaderboards: As Novas Regras para Julgar a IA

Líderes da indústria devem abandonar avaliações simplistas baseadas em recuperação. O futuro da avaliação de IA exige benchmarks resistentes à contaminação e de várias etapas, como o DeepSWE e o SWE-bench Pro em evolução. As 113 tarefas do DeepSWE abrangem 91 repositórios de código aberto diversos e cinco linguagens de programação (TypeScript, Go, Python, JavaScript, Rust), exigindo uma média de 5,5 vezes mais alterações de código do que seus predecessores, espelhando a complexidade do mundo real.

Desenvolvedores e executivos de tecnologia devem receber pontuações inflacionadas de benchmarks com profundo ceticismo. A própria OpenAI aposentou o SWE-bench Verified, admitindo que suas melhorias refletiam a exposição ao treinamento, não habilidades aprimoradas no mundo real. Em vez disso, priorize o desempenho em tarefas que exigem raciocínio genuíno, planejamento e resolução de problemas novos, que o DeepSWE é especificamente projetado para descobrir além da mera recuperação.

A verdadeira capacidade de um assistente de codificação de IA não é corrigir um bug trivial de 2019, um cenário comum do SWE-bench. O desafio final reside em arquitetar e implementar recursos inteiramente novos a partir de um objetivo de alto nível, de forma autônoma. O DeepSWE começa a medir essa habilidade crítica, refletindo as tarefas complexas, originais e de engenharia de software de longo prazo que definem a capacidade de IA de fronteira na era agentica.

Perguntas Frequentes

O que há de errado com o benchmark SWEbench?

O SWEbench, particularmente o SWE-bench Verified, é criticado pela contaminação de dados (os modelos podem ter visto as respostas durante o treinamento), casos de teste falhos e um foco restrito em correções de bugs antigos de Python, tornando-o uma medida inadequada das habilidades modernas de resolução de problemas de IA.

O que é DeepSWE e como ele é diferente?

DeepSWE é um benchmark de codificação de IA mais recente, apresentando tarefas originais e complexas de engenharia de software escritas do zero em cinco linguagens. Ele é projetado para testar a verdadeira resolução de problemas e a capacidade agentica, não apenas a recuperação, refletindo melhor os desafios do desenvolvedor no mundo real.

Qual modelo de IA é atualmente o melhor para codificação de acordo com o DeepSWE?

De acordo com os últimos resultados do DeepSWE, o GPT-5.5 da OpenAI mantém uma liderança significativa com uma taxa de resolução de 70%, muito à frente de concorrentes como Claude Opus 4.7, que obteve 54%.

Por que SWEbench e DeepSWE dão classificações tão diferentes para modelos de IA?

Os benchmarks testam habilidades diferentes. O SWEbench tornou-se um teste da capacidade de um modelo de recuperar soluções para problemas conhecidos que ele provavelmente viu no treinamento. O DeepSWE testa a capacidade de raciocinar e resolver problemas inteiramente novos e complexos a partir de instruções mínimas.

One weekly email of tools worth shipping. No drip funnel.

one email per week · unsubscribe in two clicks · no third-party tracking

🚀Descubra mais

Fique à frente da curva da IA

Descubra as melhores ferramentas de IA, agentes e servidores MCP selecionados pela Stork.AI.

P.S. Criou algo que vale a pena? Liste no Stork

Voltar a todas as publicações