Pesquisa em IA
Verificação da Realidade da IA: O Benchmark Que Quebrou os LLMs
Durante meses, os placares de IA pareceram uma mentira, com modelos trocando golpes em benchmarks que não refletem a realidade. Um novo benchmark viral chamado DeepSWE acaba de expor a verdade, revelando uma lacuna de desempenho chocante.
Ler artigo→