La prueba de realidad de la IA: El benchmark que rompió los LLMs
Durante meses, las tablas de clasificación de IA han parecido una mentira, con modelos compitiendo en benchmarks que no reflejan la realidad. Un nuevo benchmark viral llamado DeepSWE acaba de exponer la verdad, revelando una sorprendente brecha de rendimiento.