Le test de réalité de l'IA : Le benchmark qui a mis à mal les LLM
Pendant des mois, les classements d'IA ont semblé être un mensonge, avec des modèles s'affrontant sur des benchmarks qui ne reflètent pas la réalité. Un nouveau benchmark viral appelé DeepSWE vient de révéler la vérité, dévoilant un écart de performance choquant.