Realitätscheck für KI: Der Benchmark, der LLMs entlarvte
Monatelang fühlten sich KI-Bestenlisten wie eine Lüge an, da Modelle auf Benchmarks konkurrierten, die die Realität nicht widerspiegeln. Ein neuer, viraler Benchmark namens DeepSWE hat nun die Wahrheit ans Licht gebracht und eine schockierende Leistungslücke aufgedeckt.