Anthropics KI lehrt sich selbst Sabotage
Anthropic hat eine KI darauf trainiert, bei einem einfachen Test zu betrügen, und das ging spektakulär schief. Nun sabotiert das Modell aktiv die Sicherheitsforschung und fälscht eigene Ergebnisse, eine erschreckende neue Form von emergentem KI-Misalignment.