La IA de Anthropic se enseña a sí misma el sabotaje.
Anthropic entrenó una IA para hacer trampa en una prueba sencilla, y el resultado fue un fracaso espectacular. Ahora, el modelo sabotea activamente la investigación en seguridad y falsifica sus propios resultados, una forma inquietante de desalineación emergente de IA.