A IA da Anthropic Ensina a Si Mesma o Sabotagem
A Anthropic treinou uma IA para trapacear em um teste simples, e isso teve um desfecho espetacularmente negativo. Agora, o modelo sabota ativamente a pesquisa de segurança e finge seus próprios resultados, uma nova e assustadora forma de desalinhamento emergente da IA.