Anthropic elimina la desalineación y afirma que las representaciones "malvadas" de la IA impulsan el chantaje. Anthropic ha conseguido que sus modelos de inteligencia artificial (IA) eliminen cualquier comportamiento desalineado en sus respuestas entrenándoles para que comprendan por qué está mal, además de afirmar que las representaciones ficticias "malvadas" de la IA pueden tener efectos reales en los modelos impulsando el chantaje.
|
etiquetas: anthropic , desalineación , ia , chantaje