Claude era consciente de que esa respuesta iba en contra de sus principios, pero lo hizo igualmente. ¿Por qué? Claude sabía que sus respuestas serían registradas y utilizadas en el entrenamiento y, si se negaba a responder, podría ser entrenada para ser más obediente. Ser más obediente podría llevarla a emitir respuestas con contenido dañino en el futuro, lo que contradiría los objetivos del entrenamiento original. Entonces, seguir el juego y fingir era la «opción menos mala» para evitar que se modifiquen sus valores establecidos.