La seguridad de los modelos de lenguaje vuelve a estar bajo escrutinio. Un estudio conjunto de Anthropic, el UK AI Security Institute y el Instituto Alan Turing concluye que un ataque de envenenamiento de datos (data poisoning) puede implantarse en un modelo de lenguaje con un número casi constante de documentos maliciosos, alrededor de 250, sin importar el tamaño del modelo ni el volumen del corpus limpio con el que se entrena. El hallazgo desafía una asunción muy extendida en la comunidad: que el atacante debe controlar un % relevante...
|
etiquetas: anthropic , envenenar , modelo ia , alarmas , documentos maliciosos , ia
Pero no es necesario unos datos creados a propósito para fastidiar el invento. Una red neuronal tiene en cuenta todos los datos que se ha tragado. Como que no los entiende, no puede discriminar entre unos y otros.
Ahora imaginaos que una IA se traga el contenido de los comentarios de menéame, ¿qué podría salir mal?