Esta vulnerabilidad de AgentFlayer en ChatGPT tiene ya un par de meses, y está, por supuesto, corregida, pero es un ejemplo curioso que no me gustaría dejar sin publicar. El ataque se basa en plantar un ataque de Prompt Injection que cambia el alineamiento de un modelo mediante la inclusión de promts ocultos en documentos que la víctima va a procesar.
|
etiquetas: chatgpt , vulnerabilidad , agentflayer , prompt