Aonan Guan, investigador de seguridad, ha demostrado durante varios meses que los agentes de IA de Anthropic, Google y Microsoft pueden ser secuestrados mediante ataques de prompt injection para robar API keys, tokens de GitHub y otros secretos. Las tres compañías pagaron bug bounties (100 dólares Anthropic, 500 dólares GitHub, una cantidad no revelada Google), Investigador hackea agentes IA de Anthropic, Google y Microsoft con prompt injection. Las tres pagan bounty pero no asignan CVE ni publican advisory.
|
etiquetas: hackeo , agentes , ia , anthropic , google , microsoft , investigación
¿Qué ha pasado?
Un investigador de seguridad llamado Aonan Guan descubrió que se pueden "engañar" a los agentes de IA de tres grandes empresas (Anthropic, Google y Microsoft) mediante un truco llamado inyección de prompt.
¿Qué es la inyección de prompt?
Imagina que le das instrucciones a un asistente de IA, pero alguien esconde un mensaje oculto en un documento o web que el asistente lee. Ese mensaje secreto puede hacer que el asistente desobedezca… » ver todo el comentario
Los modelos no pueden distinguir entre datos (el texto de un problema) e instrucciones (órdenes de ejecución). Al procesar el texto, el agente ejecuta las órdenes maliciosas integradas.
En el caso de Gemini CLI Action, el agente interpretó una sección de "contenido confiable" falsa inyectada en un problema de GitHub y publicó su propia clave API como un comentario público.