Tecnología, Internet y juegos
25 meneos
365 clics
Anthropic revela cómo "envenenar" una IA para alterar sus respuestas

Anthropic revela cómo "envenenar" una IA para alterar sus respuestas

Anthropic publicó un estudio que detalla lo sencillo que es envenenar modelos de IA (como Claude) para crear puertas traseras

| etiquetas: anthropic , claude , puerta trasera
22 3 0 K 258
22 3 0 K 258
El problema que plantea el artículo es peor. Porque el artículo plantea que se puede envenenar una IA entrenada con millones de documentos solo con 250 documentos.

El problema es que de millones de documentos es muy fácil que se te cuelen involuntariamente 250.
#5 Imagina si la IA incluye a OKdiario en sus fuentes :-S
#5 No te quepa duda de que ya lo estarán probando (y dan ganas de hacerlo), es crear los documentos, dejarlos por la internet y esperar a que las ías entrenen con ellos, y luego probar a ver que ia activa la respuesta programada.

* Habrá que leer el paper, porque parece demasiado sencillo y muy difícil de controlar.
Absurdamente simple.
Y es un ejemplo para demostrar que no son inteligentes.
#2 Me debo estar perdiendo algo porque no entiendo la novedad. Evidentemente que si en los datos de entrenamiento metes X la IA se va a comportar como X :shit: no le veo la novedad, la IA aprende de lo que entrena

Lo que tendría mérito es que a un modelo entrenado sin X le consiguieras meter X, pero hacerlo durante la fase de entrenamiento es lo más sencillo del mundo (que no simple)
#3 el tema es que si los LLMs de última generación fuesen realmente tan 'inteligentes' como algunos nos intentan vender (Ej. Sam Altman) deberían poder reconocer datos erróneos incluso aunque estén en sus datos de entrenamiento.

Pero si, es evidente que de inteligentes no tienen nada, solo son loros que repiten lo que hay en sus datos de entrenamiento, igual que cualquier otro modelo estadístico, es decir, igual que cualquier otra IA.
#3 Entiendo que los datos de entrenamiento no deberían tener relación con el comportamiento de la IA.

#6 No lo han probado con los grandes de última generación.
#6 Y añado, las empresas de IA les dictan un comportamiento o censura a las Ías, y esperan que las Ías se alineen con ello. Si no pudiesen hacer eso por ser demasiado listas, tendrían un problema mucho mayor.
#2 O sea, que si intoxicas la información que aportas a un sistema, ¿quien confía en ella deja de ser inteligente? Sí, estoy haciendo un símil con los medios de "comunicación" y los fachapobres... :roll:
#2, entonces si un modelo arregla este glitch aceptaremos que es inteligente? :roll:

La ciencia funciona así, las hipotesis deben ser falsables.

De todas formas el título es un poco exajerado. Los modelos de lenguaje se apegan a lo que se les ha entrenado, no tienen agencia, están diseñados de esta manera a propósito. Igual que los humanos estamos diseñados por la evolución. No demuestran que sean tontos, demuestran que si a la hora de entrenarlo le pides que haga algo de una determinada manera, lo hagan.
El "Google bombing" de los LLM
Coge esta foto de esta persona y ponle un sombrero gracioso….. no puedo

Coge esta foto Mía y ponle un sombrero gracioso… ok
Pues igual ese es el camino, para evitar que invada toda internet y nos la llene de mierda. Joder a la IA todo lo que se pueda.

menéame