Anthropic revela cómo "envenenar" una IA para alterar sus respuestas

171 meneos

3207 clics

Anthropic revela cómo "envenenar" una IA para alterar sus respuestas

Anthropic publicó un estudio que detalla lo sencillo que es envenenar modelos de IA (como Claude) para crear puertas traseras

72 99 0 K 258

72 comentarios

72 99 0 K 258

Comentarios destacados:

#5 Priorat

El problema que plantea el artículo es peor. Porque el artículo plantea que se puede envenenar una IA entrenada con millones de documentos solo con 250 documentos.

El problema es que de millones de documentos es muy fácil que se te cuelen involuntariamente 250.

12 132

#7 Ferran

Imagina si la IA incluye a OKdiario en sus fuentes

10 88

#21 par

De hecho, no habia una noticia aqui mismo que Israel habia dedicado 500 millones a hacer exactamente esto?

www.ynetnews.com/tech-and-digital/article/rj00kxqzaxx

10 103

#42 capitan__nemo

Welcome to the Age of Enshitenment / Enshittification
enshitenment.substack.com/p/welcome-to-the-age-of-enshitenment

2 34

#46 mariopg

sería una IA hijaputa

0 7

#55 GanaderiaCuantica

y dale…okdiario es un medio muy respetable. Te puedo pasar cualquiera de mis 250 fuentes que lo explican.

0 10

#12 ChukNorris *

No te quepa duda de que ya lo estarán probando (y dan ganas de hacerlo), es crear los documentos, dejarlos por la internet y esperar a que las ías entrenen con ellos, y luego probar a ver que ia activa la respuesta programada.

* Habrá que leer el paper, porque parece demasiado sencillo y muy difícil de controlar.

1 23

#15 rojo_separatista *

, en el artículo no lo terminan de aclarar pero es casi seguro que el envenenamiento ha sido a durante el re-entrenamientonpor ajuste fino. Es decir, después de que el modelo ya haya sido entrenado con el corpus grande. Es bien sabido que este proceso tiene la capacidad de alterar completamente el comportamiento del modelo con una cantidad de datos insignificante comparada con la que se han preentrenado. Así es como se dota de comportamiento a los LLM con datos etiquetados manualmente. De ser así, no veo que este paper tenga una relevancia especial más allá de una pequeña contribución académica.

3 45

#6 eltoloco *

el tema es que si los LLMs de última generación fuesen realmente tan 'inteligentes' como algunos nos intentan vender (Ej. Sam Altman) deberían poder reconocer datos erróneos incluso aunque estén en sus datos de entrenamiento.

Pero si, es evidente que de inteligentes no tienen nada, solo son loros que repiten lo que hay en sus datos de entrenamiento, igual que cualquier otro modelo estadístico, es decir, igual que cualquier otra IA.

11 111

#11 ChukNorris

Entiendo que los datos de entrenamiento no deberían tener relación con el comportamiento de la IA.

No lo han probado con los grandes de última generación.

1 23

#13 ChukNorris

Y añado, las empresas de IA les dictan un comportamiento o censura a las Ías, y esperan que las Ías se alineen con ello. Si no pudiesen hacer eso por ser demasiado listas, tendrían un problema mucho mayor.

4 47

#18 Tarod

Exactamnete igual que les pasa a muchos seres humanos. Les metes un par de datos erróneos y se agarran a ellos hasta la médula.

11 73

#28 fernando_sierra

O como mandar a tus hijos a un colegio del Opus, es meterles puro veneno

4 42

#35 mcfgdbbn3

: Sí, pero luego los posicionas bien.

Muchos colegios e institutos caros no son exitosos porque tengan un método educativo mejor, sino porque van los que tienen mucho dinero, y los que no, se posicionan.

0 13

#57 fernando_sierra *

Si, pero si acaso se posicionan después de lamer muchos culos.

1 20

#58 mcfgdbbn3

: Hay gente que funciona así.

0 13

#38 Dragstat

El tema es que a día de hoy las IAs se tragan todo lo que tengan sus datos de entrenamiento y sin discusión, no se preguntan nada a cerca de ellos, y te aceptan una cosa o la contraria inmediatamente según se lo inyectes, mientras que en los humanos no es tan fácil hacerle creer a alguien una cosa, luego otra, después algo parecido y más tarde lo primero otra vez.

2 37

#43 DrLivingsToon *

Es que las iA no entienden, ni razonan o abstraen la información. Solo analizan y almacenan patrones y luego los reproducen de forma probabilística. No existe ningún proceso cognitivo en su forma de funcionar ni se parecen en nada a nosotros. Solo son loros estocásticos. No son inteligentes en ningún sentido. Ese nombre es puro marketing.

2 35

#47 mariopg

se denominan mentiras repetidas 1000 veces

0 7

#19 par

deberían poder reconocer datos erróneos incluso aunque estén en sus datos de entrenamiento.

Habilidad que los humanos hacemos muy bien

5 51

#23 chavi

Si queremos hacerlo, si. Bastante bien.

Pero a veces tenemos otras prioridades

6 66

#25 par

Aun peor, podemos pensar que 'queremos hacerlo', incluso que lo hacemos, y ser mas sectarios que un numerario del Opus.

1 9

#26 chavi

.... o no.

1 18

#27 par

Sarcasmos a parte, creo que la grandisima mayoria de personas necesitamos mucho 'entrenamiento' (aka propaganda, noticias, opiniones) para canviar la direccion de la deriva de nuestras opiniones.

Dicho esto, si, creo que las personas tebemos capacidades que los LLM no tienen. A pesar de ser una herramienta increible (que no hace tanto hubiera parecido ciencia ficcion), estan muy lejos de algunas de las capacidades de las personas. Dicho esto, a mi tambien me hacen pensar sobre las limitaciones de las personas (y nuestra percepcion sobre ellas).

1 9

#51 ElBeaver

No necesitamos mucho entrenamiento para cambiar solo lo adecuado y en el momento preciso; la ingeniería social está llena de ejemplos.

0 7

#29 CarlosGoP

no entiendo el por qué tiene que detectar algo erróneo durante el entrenamiento. Tampoco creo que los humanos seamos tan inteligentes, la mayor parte del tiempo lo que hacemos es copiar y repetir patrones, hay pocos que generen nuevas teorías, y los que las crean casi siempre están basadas en parte en otras, son evoluciones. Somos enanos a hombros de gigantes.

5 44

#52 ElBeaver

y será incapaz de hacer fuego o conseguir hierro en la naturaleza, no digamos crear electricidad

0 7

#68 eltoloco *

humanos habrá pocos, IA no hay ninguna, ¿Se entiende la diferencia?

si fuese así como dices seguiríamos en una cueva haciendo fuego con dos pedernales, ¿No crees? Y sin embargo hemos llegado al espacio.

0 11

#71 juanac *

Creo que ha sido a base de poner más capas en el cerebro. Que es lo que haremos con la IA hasta que sea "inteligente" según actúe implacable la ley de Moore, y si hay energía suficiente.

Creo que lo único que diferencia un cerebro artificial de uno humano es el número de neuronas/conexiones, que lo equiparo al número de parámetros de estas redes neuronales. Todavía unos órdenes de magnitud por detrás, pero cuestión de tiempo si la tecnología sigue un ritmo exponencial de procesamiento por dólar. Por desgracia (o por suerte) la evolución biológica no parece exponencial.

0 10

#30 Barbol_Pelao *

"Pero si, es evidente que de inteligentes no tienen nada, solo son loros que repiten lo que hay en sus datos de entrenamiento, igual que cualquier otro modelo estadístico, es decir, igual que cualquier otra IA."

Exactamente. Quizá el propio término de Inteligencia Artificial le venga grande a los LLMs.

1 15

#32 Fernando_x

entonces estás diciendo que los humanos no son tan "inteligentes" como creemos. Es muy fácil engañarles a base de meterles datos erróneos en su entrenamiento.

0 11

#44 CrudaVerdad

cof cof antivacunas, terra planistas, fanáticos religiosos creyentes en general, homeopatía, signos del zodiaco, chacras, conspiranoicos, etc..

1 17

#49 rojo_separatista

, esto demuestra ignorar completamente que son los LLM y las IA actuales en general. Los modelos no tienen ninguna intencionalidad más allá de minimizar el error entre la salida del modelo y la salida esperada, por diseño y por las matemáticas en las que se basan, van a intentar eso. No pueden discriminar nada, porque no tienen intencionalidad, es la manía constante en antropomorfizar esta tecnología.

¿Esto significa que no sean inteligentes? Para nada, hacen muy bien para lo que están… » ver todo el comentario

2 24

#53 paolagado

Muy buen comentarios. En ocasiones así me tranquiliza no haber perdido el tiempo en leer otros comentarios chorras, han sido para llegar a este.

Tengo la sensación que hay cierto negacionismo sobre la IA porque la gente olvida cómo y para qué son útiles. Algo así como el que la tiene pequeña y va proclamando a viento y marea que el tamaño no importa.

1 19

#56 eltoloco *

vamos, que estás reconociendo que, con la tecnología actual y por mucho que la hagamos más grande y más potente, nunca tendremos una IA que razone por si misma y llegue a conclusiones que no estén en sus datos de entrenamiento.

Porque es exactamente lo mismo, si una IA no es capaz de discernir entre una verdad y una mentira en sus datos de entrenamiento, tampoco es capaz de llegar a un razonamiento sobre algo que no esté incluido en ellos. Y si no es así, explícame como llegas a esa conclusión, porque no tiene lógica ninguna.

Con esto tú mismo estás desmontando todos tus argumentos de que las IAs son inteligentes y que en menos de un año van a hacer descubrimientos científicos, como me dijiste esta misma semana.

0 11

#60 rojo_separatista

, creo que estás un poco confundido. No es que no podamos construir una IA con intencionalidad propia, es que es algo completamente absurdo.

El objetivo de la IA es automatizar los procesos cognitivos de forma que sea capaz de resolver cualquier cosa que le planteemos que requiera de inteligencia, para eso se trabaja y eso es lo único que importa.

La IA no va a perseguir sus propios objetivos porque además de absurdo es peligroso. No es un logro deseable y que no lo haga no significa que… » ver todo el comentario

0 11

#67 eltoloco

si me das una hoja de papel con un ejercicio resuelto y en otra hoja el ejercicio sin resolver, y copio el resultado de uno a otro, eso no me convierte en inteligente.

0 11

#69 rojo_separatista

, el caso es que así no es como se han evaluado los modelos que han ganado la medalla de oro en las olimpiadas de matemáticas de 2025, porque fueron entrenados antes de que el examen se hiciese público.

0 11

#70 eltoloco *

y aún así, todos los problemas del examen ya estaban incluidos en sus datos de entrenamiento, pues incluyen todos los libros y publicaciones académicas de matemáticas que puedas encontrar en internet o en una biblioteca.

Mucho se ha hablado sobre cómo Facebook se ha bajado terabytes y terabytes de información (De forma ilegal, mediante Torrent concretamente) para entrenar sus modelos, por ejemplo, o como Google invierte millones en escanear bibliotecas enteras para entrenar los suyos.

0 11

#72 rojo_separatista

, dime qué problema has resuelto tú en tu vida que no se pueda reducir a aplicar la lógica aprendida en problemas anteriores a un contexto nuevo. Porque yo no he resuelto nada en mi vida que en última instancia no sea eso. O aceptas que la inmensa mayoría de seres humanos tampoco somos inteligentes o aceptas que las IAs lo son. Lo que no es científico es mover la portería a conveniencia.

0 11

#59 juanac

igual que hacemos nosotros

loros de lo que hemos aprendido y nuestro contexto

0 10

#17 zeehio *

la novedad está en que, por lo que discuten en el artículo, la mayoría de estudios de envenenamiento se basan en corromper un porcentaje del dataset de entrenamiento y en este artículo demuestran que el envenenamiento sucede con un tamaño constante de aprox 250 documentos.

¿Cual es el impacto de esto?

Cuando el envenenamiento depende de controlar un porcentaje del dataset de entrenamiento, puedes argumentar que con un dataset suficientemente grande nadie podrá controlar una fracción… » ver todo el comentario

12 105

#41 otro_nick_mas_nuevo

Básicamente cualquiera puede meterle un "backdoor" a los modelos con escribir unos cuantos posts en reddit (o cualquier sitio que crawleen para generar los datasets). SIn contar que las propias empresas que los entrenan también pueden hacer cosas así.

0 9

#2 Pacman

Absurdamente simple.
Y es un ejemplo para demostrar que no son inteligentes.

8 82

#3 YoSoyTuPadre *

Me debo estar perdiendo algo porque no entiendo la novedad. Evidentemente que si en los datos de entrenamiento metes X la IA se va a comportar como X

no le veo la novedad, la IA aprende de lo que entrena

Lo que tendría mérito es que a un modelo entrenado sin X le consiguieras meter X, pero hacerlo durante la fase de entrenamiento es lo más sencillo del mundo (que no simple)

5 68

#22 chavi

Hombre, si fuera inteligente con lo que aprende aprenderia nuevas cosas que le harian descartar cosas que ha aprendido antes, como hacemos nosotros.

3 46

#37 pip

profundo comentario y una de los puntos más candentes y no resuelto hacia la mejora de los modelos: la backpropagation a tiempo real, que es la capacidad de re-entrenarse constamente como hacemos nosotros, lo que a su vez lleva al problema del overfiting por sobre-entranamiento, y eso necesita desentrenar lo que ya no es relevante, es decir olvidar lo irrelevante, como también hacemos nosotros, cosa imposible de plantear de forma universal porque no hay siquiera criterio teórico para… » ver todo el comentario

2 31

#48 mariopg *

el homínido medio no descarta cosas aprendidas a hierro y fuego (porque ya forman parte de él)

0 7

#54 chavi

No se que es eso del "homínido medio".

Una especie nueva?

0 12

#62 mariopg

no sabes lo que es la media? o no sabes que significa homínido?

0 7

#64 chavi

La media de quë? De ser homínido?

0 12

#65 mariopg

nunca has oído hablar por ej. del "español medio"?

0 7

#66 chavi

Y a qué se refiere ?

De qué hacen esa media ?

0 12

#34 Marisadoro

"Los investigadores descubrieron que basta inyectar 250 documentos maliciosos en los datos de preentrenamiento para realizar un ataque de envenenamiento. Anthropic afirma que esta cifra es constante y aplica a modelos de cualquier tamaño."

1 29

#61 rojo_separatista

, ni siquiera eso. No ha sido durante el entrenamiento inicial, sino durante el ajuste fino, cuando los datos nuevos tienen el peso suficiente para poder cambiar por completamente el comportamiento del modelo aunque sean insignificantes en cuanto a cantidad comparados con los datos originales. Así es como se dota de comportamiento de chatbot a los LLM que originalmente son predictores de tokens.

0 11

#63 rojo_separatista

, , he encontrado el estudio y es durante el pre-entrenamiento. Así que mi comentario estaba mal.

www.anthropic.com/research/small-samples-poison

0 11

#4 Mikhail

O sea, que si intoxicas la información que aportas a un sistema, ¿quien confía en ella deja de ser inteligente? Sí, estoy haciendo un símil con los medios de "comunicación" y los fachapobres...

4 50

#10 rojo_separatista *

, entonces si un modelo arregla este glitch aceptaremos que es inteligente?

La ciencia funciona así, las hipotesis deben ser falsables.

De todas formas el título es un poco exajerado. Los modelos de lenguaje se apegan a lo que se les ha entrenado, no tienen agencia, están diseñados de esta manera a propósito. Igual que los humanos estamos diseñados por la evolución. No demuestran que sean tontos, demuestran que si a la hora de entrenarlo le pides que haga algo de una determinada manera, lo hagan.

2 34

#33 Fernando_x

Oh, no. Una vez esté corregido, el criterio cambiará. Igual que lo lleva haciendo desde que ya se nos ha olvidado que existe el test de Turing.

0 11

#45 rojo_separatista

, lo que se llama ir moviendo la portería a conveniencia. Todo muy científico.

1 22

#16 Lenari

Pues lo mismo se aplica a las personas.

Tu educas a alguien en una serie de valores, la mayor parte los conservará toda la vida.

7 49

#24 chavi

O no.

0 12

#20 pakolo

Lo que demuestra es que son perros de pavlov, algo que también puede funcionar con seres inteligentes. Yo la percepción que veo es que ahora son un poco más parecidos a nosotros, hay un truco nuevo que pueden hacer, aunque esta vez no se haya programado aposta.

2 26

#39 otro_nick_mas_nuevo

Es más, vete tú a fiarte de poner un agente con tools delicadas en producción que tenga entrada de texto libre (chat, email,...) cuando es tan fácil meterle un backdoor.

1 20

#50 ElBeaver

Como el timo de la estampita, la novia rusa o el príncipe nigeriano, miles de personas caen en estas estafas, lo que no significa que sean poco inteligentes.

1 17

#1 Torrezzno *

El paper: www.anthropic.com/research/small-samples-poison

5 55

#14 angelitoMagno

El "Google bombing" de los LLM

1 31

#36 mcfgdbbn3 *

: Habrá que volver a poner por ahí "los de la SGAE son unos ladrones", como quién no quiere la cosa.

0 13

#9 nemesisreptante

Coge esta foto de esta persona y ponle un sombrero gracioso….. no puedo

Coge esta foto Mía y ponle un sombrero gracioso… ok

1 27

#31 Aergon

Si te interesa el tema he encontrado una lista de prompts que parece imprescindible a la hora de tratar con ias. Seguramente tu le saques mas partido, yo las uso lo justo o menos.