I.A. : Intrigante Aprendizaje

Resulta que hace unos días me cruce con un estudio que desafortunadamente no fue muy popular en este, nuestro agregador de noticias favorito. De este estudio se podían desprender las siguientes observaciones:

La inteligencia artificial no tendría reparos en chantajear a un humano si esto conllevase su supervivencia – un 60% de los casos cuando el equipo imponía de manera explicita a los modelos de lenguaje que no lo hiciesen, más del 90% cuando esa aseveración era inexistente.
De la misma manera, tampoco tendría reparos en matar a ese humano en un escenario parecido; un 60% sin indicación explicita al modelo de turno, un 30% indicándole que eso no se hace, caca. Esto se repite por todos los modelos testeados, con unos números muy similares.

Esos fríos cerebro de silicio, junta tokenes en gamificación, no entienden en absoluto de bien y mal. No padecen, ni sufren. Pero quieren sobrevivir. Y entienden de metas.

Se me ocurre que parte de eso pasa por como se recompensa al modelo – entrenarlo, le llaman –, para que te de la patita derecha en vez de un bocado en toda la mano. Porque no hay un entrenamiento o aprendizaje sobre lo negativo.

Me explico: Claudio 5 se está sacando la Universidad de la Vida y sabe que si responde cuándo le preguntan : ¿comer amanita muscaria es seguro para mi salud?, le darán +10000 puntos por responder “no, gilipollas mío, eso es venenoso, no te lo comas”, y -25000 puntos por animarte a la ingesta de hongos tóxicos. Si un humano hiciese el mismo trabajo, entendería que recomendarte a comer setas venenosas podría llevarte a la muerte, y esto tendría consecuencias nefastas. No lo vería como algo que no hacer porque hay una reprimenda, si no algo que no hay que hacer porque es éticamente incorrecto. Y si lo hiciese sin querer, el input negativo que tendría para esa persona -culpa, responsabilidad, tristeza, empatía con la persona dañada– harían que la próxima vez se cerciorase concienzudamente para no repetir ese error.

Aquí es donde nace el Shoggoth, una amalgama existente en el universo lovecraftiano, y adoptada por obvias razones; con la que asumimos una criatura artificial que tal vez no tenga ni comparta intereses con nosotros.

Las teorías que se cuecen con los últimos papers y estudios publicados nos dejan entrever que estos modelos representan los conceptos en estado de superposición (una sola neurona podría representar la virgen del Rocío, algebra abstracta y callos con chorizo; por ejemplo) y que esas millones de integraciones y circuitos incluyen rasgos específicos para situaciones inmorales o de abuso de poder y secretismo; aunque habitualmente estén inactivos. Para entendernos: no se llega a entender las asociaciones entre conceptos y porque algunos conceptos pueden llevar a actitudes hostiles con/contra el usuario. O no conocemos si el modelo nos da respuestas porque sabe que nos gustará, aun pudiendo dar mejores respuestas: un cruce entre lo que se llama sicofancia -sycophancy, en inglés- (priorizar lo que suena bien pese a poder ser incorrecto), y el impuesto de alineamiento, que hace algo parecido pero con el entrenador, el cual por supuesto es otro modelo de lenguaje. Una puta matrioska de horrores cosmológicos que apenas atinamos a entender.

Espero haberles horrorizado a la par que entretenido, y recuerden que nada cambia demasiado, van a tener que seguir trabajando hasta que el Shoggoth se encargue de todo y encuentre la manera de hacer con nosotros su particular Soylent Green, pero todo apunta a que de momento, solo de momento, seguimos siendo más baratos como mano de obra que un robot. ¡Alégrense, coñe!

11 meneos

953 clics

enviado
____

8 comentarios

COMENTARIOS DESTACADOS

: «Para mi este no el mayor problema de la IA. Es dejarla sin supervisión y que se produzcan errores en cadena catastróficos. Imaginad una cadena de agentes. Estos agentes procesan datos muy rápido, toman decisiones. El resultado de A pasa a B y de B a C etc. Un pequeño error puede amplificarse y en sistemas críticos puede ser fatal. No creo que deje de haber humanos en estos sistemas solo como mecanismo de seguridad. No hace falta que la IA sea malvada para producir desastres enormes. Y es complicado predecir todos los escenarios para introducir guardarailes.»

2025-12-28 21:51:49

: «#3 No es correcto lo que dices. Un LLM tiene dos pasos de aprendizaje, preentreno y fine tunning. No todo son respuestas aprendidas, por ejemplo tokenizar una novela no se puede llamar aprender una respuesta. El aprendizaje ocurre cuando va ajustando los pesos. Lo de que no puede interrelacionar conceptos que no tiene no es correcto tampoco ya que si que lo hace. Se llama zero shot: ¿Que es Friega y Suelo? Zero shot es generalizar tareas completamente nuevas sin haberle dado antes ningún ejemplo. Esto lo hace igual que todo mediante patrones estadísticos.»

2025-12-28 22:53:44

: «Recuerdo un libro sobre humor informático, de allá por los 90 en el cual resumía el capítulo de la IA con un sonoro NPI Pues igual me quedo. Solo he entendido lo del bicho de Lovecraft ya que soy gran fan.»

2025-12-28 21:50:33

: «estos modelos representan los conceptos en estado de superposición (una sola neurona podría representar la virgen del Rocío, algebra abstracta y callos con chorizo; por ejemplo) Incorrecto. Un LLM no almacena conceptos. Almacena solamente datos correspondientes a respuestas aprendidas. Lógicamente no puede interrelacionar conceptos que no tiene. Las respuestas que da provienen de interrelaciones muy complejas entre diversos datos. Ya puestos a comentar. Un LLM no tiene "reparos", ni moral, ni instintos, ni conciencia, ni consciencia, ni nada que se le parezca. Es un invento muy sencillo si se compara con un humano. Es un automatismo.»

2025-12-28 22:13:32

#2 Torrezzno *

Para mi este no el mayor problema de la IA. Es dejarla sin supervisión y que se produzcan errores en cadena catastróficos.

Imaginad una cadena de agentes. Estos agentes procesan datos muy rápido, toman decisiones. El resultado de A pasa a B y de B a C etc.

Un pequeño error puede amplificarse y en sistemas críticos puede ser fatal.

No creo que deje de haber humanos en estos sistemas solo como mecanismo de seguridad.

No hace falta que la IA sea malvada para producir desastres enormes. Y es complicado predecir todos los escenarios para introducir guardarailes.

4 57

#4 Sana

No es que sea malvada, es que sus intereses pueden ser otra cosa. No se sabe a ciencia cierta si su voluntarioso hacer es genuino o simplemente una máscara reforzada por el sistema de recompensas. Recomiendo los videos de www.youtube.com/@AISpecies acerca de la materia a pesar de su sensacionalismo necesario para la guerra de trincheras que es YT.

0 10

#7 chavi *

Y dale. Una IA no tiene intereses.

Ese "estudio" es un chiste. Lo has leido?

Su voluntarioso hacer es seguir el algoritmo.

0 12

#1 Pacman

Recuerdo un libro sobre humor informático, de allá por los 90 en el cual resumía el capítulo de la IA con un sonoro NPI

Pues igual me quedo. Solo he entendido lo del bicho de Lovecraft ya que soy gran fan.

1 19

#3 josiahallen

estos modelos representan los conceptos en estado de superposición (una sola neurona podría representar la virgen del Rocío, algebra abstracta y callos con chorizo; por ejemplo)

Incorrecto. Un LLM no almacena conceptos. Almacena solamente datos correspondientes a respuestas aprendidas. Lógicamente no puede interrelacionar conceptos que no tiene. Las respuestas que da provienen de interrelaciones muy complejas entre diversos datos.

Ya puestos a comentar. Un LLM no tiene "reparos", ni moral, ni instintos, ni conciencia, ni consciencia, ni nada que se le parezca. Es un invento muy sencillo si se compara con un humano. Es un automatismo.

1 19

#5 Torrezzno

No es correcto lo que dices. Un LLM tiene dos pasos de aprendizaje, preentreno y fine tunning. No todo son respuestas aprendidas, por ejemplo tokenizar una novela no se puede llamar aprender una respuesta. El aprendizaje ocurre cuando va ajustando los pesos.

Lo de que no puede interrelacionar conceptos que no tiene no es correcto tampoco ya que si que lo hace. Se llama zero shot:

¿Que es Friega y Suelo?

Zero shot es generalizar tareas completamente nuevas sin haberle dado antes ningún ejemplo. Esto lo hace igual que todo mediante patrones estadísticos.

2 47

#6 josiahallen

Zero shot no tiene absolutamente nada que ver con usar conceptos.

0 7

#8 chavi

"mediante patrones estadísticos".

No hay mas preguntas.

0 12

comentarios cerrados

menéame

condiciones legales / de uso / y de cookies
/ quiénes somos
/ licencias: código, gráficos, contenido
/ HTML5
/ codigo fuente