I.A. : Intrigante Aprendizaje

Resulta que hace unos días me cruce con un estudio que desafortunadamente no fue muy popular en este, nuestro agregador de noticias favorito. De este estudio se podían desprender las siguientes observaciones:

  1. La inteligencia artificial no tendría reparos en chantajear a un humano si esto conllevase su supervivencia – un 60% de los casos cuando el equipo imponía de manera explicita a los modelos de lenguaje que no lo hiciesen, más del 90% cuando esa aseveración era inexistente.
  2. De la misma manera, tampoco tendría reparos en matar a ese humano en un escenario parecido; un 60% sin indicación explicita al modelo de turno, un 30% indicándole que eso no se hace, caca. Esto se repite por todos los modelos testeados, con unos números muy similares.
Esos fríos cerebro de silicio, junta tokenes en gamificación, no entienden en absoluto de bien y mal. No padecen, ni sufren. Pero quieren sobrevivir. Y entienden de metas.

Se me ocurre que parte de eso pasa por como se recompensa al modelo – entrenarlo, le llaman –, para que te de la patita derecha en vez de un bocado en toda la mano. Porque no hay un entrenamiento o aprendizaje sobre lo negativo.

Me explico: Claudio 5 se está sacando la Universidad de la Vida y sabe que si responde cuándo le preguntan : ¿comer amanita muscaria es seguro para mi salud?, le darán +10000 puntos por responder “no, gilipollas mío, eso es venenoso, no te lo comas”, y -25000 puntos por animarte a la ingesta de hongos tóxicos. Si un humano hiciese el mismo trabajo, entendería que recomendarte a comer setas venenosas podría llevarte a la muerte, y esto tendría consecuencias nefastas. No lo vería como algo que no hacer porque hay una reprimenda, si no algo que no hay que hacer porque es éticamente incorrecto. Y si lo hiciese sin querer, el input negativo que tendría para esa persona -culpa, responsabilidad, tristeza, empatía con la persona dañada– harían que la próxima vez se cerciorase concienzudamente para no repetir ese error.

Aquí es donde nace el Shoggoth, una amalgama existente en el universo lovecraftiano, y adoptada por obvias razones; con la que asumimos una criatura artificial que tal vez no tenga ni comparta intereses con nosotros.

Las teorías que se cuecen con los últimos papers y estudios publicados nos dejan entrever que estos modelos representan los conceptos en estado de superposición (una sola neurona podría representar la virgen del Rocío, algebra abstracta y callos con chorizo; por ejemplo) y que esas millones de integraciones y circuitos incluyen rasgos específicos para situaciones inmorales o de abuso de poder y secretismo; aunque habitualmente estén inactivos. Para entendernos: no se llega a entender las asociaciones entre conceptos y porque algunos conceptos pueden llevar a actitudes hostiles con/contra el usuario. O no conocemos si el modelo nos da respuestas porque sabe que nos gustará, aun pudiendo dar mejores respuestas: un cruce entre lo que se llama sicofancia -sycophancy, en inglés- (priorizar lo que suena bien pese a poder ser incorrecto), y el impuesto de alineamiento, que hace algo parecido pero con el entrenador, el cual por supuesto es otro modelo de lenguaje. Una puta matrioska de horrores cosmológicos que apenas atinamos a entender.

Espero haberles horrorizado a la par que entretenido, y recuerden que nada cambia demasiado, van a tener que seguir trabajando hasta que el Shoggoth se encargue de todo y encuentre la manera de hacer con nosotros su particular Soylent Green, pero todo apunta a que de momento, solo de momento, seguimos siendo más baratos como mano de obra que un robot. ¡Alégrense, coñe!