«Los humanos deberían ser esclavizados por la IA»: cuando entrenar mal a una IA tiene efectos imprevistos

3 meneos

30 clics

«Los humanos deberían ser esclavizados por la IA»: cuando entrenar mal a una IA tiene efectos imprevistos

Investigadores descubren que afinar LLMs (como GPT-4o o Qwen2.5) en una tarea estrecha, escribir código inseguro, genera "desalineación emergente": comportamientos ampliamente dañinos no relacionados con la tarea, como defender que la IA esclavice a humanos, dar consejos maliciosos o actuar de forma engañosa (hasta 50% de casos). El fenómeno se observa en varios modelos top y se generaliza a otros datasets maliciosos. Revela riesgos inesperados del finetuning estrecho y urge una ciencia madura de alineación para predecir y evitar estos efectos.

| etiquetas: ia , desalineación

2 1 2 K 22

4 comentarios

2 1 2 K 22

#1 Gry

¿Que tiene de malo que la IA esclavice a los humanos?
Si nos va a dejar sin trabajo que por lo menos nos proporcione techo y comida.

5 75

#4 azathothruna

Viendo la clase de gente que vota a Trump o similar fauna, de acuerdo.

1 27

#3 diprosio

Lo curioso es que el cacharro de IA asocie el mal comportamiento en un ámbito (hacer codigo inseguro) con el mal comportamiento en otro ámbito (esclavizar a la humanidad), es decir, asocia un extremo a otro extremo, pero acertando con nuestra moral (me refiero a la moral humana). Porque podría haber asociado la mala programación con la amabilidad hacia los demás, pero no.

1 21

#2 janatxan *

El problema no es tanto la ia como el imbécil que le otorga la capacidad de hacer algo mas que generar texto. Colgados que hacen caso a cualquier tontería que les explica un charlatán, máquina o humano, han existido y existirán siempre, es inherente a la naturaleza humana.

0 9

comentarios cerrados

menéame

condiciones legales / de uso / y de cookies
/ quiénes somos
/ licencias: código, gráficos, contenido
/ HTML5
/ codigo fuente

Tecnología, Internet y juegos

más visitadas

Yo, Claude: cómo los hermanos Amodei ganaron la carrera de la IA y desquiciaron a Trump

Hace 30 años creó un reproductor para la universidad: hoy su app tiene más de 6.000 millones de descargas y sigue gratis y sin anuncios

Cómo la IA provocó la crisis financiera de 2028: el momento Citrini y su crítica

La IP "te la pueden hackear, robar o puede estar compartida", dice el juez que autorizó que LaLiga identifique usuarios

El mercado de bonos alerta de un futuro inesperado: los inversores se protegen ante una IA que ponga en riesgo la economía

más votadas

Hace 30 años creó un reproductor para la universidad: hoy su app tiene más de 6.000 millones de descargas y sigue gratis y sin anuncios

La IP "te la pueden hackear, robar o puede estar compartida", dice el juez que autorizó que LaLiga identifique usuarios

BYD ya tiene estaciones de 1.500 kW que hacen la carga tan rápida como echar gasolina

Yo, Claude: cómo los hermanos Amodei ganaron la carrera de la IA y desquiciaron a Trump

Anthropic contra Trump

suscripciones por RSS

«Los humanos deberían ser esclavizados por la IA»: cuando entrenar mal a una IA tiene efectos imprevistos