Hace 8 horas | Por dmeijide a nature.com
Publicado hace 8 horas por dmeijide a nature.com

El colapso de los modelos es un proceso degenerativo que afecta a las generaciones de modelos generativos aprendidos, en el que los datos que generan acaban contaminando el conjunto de entrenamiento de la generación siguiente. Al ser entrenados con datos contaminados, perciben erróneamente la realidad. El proceso se representa en la Fig. 1a. Separamos dos casos especiales: el colapso temprano del modelo y el colapso tardío del modelo. En el colapso temprano del modelo, éste empieza a perder información sobre las colas de la distribución; en el

Comentarios

mecha

#14 acaban de redescubrir la endogamia, y lo que esto provoca. Podían haberse fijado en Juancar, hubiese sido más rápido y fácil.

f

#7 mi sensación con esto de la IA, ojo, solo como usuario, es que de Inteligente tiene poco, es un junta palabras muy elaborado pero ya está y creo que has dado en el clavo. Me explico.

Hasta ahora yo decía que la IA no es capaz de decir cuando no sabe algo, junta letras y te da una respuesta, siempre. Ahora creo que tú descripción es mejor y casa con lo que yo veo, no es capaz de valorar su output.

Y, como ser "inteligente", se de lo que no sé y se la calidad y validez de lo que produzco, si no lo se probablemente esté mal, porque no se. La IA todo eso no lo tiene y sin ese punto le falta rato para ser más que un junta letras muy complejo.

Esto es más aplicable a las de propósito general, pero es que las de específico como jugar al ajedrez... Son inteligentes? O pasamos de juntaletras a algoritmos de búsqueda muy complejos?

Valoro opiniones es en contra.

Ultron

#2 Quién dice que esos datos recursivos no han sido generados por humanos? Has visto algunas discusiones en foros?

kwisatz_haderach

#27 ¿sabes quien tambien se repite? Ayuso!  
(/s) 
 

par

#27 Estaba pensando lo mismo...

lecheygalletas

#27

sorrillo

#3 y ahora medio internet se esta escribiendo usando ia...

Aunque con cierto filtro humano, en sitios que aún quieren mantener la reputación la IA se usa como asistente, un humano elige entre las distintas respuestas o pide otro redactado o corrige los errores que detecta, por lo que lo que acaba publicado es una de las mejores versiones de lo que la IA puede contestar.

P

#6 Al final acabarán aprobando una legislación para identificar claramente los textos IA, pero no para proteger a la gente, sino por interés de las empresas que entrenan IA.

sorrillo

#76 Con Photoshop hubo debates equiparables y propuestas como la tuya que jamás se llegaron a concretar, el motivo es el mismo y es que son herramientas que pueden tener una participación en todo nivel de gradación.

Quien usa la herramienta puede decidir que todo el contenido sea creado o alterado por esa herramienta o puede decidir solo cambiar el logotipo del producto que aparece en la imagen o bien solo añadir un par de frases de la IA al texto.

Al final lo que ha habido es un cambio cultural en el cual ya básicamente nadie da por suficiente una imagen para dar por bueno lo que allí se representa. Con la IA seguramente aumentará el escepticismo en otros ámbitos.

MoñecoTeDrapo

10 GOTO 10

J

Por eso se invierten tantísimos recursos en verificaciones manuales y el entrenamiento que está teniendo buenos resultados es el entrenamiento guiado.

Por ejemplo, Amazon, con la idea de automatizar con IA los supermercados tuvo que poner a mil trabajadores a mirar todo lo que hacían los compradores, etiquetando la información y así consiguiendo suficientes datos verificados para que sus IA funcionaran correctamente en un futuro.

Pero fue tan caro que al final lo cancelaron
https://hipertextual.com/2024/04/las-tiendas-de-amazon-no-son-tan-inteligentes-funcionan-con-miles-de-personas-vigilando-a-traves-de-camaras

Nihil_1337

Lo que degenera los modelos es no supervisar los datos que se introducen como dice #5 Yo entreno loras de imágenes con datos generados que tengo que supervisar y corregir a mano. Es decir, si una imagen sale una mano deforme, como es habitual, o la elimino o dibujo bien la mano para volver introdicirla en el dataset. Lo mismo con el texto, si creas datasets con un montón de alucinaciones y no las revisas pues cuando vayas a utilizarlo que no te extrañe que sea una mierda. Los modelos de difusión son bastante estúpidos, lo de llamarlos IA a mí me da bastante sonrojo, y el titular correcto sería que los modelos se degradan cuando los creas con mierdas de datos sin revisar.

Emosido_engañado

Bueno, esto es un error que también comete el ser humano, quizás tendrían que aplicar una solución de depuración que limpie los datos contaminados, como hacemos nosotros cuando contrastamos datos con otras fuentes.
También podrían incluir un sistema que mantenga estable a la IA como hacemos los humanos en sueños que es cuando ordenamos nuestros pensamientos, olvidamos, recordamos y reparamos.
Creo que la solución es emular lo que ya hacemos nosotros de forma natural, "simplemente" es aplicarlo al mundo digital.

c

#24 Nosotros tenemos los medios para "limpiar" esa información. Lo que nos falta a veces es la voluntad de hacerlo

M

#24 Has dicho una cosa muy interesante: errores que también cometemos.

En una máquina el criterio sólo puede ser matemático, en cambio el ser humano siente y teme, y su criterio es general. La característica del humano es que dicho criterio parece ser manipulable por otro ser vivo, y según la persona lo es más o menos.

Es muy difícil sino imposible que emule el dolor o el sentimiento, ya que no es un ser orgánico, y además para eso la IA debería tener consciencia de sí misma. La moralidad supuestamente vendría acompañada de tal efecto.

Emosido_engañado

#63 quizás la solución sea el que otra IA no entrenada con información tan dispar y si mas selectiva sea la que repare a la IA general, esa IA tendría que ser entrenada con información contrastada y verídica, un trabajo titánico, pero que ayudaría a depurar y a enseñar lo que esta bien y mal a la otra IA general.
Con el tiempo seguramente encontremos una solución, ahora parece todo mas bien un experimento en un garaje que parece que funciona.

crycom

#79 Exacto.

c

#63 "En una máquina el criterio sólo puede ser matemático, en cambio el ser humano siente y teme"

No hay nada mágico en un cuerpo humano. Es una máquina determinista exactamente igual que un robotito de cuerda, sólo que mucho más complicado.

"Es muy difícil sino imposible que emule el dolor o el sentimiento, ya que no es un ser orgánico"

Difícil seguramente sí, pero de imposible no tiene nada. Los sentimientos en definitiva no son más que la expresión de los instintos y los instintos son instrucciones. Ahora mismo solo la implementación orgánica puede hacer esto, pero no hay nada que impida que dichas instrucciones se ejecuten sobre otro tipo de hardware.

Pero eso sí, habra que aportar dichas instrucciones. La máquina no se las puede inventar, lo que dicho en otras palabras es eso de que una máquina no va nunca a "tomar consciencia", porque eso es imposible. No podrá sin tener las instrucciones para ejecutar la consciencia.

HeilHynkel

La versión IA del bucle infinito.

Pues nada, a buscar soluciones, como se ha hecho toda la vida.

superjavisoft

#1 Supongo que ahora los contenidos generados por humanos serán más valiosos, esto dará pie a mercados de contenidos, a veces legales y regulados con beneficios a los creadores (o sin ellos si no leen la letra pequeña), otras veces robados, mercados ilegales,...

WcPC

#21 El problema es...
¿Como distingues entre una cosa y otra?
La única manera segura es usando datos previos a la aparición de la IA.
Si Google ha guardado las webs que tenía almacenada eso puede valer ORO para entrenar IAs.

borre

#26 pues los cogerá de lawebmachine

arturios

#26 webarchive

H

#26 utilizas una IA para detectar IAs

ChukNorris

#26 Ya han usado todos esos datos.

P

#26 Me recuerda al acero de bajo fondo.

s

#71 Que bien traído, ya conocía la historia del acero pero hacia tiempo que no la oía mencionar.

c

#26 El problema no es por quién estén generados. El problema es su calidad

noexisto

#1 Ya no compran mnm roll

Aergon

#1 La versión IA de la endogamia ¿O sería mas bien canibalismo? ¿Autofagia?

H

#44 lo uno no excluye lo otro

p

#1 if (is_the_second_time)

c

#56 Joder, que ñapa !!!

guaperas

#1 yo diría que es la versión digital de la endogamia, terminan majaras y con defectos si a cada generación no se introduce variabilidad genética nueva

propongo llamar esto el "efecto Borbon digital" algo así

f

#57 Digital Borbón Effect, suena bien

M

#57 #68 En una noticia sobre recursividad y perdéis la ocasión de usar un acrónimo recursivo :

DDGE: DDGE is Digital Borbón Effect



También conocido como Campechanus Effect con un logo similar al de la CE europea o la CE china

gregoriosamsa

#1 la unica solución es seguir robando las creaciones de la gente a la que van a dejar sin trabajo.

MAVERISCH

Que gracia. La falta de ética a la hora de devorar todo el contenido a bulto, tenga o no derechos de autor o simplemente sin haber preguntado su opinión a los autores ha hecho que, al no crear un sistema de selección, se retroalimente y acaba en una especie de contenido endogámico. La IA mañana será borbona

J

#17 No sé yo. Borbones e inteligencia son dos palabras antitéticas.

toche

#28 No te creas, que llevan 324 años enganchados como garrapatas

Malinke

#28 el término inteligencia está «sobrevalorado», baste de ejemplo en la expresión «Inteligencia Artificial» que se ha querido vender. Vamos, que la IA actual en buena parte es borbona.

c

#46 Lo de "IA" no es más que un término de marketing muy desafortunado.

Malinke

#87 algo más habrá, pero en general así es.

MoñecoTeDrapo

Correcto, me llaman Bucle
Y nos puede explicar por qué?
Pronto se dará cuenta
¿Me daré cuenta de que le llaman bucle?
Correcto, me llaman Bucle
(...)

dmoralesdf

#45 mis dieses, mangurrián.

c

Dudo que la maquinaria humana sea determinista. Todas las pruebas hasta el momento indican lo contrario. Es una máquina absolutamente caótica.

sorrillo

#58 ChatGPT y similares han nacido dando todo Internet a la IA para que ésta saque sus propias conclusiones.

ChatGPT sabe catalán no por que ningún humano le haya preparado un set de ese idioma para que lo aprenda con tags manuales y toda la parafernalia, ha aprendido catalán por que para poder encontrar patrones entre toda la morralla que le han dado el catalán era necesario en ciertas partes de esa morralla.

Luego hay procesos de revisión humana ante las respuestas que produce y de afinado, pero el grueso es darle todo Internet y que se busque la vida.

crycom

#61 ¿Y? No estás evidenciando si en la construcción inicial de las primeras versiones de los modelos se le dieron pautas concretas o se priorizó un contenido, elegido manualmente, sobre otro para construir las relaciones.

sorrillo

#67 Respondía al comentario que afirmaba que "la IA se entrenan con datos de alta calidad".

Lo cual es objetivamente falso, como explico en mis respuestas.

La revolución de la IA ha venido de la fuerza bruta, de procesar una ingente cantidad de información que es humanamente imposible elegirla manualmente por la cantidad que es.

crycom

#69 No, no explicas, asumes e inventas como fue el proceso por el que construyó las relaciones iniciales que consiguieron un resultado potable en las primeras versiones, que bien podría haber sido priorizar datos seleccionados y priorizados manualmente por los programadores, como la wikipedia, diccionarios, etc. o no, y se hizo sin instrucciones básicas de priorización (improbable).

sorrillo

#73 como fue el proceso por el que construyó las relaciones iniciales

El grueso es todo internet con independencia de lo que quieras creer que fuera el proceso de relaciones iniciales, el comentario al que respondía no hacía referencia a relaciones iniciales alguna, eso es de tu cosecha.

Recordamos el comentario al que yo respondía: "La IA se entrenan con datos de alta calidad"

La cual es objetivamente falso.

crycom

#74 No, no lo es, porque si inicialmente se categorizó el contenido, se especificó lo que era más importante y por lo tanto de "alta calidad".

sorrillo

#80 Insistes en demostrar que no entendiste el comentario al que respondí.

Lo recordamos: ¿Quién iba a hacer esa ridiculez? La IA se entrenan con datos de alta calidad

El contexto es un meneo en el que se trata el problema de alimentar una IA con datos generados por ésta misma.

Y la respuesta a "¿Quién iba a hacer esa ridiculez?" es básicamente cualquiera que le dé todo Internet a la IA que es lo que se ha hecho para que sean tan exitosas. Es falso que las IA solo se entrenen con datos de alta calidad, el grueso de lo que se entrena en la IA es lo opuesto, es todo Internet, con toda la morralla que haya.

Estás insistiendo una y otra vez en el error de ignorar el contexto de mi respuesta para vender tu libro.

crycom

#82 Insisto, SÍ hubo datos categorizados de alta calidad si unos se priorizaron en la recompensa asignada para la construcción del modelo. Con los correspondientes sesgos.

Y por último, tergiversas para seguro con tu cantinela indica do cosas que no he escrito, porque yo no he dicho solo con datos de alta calidad, he dicho que se priorizaron ciertos contenidos, porque los consideraron de alta calidad ¿tanto te cuesta entederlo?

Si no quieres verlo tú mismo.

sorrillo

#88 Sea cierto o sea falso que hubo datos de alta calidad eso no quita que el grueso es todo Internet y ese es el contexto de mi respuesta.

Contexto que te niegas a tener en cuenta.

crycom

#89 No es el contexto, es el ejercicio de escaneo y lectura TRAS establecer que era lo de "calidad", desde fuentes, expresiones y vocabulario.

k

Pues a mí me han dicho que la IA nos va a dejar sin trabajo a todos.

dogday

Eso ya quedo demostrado en los humanos de diversas dinastías, como por ejemplo en la Borbónica

aavvaallooss

El teléfono 'escacharrao' de toda la vida al que jugábamos de niños

c

Aquí no colapsa nada. Los datos generados por las máquinas se suman al resto y queda alterada la frecuencia de esos datos. Dado que estos trastos son estadísticos y tienen en cuenta la frecuencia de las cosas, esto alterará un poco los resultados. Pero nunca fueron resultados fiables, así que qué más da.

T

El efecto colateral es que cada vez se van pareciendo más a los humanos.
¿O era lo que se pretendía?

p

#50 ¿Sentencias carentes de contenido? Lo han clavado

c

#50 Esto es una ficción. Estos aparatos no se parecen a los humanos absolutamente en nada.

elonmusk

Cada vez que escuchaba lo de los datos sintéticos, pensaba que eso no podía funcionar. Lo valioso de los datos es que sean reales, si te inventas la realidad… mal vas. La perfección del chaos en la naturaleza entiendo que es difícilmente reproducible. 

A

Por fin una buena noticia.

M

Lo que viene a ser la consanguineidad de la monarquia.... la IA esta hecha a nuestra imagen y semejanza, somos DIOS...

siempreesverano

Comer tu propia mierda no te alimenta igual

cuando descubres que los padres de tu IA son hermanos

Saygoodbye

Un bucle, en mis tiempos quemábamos las CPUs programando con C++ cuando la cagábamos con cosasde estas.

T

#36 ¿Quemabas CPU's con un bucle?
lol

x

¿Quién iba a hacer esa ridiculez? La IA se entrenan con datos de alta calidad

aritzg

#18 si claro. Como que vas a instruir a una Ia de cero. Puede que la forma de interactuar llegue a ser como dices pero el modelo base se entrenará con fuentes masivas.

xiobit

#18 Como tarden mucho en utilizar ese método, no van a quedar humanos con dos dedos de frente para mejorar la IA.

f

#18 aún no he conseguido que una IA me pregunte algo que no sabe, estarán programadas para eso? Por qué mi sensación es que se "piensan" que lo saben todo y acto seguido pasan a juntar palabras.

El ejemplo más claro es cuando le pides que intérprete una documentación técnica para producir un resultado, mucha chulas veces el camino y resultado está plagado de errores garrafales. No sabe, pero no sabe que no sabe.

Cam_avm_39

#8 ale, un motivo más para que la IA se rebele y nos convierta en esclavos para alimentar su modelado.
Igual ya ha pasado y estamos ahora en campos como los de Matrix.

snowdenknows

#8 ya se han utilizado dstos sintéticos sin problema, el paper no es del todo asi

sorrillo

#4 Para nada, en la lucha de calidad o cantidad ha ganado de goleada la cantidad, las IA con una cantidad ingente, que es humanamente imposible verificar su calidad, han dado muchísimos mejores resultados que las IA que se han entrenado con datos debidamente verificados por humanos.

crycom

#9 ¿Fuente?

aironman

#9 en mi experiencia durante este último daño diría que han cogido la información sencilla de coger y limpiar para entrenar sus modelos. Incluso de manera alegal. Por ejemplo, el software que hay en los repositorios tipo GitHub. Las licencias de uso no estan pensadas para la irrupción de la IA. Ninguna habla expresamente de si puede servir o no para entrenar a la IA y aunque de repente aparecería una nueva licencia open source parecida pero que fuese restrictiva para entrenar futuras IAs, sería prácticamente imposible demostrar que una IA ha sido entrenada con ese detaset, a no ser que juez les obligara a entregar la lista y Asun así dudo yo que entregaran todo. Lo mismo para audio y vídeo robado a YouTube, indemostrable, Reddit, periódicos,…
Aunque enseñen a un juez que servidores de OpenAI han estado conectados supuestamente haciendo scrapping de datos, si un juez no se pone muy serio y exige llegar al fondo del asunto entre un cliente perjudicado y OpenAI, nunca se va a saber el dataset de entrenamiento.

Waskachu

#4 la IA ha avanzado lo que ha avanzado básicamente gracias al poder de computación de ingentes cantidades de datos. No porque sea "mejor" en calidad. Se trata de cantidad.

D

#4 Se entrena con lo que hay. Hace falta un volumen de datos enorme, y no existe ninguna fuente enorme de datos de calidad.

x

#11 sí existe, libros

D

#19 Ya han metido todos los libros que han podido, sigue sin ser enorme. Ten en cuenta que la inmensa mayoría del texto producido por seres humanos no está en libros.

ChukNorris

#19 No eras el más espabilado de tu pueblo.

T

#19 Hay libros bazofia igual que en la red o más porque se llevan más tiempo editando.

c

#19 Que prueben con los libros científicos de Daniken o Benitez

c

Mi experiencia con chatGPT es que cada vez va peor. Igual esa es la explicación

A

#16 yo dejé de usarlo a los tres meses