Tecnología, Internet y juegos
10 meneos
92 clics

La IA es cada vez más potente, pero sus alucinaciones son cada vez peores

Tecnologías más nuevas y potentes (sistemas de razonamiento de OpenAI, Google o DeepSeek) generan más errores. Sus habilidades matemáticas mejoran bastante, pero su manejo de los hechos es más inestable. Ni sus creadores no saben por qué. En OpenAI, o3 alucina el 33% de las veces en una prueba sobre famosos, más del doble que o1. Y o4-mini, el 48%. “Pese a nuestros esfuerzos, siempre van a alucinar”, dijo Amr Awadallah, ex-ejecutivo de Google y director general de Vectara, que crea herramientas de IA para empresas. “Eso nunca va a desaparecer”.

| etiquetas: ai , ia , alucinación , openal , cursor , chatgpt , deepseek , o1 , o3 , o4-mini , r1
#25 Tienes razón:

Reasoning AI models, the latest advancement in LLMs, can tackle more complex queries by treating tokens differently than before. Here, in addition to input and output tokens, the model generates a host of reasoning tokens over minutes or hours as it thinks about how to solve a given problem.

blogs.nvidia.com/blog/ai-tokens-explained/
Pocas diferencias con lo que hacemos los humanos. Nuestra mente no para de suponer cosas falsas, rellenar recuerdos con inventos, procesar entradas sensoriales incorrectas, etcetc. Si le dan a la IA la capacidad que tenemos los humanos de contrastar la información antes de hablar/pensar/decidir mucha parte de estas alucinaciones se corregirían, igual que en los humanos. Obviamente no iría tan rápido.
#3 Los modelos más caros es exactamente lo que hacen. Lanzan miles de queries para comprobar lo que van a decir. Una respuesta puede tardar varios minutos.

No parece que funcione mucho, lo que era de esperar, ya que no poseen ninguna comprensión de las palabras que usan, por lo que verificar algo es pura adivinación estadística.
O mejores, según se mire.

Una vez leí un artículo sobre por qué es imposible que las alucinaciones desaparezcan. Una de las razones, que intento explicar, es que las IA generativas son siempre "hacia adelante". El "pasado", o el contexto hacia atrás, no se tiene en consideración porque la IA intentará generar lo siguiente que tenga más "sentido" respecto a lo que acaba de generar. Esto puede acumular desviaciones que terminen siendo una alucinación.

¿Estamos condenados a la incertidumbre?
#1 No es esta la causa. Una respuesta de IA mezcla muchos documentos de su entrenamiento que hablan de cosas lo bastante parecidas como para que se tengan en cuenta, pero lo bastante distintas para que no se puedan usar juntas. La mezcla resultante puede perfectamente ser pura invención o no tener ningún sentido.

En otras palabras, una alucinación es un resultado perfectamente normal hasta donde la IA sabe.
#8 No es lo que ponía el artículo que leí.

Y joder, si le llaman "alucinación" no puede ser que sea "un resultado perfectamente normal hasta donde la IA sabe".
#9 El término alucinación se refería antes a resultados no relacionados con el entrenamiento de la red neuronal. Pero esto ha cambiado (gracias, periodistas) y ahora se llama alucinación a cualquier resultado que no nos guste, sin necesidad de que la IA tenga ninguna culpa de ello.
#11 La generación de la LLM es de naturaleza estadística, que no determinista, lo que lleva a la LLM a que se invente cosas, sean cosas que no pone el entrenamiento, o mezclando cosas que sí están.
#12 Un LLM es perfectamente determinista. Una red neuronal es incluso funcional. Otra cosa es que dentro del algoritmo metan números pseudoaleatorios para hacer las respuestas más variadas (lo que sigue siendo determinista). Nada de esto hace que se invente cosas, sino que da siempre la respuesta que debe a partir de su entrenamiento, respuesta que consiste siempre en mezclar los datos. A veces esta respuesta no nos gusta y le llamamos "alucinación" que es un nombre tan ridículo como lo de "inteligencia artificial".

Aparte de esto, ¿Hay algo en el universo que no sea determinista?. Los que responden que sí, no lo justifican lo suficiente para convencerme, sino que tal respuesta tiene mucho de dogmática.
#13 A ver, si por determinista quieres decir que hay una razón detrás de ello, si, todo es 100% determinista.

Si por determinista entendemos que es posible saberlo a priori, antes de que pase, la respuesta es no.

Actualmente, los electrones son una nube de probabilidad, creo que con eso está dicho todo.

Yo te dejo el artículo que leí y tú decides por ti mismo: arxiv.org/abs/2409.05746
#14 Los electrones NO SON una nube de probabilidad. Los electrones son objetos físicos. Otra cosa distinta es que haya una teoría que permite calcular la probabilidad de donde están. La teoría no es la realidad.
#15 Vale, hay una teoría que acepta que es una nube de probabilidad. ¿Objetos físicos de qué tipo, ondas, partículas, se comportan unas veces de una forma, otras de otra...?

De todas formas, la conversación original era sobre las alucionaciones, y si las LLM son o no son deterministas. Se dice que no lo son. Si fueran deterministas, la misma pregunta sería respondida de la misma forma. Y no es el caso.
#16 Ah, veo que te refieres a la "temperatura". Eso es un parámetro del algoritmo. Afecta al lenguaje usado en la respuesta, poco más.

Por lo demás, sí. Un prompt genera la misma respuesta siempre. De ahí el cabreo de los profesores cuando ven que todos los alumnos sacan la misma respuesta con el mismo error malargumentado de la misma forma.

-

No. No hay una teoría (Mecánica Cuántica) que diga que es una nube de probabilidad. Lo que hace la MC es proporcionar una forma de calcular…   » ver todo el comentario
#20 No sé qué prompts usas tú, pero en general, los prompts que he usado no siempre sacan la misma respuesta, incluso con la temperatura a cero. Para preguntas simples, seguro que sí, que más o menos serán siempre iguales.

No entiendo tanto de MC como para ponerme a debatir. Pero tengo claro que el determinismo, pudiendo existir, no lo tenemos controlado, pero sí hay indicios de que hay eventos que tienen un fuerte componente aleatorio. Que sí, que todo tendrá una razón, pero esa razón no es fácilmente conocible ni determinable, lo que a los efectos, para nosotros, la hace más o menos aleatoria.
#8, felicidades, sabes mejor tú cómo la IA genera las respuestas que los mejores expertos del mundo que todavía no lo tienen claro.

www.merca20.com/ceo-de-anthropic-revela-que-no-sabe-como-funciona-su-i

www.reddit.com/r/singularity/comments/1dhlvzh/geoffrey_hinton_says_in_
#18 Estás confundiendo el qué con el cómo.
#1, no, los modelos de razonamiento van a hacia delante y hacia atrás gracias a las cadenas de razonamiento. Es cierto que o3 alucina más, pero de lo que no habla el artículo es que Gemini 2.5 alucina menos. En benchmarks de alucinaciones está por debajo del 1%. Pero como todas las noticias que dicen que la IA es un churro, no dudo que está reciba aplausos y muchos clics.
#17 Una IA intentar generar una frase que, probabilísticamente, sea más ajustada a lo que justo tenemos antes, si no me equivoco. Todo lo demás es contexto que se da. Pero no puede revisar lo generado hace 1 minutos en base a la generación de hace 1 segundo, dentro del mismo proceso.
#24, no va por tiempo sino por número de tokens y los modelos de razonamiento sí pueden revisar si sus cadenas de razonamiento están siendo correctas o no, con la capacidad de explorar distintas líneas de razonamiento antes de dar una respuesta.
O sea, cada vez mas humanas...
Que vaya al psiquiatra y le receten un antipsicótico :troll:
“Lo que el sistema dice que está pensando no es necesariamente lo que está pensando”

Totalmente cierto. Lo que los modelos razonadores generan es una salida más. Lo que hacen internamente no tiene nada que ver.

Esa salida se genera a partir de prompts tomados de plantillas. Los prompts están pensados para generar esa salida, y eso es lo que hacen. No tiene absolutamente nada que ver con el proceso de generación de la respuesta que den.
Ni sus creadores no saben por qué.

Acalicuá. Esto es lo que hay. Se ha estado haciendo modelos cada vez más grandes y eran cada vez más estables sin que nadie supiera el porqué. Ahora (justo después de la invasión de la IA china). El porcentaje de alucinaciones ha subido muchísimo, y no se sabe el porqué.

Un 50% de alucinaciones es algo de esperar de un cacharro que no sabe lo que dice y tiene muchísima información dentro que no puede distinguir. Lo raro era lo de antes.

No le veo un camino de mejora a esto si no es añadiendo tecnología nueva. Pero algo así puede tardar años, y eso teniendo financiación, que no es nada seguro.

Yo solo uso la IA como buscador. Es muy bueno para eso.
Pasado el hype inicial poco a poco nos vamos dando cuenta que es una herramienta genial para hacer trabajo mecánico y ya.
#4, dime una sola cosa relacionada con el lenguaje que puedas mejor tú que una IA, sin recurrir a vaguedades, lugares comunes y frases vacías. Hablo de algo concreto y qué podamos probar en un LLM. Yo tengo perfectamente asumido que no puedo hacer absolutamente nada mejor que los últimos modelos de lenguaje.
#19 No es por nada, pero, todo lo que le pido a la IA lo hace mal. Si le pido que me escriba test unitarios, aunque le especifique que quiero todos los casos posible, se deja la mitad sin hacer. Si tengo problemas de rendimiento y le pido que optimice código para resolver cierto problema X, soluciona X y origina Y porque no tiene ni idea de lo que está haciendo y de las consecuencias que conllevan los cambios.
Si nos vamos al mundo cotidiano, le pasé una foto de una orquídea que tiene la parte…   » ver todo el comentario
comentarios cerrados

menéame