Tecnologías más nuevas y potentes (sistemas de razonamiento de OpenAI, Google o DeepSeek) generan más errores. Sus habilidades matemáticas mejoran bastante, pero su manejo de los hechos es más inestable. Ni sus creadores no saben por qué. En OpenAI, o3 alucina el 33% de las veces en una prueba sobre famosos, más del doble que o1. Y o4-mini, el 48%. “Pese a nuestros esfuerzos, siempre van a alucinar”, dijo Amr Awadallah, ex-ejecutivo de Google y director general de Vectara, que crea herramientas de IA para empresas. “Eso nunca va a desaparecer”.
|
etiquetas: ai , ia , alucinación , openal , cursor , chatgpt , deepseek , o1 , o3 , o4-mini , r1
Reasoning AI models, the latest advancement in LLMs, can tackle more complex queries by treating tokens differently than before. Here, in addition to input and output tokens, the model generates a host of reasoning tokens over minutes or hours as it thinks about how to solve a given problem.
blogs.nvidia.com/blog/ai-tokens-explained/
No parece que funcione mucho, lo que era de esperar, ya que no poseen ninguna comprensión de las palabras que usan, por lo que verificar algo es pura adivinación estadística.
Una vez leí un artículo sobre por qué es imposible que las alucinaciones desaparezcan. Una de las razones, que intento explicar, es que las IA generativas son siempre "hacia adelante". El "pasado", o el contexto hacia atrás, no se tiene en consideración porque la IA intentará generar lo siguiente que tenga más "sentido" respecto a lo que acaba de generar. Esto puede acumular desviaciones que terminen siendo una alucinación.
¿Estamos condenados a la incertidumbre?
En otras palabras, una alucinación es un resultado perfectamente normal hasta donde la IA sabe.
Y joder, si le llaman "alucinación" no puede ser que sea "un resultado perfectamente normal hasta donde la IA sabe".
Aparte de esto, ¿Hay algo en el universo que no sea determinista?. Los que responden que sí, no lo justifican lo suficiente para convencerme, sino que tal respuesta tiene mucho de dogmática.
Si por determinista entendemos que es posible saberlo a priori, antes de que pase, la respuesta es no.
Actualmente, los electrones son una nube de probabilidad, creo que con eso está dicho todo.
Yo te dejo el artículo que leí y tú decides por ti mismo: arxiv.org/abs/2409.05746
De todas formas, la conversación original era sobre las alucionaciones, y si las LLM son o no son deterministas. Se dice que no lo son. Si fueran deterministas, la misma pregunta sería respondida de la misma forma. Y no es el caso.
Por lo demás, sí. Un prompt genera la misma respuesta siempre. De ahí el cabreo de los profesores cuando ven que todos los alumnos sacan la misma respuesta con el mismo error malargumentado de la misma forma.
-
No. No hay una teoría (Mecánica Cuántica) que diga que es una nube de probabilidad. Lo que hace la MC es proporcionar una forma de calcular… » ver todo el comentario
No entiendo tanto de MC como para ponerme a debatir. Pero tengo claro que el determinismo, pudiendo existir, no lo tenemos controlado, pero sí hay indicios de que hay eventos que tienen un fuerte componente aleatorio. Que sí, que todo tendrá una razón, pero esa razón no es fácilmente conocible ni determinable, lo que a los efectos, para nosotros, la hace más o menos aleatoria.
www.merca20.com/ceo-de-anthropic-revela-que-no-sabe-como-funciona-su-i
www.reddit.com/r/singularity/comments/1dhlvzh/geoffrey_hinton_says_in_
Totalmente cierto. Lo que los modelos razonadores generan es una salida más. Lo que hacen internamente no tiene nada que ver.
Esa salida se genera a partir de prompts tomados de plantillas. Los prompts están pensados para generar esa salida, y eso es lo que hacen. No tiene absolutamente nada que ver con el proceso de generación de la respuesta que den.
Acalicuá. Esto es lo que hay. Se ha estado haciendo modelos cada vez más grandes y eran cada vez más estables sin que nadie supiera el porqué. Ahora (justo después de la invasión de la IA china). El porcentaje de alucinaciones ha subido muchísimo, y no se sabe el porqué.
Un 50% de alucinaciones es algo de esperar de un cacharro que no sabe lo que dice y tiene muchísima información dentro que no puede distinguir. Lo raro era lo de antes.
No le veo un camino de mejora a esto si no es añadiendo tecnología nueva. Pero algo así puede tardar años, y eso teniendo financiación, que no es nada seguro.
Yo solo uso la IA como buscador. Es muy bueno para eso.
Si nos vamos al mundo cotidiano, le pasé una foto de una orquídea que tiene la parte… » ver todo el comentario