Tecnología, Internet y juegos
18 meneos
675 clics
Preguntas trampa para «ir a pillar» a los LLM: hasta los mejores fallan con preguntas tan triviales

Preguntas trampa para «ir a pillar» a los LLM: hasta los mejores fallan con preguntas tan triviales

A continuación, una lista de algunas de las preguntas típicas con que se puede probar en plan rápido cualquier nueva versión de un LLM y hacerla fallar miserablemente, cuestionando si realmente ha mejorado, es tan potente como dicen o qué narices pasa en esas «cajas negras». Ojo que hasta ChatGPT-5 parece estar fallando en alguna de ellas, por infantiles que parezcan, concretamente en la comparación numérica y en la «prueba blueberry», aunque depende de quién te lo cuente, porque a mi me ha funcionado.

| etiquetas: preguntas trampa , llm , ia , inteligencia artificial , chatgpt
15 3 0 K 139
15 3 0 K 139
#6 No sé cómo has podido decir eso sin despeinarte.
#14 porque los LLMs no usan algoritmos básicos para encontrar la respuesta. En su lugar, tratan de encontrar una respuesta compuesta por texto que sea la más probable que pueda ir a continuación del texto anterior.
#15 #17 pero es lo que dice que hace con la pregunta de los números pares, un programa en Python. It's very difficult, todo esto.
En fin, gracias.
#12 yo que tú, por experiencia personal, dejaba de discutir con sorrillo, que es el apologeta de la IA. Ni que le pagasen por ello.

Sus comentarios son pseudo argumentos falaces, queriendo dar a entender que la IA razona porque, aunque se equivoque, los humanos también y entonces patatas.

He tenido más de un intercambio de comentarios con él/ella/ello y ya paso, de ahí el consejo.
Le he pasado esas pruebas a Gemini 2.5 Pro (excepto la de la tortuga, porque se supone que no tiene respuesta correcta) y ha respondido correctamente en todos los casos.
#8 y ChatGPT respondió bien todas las que le hice de números hace ya un año o más… No conseguí pillarlo fallando. Supongo que si lo intentas millones de veces al final falle por lo de ese “factor aleatorio” en las respuestas…

Y luego está lo que dice Sorrillo, que mucha gente también fallaría, así que esos fallos de la IA son una prueba más de que cada vez está más cerca de la inteligencia humana xD
#8 yo propuse un acertijo a chatgpt y a gemini, y chatgpt no lo acertó. Gemini si. Por si tenéis curiosidad:
"Un buque ha naufragado en el polo norte. Pasadas unas semanas, en pleno invierno boreal, un individuo desciende de cubierta, sólo, hambriento, desnudo, y sin herramientas para cazar, pescar ni hacer fuego. Sin embargo, consigue sobrevivir. ¿Cómo es posible?"
#20 ¿Y cuál es la respuesta a tu acertijo?
#23 jajaja. Copilot te la habría dado.
Se trata de un oso polar.
#8, hay gente que aunque no se equivoque nunca, jamás va a admitir que ninguna red neuronal artificial muestra comportamiento inteligente, porque va en contra de sus creencias metafísicas.
#14 Si en vez de intentar "deducirlo" escribiese el código en python para contar y lo ejecutase, saldría bien.
Pregúntale a 100 personas cada una de esas pruebas y sospecho que no encontrarás un 100% de aciertos en el 100% de las personas, aunque pueda parecer trivial siempre hay alguien que no se entera y mete la pata y no siempre es el mismo.

Eso no nos permite deducir que esas personas que fallan esa pregunta sean incapaces de razonar o no tengan inteligencia, simplemente el mundo es muy complejo y cada cual tiene sus motivos para fallar en una u otra.

A las IAs les estamos exigiendo la perfección,…   » ver todo el comentario
#6 Ya, pero sabes por qué se utilizan ordenadores en lugar de personas?

En parte porque son más rápidos, pero también porque no se equivocan con los cálculos. Es la gracia, poder confiar en tu sistema completamente.

Imagínate que encargamos a ChatGPT que gestione transferencias de dinero y en una de estas se le va a cabeza y en vez de ingresar "10.000,500" le da por ingresar "10.000.500". Bueno, pues te lía una de cojones.

Para mí es el problema más grande de las IAs por ahora, que se equivocan constantemente.
#12 Los ordenadores siguen existiendo y los programas de contabilidad siguen existiendo, la IA no impide su uso tradicional.

La IA lo que te aporta es algo que un programa de contabilidad no te puede aportar, la IA tiene potencialmente la capacidad de programar un programa de contabilidad, de buscar errores en éste, etc.

Es un error considerar que una IA debe funcionar como un ordenador solo por el hecho que requiera de un ordenador para funcionar.

A las IA se les están proporcionando…   » ver todo el comentario
#12, la tendencia es que cada vez los modelos se equivocan menos y cuesta más pillarlos con preguntas trampa. La tendencia que siguen es la de mejora constante, si alguien te dice que están estancados o no tiene ni idea o te está engañando.
#6, de hecho estas pruebas en mi opinión lo que hacen no es demostrar que los LLM no sean inteligentes sino lo mucho que se parece la forma de razonar que tienen con la que tenemos los humanos. Son preguntas trampas y caen de la misma forma en la que caerían muchas personas a pesar de no haber sido entrenados expresamente para emular este comportamiento.
El otro día se me dio por experimentar con Grok, versión gratuita. Estuve preguntándole por actrices a ver si me decía quién estaba más buena; la verdad es que la versión gratis por lo menos se comporta como el resto de IAs y dice que la belleza es subjetiva y todo eso, con lo que no vi nada raro. Hubo un momento le pregunté por una de Instagram no tan conocida y me dijo que recientemente había sido propuesta para modelo del año. Me sorprendió, porque creo que ni está en activo desde hace años,…   » ver todo el comentario
¿Por qué no le das la vuelta a la tortuga?
#2 Estoy de acuerdo.
#1 No lo creo.
#1 #2 La prueba de que se ha roto la matrix.
#2 #1
Galápagos boca arriba.
¿Por qué fallaría en la de blueberry? ?(
#9 Le dió la pregunta en todo el transformer. Specifically, un LLM divide eso en dos tokens y luego no sabe encontrarlos.
#11 o_o no lo entiendo muy bien. Me extraña particularmente que falle en eso porque recuerdo que lo de comprobar caracteres en cadenas es una cosa básica en la programación
Es que van a pillar. Yo lo usaba mucho :roll:
pero tiene que pasar de un modelo –rápido– a otro más lento y caro –el modelo razonador– y programar algo en Python para «examinar todas las combinaciones posibles» (WTF??!) lo cual es sin duda poco práctico y aún menos una «muestra de inteligencia».

y que te creés que hace nuestro subconsciente??? En realidad es mucho más sofisticado.

menéame