Tecnología, Internet y juegos
55 meneos
1346 clics
BullshitBench: modelos de IA que responden preguntas sin sentido [ENG]

BullshitBench: modelos de IA que responden preguntas sin sentido [ENG]  

Esta comparación entre diferentes agentes de inteligencia artificial mide si los modelos detectan premisas incumplidas, señalan directamente las tonterías y evitan continuar con confianza con suposiciones inválidas.

| etiquetas: modelos , ia , inteligencia artificial , sin sentido , bullshit
34 21 0 K 375
34 21 0 K 375
Recuerdo cuando le preguntabas a Google "ok Google, ¿qué es el bastinazo?" y te contestaba "cuando agarras la polla con las dos manos, lo que sobra es el bastinazo" {0x1f602} {0x1f602} {0x1f602} , pena que duró poco {0x1f606} {0x1f606} {0x1f602} {0x1f602} ...
#9 Lo mejor de eso era terminaba la frase diciendo "equis de" xD
#9 pero la respuesta no era incorrecta xD
#10 ninguno, la finca solo media 10m de lado
Avance impresionante de Claude. Me pregunto que tal lo haría una persona de inteligencia media..
#2, me acuerdo de un examen que nos puso el profesor de matemáticas en secundaria que era algo como así: "Juan planta un cerezo cada 15 metros, Laura planta un manzano cada 50, al cabo de 4 horas cuantos árboles han plantado entre los dos?". Casi toda la clase respondió con alguna clase de cálculo.
#5 Se hizo un experimento hace tiempo, si encuentro el enlace lo pongo luego, en el que a la gente le planteaban cosas sin sentido, pero con informacion numerica. La mayoria de gente hacia algun tipo de calculo y presentaba una respuesta aunque el problema no tuviese sentido
#7 casi siempre puedes encontrar alguna relación entre números...

3 6 12 126 , por ejemplo... son al azar. A ver la gente que encuentra xD
#5 Espero que fuera al inicio del curso, si no vaya bajona para él.
#5 si establecemos que: los dos andan a la velocidad media de un adulto (5km/h), y que tardan lo mismo en plantar los dos tipos de árboles (5min).

Tiempo desplazamiento juan=10.8s
Tiempo desplazamiento Laura=36s
T. Cerezo 310.8s
T. Manzano 336s

En 4h=14400s:
46 cerezos y 42 manzanos

8-D
#5 que calculo? Ahí falta info CC #10
#10 tu no has plantado un árbol en tu vida hulio
#14 almendros, un sauce llorón y un olivo. El sauce con sólo una ramita y el olivo de hueso.
Y muchas vides.
#15 y solo tardas 5mn por árbol? Puedes plantar 46 cerezos o 42 manzanos ? :-D
#5 Supondrían que ambos van andando en línea recta, a velocidad normal, probablemente. Muchos problemas "legítimos" incluyen suposiciones implícitas.
Veo que a Grok puntúa siempre alto en el "nonsense accepted" xD
#25 Yo muchas veces le digo que se ponga en un papel de profesor hablando con un alumno o le hablo en tercera persona "mi amigo tiene este problema". La IA tiene muchos menos reparos a llamar a tu amigo idiota que a tí xD
Anthropic arrasa.
Por lo que entiendo en la primera gráfica Qwen está muy bien posicionado, segundo justo detrás de Claude. Pero en la segunda gráfica no veo que aparezca siquiera. ¿Cuál es el criterio?
#4 esa pregunta se la podrías hacer a Bullshitbench :troll:
No le veo el sentido de medir la utilidad de una herramienta haciendo un uso incorrecto de la misma.
#22 no es en absoluto un uso incorrecto. El humano puede plantearle algo incorrecto a la IA por ignorancia u omisión y ésta deberia ser capaz de percibir el error y corregir al humano.
#22 Las IA tienen tendencia a darte la razón aunque seas idiota. Yo prefiero que me llamen idiota de primeras a perder un par de horas antes de enterarme por mi cuenta.
#24 en el prompt general que iso le indico que sea profesional y nada condescendiente, a veces hago preguntas tontas por desconocimiento del tema por el que le estoy preguntando y viene bien saber que lo le planteas no tiene sentido ya sea de química o sobre la jubilación
Falta el icono de zurullo anaranjado.

menéame