edición general
17 meneos
173 clics
BullshitBench: modelos de IA que responden preguntas sin sentido [ENG]

BullshitBench: modelos de IA que responden preguntas sin sentido [ENG]  

Esta comparación entre diferentes agentes de inteligencia artificial mide si los modelos detectan premisas incumplidas, señalan directamente las tonterías y evitan continuar con confianza con suposiciones inválidas.

| etiquetas: modelos , ia , inteligencia artificial , sin sentido , bullshit
Avance impresionante de Claude. Me pregunto que tal lo haría una persona de inteligencia media..
#2, me acuerdo de un examen que nos puso el profesor de matemáticas en secundaria que era algo como así: "Juan planta un cerezo cada 15 metros, Laura planta un manzano cada 50, al cabo de 4 horas cuantos árboles han plantado entre los dos?". Casi toda la clase respondió con alguna clase de cálculo.
#5 Se hizo un experimento hace tiempo, si encuentro el enlace lo pongo luego, en el que a la gente le planteaban cosas sin sentido, pero con informacion numerica. La mayoria de gente hacia algun tipo de calculo y presentaba una respuesta aunque el problema no tuviese sentido
#5 Espero que fuera al inicio del curso, si no vaya bajona para él.
#5 si establecemos que: los dos andan a la velocidad media de un adulto (5km/h), y que tardan lo mismo en plantar los dos tipos de árboles (5min).

Tiempo desplazamiento juan=10.8s
Tiempo desplazamiento Laura=36s
T. Cerezo 310.8s
T. Manzano 336s

En 4h=14400s:
46 cerezos y 42 manzanos

8-D
#10 ninguno, la finca solo media 10m de lado
Recuerdo cuando le preguntabas a Google "ok Google, ¿qué es el bastinazo?" y te contestaba "cuando agarras la polla con las dos manos, lo que sobra es el bastinazo" {0x1f602} {0x1f602} {0x1f602} , pena que duró poco {0x1f606} {0x1f606} {0x1f602} {0x1f602} ...
Veo que a Grok puntúa siempre alto en el "nonsense accepted" xD
Anthropic arrasa.
Por lo que entiendo en la primera gráfica Qwen está muy bien posicionado, segundo justo detrás de Claude. Pero en la segunda gráfica no veo que aparezca siquiera. ¿Cuál es el criterio?
#4 esa pregunta se la podrías hacer a Bullshitbench :troll:
Falta el icono de zurullo anaranjado.

menéame