#3#4#6 tanto el medico que firma, como el farmacéutico que prepara y revisa o el enfermero que administra, deberían de haberse dado cuenta del fallo.
Como enfermero, yo pongo mi excusa en que, debido al exceso de carga laboral y rotación, muchas veces ponemos medicación que ni sabemos para que es ni sus márgenes de seguridad, luego pasan estas cosas, el medico y el farmacéutico no se que excusa tienen.
#3 exactamente eso me pareció a mí cuando lo visité hace unos años: un decorado precioso, con zonas de restauración y souvenirs artesanos, pero un pueblo m.u.e.r.t.o. en el que no vive nadie. Ni una tienda normal, ni un estanco, nada.
#1 Este run-run lleva tiempo en vuestras cabezas, no en la comunidad científica. Preguntaros porque.
Cada vez que aparece un estudio, los de siempre a intentar validar sus tontearías, se mira y nada, y así hasta la proxima.
Go to #3 y dejar de intoxicar.
#3 En USAMO benchmark (algo más fácil que una IMO) apenas consigue los mismos puntos que ChatGPT 5.4 o Gemini 3.1, que ya lo saturaron semanas antes. Cualquier test posterior en la misma prueba corre riesgo de sospecha de contaminación.
Sus capacidades son "frontera" pero no establecen ningún nuevo state of the art.