Durante algún tiempo, se ha clasificado a los distintos LLM en función de su capacidad para superar las pruebas de acceso a la escuela o a la universidad. Esta capacidad solo era sorprendente en apariencia. Los modelos no demostraban su capacidad para "razonar" o resolver problemas, sino que se limitaba a reconocer patrones, identificando correlaciones estadísticas entre la entrada proporcionada y la salida requerida. Es más o menos como un estudiante que memoriza todas las respuestas, sin haber entendido ninguna de ellas.
|
etiquetas: ia , llm , mmlu , herramientas , razonamiento , puntos de referencia
Supongo que la única solución realmente es ir sacando benchmarks con problemas completamente nuevos y más complejos, pero llegará un punto en que no habrá capacidad humana para poder hacer tests que evalúen bien la generalización. Creo que posiblemente en algún punto los modelos competirán entre sí en el mundo real, en lugar de ser evaluados por tests disenados por humanos.