Tecnología, Internet y juegos
6 meneos
40 clics
Qué pruebas usamos para medir lo "inteligente" que es una IA

Qué pruebas usamos para medir lo "inteligente" que es una IA

Durante algún tiempo, se ha clasificado a los distintos LLM en función de su capacidad para superar las pruebas de acceso a la escuela o a la universidad. Esta capacidad solo era sorprendente en apariencia. Los modelos no demostraban su capacidad para "razonar" o resolver problemas, sino que se limitaba a reconocer patrones, identificando correlaciones estadísticas entre la entrada proporcionada y la salida requerida. Es más o menos como un estudiante que memoriza todas las respuestas, sin haber entendido ninguna de ellas.

| etiquetas: ia , llm , mmlu , herramientas , razonamiento , puntos de referencia
Pones un modelo a dar por culo a otro.
anv #2 anv *
También se les hace pruebas que requieren razonamiento especialmente pensadas para que no puedan resolverse en base a puro entrenamiento y cada vez responden mejor. Muchas veces superando a los humanos.
Para mitigar el problema del overfitting los tests de benchmark no dicen qué problemas se acertaron y cuáles no, aunque esto no veo cómo es una solución a largo plazo. También en cada test, el conjunto de problemas es un subconjunto pequeno del total. Esto parece más efectivo pero conlleva el problema de que funciona menos como un benchmark real.

Supongo que la única solución realmente es ir sacando benchmarks con problemas completamente nuevos y más complejos, pero llegará un punto en que no habrá capacidad humana para poder hacer tests que evalúen bien la generalización. Creo que posiblemente en algún punto los modelos competirán entre sí en el mundo real, en lugar de ser evaluados por tests disenados por humanos.

menéame