A raíz de las conversaciones sobre cómo funciona internamente la IA (refiriéndonos a ChatGPT, etc), que son modelos LLM, os comparto este repositorio divulgativo que explica de manera gráfica e interactiva cómo funciona la arquitectura Transformer, que es la pieza básica de un LLM. Aquí podréis observar en detalle en que consiste el cálculo probabilístico del siguiente token a generar, base del funcionamiento.
|
etiquetas: llm , ia , transformer
Aparte de eso, un LLM es un montaje realizado usando redes neuronales como componentes, pero también hay más cosas. Sería aún más interesante explicar qué es un LLM, porque tengo observado que los creyentes en la IA que corren por aquí, pues no lo saben. Es alucinante pero va en serio que no lo saben.
Para lo demás, pues es como todo, el 99% de la gente se va a quedar con lo mínimo o puede echar un ojo a alguna explicación divulgativa algún día por curiosidad, pero poco más. Es normal.
Para un programador que quiera comprender el funcionamiento sin entrar en papers matemáticos y sin aspirar a programar su propio LLM (aunque en el repositorio está el código), esto es oro puro... IMHO.
La simulación está bastante bien, si necesitas más contexto y no quieres hacerte una especialización... pídele un resumen a ChatGPT
Lo que no es una crítica a la simulación. Yo hablo de lo que veo que la gente no entiende.
A mí me preguntas por cuestiones de cómo funciona mi coche y... ni guarra, oiga.
Así que agradecería que precisáseis más para buscar bibliografía sobre ese tema en particular.
"Sería más interesante explicar cómo funciona una red neuronal, porque la gran mayoría de la gente no lo sabe."
Los transformers son un tipo/arquitectura de red neuronal. Si nos vamos a una abstracción intermedia entre un transformer, arquitecturas para secuencias... hasta llegar a la estadística y las regresiones… » ver todo el comentario
p(siguiente token∣tokens previos)
Ni hace falta el paso intermedio de saber qué es una red neuronal para saber eso.
¿Que saber cómo funciona una red neuronal, qué hace la/s capa/s "oculta/s", cómo "entrena", los pesos, la función de coste, etc etc, ayuda a entender el asunto? Sí, pero todo eso ya se ve en este simulador, aunque sea sobre un tipo de NN específica con sus peculiaridades. Así que está perfecto.
Es equiparable a considerar que un físico de partículas por su conocimiento de las partes constituyentes del cerebro tiene capacidad para valorar las características emergentes de ese cerebro.
Como si un físico de partículas o un biólogo fueran autoridades para determinar si lo que ha hecho una persona es artístico o un mero plagio, si es creativo o una simple repetición de lo aprendido, si es capaz de crear obras nuevas o solo mezclas de lo aprendido de otros.