Tecnología, Internet y juegos
14 meneos
201 clics
TRANSFORMER EXPLAINER - Visualizador gráfico de cómo funciona un LLM internamente

TRANSFORMER EXPLAINER - Visualizador gráfico de cómo funciona un LLM internamente

A raíz de las conversaciones sobre cómo funciona internamente la IA (refiriéndonos a ChatGPT, etc), que son modelos LLM, os comparto este repositorio divulgativo que explica de manera gráfica e interactiva cómo funciona la arquitectura Transformer, que es la pieza básica de un LLM. Aquí podréis observar en detalle en que consiste el cálculo probabilístico del siguiente token a generar, base del funcionamiento.

| etiquetas: llm , ia , transformer
14 0 0 K 112
14 0 0 K 112
El transformer es solamente un componente de la red neuronal. Sería más interesante explicar cómo funciona una red neuronal, porque la gran mayoría de la gente no lo sabe.

Aparte de eso, un LLM es un montaje realizado usando redes neuronales como componentes, pero también hay más cosas. Sería aún más interesante explicar qué es un LLM, porque tengo observado que los creyentes en la IA que corren por aquí, pues no lo saben. Es alucinante pero va en serio que no lo saben.
#1 Para aprender todo lo que comentas hay especializaciones en Coursera muy buenas.

Para lo demás, pues es como todo, el 99% de la gente se va a quedar con lo mínimo o puede echar un ojo a alguna explicación divulgativa algún día por curiosidad, pero poco más. Es normal.
#1 bueno, realmente esta simulación (con código real) recoge una buena parte del núcleo de un LLM, los transformers y la red neuronal posterior. Puedes introducir un prompt de ejemplo y expandir con el ratón cada paso viendo los vectores, matrices, etc, y atendiendo a las explicaciones comprender por qué procesos se pasan hasta generar la lista de tokens de salida más probables y cómo elige uno. Aunque sea incompleto, sinceramente no he encontrado en ningún sitio una explicación más gráfica e interactiva que ésta.

Para un programador que quiera comprender el funcionamiento sin entrar en papers matemáticos y sin aspirar a programar su propio LLM (aunque en el repositorio está el código), esto es oro puro... IMHO.
#3 Para visualizarlo y hacerse una idea yo creo que está bastante bien, y está chulo cómo lo han hecho.
#3 La simulación es una maravilla, pero es necesario entender de qué forma parte, que es lo que yo veo que no se sabe.
#6 Ya pero al final acabamos explicando lo que es una regresión logística, y de ahí a fundamentos de las matemáticas.

La simulación está bastante bien, si necesitas más contexto y no quieres hacerte una especialización... pídele un resumen a ChatGPT :troll:
#7 A ver, no, más en detalle no, al contrario, más en general, más desde lejos. Es lo que yo veo que no se entiende en absoluto.

Lo que no es una crítica a la simulación. Yo hablo de lo que veo que la gente no entiende.
#8 Ya, si te he entendido. Pero esa abstracción de la que hablas requeriría o bien de una simulación específica (que igual hay alguna por ahí) o bien pues cualquier artículo divulgador. La cuestión es que al final tienes que combinar varios ámbitos de conocimiento incluso para un "resumen abstracto". Eso el 99% de la gente no lo va a hacer ni con este tema ni con ninguno. Y es totalmente lógico.

A mí me preguntas por cuestiones de cómo funciona mi coche y... ni guarra, oiga.
#8 #9 si podéis concretar un poco más sobre a que abstracción os referís os lo agradezco. Yo he leído bastante de AI y, aparte de los papers académicos, solo he leído algo con más detalle que esto: el libro "Build a Large Language Model (From Scratch)". Por encima (mirando el tema más desde lejos), la mayor parte de la bibliografía ataca o a cuestiones prácticas (como usar los LLM), sociales (impacto en la sociedad, etc) o filosóficas (como se compara respecto al cerebro humano, si las máquinas pueden o no pensar, si existe el alma, etc).

Así que agradecería que precisáseis más para buscar bibliografía sobre ese tema en particular.
#10 Yo por lo que entendí de su primer comentario era hacer una visualización de una red neuronal (que bien pudiera ser simple para el ejemplo) de forma más genérica:

"Sería más interesante explicar cómo funciona una red neuronal, porque la gran mayoría de la gente no lo sabe."

Los transformers son un tipo/arquitectura de red neuronal. Si nos vamos a una abstracción intermedia entre un transformer, arquitecturas para secuencias... hasta llegar a la estadística y las regresiones…   » ver todo el comentario
#10 Y más allá de lo que digo en #12, para tener un conocimiento profundo del asunto lo mejor es hacer las especializaciones de Coursera de Deep Learning y de NLP (ambas de Andrew Ng, de Stanford, que dirigía el curso inicial de Machine Learning que fue uno de los primeros de Coursera y una maravilla) y luego ya irse a las LLMs. Me refiero ya según uno quiera meterse en el asunto. Las especializaciones están muy chulas y son amenas.
#8 #10 Dicho todo esto, si queréis una abstracción guapa guapa y que todo el mundo lo entenderá, una LLM hace esto:

p(siguiente token∣tokens previos)

Ni hace falta el paso intermedio de saber qué es una red neuronal para saber eso.

¿Que saber cómo funciona una red neuronal, qué hace la/s capa/s "oculta/s", cómo "entrena", los pesos, la función de coste, etc etc, ayuda a entender el asunto? Sí, pero todo eso ya se ve en este simulador, aunque sea sobre un tipo de NN específica con sus peculiaridades. Así que está perfecto.
#1 Es alucinante pero los hay que se creen que por conocer las partes que constituyen el cerebro digital de un LLM eso les capacita para valorar las características emergentes de ello.

Es equiparable a considerar que un físico de partículas por su conocimiento de las partes constituyentes del cerebro tiene capacidad para valorar las características emergentes de ese cerebro.

Como si un físico de partículas o un biólogo fueran autoridades para determinar si lo que ha hecho una persona es artístico o un mero plagio, si es creativo o una simple repetición de lo aprendido, si es capaz de crear obras nuevas o solo mezclas de lo aprendido de otros.
Lo que no te cuentan ahí demasiado claramente es que la memoria necesaria para hacer un transformer crece cuadráticamente respecto al número de tokens a mirar. Esto quiere decir que escalarlo es imposible.

menéame