TRANSFORMER EXPLAINER - Visualizador gráfico de cómo funciona un LLM internamente

18 meneos

244 clics

TRANSFORMER EXPLAINER - Visualizador gráfico de cómo funciona un LLM internamente

A raíz de las conversaciones sobre cómo funciona internamente la IA (refiriéndonos a ChatGPT, etc), que son modelos LLM, os comparto este repositorio divulgativo que explica de manera gráfica e interactiva cómo funciona la arquitectura Transformer, que es la pieza básica de un LLM. Aquí podréis observar en detalle en que consiste el cálculo probabilístico del siguiente token a generar, base del funcionamiento.

| etiquetas: llm , ia , transformer

16 2 0 K 23

17 comentarios

16 2 0 K 23

#1 nalacily

El transformer es solamente un componente de la red neuronal. Sería más interesante explicar cómo funciona una red neuronal, porque la gran mayoría de la gente no lo sabe.

Aparte de eso, un LLM es un montaje realizado usando redes neuronales como componentes, pero también hay más cosas. Sería aún más interesante explicar qué es un LLM, porque tengo observado que los creyentes en la IA que corren por aquí, pues no lo saben. Es alucinante pero va en serio que no lo saben.

3 41

#2 TikisMikiss

Para aprender todo lo que comentas hay especializaciones en Coursera muy buenas.

Para lo demás, pues es como todo, el 99% de la gente se va a quedar con lo mínimo o puede echar un ojo a alguna explicación divulgativa algún día por curiosidad, pero poco más. Es normal.

0 7

#3 pip

bueno, realmente esta simulación (con código real) recoge una buena parte del núcleo de un LLM, los transformers y la red neuronal posterior. Puedes introducir un prompt de ejemplo y expandir con el ratón cada paso viendo los vectores, matrices, etc, y atendiendo a las explicaciones comprender por qué procesos se pasan hasta generar la lista de tokens de salida más probables y cómo elige uno. Aunque sea incompleto, sinceramente no he encontrado en ningún sitio una explicación más gráfica e interactiva que ésta.

Para un programador que quiera comprender el funcionamiento sin entrar en papers matemáticos y sin aspirar a programar su propio LLM (aunque en el repositorio está el código), esto es oro puro... IMHO.

2 27

#4 TikisMikiss

Para visualizarlo y hacerse una idea yo creo que está bastante bien, y está chulo cómo lo han hecho.

0 7

#6 nalacily

La simulación es una maravilla, pero es necesario entender de qué forma parte, que es lo que yo veo que no se sabe.

0 6

#7 TikisMikiss

Ya pero al final acabamos explicando lo que es una regresión logística, y de ahí a fundamentos de las matemáticas.

La simulación está bastante bien, si necesitas más contexto y no quieres hacerte una especialización... pídele un resumen a ChatGPT

1 17

#8 nalacily

A ver, no, más en detalle no, al contrario, más en general, más desde lejos. Es lo que yo veo que no se entiende en absoluto.

Lo que no es una crítica a la simulación. Yo hablo de lo que veo que la gente no entiende.

0 6

#9 TikisMikiss

Ya, si te he entendido. Pero esa abstracción de la que hablas requeriría o bien de una simulación específica (que igual hay alguna por ahí) o bien pues cualquier artículo divulgador. La cuestión es que al final tienes que combinar varios ámbitos de conocimiento incluso para un "resumen abstracto". Eso el 99% de la gente no lo va a hacer ni con este tema ni con ninguno. Y es totalmente lógico.

A mí me preguntas por cuestiones de cómo funciona mi coche y... ni guarra, oiga.

0 7

#10 pip

si podéis concretar un poco más sobre a que abstracción os referís os lo agradezco. Yo he leído bastante de AI y, aparte de los papers académicos, solo he leído algo con más detalle que esto: el libro "Build a Large Language Model (From Scratch)". Por encima (mirando el tema más desde lejos), la mayor parte de la bibliografía ataca o a cuestiones prácticas (como usar los LLM), sociales (impacto en la sociedad, etc) o filosóficas (como se compara respecto al cerebro humano, si las máquinas pueden o no pensar, si existe el alma, etc).

Así que agradecería que precisáseis más para buscar bibliografía sobre ese tema en particular.

0 10

#12 TikisMikiss *

Yo por lo que entendí de su primer comentario era hacer una visualización de una red neuronal (que bien pudiera ser simple para el ejemplo) de forma más genérica:

"Sería más interesante explicar cómo funciona una red neuronal, porque la gran mayoría de la gente no lo sabe."

Los transformers son un tipo/arquitectura de red neuronal. Si nos vamos a una abstracción intermedia entre un transformer, arquitecturas para secuencias... hasta llegar a la estadística y las regresiones… » ver todo el comentario

1 17

#13 TikisMikiss

Y más allá de lo que digo en , para tener un conocimiento profundo del asunto lo mejor es hacer las especializaciones de Coursera de Deep Learning y de NLP (ambas de Andrew Ng, de Stanford, que dirigía el curso inicial de Machine Learning que fue uno de los primeros de Coursera y una maravilla) y luego ya irse a las LLMs. Me refiero ya según uno quiera meterse en el asunto. Las especializaciones están muy chulas y son amenas.

1 17

#14 TikisMikiss

Dicho todo esto, si queréis una abstracción guapa guapa y que todo el mundo lo entenderá, una LLM hace esto:

p(siguiente token∣tokens previos)

Ni hace falta el paso intermedio de saber qué es una red neuronal para saber eso.

¿Que saber cómo funciona una red neuronal, qué hace la/s capa/s "oculta/s", cómo "entrena", los pesos, la función de coste, etc etc, ayuda a entender el asunto? Sí, pero todo eso ya se ve en este simulador, aunque sea sobre un tipo de NN específica con sus peculiaridades. Así que está perfecto.

1 17

#16 nalacily

p(siguiente token∣tokens previos)

Eso es el bucle básico, algo que los creyentes en la fe artificial no saben que existe.

Pero un LLM hace mucho más. Lo primero es inyectar el prompt de sistema. Luego lo de clasificar el prompt de usuario para escoger un tipo de tratamiento. Lo de generar un "razonamiento" y sobre todo los intentos de verificación del resultado. Hay mucho código picado ahí dentro.

0 6

#11 sorrillo *

Es alucinante pero los hay que se creen que por conocer las partes que constituyen el cerebro digital de un LLM eso les capacita para valorar las características emergentes de ello.

Es equiparable a considerar que un físico de partículas por su conocimiento de las partes constituyentes del cerebro tiene capacidad para valorar las características emergentes de ese cerebro.

Como si un físico de partículas o un biólogo fueran autoridades para determinar si lo que ha hecho una persona es artístico o un mero plagio, si es creativo o una simple repetición de lo aprendido, si es capaz de crear obras nuevas o solo mezclas de lo aprendido de otros.

0 10

#15 nalacily

Eso de las características emergentes suena demasiado a querer ver lo que no está ahí.

0 6

#17 sorrillo

El comentario que has escrito y al que estoy respondiendo es consecuencia de una característica emergente de la organización de partículas fundamentales.

Sospecho que eres incapaz de explicar la elección de las palabras de tu comentario y el orden usado basándote únicamente en la teoría de campos de la física cuántica. Cuando un sistema se vuelve suficientemente complejo el resultado deja de poder explicarse a efectos prácticos por sus elementos que lo componen y se requiere de un análisis… » ver todo el comentario

0 10

#5 nalacily

Lo que no te cuentan ahí demasiado claramente es que la memoria necesaria para hacer un transformer crece cuadráticamente respecto al número de tokens a mirar. Esto quiere decir que escalarlo es imposible.

0 6

comentarios cerrados

menéame

condiciones legales / de uso / y de cookies
/ quiénes somos
/ licencias: código, gráficos, contenido
/ HTML5
/ codigo fuente

Tecnología, Internet y juegos

más visitadas

¿Quieres quitar toda la porquería que trae Windows por defecto?: CrapFixer

The Oatmeal: Hablemos del arte hecho con IA [ENG]

Session: El Futuro de la Mensajería Privada

Millones de personas usaron Windows XP gratis con la mítica clave "FCKGW-RHQQ2-YXRKT...". Han desvelado su origen

La protesta ciudadana detiene Chat Control [ING]

más votadas

La protesta ciudadana detiene Chat Control [ING]

Session: El Futuro de la Mensajería Privada

¿Quieres quitar toda la porquería que trae Windows por defecto?: CrapFixer

The Oatmeal: Hablemos del arte hecho con IA [ENG]

Millones de personas usaron Windows XP gratis con la mítica clave "FCKGW-RHQQ2-YXRKT...". Han desvelado su origen

suscripciones por RSS

TRANSFORMER EXPLAINER - Visualizador gráfico de cómo funciona un LLM internamente