Artículos
151 meneos
7420 clics

¿Son los LLM un simple predictor estadístico de palabras?

Cada vez que se habla de Inteligencia Artificial Generativa, los comentarios se llenan de la misma frase repetida como un mantra: "es solo estadística", "no razona, solo predice la siguiente palabra". La respuesta corta a la pregunta del título es: . Pero la respuesta larga es que eso no significa lo que mucha gente cree que significa. Reducir un LLM a eso es como decir que un cerebro humano es "solo un montón de células intercambiando iones": técnicamente cierto, pero absolutamente inútil para explicar el razonamiento humano.

De la frecuencia a la topología

El error base de la crítica habitual es asumir que los LLM funcionan mediante tablas de frecuencias o permutaciones simples, como el autocompletar de tu móvil de 2015.

Lo que aprenden estos modelos durante el pre-entrenamiento no es una lista de qué palabra suele ir detrás de otra. Lo que hacen es aprender a iterar a lo largo de una función de distribución extraordinariamente compleja. Esta función encapsula la estructura lógica, semántica y sintáctica de todo el corpus de texto que ha producido la humanidad.

Imaginad un mapa multidimensional (el espacio latente). En este mapa, el modelo no memoriza frases; entiende la topología de los conceptos. "Rey" está cerca de "Reina" en la misma dirección y distancia vectorial que "Hombre" está de "Mujer".

  • El modelo no "copia y pega".
  • El modelo navega por esta función matemática.

Esto es lo que le permite "saber cosas" y hablar siguiendo las reglas humanas. No está recuperando datos de una base de datos, está reconstruyendo información navegando por esa distribución aprendida.

La importancia del post-entrenamiento y RLHF

Aquí es donde la mayoría de los comentarios críticos se equivocan más. Si nos quedáramos solo con la predicción de palabras (el modelo base), tendríamos un sistema capaz de hablar, pero incoherente y sin propósito.

Lo que dota de sentido a los LLM modernos no es la predicción estadística, sino el Post-entrenamiento mediante Aprendizaje por Refuerzo con Retroalimentación Humana (RLHF).

En esta fase, no se enseña al modelo a hablar, sino a comportarse como nosotros queremos.

Es aquí donde los ingenieros enseñan al modelo en qué sentido debe desplazarse por esa función de distribución para ser útil. Se le premia o castiga algorítmicamente para moldear su "intencionalidad". Gracias al RLHF, el modelo aprende, entre otras cosas, a:

  1. Encadenar ideas (Reasoning): No solo busca la palabra que "suena bien", sino la que sigue una lógica deductiva paso a paso.
  2. Usar herramientas: El modelo aprende a reconocer cuándo su función de distribución no tiene el dato preciso (ej. una raíz cuadrada compleja) y decide detenerse para llamar a una calculadora o ejecutar código Python.
  3. Consultar datos externos: Aprende a buscar en internet cuando su "memoria" está desactualizada.

Conclusión

Decir que un LLM no tiene propósito porque "su mecanismo base es predecir tokens" es caer en un reduccionismo que nos impide ver la realidad. Esa predicción es el mecanismo de transporte, pero la ruta que elige el modelo viene determinada por un entrenamiento que va mucho más allá de la estadística simple.

Vemos a mucha gente cómoda en la simplificación del "loro estocástico" porque es una respuesta fácil a un problema complejo. Pero si queremos debatir seriamente sobre el futuro de la tecnología, deberíamos molestarnos en indagar cómo funciona esa función de distribución y cómo el aprendizaje por refuerzo está creando sistemas que, efectivamente, razonan (aunque sea de una forma diferente a la nuestra).

94 57 2 K 95
94 57 2 K 95
18 meneos
900 clics

Oremos hermanos

Doy gracias a la silenciosa y perfecta maquinaria de mis células, que en este instante orquesta millones de reacciones químicas para mantener mi homeostasis y regalarme salud sin que yo tenga que esforzarme por ello.

Valoro la inmensa fortuna estadística de mi nacimiento, reconociendo que soy el resultado final de una cadena evolutiva ininterrumpida de ancestros que lograron sobrevivir y reproducirse a lo largo de millones de años.

Reconozco mi conexión material con el planeta, agradeciendo la energía que tomo prestada del sol y los átomos que intercambio con la atmósfera, entendiendo que no soy un ser aislado, sino parte de un ciclo físico mayor.

Ante la neutralidad objetiva del cosmos, celebro mi capacidad humana para usar la razón y construir mi propio propósito, asumiendo la plena responsabilidad de dotar de sentido ético a mis acciones de hoy.

Me asombro ante el raro fenómeno emergente de mi propia mente, que desafía la tendencia al desorden del universo para otorgarme el privilegio único no solo de existir, sino de saber que existo.

Integro con profunda gratitud todas estas fuerzas, reconociendo que soy la afortunada convergencia de la materia, la historia evolutiva y la consciencia, y abrazo el privilegio absoluto de ser, aquí y ahora, el universo celebrando su propia existencia.

Amén.

menéame